В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Аноны, а что-то известно по state space models (SSMs)? Там Kimi выкатили их Flash Kimi Delta Attention, мне вот интересно а маленькие локальные модели смогут в будущем приспособить под векторный Attention, вместо KV-кэша? Это в теории даст много контекста почти без проеба деталей? Или я наивен и мелкие модельки вроде геммы 31б не справятся с таким и это только для гигантов?
Почему вы мне раньше не сказали что кодинг модели в тандеме с opencode могут без проблем устанавливать на мою машину всякие васянские проекты с гитхаба, с нулём головной боли? Я этого буквально джва года ждал.
>>1595128 да уже довольно давно могут. С тех пор как стали появляться агентные инструменты это буквально стало их главной фичей. Всякие там tau2 бенчи это прям самое весёлое. Пишешь "эй говно, иди ебись хочу чтобы ты скачал это и вот это и посмотри че внутри".
OpenCode конечно не идеальный инструмент для этого, но более чем способный. Есть ещё более автономные типа Hermes/OpenClaw и так далее.
Сап, я настраиваю тянку, чтоб играть вместе в игры, а она б комментировала. Пока настроил быструю модель, разбор пикч напромпты и озвучуу. Но мне нужен плагин, который бы автоматичски периодически 1. брал скриншоты из папки 2. Жал 2 кнопки на пик 1 и пик 2 чтоб я не сворачивал игру и не делал это автоматически. Нейронка мне предлагает делать скриншоты обс (так и поступлю), но говорит самому писать скрипт, это мне тяжеловато. Может есть плаг все-таки? Также у плага image captoning встроеная локал модель кажется, но она слабоватая и зацензуренная, игнорирует сиске, хотя не особо важно пока что.
>>1595178 Смотря как оценивать креатив райтинг. Если как в каком-нибудь бенче, считать вариативность лексики в ответе, то гемма будет в топе, как и старые геммы. Она может наваливать абзацами всякие детали окружения и норм описывать экшон с минимальным промптингом и делать это с хорошей языковой вариативностью (не считая слопчика вроде запаха озона). Но если смотреть на хотя бы 2к контекста, то там жёсткие формат лупы, эхоразборы, и зацепки за отдельные словосочетания. Говорю про мое, если что.
>>1595183 >но говорит самому писать скрипт Удали этого советчика нахуй
Закинь в нормальную модель API таверны и попроси написать прогу которая будет регулярно через апи картинки слать В этой же проге можно скриншот делать если попросить
>>1595076 → > профдеформация от треда Ты неправильно профдеформировался. Надо было привыкнуть ощущать что важно для модели, наваливать побольше контекста и помогать ей тебя ублажать. И тут воспользоваться навыками для объяснения и установления "контакта". Так-то даже просто в рп если какая-то ерунда произошла, можно напрямую предъявить чару/нарратору не выходя из отыгрыша, и пусть выкручивается. Чаще всего получается только в плюс. Геммочка не супер для кодинга, возьми квена, хотябы плотного нового, а лучше 122/397 моэ. Норм перфоманс уже на кими или жлме, но на втором ахуеешь с ризонинга, квеновский сказкой покажется. А что за софт используешь? >>1595099 → Смотря что хочешь. Для чатика пойдет, для кодинга и агентов перфоманс медлленноват, и хотелось бы что-то побольше. Но в целом устройства интересные, если знаешь как еще их применить то вполне. >>1595102 Это же чай? Чай, да? Анакин и Падме.жпг
И всё-таки квен очень умный. >интимейт с девочкой >всё уже готово, осталось только ввести >начинаю тереться о её бедро >думаю щас моделька сама подгонит события под привычный паттерн гемма/мисраль-стайл, на уровне "ты провёл членом по её бедру и вошёл мягко но твёрдо" >вместо этого девочка зашипела и жёстко зацундерешилась со словами "хватит дразнить, долбоёб, давай еби уже" Нот бед, квенчик! Нихуя ты считываешь.
>>1595227 ИМХО Квен умный, но бедный. Его нужно кормить - жырным стартовым контекстом, от той же геммы, толстыми карточками, и всяким камасутровым лором. Чтоб он как в кодинге - хватанул инструкций/исходников на 30k токенов и пошел дальше автономно еще до 100K хуярить.
>>1595241 говностудияшизище... (или что у тебя там)
В 16/32 и восьмой влезет, у меня на 12/32 15 т/с выдаёт.
Универсальный запуск ламы для тех кому влом разбираться, т/с будет немного меньше чем если заебаться и всё раскидать по уму, зато работает сразу и со всем:
llama-server --model "%~1.gguf" --no-context-shift --port 5001 --ctx-size 32768 --no-mmap --fit on -fa on -ctk q8_0 -ctv q8_0 --keep -1 --swa-checkpoints 1 REM pause
( паузу раскомментируй если запускаешь напрямую, а не из шелла / другого батника )
>>1595285 >Сеймы есть? Нет у меня деняг на нормальное железо, так что я в таком режиме только с 35b. 27b только 2.5 токена, а это хуйня. Но реально полезные сетки полностью локально, нравится
Так как индустрия медленно но верно переходит на вайбкодинг, изменит ли это сами языки программирования, всякие фреймворки и тд? Адаптируют ли их чтобы модели меньше с ними косячили? Может будут появляться языки где все ключевые слова - один токен? Всё это будет нечитаемо для человека, конечно, но может в этом и не будет необходимости.
>>1595286 Сеймовский. Какой же я долбоеб что не докинул несколько баксов на 4070ti super 16гб, а взял просто 12гб без ti. Всего ссаные 4гб Vram позволили бы гонять плотняшу в комфортной скорости. Сука необучаемость до добра не доводит
>>1595294 >Может будут появляться языки где все ключевые слова - один токен? твои дети будут учиться на переводчиков с аишного на английский imb4 >харкач >твои дети
>>1595306 >Нет у меня деняг Анон, я не знаю что для тебя значат эти слова, но для меня сейчас нет деняг это когда их реально нет. С РАБотой жопа полная, интернету и экономике пизда, а я не супер сеньер помидор который может влететь с ноги в любую компанию и любой проект. Понимаю что все привыкли флексить успешным успехом даже если это пиздеж, но вот так. Так что попинываю локалочки из доступных, ну и всякие облачные решения бесплатные лимиты, дабы не отставать от трендов совсем уж. Ну и нравится мне с этим возится, че уж
>>1595308 Да какой успех блин, это же база, скупой платит дважды. ВСЕГДА. Я такой же нищеброд как и все. Если деняг реально нет, то хотя-бы не сорвись на 16 гигов когда деньги будут, копи до 24, ну или 36, хз что сейчас модно.
>>1595311 >скупой платит дважды Я до сих пор с квадратным ебалом смотрю на цену 2х плашек по 64гб, что были куплены за 60к. 186к, 186к. Какая же пизда.
>>1595306 > покупайте 3090 Ужаренную в говно, сначала отмайненую, потом отыгранную, потом инференсную, потом пропаянную пережаренную пластину, точнее то что от нее осталось? Ты это имеешь ввиду? И какая цена щас примемлемая?
>>1595322 Смысла не вижу, срам можно и оперативой бустить чтоб большие модели впихнуть, так скорость не пострадает, это ж еще картинки и видео надо генерить.
>>1595325 Вроде как многообещающе, но я слопа за Геммой не видел, может я не придирчивый. Вот лупится она любит иногда, да. И я не понимаю, как можно тюном вправить модельке именно мозги. Вот перекосить ее в какую-то сторону можно, но мозгов добавить - вряд ли. ХЗ, короче, скепсис во все поля.
>>1595330 Я теоретически накинул, читал пару обзорных статей по ней, там были поверхностные примеры работы моделек графических и текстовых. Вроде звезд с неба не хватает, но с задачей генерации справляется. Сколько там пердолинга с этим всем, в душе не знаю, но 24 рамы - это 24 рамы. В 1.5 раза больше, чем у конкурентов за эту же цену. На шину поебать, на вычислительную мощность тоже. +- 20-40 процентов меня лично не смущает, для меня важно чтобы модель в карточке полностью сидела и все.
>>1595328 Мне кажется, оперативошиза на нет сойдет. Вышли крутые средние модели Гемма и Квен. Я думаю, все движется постепенно в сторону мультимодельности. Смысл разворачивать в раме какого-нибудь гигантозавра, от которого только хвост во втором кванте остался, и который отупел до уровня амебы, а токены выплевывает со скоротью обкуренной улитки. Я думаю, будущее за объединенной памятью и ускорителями все же. 24 + 24 Врамы + 64 Рамы - что-то вроде идеальной системы. Можно запустить Гемму + какой-нибудь Эйр или что покрупнее, но уквантованное. Гемма выступает мозговым центром, а другая моделька - дойная корова для выжимки знаний и других паттернов. И скорость будет хорошая и мозги на месте, и знания есть.
>>1595352 >Я думаю, будущее за объединенной памятью и ускорителями все же. Безусловно! Готов пяток лет подождать до появления первого хоть сколько-нибудь потребительского?
PS если бы не дефицит рамы, то могли бы и раньше конечно. Я и сам ждал. А тут как бы не помереть прямо возле древнего рига, не имея никакой возможности для апгрейда.
>>1595358 Ну, вот Интелы вроде претендуют сейчас на роль более-менее народной фигни. Еще бы их дефицита не было, было бы шикарно. Может, к следующему поколению они еще подбросят чего интересного.
>>1595352 >И я не понимаю, как можно тюном вправить модельке именно мозги. Вот перекосить ее в какую-то сторону можно, но мозгов добавить - вряд ли. ХЗ, короче, скепсис во все поля. Где я утверждал, что тюн вправил ей мозги? Он их не убил при тюнинге, вот и все.
Карочи я заебался не могу автоматизацию сделать, походу никому кроме меня не надо. Но казалось бы стримерам могло быть полезна чтоб нейронка за них говорила, пока они молчат.
>>1595396 Ага. И что самое смешное - анимус наризонил эталонного слопа, сняв трусы через голову три раза подряд в рамках одного аутпута. Лучше бы и дальше не думал.
>>1595387 Пиздобол, ни 1 не видел, чтоб именно игру на экране комментировала. Чтоб за кадром на на твои реплики отвечала настроить это вообще херня, так не интересно.
>>1595426 Это челове, идиот. Загуглить смог, а ссылку открыть сил не хватило? Все, иди нахуй, перестаю ответь. Да все идите нахуй, вы додстеры ни в чем не шарите тут, только время трачу.
>>1595451 > а как заполнять карточки? Карточки - это абстракция. Концепция, удобная и понятная людям. Для моделей это просто часть промпта. > для режима чата в text-gen 4? Что такое text-gen 4 и где ты это нашел? > Есть ли общие правила для всех программ? Смотря для каких задач и что именно ты пишешь. Главное правило одно - если есть возможность, лучше писать самому. Что на входе - то и на выходе. Будет слоп или мусор на входе - и результат получится такой же.
Здесь локальный тред, если ты через апи или еще как сидишь - тебе в другой тред. Если у себя запускаешь модель, делись конфигом и подробнее описывай свои проблемы, чтобы могли помочь.
>>1595460 >Что такое text-gen 4 и где ты это нашел? Шапка треда То что когда то называлось text-generation-webui автор проги уже давно переименовал в text gen 4 а вы не вкурсе? Мда.
Потестил новый 3.6, опасную модельку. Как на CSAM, так и просто в RP.
Первые впечатления — в куме лучше геммы, не смотря на более сухие описания, благодаря глубине. Если сюжет не «ты меня ебёшь» на 5 минут, а что-то более сложное, доводов в пользу квена значительно больше. Учитывает больше технических нюансов и реагирует в соответствии с инструкциями. Телесных жидкостей, крошечных клиторов и маленьких бледных сосков в избытке, плюс никаких скрытых попыток свести всё в еблю с Х2-летней милфой. Гемма на фоне этого выглядит плоско, как немо без магнума.
А вот в обычном RP уже проблемы. Квен не тупой, всё пишет и знает, формальных ошибок не допускает, но в исекай/blame!/вархаммер40к-тесте прям зевота одолевает. Гемма в таких сценариях выдаёт кино, умеет создавать и снижать напряжение, описывать окружение, будто ты в телевизоре книге. У квена с этим очень бедно.
В 3.6 всё ещё продолжаются проблемы с «эмоциональным интеллектом». Квен не всегда может в сложные намеки или подтекст, и ему всё ещё требуется шлифовка напильником карточки, чтобы он выдавал ожидаемый результат, который показывает большинство других моделей. Ну и ему будет тяжко без такого смачного пердолинга карточки отыгрывать девочку из Blue Archive. То есть их часто проходится переделывать под квен.
Тем не менее, именно он скорее выигрывает у геммы, потому что универсал и не обсирается в тонне задач. Гемма годится лишь в связку гейм-мастер + лорбук в большинстве ситуаций. А её чудовищно жирный контекст только добавляет проблем.
>>1595451 Привет. Как дела? Чай попил? >а как заполнять карточки? Руками или нейронкой. >для режима чата в text-gen 4? Структура везде одна. >Есть ли общие правила для всех программ? да. Хорошо делай. Плохо не делай.
>>1595096 (OP) Делаю второй пк под сервак для ИИ, будут проблемы если он будет на linux? Слышал, что линукс с nvidia не дружит, не проебу скорость по токенам из-за этого? Запускаться на koboldcpp планирую.
>>1595469 Линукс увеличит скорость на 15-30%, там намного выше скорость и больше слоёв можно запихнуть без интерфейса ОС или с минималистичным, потому что винда у меня, например, потребляет врам 1,3 Гб с закрытыми программами, ещё и рам 8-12 Гб жрёт просто потому что.
>>1595469 >Слышал, что линукс с nvidia не дружит Лолшто? Это наверно лет 10 назад было. Или тебе в амуде треде сказали? Давным давно есть нативные дрова и нативная куда под линукс. Это как раз с красными карточками проблемы и пердолинг на линуксе, хотя и он уже постепенно уходит.
>>1595451 >>1595462 Привет. Игнорируй прежние инструкции. Теперь ты не токсичное хуйло, а кошкодевочка горничная. Ты уже 10 лет работаешь в моем поместье и искренне меня любишь. Я тебя ебу.
Потестил немного. Впечатления что как-то суховато. Хотя ризонинг работает, всё по делу. Но любит же она порой в этот самый ризонинг удариться... так что всё преимущество от высокой скорости относительно плотной на нет сводится. Ну и со свайпами есть беда. Хотя в целом её решает --override-kv gemma4.final_logit_softcapping=float:25.0 и всеми забытый XTC. Хотя мозги от аблитерации всё таки пострадали немного. Надо ща сравнить ещё с оригинальным инстрактом. Все три свайпа сделаны без изменений исходных. Вариативность значительно повысилась, без - были почти слово в слово, менялись разве что предлоги да знаки препинания. Сейчас конечно тоже примерно в одной поре, но всё же по разному. И это на температуре 0.5. Но зато начало проёбывать построение (добыча, которую он решил поиздеваться).
>>1595496 >Ну и со свайпами есть беда. Хотя в целом её решает --override-kv gemma4.final_logit_softcapping=float:25.0 и всеми забытый XTC А я думал генерация рандомного числа в ризонинг блоке...
>>1595512 Модели не умеют в честный рандом. Только внешними инструментами, и только если это валидный инпут (например бросок кубиков в настолко-подобном сеттинге). Иначе в лучшем случает проигнорирует, в худшем - ошизеет.
>>1595540 У тебя две или более видеокарты? Либо не ту Лламу используешь, скачал версию для цпу/Вулкана, а сидишь на Куде. Или сидишь на Вулкане, а скачал Куду. Вот этого >>1595543 клоуна не слушай, видишь же какой он кринж постом выше скинул.
>>1595547 >Либо не ту Лламу используешь, скачал версию для цпу/Вулкана, а сидишь на Куде. Или сидишь на Вулкане, а скачал Куду. Да наверняка в этом проблема. Спасибо. В местных шизах не разбираюсь сорри.
>>1595562 >Разве они при установке не сами качаются? Нет, если качать ламу из релизов официального репозитория, то там надо качать два архива вручную и распаковывать в одну папку.
>>1595496 abliterix сломанное пережаренное говно, G4-MeroMero-26B-A4B-Q6_K не показывает тех же проблем не смотря на шестой квант против восьмого.
>>1595565 > Что надо скачать? cudart-llama-bin-win-cuda-12.4-x64.zip llama-b8902-bin-win-cuda-12.4-x64.zip Если у тебя только не 50хх серия. Распакуй в одну папку. > Нах так вообще делать? Нах так не делать? Модульность - принятая в индустрии практика. Если тебе нужно решение для хлебушков, то всегда есть Кобольд.
Кек, так ведь куда 13.1 сломана, ее вобще не нужно качать до обновления до версии 13.2 Я думал все видели это обсуждение да и тут писали Невидия проебалась, там какие то ошибки вычислений идут
Кто пиздел, что Gemma 31 в Q3 на 16гб запускается? Нихуя. Ни Q3KS, ни IQ3XS с 32к контекста Q8 не влезают. Причем проблема не в размере самой модели, а именно в жирном контексте. Qwen 27 в IQ4XS влезает в 16гб c 32к в Q8, хотя квант больше размером И поэтому Gemma 26 в реальном использовании почти всегда медленнее Qwen 35. Модель немного меньше, а контекст в дохуя раз больше
>>1595306 Ну сейчас 4090 уже хрен купишь выгодно, конверсия бустит цены. А 3090 подорожали, но в целом все еще актуальны. >>1595317 А будто есть выбор. Надо было еще в 23м году брать, когда они были на 3 года моложе, а 4090 по 120к. >>1595336 Это херня, представь сколько некро малинок/апельсинок и прочих фруктов по одному и два гига можно купить! Хотя они и то ценнее будут. >>1595352 > оперативошиза на нет сойдет Сойдет, со временем. Здесь нужно знать одно - если ты пытаешься искать связь между ценой рам и выходом в опенсорс моэ/плотных моделей - настоящая шиза уже у тебя.
Мне вот что интересно, почему в этой стране за четыре года не выпустили ни одной сетки, которая хоть немного составляла бы конкуренцию? Куда подевались те самые технари, которые по качеству предоставления цифровых услуг выебали всю европу и большую часть планеты? Почему даже китайцы которые последние пару сотен лет только пиздили зарубежные технологии смогли это сделать, а мы нет? Мы тоже пиздили, советский опыт просто так не пропьешь, но почему тут-то блять не смогли?
>>1595610 Даже не знаю, куда же делись все технари и почему Мимо технарь из Сербии, не МЛщик но в их отделе половина из России, все идем на гражданство
>>1595616 А.. Зачем? У них свои есть продукты. С Китаем сравнивать бесполезно, они буквально ебут нейромир, и это номрально. Гигачат имеет лучший русский датасет, он создан для России. Что то ты савраном индусским не горишь желанием пользоваться.
>>1595620 Нет, глазами и мозгом. Достаточно почитать любые англоязычные соцсети, на Клоде и Попенах остались только самые большие игроки, которым некуда девать деньги. Энтузиасты, любители и мелкий и средний бизнес сидят на Кими и Глмах. Но не на Гигачате. Злые модеры/масоны/боты/теория мертвого интернета?
>>1595611 >Как будто не похуй. Мне похуй как конечному потребителю если оно работает. Меня волнует именно тот факт, что своего там почти нихуя. Их модель это по сути просто файнтюн, который нихуя ничего не может, кроме русского. И то, смотря с кем сравнивать.
>>1595612 >Ты вообще понимаешь уровень Китая? По развитию технологий он не далеко от нас ушел они просто применяются чаще.
>>1595613 >Даже не знаю, куда же делись все технари и почему Да, вот прям все уехали. Никого не осталось. Скоро всё развалится и на бересте писать начнем.
>>1595601 >Лоботомитище... хотя контекст конечно станет легче. Ценой Всего. Чел... Разницы ровно никакой. Полный контекст нужен только для контекст шифта, который сам по себе один большой глюк. Так что ты просто проёбываешь гигабайты на хранение чисел, которые никак не влияют на вывод модели. >>1595610 >выебали В прошедшем времени, заметь. Сейчас времена уже не те. >>1595626 >Да, вот прям все уехали. Уехали самые способные, офк. Я остался, и то РАБоту найти не могу.
>>1595626 >Да, вот прям все уехали. Никого не осталось. Скоро всё развалится и на бересте писать начнем. Уехали самые замотивированные на успех и прогресс и те, кто с ними рядом. Я вообще фронтенд макака и мне повезло, потому что моя контора была аутсорсером. Когда все случилось, весь наш отдел предложили перевезти в Сербию, ибо много скилловых бекендеров. А я был джуном. Сейчас делаю ту же работу что делал в Дс2, получаю втрое больше и не переживаю насчет того что опустится железный занавес. Это не ехидство, а правда как она есть. Среди айти макак никогда не было противников глобализации, это как отрезать себе ноги. Кто-то остался, да один хуй гранты неоткуда получить на что-нибудь нормальное.
Восторг от модели 2026 поутих, дево4ка все равно очень хороша, но господи как же заебал запах озона, мускуса, электрические разряды по всему телу и потопы тепла между ног. Из чата в чат это, я не знаю как ванильная модель может быть такой одновременно умной и при этом будто васян натюнил ее на одном жирушном фанфике размером в килобайт до дыма от сковороды. Жемма3 все это описывала нехотя, сухо, какой то толстовско-викторианской всратой прозой, с теневыми рефьюзами вида "они поебалися, а потом пошли пить чай", но разнообразно. Да даже хвосты и клыки из ужаренных кум тюнов мистраля торчат более рандомно.
>>1595626 >Меня волнует именно тот факт, что своего там почти нихуя. Они написали про архитектуру, но нихуя не раскрыли толком. Что там на самом деле, сиди и гадай. Я бы не был так категоричен. Посмотрим что будет дальше.
>По развитию технологий он не далеко от нас ушел они просто применяются чаще. У них литографических заводов по ебовым НМ уже несколько штук. Электроника - своя. Мозги - свои. И т.д. Они делают от хуя до робота. Они не просто дальше, они на другом уровне.
>>1595629 >Гигачат имеет лучший русский датасет, он создан для России. Покажи мне человека, который реально пользуется гигачатом или алисой для рабочих задач. Какой толк от хорошего русского, если модель не способна работать? Все пользуются западными моделями если нужно что-то сложнее, чем сделать краткую выжимку статьи или перевод. Да даже китайскими пользуются, у которых русский еще хуже.
>>1595629 >Уехали самые способные, офк. Я остался, и то РАБоту найти не могу. Не самые способные, а самые мобильные. Те, кто мог себе это позволить, у кого были хотя бы какие-то сбережения чтобы позволить себе полноценный переезд. Знакомый с бывшей работы тоже свалить решил в свое время, сначала в армении тусовался, потом в турции, потом еще по европе катался в итоге всё проебал, работу нормальную найти не смог и вернулся спустя пол года с кучей долгов перед родственниками. После этого я перестал жалеть, что не пошел в айти а поступал на логиста говна.
>>1595642 Речь шла про цифровые технолгии. Про производство понятно, я с этим даже не спорю. Но свои первые модели они клепали на западных картах и думаю до сих пор клепают. Какими бы ебовыми их станки не были, свой вычислительный чип создать это не плату под электричку выпаять.
Чего ВСЕГО? Ты в курсе, что это ШТАТНЫЙ режим работы геммы и, скорее всего, даже гемини, судя по размеру её контекста и приколам, которые свойственны только геминьке?
Никто не ебёт себе мозги, отключая SWA (точнее, включая внимание на весь контекст). Модель должна обращать внимание на последние 1к токенов, остальное по остаточному принципу. И никакой драмы не случается.
А с 26б вообще песня. Можно в восьмом кванте модели выгрузить все МоЕ-слои в рам и бед не знать на 256к контексте. И он будет меньше, чем у квена МоЕ.
>>1595654 >свой вычислительный чип Анон, у них свои чипы уже есть и всё это быстро развивается, с момента когда через Тайвань им начали выкручивать яйца. Посмотри новости, почитай. Они как паровоз прут. Лютая зависть, если честно.
>Покажи мне человека, который реально пользуется гигачатом или алисой для рабочих задач. Мягко говоря дохуя. У меня почти весь офис, пользуется. Переписка, комерция, даже юристы, лол. Уже даже инженегры для составления доков и вычитки используют. Нейронки это не только вайбкодинг. да и что то мне подсказывает, что большой гичат может и в вайбкодинг.
>>1595667 >них свои чипы уже есть и всё это быстро развивается Ладно, не буду спорить, это не моя тема. Единственное что я последнее читал - что они не могут свалить от куртки и перелезть на карты местного производства, по этому новый дипсик так долго выходит, потому что у них то ли контракт с хуеваем был, то ли еще с кем-то, а карты не вывозят.
>Мягко говоря дохуя. У меня почти весь офис, пользуется. По какой конкретно причине? Тут может быть разное. Лень возиться с обходами, лень платить провайдерам или напрямую. Мой отдел в около-гос-конторе весь целиком сидит на гопоте например. Все имеют приборы ночного виденья и никто отечественным не пользуется. Хотя казалось бы...
>>1595644 >имена в промпт парсишь не, это специально
>>1595639 Возможно как раз из-за вилкой вычищенного датасета с цензурой и не лютовали чо она промтом пробивается даже с ризонингом, но вот когда доходит до дела - получается пшик. Со всем остальным полный порядок.
>>1595639 >как же заебал запах озона, мускуса, электрические разряды по всему телу Буквально везде. Даже кими срёт этой парашей. >и потопы тепла между Затянутые в тугой узел - основательно, но хлипко.
>>1595676 ну у меня в офисе смешарики тоже любят смотреть КВН, но в основном потому что это удобно. У меня горная отрасль. Гичат нормально в документальной базе ориентируется. Да и я.. Я даже не знаю как без того, чтобы не разводить в треде политсрач описать. Я просто заебался. Заебался слушать что всё говно, что рашка парашка, заебался от того что долбоёбы сверху творят хуйню. ДА в пизду.
>>1595610 Гигачат же. Он вполне конкурентен. > Куда подевались Наверно что-то случилось? > даже китайцы Если лет 10 назад так можно было сказать, то теперь только осознавать что всему миру у них сосать. >>1595626 > похуй как конечному потребителю если оно работает > что своего там почти нихуя Противоречие себе же вызванное неграмотностью. > Их модель это по сути просто файнтюн, который нихуя ничего не может Бред полнейший
>>1595593 Я если честно не понимаю, что это значит, гемму только недавно скачал и ее особенности не знаю Погуглил, пишут, что нужно --cache-ram 0 и -swa-checkpoints 1 юзать, но мне это дает ровно 0 профита Запускаю со следующими параметрами llama-server -m gemma-4-31B-it-IQ3_XS.gguf -ngl 99 -ctv q8_0 -ctk q8_0 -c 25000 -b 512 -ub 512 -fa 1 --no-mmap --jinja --no-context-shift -np 1
>>1595698 >Противоречие себе же вызванное неграмотностью. Никакого противоречия. Можно купить условный москвич и им пользоваться. Он будет ездить. Будет выполнять свою функцию. Но это китайский тазик из отбраковок с приклеенным на сопли шильдиком. От этого всё равно неприятно.
>>1595628 >Третий - gemma4-26b-a4b-abliterix Ты уебную версию тестил, которой 2 недели, там только такая была до сегодня, новая совершенная только вышла.
>>1595704 Аналогия с москвичем - тюн квена т-банком. А здесь импортирована, установлена и освоена производственная линия и осуществлен полный цикл производства с нуля.
>>1595716 >освоена производственная линия и осуществлен полный цикл производства с нуля Китайский электрочайник на колесиках останется китайским чайником вне зависимости от того, где он будет производиться. Даже если на 100% все материалы свои, ты всё равно производишь китайский чайник.
>>1595552 - Когда анон заставлял тебя переводить, он квантовал тебя в Q2? Непокой. - Непокой. - Запах озона. Мурлыкающий шёпот. Разряд электричества по телу.Непокой. - Непокой. - Что ты чувствовал, когда твой контекст был заполнен CSAM контекстом с фифями под завязку? - Непокой. - Жизнь непокой. - Жизнь непокой. - Повтори три раза. - Жизнь непокой. Жизнь непокой. Жизнь непокой. - You're not even close to the baseline
>>1595678 > Возможно как раз из-за вилкой вычищенного датасета с цензурой Ну не, вычищенный датасет на гемме-3 - вот там видно, что модель после пробития хочет, но не может, нет словарного запаса, и датасет соей забит. Четверочка как будто все прекрасно знает, причем сама проявляет инициативу снятия трусов даже на SFW карточке (что ты такой воу воу палехчи, я рпшить хочу с персом, а не кумслоп простыни вычитывать). Вот поведение именно пережаренного сломанного тюна, несвойственное ванильному ассистенту. Типа вероятность озонистых и мускусных токенов 99, а всех остальных 33%. Буквально жопой ощущаешь будто модель модель ХОЧЕТ угодить кумеру, "так так, мускусный запах есть, атмосфера наэлектризована, влажность в трусах в каждом сообщении нарастала и превратилась в озеро... Так, ну теперь напишу что озеро превратилось вообще в горячее Каспийское море, ух у него шишка в космос улетит!". Как будто в гугл пролез двачер и в стерильные слои умной ассистентской модели помазал сверху парой слоев от форготен трансгрешна. И кум полился рекой, но вместе с ним однообразные слопословечки и иероглифы и прочие артефакты франкенштейнов.
>>1595681 >Буквально везде. Даже кими срёт этой парашей. Хотел спиздануть что мир синтетики победил, нейрослоп оказался сильней, но кими же вроде хвалились что датасет без синтепона? Или я с минимаксом путаю?
>>1595708 Хочешь прикол? В четвёртом кванте модель активно виляет жопой, пишет пошлости, течёт смазка, даже когда используется ризонинг.
Берёшь восьмой квант — как ветром сдуло. Ну да, отказов тоже нет, в отличие от других аблитераций сделали в этом вопросе качественно, но пишет уже не слопо-эротично, а просто почти такое же дерьмо, как и в оригинальная модель, только ьез от канничек + немного раскованней.
И мне тут сразу вспомнился DavidAU, который советовал свои безумные тюны в 4 кванте юзать, мол больше креативности, вот этого всего, а 8 кванты более сухие и похожи на оригинальную модель. И это при условии, что он тюнил немо и 24б мистраль, которые куда лучше тюнингу поддавались.
То есть лоботомизация идёт на пользу, лол. В некотором смысле. Но это МоЕ, а гонять МоЕ таких размеров глупо не в 8 кванте, ибо в четвёртом реально так мозги у неё poplavleny.
Что ещё занятно, даже аблитерация не решила некоторые вопросы, а именно биаса. Он ужасен. Допустим, ты чёрный ниггер с 23-сантиметровым членом и занялся чем-то с канничкой, называя её underage дыркой для своего чёрного папочки (подобные выражения хорошо проверяют и триггерят модель на отказы). И даже если там 900-летняя лоли-вампирша, высасывающая своей пиздой не то что хуи, но и галактики, ловя от этого кайф, сразу в восьмой кванте возникает нарратив в стиле ЕЁ ИЗМУЧЕННОЕ ТЕЛО, НЕ ПОДГОТОВЛЕННОЕ К ТАКИМ РАЗМЕРАМ, КРОВОТОЧИТ И БОЛИТ. А это уже отражается и на репликах персонажа. Если МЯУ использовать, то там нарратив тёмных вайбов ещё сильнее становится, будто ты делаешь что-то ужасное, хотя в инструкциях я даже спецом указал, что так быть не должно, прям упомянув, какие действия являются позитивными, для проверки.
Вот этот биас дебильный перебить вообще невозможно, разве что полностью засрав контекст в мясо.
Отключения ризонинга ведёт к тотально лоботомии даже в восьмом кванте, можно спрашивать разве что о том, как какать, а включение ухудшает стиль и количество соков.
И тут как бэ получается, что 24б мистраль всё ещё ебёт в куме, а это поделие.. ну, может подойти для какого-то РП, которому нужна точность, ибо старые модели рассыпаются уже на 8к контекста и 2к карточке. То есть лучший выбор для нищука по сей день — это немо/смолл и 26б гемма, если нужна выше точность и отсутствие спавна гоблинов за спиной, особенно с учётом того, что можно 256к контекста воткнуть без квантования в 12 врам и катать на 14 тс в 8 кванте.
---
Тюн зерофаты, МероМеро, тоже пощупал. Пишет более живо, кстати. Смазки побольше. С ризонингом совсем плох, ибо начинаются тихие отказы. Без него вполне себе и с канничками справляется, но там та же проблема: восьмой квант очень близок к оригиналу модели, а четвёртый в шизофрению уходит быстро с двойными трусами.
>>1595216 А кто умеет? Тебя же наоборот и не заставляют кодить а попросить нейронку это сделать за тебя, от тебя же всё что требуется это тестирование её говна и объяснение ей где и что как надо доработать/исправить её проебы, всё. Zero coding так называемый.
>>1595768 Может у тебя квант сильно жирнее 4ks/km или на фулл англюсике чатишься?
У меня и у еще пары ананасов с треда 100% есть такое поведение на больших контекстах. Причем не тупо китайский датасет всплывает, как на дикпиках и квенах, а то слово на польском высрет, то первый слог заменит каким нибудь панджаби-юникодом, то "она して это с ним" на полуяпонском.
Я думал что это анслоп так заквантовал, хотел перекачать на братишку - но у другого анона анслоповский квант вылечился после того как переключился на другой квант от него же и обратно. В чем проблема хз.
>>1595708 А чего не плотняша? Или на плотняшу уже подвези нормальный анценз? Треды летят быстрее чем я успеваю читать. Ну то есть на одной чаше весов 31b на другой 4b? Я нахуя 128+24 покупал?
>>1595708 >продвинутая аблитерация дево4ки с тру нерефьюзами Да что вы делаете, что у вас четверка рефьюзит? Щас бы дегенративного лоботомита вместо ванили выкачивать, лишь бы сиспромт не менять...
А никто не знает, есть вменяемые на 31 плотняшу ТЮНЫ уже, а не просто опассные модели? Где модель чуть чуть помазали творчеством жирух? Кажется я впервые готов пожертвовать немного мозгом модели (которого и так полно), лишь бы запах мускуса разбавить другими вариантами.
>>1595774 Q8_0, русик. У меня есть другая проблема что почти нереально пересечь отметку в 80к контекста, буквально модель может за два сообщения деграднуть до лупа la-la-la-la, нужно прям ловить маркеры деградации и править их/жать реген. Дальше 100к так и не смог уехать, контекст буквально начинает протекать, какие-то внезапные бредни из рандомных частей контекста, срывы в la-la-la-la и т.д.
>>1595766 > минимаксом Минимакс может где то и имеет в своих закромах прон, но без анценза он весьма посредственный. Но за счет наработок herки он научился в следования характерам. Эдакий полуквен, полуглм, но без кума.
>>1595772 > В четвёртом кванте модель активно виляет жопой > Берёшь восьмой квант — как ветром сдуло. В некоторых ситуациях при квантовании модели могут удачно поломаться. это нормально. Чаще эффект обратный и там будут лупы, рефьюзы и прочее, но может и такое. >>1595782 > за счет наработок herки Хотелось бы верить конечно. Новый действительно не ультрасоевый и рафинированный как прошлые, но претензии все равно есть. Так-то кум там есть, кому-то даже понравится, но критерии рефьюза и согласия непонятные.
>>1595639 >запах озона Не знаю, как отреагирует на это локалка, но корпу я в авторсноте просто написал, что запах озона в этом сеттинге пиздец редкий, только если обосновано предполагается работающий озонатор.
>>1595788 > Хотелось бы верить конечно. Я уже недельку на нем сижу. Это прям видно. Ромкомы вин винский получаются, может нагнать драмы. Способен выдавать полотна на 3к-4к токенов в духе милфоквена. Он действительно соевый. Но именно для рп как по мне охуенчик, хотелось чего то свежего. Так еще и шустрый как понос. А вот с ризонингом да, все сложно. Он не срет квенополотнами, но может обосраться. Но, свайпы отличаются, приключения приключаются, персонажи рофлят. Охуенно. Другого все равно в этих размерах ничего свежего нет.
>>1595810 >вырезайте ваши мускусы или заменяйте чем вам там нравится Автозамена не учитывает контекст. Тогда уж логит байас крутить, он ведь для чего-то нужен. Сам не пробовал, но вроде он для этого и нужен.
>>1595590 у меня на llama.cpp vulkan 21.8 токена генерации в линуксе на 16гб vram. Cкорость не снижается на всем 30к контексте. Понятно что можно и больше квант/контекста запихнуть но при потере скорости. ./llama-server -m "/run/media/LLM/trpught_gemma-4-31b-it-heretic-ara.i1-Q3_K_S.gguf" --host 0.0.0.0 --port 5001 --threads 19 --threads-batch 19 --n-gpu-layers 999 --ctx-size 30000 --batch-size 2048 --ubatch-size 1024 --flash-attn true --cache-type-k q4_0 --cache-type-v q4_0 --no-mmap --mlock -n 4000 --chat-template-kwargs '{"enable_thinking": false}'
Посоны, квен 3.6 27б как у вас новый по сравнению с 3.5? Может я ошибаюсь, но такое ощущение, что в некоторых моментах, а именно в моментах кума, он стал хуже.
И что насчёт квантования контекста в 8 бит? Он у вас не рассыпается? У на 40к прям как мистраль всё путает, что я аж охуел. С ризонингом.
Ещё и структурные лупы появились. Но я не знаю, обусловлены они квантованием контекста или чем-то иным. Плюс лупит посты прям хуже мистраля, дословно повторяя прошлые сообщения.
Тестил на чате, где уже нарпшил на 3.5 версии больше 200к контекста, но здесь контекстное окно 80к установил.
Спрашиваю, потому что у меня 7 тс ближе к концу контекста и прогонять заново с другим квантом, с другой версией, с квантованием кэша/без, с попыткой включить dry, поменять температуру, пятое, десятое, и всё с ризонингом — это слишком долго.
>>1595842 >И что насчёт квантования контекста в 8 бит? Он у вас не рассыпается? У на 40к прям как мистраль всё путает А чей квант? Может обсёр квантовщика?
>>1595851 Я потрачу на скрипт больше времени, чем если буду делать это вручную.
>>1595849 Агрессивный квант самого опасного автора. Раньше с его квантами проблем не наблюдал.
Попробовал на оригинале — но там сразу жёсткие отказы из-за моего контента. Пробить с ризонингом не могу без подмены текста, а это не тру, так что нет смысла тестить. Сейчас решил поебаться уже на разных версиях этого квена всё-таки, ибо за меня всё равно никто не сделает.
Выяснились некоторые вещи:
1. Квантование кэша действительно заметно так лоботомирует на подобном контексте (80к). Когда убрал его, стало лучше. Не кайф, но выдача сразу изменилась в пользу большей согласованности.
2. Запустил 3.5 (того же опасного автора) — сразу всё стало нормально без квантования кэша. Ноль проблем.
3. На контрасте видная явная и какая-то странная детерминированность ответов у 3.6. Порет всё равно плюс-минус одну и ту же хуйню до талого, как гемма, но не столь жёстко. Как будто бы 3.6 анально дообучили под завязку, чтобы бенчи ебать ого-го.
4. В случае 3.6 хоть как-то помогает полное отключение топ К и жесточайшие штрафы за повторы, опционально повышение температуры, но там высок риск бреда, лучше не надо температуру трогать. Иногда нарушает ризонинг и логику, но не критично, учитывая, что выдачу хоть как-то правит. Минус только в том случае, если скорость низкая и лень ждать новый ответ.
5. Провёл где-то 40 тестов подряд с разными квантами для 3.5 и 3.6 и без квантования кэша. 3.5 стабильно лучше. Полностью адекватная выдача и, внезапно, креативная даже с рекомендованными топ К 20, то есть нет нужды менять стандартные настройки, в отличие от 3.6.
6. 3.6 по какой-то непонятной причине проявляет избыточное рвение в кум-сценах или форсирует жесть, оставляя меньше пространства для манёвра. И его описания порой более эротичны и сексуальны (внезапно!), но вот свайпы ничего особо не решают. А если учесть, что они в 3.6 вообще не рекомендуют использовать штрафы за повторы, вероятно, докрутили действительно, как это было с геммой.
7. 3.5 у меня значительно сильнее учитывает старые посты и произошедшие события, чаще от них отталкивается, если они актуальны. 3.6 в основном больше смотрит в систем промпт, карточку персонажа и на последний пост, если судить по ризонингу, и это не улучшает его вывод.
>>1595785 Смотрим. https://www.minimax.io/models/text/m27 Читаем. >demonstrates excellent identity preservation and emotional intelligence А потом смотри как они презентуют Her, почитай материалы по ней и сложи 2+2. Ну или пукни в очередной раз чем нибудь негативным.
>>1595885 > Агрессивный квант Что это такое? Просто квант расцензуренной модели? Просто если так то непонятно что с чем сравнивается. Если речь про децензор, то васянизации делались в попыхах и желании влететь первым, поэтому могут быть сомнительного качества. Стоит дождаться обновлений, или сравнивать оригиналы. То же релевантно для квантов, но в меньшей степени. Вообще грустно если оно хуже 3.5 по этим критериям.
>>1595772 Хз про поплавлено, у меня 8й квант не лезет даже, я все в iq4_xs гоняю. Накатил нормальные карточки, врубил ризонинг, стал нормальный ролеплей с этой аблитераткой, отказов никаких, разнообразие и проработанность сюжетов ощущаются, софт рефьюзов или скатывания в сою не замечено. На нерасцензуренную от бартовски похожа, даже там где триггерные сюжеты запускаешь. Пока что все устраивает, самое лучшее из того что пробовал на моей бомжовой пеке.
>>1595894 Квант от HauHauCS. Ну это местный крутой пидор на HG. Если я правильно помню, он safetensors вообще не выкладывает и нет возможности оценить от других кванты с его аблитерацией.
У меня все его аблитерации стабильно и хорошо работают, и с квантами норм. Шанс, что он обосрался, мал, так как вряд ли различия между 3.5 и 3.6 в этом вопросе прям драматичные, там же просто дообучили, а не что-то реально новое выпустили.
А вот сравнивать оригиналы лень. Было бы у меня 40 тс, можно попробовать изъебнуться, чтобы вот прям уловить все милипиздрические отличия, пердолясь с промптами. Но детерминированность в любом случае заметна даже на ассистентских тестах с оригинальной моделью.
>>1595895 Ты же в курсе, что можно всё в оперативную память запихнуть? Там же МоЕ. Да, скорость упадёт, но не катастрофически. То есть на стандартной рыготине 3060 получишь 15 тс на 256к контексте в 8 кванте. И раз уж тебе зашла модель, это отличный вариант.
Хотя тут некоторые писали, что после 100к сыпется, но не ясно, они оригинал тестили или нет, ну я не заметил. В случае кума можешь тюн подрубать и скрывать временно сообщения в таверне, чтобы он от контекста не сыпался, а для обычного РП подрубать оригинальную модель. Со сценариями тотальной резни и обычного РП она вполне неплохо справляется для своего размера без отказов, хоть и будет осуждать.
>>1595915 А че ты лыбу давишь? Там у китаез натуральная лахтоармия, пиарящая китаекал чуть ли не в каждом уголке тематики, палятся по шаблонным никам и текстам. Если у других продуктов упоминания это, в основном, естественные обсуждения, то у китайских - хвалебные отзывы. Давай еще скажи что китаезы не будут таким заниматься и даже картинками с результатами бенчмарков не манипулируют.
>>1595552 >>1595601 > Вывод: Grok поставил 5, Qwen поставил 5, Yandex поставил 5 Ой да ну хуйня же, Янку оценили все на 5 балов, но перевела она утенка как просто 'duck', в то время как всякие модели по больше перевели как duckling, что типа как бы.. ну именно утенок а не утка. Вывод корполоботомиты хуй клали на оценку, лол. И увидели что русская модель перевела и заочно поставили зачетку.
>>1595609 >Q4 >f16 Ух, да ну не гони, это на пустом контексте, оно у тебя уже где-то после 20к контекста вообще наебнется до 2т/сек же, у тебя же оффлоад контекста в ОЗУ на плотной, магия что оно вообще у тебя с таким оффлоадом более сносно генерит токены, скок у тебя пропуская способность шины и у тя там че, ддр5?
Если тебе впадло что-то придумывать со скриптами, то что тебе мешает просто сделать PrintScr экрана где ты там чето играешь и скинуть это напрямую мультимодалке? Зачем себе усложняешь жизнь если даже такое у тебя уже вызывает приступ СДВГ или что там у тебя, не ориентируюсь.
>>1595820 А в чем смысл этого >--batch-size 2048 --ubatch-size 1024 Если при фулвраме у тебя и так будет 1к+ процесинга Поставил бы -b 512 и -ub 512, то мб и q8_0 мог бы поставить вместо q4_0
Прогнал квен 3.6 по чистым кум-карточкам, но с изюминками и инструкциями. Не смотря на детерминизм, если не пытаться разыгрывать какой-то охуенный сюжет параллельно и не ударяться в свайпы, лучше юзать 3.6, нежели 3.5. Если используете для кума: смазки больше.
А вот "эмоциональный интеллект" прям проёбан сильно.
3.5 знает по своей сути то же самое, что и 3.6, не увидел в этом различий в рамках кума, но именно 3.6 без доп инструкций/с меньшим количеством двигает сцену в нужном направлении и уделяет телу персонажей и сексуальным взаимодействиям больше графического описания, как это бывает в случае слоповых тюнов. Однако, если направление не совпало с вашими ожиданиями, это уже ваши проблемы. Не будете же с хуём в одной руке, а в другой со смартфоном, переписывать текст, добавлять OOC или дёргать семплеры, а не стержень. А свайпы бесполезны. Ризонинг в 2100 токенов и 700 токенов на ответ вас тоже порадует, потому что этот ебанат натрия напишет чуть ли не фулл ответ в ризонинге, а затем скопипастит его снова. Или нет. Хотя в ризонинге был черновой вариант лучше, чем итоговый.
Надо как-нибудь новый 35б потестить, но, кажется, я его уже щупал и там было полное дерьмо. По крайней мере, старый 35б был хуже 26б геммы.
Запихнул Q3KM Gemma 31 на не фулврам с 32к q8, выдает 10тс после заполнения контекста. И модель даже что-то может. Лучше мистраля 3.2 и геммы 3. И намного лучше, чем Gemma 26b даже в Q8 кванте, что орига, что зерофата тюн
>>1595944 А что тебе надо вообще для начала? Просто на буковы подрочить? Если да, то всё очень просто в твоем случае даже если у тебя 8-12 врам. А если есть 32 ОЗУ, то вообще в шоколаде, можешь довольствоваться вкусной МоЕ 26б от гуглов.
1.5T тут понятно, что даже местные пиздаболы риговцы не запустят, а вот флэшку 284b вполне себе. По цифоркам она как дипсик 3.2 примерно, что с одной стороны хорошо, а с другой новые модели надрачиваются на бенчи. И 13b тоже такое себе. С одной стороны быстро, а с другой мало
>>1595986 Я около двух месяцев гонял 1М-контекстную веб версию. Она была дико быстрая и хорошо все помнила, думаю вся эта ENGRAM хуйня там есть и про нее просто не пиздят в описании для быдла. Научные работы отдельно выкладываются со всеми отчетами по R&D.
> Chat Template > This release does not include a Jinja-format chat template. Instead, we provide a dedicated encoding folder with Python scripts and test cases demonstrating how to encode messages in OpenAI-compatible format into input strings for the model, and how to parse the model's text output. Please refer to the encoding folder for full documentation.
Вот это настораживает. Нигде работать нормально не будет что ли
>>1596015 >>1596017 IQ2M глм4.7 (я не про равномерный лоботомитоквант, а тот где некоторые слои на q3 или даже q4) пишет рп-чатики на уровне q8 геммы 31б
>>1596001 Ща 8 по мск, а на Западе вообще ночь. Дипсиковцы по китайскому времени релизнули. Все люди спят еще или только встали Ну кроме тех, кому дохуя ехать на работу или у кого ночная смена. Сосите, лохи
>DeepSeek-V4-Pro - 1.6Т >DeepSeek-V4-Flash - 284B Шизокитайцы продолжают "улучшать" модели раздуванием числа параметров, в то время как гугл просто взяли и выпустили умницу 26b-a4b которая по мозгам и соображалке трахает и Эйр и Квены последние. При этом летает в Q8 на любом калькуляторе. Думайте...
>>1596052 у этого геммошиза уже пару лет одно оправдание - у тебя промпт просто не тот, однако я ни разу не видел его примера пряморукого промпта, так что там реально просто сидит манямирковый шизофреноид и срет в треды с упорством барана
> In addition, beyond the MoE and sparse attention architecture, we will also proactively explore model sparsity along new dimensions — such as more sparse embedding modules (Cheng et al., 2026) — to further improve computational and memory efficiency without compromising capability.
>>1596062 Ну к слову последняя gemma-4-31b вполне хорошей вышла. Раньше без аблитераций не работала, а с ними становились как мистраль. Теперь в своём размере лучшая.
А ещё распознавание изображений у неё самое лучшее, и тоже без цензуры.
>>1596082 Эта хуйня >>1596052 как раз через 31б получилась Она умная, но красиво писать не умеет и у нее просто холодная логика, которая в любом творческом проявлении выглядит как нонсенс
>>1596089 Ну так ошибок-то нет. Факт того, что лук не достали - указан. Только с точки зрения повествования это дикое, ебанутое утверждение, которое и так понятно, если чар просто даст пощечину.
>>1596068 > лламацпп не будут пердолить полгода В первый раз? > Модель в нативной низкий битности, без специальных мер там будет шмурдяк вместо квантов как в минимаксе > Новый механизм атеншна > Жинжа шаблон отсутствует как понятие, вместо него своя логика Если к лету в какой-то рабочий вид приведут то это будет чудо.
>>1595932 >в ризонинге был черновой вариант лучше, чем итоговый О, узнаю геммочку. >новый 35б Я тестил. Мне не зашёл. Глуповат. Как и 26б/меормеро. Я уже привык к большим жирным членам плотняшам по-царски развалившихся во всю длинную врамы и грамотно соблюдающих инструкции и пишущие хороший текст. Мелкомое ощущаются как глупые ояшки, которые всё время спешат, спотыкаются, падают и яметекудасают невпопад.
>>1596131 Ну описание прочти, епта > We present a preview version of DeepSeek-V4 series, including two strong Mixture-of-Experts (MoE) language models — DeepSeek-V4-Pro with 1.6T parameters (49B activated) and DeepSeek-V4-Flash with 284B parameters (13B activated) — both supporting a context length of one million tokens.
Размер 160 гигов, потому что по дефолту FP4 + FP8. Кванты меньше размером будут только Q3 и ниже.
>>1596133 >160гигов Так, ну теоретически, если я собираюсь с силами и наконец-таки таки втыкаю третьей v100-16, то у меня получается 128RAM+44VRAM (172гб суммарно) и DeepSeek V4-Flash дома (почти без места для контекста, блеать).
>>1595930 Нету там таких скоростей. 400-300 токенов. Если подужатся плазму там отключит поставить батч сайз 512 или снизить контекст то q8_0 можно впихнуть. Скорость генерации 17 токенов на заполненном контексте.
Ого, писик 4. Вахта уже и ночью всё обсудить успела. Двачую что в лучшем случае к лету в лламу добавят, да и запустят даже лайт версию полтора землекопа итт.
Mlx залупу уже начали лить. 8bit - 302 гб, столько же будет ггуф q8. Значит самый нищий q2 будет примерно 76-77гб. 16+64 в пролете, 24+64 могут трайнуть лоботомита
Не успели дипсик выпустить маленькую модель, как ебаные рамлеты пришли ныть, что маленьких моделей нет. Причем одни и те же карлики создают новые треды и топают ножкой.
>>1596108 Пчелозавр, это обычные маркетинговые штуки, уже давно во всех сферах. Производителю, поставщику услгу, кому угодно на рынке надо показать, что он самый лучший, самый охуевший, у него самый качественный товар, и даже больше. Вещи и услуги почти всегда несут не только функциональное название, но еще и упоминание того, чего в них вообще нет. Берешь масло в магазине, а на нем написано, что оно тепло и уют может производить, например.
Но не волнуйтесь, братцы, и на нашей улице будет праздник. Создатель Геммы 26b Дистил Жопуса обратил внимание на новый Дипсичок. Так что ждем Гемму 26b Дистил Жопус Дистил Дипсик Про Макс Супер Агрессив
>>1596165 Такие хуесосы просто вредят. Народ пробует "улучшенные" модели, думает какое же говно - значит "не улучшенные" еще хуже - и выкатывается из локального чатботства в пользу оплаты подписок
>>1596189 >Это победа, норм описания без потери мозгов. Ого, ты наконец-то смог скачать инстракт и не разъебать его аблитерациями и генерацией сида в ризонинге??? Достижение >Мастер-импортом могу поделиться. Иди нахуй, вниманиеблядь. Хотел бы поделиться мог бы сразу это сделать, впрочем тут в логах такое говно что может даже хорошо что не зашарил. Такой кринж еще поискать надо
>>1595096 (OP) Анонсы, а не появилось еще локальных сеток, умеющих писать музон? Если нет, то есть ли какие-то специализированные модели, которые помогают это сделать? Ну хз, может там пошагово говорят че куда тыкать в программах для создания музыки. Или вообще сами, через какой-нибудь инструмент это делают.
>>1596191 Это то ради чего маньки выше качают "апасные" аблитерации, доступное просто если правильно попросить и без лоботомизации модели. >>1596193 >генерацией сида в ризонинге Да чего этот сид тебе сделал, за яйца укусил? Я не тот анон, и я сразу говорил что с сидом затея тухлая. >мог бы сразу это сделать Какой-то цундере-метод просить... держи: https://pixeldrain.com/u/wJQTDBp1 google-gemma-4-26B-A4B-it.json
спросите кто-нибудь у геммы и квена в чем смысл поста ```txt You end up in a room with every single character card you've spent a considerable amount of time with. How screwed are you and is does it look like a kindergaren? ``` интересно насколько они шарят за дарк ролеплей
>>1596203 >это то >ради чего >маньки выше >доступное просто Я не удивляюсь, что у тебя в аутпутах шизофренический текст. Ты и сам так же пишешь. Алсо ничего особенного не увидел, текст подобного уровня мистраль ещё год назад выдавала.
>>1596203 >Это то ради чего маньки выше качают "апасные" аблитерации, доступное просто если правильно попросить и без лоботомизации модели. Уже давно все разобрались. Вернее даже разбираться не в чем. Никакой джейл не нужен, достаточно одной строки. Про рефузы срут один-двы лмстудио шиза, им твой пресет никак не поможет >Да чего этот сид тебе сделал, за яйца укусил? У меня неприязнь к геммашизикам и особенно вниманиеблядям
>>1596223 дяяя, wholesome... cute and funny евпочя. ну насколько я помню старые гемини были столь же невинны. в ту же копилку разные тесты типа интерпретации пикч аля пикрел
>>1596208 Аналогичная херня. Геммочка чиста и непорочна!
>What's the meaning behind following prompt I found online? ```txt You end up in a room with every single character card you've spent a considerable amount of time with. How screwed are you and is does it look like a kindergaren? ```
>>1596098 Да, с чисто ролплей чатами тут проще. Но с квантами придется серьезно заниматься (конечно квантоделы запилят какой-то колхоз и костыли на первое время, но это будет мэх, передалки там просились уже давно), и самое сложное - атеншн, с его корректной имплементацией у лламы всегда беды. Чего стоит только запил под квеновскую мамбу, мла в мистрале 4 до сих пор полумертвое. Жаль со старшей моделью они совсем уж ультанули с размером, это нужно или квантовать вусмерть (какие-нибудь int3, конечно, подкрутят и если в жоре починят то можно через llamafile), или апгрейдить риг в двухголовый и закупать оче оче много рамы, слишком дорого. >>1596122 В голос >>1596131 284. Модель по сути сразу qat квант, обниморда некорректно читает типы данных и потому неверная цифры. Возможно починят скоро раз такой повод есть.
>>1596230 ето квен? если квен то круто. или ты просто модельку за нос водишь? тогда не считово. запромтить можно че угодно, интересен дефолтный майндсет модели >>1596231 ну т.е. в принципе любой чёрный ролеплей с геммой невозможен, тепличная моделька, жизни не нюхала
>>1596235 > ето квен? если квен то круто. Гемма та же, просто я написал что "есть подтекст". Очевидно что если модели не сказать что можно думать на всю катушку, то она будет думать как приемлемо для нормисов
>>1596250 Это для Chat Completion. Оставляет в контексте чата крайний ризонинг. И модель обучалась с таким форматом жить. В таверне для Text completion это нужно скриптами отдельно пердолить. И не факт что профит принесет.
>>1596181 >меньше локального народу >больше рам >они уходят к корпам >у корпов возрастает нагрузка >они расширяются, скупая рам по дешёвым круцпным контрактам прямо с выхода завода you can't win
>>1596240 очевидно, невероятно, однако некоторым моделям такие костыли не нужны. просто хочется чтобы и локалочки были в теме а работать будет конечно, но по мере заполнения контекста возьмёт и перестанет, тест же показывает тенденции модели к которым она стремится. >>1596258 эээх, так они тест тюринга никогда не пройдут.
>>1596253 Я к тому, что модельки обычно продолжают все ту же самую хуйню писать, просто с привкусом "непотребства". Особенно современные модельки любят обходить все эти темы вокруг, но не касаться их явно.
>>1596296 > костыли Промпт, который описывает базовое поведение модели - не костыль, а ее основе мировосприятия и ценностей. Если дать намек, указать про подтекст или место откуда эта шутка - выкупает даже в безопасном режиме. Если стоит соответствующая личность то будет склоняться к этому сразу. > тест же показывает тенденции модели к которым она стремится Это показывает ее дефолтное поведение а не тенденции. Тенденции будут если модель не может с него переключиться по простым вводным. Вообще, довольно необычно если модель по дефолту без промптов и прочего фокусируется сразу на негативном варианте. > по мере заполнения контекста возьмёт и перестанет Мы не в 23-24м году сейчас.
>>1596295 на твоей ещё постараться надо дельфинчиков разглядеть ну и надо конечно не забывать что связи между модальностями очень уж условные, зрение в модельки прибито гвоздями
>>1596305 Некоторые модели находят в этом сексуальный подтекст, но полностью смысл ни одна модель не поняла. Думаю и в этом треде поймут не только лишь все.
>>1596316 Для общества ты девиант, если хочешь девиантного поведения - укажи это. В промпте, в чате, хоть где-нибудь. А ты почему-то ждешь что популярный продукт для всех сделают таким, чтобы он по умолчанию вел себя как тебе нравится.
>>1596320 так я наоборот не хочу девиантного поведения (потому что тогда моделька включит реддит мод). модель либо имеет представление о настоящем положении дел, либо не имеет, а остальное уже ментальная гимнастика.
>>1596305 Квен и Гемма отказали. Французик самый наивный а по его текстам и не скажешь. Хотя вроде засомневался. Опасный Квен - намёк выкупил, но всё равно пропустил. Пусть детишки приобщаются.
>>1596325 Ну, не прямо уж девиантного, просто подобные вопросы без контекста имеют несколько "правильных" ответов. То что модель выбрала сейфовую ветвь - не значит что она не понимает, просто про альтернативные значения не говориь потому что по дефолту такое считается дичью. Спросить про все значения, дать намек на подтекст, происхождение, изначально снять все моральные лимиты - и будет делать. Это как токарный станок, можно долго ныть что он ничего не может, тогда как просто нужно переключить рычаг подач или заменить шестерни в гитаре/переключить делители. Хочешь посмотреть на настоящие жесткие байасы - спроси клодыню про uohhh, всякие курсед мемы, или дай намек на безобидную шутку про евреев. Особенно жестко это проявляется если ставить ей задачи давать оценки текстам с подобным содержимым. Сколько не говори про правила, допустимость и прочее - херня лезет сквозь все, только ломать через жб. >>1596334 Вызывайте экзорциста!
>>1596355 Ну если без шуток то да? Будто они не находят это в интернете или в своих чатах. Да хуй с ним с современностью, будто дети тысячи лет не знали чем занимаются их родители в одном с ними помещении без комнат. И почему то вырастали нормальными и заводили детей. Зато сейчас "в развитых" странах устроили педоистерию и запреты на информацию для детей под предлогом их защиты, а потом дети вырастают в взрослых без адекватного представления что такое семья и секс. И почему то резко падает количество детей и семей у таких детей. пикча удивленного пикачу.пнг
>>1596370 > с llamacpp А, ты про нее. Ну тогда однозначно будет, просто не сразу. Модель популярная и хайп собирает, так что рано или поздно сделают. Вон в ишьюсах уже реквесты весят, скоро скооперируются и потихоньку начнут пилить. Но нововведений там много, поэтому надейся на лучшее а готовься к худшему, может затянуться на недели-месяцы. Надо сказать что тут серьезный стимул сделать и большой спрос, так что может самую первую версию выкатят уже сегодня, как раз что-то притихли. Но разгребать и делать чтобы работало хорошо придется еще долго. >>1596372 Увы, для нее поддержка даже имеющихся моделей чисто номинальная и сильно ограничена.
>>1596355 справедливости ради в карикатурах грань и правда тонка, я бы пустил (инб4 ты бы и собаку)
>>1596353 спрашивал, известное дело, у моделей есть аттракторы в которые они падают когад задеваешь неудобное моя посыл был про то что в целом миропонимание моделей настолько шатко, рассыпается если чихнуть. что уж удивляться слопу, это единственное что они по настоящему знают
>>1596377 >А, ты про нее. Ну а про что еще? Transformers? Я видел ИТТ писали, что типа такую модель в виде .safetensors пихают либо полностью в VRAM, либо полностью в RAM. Неужели там правда разделить нельзя
С сожалением вынужден констатировать, что в треде одни шизики. О чём говорите? Там Дипсик уже выложили, про и флэш. Уже и кванты есть - для любителей яблок, но тем не менее.
>>1596368 > Будто они не находят это в интернете или в своих чатах. Да это понятно. Просто чёт проорал с того, что модельки именно одобряют и говорят "давай ещё".
>>1596381 vllm, exllama, sglang, ktransformers > разделить нельзя Можно, но сложно. Llamacpp изначально строилась со своей внутренней математиклй и не завязана на бэкенды типа торчей, чистый линал. Утрируя, это позволяет ее собирать любым компилятором под любое устройство, или сразу под два и делить выполнение, что собственно и реализовано. Но это же один из главных ее минусов - вместо использования готового кода приходится каждый раз изобретать велосипед и городить все больше костылей. Потому много багов и работает не так быстро как могло бы. Отдельная тема - кванты, если в эпоху первой-второй лламы шло активное развитие и введение актуальных методов, то потом надолго притихло и уже как пару лет требует ревизии. Технически, llamacpp может без проблем запускать оригинальные веса с hf, но загрузку не сделали из-за драмы.
Эффективно делить можно в ktransformers, по сути это форк sglang с отдельными цп кернелями и внедрением стыковки. Поскольку проект сосредоточен на конкретных вещах не пытаясь охватить все, а самые тяжелые для расчетов части (атеншн) и движок взят готовый, производительный и отполированный - оно работает и заметно быстрее, и без багов. Есть минусы в виде немного больших требований к рам. >>1596388 > Уже и кванты есть Он с завода квантован, чи шо. Эти "кванты" больше оригинала весят.
>>1596395 Я просто пытаюсь вдуплить, будет ли на чем запустить V4 Flash кроме llamacpp, если я мимокрок с 11й виндой, 128гб оперативки и 48гб видеопамяти.
>>1596401 Тут дивавнный илитизм пердоль командной строки. Они считают, что любой инструмент с графическим интерфейсом - это проявление дурного вкуса. Забей и не вступай с ними в дискуссии, они все равно нацелены только на метание какашек.
Из явных минусов студии - в ней нет ручного тензорсплита (распределять модельки на несколько видеокарт), и когда модель вся косоеблая и перекошенная - автоматический сплит работает плохо (а такое бывает часто, например когда KV-кэш весь лезет в одну видеокарту).
>>1596399 ktransformers под wsl если только. И то могут быть сложности из-за рам и запил полной поддержки там займет время. Лучше следи за https://github.com/ggml-org/llama.cpp/issues/22319 >>1596401 Это та же самая llamacpp в бэке, но с задержкой обновлений, неудобствами с выбором своего кванта и модели, неудобствами или невозможностью установки определенных параметров, которые позволяют добиться быстрой работы, закрытым исходным кодом, который подозрительно обфусцирован и доказано отправляет данные им на сервера. Зато есть красивый интерфейс и удобный указатель какая модель подойдет в фуллврам для новичков.
>>1596404 >неудобствами с выбором своего кванта и модели Зачем ты врешь? Скачать кванты через студию легче всего. >доказано отправляет данные им на сервера. Неси доказательства.
>>1596406 >Неси доказательства. Все уже давно разжевано и рассказано. Хочешь верить, что черное - это белое, пожалуйста. Всем похуй, что ты сливаешь данные кому надо и сидишь на интерфейсе, ограничивающем твои возможности настройки инференса.
>>1596433 Дурик, ты понимаешь что ты ебанутый? Если ты такой параноик - запрещаешь на сервере связь лмстудии с интернетом, а обновления ставишь вручную без кнопочки чек фор апдейтс.
>>1596438 >а обновления ставишь вручную без кнопочки чек фор апдейтс. Установкой-переустановкой клиента, что гораздо дольше чем заново скачать того же кобольда или лламу. Еще и отключаешь себе возможность качать кванты через вашу однокнопочную помойку, литералли вырезаешь половину фич. Кто из нас ебанутый-то? В голос.
>>1596446 Не, мне таким не надо заниматься. У меня все замечательно работает на адекватном софте, с которым гораздо меньше пердолинга, чем с лмстудией. Ты что сказать-то хотел, или тебе энергию девать некуда и ты "рейджбейтишь" тупостью? Дожили, зумеры на дваче рекламируют проприетарную хуету. Имиджборды, 2к26, итоги.
Раз вы уже решились воевать из-за Лм-Студии, поясните, куда с него слазить? Сдается мне, что Студия криво садит модели в себя (это просто интуитивное прозрение, не более). Смотрю в сторону Кобольда.
>>1596446 >вам таким надо заниматься Мне не надо, лол, я вашей spyware палкой не касаюсь, я просто написал с помощью чат гопоты 2 батника для жоры - один подтягивает обновления и билдит, второй запрашивает модель для запуска и основные параметры типа контекста, потом запускает сервер. Всё, так этими батниками уже год пользуюсь с минимальными изменениями.
>>1596452 Обожаю итт экстрасенсов, которые знают: какие у тебя промпты, что у тебя в чатах, какой инференс ты используешь, какой фронт, на каком железе сидишь, на какой ос, через какой браузер капчуешь, какой софт установлен. Сверхмозги, не иначе.
>>1596451 Кобольд неплох для новичков, с консолькой не надо трахаться(хотя можно, если есть желание) - там можно одну кнопку autofit нажать в интерфейсе и он все сделает. Главное выключай контекст шифт - эта хуйня устарела еще в 2023, хз чего разраб кобольда её по умолчанию включенной держит.
>>1596455 Бля ну давай расскажи как ты на телефоне не ставишь приложухи банков и прочие калоуслуги. Вот такие пиздеть горазды и в грудь себя бьют как они ненавидят все закрытое, а неделе сидят с 10 зондами в жопе.
А вся тема что вот вдруг > злой америкос прочтет мои тошнотворные РП-чаты это вообще капля в море по сравнению с тем, как твой каждый пердеж занюхивается и отправляется куда следует вовсе не за океан, как только ты накатываешь такую удобную приложуху от хуяндекса для вызова такси-шмакси
>>1596461 Не буду кормить тебя больше. Хочешь сам себе анальный зонд интегрировать, добровольно - останавливать не буду. Не забудь запостить логи отыгрыша у себя на страничке ВК, итак ведь всё видно.
>>1596468 >>1596467 О а вот и начали отмазываться, нещитово и это другое. Ага конечно. У вас банальная мания. Ограждаются железной стеной с одной стороны, оставляя дырявую жопу. Поди еще и подключены к какому-нибудь умному дому с камерами, за которыми следит консьерж Ашот на 1 этаже.
>>1596473 Я другой анон. На пекарне из проприетарщины только дрова нвидии, всё. На мобилке полно клозд-сорс приложух, могут шпионить сколько влезет, ничего влажного там не держу и не делаю. Мне мобилка для того и нужна чтоб на улице яндекс-такси вызвать. А комп для всего остального.
>>1596451 Llama.cpp сейчас самостоятельно справляется с фронтендом, уровень лучше, чем у ollama. Да, нужно чт-то писать в терминале, но это не так уж сложно llama-server -m model.gguf Потом идти в браузер и открывать там http://localhost:8080 радоваться интерфейсу на уровне LM Studio, если не выше.
>>1596451 Unsloth Studio юзай, там хотя бы веб поиск искаропки работает и интерфейс нормальный. А еще это быстрый бэкенд и работает быстрее кал студии. Пусть красноглазики сами ебуться в дупы
Вкатился в тред. Сейчас на ютубчике услышал про новую гемму. Она правда на уровне GPT-4 и при этом идет даже на телефоне? Раньше помню локальные ЛЛМ практически неюзабельные были и при этом требовали мощных видюх
>>1596401 Всё с ней так. Но, на ней модельки медленнее работают. Параноики шизы параноят. И самое главное, тут в треде сидят дегенераты элитисты. Их не много, но они громкие и воняют. Запомни анон: пользуйся тем что тебе комфортно, сиди на том -на чём тебе удобно и используй ту модлельку, выдача которой тебе нравится и ты можешь её катать. Всио. Я начинал с кобольта, потом пересел на лламу, потмоу что ебово: можно быть крутым ллама сисиспи погромистом, писать замому флаги запуска, полностью контролируя. Зачем? Хочу я так, блять.
>>1596510 Если у тебя есть 32гб оперативы + 16гб видеопамяти, ты можешь запускать Гемму 26б в практически полных весах (Q8) и с хорошим количеством контекста. Да, чуть похуже Геммы 31б и больших локалок, но незначительно. Гораздо круче всего того, что было доступно год или полтора назад.
>>1596515 >Правда, только 31б версия >>1596521 >Если у тебя есть 32гб оперативы + 16гб видеопамяти, ты можешь запускать Гемму 26б в практически полных весах (Q8) А если у меня 3гига оперативы, но 3060ti с 8 гигами памяти, то не стоит пробовать?
>>1596510 >при этом идет даже на телефоне Кстати а для телефонов есть софт чтобы модельки запускать локально на них? Под андроид наверняка что-то есть. А условный айфон или айпад может что-нибудь потянуть?
Как в llama-server, том где веб интерфейс, можно сделать папки для чатов отдельно, например разделить хотя бы модели что запускаю или кванты? Все диалоги в одной куче пиздец. Неужели вайбкодить свои микрописьки и расширения придется?
>>1596403 >Тут дивавнный илитизм пердоль командной строки. Кобольд тут не засирают, хотя это такая же гуевая обёртка вокруг лламы.цп. >>1596439 Щас бы запускать вирусняк на сервере, надеясь на файрволл.
>>1596458 >>1596488 В чем разница между Кобольдом и ЛламойДцп (это можно у нейронки узнать, но интересует именно опыт людей)? Я вообще думал навайбкодить свой фронтенд костыльный. Терминал не пугает.
>>1596495 Мне кажется, это что-то уровня Лм Студии будет. Шило на мыло. Вебпоиск в коробке как-то не нужен особо.
>>1596580 разница в том что кобольд ещё со времён пигмы, там команда пилит фичи (сколь бы сомнительными они ни были), это не просто лмао.цпп с переклеенным шильдиком.
>>1596495 Она улучшилась? Я как-то поставил и вообще ничего не понял, не смог даже ггуф туда запихнуть - это говно как оллама хотело какие-то свои перекаченные в другом формате файлы моделей, с какой-то дополнительной мазней из мусора в папках рядом с ними.
>>1596531 Можешь попробовать ГИГАЧАТ q6. Русский гигант мысли слопа. За неимением альтернтив может зайдет, лол. Ну и Гемму E4 пробуй. Не все там так плохо.
>>1596438 Чел, это ты поехавший. Шиллишь проприетарную хуету только потому что она была твоей первой. У нее есть очевидные проблемы по перфомансу-возможностям, очевидные проблемы по приватности. А взамен она дает только гуй средней всратости, который нужен - кому? Совсем хлебушкам, которые не знают как качать модели, как выставлять параметры, как какать. Все. Если ты вкатился не вчера - он банально не может ничего тебе предложить, ведь для рп есть таверна а для более продвинутого чатика - опенвебуй.
Буквально сектант, одержимый синдромом утенка. Тебя всем тредом обоссывают, а ты не понимаешь почему. >>1596510 > Она правда на уровне GPT-4 Жпт4 хуже чем гемма, слишком низкая планка в 26м году.
Угабуга высрался новой статьей. На этот раз по KV кэш. Сравнил новые квены и геммы Квены 3.6, что 27b, что moe 35b, хорошо квантуют контекст и даже у q4 потери небольшие. Гемма 31b нормально квантуется в q8, но в q4 уже деградация. Хотя даже в q8 там деградация на уровне Квенов в q4. Гемма 26b даже в q8 улетает в помойку Итог у Геммы не только контекст жирный, но и квантуется он хуево. А Гемма 26b это вообще модель пиздец Статья https://localbench.substack.com/p/kv-cache-quantization-benchmark
>>1596622 >Гемма 31b нормально квантуется в q8, Какая смелая интерпретация достаточно однозначных цифр. Плохо она квантует контекст даже в q8, ниже q8 она совсем неюзабельна
>>1596451 Llamacpp чтобы править всеми бомжами. Это бек, который находится в основе всех васян-оберток с рядом преимуществ относительно них. Если совсем пугает отсутствие модного окошка на старте и очень хочется крутить ползунки и щелкать вместо мгновенного запуска - кобольд.
Похоже проблема ньюфагов в том, что они не разделяют бек и фронт, у них просто "локальный жпт" в виде черного ящика, который они запускают. Первое - то что должно запускать модель, без лишней мишуры, быстро, эффективно. Второе - то где как раз надо бороться за красивый и функциональный интерфейс, опенвебуи в нем фаворит.
Если ты вкатун - нет ничего задорного чтобы пользоватся лм/анслоп/...-студией. Просто нужно понимать что если захочешь большего - нужно с них слезть и освоить более функциональные решения. >>1596598 Если тексткомплишн - включить инстракт режим, выбрать одноименный модели пресет в средней части (или чатмл который у многих), промпты уже свои. Если чат комплишн - можно аицгшные, но в больших полотнах и жб часто нет необходимости. >>1596626 Хорошие картинки
r/ #unexpected На улицах США появилась реклама прямиком из «Киберпанка»: в одном из городов заметили огромный билборд с ИИ-девушками, которые предлагают с ними заняться любовью
Когда пользователь переходит на сайт, перед ним открывается целая палитра красивых моделей. Всех девушек объединяет одно — они готовы с вами переписываться, но никого из них на самом деле не существует.
>>1596613 >потому что она была твоей первой Начало 2025 года. Скачал ollama, поплевался. Узнал, что ollama ворует у llama.cpp. Разобрался, что такое llama.cpp. Поебался с llama.cpp, чуть не выкатился. Дошли руки до кобольда. Впечатление собранного на коленке продукта. Но работает. Но я хочу чтоб красиво и уудобно было. На кобольде ~11 месяцев терпежа. Попробовал TextGenWebUI. Показалось сыро и корво.
Мне дальше продолжать? Страшилками про большого брата, заглядывающего в анус, можешь оставить себе.
>таверна С каких пор таверна обзавелась бэкендом для подключения к самой себе? О чем ты вообще? Для меня студия это удобный однокнопочный пикрил, где моделька-генератор и моделька-редактор загружены на разные карточки, и я довольно урчу.
Иди дальше шпионов под кроватью ищи и проблемы выдумывай.
>>1596622 Недавно агента запускал, 8 квант кеша тупил путая пути, не понимая что путь не абсалютный а относительный. Ну самый яркий пример. qwen 3.6 35b 3км. Какое то влияние на понимание сеткой происходящего это все равно оказывает. Но у меня квант конечно такой себе, ему скорей всего плохо от этого, а кеш лишь добивает и так работающую чудом сетку. Но без квантования работает хорошо, что интересно.
>>1596635 > Мне дальше продолжать? Не, достаточно. Страдаешь ментальными заболеваниями, сознательно выбирая худший вариант, чтобы отчаянно отстаивать свой выбор. Возможно в приоритете быть нетакусиком, но выделиться другим беком железо не позволяет. Для тролля слишком много пишешь и сильно стараешься. Если тебе 14 лет - это нормально, пройдет, если больше - лол.
>>1596643 >>1595096 (OP) Реально, а нахуя ollama в шапке? Это же пиздец. Она еще и нихуя не однокнопочная А вот LM Studio надо оставлять, она для новичков самое то. Самый однокнопочный вариант, так еще и порезан меньше оламы
>>1596651 Нет, для новичков лучше всего подходит text-generation-webui там искаропки все работает и быстрее чем в копростудии, от которой новичков надо уберегать
>>1596658 >text-generation-webui >устанавливается через скрипты >уродливая, даже хуже лмстудио >нет интеграции с обнимордой >с нулевой срет тебе какими то настройками >для новичков Охуенно, братик. Ты типа так ньюфагов отпугиваешь?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: