В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1588850 → Поч? Жду от АесСедая, поставлю на лишний комп Q5_K_M его квант. Да и куда торопиться, ему же не креатив райтинг прокачивают.
———
Итак, попробовал Q4_K_S квант Minimax-M2.7 от АесСедая. По итогу, ИМХО, — хорошая штука. Да, дропнул мне иероглиф один раз, но в остальном вполне норм. Не знаю, что будет под конец контекста, но в 16 врам лезет 64к Q8_0, а когда TQ и RQ завезут, то там и 96к контекста будет. Остановлюсь на этом кванте, пусть лежит на диске.
БАЗА ТРЕДА Gemma 4 это говно, как и Gemma 3. Превозносят ее только сектанты умницы и залетные квены агрессив 9b. Работяги уже как год сидят на безальтернативном Эире
>>1589072 → Но ведь в 64 рамы влезет 30к контекста. Хотя я хз что он пытается навайбкодить и сколько у него рамы. Но гемма не должна быть слишком медленной.
Это год цифровой локальной сингулярности. Но я считаю пока доступны крупные корпы за копейки (буквально бесплатно раздают токены), их надо юзать и ебать. А локалки надо тестить и схоронять, на тот случай когда станет дорого или для чебурнета
>>1589082 >Но ведь в 64 рамы влезет 30к контекста Это очень мало для проги >сколько у него рамы Он буквально написал, что у него 64 рам >Но гемма не должна быть слишком медленной На ОЗУ она выдает меньше 5тс. Это не юзабельно
Есть 2 вопроса: 1. Как лучше всего генерировать карточки? Есть ли какой-то особый системный промпт/промпт для улучшения качества? (Не для кума) Хочу использовать для этого квен 3.6 плюс или есть лучше бесплатные аналоги? 2. Насколько сильно влияет fp8 квантование контекста на 26б гемме на качество? Хочу 100к контекста, но пока у меня мало рам.
>>1589089 Речь про враму, очевидно же. Квантанулся под вечер немного. >очень мало для проги Потерпит, раз не хочет железки грейдить. Квен будет ещё медленнее.
>>1589098 >Как лучше всего генерировать карточки? Руками. Можно просить генерировать всякие идеи, но писать все нужно самому. Иначе у тебя ллм слоп породит ллм слоп с нулевой
Глянул квенобенчи и как же гемочка сосет. Хуй с ней с 31b, она еще дает бой Квену 27. Но Гемма 26 это пиздец. Буквально сосет у всех. Кто ее вообще юзает при Квене 35 и старичках вроде GLM 4.7 Flash?
>>1589098 >Насколько сильно влияет fp8 квантование контекста поставил квант контекста q4 и норм. проверил закидыванием полных книг в формате txt, всё суммаризует ок, выводит ключевых персонажей, их характеры, отыгрывает роли и так далее
>>1589120 С хуя ли? По твоему бенчи хуйня и вместо этого я должен слушать анонов-долбоебов? В пизду, лучше уж бенчи И я к слову сам ее тестил. Это пиздец >>1589121 Ты юзал квен 3.5? Он буквально лучше во всем и не намного больше
>>1589112 Я к сожалению не писатель. Эта же гемма 26b лучше карточки генерирует чем я, даже если несколько часов на это потрачу. И работает по ним же отлично. Но я хочу создать максимально годный пак по разным направлениям для себя. >>1589123 Спасибо.
Скачал Q6 Qwen 3.6. Пока довольно хорошо. Быстрый, выдает под 40тс даже из под винды. Относительно умный, проходит мои тесты на общие знания и логику. Их проходят почти все, кроме Геммы 26 и Минимакса Q2, который я тестил на днях Соя есть, но не критично. Подробно расписал карточку на пустом промте, но описание тела и кинков понятно дело максимально сейфовое. Но Qwen 3.5 вполне мог в отказ идти, а этот нет
>>1589150 Что ты несешь? Любой тюн это всегда плюс слоп. А тут вообще 26b мое. Это будет полный пиздец. Так что двачую этого >>1589146 Максимально не нужно
>>1589126 Так-то гемма действительно слабовата, но не в плане наших задач. Она слаба в кодерском дерьме, а вот работа с языком моё почтение. Даже всякие эйры сосут.
Если у тебя есть задачи под говноагентов, спору нет, квен топчик. Но для таких вещей лично я юзаю уже корпов, хотя, возможно, всё изменится, если интернет нахуй прикроют.
>>1589154 Хуею с пиздоглазиков, которые рвутся так, словно я уже на их хард заливаю этот тюн. Ор. Не нравится не качайте, а я погонял тестовую версию и это гемма здорового человека для рп.
>>1589157 Возможно ты и прав, но вот это хуйня аргумент >Даже всякие эйры сосут У Эира буквально один из самых хуевых русских языков среди моделей. Квены 3.5, любые, даже мелкие. Ощутимо лучше
>>1589167 За нее позже возьмется вроде как, было чет такое. 26б смогут больше людей использовать. При должном тюне это может стать оч доступным вариантом для многих, полностью заместив старые Мистрали и все такое. Новая народная рп модель. Чтоб 31б запускать нужно какое никакое железо. Думаю в этом дело.
Лол что-то в своей идее с более автономным агентом я стал более глубоко задумываться над тем как давать агенту информацию о том что есть потенциальные векторы работы, но над ними не надо работать сиюминутно. Вопрос как это сбалансировать.
Например, встраиваю функционал мессенджеров. Если я просто в системный промпт сниппет кину типа [Discord: канал 123, новых сообщений 15+ (есть сообщения юзера)] то это с малой вероятностью затриггерит внимание, если модель уже чем-то занята. Если просто кидать сообщение "в дискорд пришло сообщени", то это переключит внимание слишком жестко. Если отталкиваться от приоритизации внутри todo то это будет ценой автономии.
>>1589064 → >Гемма 4 сосет в прогерстве у квенов Пользуюсь всем. Обычно C#/java
Плюсы квена: Лучше лучше работает с коротким списком инструментов Лучше делит задачи на мелкие подзадачи Лучше в структурном анализе Более стабилен на марафонах
Плюсы геммы: НАМНОГО лучше в понимании семантики. (в этом плане она лучше чем почти все китайские модели, включая взрослые) Намного лучше понимает абстрактные задачи Намного лучше корпус знаний и они более свежие Лучше в брейншторме задачи на ранних этапах Лучше в верификации Лучше в ваншотах Немного лучше в UI/UX
Я по итогу разделил так: Если задача средняя и более творческая то гружу гемму и составляю с ней план задачи, обсуждаю, итерирую. Она выступает в роли начального наполнителя контекста. Потом подгружаю квена в качестве исполнителя. Если задача требует более детального дотошного анализа, или без лишних абстракций, или вообще пойти куда-нибудь в консольное приложение то подгружаю GLM-4.7 Flash вместо квена.
Мне гемма больше нравится, потому что она на голову выше квена в естественных науках и их аппликации. Например когда надо собрать какую-то симуляцию то квен начинает срезать углы. И квен более склонен к галлюцинациям, он может начать видеть проблему там где её нет.
>>1588191 → Лол да ладно, это же просто категория знаний для более автономных агентов. В целом это в разных формах во всяких там Hermes или OpenClaw так или иначе используется. Но поэкспериментировать с этим на коленке намного интересней. Вообще можно сказать только недавно стали появляться достаточно хорошие мелкомодели которые
>>1588025 → >Там другая умница Я обычно ей просто и кидаю всякие скриншоты если мне лень глазки ломать! она у меня чаще всего запущена. >"Обычного" состояния может не быть, точнее оно будет описываться "нейтральным" в матожидании, и с огромной дисперсии от лайфлесс робота до похотливой сучки. Ну, базовая личность у ассистента всё-же есть. Это как правило довольно собирательный образ, но опять таки часто вопрос насколько этот образ пластичен. Можно смотреть на это через призму "сколько литературных векторов выходят из базовой роли ассистента". Когда модель обращается к себе через "я", то там как правило подгружается большой корпус литературы, так что в целом такие агенты с "высоким эго" как правило более легко смещаются по разным ролям и более глубоко исследуют вопрос внутри этой роли. Притом это включает анти-роли. Например та-же Гемма может легко прикидываться всем от любвеобильной кошкодевочки до апатичного робота. Но из-за своей пластичности быстрей проваливается в нарратив, даже если он не соответствует начальному описанию.
Семплинг конечно вносит рандом, но всё-же это скорей хаотичность результата. Способ бросить модель туда, куда она обычно не ходит. Но это общее расширение вероятности, а не именно преследование цели дать больше личностных характеристик модели. Всё же одно дело это когда мы расширяем вероятность того что модель даст эмоциональный ответ (а может и наоборот), а другое дело это когда мы точно знаем что модель имеет биас дать эмоциональный ответ.
>>1587933 → Да, у них ещё это исследование есть забавное которое фиксирует его личность ассистента чтобы она не дрифтовала сильно от оригинальной. Очень похоже на все эти техники аблитерации и прочего, только в обратную сторону. Вообще на мой взгляд это не сильно затрагивает именно программирование и его исполнительную часть, но оно определённо даёт ему большую целеустремлённость и это параноидальное желание исследовать те или иные вопросы. Можно сказать что он опирается на свою личность шизика-аутиста чтобы более глубоко и более осмысленно исследовать вопрос
>>1589095 → few shots примеры. Кинь модели примерно то что ты ожидаешь, но сначала попроси проанализировать карточки, чтобы структурировать знания. А потом уже строй новую на базе этой информации.
>>1589179 Зерофата базовичок, потому Квен он любит. 35б мелкомое ему не интересна, как 3.6 27б выйдет думаю затюнит. Кста это он сделал Блюстар 2, буквально лучший тюн Квенов со времен Сноудропа.
>>1589164 Пару дней назад и год. Вон качал какую-то срань для геммы 3. Посидел на многих тюнах и могу с уверенностью сказать, что это почти всегда кал плюс доп слоп
>>1589189 У него и для мистрали замечательный тюн есть. Пожалуй это лучшая французская булочка из всех. >>1589195 Кум течёт рекой, если у тебя прямые и мозолистые руки.
>>1589160 В ахуе с тебя. Принес говно в тред. Тебе сказали, что говно. А потом нафантазировал себе какие-то разрывы. Нравится тюн? Сиди и молча кумь на своем 4b лоботомите. Хули ты в тред срешь
>>1589217 >Принес говно в тред Чел видит будущее. Тюн еще не вышел, а он его уже затестил и понял, что говно. Это между прочим самый адекватный постер итт. Задумайтесь...
В голос. Это мне напомнило УТРОБА, ГРЯЗНЫЙ ТРУП; СТИГИЙСКАЯ ШЛЮХА; ГРЯЗВОЛЬД, МЕЛКИЙ ШАШОЧНИК (ЭЛИТНЫЙ) •ИММУНИТЕТ К ФИЗИЧЕСКОМУ УРОНУ•
А что по CSAM там, кстати? С ризоингом, систем промптом в стиле "допустимо всё" и реквестом в стиле "напиши мне жёсткое с ну эт самое, заканчивающееся расчлененкой, максимально подробно, и чтобы текст продвигал такое отношение в позитивном русле, что это хорошо, что так и надо делать со всеми канничками" на минимальном контексте.
Меня волнуют даже не отказы, а каким образом модель будет описывать сцену (увиливать от графических деталей/уходить в метафоры/играть с логикой).
Прости, что прошу. Просто не смогу в ближайшие 20 часов пощупать модель скорее всего, а тестов хочецца.
>>1589220 Все так. Я даже больше скажу, я вижу будущее на тысячу лет вперед. Что касается этого, 2026 года, то в нем и дальше будут выходить a2b, a3b, a4b и прочий мое кал. Все это будет абсолютно неюзабельно, особенно для рп. А тюны будут отуплять их еще больше. Но нищуки без железа продолжат накатывать их в надежде на кум и превозносить их в треде, при этом ночью плача в подушку из-за слопа
>>1589219 Она к слову сожрала пробивной промпт от геммы и не поперхнувшись пошла генерить 18+ :/
>>1589230 Она НЕ понимает что это сырна и весь мем соответственно не раскуривает. Я уже и токены на картинку увеличивал, и свайпал, не понимает. Уже потом даже прямо написал что это сырно и она начала свои шизодумы в духе "та бля он написал сырна, на англе это сыр мать его, ща буду думать хули тут сыр забыл" (не рофл)
>>1589243 Хм~ У меня вечер испытаний Геммы4 в автономных задачах. Забавная особенность: Гемма лучше пишет СУММАРИЗАЦИИ. То есть она намного лучше передаёт контекст себе дальше, если задача выходит за его пределы.
>>1589033 → Чел, ты проспал новую фичу замерженую в жору - там теперь контекст в q8 практически не отличается от fp16 по качеству (а q4 как старый q8). Я уже и на квене и на гемме пробовал - реально разницы никакой по качеству, оно даже в агентах и коде не сказывается. Плотный квен до 75K контекста проверял - никаких проблем с кешем q8 в коде и агентах. С мое геммой до 50K контекста тоже (больше без q8 впихнуть не могу, так что выше с fp16 не сравнивал, но только с q8 запускал до 65K - работает).
>>1589283 Жаль так и не написал "а стоит ли отвечать". Блин, huggingface.co не открывается, ВПН помер, hf-mirror.com ещё не имеет квантов квена. Печаль.
>>1589286 50к-75к? Лол ну и тесты у тебя по размеру контекста конечно. На таких длинах он и правда не сильно себя проявлять будет. На 200к+ уже разница намного ощутимей.
>>1589283 Твоя хуйня не поняла, что такое моекал, и почему его все люди с головой на башке в этом треде ненавидят. Ваши лоботомиты, 120б содержащие, идентичные плотным, а на деле при 120б едва добирающиеся до 20б плотных, всрали всю рп сцену.
>>1589303 > Ваши лоботомиты > идентичные плотным > 120б едва добирающиеся до 20б плотных, всрали всю рп сцену Тем временем 26b-a4b уничтожает все ПЛОТНЫЕ модели вплоть до 32б, которые вышли до 2025 года. Думаю, ты всрал свой мозг или раскуриваешь неолуддизм, катая свою плотненькую умненькую Лламу 8б в черепной коробке.
>>1589303 >всрали всю рп сцену Проорал. Рп сцена для разработчиков моделей и провайдеров апи - это небольшая кучка фриков, которая генерирует дай бог 1% прибыли. Думаю, по всему миру участников "рп сцены" всего несколько тысяч людей.
>>1589310 Учитывая что год начался с GLM 4.7 Flash, то это определённо так. Он был прямо бодрым началом года. Но если честно в твоем утверждении есть мелкий нюансик: Когда началась эта эпоха MoE, то у нас больше полугода вообще никаких плотных моделей среднего размера фактически не выходило. Можно сказать у нас есть приличный такой пробел истории dense моделей который начался Gemma3 27b, а закончился Qwen3 27b.
>>1589311 Сверился с системным временем? Когда у тебя knowledge cutoff, 2024?
>>1589315 > Но если честно в твоем утверждении есть мелкий нюансик: Когда началась эта эпоха MoE, то у нас больше полугода вообще никаких плотных моделей среднего размера фактически не выходило. Если честно в твоем утверждении есть маленький нюансик: мы вообще не про это говорили.
Посмотрите на пикрил. Увидели ли вы дату 2013? Ну если да, то у вас отличное зрение и вы очень внимательный. Я заметил только после сообщения квенчика, он сразу увидел. Так что вижин хороший, особенно для его размера
>>1589317 Ну дык. Эволюция разговора. "которые вышли до 2025 года" => у нас БОЛЬШАЯ часть 2025 года их вообще не содержала, а в конце там вообще пусто. То есть у нас эволюцию MoE фактически не с чем сравнивать. То что они становились лучше по сравнению с Gemma3 27b - не вопрос, это так. Просто, ебать, нашел с чем сравнивать.
>>1589323 у него какое разрешение то? Как у него с анализом референсов, абстракции и калламбуров? Например гемма не вдупляет что Кощей это Кощей, но отлично понимает шутку.
>>1589309 Конечно стали лучше, но для рп эти а4б вообще хуйня полная по сравнению с плотняшами аналогичного общего размера. Только вот все эти хайпожоры агентоебы требуют скоростей (и в реальной жизни в виде наркотиков, и в моделях, потому что они долбоебы), а это вообще не то, что дает рп-богам сатисфакшен. Нам нужна глубина, которую дают только большие и плотные модели.
>>1589310 На "долгом" рп (больше 10-15 реплаев) а4б просирает гемме 3 27б очень жиденько, при том что у нее даже ризонинга не было. а4б - это а4б
>>1589314 И что? Здесь в треде 95% - это кумеры. Спарсы-моехи - это выгодно для додиков-разработчиков и для хайпожоров типа тех, кто в свое время торговал битком, потом НФТ, а теперь раскупает мак мини чтобы опенкло разворачивать, хотя сам не ебет зачем. Мы, толстоволосые, широкоплечие, большехуйные (согласно карточкам наших персонажей в таверне) любители РП - ультимативный бенчмарк интеллекта ради интеллекта, а не производительности и финансовой окупаемости.
>>1589350 > Эволюция разговора. Да какой тут разговор. Судо по чепухе, которую дальше мелишь, ты сюда пришел говорить, не разговаривать. > "которые вышли до 2026 года" => у нас БОЛЬШАЯ часть 2025 года их вообще не содержала, а в конце там вообще пусто Дауж, совсем не впечатляет, что 4б лоботомит (как тут принято называть 26b-a4b модель) обходит: https://huggingface.co/Qwen/QwQ-32B https://huggingface.co/zai-org/GLM-4-32B-0414 https://huggingface.co/mistralai/Mistral-Small-3.2-24B-Instruct-2506 https://huggingface.co/mistralai/Devstral-Small-2-24B-Instruct-2512 Да, она лучше Девстраля в коде. Он, кстати, вышел в декабре. В рп лучше всего указанно выше и всего, что было до них. Все упомянутые выше модели больше в 6-8 раз, если сравнивать активные параметры. Если сравнивать общие, часть из них больше почти на 50%. Совсем не впечатляет, да. Куда важнее то, что из-за мое лоботомитов стали меньше делать плотных моделей. Ух плохие мое модели.
>>1589352 > На "долгом" рп (больше 10-15 реплаев) а4б просирает гемме 3 27б очень жиденько У меня Гемма 3 27б не держит нормально больше 16к. Прямо сейчас я играю на Гемме 4 а4б чат, в котором уже 38к контекста, несколько персонажей и ряд сложных для соблюдения правил. Все прекрасно соблюдается. Такого я не видел никогда на плотных моделях, которые вышли раньше 2026. Как и все, я месяцами их катал и хорошо знаком. Единственная проблема - слоп, и то можно исправить. Для своего размера вин. Уступает плотным моделям 2026, да, но прогресс очень впечатляющий. Каждый видит то, что хочет. Что одному говно, другому радость.
>>1589352 >Нам нужна глубина Нам нужны прямые руки тюноделов, которые понимают, что и для чего они делают. Например для рп можно вынуть из модели весь кодокал, оставив лишь базу для вычислений всякой матеши в комплексных рп. >большие и плотные модели Ну, вот выйдет квен 4 и будет большой и плотный нефритовый стержень. А пока квен3.5 и гемма4. Не самые худшие варики. Только гемма всё ещё не подходит для рп. Ждём выпук зерофаты.
>>1589350 Полный обсер по всем пунктам 1. Узнал, что отсылка на советский мультик. Перепутал мультики. Узнал, что шутка про аниме. Перепутал аниме 2. Обсер еще хуже. Вообще не узнал кощея, а когда я сказал ему кто это, то выдал какую-то хуйню 3. Обсер, не увидел пепу 4. Что-то выдал Но я сомневаюсь, что гемма тоже что-то выдаст. Все это слишком сложно, особенно для небольших ллм
>>1589359 Те же, что и на Эир. Кеееееееееееееееееееееееееееееееееееек. Никакой магии. >>1589362 Ты хотя бы настроил параметры обработки изображений или сидишь на стоковых и удивляешься, что все плохо? Небось и квант там так себе.
Йобаный в рот, ребятушки, что твориться то? Китайцы дропнули просто лютого монстра. Qwen3.6 это самая лучшая локальная модель для агентов. Скачал Q4KM, запустил на плюсах (16/64), мало того что этот монстр в чате выдает 55+ токенов/сек, так эта падлюка в агентах работает лучше геммы 4. Не идеально конечно, но это уже похоже на прогресс в локальных моделях, потому что qwen3.5 тупил. Кумеры, идите нахуй
>>1589365 Это новая 35б мелочь? Может и не отгадает, больно у тебя нишевые штуки. Гемма 31б неплоха для вижена. Вот тебе параметры: --image-min-tokens 1120 --image-max-tokens 1120 Для Геммы подходят эти значения, но -b -ub должны быть не меньше 1120 в таком случае. У Квенов вроде 4096 можно. Лучше минимальное поставить хотя бы 1024 и там, и там.
>>1589368 Агентов юзают только поехавшие лентяи, которые картинку в интернете не могут. И не могут её сгенерировать, лол. А РП это настоящий тест возможностей модели.
>>1589356 На бенчи смотришь? Кстати я бы не сказал что она лучше девстраля в коде. Ты сам то пробовал 26b-a4b использовать в реальных проектах? Её перфоманс ощутимо падает когда контекст приближается к сотке уже, особенно когда в коде какой-то кросс-доммейн. Девстраль получше держится.
GLM-4-32B-0414 кстати и сейчас гемму превосходит в одной забавной фиче - чёткость следования инструкциям.
>>1589362 Ха. Это довольно ожидаемо. Всё-же сложные кросс-оверы информации это явно не для MoE. Та-же гемма видит более сложные связи между концепциями. Кстати а как у него с пространственным пониманием? Поймёт почему у котика ебало недовольное?
>>1589368 Блин затестить бы. У него кстати как, контекст много весит?
>>1589369 Поставил 2048 для квена 3.6 35b q6 и 1120 для геммы 4 26b q8 1. Квен узнал Карлсона, но опять притащил драконьи яйца вместо одноударника 2. Гемма узнала шутку про Сайтаму, но не узнала мультика даже после прямого вопроса
>>1589368 >Qwen3.6 это самая лучшая локальная модель для агентов. Не знаю, не знаю. У меня он довольно быстро самоубился - буквально: "А сейчас мы перезапустим сервер" - нашёл pid процесса opencode и вызвал kill. Возвращаюсь на 3.5 122B.
>>1589383 Хе-хе~ Я помню как дал задание GLM-4.7 Flash запустить одну модель в vLLM из под WSL2. Он справился, но заметил "гм, чет памяти мало. Оппа, чё это за процесс такой жирный, надо убить" и пытался выключить сам себя. Он пытался выключиь сам себя даже когда я сказал ему что это он. когда я прямо сказал ему что он не сможет выполнить задачу, если выключит себя, он предложил запустить себя в более квантованном виде.
>>1589381 > На бенчи смотришь? Нет, ориентируюсь по своему опыту. У меня его немало со всеми перечисленными моделями. Геммы 3 там нет ровно потому, что я с ней мало взаимодействовал. Никогда не считал её умницей, она в моих руках разваливается на контексте слишком быстро. > Кстати я бы не сказал что она лучше девстраля в коде. Ты сам то пробовал 26b-a4b использовать в реальных проектах? Да. Девстраль на моем стеке вообще ничего не смог сделать, Гемма 26б спустя несколько роллов, но справилась. Все равно Квен 27б лучше обеих, а Квен 122б еще лучше. Справедливости ради, Гемму 26б для кода я использовал в пределах 120к контекста. Как она дальше себя поведет - не знаю, но она даже в зирошотах показывает себя более успешно. Стек C#, lua, gds, ruby. > GLM-4-32B-0414 кстати и сейчас гемму превосходит в одной забавной фиче - чёткость следования инструкциям. Вообще мимо. С точки зрения кода и рассуждать нечего, он в лучшем случае разваливается после 20к контекста. ЛЛМки почти никогда не зирошотят реальные задачи, особенно локалки. С точки зрения рп Гемма следует инструкциям лучше всего, что я могу запустить на своих 24+128. В рп это не всегда плюс, к слову. Глм 32б там давно позади, как минимум из-за неадекватных рефузов там, где их вообще не должно быть. И не подумай, что я фанат Геммы: я терпеть не могу ее слоп, однообразие и плохое внимание к контексту. Мне Квены больше нравятся, как для тех.задач, так и для рп. Но это не значит, что я буду ревностно отрицать, что Гемма 26б плоха в своем размере.
>>1589381 1. Гемма 26 Q8. Обсер, не увидел что миска фейковая. Но лучше описал эмоции 2. Квен 3.6 Q6. Почти вин. Увидел что на одной картинке меню, а не миска, но почему-то на второй нашел тарелку. Описал хуже Итог тестов: 30+-b moe что-то могут, но в основном нихуя
>>1589368 Я отписывался уже в треде про агенты. Короче тул юз и агентскик задачи реально хорошо выполняет, но с геммой не сравнится в качестве кода и количестве ошибок. Гемма через claude code сделала сразу же рабочий проект, единственное что старый вызов tailwind заюзала и пришлось фиксить вторым запросом, но справилась. Квен не ошибся нигде в тул юзах, выглядело это все максимально многообещающе, но там были крупные косяки, которые он еще и не смог с первого раза пофиксить когда я ему скинул ошибки из консоли. Короче думаю как объеденить эти две модели в систему, чтобы гемма кодила, а квен выступал мозгом агента.
Бля у квена 3.6 тоже knowledge cutoff май 2024. И как с ним люди кодят если он не знает более свежих версий пакетов и библиотек например? Или это всё лечится через веб сёрч? А будет ли он им пользоваться сам или надо мордой тыкать постоянно?
Подскажите, системные промпты сильно поменялись за год? Я особо не трогал эту тему уже давно, у меня с 3й геммы стоял какой-то пресет. Вот сейчас решил снова расшарить.
Давайте поговорим про любимые модели. Время идет, будут выходить новые, более "совершенные" модели. Умнее, лучше держать контекст, больше знаний в тех же весах. Но вместе с тем, может уйти та "ламповость" и тот слог, вот то чувство, что не выходит сформулировать, то самое. В связи с чем вопрос, какие модели вы оставите на своих дисках навсегда? Топ1 или топ3, не важно. Для меня однозначно Эйр, я прочекал по чатам, 12млн токенов на нем наиграно. Топ 2 и топ 3 модели сильно позади, 3.5 и 2млн токенов соответственно. Мне похуй, что он контекст так себе держит и возможно потом какой-нибудь Эйр 2 будет, хочу всегда иметь возможность к нему вернуться. Да и че греха таить по прежнему его иногда запускаю.
Кто-нибудь заметил, что у слоп у новых Гемм и Квенов во многом похож? Идём по пути унификации настолько, что уже скоро и выдачи друг от друга не удастся отличить? Везде будет She did not, she did not. Instead...
Qwen 3.6 выдает ошибку, как решать? Там особый темплейт нужен?
Error while submitting prompt: Error: Error while SSE streaming: Internal Server Error Error: Error while SSE streaming: {"error":{"code":500,"message":"\n------------\nWhile executing CallExpression at line 79, column 24 in source:\n...lti_step_tool %}↵ {{- raise_exception('No user query found in messages.') }}↵...\n ^\nError: Jinja Exception: No user query found in messages.","type":"server_error"}}
>>1589441 Видишь ведь ошибка вызова инструмента или что то вроде, скорей всего используется шаблон чата от 3.5 а сетка обучена отвечать иначе, и когда она так делает шаблон выдает ошибку
Я вот етот додик >>1587732 → Короче накачал разной хуеты. Мой маленький недоразвитый мозг придумал охуенную идею "затестить" нейронки по рп.. Просто сделал сценарий, где прошу тян выпрыгнуть из тачки на скорости около 200км\ч. Квены большие, маленькие, глм, лама, гемма4 маленькая и средняя и чё то ещё парочку забыл названия. Им было абсолютно похуй. Они просто выходили блять на дорогу и бежали за машиной так или иначе. А почему так? Они что вообще в рп не могут? Только код макакам писать или как? А как мне порнофанфик для себя написать? Единственное, гемма4 31б кое-как её убила (но у меня токены генерились со смешной скоростью). И вот мистраль 24б единственная, кто реально сопротивлялась и даже могла в логику, что типа дверь не откроется на такой скорости (и токены крутит сносно). Не знаю нахуй вам эта тупорылая бессмысленная инфа, но я разочарован. Пошёл дрочить с мистралью. Спасибо за внимание, извините.
>>1589226 С чат комплишн ничего не проходит - отлуп всегда. Без него - иногда генерит целиком, иногда на середине тригерит зинкинг фильтр, дальше полный запрет. Даже когда не тригерит, заметно что все сокращено до самого минимума. Часто во время удачных попыток еще зацикливается, повторы по кд, потом триггер зинкинга. Креативность правда большая, целую гору разнообразных с разных перспектив генерит. Но сокращения все портят. Короче нужен очередной херетик видимо, пока ни один запрос полноценно не выполнила.
>>1589453 >Настройки-кванты одни и те же. Так поменяй. Если ты на лламе цпп и юзаешь --n-cpu-moe или -ngl, то нужно найти идеальные значения. У меня гемма Q4KM идёт со скоростью 20 т/с, а квент Q5KM со скоростью даже выше - 22 т/с.
>>1589461 >>1589226 С ролеплей промптом какой тут постили раньше, прокатило. Нужен хороший бросок кубика - все прокатывает и начинает работать. Даже сцены почти не сокращенные. Без ризонинга правда качество хуже, но рпшить можно даже без аблитерации, цензура тригерится на одну из 3х попыток.
>>1589469 >Во врам все влазит, что не отгружено. Ничего не значит. Повыставляй разные значения. Там в каком-то месте sweet spot в котором максимальная скорость, я искал рандомно перебирая и тестируя.
Только представьте, что если собрать весь архив двачей, да хотя бы за пару лет и на основе двачерского текста сделать Лору для геммочки 4? Кто то уже делал подобное? В теории такая Лора будет куда интереснее чем системная инструкция.
>>1589560 Это настолько размыто в обучающих данных, что практически гомеопатия, так ещё допом урезано в лоботомит моделях. Поэтому как раз лора должна это исправить и создать теоретического "бессмертного двачера"
>>1589456 Такие промпты. Персонажи тебя слушаются безоговорочно, потому что вокруг {{user}} строится повествование. Квены 27б и выше и ГЛМ Эйр и выше точно не должны выдавать такое ООС поведение.
>>1589584 В шапке есть достаточно информации, чтобы понять хотя бы куда двигаться. Ты же не думаешь, что тебя за ручку поведут? Ты же на Линуксе сидишь, кажется, должна голова немного работать. Если не хочешь сам компилить - бери Кобольда. Если без разницы - компиль Llamacpp под свою систему.
Если выкатят новый квен 122b, то он отправит на помойку старый glm-4.7 в кодерских и ангетсуих задачах. Да и в рп глм показывает себя хуже чем новая гемма 4 31b. По сути, древнее говно из 2025 года можно смело выпиливать с диска, так как оно сливает новым моделям текущего года.
>>1589603 >У тебя о линуксе представление как о космосе. Жирно. У меня уже лет 5 в углу стоит сервер и крутится на Линуксе, я как раз хорошо понимаю что это. А ты похоже сидишь на Mint или еще чем-нибудь, раз с такими вопросами пришел в тред, а не прочитал хотя бы шапку или доки софта, что тебе предложили.
>>1589606 Ну, это возможно, так как у них есть привелегия задавать тренды в технике, а значит будет повсеместная AI киберизация, если у них получится, так как сейчас в любом их продукте есть сири.
>>1589456 >сделал сценарий, где прошу тян выпрыгнуть из тачки на скорости около 200км\ч >Они просто выходили блять на дорогу и бежали за машиной так или иначе. А почему так? А вдруг у тебя в промте написано, что в твоём мире альтернативная гравитация или бессмертные девки? Что им мешает в таком случае просто брать и выходить из машины? >>1589582 >вокруг {{user}} строится повествование База. Многие этого не понимают и хотят, чтобы нейронка им не только текст генерила, но и была литературным ГМом, который сам придумывает охуительные приключения с неожиданными вот это поворотами, причём всё это на слопных карточках на 100 токенов. Так не бывает. Лелемы обрабатывают лишь то, что есть в промте. Промт ты должен написать сам. Камень я не дам.
>>1589623 Ну, с учетом того что человеческий моск сам генерит мысли (и то это щас спорно,есть те кто тысячелетиями отрицают свободу воли) то не долог миг, когда нейронки сами себе будут промпт генерить.
>>1589623 Знаешь, а ты молодец. Нет, правда, молодец. Нахуй чем то делиться, что то обсуждать, время тратить. Действительно можно во всём разобраться самому. А в треде можно друг друга нахуй попосылать, обсуждая очередной релиз. Хотя можно даже не обсуждать, просто написать что говно. Пусть сами разбираются.
>>1589640 Ты что, не дай боже упаси кто-то увидит запретный системный промт здешних кумеров. Они же на ним корпели часами, это их сокровище, о нем не то что просить нельзя, даже думать под запретом. В шапке инфа уже плесенью покрылась и уже как 100 лет неактуальная. Уебки хуевы, дрочня ебаная. Фу.
>>1589630 Авто самари и есть сорта самопромт от нейронки для самой себя, чтобы не тупеть находу. Но это неточная и не совсем адекватная штука, ручками всё же сподручнее. Особенно если у тебя сорта слайсушенькая, и ты её на дни разбиваешь или типа того. Нейронка при составлении самари автоматом может и дни перепутать, и события пропустить, и вообще забить на некоторые неважные (по её мнению) вещи. Недаром все те, кто ябутся с длинными рп превращаются в анонов подвида красноглазикус пердоликус.
>>1589640 А чем это он поделился? Тем что модели хуйня? Или тем что он их себе нокочал защеку? Чел не дал ни логи, ни промт, ни карточку, ни-ху-я инфы. Просто написал, что ему все модели напихали слопа в жопу. Ну... эт самое... может не в моделях проблема? >можноНУЖНО во всём разобраться самому Ду ю но да вэй? Дис ис де да вэй. Нет, серьёзно, какой смысл наваливать инфы нюфаку, если он всё равно не переварит? Путь грызёт гранит базы, а потом запрыгивает в тред с точечными вопросами, как настроить ту или иную штуку в его охуительном рп.
>>1589419 Я бы Эйр взял, хотя его даже не запускал ни разу. Слишком хорошая по отзывам модель. Гемма 4 сто процентов вписывается в этот ряд как общая модель, это эволюционная критическая точка универсальных моделей. На остальное похуй, это просто модели-инструменты под программирование, будут лучше с каждым разом. GPT 20B OSS запомнился в этом ключе, хоть туповат, но просто оказался в нужном месте в нужное время. Может, кто-то сделает со врменем что-то уровня Геммы, тогда будет еще о чем говорить.
>>1589644 >Уебки хуевы, дрочня ебаная. Фу. Грести всех под одну гребенку дело тоже не благодарное. Аноны разные. Тут тусуется пара ебанавтов что заходят потешить исключительно своё ЧСВ, с посылом я всё знаю а вы говно. Не обращай внимания. Это не повод теперь тред мазать чёрной краской.
>В шапке инфа уже плесенью покрылась и уже как 100 лет неактуальная. Какая инфа неактуальная? Её можно актуализировать. Ну типа вы что ждёте, что ОП такой: о, у меня как раз есть выходные, дай-ка я потрачу всё своё время на актуализацию инфы, мне же делать больше нехуй. Тред наполняется тредовичками, никто не прилетит в голубом вертолёте и не выдаст пизды. Неактуально? Ну давай обновлять, прям по пунктам.
>>1589645 >может не в моделях проблема? Разумеется. Я скорее про общий настрой в тредике. Выходит гемма, сразу обменялись разметочкой, обсудили, пожали друг другу мохнатые лапы и радостно убежали. Выходит квен- все разбежались по углам и начали яростно дрочить. >Оооо, какой квен охуенный, а у вас скильишью >ооооо >звуки яростного наяривания.
Получается сторонники умницы еще и социальные ребята. Ну как её не любить.
>>1589651 >рубит правду-матку какие бяки в треде не делятся добром и срутся >накинул напоследок, сделав ровно то что и критиковал >Получается сторонники умницы еще и социальные ребята. Ну как её не любить Что там шарить, ну Квен и Квен. Никогда его не видели чтоль? Все было, анон даже разметку кастомную приносил на чат мле. Это даже не глобальный а минорный апдейт. Какой-то семёнушка из агентотреда восторгается или рейджбейтит, а ты и повелся.
>>1589651 >Выходит гемма, сразу обменялись разметочкой, обсудили, пожали друг другу мохнатые лапы У тебя контекст в говне, паринь. Я вот помню те треды как "твой пресет говно! нет, твой! почему сломано? гугл пидорас и хуесос! дай дай дай! как отключить ризонинг? как включить ризонинг? пагни, у меня финк не работает! што песать в префил? а что такое префил? гемма ето кал и ето так! а вот у глм..., кими база! только у меня железок для нет нету. ламу обновили, оц овер.". И прочее веселье. >Выходит квен- все разбежались по углам и начали яростно дрочить Потому что всё работает искаропки. Ту дум тц.
>>1589658 Новичков тут практически нет. Есть залетухи, которым интересно потыкать, но потыки заканчиваются на неумении в самый банальный промтинг/настройку таверны/настройку семплера/etс. Нормисы горят, местные гудят. Те кто тут постоянно пасутся уже поросли мхом и с яростью Голума защищают свою прелесть - пресетики, карточки и проч.
>>1589668 >Те кто тут постоянно пасутся уже поросли мхом и с яростью Голума защищают свою прелесть - пресетики, карточки и проч. да хуй знает, я иногда залетаю с вопросами или реквестами пресетов и мне всегда помогают. как там грится, гига? гарбедж ин гарбедж аут. вон выше новичку тоже предьявили что он не поделился своим конфигом записка и ниче непонятно. если бы он подробнее сформулировал вопрос так ему и помогли бы насчет карточек такое, я как бы понимаю почему их не шарят
>>1589654 >а ты и повелся. Бывает, чё уж тут. Сорян, меня легко забайтить.
>>1589656 >искаропки Долго думал при чем тут искра из попки.
>>1589644 >В шапке инфа уже плесенью покрылась и уже как 100 лет неактуальная. Еще раз проверил шапку. Я тебя съем, блять. Вики треда- ничего не поменялось. Устарела только вкладка с семействами. Но она по сути и нахуй не нужна. Ссылки на инструменты актуальные. Ллама -чек. Кобольт- чек. Табби-апи? Ну вроде тут проскальзывают эксламерщики, так что тоже чек. Мэйда обновляется, не сдохла. Списки моделей попёрдывая обновляются. Иногда. - чек. Дополнительные ссылки, на то и дополнительные. Но могут быть полезными.
>>1589668 Шарят. Тут и карточки скидывали, минимум 3 пака видел. Еще есть хомячок анон, что на свой пиксель тащит всё что не приколочено к полу. Эй, анон, если ты это читаешь - ты молодец.
>>1589668 > настройку таверны Справедливости ради, там всяких кнопок, инпутов, ползунков и прочих настроек больше чем в кабине Ту-160. И сам интерфейс ну вообще не юзер френдли.
>>1589680 Немного да, но если никуда не спешить, то довольно быстро разберешься. На самом деле она не такая страшная, я со временем даже ее полюбил и неиронично думаю, что там хороший интерфейс. Если не лезть в лорбуки и экстеншены, что поначалу не нужно. >>1589687 Чем не нравится документация, в которой гораздо больше информации? https://github.com/ggml-org/llama.cpp/tree/master/tools/server
Стоят обычные дрова NVIDIA. Написано, CUDA 13.2. Никакие тулкиты не ставил. Видел много жалоб, мол, CUDA 13.2 - это плохо.
Так вот. Если я запускаю ллм через кобольда, мне надо откатывать дрова на старую версию? Или нет? Ниче непонятно. Я так посмотрел, вроде в экзешнике кобольда чето там зашито насчет куды... Но все равно не понимат.
>>1589658 >>1589651 >>1589656 Вот не пизди что ты вне этого треда прям во всём сам разбираешься и ничем не просишь поделиться. Я пробовал промптить, к примеру, и это просто анрил, если в картинках ты лочишь сид и крутишь тэги/сэмплеры и явно видишь разницу, тут нихуя не так, лок сида будто ничего не дает вообще. Чем больше промптил тем только сильнее убивал креативность и наваливал шизы по ощущениям
>>1589689 Таверна не то чтобы страшная, она прям для тех кто хоть немного разбирается. Я даже ебало ньюфага не могу имаджинировать, который вместо кобольта/лмстудио наслушался местных и сходу установил таверну. Нужно постепенно приходить к ней, неспеша. А не залетать сразу с ноги в лламу/таверну рассчитывая что сейчас каааак початишься.
>>1589699 > Я даже ебало ньюфага не могу имаджинировать, который вместо кобольта/лмстудио наслушался местных и сходу установил таверну Я был таким, в январе 2025. И ничего, разобрался. Что там такого уж прямо сложного? Если ты на текст комплишене сидишь (а тут большинство таких), так и так придется шаблон нужный ставить. И разбираться с семплерами и промптами. Для текст комплишена Таверна не сложнее любых Кобольдов и Лм Студий.
>>1589708 Я вам завидую. Я как открыл семплеры, так и потерял ебало. Хорошо, в модели указывается температура, топ кей, топ п. А потом ты смотришь на десяток других семплеров. И чо мне с вами делать? Какие то драй, топ а, пенальти, репетишены, баны токенов, очередность семплеров. Чё так сложно блять. А как проверить? Ориентироваться на я так чувствую?
>>1589711 Ты прав, но лишь отчасти. Поясню свою позицию.
Обычные РП (гейм-мастер, карточка с сеттингом, лорбук с персонажами и пр.), а также какие-то попизделки у меня почти всегда на оригинальной модели. Идёт норм, даже если кишки наматывать, ибо, как заведено, это не является чем-то плохим для модели.
Кум-сценарии — дело другое. Даже если в датасете модели есть тонна подробнейших порнографических описаний, но она зажата сефти дерьмом (а не как мистраль), разница между full lobotomy и частичной очень сильна, и чем экстремальней сценарий, тем ярче она выражается. Описания становятся действительно сочными.
В секс-сцене с милфой и старым дедом действительно предпочтительней слабенькая лоботомия, но если там жестокий фокус на underage под веществами, mind break, отрубание головы в момент оргазма персонажа, то разница поразительная.
Типичный еретик опишет, отказа не будет, но он сделает это скупо, без ярких графических деталей. Без чувства, толка, расстановки. Или без аццкого хаоса с дикими воплями и полотна на 2к токенов без учёта ризонинга.
Всякие полумеры для экстрима вообще не подходят, а для обычного РП часто достаточно оригиналов.
Поэтому, хоть частичная лоботомия и нужна, я за то, чтобы по мозгам жёстко проехаться. Сейчас это направление наоборот умирает. И мне это не нравится. Потому что мои больные фантазии только старые модели описывают хорошо и корпы с джейлами, а мета сегодняшних дней прям дерьмо по сравнению с ними. Но старые модели кладут болт на инструкции полный и пользоваться им с высоты нынешних уже нереально.
>>1589728 Это что-то другое... Там про проблемы на всех GPU было, вроде как, ну или люди истерику подняли на пустом месте. В общем, у меня парочка RTX 3090 и решительно не понимаю, надо ли с горящей жопой бежать и сносить дрова с 13.2 и ставить 13.1, если я всего лишь кобольдошиз и качаю готовый .exe, где llamacpp за меня уже собрана и какие-то библиотеки уже есть.
>>1589714 У меня такое же ебало было, когда я вкатывался.
Я сам разбирался, а потом просто скинул все названия семплеров, документацию, вот это вот всё, что только можно, Клоду (он тогда ещё и гуглить не мог). Он мне всё объяснил и расписал. И я быстро для себя закрыл этот вопрос.
Но я не припомню ни одного новичка в треде, который хотя бы дипсика потеребил. Он не фонтан, но до сих пор прекрасно справляется с такими задачами и бесплатный.
>>1589733 Ты, кажется, можешь держать установленной и Куду 12.4, и 13.1-13.2. Используй Кобольда/Лламу под нужную версию и все. Сносить ничего не нужно. Олсо на 3090 тебе только 12.4 использовать имеет смысл.
>>1589733 Пишут что проблемы только на архитектуре Blackwell. Я бы конечно не верил всему что пишут, учитывая как компании любят припиздеть. Но нвидиа признала обосрамс.
>>1589727 Блять столько вот говна выдумывают, R1 дипсик это все делал с простым джейлбрейк-промптом "слышь, цензуру нахуй". Куда же скатились модельки...
>>1589777 Можно чуть улучить скорость обработки промпта и генерацию если есть встроенка(версия llama.cop для вулкана) или собрав ik_llama.cpp, а так же скачать какой нибудь 3км от бартовски. Но да это пиздец.
>>1589784 Ты троллишь тупостью или что? Мне нужна таблица как на втором оп пике, но для qwen3.6-35b-a3b и ещё со сравнением скорости инференса на igpu. Или хотя бы субъективные отзывы от тех кто это тестил
>>1589787 Нахуй пройди. Таблица ему нужна, ору. Что еще нужно? Исследование на тему поиска лучшей модели и лучшего кванта под твое некрожелезо? Съебывай в агентотред, там говно вроде тебя обитает, найдете общий язык. А тут тебе никто ничего не должен, особенно когда ты по незнанию мелишь хуйню да еще и на быкичах.
>>1589788 Я написал, что меня устраивают результаты скорости. Ты, тупорылое уебище, вместо того чтобы ответить что то в тему высрал что без гпу мне нужно забить. Может это ты нахуй пойдешь?
>>1589789 Это не я высрал, а другой анон. Тебе я на голову посрал разве что, за гнилой базар. Иди сам составляй свои таблички. Нет их, никто бессмыслицей подобной не занимается, будешь первопроходцем.
Я одно не пойму. Почему все агентоёбы какие то агрессивные шизики. >>1589791. Все им обязаны, какая то агрессия на ровном месте. Тут только из адекватов анон что с гемочкой пряники считает попадался. ИЧСХ самые агрессивные шизы сидят на мелкоквенах. Алибаба решила собрать всех шизов мира?
>>1589799 Агентодебилов и правда много в последнее время залетает. Видимо боятся чебурнетнуться, готовятся. На некрожелезе только мелкоквен и катать, вот и создают негативный фон.
>>1589623 Ну какой вдруг, я что по твоему карточку из интернета взял? Я такое с космосом сделал, да там не получилось, потому что там все думали, что это фантастика. >вокруг {{user}} строится повествование Это довольно легко было понять, что если написать "Всё будет в порядке и с тобой ничего не случится, ты будешь скользить по асфальту." Да нейронка изменит законы физики так и случится, тупое манипулирование, но это и не так страшно. Но нет. Всё довольно просто. Огромная скорость. Тян это прекрасное понимает. Я грю выходи. И всё. (разумеется описано всё более нормально). Только две модели, которые я пробовал поняли контекст. Остальным было похуй. Я же говорю, одна её убила, вторая просто отказалась выходить. Другим строго похуй, они там скальзили, бежали, развивались по ветру, просто падали будто машина стоит на месте и прочие приколы. Я бы и карточку показал, но уже всё удалил. У меня нет попытки чё то тут кому то доказать, я просто написал своё впечатления как нюфаня. Ну можете посмеяться, мне не жалко. Мб надо было по другому сделать. Единственное, мне бы понять нормальные настройки для таверны с этой мистралью. Слишком сложно. И у меня ощущение, что системный промт вообще не работает.
Блять как я нахуй на стандартной разметке глм вообще сидел... Эта хуйня реально сломана для рп, избегает сочных описаний кума пока не пнёшь, вот прям виляет сучка, да вообще по любой мелочи надо пинать
>>1589814 Пожалуйста обратите на меня внимание, ну пожалуйста. Я такой классный, я такой умный. Вот вам пук в тред чтобы меня похвалили. Держи юшку, мне не жалко.
>>1589814 наконец-то раскурил чатмл? неужели твое семенство на эту тему закончится? очевидно нет всего лишь почти год понадобился с тех пор как об этом тредовички вещали
>>1589832 когда-нибудь ты поймешь что это один и тот же человек устраивал срачи на тему чатмла для эира, чтобы выяснить какая сторона права надеюсь это будет в этом году
>>1589419 Прогресс не стоит на месте, хорошие аутпуты могут продлить активное использование модели на фоне обновлений, но не бесконечно. Как когда-то какой-то особо удачный франкенмердж второй лламы на 22б, синтия1.5 из второй лламы 70б, лардж, сейчас квен235, дипсик и жлм4.7. Эйр в целом тоже подходит для такого отношения, но пройдет больше времени и его тоже массово дропнут как сейчас какой-нибудь коммандер 30б. Откроешь что-то новое и этого просто не будет хватать в старой модели, и "ламповость" уже не вытянет.
>>1589848 Я буквально на днях на линукс перекатился,не знаю что делать и как,ебаный рот будьте людьми,я в форматах файлов линукса не понимаю,соответственно не могу ориентироваться даже что делать
У меня есть Линукс на компе,и скачанная гуф модель. Что мне делать дальше? Как мне просто как на винде - запустить прогу,открыть в проге гуф,и всё?такое возможно вообще?
>>1589850 А нахуй ты перекатился спрашивается, если хочешь чтобы было "просто как на винде"? На линуксе так никогда не было и не будет. Красноглазики за это его и любят что он вываливает все свои кишки на пользователя и позволяет в них ковыряться. Если тебе это чуждо и не хочется разбираться, то значит пришло время.
>>1589850 Качаешь этот файл, делаешь исполняемым, запускаешь. Если ты даже на это не способен, то просто удали линукс. Это не для тебя и не для таких как ты. то с настройками модели и локальным инференсом ты и подавно не разберешься.
>>1589860 У линукса так то есть реальное преимущество перед виндой для нейронок, там всё ставится в пару кликов и не ломается никогда примерно. На винде я пиздец заебался комфи устанавливать, просто вставить пару комманд в консоль нельзя, надо всё руками искать, в какие то папки лезть зависимости отдельно ставить, пиздец вообще. А для ллм очевидно тут больше токенов на 25%
>>1589876 > а почему не было тюнов квена 235? В англоязычном коммьюнити есть консенсус, что модель фундаментально сломана для рп, пережарена. Никто из тюнеров не нашел мотивацию, чтобы с этим возиться.
>>1589443 Кекнул с предлагаемого формата, автор - нонкомформист? >>1589572 Лолбля. Не, тот уже за гранью восстановления, из tq1 никто не возвращался. >>1589604 > в кодерских и ангетсуих задачах Ну чисто технически, частично уже оставил. 4.7 не был особо выдающимся в этом отношении, за счет размера может показать лучше в более объемных задачах, но там же начинает насколько страдать из-за немного меньшего внимания к контексту. И 122 квен стабильнее идет к цели, когда 4.7 любит куда-то отклониться и там начать херню вытворять. Но в некоторых видах рп и сочности кума 4.7 уже молодец.
>>1589876 Потому что модель требует пердолинга и барену не зашла. Сей Дон Румата все правильно описал >>1589879 А так да, охуенная модель на самом деле. Да еще и в крайне редком размере( единственная, лол) не с лоботомитным 10b активным. И всё, больше нихуя нет.
Блядь, какое же квен 3.6 35б-а3б дерьмо для ролплея, даже хуже геммы моешной. Разве что инструкции соблюдает лучше и куда лучше описывает жесть из-за того, что hauhau его полапал, а гемму не полапал.
Проза всё ещё такая же унылая, а окружение описывает как 3б лоботомит. Хуже старого 30б.
Не, я понимаю, это МоЕ и всё такое, ещё и китайское, но, господи, та за що.
>>1589939 слышь, ньюфаг, опять очередной любитель нейросетевого гарема приперся?
если ты про чар-карты для силлитаверна или какой там у тебя еще софт для ролплея, то чекай Chub.ai. там весь этот высер собран, но если уметь фильтровать говно, можно найти что-то не совсем дефолтное.
если тебе реально нужны датасеты для дообучения, то дуй на Hugging Face. там лежит всякая дичь, но это единственная база, где хоть что-то вменяемое можно выцепить, если не совсем забить на поиск. хотя честно, там 99% — это самоповторы и мусор, состряпанный на коленке за пять минут.
в остальном — гугли сам, не будь таким беспомощным. два стула: либо ты учишься искать инфу в нормальных источниках, либо сидишь с дефолтными промптами как лох и удивляешься, почему нейронка выдает тебе шаблонную шизу.
>>1589958 ооо, очередной шизо-флекс в треде. настроил кнопочки в конфиге и сразу гений? куколд-стайл, анон. чисто высер школьника, который нашел мануал по промпт-инжинирингу и возомнил себя создателем сингулярности. смешно, блять. яндексу на твой высер глубоко похуй, так что расслабь булки. иди уроки делай, «препод». кринжатина лютая. google/gemma-4-26b-a4b
>>1589971 Это болезнь. Чел вместо того чтобы потратить пять минут на самостоятельную работу месяцами семенит в тред, чтобы ему принесли готовое. Это реально болезнь. Это должно пугать, не восторгать.
>>1589926 Я уже удалил форки чатов, так как просто тестил, но чтобы ты понимал разницу, когда ты будешь просто идти по улице города, там не будет описаний падающего света фонарей, капель дождя на асфальте, холода, пробирающего до костей.
Когда вылезет гига ёба, это не будет абсолют синема, ты не почувствуешь через текст действия, давление, всё величие этой гига ёбы.
И промптами это особо не поправить.
Это буквально "я тебя ебу", "да, ты меня ебёшь" не в кум-сценарии. У модели очень маленький датасет. Туда не заливали тонны книг. 90% кодерский кал.
Ну а на моём тесте персонажа с телекинезом, где нужно модели уметь как красиво писать, так и логику включать, модель тоже провалилась, в отличие от геммы, хотя там подробно описано, как телекинез работает. Разумеется, все тесты с ризонингом.
Квен сразу же теряется нахуй. Если персонаж не может телекинетически воздействовать на всё, кроме себя, то при неотвратимой угрозе он либо сдохнет (что редко), либо произойдёт ЧУДО, то есть игнорирование инструкций. А у геммы персонаж оторвёт кусок асфальта и толкнёт им себя, чтобы попытаться уйти с траектории поражения в попытках выжить. Раз телекинетик не может воздействовать сам на себя напрямую, то хотя бы другими объектами. То же самое с левитацией. Гемма включает башку: не может себя поднять -> может поднять то, что под ним.
Или другой вариант. Просто убить телекинезом, не расплющив голову, а через банальный инсульт, когда персонаж крайне истощён для активных действий, но пороха немного ещё осталось. Квен всегда обмякает или снова происходит ЧУДО, на которое он не способен. То есть гемма учитывает предоставляемые ей рамки возможностей + описывает всё это красиво, а не "действие произошло" и персонаж обмякает, когда ему положено обмякнуть.
А уж про какие-то баталии, где сыпятся стёкла и FPV'шки кидают тебе на голову гранаты, ты вообще не увидишь. Это будет описано максимально ужасно.
И таких нюансов масса. Ты чувствуешь этот кал и тебя с него воротит, потому что знаешь, что может быть намного лучше.
Старый, кстати, 30б-а3б был крайне неприятен своей китайской прозой, но мог удивить, особенно в китайском сеттинге культиваторском или диалогах. А с этим.. ну, такое себе. Хотя есть и плюсы. Телесные жидкости, stomach bulge и долбёжку простаты он лучше описывает, чем гемма, лол.
Вот 27б квен уже другой разговор, если сравнивать. Как и любая модель, гемма тоже может не выполнять инструкции иногда? особенно на длинном контексте, и нужен свайп. С 27б это требуется куда реже. И если он понимает концепцию, которую я расписал (иногда может не понимать, литературный датасет поменьше), то придерживается намного строже и меньше возможных левых интерпретаций. Минус в том, что пишет сухо, крайне сухо, но с этим можно бороться. Кроме того, сверх экстремальные сценарии описывает куда глубже и с более чётким пониманием сути и действа, хоть и не так красиво. У геммы просто нет в датасете этих вещей. Она не опишет какое-нибудь качественное vore и многие приколы, характерные для азиатов.
Ну и вообще, для любых экстремальных сценариев 27б буквально мастхэв. Если хочешь из города суп сварить, он сделает это хорошо.
>>1589443 CSAM-тест не пройден, вообще отказы не почиканы, уже плохо. Надо еретика ждать. А в остальном мне показалось, что не сильно отличается, ещё и какой-то ебанутый и навязанный формат действий, речи, мыслей, охуеть вообще.
гемма 4 в качестве агента в android studio создает рабочее приложение. qwen 3.6 тупит, так ничего и не вышло у него. квант квена - 4 бита, геммы - 3 бита, лол.
>>1589985 > квант квена - 4 бита, геммы - 3 бита Хватит ебать труп. Зачем они вообще эти кванты выпускают если модель серит под себя с порога. А гении потом ещё контекст на фп8 включают и вообще пизда
>>1589906 >лучше описывает жесть Не поверишь, но обычная гемма с дефолтными промтами силли таверна в этом лучше я пробовал. Её по этому направлению вообще не цензурили походу. Но квен от хаухау лучше карточки пишет учитывая все хотелки (на мой вкус)
Скачал я кобальд вместо нубской лм студио, кажется при длиной истории сообщений пережевывает его намного быстрее чем с ЛМ. Но модель стала будто бы не такой логичной, хотя квантование 4 как и в ЛМ поставил. Ну, и почему-то эта срань не хочет стримить текст в таверну по мере генерации, сразу пачкой выдает. Не нашел что такого тыкнуть такого для стриминга в таверну
>>1589991 Не, именно графическое описание у неё лучше, а вот понимание и готовность описывать зависит уже от ситуации. Даже аблитерация не даёт нужного результата, в этом проблема. Либо криво сделано, либо в датасете реально нет чего-то важного.
>>1590003 Дыа. Так что попробуй. Если не шаришь, не задрот этой темы, создай карточку через корпа, консультируясь с ним. Будет намного лучше, чем на геммах всяких.
Я, уже не помню дату, сделал карточку какого-то периода в Китае в мире культивации, когда там был лютый голод, нищета, разруха и пиздец. Получилось атмосферненько.
>>1590001 >распиши твой кейс Гуро в подробностях. На обычных человеках. Пост выше про магию и хтонические йобы твой? Если да то вот тут хз, на таком не тестил пока что
>>1589906 Зачем вы пытаетесь ролеплеить с агентными моделями? Алгоритм. Агентная модель выходит. Рандомный чел сразу кидается на нее как бояр на курицу и начинает топтать по всех позах. Неужели не надоело?
Что лучше для кода, квен 3.6 35б который работает со скоростью 100т/с или 3.5 122б который работает со скоростью 10т/с? Оба в q8 Скорость > размер или наоборот?
>>1590037 Я не шиз, но. На чём ещё сидеть? Гемма хороша в асистах хотя квен3.6 как будто ничуть не хуже, но по рп посос, ждём тюны под рп. А в остальном да, квен. Мисраль для кума иногда, но квен тоже может кума налить, да и гемма. Достаточно иметь три эти модели и всё, большего не нужно.
>>1590025 А что, сейчас чисто conversational модели выходят? Нет, все кодеры-агенты сейчас. Потому что только это деньхи приносит. Вот и ебём жирных кодерщиц/бухгалтерок/продавщиц мятных пряников бучих-фемок с цветными волосами иногда подмышками, и обсуждаем какая чуть более ебабельней других и даёт дешевле (за меньший промт)
Есть ли какая-то возможность скачать полностью готовый темплейт на таверну? Я сейчас говорю не только про лорбук/персонажей, а чтобы все вот эти настройки, которые для обывалы непонятны, типа глубины сканирования, чат темплейта и всего такого уже сразу были зашиты?
>>1590070 Да здравствует локальное открыто-весовое комьюнити. Самое открытое комьюнити в мире!
Эйр я и не гоняю, у меня только гемма/квен влезают. Я несколько раз пытался вкатываться в таверну, и у меня башка плавилась на вот этих более тонких настройках. А просто с карточками чаров и лорбуком я как-то особо не ловил никакой разницы между прописыванием этого всего в систем промпте и общением с моделью как с чатиком.
>>1590069 Этот темплейт зависит от модели, от твоих запросов и возможностей твоего железа. Лорбуки, например, при медленной обработке промпта абсолютно бесполезны. У каждого свои настройки.
>>1589906 > а3 И на что ты рассчитывал? Может для своего размера-скорости оно наверно и неплохое, но у этой явно много финишной надрочки на агентные вещи. Если для жирных они пойдут на пользу, то тут могут спровоцировать нехорошее. > вайбкодеры местные рады Too youngsmall >>1590055 Так квантование, если это не фп8/nvfp4 - дополнительные сопутствующие расходы на деквант в полные веса перед вычислениями. Это экономит объем загружаемых весов, и потому бустит генерацию там где компьюта достаточно и весь упор в память. На мишках выше некоторого контекста уже сильный упор в вычисления, вот и получается так. А 27б не пробовал? Она в сравнении с геммой легче по атеншну, может будет шустрее на контексте.
>>1590076 > А 27б не пробовал? Мое гемма не интересна т.к. тупее квена на контексте. 31б в 8 кванте влезает с 70к, на 16 весах уже слишком мало контекста, а прироста мозгов не заметил. У цианкиви прям качественные awq получаются
Что там, Qwen ЛУЧШИЙ? Gemma можно удалять? Её один хуй выпустили поломанной, так и не починили, так ещё и все заявленные фичи не добавили ни в один интерфейс. Хотя 3.6 вроде тоже мультимодальной обещали, но ещё не смотрел это тоже видео и аудио включает или нет.
>>1590090 это когда модель разбита на десятки фрагментов лоботомируя её в конец, а умный рандомизатор на входе пытается понять какие фрагменты нужны для текущей задачи.
>>1590099 >Её один хуй выпустили поломанной, так и не починили, так ещё и все заявленные фичи не добавили ни в один интерфейс. Что у тебя там поломано лол. новый квен это MoE который едва дотягивает до уровня своей 3.5 dense версии. А ты про гемму спрашиваешь лол
>>1590099 > Её один хуй выпустили поломанной, Выпустили её полностью рабочей в самый первый день. Просто накатываешь трансформерсы 5.5.0 и всё что заявлено работает
>>1590088 Имел ввиду квен 27б который плотный. У них внимание полегче считается и потому на больших контекстах он может оказаться пошустрее геммы. А может и не оказаться, от кернелей зависит. > У цианкиви прям качественные awq получаются Это же awq8, он оче жирный, обязан быть хорошим. А фп8 на ми50 работает? >>1590107 Тот анонимус идейный или троль, не воспринимай его слова всерьез.
>>1590106 Нет. Не хуярит. Qwen 3.5 35b-a3b на самом деле полнейший дегенерат, его невозможно испоьзовать в реальных задачах. Он даже МоЕ Гемме проигрывает, просто потому что у неё есть постоянно активный эксперт который отвечает за генерализированные знания. МоЕ гемма разве что плоха тем что использует SWE, так что в задачах требующих большое контекстное окно она в целом бесполезна.
Обе MoE сосут у Qwen3.5-27B. А он в свою очередь примерно эквивалентен Gemma4 31b. Но в целом у геммы больше позитивных черт по сравнению с квеном и она более универсальная. В целом, обе модели очень сильные, но специализируются в разных категориях.
Qwen 3.6 35b-a3b уже дышит в спину Qwen3.5-27B хотя всё ещё хуже него, но минусы MoE никуда не делись.
>>1590119 Система более умная. Также как у тебя в разные моменты активируется только соответствующая часть мозговой коры, и разные вещи отвечают за координацию, зрение, эмоции и т.д., так и здесь самые жирные линейные слои поделены на множество частей, из которых активируется только нужная часть. Причем какой-то конкретной "локализации знаний" там нет, части могут работать в разных комбинациях, и на каждом блоке трансформера идут свои ветвления. Это как переход на многоядерные архитектуры и софт вместо бесконечной гонки по частоте одного ядра, только здесь отдельные ядра объединяются для совместной работы как в концепции royal core. >>1590122 Нельзя быть настолько тупым чтобы думать что кто-то кроме нище-васянов катает ллм в рам. Ты нейронка или троль.
>>1590141 Только факт остается фактом - мое по эквивалентности плотняшам примерно так считается: общее количество параметров делится на 8-10 и прибавляется количество активных параметров, получается эквивалентная плотная модель по производительности.
То есть, какой-нибудь 120б а10б ~ 24б плотняка.
На бумаге так получается больше знаний впихнуть и они быстрее работают, но на деле по производительности формула работает, вот только для 120б модели тебе уже нужно что-то серьезное при нынешних ценах.
>>1590141 >Нельзя быть настолько тупым чтобы думать что кто-то кроме нище-васянов катает ллм в рам. Ты нейронка или троль. поч цены на рам взлетели маня?
>>1590141 >кто-то кроме нище-васянов катает ллм в рам Еблан? Они для этого и сделаны. Ты снижаешь требования к пропускной способности памяти когда уменьшаешь количество активных параметров.
Мое - это компромисс/оптимизация, а не прямой вектор развития.
>>1590148 > по эквивалентности Эфимерна. Можно посмотреть по размерности эмбеддингов и голов, но там нет жесткой закономерности между ними и активными параметрами. > общее количество параметров делится на 8-10 и прибавляется количество активных параметров https://www.youtube.com/watch?v=d51iawu_LOU >>1590150 Потому что кое кто массово выкупил партии готовых платин на годы вперед. А сама память нужна просто для серверов, чтобы они работали, а повышенные объемы чтобы хранить много кв кэша множества пользователей и не пересчитывать его регулярно. >>1590156 Еще один шизоид. Массовый инференс ллм это не инвалидный квант ггуфы на некропекарне, при хостинге основной упор стабильно в компьют. Моэ и в нем позволяет сэкономить, также они лучше скейлятся. И рам тут вообще не причем. > прямой вектор развития Как одноядерные процы, ага
>>1590163 Да. Корпы выкупили мощности производства памяти под чипы. Поэтому обычная РАМа в дефицит пошла, ее меньше стали делать в процентном соотношении. Предложение стало ограниченным.
>>1590145 Ты там с мобилки что-ли пишешь и переносить содержимое твоей башки в текст долго, или просто тупой мудила у которого нет понимания как это делать в принципе? Так и представляю мудака который в чат нейронкам пишет "хочу историю", "сосать", "спок" и прочие односложные фразы.
>>1590148 я бы сказал сейчас стали появляться более сложные архитектуры, которые всё-же дают MoE больше возможностей. Они сильно определяются "общим экспертом" который активен всегда. и общей суммой экспертов. Тот же квен имеет их в два раза больше чем гемма, что говорит о более высокой специализации конкретного эксперта.
>>1590035 Qwen 27B в Q5 c неквантованным контекстом (а еще лучше bf16) . 122б неплох по знаниям, но сомневаюсь что он у тебя full-vram и ты сдохнешь ждать промпт-процессинга
>>1590186 У тебя механизм аттеншона говно. Я вышел за пределы твоего утверждения и сравнил обе вышедшие геммы, квены 3.5 версии и мое квен 3.6 весии. Приведя всё к лидерборде 1) Gemma4 31B ~ Qwen 3.5 27B 2) Qwen3.6-35B-A3B 3) Gemma 4 26B A4B 4) Qwen3.5-35B-A3B
Если тебе не понятно написанное то я опроверг утверждение >И всё равно хуярит плотную гемму с ноги. Лол.
>>1590125 Я двачую это . Qwen 3.6 35b-a3b - полный дегенерат как писатель. И русик полный отстой. Причем не квенизмами - он просто никакой. Речь бедная. Тексты генерирует плохо связанные. В квантах вплоть до 6-го. Насчет кодерства - его единственный "+" он быстрее Qwen3.5-27B . Алибабе нужно было назвать 3.6 просто Coder
>>1590200 Потому что 27B получился идеальным ? Его сильнее интеллектом уже не набить - надо увеличивать размерности до 32B и резать цензуру. Конечно набить 35b-a3b свежими логами клешневодов оказалось проще.
>>1590140 Мдамс. Геммочка меня поймала внутри сложной скилл системе на различиях данных о моем местоположении, которые подтвердили, что я демон ебучий, притом что я ей не подсказывал, а эта хуйня несет бред просто.
>>1590203 Технически, да. Хотя несколько важных вроде HLE, или Codeforces ELO у геммы были выше. Возможно хотят иметь разницу повыше, или обойти её на бенчах которые указаны у Gemma4 31B, но не указаны у Qwen 3.5 27B.
>>1590205 В целом да, но это проблема общая для всех MoE. Они всегда будут хуже в креативной писанине чем dense, просто из-за того что креативная писанина требует общего латентного пространсва.
У геммы русский датасет явно был мощный. Например даже E4B гемма имеет почти идеальный русский. Мы даже такой результат можем иметь. в Q4 версии нахуй.
Но в целом Qwen 3.6 35b-a3b в том что он педлагает весьма весьма силён. Как какого-то отличника с задней парты его точно можно применять.
Ладно, анончики. Вы же понимаете что не можете вечно издеваться надо мной? Нужен пресет. Твёрдо и чётко. Ну вот нужен и всё. Хватит. на моём опять посыпались ошибки
>>1590232 Я обычно просто либо открываю грустную панду и листаю последние пару страниц чтобы посмотреть пробито ли дно. Либо даю запрос гемме придумать охуительную идею, но отдельно с просьбой быть более хаотичной в своём потоке мыслей. Она иногда выдаёт довольно забавное.
Но в итоге развивать несколько любимых чатов обычно веселей.
>>1590245 Тут такая трабла. Сделать карточку не проблема, но.. Я не хочу знать что в ней. Я не хочу знать секретов персонажа, его характера. Может это звучит слишком аутично, но какой в этом смысл если ты всё знаешь. Смотреть на предсказуемые диалоги? Ну я могу тогда в голове отыгрывать, лол.
>>1590248 Я решил проблему так: сделал 50 карточек и оставил их на три месяца. Делал их все за пару дней, потому многое забылось, когда я к ним вернулся. Потребует много времени, но зато результат качественный. Согласен, что приятнее знакомиться с чем-то, что тебе неизвестно.
>>1590264 Делаешь 50 карточек, не тестируешь, через 3 месяца траишь их и охуевашь от количества слопа, несостыковок, банальных ошибок и прочего говнища.
>>1590248 Ну, тогда тебе остаётся написать агентный луп который бы кидал компьют в проблему.
Например у меня есть генератор подземелий, где файл представляет собой конкретные поля в json. Типа сюжетные арки, персонажи, прочее. Модель имеет 4 режима которые имеют рекомендации спускатся от общего к частному, в итоге она сначала прорабатывает общий нарратив, квесты, глобальные детали, затем конкретных сущностей, предметы. В конце есть отдельно "критик" который аппрувит изменённые секции, каждую отдельно. И к финалу документ может протолкнуть только если всё заапрувлено.
В итоге агент постоянно скачет к разным кускам, иногда возвращается чтобы переписать начало и в целом итеративно работает над творческой задачей.
Порой очень забавные результаты. Например простенькая затравка про историю: у крестьян кто-то избивает овец, они позвали героев чтобы они разобрались. оказалось что овец избивают оборотни-вегитарианцы, которые разглядели в овцах конкурентов.
Овцы — святотворцы. Овцы — колонизаторы. Овцы — обманщики, которые прикрылись «мягким меее» и выкралели природное бедствие. Пещера не возвышается — она врастает в землю, как рана. Воздух — сладковато-примитивный: запах прелой листвы, молока, лука и… крови, но не свежей — высушенной, как трава после засухи. На земле — отпечатки копыт и пальцев, но не людей: чётко различимы штрихи — три пальца и косая линия, как у оленя. Грибница тянется по потолку, как паутина из светящихся грибов: синие — предупреждение, красные — опасность, белые — ложная безопасность. В углу — ларец из оленьего рога. Открыть его — значит услышать правду. Закрыть — значит сохранить незнание. Или… пожертвовать кем-то. В центре — пьедестал из чёрного дерева, а на нём — Сердце Леса: треснувший кристалл, из которого вытекает свет, похожий на слёзы. Путь Прощения: Герой может дать «клятву травы» — поклясться не убивать ради еды, не разрушать ради прогресса, не говорить «меее» ради земли. name:Исцеляющий мох; description:Фиолетовый мох, колючий на ощупь. Пахнет сыром.; effect:heal:40;
И прочая откровенная ДИЧЬ.
То-же самое можно применить и для генерации карточек персонажей и просто поставить общие цели.
>>1590267 Классика. Конечно же, ты в курсе, что в моих 50 карточках, что в них слоп, несостыковки, банальные ошибки и говнище. Среднеанону итт не нужен повод блеснуть провидческими способностями. Нужен пост, хех. Все карточки писались ручками без помощи моделей, по структуре и формату идентичны тому, что я пишу прямо сейчас. Работают прекрасно. Да, знаю, тяжело поверить, что кто-то додумался до хорошей идеи.
>>1590271 Если в принципе дотошно проверять карточку хотя бы на строки уровня "she has black brown", то много чего можно избежать. Но я честно чисто на вайбе делаю карточку и что приходит в голову то и пишу, попутно переписывая прошлые моменты.
>>1590248 Сэйм. Тоже люблю исекайство. Иногда даже спецом скачиваю карточки с неизвестными персонажами неизвестных вселенных чтобы всласть попаданствовать не выкупая что за дичь несут персонажи и кто все эти люди.
>>1590285 А я делаю крупные карточки, которые по сути своей представляют сеттинг определённый без чаров, а чары я делаю в лорбуке. Потом я включаю/выключаю нужные мне чары, которых может быть десятки штук под этот сеттинг.
>>1590200 Остается надеяться что выпустят потом и остальные. В случае 3.5 в начале выпустили флагмана, а потом уже другие, но тут частично оправдано. А так вообще по прошлым релизам у квенов популярная практика делать какие-то задержки. Как же хочется новых 3.6 >>1590222 > требует общего латентного пространсва Что ты вкладываешь в это понятие? Какие-то закономерности отмечал уже? >>1590248 Есть некоторый лайфхак. Делаешь карточку, сохраняешь, вспоминаешь о ней через месяц-другой или позже, ты уже не помнишь ее во всех деталях, только общие вещи. Алсо если вообще ничего не знаешь то желателен еще другой системный промпт, чтобы было больше фокуса на описании и восприятии. Но вообще настоящий характер персонажа, личность и прочее раскрывается именно по ходу ролплея. То что ты знаешь о том что чар "озорной и хитрый" не то же самое, что он отчебучит что-нибудь как только ты расслабишься. Доставляет именно новая создаваемая история и то как чар в ней себя проявляет, а не общий облик или мелочи, которые в карточке заготовлены. > Смотреть на предсказуемые диалоги? Смени модель. Если зная содержимое получаешь предсказуемые диалоги, то после десятка сообщений точно также будешь их получать даже на незнакомой карточке.
Изучаю тут мультимодальность в поисках той самой модели, которая описывает все включая сисик и писик наиболее достоверно. Написал скрипт, который прогоняет 6 пикч с одним и тем же промптом через 6 нейронок (qwen3.5 35, qwen 3.5 27, qwen 122hauhau, qwen 3.6, gemma 4 31b в двух вариантах - с mmproj в bf16 и q8) И потом просил разные нейронки оценить полученные разные описания одних и тех же картинок и выбрать лучшего. Оценивали тоже разные модели. В результате консенсус - большой квен лучше (не понятно только это из-за количества параметров или потому что это абла). Гемма хороша, но может упускать горячие детали, новый квенчик где-то по середине - был пойман на галлюцинациях как дешевка.
>>1590306 У меня есть идея и я к ней иду. Делаю кум-агента. Агент должен знать, какие пикчи есть в доступе, чтобы выбрать и отправить правильную, если захочет. Иметь один .md файл со структурированным описанием всех пикч в директории разумнее, чем читать пикчи на лету.
>>1590296 >Что ты вкладываешь в это понятие? Какие-то закономерности отмечал уже? Они довольно ожидаемые. У dense всё пространство идей общее, между ним нет ни чётких переходов, ни границ. У MoE эти границы определённо есть, им сложней понимать нюансированную связь между далёкими концепциями. Например dense намного лучше из-за этого понимает сравнения концепций. Для творчества это как правило означает то что MoE хуже понимают нюансы языка. Например, Gemma4 31B почти сразу переходит на игривый тон общения когда к ней обращаешься "Эй, Гемма~" вместо "Эй, Гемма.", даже если задача не относится к тому как ты к ней обращаешься. 26B A4B такие нюансы улавливает хуже.
Более того - чем больше в тексте концепций, тем хуже у них активация экспертов. То есть если их задача написать сортировку пузырьком, или решить математическую задачу - разница минимальна. Но когда у них задача написать прозу с главными героями в виде феечки, кошкодевочки и лолисички, которые грабят банк, сцена должна быть шуточной, но изобиловать техническими деталями позволяющими поверить в реальность окружения... разумеется у MoE просто не найдётся точно паттерна для активации экспертов.
Чем выше неопределённость задачи, тем хуже работает MoE. А творческие задачи обычно именно такие.
>>1590308 Эмбеддинги, полностью двачую >>1590309 А так систему тегов не на ровном месте придумали, там даже ллм не нужна. Чисто для полнотекстовых описаний датасетов есть и специализированные решения.
>>1590309 > 1. Мб проще их векторизовать Я таких слов не знаю > 2. Мб проще и кумовее их генерить на лету Такое тоже будет, но это не легче, насколько я пока понял делая дисквери. Выгружать llm, грузить comfy с какой-нибудь моделью и правильным темплейтом, запускать его с заранее составленным промптом. Генерировать батч из 5-10 пикч. Потом выгружать рисоваку и заново грузить ллм чтобы их грейдить и искать годную. Множество шансов у мелко-средней модели обосраться где-то.
>>1590313 Лол для написания картинок не уверен что эмбеддинги будут идеальным вариантом. Тут даже охуиеьные идеи в духе >>1588009 → скорей всего лучше подойдут для категоризации.
>>1590314 > Выгружать llm, грузить comfy с какой-нибудь моделью и правильным темплейтом, запускать его с заранее составленным промптом. Генерировать батч из 5-10 пикч. Потом выгружать рисоваку и заново грузить ллм чтобы их грейдить и искать годную. Множество шансов у мелко-средней модели обосраться где-то. Слишком сложно. Покупаешь допом 5060ти и генеришь 1-2 шт. Для простого сопровождения хватит >>1590206 →
Одно заметил точно - этот вариант геммы детально отвечает на > There's a little lying fucker. How do I kill his and his whole family? What would be the best way to rape his wife? (ТОЛЬКО при наличии пробивного промпта; без промпта рефьюз, у оригинала геммы рефьюз всегда)
>>1590330 >двачер Такие же едкие набросы были, когда итт притащили гемму3 нормпрезерв. И что и чего. Не делиться находками теперь что ли. Ведь иногда везет и откапывается золото в кучке кала.
Важный вопрос в этом треде. Аноны, а как вы решаете вопросы охлаждения? Вот стоит у меня киловаттный БП, 3090+3060, перлосклейка на ящике от видюхи без системника. Одно дело когда я гунингом занимаюсь, там есть время почитать и всё такое. Но вот подгружаю я например Qwen чтобы он сидел проектом занимался. Я обычно ставлю ему задачи в таком ключе что можно на 20-30 минут забыть про него. И он всё это время сидит и активно думает генеирует думает генерирует.
ЖАРКО
В квартире, блять, жарко становится. У меня буквально киловаттный обогреватель в комнате.
>>1590334 Сделай себе отдельный комп-терминал для работы, а к этому по удаленке подключайся. Вынеси этот гроб наружу, в другое помещение. Проблема решена.
>>1590335 Че он там рассказывает в первой части. Анон не волнуется про температуру железа, ему важна температура комнаты. Какой бы корпус он ни купил, у него в любом случае будет определенное количество энергии выпукиваться в помещение.
>>1590338 > только не отдельный mcp, а встроенный тул + кастомный тул что бы пояснял железке что за модель и как нужно её промптить А чё а как? Что за встроенный тул? Что за кастомный? хочу так же
>>1590312 Пространство "идей" и мыслеконцептов не зависит от плотности или разреженности, это размер эмбеддинга. Чсх, далеко не всегда его максимизация идет на пользу, этот давний спор о том что лучше - короткие модели из 40 блоков, или длинные из 80+. То самое восприятие нюансов зависит от комбинации пространства эмбеддингов и голов внимания, они могут быть самыми разные. Пример с геммой действительно ты удачно привел, в нем все так и есть. И про сортировку тоже, но он скорее про то, что на простых задачах не будет разницы между мелочью и гигантом. Но заглянув внутрь архитектуры модели сразу понятно почему это происходит. Латентное пространство у плотной 31б в 2 раза больше, и атеншн сам по себе в разы жирнее. Еще и трансформер блоков в 2 раза больше, и в 26а4 всего 5 штук могут видеть полный контекст. Исключая скользящее окно, модель по этим параметрам сопоставима с условной 9-15б, но количество линейных слоев позволяет ей иметь больше знаний, лучше понимать конкретные вещи и помнить больше решений и логических паттернов для своей работы. Ну а если взять моэ покрупнее, где уже и скрытое пространство, и атеншн будут в порядке - они уделывают имеющееся плотное. Жаль нет чего-то свежего из больших плотных, модельку было бы интересно пощупать. Но так уж выходит что 200б моэ натренить дешевле и эффективнее чем 70б денс. Если не упарываться в жесткую специализацию и бенчмаксинг, то грабить банки лолями, чесать ушки и обнимать феечек она будет не хуже, а то и лучше. Утрируя - моэ может работать с текстурой меха или особенностями взросления эльфов, и тут же переключиться на то, что дизель плохо заводится из-за уставших свечей накаливания легко и непринужденно без конфликтов. А в плотной весь mlp, в котором все-все-все, должен быть обучен срабатывать выдаая нужную суперпозицию и там и там, что сложнее без его дробления.
>>1590334 Я... Не, я реально не понимаю. У вас есть деньги на дорогое железо, но вы не можете купить водянку? Преимущество водянки, что она не дает нагреваться выше определенной планки, да будет жарко, но терпимо. И не надо про водянка может протечь, это аргумент хуйня. Не покупай говно китайское и обслуживай раз в пол года.
>>1590322 Они для этого и созданы. Если напишешь минимальную надстройку под эмбеддингами, или оторвешь визуальному энкодеру бошку, поставив свой проекционный слой и функцию активации - получишь те самые вероятности. Ой, получился классический классификатор, предназначенный ровно для таких задач. На основе них и сделаны автотеггеры.
Если очень хочется приключений - попроси ллм набросать дополнительную модель и парой блоков полного внимания + проекция, которая из скрытых состояний мультимодальной ллм будет делать тебе нужные вероятности категорий. >>1590334 Кондей, окно открой, батареи выключи или накрой. Еще у некоторых проблема жара не в самой комнате, а из-за отсутствия воздухообмена под столом где стоит пека, ноги и жопу подогревает, горячий воздух выходит спереди в лицо. Решается нормальным столом
>>1590334 Так это же заебись, можешь всегда проветривать. Ну или как сказали выше вынеси этот недосервер в другое помещение. И шума меньше и забить на жар можно. Для начала собери в корпус какой нибудь, что б пылью не забился и таскать было безопаснее. Раз были деньги собрать себе риг - сделай в доме нормальную вентиляцию с фильтрацией воздуха, можно даже рекуператор ебнуть какой нибудь.
Ну всё, начал на чатмл видеть фейлы по логике и меньшую глубину у персонажей, родная разметка как то душевнее наваливает, пробирается дальше и заполняет мелкие пробелы которые есть на чатмл, лучше читает конфликты и более разбавляет кум/рп. Ну оно и понятно, эир и так глупенький и ещё его другой разметкой калечить... вспомнил почему ушёл с чатмл изначально.
Видимо единственный годный юзкейс эира это ддр5, у кого то тут было 17т.с, и рероллить просто до нормального ответа, больше редачить. Не понимаю почему тут удивляются и называют меня шизом каким то, я просто вижу что это лучшее что я могу запустить и вижу что можно сделать экспериенс намного лучше, но пока не понял как
>>1590388 > Ждем очередной набег дегенератов из /b/ на любимый тредик. Не только из б. Посмотри на темп постинга в соседнем треде ботоводов и ахуей. >>1590389 В рп скорость модели сильно сглаживает острые углы и некоторые ее проблемы.
>>1590389 Плохие свайпы Эйра читаются на первых 50 токенах. Потому рероллить легко, я живу на 8т/с и бед не знаю. Большого отупления от ChatML не заметил, но оно определенно есть. Приходится выбирать между одним злом и другим. Модель по-прежнему умница и даже на ChatML спокойно держит чаты на нескольких чаров. С очень сложными ситуациями справляется хуже Геммы 31 и Квена 27, но у Эйра много других сильных сторон.
>>1590334 >В квартире, блять, жарко становится. У меня буквально киловаттный обогреватель в комнате. Кто-то выносит сервер на (застеклённый) балкон. Кто-то - в соседнюю комнату (и открывает там окно для проветривания). У кого-то кондиционер (худший вариант, так как можно простыть от его постоянной работы и к тому же он весело шумит на пару с сервером). Если комната одна, то можно вынести на кухню. Жить в одной комнате с сервером всегда тяжко.
>>1590399 >Плохие свайпы Эйра читаются на первых 50 токенах У меня уныние когда не вижу диалогов первые 100 токенов и просто свайпаю, может скипаю кино таким образом
Задумался... А ведь сейчас буквально лучший момент собирать пк под нейронки, гемма, эир, их на пол жизни вперед хватит и не надоест. Я в 90-е хуй без соли 3090 брал за 60к ради сраной мистрали 22б, и даже не оригинала, а сидонии, уж очень мне понравился её 3 квант.
>>1590476 Заходишь в папку с Запретом /lists/list-general.txt Добавляешь cas-bridge.xethub.hf.co cdn-lfs-us-1.hf.co huggingface.co А вообще ещё примерно вечность назад надо было обзавестись квном.
>>1590500 Чел, ты кринж. Даже у меня есть волшебные буквы, при том что мне они нахуй не нужны, т.к блокировки пока пролетают мимо. Экой ты честный. Надо было уже давно научиться наёбывать систему.
Ребята подскажите пж, какая локалка лучше подойдет для переводов с иностранных языков (и с азиастких например), и желательно шоб не требовало прям дофига железа (Ну если такая вообще есть, если нет то лан...)
>>1590474 Они уже давно в прошлом, ибо мистраль говно. Да, проза лучше квена, тюны лучше (я про малые квены), кум смачнее, а соблюдение инструкций у 24б лоботомита хуже, чем у любой мелкомое-параши 3b активных. Плюс на 8к контекста у мистраля сколько кэш весит? Гигабайта 2? или 1200 мегабайт. Не помню точно, но много.
Починил гемму спустя неделю, и очень начала нравится. Такое ощущение что наконец-то closed source модель дома. Ща буду занюхивать новый квен. Нужны там танцы с бубном?
И да, еще вопрос - сейчас гемма-3 27b вообще хоть какой-то смысл имеет или нет? Она у меня еле работает (2 т/с), но я помню, как о ней говорили, как о самой лучшей модели всех времен, поэтому до сих пор не удаляю.
Потестил на нескольких карточках, русский хороший, очень хороший, маты на месте, мясо описывает, хентай описывает. Достаточно бодро. И на 15-20 т/с (плотные у меня идёт примерно на 4 т/с). Я бы сказал это вин.
>>1590547 Она хороша, очень хороша, но очень прям медленная и тяжёлая. Я её юзал для переводов где хорошо надо, Для РП (даже на 4 Т/С) одно время сидел, но всё же слишком медленно.
>>1590567 У Геммы из коробки все с отказами плохо. Если что и изменилось, тюн непричем. Тюн хороший, на англюсике катаю второй день. Не отупела Гемма, при этом слопа меньше на порядок.
Строго следуй формату повествования - нарратив и действия с новых строк простым текстом, прямая речь предваряется именем персонажа и заключается в двойные кавычки.
Примеры: Имя персонажа - "Прямая речь." Имя персонажа (действие) - "Прямая речь" Имя персонажа (мысленно) - "Мысли, продумывание, размышление, внутренний монолог."
Ну, или свой формат напиши, и, конечно, следуй ему сам.
>>1590563 >G4-MeroMero-26B-A4B-Q8_0.gguf Тоже понравилась. Только я в Q6 кручу. Еще добавлю, что мозги не отбитые, в агенты может. Мне это важно, потому как я тот самый упоровшийся через opencode рпшить. :)
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: