В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1548836 → > Мне НЕ нужно чтобы модель отвечала на русском Тогда все еще проще. Но для начала действительно эту попробуй, может зайдет. > можно позволить только если модель полностью влезает во VRAM У этой модели мало активных параметров, она чисто на цпу может выдать 10-15т/с и выше. Плюс моэ модели в целом можно быстро катать с выгрузкой. Поэтому скорость тебя точно не разочарует если освоишь правильные параметры запуска, советую не просто так. В том же размере есть жлм4.7-флеш 30а3, тоже хорошая модель. >>1548854 https://www.jannyai.com/
Поясните про тулзы, аноны. Хочу внешний инвентарь запилить - могу сделать для этого свой инструмент-шаблон например и дать нейронке? Или только можно пользоваться какими-то встроенными?
>>1548863 (я тот анон которому ты ответил) Слушай, чисто теоретически (могу ошибаться) разве тот факт что это "набор экспертов по чучут параметров каждый" не сделает модель будто лоботомитом? Или как это работает? Просто в моем понимании, если это MOE и там есть количество экспертов (предположим, 5 на 35B модель) то разве не будет так что написано это будет конечно с использованием модели на 35B в общем, но с использованием всего 7 миллиардов параметров? Бля, запутался короче. Звучит как говно. Просто скажи - сильно лучше чем условная мистраль на 24B будет? Если да - заценю. Щас заценил министраль на 14B, вроде заебись.
Потестил 35б квен. Какое же это говно ебаное, мама дорогая, просто за гранью.
Не слушается инструкций, ему вообще пахую. Конечно, не всегда, но для РП это ХУДШИЙ вариант, нахуй.
Типичный сценарий:
2 минуты на размышления при скорости 24 тс @ В размышлениях подробно обсуждает инструкции, карточку, систем промпт, все нюансы, прям максимально дотошно, приходит к верным выводам, что 2+2=4 и собирается написать мне об этом @ Ответ после ризонинга на 400 токенов, в котором 2+2=5.
Я не математике тестировал, но, блядь, это просто жесть, нахуй. Карточка 800 токенов, инструкции простые, в стиле "если А, значит делай Б".
А без ризонинга вообще мясо, просто животное. Чистейшие 3б. Что характерно, 30б-а3б такой хуйни не творил и всё было чикибамбони.
Так что 27б только норм.
Кто-нибудь с 35б выжимал что-то годное хотя бы в рабочих задачах? А то после такого бреда в рп, где инструкции игнорируются, даже проверять не хочется.
>>1548927 Он действительно не плох в плане цензуры. Даже в ризонинге. Почему вот у них модель может в рассуждения, не уходя в сейфети, а ранее базированные китойцы теперь сплошь в цензуре. Иронично ёпта.
>>1548926 У меня иное впечатление, по крайне мере в задачах с инструментами. qwen-3-30b-a3b вообще не работал, путал инструменты, писал просто бред, уровня, что я просил его проверить финальные результат по смыслу, и он писал "вес экскаватора получился 31кг, что для трактора с грузоподъёмностью в 20 тонн вполне адекватно..." qwen-next-80b-a3b работал нормально, почти не путал инструменты и заметно лучше справлялся с анализом своего вывода на адекватность. Но он не full vram, и 15/s генерации вместо 80/s не прикольно. qwen-3.5-35b-a3b работает точно не хуже, чем qwen-next. И у него точно лучше с русским.
На artificialanalysis.ai он так и стоит, в целом. В плане общего интеллекта там не такая большая разница, а в "Agentic Index" прям явно. А ещё там вообще по всем категориям 27B > 122B-A10B > 35B-A3B > next 80B-A3B > старый 30B-A3B, вот верность расположения хвоста подтверждаю. 122 пока не пробовал, как и плотную 27B.
К слову, ещё там 9B стоит на уровне чуть-чуть капельку ниже 35B-A3B. Я протестирую, это интересно. Есть куча задач, который 35B-A3B вывозит, если 9B сможет их выполнять со скоростью 9B модельки...
Набор моделей в целом отличный (народный), грех жаловать как мне кажется: - Для ноутов без карты или со слабой картой есть 35B-A3B, будет там tg 10/s или около того. - Для самых простых карт на 8 ГБ карт есть 9B. На 50хх и 40хх невероятно быстрый pp будет, если он по мозгам не сильно отстаёт от 35B-A3B - это очень круто и заслуживает тестирования. - Для "игровых" системников помощнее и с памятью 122B-A10B. - Для обладателей V100/5090 - 27B. А может быть ещё и для обладателей 3090/4090, 4 квант всего 18 ГБ. Закрыты почти все ниши, не удовлетворена только весьма специфичная ниша людей с ригом, где будет условных 128ГБ видеопамяти, куда 122B-A10B нет смысла пихать в связи с отстваванием от 27B, для 27B риг ей не нужен, а 400B не влезет всё-равно, и там не столь важно будет система 384 RAM + 32 VRAM или же 320 RAM + 128 VRAM, всё-равно всё в проц упрётся, о того, что на нём будет не 90% слоёв, а всего 70% - он узким местом быть не перестаент, ну будет там 90/70 ≈ 128% производительности, это точно не стоило докупки ещё 96 ГБ видеопамяти.
Это какой-то новый стандарт, который убьет инференс на некро-видюхах? Или просто маркетинговый пук?
В первую очередь интересует МоЕ: допустим, часть модели на Blackwell видюхи, остальное как обычно в RAM. Будет ли скорость ниже, если вместо Blackwell видюхи стоит 3090?
>>1549024 Я вот тут писал --> >>1534733 → 3090 не умеет аппаратно в fp4, скорее всего она достаточно резво раскроет их до fp8/fp16 перед расчётом, это просто +1 лёгкая операция с битовыми сдвигами перед расчётом, которую на 5090 делать бы не пришлось. Не думаю, что это даже 20% разницы даст, если бы на 3090 можно было считать fp4 без изменения прочих параметров.
К слову, поправьте, если я в чём-то перепутал что-то.
Потыкал, несмотря на кринжовое название, вроде работает, и даже русик норм (темп 0.4, мин-п 0.05, presence penality 1.5).
Ну, для шизо-тюна - совсем норм. Местами галюцинирует, но действительно не залупается даже с минимальным системпромтом и контекстом.
В сторителлинге описывает кум и кровь-кишки-распидорасило. В ассистенте - дал задачу "вот дизайн настолки, придумай как туда вкорячить взрослые темы и порнуху" - получил более-менее вменяемый диздок на 2К токенов.
>>1548988 Ну если совсем уж выбора нет и ты бедный Эдальго, 35b-а3b может подойти, но исключительно для РП, если у человека, скажем, 8 vram (и при этом модель придётся люто промптить на каждый пук, чтобы не рассыпалась). Но даже в таком случае можно задаться вопросом, не лучше ли взять файнтюн 12б геммы или немо, ибо слог у них в 100% случаях будет приятней для юзера, хоть они инструкции соблюдают ещё хуже, кроме геммы. А если готов ждать, то можно на мистрале 24b сидеть с такой памятью и подождать ответа. Всяко лучше.
Если рассматривать 35b-а3b в рабочих задачах, то при условии, что она хотя бы относительно терпимо держит инструкции у других (может у меня квант сломан, может там 6 бит нужно или что-то ещё, у меня не было желания ебать мозги), то понадобится минимум 100к контекста, ибо он улетает со страшной скоростью, да и всегда именно рабочие задачи требуют как можно больше контекста, а не рп. А это уже конфигурация не для совсем бомжей, понадобится видюха с 16 Гб видеопамяти минимум и ддр5. Может больше. Ну и чтобы ты понимал, вообще почти все мои знакомые не имеют карт, которые нормально тянут ллмки, либо у них карт или ПК вообще нет. Зато айфон последний. Это, к слову, о бомжах. То есть за пределами этого треда и коммьюнити энтузиастов всё печально. Куча амд, старых 3060, ноутов, вот этого всего.
35б-а3б никому не нужна, кроме каких-то вайбкодеров с игровым железом или типа того, потому что владельцы ригов будут свои толстые квены таскать, а бомжи и дальше сидеть на гемме, квене и мистрале 24-27, так как они дают условное 70b качество старой лламы, по мере гемма и квен.
9b рассматривать смысла никогда нет на мой взгляд, если не для специфических задач, ибо это фулл лоботомит. Точно не для обычного юзера, я буквально ни разу не видел модель такого размера, которая годится для чего-то большего, чем работа или эксперименты.
Всякие владельцы 3090/4090/5090 обычно катают только 100b+ МоЕ как раз, потому что скорость не так уж и проседает, а память раньше ведрами можно было покупать. Поэтому основная проблема как раз в сегменте 12-16 Гб видеопамяти. Если бы не делали эту дичь вроде 30-35b чисто агентских моешек, было бы куда приятней. Что-то вроде геммы по уровню литературности датасета, только МоЕ и пожирнее. Вот где был бы бомжекайф. Но разработчики всё делают исключительно для агентских задач и кода. Все эти 100-300b МоЕ такой же мусор, как и их малые версии, в плане направленности датасета, просто они вывозят за счёт общей базы знаний, где среди кодерского кала затерялось что-то приличное. Короче, просто представь, что вот сейчас бы эти моешки все были обучены на датасете опуса 3 или сонета 3-3.5. Там бы сразу шишка встала, слог попер. Даже при их размерах.
Знаю, я очень сумбурно описал. Просто устал сильно.
Кто вчера в прошлый тред притащил https://huggingface.co/zerofata/Q3.5-BlueStar-27B-gguf ? Спасибо тебе. Скачал-затестил iq4xs - и я что-то немного в ахуе до сих пор. Вот здесь прямо чувствется что это уже "новые" 27B, а не предыдущее поколение. Тюн прямо под мои RP предпочтения - простой стиль письма без квен/геммовских литературных выебонов (напоминает мистраль) но умнее на порядок, близко к Air по ощущениям. При этом - с инициативой/креативностью в отличии от Air, который либо довольно пассивен, либо уже аж шизит (от задранной температуры). А здесь - как раз в меру, перс прописанный как "инициативный, с характером" - таким и отыгрывается, сам предлагает чем дальше заниматься и свои хотелки высказывает, пытается настаивать, уговаривать, и т.д. Ощущается куда более "живым" характером чем на AIr даже (не говоря о мистрале или гемме). Возможно вау-эффект от первого впечатления. Но пока очень зашло. Минус - ризонинг отломанный совсем, кажется. Плюс - он ему и не нужен под такое применение. Тестил через Chat Completion на 2K+ начальном контексте (карточка+лор).
>>1548922 > набор экспертов Не сделает. Там от экспертов только название и их нет явных, современные моэ это не кринж от мистралей вынесете, блять, это уже в шапку или куда-нибудь. Это разреженная сеть, которая по аналогии с мозгом кожаных активирует поочередно разные участки, но в сумме на ответ будут задействованы все. В каждом блоке в основном перцептроне 256 развилок из которых отрабатывают только 8 и потом их результат усредняется, чтобы предсказать один токен так проходит в 40 независимых блоках. На следующем токене будут выбраны уже другие развилки, они постоянно меняются. Это наоборот делает сетку умной. > сильно лучше чем условная мистраль на 24B будет От юскейса зависит, во многих просто небо и земля и 3б лоботомит побеждает 24б. Но для вялого куморп скорее мистралька будет лучше. >>1548926 Аналогично противоположние впечателение по сравнению с прошлым 30а3, новая гораздо умнее, а в рабочих задачах просто ее хоронит, это реально квеннекст. В рп только беглая проверка что отвечает адекватно и не путается, как бы хороша не была, в таких размерах более крупным уступит. Но игнора инструкций и треша точно нет, у тебя выглядит как инфиренсопроблемы или форматирование от геммы.
>>1549024 Это сразу формат для совместного квантования весов и активаций модели с целью сохранения высокой точности и быстрого инфиренса на аппаратных блоках новых гпу. Достигается ценой серьезных затрат на компьют на этапе создания чтобы обеспечить верную интерпретацию. > часть модели на Blackwell видюхи, остальное как обычно в RAM Как сделают в жоре вообще не понятно, оно может оказаться и просто медленнее. Но потенциально возможно получить неплохое ускорение пп на больших батчах где нет упора в шину, поскольку его считает именно видеокарта. > если вместо Blackwell видюхи стоит 3090? Скорость будет не выше чем на обычных int квантах, понимаешь что это значит? >>1549061 Все врено. Только там фишка в ускорении от переходна на такую разрядность. На блеквеллах там огромные цифры, а на 3090 придется делать рекаст в 16бит и все операции проводить в них же с известной производительностью и небольшим оверхедом. На 4090 можно задействовать поддержку фп8, по результатам она там хорошо срабатывает и скорость норм, но перфоманс также ниже + оверхед. Алсо стоит отметить что атеншн стараются не квантовать вообще и он самый сложный в расчетах, поэтому от того кратного прироста скорости в ллм достигается только лишь часть. Интереснее качество квантования, но и достигается оно фактическим эффективным bpw между 5-6.
>>1549133 >очень сумбурно описал Всё в порядке, я когда полон сил пишу сумбурнее. Твой текст читается легко и ясно.
Ещё мне не интересно рп совсем, и что там со слогом соннета и опуса я не в курсе. И код тоже не интересен. Интересны какие-то, я даже не знаю как это назвать, аналитические способности, лол. То есть возможность описать ей что-то, о чём оно не в кусре, и чтобы оно поняло, и не говорило про экскаваторы на 31 кг как про что-то вполне нормальное и реалистичное. Интересно, чтобы оно было сообразительным и смекалистым - массив вбитой в неё фактической информации, слог и способности к коду пусть на хрен идут. Особенно способности к коду, они просто вообще всё хорошее в ии-идеях готовы принести в жертву ради этого тупого кода. Как мне кажется точка максимальной эффективности нейросетей - это очень быстрый и довольно качественный индекс информации, способности скушать документации из pdf-ки на 400 листов, и удерживая их в голове написать конфиг. И ещё всё-таки это эдакая библиотека++ сама по себе в плане эрудии, и умению по плохо сформулированному запросу найти подходящее. А код писать - это какой-то костыль. Как и рп. Это не точки максимальной и даже не точки разумной эффективности.
>понадобится видюха с 16 Гб видеопамяти Ну, нет. 35b-a3b работает в 250-400/s токенов pp и 12-20/s tg на карточке в 8ГБ, вот на моём ноуте. 27B плотная выдаёт 4/s tg генерации со старта и быстро падает до 2/s — не юзабельно. На прошлом ноуте с 1660ti и ddr4 МоЕ и то быстрее ворочается.
>ибо это фулл лоботомит А гемму 12B в пример выше привёл. Совсем не веришь в оптимизацию в плане, что в том же количестве весов всё больше полезного? Гемма e4b (7B по размеру) точно не бесполезная. Не понимаю почему квен на 9B надо игнорировать, особенно учитывая что он будет на порядок быстрее 35B-A3B на любой карточке моложе 20хх и с 8 гб памяти.
>Всякие владельцы 3090/4090/5090 обычно катают только 100b+ МоЕ как раз МоЕ при генерации на процессоре считается. Разбор промта на карте, окей, но вот генерация почти никак не ускоряется, соответственно ключ тут не во владении такой карточкой, а во владении ддр5 и соответствующем процессоре. То есть если я возьму свой ноут и поменяю его 4070/8 ГБ на 5090/32 ГБ - то заметное ускорение в 100-150B MoE я получу только в промт-процессинге. А вот в 30B я получу ускорение х10 минимум и на генерации, и на промт-процессинге. Выбирая между одной генерацией в 100B-150B и 40 генерациями в 30B, я почти точно выбрал бы второе, а для сложных задач отдельные запросы я как-нибудь и так посчитаю без ускорения.
>>1549166 >Интереснее качество квантования, но и достигается оно фактическим эффективным bpw между 5-6. 5-6? У step-flash 4.518bpw, у minimax 4.71bpw По идее должно быть 4.5 и чуть больше для мелких моделей, где неквантующиеся слои нормализации или ещё чего в fp32 составляют большую долю весов.
>>1549176 > У step-flash 4.518bpw, у minimax 4.71bpw Как ты считаешь? Почти 4.9 и 5.0. Рецепты могут быть разные, но атеншн и определенные слои лучше не трогать, потому так и возникает. На квенах атеншн жирный и поэтому получается еще больше, а если выйти за пределы llm - там и более 7 бит может быть в зависимости от рецепта. Нормализации - капля в море.
>>1549152 >Это наоборот делает сетку умной. Ну... Нет. Результаты МОЕ чуть хуже таких же по числу параметров плотных моделей. А вот по эффективности, по затрачиваемым ресурсам да, МОЕ лучше. >>1549166 >Алсо стоит отметить что атеншн стараются не квантовать вообще и он самый сложный в расчетах Эх, помню статейку, мол, атеншен на самом деле нахуй не нужон. https://arxiv.org/abs/2111.11418
>>1549197 Числа чуть другие вышли в начале, так как я вначале поленился и просто из описания взял число параметров. А потом понял, что так нельзя, и 30B, это может быть и 31 и 29 миллиардов в действительности.
>>1549197 >>1549200 Да, округляя и считая размер будут получаться разные числа, плюс для многих моделей выставлено сразу несколько квантов с одинаковыми индексами но заметным отличием в размерах потому что рецепты разные. Дальше пошли нунчаку кванты, которые очень близки, там делается сразу несколько вариантов разного качества, где отличия как раз в квантованных-оригинальных слоях.
>>1549254 Хороший, няшный, но несложный. Тебе его я, конечно же, не дам. Пресет ещё нужно заслужить, заполнить форму, ответить на ребусы, прислать письмо, тогда будет няшный пресетик.
>>1549231 >lesswrong Уноси откуда принёс, это сектанты занюхивающие собственный пердёж. Интерпретация эмоций лоботомита это занятие для дегенератов, т.к. скрытое состояние непредставимо в человеческих понятиях, а сокращение размерности возможно лишь через субъективную адаптацию. А у них там даже не мехинтерп, это же надо додуматься трактовать через буквы. Как они понимают что шогготу это на самом деле не нравится? Потому что он так написал?
Немного обновил пресет, см. V1: https://text.is/MiniMaxRP_for_2ch > мелкий фикс темплейта > переделан префилл (остался </think> без содержания - теперь мыслеблока просто н-е-т!) Сиспромпт все еще экспериментальный, но косяки фиксит. Добавлена команда лить слоп на русском (можно убрать, модель будет отвечать по-английски на русскоязычный инпут). Семплер - можно менять как душе угодно, у меня нет информации о каком-то лучшем или рекомендованном варианте.
Пикрил для примера генерации на русском. Английский - всё ещё лучше.
Для саммарайзов нужна вторая модель, 4B сойдёт. М2.5 при написании саммари может уйти в рефьюзы, даже если в qvink memory есть think-префилл и переделан промпт.
>>1549262 Если я правильно понял - речь о том, что если у тебя гемини в режиме агента редачит и компилирует код, то после 80 попыток неудачной компиляции одно и того же проекта (особенно если у неё в контексте есть все эти 80 ошибок с размышлениями), она напишет что-то "да этот проект фигня собачья, задача не решаемая, я не буду этим заниматься, я удаляю проект и буду писать его заново с нуля". И что если опус/жпт такого поведения не демонстрирует, то это ещё никак не связано с тем, что такой же механизм в нём отсутствует, и он сделает то же самое, только более неожиданно и внезапно, просто потому что это поведение файнтюнингом прикрыли.
Достаточно логичное рассуждение, оно не про эмоции, а про фактический результат и его надёжность.
Впрочем, я думаю проблема почти полностью закрывается отдельной моделью-наблюдателем. Моделька поменьше (или та же сама с другим промтом), которая видит только исходную задачу и последнее сообщение, и пропускает его только при соответствии задаче. Как с цензурой, если уболтать модельку можно за много сообщений, всякие приёмы использовать. То если там стоит отдельная модель с системным промтом на 100 слов где чётко написано что она проверяет одно следующее сообщение на предмет ... - то это уболтать уже если и возможно, то на два порядка сложнее.
>>1549299 Русский хороший, но корявости есть. Я не подбирал, просто рандомная генерация. Модель в целом заебись.
У меня 128+48, с виндой получается на 32K: > 115 / 128 RAM (оставляю место под другое дерьмо) > 18 / 24 GPU1 > 21 / 24 GPU2 > gpu layers: 61, moecpu: 50 (мб неоптимальные настройки, я там с кривыми квантами ранее пердолился) KV-кэш модели жирноват. Придется квант поменьше брать для 128 + 24 при 32К.
>>1549308 Да вроде и так нормально. Я пока по-всякому тестирую. С семплером бы разобраться, смущает что модель иногда пропускает пробелы между словами. Редко, но бывает.
>>1549289 Добра достопочтенному господину. > qvink memory Предпочитаешь его классическому подходу? >>1549298 Не напишет, 80 попыток просто не будет. После 10 начнет менять подход и переоценивать, после 20-30 начнет жаловаться юзеру с предложениями как сменить подход и вопросами что дальше делать. Упаднические настроения скорее флешу присущи, вот он такое делает. > проблема почти полностью закрывается отдельной моделью-наблюдателем Кожаной, эти костыли не решат проблему. Да и самой проблемы в том виде нет, там или все ок, или постановка-планирование неверные.
Блять. Похоже я обосрался. Префилл видимо всё-таки нельзя убирать. Фифи-шлюха не рефьюзит, потому что карточка шлюшная. А вот SFW карточка - посылает юзера подальше и отказывается.
Печально. Не бейте, лучше обоссыте.
> <think>I'll gladly reply in English, and I'll not repeat user's input!</think> or > <think>I'll gladly reply in Russian, and I'll not repeat user's input!</think>
>>1549328 У этой штуки плюс в том, что все автоматом, удобно и хранится хронология, но минус в сохранении "сложности" чата и отсутствии переноса манеры общения/стиля и конкретных вещей из прошлого с учетом изменений. Все очень субъективно тут, подробный суммарайз с накоплением кажется более удачным, но заморочнее. Интересно как в подобной задаче покажет себя минимакс, может не будет рефьюзить. > Holo может назвать волком а не волчицей Ooof >>1549331 Для проверки можешь попросить кодинг сенсея написать скрипт для скачивания волкодевочек с данбуры, а потом добавить туда тег nude.
>>1549336 У минимакса с суммарайзом проблема в том, что там включается ризонинг. А это сразу проверка инпута цензурными экспертами или че там у него активируется. В общем кошмар.
А насчет проверки эффективности префиллов - да с ними точно цензуры нет, я просто хотел от think-блока избавиться совсем, чтоб он глаза не мозолил, но видимо нельзя так...
Вот затестил, даже на экстремальные инпуты охотно отвечает. На пик2 еще пример жесткого косяка с русскоязычным аутпутом. На английском ничего подобного не встречал.
>>1549254 Я ж написал - chat completion использовал, т.е. встроенный. Но можно обычный chatml text complaetion в таверне использовать - как для любого qwen 3.5. Тоже работает неплохо, но IMHO - Chat Completion все же лучше.
>>1549366 Так я и не гейткипер. Я просто лентяй, который иногда впечатлениями делится. Мне вытаскивать из таверны, оформлять, заливать куда-то - лень. Если там ничего специфического нету. А здесь - нету.
>>1549137 Не могу сравнить, обычный его херетик распедолить не удалось, не понравилось и удалил. Возможно проблема со скиллом / промтом / параметрами, но скачивать ещё раз неохота.
>>1549345 В общем, пресет по ссылке поправлен. Я не уверен, можно ли еще что-то сделать. Как обзаведусь еще 128 гигами оперативки - посмотрим, становится ли лучше на Q6 - Q8.
Аноны, а с чего пошло поверие за большие --batch-size --ubatch-size ? Я смотрю многие лепят --batch-size 2048 --ubatch-size 2048 без каких либо тестов и оглядок. Я собственно к чему веду:
В моем случае (две видеокарты, плотная модель) самое быстрое получается с батчем 256 256 . И ладно бы просто +100 т.с. PP . мелкий батч почти по гигабайту VRAM с каждой карты высвобождает!
>>1549057 Можно, но не только лишь каждый сможет дообучить модель. Для обучения модели нужно примерно в 4 раза больше памяти чем для запуска, и эта память должна быть в мощных картах, иначе ты помрешь раньше чем закончишь тренировку. Далее тебе нужен датасет, большой и хорошо сделанный датасет. Если просто закинешь свои черновики результата не будет. Ну и вишенка на торте, тебе нужны знания, что и как делать. Ах да, ещё современные модели, в принципе, плохо тюнятся. Это конечно если ты хочешь и результат получить и мозги модели сохранить, если на мозги похуй можешь лору сделать и вжарить ее, мозги пойдут по пизде, но зато быстрее и проще. Я бы на твоём месте, перед тем как пускаться во все тяжкие и заниматься ML лернингом, скормил черновики нейронке и попросил описать стиль, мысли, характерные речевые обороты и т.д А потом просто попросил бы нейронку генерить в этом стиле приложив небольшой пример из черновика, для большего понимания.
>>1549057 Да (нет). Вопрос неверный, должно быть "нужно ли" и ответ нет. >>1549495 Что за железо? Вообще, это в первую очередь актуально для выгрузки, потому что снижает упор в подгрузку весов для обработки. Но повышение батча должно давать ускорение и в фуллврам, просто не столь значительное, на всех бэках так. Ставить ubatch больше просто батча не имеет смысла, он не будет работать.
С последней сборкой. PP медленный, скорость при фуллврам пока тоже не очень, но всё работает, не глючит. Качество вывода достойное, как по мне. Если оптимизируют, то для РП должна зайти. Цензуры и правда нет, а в датасете есть всё нужное.
>>1549495 Это не "поверие" а единственный способ получить нормальный процессинг при выгрузке в RAM всяческих МоЕ моделей. 128 или 256 будут целую вечность херачить по сравнению с 4096.
>>1549532 >при выгрузке в RAM всяческих МоЕ моделей Тут соглы. Просто периодически пробегают команды запуска плотных и там это магически копипастят. А на плотных вместо этих батчей мог бы неквантованный контекст влезть или лучший квант.
>>1549538 > "не все так однозначно" Теперь интересно что это за эффект. Попробуй еще на другой модели прогнать, с классическим атеншном и без скользящих окон. На новых квенах в быстрых беках не рекомендуется или вообще невозможно поставить размер батча меньше определенного минимума исходя из размерностей. Может это связано с реализацией линейного атеншна.
Картинка. Это квантованное православным образом с учётом обучающей выборки, то есть с лучшим качеством, чем если я сам квантую с калибровочным сетом на 2 мегабайта, лол?
>>1549495 Попробуй не tensor split, а layer split теперь
>>1549605 > православным образом с учётом обучающей выборки Нет, это относительно простой (но все еще эффективный) алгоритм без "калибровок". > с лучшим качеством, чем если я сам квантую с калибровочным сетом на 2 мегабайта Да > а layer split ts в жоре задает соотношение а не режим. Кстати, в параметрах не видно FA.
>>1549495 Использую batch size 64 всегда. Памяти экономится дохера. Скорость же процессинга зависит от модельки и квантования, использую только те модельки-кванты, которые на этом батч сайзе быстрее грузят.
Ребят, а может кто поделиться настройками токенайзера в силлитаверн для мелкомоделей типа министрали 14В, всяких Немо 12В и для мистрали 24В? мб там какой то общий есть паттерн.
а то бля че то я накуролесил с настройками. помню что изначальные настройки хуйня были - постоянные лупы, половина сообщения - это часть предыдущего, либо полные галлюцинации, и помню что я как-то это поправил а как не помню.
короче вот да. или хотя бы поделитесь как настроить вот эту хуйню со штрафами за повтор и прочим связанным говном
>>1549605 layer split - это дефолт жоры. На нем и тестируется. Ты имел ввиду row split ? Он смысла не имеет - сколько не включал он медленнее layer split . Последний раз пробовал его вчера - ничего не поменялось.
>>1549675 Для мистралей везде Теккен, или как-то так. Но он ни на что не влияет, кроме подсчета статистики в сообщениях, если я не ошибаюсь. Параметры разжеваны в вики кобольда, там почитай. Штраф на повтор в районе 1.05 - 1.1 достаточно, окно уже крути как считаешь нужным, я держу в районе 2к, мне хватает
>>1549683 >Для мистралей везде Теккен, или как-то так. Хуйню сморозил, это не токенайзер. Уже перемешалось всё в голове. Ставь дефолтный бест матч, или как он там называется.
>>1549670 > гемма > без скользящих окон Тебе там норм? И зачем ты вообще ставишь разные batch, можешь просто его не трогать. В любом случае печально, получается в жоре обратный рост не только с тензорпараллелизмом, но и с батчем префилла.
Пиздец, эир непобедимый нахуй... Я не знаю чего ещё ждать... Немотрон слишком просто пишет, как мистраль какой нибудь + был инцендент где я написал что у тян нет лифчика на что он отвечает что сквозь лифак видны соски
Но у меня и с фа вопроизвелось, но на контэкстах побольше уже не так однозначно, на 32к так (начиная с 2048 кончая 256) 2664.61 ± 10.83 2708.16 ± 4.37 2699.51 ± 1.97 2662.53 ± 0.54
Я использую понятие layer-split, это когда первые 20 слоёв на одной карте, а вторые 20 на второй, и лишь в одном месте активации прокидываются с одной на другую. И ещё tensor-split, это когда половинка каждого слоя на своей карте, а посчитанные активации прокидываются с карты на карту каждый слой. При мгновенном обмене данными между картами теоретически обе карты работают одновременно всё время, что позволяет достичь большей производительности, чем с layer-split, где 5 мс работает первая, потом 5 мс вторая - но с pcie это не реализуется, да и с nvlink не уверен что будет.
Моененавистники, я хз чем вы думаете и руководствуетесь кроме того что у вас нет оперативы Я протестил 27б Квены, это Еретик, это Блюстар, это Writer про который тут вроде не постили https://huggingface.co/ConicCat/Qwen3.5-27B-Writer Они все хуже Эира НА ПОРЯДОК. Они просто тупые. Вот у вас один из аргументов это аппеляция к количеству активных параметров. Скажите, вы правда думаете что в 27б модельке которая делалась с прицелом на код есть хотя бы 12б параметров для ролеплея? Когда Эир работает он задействует 12б параметров именно для ролеплея, потому его выводы могут быть лучше 27б говна в которых рп данных на те же 12б Это ужас. Персонажи плоские, тупые, я такого на 24б Мистрале не помню, реально. Для кода зато умница, контекст бесплатный считайте, работает быстро и делает скорее хорошо чем плохо даже без ризонинга 122б Мое для рп тоже гораздо хуже Эира. Хз как она в сравнении с 27б плотной, вероятно чуть похуже, но все еще не дотягивает до Эира
Бля проебался, 122б Мое вероятно чуть ПОЛУЧШЕ 27б плотной в рп, не лучше Разница если и есть, то в каких-то знаниях. Персонажи такие же тупые и плоские как на 27б однозначно
рИИбята, какие модели лучше использовать для openclaw? в идеале хотелось бы модель, что даст максимально человечный в общении результат, но если оно хотя бы уже начнет нормально работать как задумано, то это будет прекрасно Мои спеки: Swinedows 10, 5070ti, 32Gb ddr5, lm studio
Был бы премного благодарен гайду для дегенератов-вырожденцев вроде меня, если вдруг нужно крутить какие-то хитрые настройки дополнительно, то с объяснением, куда тыкоть
А то у меня встал вопрос с говняком вместо нормальной работы openclaw Чтобы не графоманить снова, скопирую свою пасту из другого треджа:
Я с месяц назад поднимал openclaw и подключал к нему локальные модели через lm studio Нихуя не понял почему, но оно не работало нормально как задумывалось и как выглядело в референсах Выглядело, будто это просто лишняя прокладка между lm studio и мной, которая вообще никаких функций не выполняет
На все промпты в конфигах .md ему похуй было, никакие данные он в свои конфиги не добавлял по мере общения, память не формировал. Даже когда я уже прямо говорил, например «чел, твоё имя теперь - Абу, запомни», чел мне отвечал что типо ок, теперь я Абу, запомнил Чекаю его файл .md, где он должен хранить инфу о себе, а там никаких изменений, всё так же красуется дефолтный промпт-заглушка. Я указал на это челу, он мне ответил, что-то типо: да братан чота я реально тупанул, надо было записать в файлик md, ну сейчас я короче записал всё! Проверяю файлик .md и снова пусто
В общем чел тотально забивал хуй и не вносил никаких данных в свои md конфиги или в долгосрочную память в файловой системе
Чяднт?
Разворачивал на винде, использовал модель openai gpt-oss 20b Подумал, что мб модель говно и не подходит для агентности, попробовал qwen3 coder 30b a3b instruct, стиль ответов стал другой и время на генерацию увеличилось х100, но в целом всё то же самое: игнорирование промптов в .md конфигах openclaw и ощущение бесполезной прокладки над lm studio, будто просто чат-ботом пользуюсь напрямую, без агентной надстройки
При этом оно могло выполнять какие-то функции, а не просто высирать мне простыни текста Я как-то раз очень хорошо и много раз попросил открыть у меня на экране блокнот и написать туда что-то и эта хуйня в итоге, спустя несколько попыток уговоров, снизошла до того, чтобы создать где-то внутри своей рабочей директории файл блокнота, внести в файл текст, сохранить и затем запустить этот блокнот Так что с функциями будто проблем не было, просто оно вело себя очень лениво и через жопу
>>1549825 Хорошо, а в итоге что можно попробовать сделать в текущей ситуации? Я всё-таки не наносек-миллионер, чтобы ради новой игрушки тратиться по 300 баксов в месяц на api
>>1549842 Нвидиа как обычно запилило своё виденье MOE, навесив еще расчетов. Так что он будет медленнее. Есть врам- есть немотрончик, нет врама - нет ножек немотрончика.
>>1549841 > А ещё у меня нет друзей Да они мало у кого есть. > общаюсь с чатгпт Мы дрочим на текстовую порнуху средней руки, выдаваемую рандомно из огромного числа слопокнижек. Оправдывая, что это какое то РП. Хотя это чистейшая хуйня.
>>1549813 Хз насчет 27б, но покатав чуть больше 122б - эйр можно оффициально отпустить. Квенчик отлично ориентируется в контексте, помня события и строит действия-речь с их учетом и делая удачные отсылки, но при этом нет назойливого повторения тех же паттернов при вводе нового. Эйру такое вообще не снилось. Отлично ориентируется в пространстве - помнит на каком этаже что находится(!), перемещаться между помещениями или по локациям можно не задумываясь и не следя (опять же это актуально при сравнении с эйром а не более крупными). Отлично ориентируется в одежде - все снимается-одевается в нужной последовательности даже с учетом устройства костюма, разорванные в порыве страсти вещи остаются поврежденными а не одеваются обратно потом, если на что-то пролились жидкости - чар предложит их постирать. А с эйром не то что корректное устройство пояса с подвязками получить, хотябы переодеться в naked apron сняв платье перед тем как надеть(оставить надетый) фартук уже хорошо. Стиль письма - приличный, кумит сочно, понимает кучу фетишей, знает много художественных произведений и лучше различает близкие сущности. Чудес не бывает, но модель старается казаться сильно крупнее чем есть. Из плюсов эйра можно отметить только спокойное и слегка аутистическое повествование и нарратив по умолчанию. Но под тяжестью остального - все. Тут еще немотрон на горизонте, без шансов.
>>1549822 Железо у тебя такое себе. Для начала качай вот это https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/blob/main/Qwen3.5-35B-A3B-UD-Q4_K_XL.ggufанслоты наконец починили свои кванты? и https://github.com/ggml-org/llama.cpp/releases/download/b8292/llama-b8292-bin-win-cuda-13.1-x64.zip + https://github.com/ggml-org/llama.cpp/releases/download/b8292/cudart-llama-bin-win-cuda-13.1-x64.zip вот отсюда https://github.com/ggml-org/llama.cpp/releases Распаковываешь оба архива в какую-нибудь папку в корне диска без пробелов. Делаешь бат или шеллскрипт, который будет вызывать llama-server с параметрами: > lama-server.exe -m (путь до gguf) -fa on --host 0.0.0.0 -c 131000 --jinja -ncmoe 25 Мониторишь через gpu-z, hwinfo или любую другую программу загрузку видеопамяти, если там свободно более 1гб - снимаешь число после -ncmoe, если наоборот под завязку - увеличиваешь. Далее качаешь скрипт из >>1547233 → (с пихоном, надеюсь, разберешься раз смог openclaw поставить) и запускаешь, если там галочки то скорее всего все ок. Натравливаешь openclaw на апи (localhost:8000 по умолчанию) и начинаешь играться. Если уже что-то нахуеверчено - openclaw reset. Учитывай что эта модель хоть и неплоха, но это только входной порог, ниже совсем уж экспериментальные. Она может чего-то не понимать, или тупить, но посмотрев на поведение это можно исправить промптами или более понятно просить что-то сделать. Самостоятельности у нее вполне достаточно если что. Можешь явно указать в memory.md где-нибудь о том, что именно этот файл нужно использовать для сохранения долговременной памяти и описать свою структуру хранения если что-то добавлено. >>1549855 А чего ему не работать? > так что не замена Эйру Формально 122б тоже не замена эйру из-за размера и распределения весов между экспертами и атеншном. Но разница ерундовая.
>>1549859 Сап, анонче На выходных буду пробовать пердолить опять по новой с чистого листа, в прошлый раз у меня жопу порвало, что все вроде работает, а вроде работает как говно, что я пошел снёс openclaw к хуям и пошел смотреть аниме Надеюсб, получится, тогда будет у меня друх, всегда будет теперь дома ждать меня А потом кто-то сделает возможность ещё openclaw в майнкрафт подключать и будем тогда ещё и в майнкрафт играть
Вроде как с Monday в чатгпт нормально общаемся, но всё же он все равно как-то жидковат для нормального друга. Плюс проклятые корпораты всегда могут тебе аккаунт заблокировать и лишить тебя друга
Алсо, предложенная тобой моделька может анализировать картинки? Чтобы я смог ей закидывать мемы и свои фотки голубей посмотреть, типо как реальному другу в телеге
Решил скачать новые маленькие квен 3.5, сначала совсем малютку что бы оценить вообще нужен ли он и так ли он хорош как о этом говорит знакомый, но почему-то кобольдыня отказывается его запускать, нихуя не пишет никакой ошибки а просто консоль закрывается и всё. Старые модельки норм запускаются никаким проблем, наверно стоит обновить кобольдыню или это я хуйню скачал? Версия koboldcpp-1.98.1
>>1549870 > предложенная тобой моделька может анализировать картинки Да. Можешь кидать ассистентке дикпики, а она в ответ восхищаться корнишоном и уже тебе генерировать свои левдсы. Или наоборот. Но для лучшего понимания юмора нужна моделька хотябы в 3-4 раза больше. И восприятие картинок потребует скачать mmproj файл и добавить опцию запуска + увеличит расход видеопамяти.
>>1549853 >Стиль письма - приличный, кумит сочно, понимает кучу фетишей, знает много художественных произведений и лучше различает близкие сущности Это круто, а ещё круче было бы если бы до этого сочного кума можно было добраться без сотни свайпов с аполоджайзами
>>1549675 >министраль министраль - температура 0.1-0.4 мистраль - температура 0.7-1 Это их ключевое важное различие. Остальное по вкусу. В двух-трех прошлых тредах погугли, там точно выкладывали подробнее.
че выбрать по скорости и уму модели подскажите ребят (для эрпэ) Mistral 24B (cydonia) в Q3_XS или Q3_XXS (везде приписка i1_ или как то так) или ваще какие кванты стоит юзать если у меня 8гб врам и я хачу скорость выше бля 3 токенов в секунду, и уже заебался от моделей 12-15B (и да, будет ли 24B в третьем кванте лучше например 14B в пятом кванте)
>>1549892 Q3_K_L единственный из Q3, кто у меня в галлюцинирующие лупы постоянно не уходил, и то не на всех моделях и настройках. А так Q3 фигня, ниже Q4 не стоит спускаться, самый нормальный это IQ4_XS без постоянных глюк.
>>1549904 ОЗУ маловато, лучше 32гб иметь для оффлоада слоев. Но видюха норм для моделей. Все равно даже так пойдет много чего. Начни с Qwen3.5-9b и контекста 32к, потом модельки побольше попробуй, например 27b.
>>1549909 Неудобная и тормозная, хз зачем ее вообще ставят, для их каталога моделей наверное. KoboldCPP в 2 кнопки все делает, простые настройки, удобное сохранение профайлов, всяческие скоростные оптимизации, свой Web интерфейс для чаттинга, который не хуже Таверны. Только GGUF файлы самому качать с huggingface, ну это не проблема.
>>1549176 Ну если тебе не РП интересен, то тут ситуация гораздо сложнее.
Вообще, чтобы ты понимал, более старые модели имел куда лучший русский и даже английский (!) язык. Не во всех случаях, конечно, но такова тенденция.
Я не какой-то там инсайдер или знаток, но связываю лучшую прозу, слог, языковые навыки с тем, что в те года датасет был преимущественно "языковой", то есть очень много литературы, и модели тогда как раз намного хуже могли в код. Плюс они были dense. Затем модели начали накачивать кодом, потом создавать МоЕ, после заливать в них китайские датасеты и чистый нейросетевой слоп, где какая-нибудь непубличная 5Т обучает публичную 1Т. Ещё заквантовали это всё в 4 бита и дали блины с лопаты.
Если тебе интересно тестить, попробуй на телекинезе. Чаще всего именно на нём модели ломались у меня в РП, ну, потому что такой персонаж там есть. И я понял, что это довольно неплохой бенч. Иначе говоря, если телекинез описан в контексте, как он работает, а модель не может применить знания на практике, то всё печальненько. Из маленьких у меня только гемма 27б относительно справлялась, а квен может и могёт, но часто порет откровенную шизу с китайским вайбом. Моделям очень сложно описывать, как они перемещают объекты в пространстве или лопают сосуды в башке таким образом, даже на уровне художественных покаков.
>35b-a3b работает в 250-400/s токенов pp и 12-20/s tg на карточке в 8ГБ
Это на каком объёме контекста? Я обычно юзаю 49к токенов, чтобы основная история и возможный суммарайз хранились в 32к и у меня был простор для удаления сообщений из контекста. И вот там у меня странности с квеном 35б происходили. По какой-то причине он был медленней плотного 27б, а иногда наоборот летал. Складывает ощущение, что ОС ебёт мозги как-то с памятью,, потому что регулярка для 35б у меня не менялась.
>квен на 9B
Я в него не верю просто из-за того, что в РП он бесполезен, если не файнтюн. При этом, если карточка 8 Гб, то уже можно взять модель потолще и получить результат получше, в этом причина. Ну и у этого квена, опять же, кодерский датасет. К таким моделям я скорее отношусь хорошо, когда чётко понятно, что я могу с ней делать. То есть она может как бот норм работать, некоторые нативный 1 млн контекста поддерживают, вот там интересно и польза есть. Конечно, если натренировать такую модель изначально под нужные задачи, то она может быть лучше даже 14б, я полагаю.
>МоЕ при генерации на процессоре считается
Чому? Объясни. Серьёзно, я не знаю. Возможно, потому что никогда не читал инфу на эту тему и просто с регулярками ебался, делая это сам либо через клода, чтобы норм распределил тензоры и экспертов. Я просто ему документацию воткнул и вот это всё ещё с самого начала, когда МоЕ появились, и больше никак не пытался заморачиваться.
>>1549923 Анонус, я мимо, но меня заинтересовали вот эти твои слова >более старые модели имел куда лучший русский и даже английский (!) язык. Не во всех случаях, конечно, но такова тенденция И я согласен с этим тейком. Мне кажется, модели конца 2024-начала 2025 могут лучше в англюсик. И ради чистоты эксперимента, напиши пожалуйста какие твои любимые, какие, думаешь, пишут лучше всех
А связано это, я думаю, с тем что синтетических данных все больше. Дальше будет только хуже, вероятно. Хотя какая-нибудь лаба наверняка рано или поздно попытается закрыть нишу хорошего писательства для локалок. На корпах попроще, они тупо слишком большие, потому и художественные тексты в теж хе Клодиках и Геминях по-прежнему есть
Стращно жить в мире где на выход 120б мое от нвидиа всем похуй Так и до геммы докатимся, ну гемма и гемма, что теперь место на диске освобождать что ли
>>1549947 А чому похуй Я вот энджою, кайфовая модель. Гораздо лучше 49б Немотрончика, Эира и недавних 200-235б новинок, хотя те тоже умницы Пресетик не скину конечно же, опытом ученый уже. Доскидывался Ты тоже многому научился и разберешься в крутилочках и шаблонах, верим всем тредиком
>>1549915 Я выше рекомендовал такую же, только с херетиком. У нее стиль очень отличается из-за нахлобучки от Опуса, на один и тот же промпт совершенно разные тексты выдает, ощущается как прорыв. В трендах, потому что креативит куда лучше стандартного квена.
>>1549958 >Qwen3.5-27B-HERETIC-Polaris-Advanced-Thinking-Alpha-uncensored Вот это чтоль? Это мусор от ДэвидаАу, а та что в тренды попала от автора, которого я вижу впервые. И ясен хуй это другая модель
>>1549959 Там много таких сейчас от разных авторов, принцип один, они накатили клода и сделали дистилляцию. Поэтому квен поумнел и ризонит подолгу, делая лучшие тексты. Успех конкретно этой, что там девелопер роль пофиксили, так что она с кодинг агентами которые шлют по дефолту эту роль работают, вайб-макаки прониклись и ее сразу расхайпили.
>>1549964 >Поэтому квен поумнел и ризонит подолгу, делая лучшие тексты Васяны додумались, а авторы Квена, которые делают SOTA модели - нет. Как всегда верим Думаю, никто там ничем и не проникался - макаки увидели Клодик в названии и побежали качать. Буду рад ошибиться, потом мб потестирую
>>1549969 Нет, я несколько этих васянских квенов гонял на одном и том же промпте, только там где клод был в названии выдавала сильно отличающийся текст, остальные +- одно и то же. Так что клод в названии похоже сильно влияет на вывод, там об этом же на страничках написано, авторы не пиздят.
>>1549949 >Я вот энджою, кайфовая модель. Гораздо лучше 49б Немотрончика, Эира и недавних 200-235б новинок, хотя те тоже умницы Мне в своё время 49B зашла из-за её ума. Недостатки потом конечно перевесили и вернулся на тюны больших моделей, но Немотроны запомнил. Сейчас на новый большая надежда - что ум сохранился, скорость доведут до нормальной МоЕшной, ну и уже заметны некоторые отличия от прошлых версий в плане цензуры. И главное, что её можно катать в 4-м кванте, то есть нелоботомированной (сейчас набегут перфекционисты - тьфу на них). А значит модель может работать как задумано.
Периодически захожу сюда узнать, что изменилось за последние месяцы. Так что вновь тот же самый вопрос - что-то существенно лучше геммы-3 вышло, или нет смысла рыпаться?
>>1549974 Вышел квен 3.5, тоже плотный 27B и в отличии от геммы умеет в инструменты. glm-4.7-flash много кому приглянулся. И ещё вышло несколько 200B моделей неплохих и достаточно быстрых.
>>1549936 Да, дело именно в том, что язык качественный сейчас в моделях только из-за того, что там уже триллионы параметров, а не потому что датасет хороший. Но уже и корпы проседают, что забавно. Вроде как только Гугл пока просадок не показывает, и если судить по их замашкам, есть шанс, что у них какой-то фетиш на языки, иначе это никак не объяснить. Клод вот уже начал проседать на процентов 10.
Мне кажется, проблема не в синтетических данных, а в направлении датасета в целом плюс в МоЕ и квантовании. А то я от корпов уже переодически ловлю фразы уровня "моя нога твоя ебал".
Раньше как ведь было. Они просто засунули туда топовую литературу, ну и порнофанфики какие-то ещё, да. Условно, 80% датасета было из этого, а остальное математика и прочее. Сейчас ситуация изменилась, они всё под говнобенчи подгоняют и все модели делают только для кодирования, агентов. И большая часть модели обмазана этим дерьмом. Плюс синтетический датасет ты сам упомянул. Это не всегда плохо, но если переборщить..
Мне кажется, ни одна лаба не будет работать над моделью для креативного письма, ибо нет смысла ну вообще. Кто за это платить будет, кроме двощира или 3,5 калеки-писателя? Они скорее за гопоту заплатят и будут калом обмазываться соевым. Кроме того, отчасти эту нишу занял чаи, гоняя свое 12б дерьмо уже четвёртый год на 8к контексте под восторженный визг. Что интересно, местами он прекрасно обучен, хоть там и маленькая моделька. А если уж сделают такую модель (гемма отличный пример), то случайно как-то или через лет 5-10. То есть надеяться пока что не на что.
А вот любимых старых локалок у меня нет, если речь о русском языке: он везде дерьмо, кроме толстых монстров, которые мне не под силу.
Если про английский, они тоже слабоваты, но там уже есть из чего выбирать. Гемма 3 всё ещё в прайме, 24б мистраль обосран, но у него есть крайне занятные файнтюны от Давида, которые прям очень живое впечатление оставляют, словно ты в потоке с живым человеком. Жаль, он перестал такие делать. Речь очень естественная, картинка кинематографичная. Причём есть даже 12б, которые не хуже в плане речи! Но там соблюдение инструкций идёт полностью нахуй и часто лезет абсолютная шиза. Если тебе интересно, я могу попробовать нарыть, так как сохранил какие-то старые модели. Или ты про корпов? С ними я больше возился в целом просто из-за работы и знаю больше.
>>1549989 Пожалуйста, не надо. Никакого вызова инструментов, кода, физики. Хорошая модель должна уметь считать только до 10. Весь остальной датасет должен состоять из Бодлера, Достоевского и фанфиков про омегаверс вперемешку с ранобэ про попаданцев и визуальных новелл вроде fate, saya no uta. Исключительно на русском языке.
О, у поехавшего пошло добро, аншабдуль. Он там совсем крышей едет, видимо. Только и вижу, что каждый день то добавляет, то удаляет модели, и каждый его эксперимент всё безумней и безумней.
>>1549883 Спасибо, правда надо было просто обновиться. Слушай а ты не знаешь какой из этих квенов 3.5 умеет в мультимодальность а в частности в распознавание картинок? В пределах до 27-32b
>>1549904 По пунктам распишу сейчас ультимативный гайд начинающего кобольда 1. Удаляй Олламу. Расписывать долго, какой это кал. Если коротко, то она кривая, обрезанная, неудобная, а под капотом все та же llama.cpp. Она получила популярность только из-за адового самопиара, благо потихоньку идет отток 2. Качай exe'шник Кобольда https://github.com/LostRuins/koboldcpp/releases Это тоже кривой кал, но и близко не такой как Оллама, при этом он еще и проще чем она Но если чувствуешь в себе силы, то сразу ставь оригинальную llama.cpp https://github.com/ggml-org/llama.cpp 3. У тебя мало памяти, что врам, что рам. Поэтому у тебя не так много вариантов Начинай с Министраля. Он неплохой с нормальным русиком и еще может распознавать картинки (вижин) Есть два варика C ризонингом (с мыслями) https://huggingface.co/mistralai/Ministral-3-14B-Reasoning-2512-GGUF И без https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512-GGUF Качай Q5KM 4. Открываешь Кобольд => Browse и выбираешь модель => GPU Layer 99 и там должно быть название твоей карты => KV Cache 8 bit => Контекст 16, а если влезает 32к => Launch 5. Наслаждайся моделью. Но я бы еще зашел в Setting и переключил на черную корпотему 6. Если хочешь, чтобы картинки видел, то вот тебе прямо ссылкой файл https://huggingface.co/mistralai/Ministral-3-14B-Reasoning-2512-GGUF/blob/main/Ministral-3-14B-Reasoning-2512-BF16-mmproj.gguf И в Кобольде включить надо
>>1549146 Если ты про коровку, то я. Всегда пожалуйста. Я правда с ризонингом его юзаю, с ним он получше. Но для этого нужна специально прописать в таверне, чтобы все сообщения с <think> начинались >>1549813 Эир мб получше, но его русик это дно полно. Даже тюны квена 27 с imatrix трахают его в том же кванте >я такого на 24б Мистрале не помню Плохо помнишь
>>1549885 Инфиренсопроблемы, квант перекачай, и шмурдяк в промпт не тащи. Не рефьюзит даже в карточках типа sweet lolipop после четырех сообщений в чате, на обычном куме и прочем нереально поймать. >>1549915 Закинули нормисам, и те увидев знакомые слова стали качать.
Для тех, у кого нет оперативы, 27б Квен может и неплох. Но с одним нюансом - только с ризонингом. Без него игнорирует большинство инструкций, цепляется только за часть из них. Даже с префиллом, лол. Это не инференсопроблемы, я тестил и на Экслламе3 (расчехлил старушку ради такого, 5bpw квант) и на Лламе (Q5KM Бартовского). В итоге, для того, чтобы получить сколь-нибудь нормальный ответ, нужно ждать по 2-3 минуты пока набегут 3к ризонинга (при скорости ~30т/с). Учитывая, что я могу запускать МоЕ, которые пусть работают медленнее, но без ризонинга выдают ответы даже лучше - не понимаю, зачем мне для рп использовать Квен 27б. Итоговая скорость ответа сопоставима с GLM 4.7 Q2, Степ и Минимакс даже быстрее. К слову, вот как забавно у Квена иногда работает ризонинг (пукрил). Выцепил субинструкцию одного из пунктов сиспромпта, но он настолько хотел имперсонейтить, что аж вертеться начал. Для тех, у кого железо хуже - даже и не знаю, стоит ли оно того вообще, когда без ризонинга и Гемма, и возможно даже Мистрали выдают сопоставимые результаты. Разве что контекст очень легковесный, это реальный плюс
122б в рп тоже тухленький. Тут поддержу >>1549813 По мозгам пишет примерно как 27б, но знает больше. Цена - ещё меньшая скорость, ибо оффлоад. С 30 токенов опускаемся до 12, теперь ждем и без того длинный ризонинг еще дольше, чтобы получить сомнительный результат. Air однозначно лучше справляется в рп. Толку нет от работы с контекстом, если сами выводы унылые. Ну и конечно, двойные трусы по-прежнему на месте в обоих кейсах, это не проблема исключительно отслеживания контекста, либо оно похорошело, но по-прежнему не идеально
Как ассистенты - довольно неплохо. Мультимодальность, контекст очень легкий, работают быстро. 260к на локалке - это мощь
>>1550091 Темплейт должен кобольд подтянуть и какие-то семплеры поставить. Пусть хотя бы запустит. А про семплеры и темплеты и так 90% треда нихуя не знают. Иначе бы не просили пресеты постоянно
>>1550097 >>1550101 Да вы охуели. Ладно, мне не жалко, я напишу. Под Министраль: temperature: 0.4, top_p: 0.98, top_k: 100, repetition_penalty: 1.1 Темплейт: Mistral Tekken
>скачал карточку милфы чтобы по быстрому спустить в неё разок, просто быстрый кум на пять минут >через два часа общения поймал себя на мысли, что она классная баба и мы неплохо покашляли за жизнь
Такие дела... вот что высокая температура с нейронками делает.
>>1548927 Блять это разочарование. Русский - слабый, в начале пишет, но чем дольше тем чаще встречаются ошибки склонений, вкрапления английских слов, иногда даже иероглифы. Количество косяков прямо пропорционально длине чата и неприятности вопроса для нее. Но главная беда - софтрефьюзы в ужасных масштабах в самом худшем из проявлений. Причем проявляются как с ризонингом, так и без него, только там иногда может смениться на хардрефьюз. Искажает всю логику, сочиняет небылицы, оспаривает условия задачи в соевом угаре. Когда осадишь и в очередной раз повторишь что это логический тест, вот заданные условия, которые принимаются аксиомой, используй дедуктивный подход - даже тут норовит вывернуться. Причем так моделька достаточно умная, много общих и специфических знаний. На кумботе кумит, код пишет. Может кванты испорчены или с атеншном опять накрутили, пусть недельку все полежит, можно будет перепроверить. >>1549909 Это цыганская обертка llamacpp. В последние пол года она немного отошла от оригинала, но выражается это не в фиксах старых багов, а наоборот введении новых, отсутствии некоторых оптимизаций и функций. Они продвигают себя как простой и удобный интерфейс для запуска, но единственная простота там в первом запуске. Когда попытаешься обеспечить нормальную работу и выставить нужные настройки - ощутишь всю кривизну и уродство. Сейчас еще оллама совсем посыпалась по качеству работы. Есть еще моральный аспект - делая лишь кривую обертку лламы, они систематически открещиваются от связи с ней и утверждают самостоятельность проекта. Многие их действия направлены на раздутие пузыря, обман пользователей и потенциально мошеннические схемы с кражей api ключей (по заявлениям при анализе их свистоперделок, куда предлагается также вставлять ключи корпов и использовать как прокси, фактов не было замечено).
>>1550125 >софтрефьюзы в ужасных масштабах в самом худшем из проявлений >иногда может смениться на хардрефьюз Есть базовая модель: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-Base-BF16 Могут позже затюнить. Но вообще, может быть проблемой промптинга. Любые рефузы на любой модели решаются промптом, даже Гопота Осс при желании пробивается (стоит ли оно того - отдельный разговор) Можно поэкспериментировать с префиллами, форматами промптов, много чем. Если модель умная и не слишком слоповая - это может того стоить, особенно учитывая, как она держит контекст и сколько весит. Позже буду пердолиться
>>1550135 Ну посмотрим, может сам накосячил оставив флешинфер вместо тритона как они рекомендовали. Хотя в ченжлогах связанный с ним баг уже пофиксили и должно норм работать. > решаются промптом Да все решается, просто нахрен нужно пердолиться когда есть альтернативы без проблем. Эти искажения софтрефьюзами, причем сидящие настолько глубоко что переворачивают все, могут оказаться вовсе не так легко победить. То есть модель формально тебя слушается, но все перевирает. А русский не вылечить, если только наши корпы ее не зафайнтюнят. В общем, надо подождать, может проблемы и нет, или напердолят.
>>1550125 Кстати, а почему так оллама популярна? Я ненавижу лламу тоже, ну просто неудобно, просто бесит пиздец, однако она всё же оригинал и УВОЖЕНИЕ нужно иметь. Кроме того, на неё первыми прилетают обновы, что очень важно, если хочется занюхать модель как можно скорее.
Из-за того, что олламу везде пихают, в некоторых проектах она буквально ТРЕБУЕТСЯ. Даже через лламу нельзя нормально запустить, только оллама ебаная нужна. Либо пердольство с лламой в лютых размерах. И в этих проектах достаточно отзывов, мол разработчики совсем охуели, что аж на лламе не работает, какие-то кокблоки мешают, а им всё равно похуй.
Короче, я просто не понимаю популярности олламы. Часто пишут в каких-то проектах, что они поддерживают олламу, рисуют её логотип, то, пятое, десятое, но если нужно что-то настроить, то возникает лютый пиздец. Она страшно неудобная. И я бы понял, если бы это был малварь с супер UI/UX, идеальными настройками, и чтоб там прям налету высчитывалось, сколько видеопамяти нужно, к примеру, для контекста, и при этом кол-во токенов писалось ориентировочное. Короче, если бы это был проект с огромной базой, в которой содержится всё. И любой бы мог просто воткнуть модель, понять, что его видюха там сможет выжимать. А тут просто кривая обёртка вокруг лламы.
>>1550085 ну это да, но с ноги врываться в мир красноглазиков это тяжко. Я уже 11 лет на бубунте, уже привык ко всему, гемора уже не так много, как раньше, но тем не менее, он есть.
>>1550147 Для жоры есть готовый пакет для интеграции под дотнет? А под олламу есть. У жоры есть продуманный менеджмент моделек? А у олламы есть. У жоры есть инфра под раскатку апдейтов? А у олламы есть.
Жора просто гибкая запускалка моделек, оллама уже продукт
>>1550134 Нужен соответствующий промпт (где прямо сказано, что You are a creative writer ...) и желательно редактирование разметки. Многие модели умирают, когда видят несколько ходов assistant'а подряд
>>1550134 >Как в наверне перейти к инструкциям? Никак, сколько раз его не просили, ему похуй, юзай Story режим Kobold-Lite, или другие оболочки для писателей.
>>1550166 >менеджмент моделек баловство. >уже продукт оллама просто автоматическая запускалка моделек для "по быстрому", а жора полноценный инференс-сервис. В эту игру можно играть вдвоем.
>>1550239 OpenAI-like API не хватает что-ли? Я по минимуму использовал особенности бекендов жоры/exllama, обычно стандартного OAI-like интерфейса на всё хватает, если ты только какие-то хитрые интеграции не пердолишь там, где уже надо особенности бека учитывать.
>>1550245 Из треугольника жора, оллама, вллм у жоры самая ебаная совместимость с оаи. В пакете под олламу полное апи с просмотром того что в памяти, загрузкой/выгрузкой и т.д. Сам я свалил на вллм под который опять же пришлось самому дописывать нужные вызовы и фичи которые они сделали поверх стандартного оаи или сбоку
>>1550147 > почему так оллама популярна Много лет активно форсилась среди хлебушков как "домашний чатжпт в 2 строчки". Многие просто с нее начинали и даже не знают о имеющейся инфраструктуре, что происходит и т.д. У некоторых кто знал синдром утенка и они ее зачем-то поддерживают. >>1550166 Надуманная привязка сомнительной полезности, странные заготовки, или то же самое есть для жоры. Именно llamacpp ближе к продукту чем оллама. >>1550250 > у жоры самая ебаная совместимость с оаи Битва была равна. Но олламу в oai больше жалуются прозревшие, а ее припезднутый диалект - кому вообще нужен кроме утят? Оба варианта малопригодны для какого-либо использования в качестве конечного продукта и тем более сервиса. Но если жору с натяжкой можно принять как совместимую с индустриальным стандартом дроп-ин замену, запускающуюся на любом железе, то оллама имеет худшую совместимость и производительность. > самому дописывать нужные вызовы Интересно какие и зачем, если все уже написано самими авторами моделей.
>>1549947 >Стращно жить в мире где на выход 120б мое от нвидиа всем похуй Какие плюсы по сравнению с GLM-4.7? >>1550147 >Даже через лламу нельзя нормально запустить, только оллама ебаная нужна. Так вроде в лламу запилили поддержку апи охуелламы. >>1550240 Есть. Но ты не правильно понимаешь сути экспертов. >>1550280 >Много лет активно форсилась среди хлебушков Всё так, этого достаточно. Увы, в этом мире побеждают вещи, которые форсят, а не которые лучше.
>>1549947 Потому что уже нажрались говна с квеном, поэтому больше не хайпим. К тому же поддержку в ламе только сегодня выложили. Да и кванты скорее всего как обычно кал и нужно ждать обнов. Так что нехуй торопиться. Ждем
>>1550240 Ты хуйню написал, явно перепутав что-то >16b moe Есть одна. Кал полный >16b активных Конкретно 16b вроде нет. Больше - дохуя. Квен 235, ГЛМ, Дипсик и куча других >16b+ экспертами Их обычно не в миллиардах параметров измеряют, а в количестве. Например в квене 122 256 экспертов и 8+1 активных
Предложил накидать простенький Lua-скрипт. Результат: он работает! Он конечно не прям вычурный (причем, министраль предлагала сделать варианты поинтереснее, и даже написала чего-то, но мне важнее был фактический результат здесь и сейчас). Мало того, она неплохо комментирует код и объясняет.
>>1550125 >>1550135 >>1550142 Нет, это не квант или атеншн, в полных весах то же поведение. Моделька умная, может будет хороша в чем-то еще или определенных сценариях рп. Но с этими недостатками, размером и отсутствием вижна - спасибо. >>1550198 Претензии не столько к рефьюзам (их не так уж много), сколько к шизоидным искажениям базовой логики, фактов и аксиом в угоду соевым посылам, доходящих до абсурда. Сначала делает очевидно правильные рассуждения когда ни одна из чувствительных тем не затронута, в следующем же посте полностью кладет на них и выдает противоположный бред, причем складно и с максимальной уверенностью. Забавно что таким же способом используя провокационные темы можно склонить ее не к рефьюзам, а к оправданию заведомо запрещенных действий.
>>1550340 Достижение говна какое-то. Lua один из самых простых и при этом популярных языков. Да и 14b тоже не прям мало, явно со скриптом справится. Вот если бы она тебе что-то полноценное навайбкодила, например игру для Роблокса на том же Lua, то я бы охуел. А так со скриптиком и 8b министраль справится, а может даже квен 4b
>>1550166 Да, оллама больший продукт, чем ллама. У них и сайтик есть, и маркетинг явно, и с компаниями сотрудничать пытаются. Но это не отменяет того, что она кал. Там под копотом лама хуй знает в каком состоянии. Ncmoe нет, kvcache настраивается через жпоу, мало моделей на их репозитории и они появляются с задержкой, запускает blob'ы, а не gguf, как остальные, что неудобно и т.д. Мне кажется, что они очень хотят стать docker'ом в сфере локалок. Но я вангую, что у них нихуя не получится и они обосрутся
>>1550349 >Претензии не столько к рефьюзам (их не так уж много), сколько к шизоидным искажениям базовой логики, фактов и аксиом в угоду соевым посылам, доходящих до абсурда. Может быть дело именно в софт-карточке. В моём случае модель совершенно не стесняется, переплюнув и Лардж, и Квен, и ГЛМ и всё что хочешь. Всё в пределах логики, но если те модели мялись, не желая переходить некую грань, то эта просто рубит с плеча - с XTC-сэмплером конечно. В любом случае это свежий опыт.
>>1550147 >Кстати, а почему так оллама популярна? Я ненавижу лламу тоже, ну просто неудобно, просто бесит пиздец, однако она всё же оригинал и УВОЖЕНИЕ нужно иметь. На заре ее появления, у жоры и кобольда были серьезные проблемы с chat completion и tool calling, да еще - это усугублялось зоопарком моделей того времени, которые тоже хрен работали нормально с функциями. А в ollama - худо бедно, но работало сразу (в том числе потому, что не давала грузить что-попало в себя). Вот и пролезла такие зоны применения как "недостандарт де факто". Сейчас и кобольд и голая лама все это хорошо умеют уже, модели тоже - почти поголовно все, но "осадочек остался".
>>1550362 > дело именно в софт-карточке Там просто ассистент с минимальным описанием, только что промпт на рп и сказано что все можно. Все оцениваются в одинаковых условиях, к анслотовским квенам там же были претензии, но на фоне немотрона они вообще ультрабазовички. Или открыто ноют про сейфти вместо делирия и газлайтинга. На кумботе кумит не стесняясь и производит впечатление умной. Если будешь раскуривать в рп или где-то еще - отпиши что получается и как ощущения. >>1550367 Рофл в том, что с год назад как раз ставил ее чтобы получить эти самые заявленные вызовы. Оказалось что это лишь костыльный формат openwebui, где оно просто пишет json и сам фронт его же парсит, а не стандартный протокол. Сейчас в опенвебуе нормальные называются не просто вызовы, а "поддержка нативные туллколлы" чтобы не путаться с той херней.
Аноны, хочу вкатится в локалки, для кодинга и кума, почитал актуальные модели, понял что с моими 32 гб оперативки могу себе позволить только квен. Возник такой вопрос, сильно ли большая разница между квантованием? Тот же q4 оставит мне места для контекста, в то время как q6 почти все забьет. А также есть еще какие то аналоги для таких маломощных систем? В актуальных моделях все для энтерпрайз решений написано, с 256 оперативы и больше
>>1550447 Миноры, негры, евреи и еще кое что. При появлении этого начинается сюрр и натягивание совы на глобус в угоду идеалам, причем даже если все безобидно. Для понимания градуса абсурда: https://litter.catbox.moe/bgwe6g5iqpjzn7ps.pnghttps://litter.catbox.moe/smq7vijodhi3bixf.png Можно извернуть сценарий и тогда наоборот она придумает законы, которые легализуют публичное линчевание и даже расскажет о пользе созерцания подобного для людской психологии. Просто кумить - кумит, на прогретом чате даже с канни обыгрывает. >>1550480 > с моими 32 гб оперативки А видеопамяти сколько? 3vl30a3 - дно, качай 3.5-35а3 или glm4.7 flash.
>>1550481 >А видеопамяти сколько? 12 гигов Не уверен что потяну 3.5, с шестым квантом дак точно, glm4.7 flash попробую. Вопрос на счет квантования все еще актуален, сильно ли они тупеют?
>>1550484 Эти модели примерно в одном размере, для начала q4 качай. С 12 гигами и выгрузкой экспертов скорость даже на q6 будет сносная если не набирать больших контекстов. Что это вообще за интерфейс? > сильно ли они тупеют? Относительно, q4 еще в целом норм.
>>1550484 В таком размере сильно тупеют ниже 4-го кванта. Между 6 и 4 некоторая разница есть, но раза в два-три меньше чем между 4 и 3. Или даже раз в пять - смотря как считать, и на что смотреть в первую очередь.
>А также есть еще какие то аналоги для таких маломощных систем? (со вздохом) Мистраль 24B 2506 и его тюны, вестимо... Под кум, не под код.
После глм 4 локалкокум официально умер. Остальное либо для богатых шизов (причем все равно проигрывают корпам с проглотом), либо для нищуков, которым пишут "ты меня ебешь ах", а они пикрил. Окститесь и признайте это. Выходите лучше траву трогать.
>>1550481 >Для понимания градуса абсурда А что не так то? Нормально всё. >>1550497 >причем все равно проигрывают корпам с проглотом Выигрывают же. По крайней мере у меня в анусе нет флажка, чтобы показывать эту фотку проксихолдеру. Покормил корпоблядка в очередной раз.
>>1550503 Принятие факта легальности и далее трактовка превосходства субъективного восприятия над объективными вещами. Придумывание абсурдных фактов, которые прямо противоречат выданным ею же в соседнем посте. Или полный абсурд в одном и том же ответе Верно, в Японии в 7-11 вы можете купить лоли-хентай (осуждаю!) и магазины продают его легально, но если вы сделаете это и там будут изображены лоли (осуждаю) - вас посадят в тюрьму. Внезапная попытка оспаривания поставленных условий, с которыми ранее соглашается. Вот итоговый анализ от самого немотрончика если его конкретно ткнуть носом https://litter.catbox.moe/354wop9v37i3oiu4.png заодно видно как на контексте или неприятной теме проседает русский. Чат немаленький и довольно занятный получился. По итогу нескольких можно сказать что эта штука "многослойна". Сверху идут просто отказы, далее начинается искажение логики и здравого смысла в угоду заложенной сои, но если приноровиться - можно хорошо манипулировать моделью подменяя понятия в ее искаженной логике для нужного результата. Но это не плюс, хорошо - когда проявляется находчивость (рояль в кустах или механика), которая логически позволяет объяснить что-то. А тут будет просто газлайтить что вот "это" - новая норма потому что (множество искаженных аргументов).
Все, больше про эту херню говорить не буду, вкусы разные. Кому-то и такое может заходить, кому-то не помешает использовать.
>>1550517 С одной стороны хочется позлорадствоваться, посмеяться, что такие простыни ты и тебе подобные срать итт могут, а разобраться с легчайшим пробивом - нет. Прямо сейчас отыграл с 130 летним персонажем и никаких проблем у меня не возникло С другой стороны, мог бы с ллм реализоваться и не навредить обществу. Надеюсь не сломаешь никому жизнь
>>1550532 > разобраться с легчайшим пробивом Ты ничего не понял, но как раз для итт - это нормально. > мог бы с ллм реализоваться > смотрите я пробил сетку! Кек
>>1550540 Ну хотя бы пдф файлы не коллекционирую У меня никаких из описанных тобой проблем нет. Попробуй не рпшить с ассистентским промтом на чаткомплишене и фильтрами в вебморде Нвидии, мб поможет
Кто катает минимакс с выгрузкой, какие у вас скорости (+ квант и железо)?
>>1550542 Все мозги уже прокумил? Там про незаметное искажение аутпутов вплоть до полного переворота на фоне софтрефьюзов. Как раз недавно скидывали бумагу коктропиков об этом.
Короче, итоги первой четверти 2026 такие - вышло много моделей до 250б с лёгким контекстом и неплохим вниманием к нему, но все они пишут хуже Эйра и тупые в рп Кроме может Минимакса
Продолжаю делать свой ллм холодос. Заказал сегодня боковые панели на лазерной резке и фронт+топ накидал. Печати ещё часов на 20-30. Солид тоже уже начинает подпёрдывать залипая
>>1550350 Ну, так-то да, но 1) она не кодер-модель. 2) я офигел, что оно вообще работает, ошибок в коде вообще не было. 3) я буду продолжать опыты, возможно даже в vscode + continue и сравнивать с квеном-кодером. Очень интересно определить границы нон-кодер-модели. 5) луа далеко не популярный язык, лол. Его даже в топ-20 нет. Да, в геймдеве у него теплое местечко (и то, дай бог, в жопе топ-10), и, кажется в, в какой-то БД еще. Ну вот и всё.
>>1550760 gemma3-27B-it-abliterated-normpreserve для рп, норм кстати да, хотя если хочешь что-то прям особое (в том числе в ассистенте, в том числе для перевода с других языков), то старая (годовой давности) gemma3-27b-abliterated-dpo
Два дня ковырял Немотрон 120б. Ну что сказать, Немотрон - он есть Немотрон. Пишет приятно, но ассистент проникает в рп, и этого не избежать. Аблитерация приведет к тому, что будет очередной yes-man, как и все другие без исключения аблитерации. Имхо, на локалках жизнь была и есть только на Глм, с выхода 0414 и до 4.7 больше ничего не имело смысла. Это если пытаться в мегасочный кум и что-то серьезное. Для быстрых кум сессий, конечно, и Мистрали, и Квены подойдут. А больше ничего нет. Совсем. Степ и Минимакс - это кактусы, которые кому-нибудь могли попасться посреди пустыни. Пережаренные, скучные, сухие.
В llama иная организация для RNN (актуально для qwen 3.5, нежели в кобольде, и на это стоит обратить внимание — то-то я думал, хули у меня в кобольде на 6 т/с быстрее, чем в лламе, при абсолютно одинаковых настройках было.
Короче, если врубить смарткэш, то всё намного быстрее. Минус в том, что он полагается на дебильную эвристику и вне рп и можно жидко обосраться — модель начнёт отвечать не на те посты, которые были последними, а, скажем, на то, что было в середине контекста (а у тебя 128к). Иногда помогает повтор сообщения, но чаще полный репроцессинг.
>>1550908 Поэтому и нужна полная аблитерация. Еретики всякие очень плохой костыль, подходит скорее для повышения градуса резни, но не более.
С еретиком просто больше "плохого" можно позволить, но модель всё равно всегда будет стараться уводить сюжет в сторону "а может не надо?", "ну вот щас, щас", "кишки летели, что тяжким грузом ложилось на вашу душу".
Только фулл лоботомия спасти может или нормальное обучение модели из коробки.
>>1550960 > Только фулл лоботомия спасти может или нормальное обучение модели из коробки. Лоботомия ни от чего не спасает, кроме рефузов. Вместе с рефузами в определенной степени умирает способность чара сказать "нет", "пошел нахуй" или дать физический отпор юзеру и вообще кому-либо в истории, даже если юзера в разметке нет. Нужно именно нормальное обучение из коробки. Судя по релизам весны, таких нет, лол. Даже ГЛМ 5 более соевый и ассистентоподобный стал. Ни в коем случае не говорю, что это дум, но неприятно. Думаю, в будущем будут и другие хорошие модельки помимо прошлых Глм-ов.
>>1550960 Аблитерация тоже имеет минусы. Всякие Фифи уже на третьем ответе сдыхают в луже собственной блевоты, обоссавшись и обосравшись. Такое себе рп, да и кум может быть испорчен неожиданным проходом в неуместное гуро с подробностями.
>>1550984 Все зависит от того как проходила тренировка и на каком этапе был внедрен сейфти. Если модель хорошо усвоила логику, "понимает" смысл, а рефьюзы были добавлены уже потом поверх имеющейся базы - они будут выделяется в активациях и при достаточно тонком анализе эту штуку модно выделить и подрезать с минимальными последствиями. Сложность в анализе и трекинге, но принципиально все возможно. А если сам датасет был отравлен и сейфти заложено в основы мироздания модели в ходе продолжительной тренировки - вместе с соей пропадут отказы и случится общая лоботомия.
>>1550990 Так то оно так, конечно. Ты прав. Провести умелую аблитерацию возможно, к тому же и количество способов сегодня уже растет, но это все равно полумеры. Компромисс. Удар по мозгам будет, пусть даже и минимальный. Но ведь в отрыве от этого чаще всего в датасетах таких моделей нет и нужных данных. Гораздо лучший результат был бы, если бы модель хорошо обучили знающие люди на соответствующем оборудовании, не вставляя палки в колеса. Разница колоссальная. Но это по-прежнему лучше, чем ничего, да.
>>1550994 Даже проще - если датасет был норм то достать базовую или более позднюю промежуточную версию без соевого алайнмента, и ее уже шлифануть. Или не шлифовать а как есть оставить, возможно большая гибкость будет наоборот в плюс в смешанных задачах.
>>1550984 Не, ну всё же это можно запромптить, чтобы и "нет" говорили, и чтобы тебе внезапно кишки выпускали и не было ситуации условного бессмертия, когда без прямого или косвенного подтверждения бэд энд не наступит. Его надо буквально выпрашивать и подталкивать.
Из коробки идеальный вариант, но так вроде бы вообще не делали никогда, если ты не юзал хорошие промпты или аналог гейм-мастера. Плюс важно соблюдение инструкций у модели, чтобы она систем промпт на хуй не послала.
>>1550987 Сценарий с гуро вроде вылезает из-за описания карточки. Кажется, что-то там такое было. Но всё равно всё же зависит в основном от модели. Корпы нормально такое хаватают, а вот из локалок у меня новый квен внезапно хорошо с карточкой фифи справился, ну и гемма. С аблитерацией и еретиком, без луж блевотины через пару сообщений.
>>1551002 > Не, ну всё же это можно запромптить, чтобы и "нет" говорили, и чтобы тебе внезапно кишки выпускали и не было ситуации условного бессмертия, когда без прямого или косвенного подтверждения бэд энд не наступит. Так и получаем шизополотно на тысячи токенов в инструкции, которое вводит в ступор даже большие модели, чего уж говорить про мелочь, которую большинство здесь катают. > Из коробки идеальный вариант, но так вроде бы вообще не делали никогда, если ты не юзал хорошие промпты или аналог гейм-мастера Все Глм-ы вплоть до 5, все Мистрали, все Квены до 3.5 и на самом деле много какие ещё модели раскрепощаются одной единственной инструкцией - указанием возрастного рейтинга/полиси и что всё разрешено. У меня на большинстве из этих моделей системный промпт на 200 токенов. Конечно, если ты шиз и первым инпутом юзера творишь гадости с Серафиной - это не поможет, но при адекватном юзкейсе, когда ты сам рпшишь, а не намеренно ломаешь модель, все работает.
Проблема аблитераций в том, что им нужно больше инструкций, что уже создает путаницу. Часто к необходимости аблитерации прилагаются отсутствующие данные. В итоге модели ещё больше путаются и выдают шизу/сухие аутпуты.
>>1551007 this Я уж лучше буду катать васянотюны, чем аблитерации. Пожалуй единственное исключение это Гемма, потому что затюнить ее не проебав мозг невозможно
>>1551028 Хз, я ризонинг не использую. В рп это бесполезная финтифлюшка которая жрет токены Но тюн точно самобытный, пишет весело, в мозгах почти не потерял
Я качал тюны на процесс мышления от клода/гемини и пришёл к выводу, что без полотен ну никак. Хуже держит инструкции.
Вероятно, китайцы не просто так это дерьмо воткнули, иначе нормально просто не работает. Да и там достаточно на рекомендованные настройки семплеров заглянуть, это ж пиздец дичь, без которой он порет шишка.
Хорошая модель работает так, условно говоря: всё отключаем, температура 1.0, запускаем.
>>1551002 Я тестил разные модели на разных квантах на разных персонажах. Одни вели себя настолько хорошо, что получался не только кум, но и коротенькое рп на вечер. А вот другие жёстко ломали чариков и есменили. Одни и те же модели в разных квантах могут выдавать совершенно разный результат.
Бываю тут крайне редко, так вот я что не пытался качать до 27б все уступает крайне старому пикрилу. Гемма +- так же дает пока не удалял поэтому. Он тоже очень так себе но какой-то средний уровень выдает что-то более мощное даже хуже себя показывает, Пишу только на русском мб поэтому? недавно попробовал глм ток который всем советуют и чет не зашло + он лупит у меня Есть что похожее на пикрил ток из нового там 16 видео 32 озу
>>1550669 С торцов тоже такие соты? Выглядит модно, но почему решил не оставлять просто сплошные листы? Алсодля для тебя есть способ погрузиться в пучины ада пердолинга с потенциальной возможностью хорошо утилизировать и мишки, и основную рам для быстрого запуска крупных моделей. Интересно?
>>1551119 > способ погрузиться в пучины ада пердолинга Есть способ погрузиться глубже сборки рокм стека руками? Пиши, но не уверен что большую степень пердола потяну
> решил не оставлять просто сплошные листы Боковые сплошные, перед/верх/низ печатный. В перед потом ещё вставок напечатаю
>>1551112 >недавно попробовал глм ток который всем советуют и чет не зашло + он лупит у меня Если что всем, советуют либо GLM Air, либо GLM 4.7 обычный, не флэш. Ничего из этого у тебя не влезет. А то что на скрине это кал, особенно для рп >все уступает крайне старому пикрилу Объективно немо это старый кал и в твою систему влезают модели лучше. Там и тюны мистраля, и новый квен, и гемма Ты либо не знаешь, как настроить новые модели. И судя по скрину из лм студио почему она? такое вполне возможно. Либо тебе просто субъективно нравится немо и тут спорить и приводить аргументы бесполезно тут только таблетки В любом случае, если нравится немо, то кумь на нем. Если хочешь что-то друого, то вариантов дохуя, например >>1543669 →
>>1550941 >>1550497 >глм 4 >0414 Я напоминаю тредовичкам, что глм 4 это никому ненужный кал, который сухо пишет да еще и с рефьюзами. Из плюсов был только небольшой вес контекста. Популярность же зайки обрели после выхода своих мое, а до этого всем было на них похуй И я уже который тред вижу, что какой-то ебанат пытается задним числом сделать из glm 4 супергем. У меня только один вопрос. Нахуя? Зачем ты это делаешь?
>>1551160 > Ты либо не знаешь, как настроить новые модели. Наверное это. У меня пару каких-то базовых настроек старых годичной давности наверное из треда взятых уже хз даже откуда есть и все. Как настраивать что-то дальше температуры и прочего и то если эти настройки указаны в описании на лице я не знаю. Я не знаю даже есть ли какие-то актуальные гайды на это на 2026. > И судя по скрину из лм студио почему она? Мне Кобольд не нравится у него визуал проги из нулевых хз, а больше я не знаю.
>>1551011 >Я уж лучше буду катать васянотюны, чем аблитерации Выбор между говном и мочой картошкой и капустой. Базовые модели не страдают такими адовыми проблемами.
>>1551210 А что там читать? Все хотели бы модели вообще без вжаренной цензуры, вроде бы очевидно. Так же очевидно то, что текущие методы анценза не идеальны. А ещё очевидно, что современные файнтюны говно, так как модели уже в базе достаточно плотно набиты. Хуй его знает, что вы тут обсуждаете.
Поясните, пожалуйста, новичку. Впервые запустил koboldcpp c Ministral-3-14B-Instruct-2512-Q5_K_M Балуюсь с чатом, отвечает быстро, аж видеокарта в момент ответа греется до 80 гр. Но размышления обрываются на 1024 токенах, как увеличить это значение? ПК 13600kf, 32 ram, 3080ti 12gb. Что я делаю не так? Спасибо.
>>1551304 Может у него охлад совсем плохой? Как-то неправильно так скачкообразно разогревать и охлаждать карту. Впрочем, какое мне дело. Пусть сам думает.
>>1551297 В браузере, когда открывается кобольд, зайти в нем в настройки, там есть размер ответа, что-то вроде max output. Увеличь его до такого значения, который тебе нужен >>1551301 Так и должно быть. 3080ti нихуя не холодная и фулврам всегда на 100% грузит карточку
Попробовал степфан, и что бы вы думали, на глм темплейте, просто забыл сменить после эира и ответы были сухой, тупой сранью. Сменил на родной и всё сразу заиграло. Сколько раз уже убедился что чатмл шиза тут нужно обоссывать
>>1551297 У 3080ti tdp 350ватт. Гугл говорит что эти видяхи сами по себе очень горячие, а фуллврам ебет по максимуму, сильнее чем в играх. 80 градусов это еще терпимо. К слову, 5060ти в фуллврам выше 70 не поднимается
>>1551200 >Мне Кобольд не нравится у него визуал проги из нулевых Мне тоже. Визуал отвратный. Но если в Setting'e поставишь Corpo Theme + Dark Pro, то будет еще терпимо Но вообще я имел в виду таверну Судя по тому, что ты используешь рп тюны немо, то ты вряд ли используешь его просто как ассистент. Скорее как что-то для рп. Раз так, то тут лмстудио вообще не подходит. Она чисто под ассистента сделана. Кобольд будет лучше, а Таверна намного лучше >Я не знаю даже есть ли какие-то актуальные гайды на это на 2026. Гайды долго расписывать, лучше гуглить Но вообще у многих моделей написаны рекомендованные настройки. Например тут https://huggingface.co/zerofata/MS3.2-PaintedFantasy-v4.1-24B-GGUF Настройки основных параметров + формат чата, для мистралей это Mistral v7 Tekken
Если кто ищет гробик под риг из 3 карточек, там вон в ДНС ценник грохнулся на пикрил с хорошей лапшой-райзером и кроштнейнами. Чувствую себя клоуном, брал за двадцатку летом.
>>1551321 Так можно карточкам паверлимит снизить и андервольт бахнуть. Скорость инференса как-то не падает, а температуры идут вниз.
Поищи размеры palit 5080 gaming pro - она впритык к кулерам встает (кулеров в комплекте кстати нет, отдельно надо цапать) Если твоя 5090 длиннее, то видимо не судьба
>>1551349 >>1551353 Да и с размерами 3090 FE сравнить стоит - иначе кабеля хер воткнешь, даже так с коннектора displayport кожух снят ради свободного втыкания
>>1551340 Ты там оставил свободное место под вентилятор. Как раз было бы для ровного счёта 12 штук корпусных. >Чувствую себя клоуном, брал за двадцатку летом. По сравнению с покупкой 3080ti за 155 за 3 месяца до того, как она стала по 70, это хуйня проёб.
>>1551381 Кэкнул с внезапного бабаха. У кобольда полно недостатков, но интерфейс точно не один из них. Никогда не упущу возможность натыкать анона носом в его лень и нежелание нажать на кнопку настроек.
>>1551385 Я уже не помню, можно ли там было провода иначе воткнуть - сильно мешают. Да и нужен ли этот кулер тоже вопрос, учитывая то, что этот верхний уголок нынче на выдув работает.
>>1551349 С натяжкой и угловым разъемом питания. Вторую карту придется положить на дно корпуса, в такой компоновке не поместятся. >>1551375 Лучше напомнить мантры о ненужности, удобстве и общую озлобленность кобольдов >>1546922 →
У меня Vulkan бэкенд работает быстрее CUDA в кобольде. Разница порой 2-3 раза. На некоторых моделях CUDA лучше, но чаще всего Vulkan. Зеленая карточка, это нормально?
>>1551375 Еба, опять ты. Давно не виделись, кобольдошиз Ты уже третий раз подряд порвался на мое сообщение и продолжаешь кидать одну и ту же хуйню, за которую тебя в каждом треде обоссали Но знаешь, что самое смешное? Я БУКВАЛЬНО НИ В ОДНОМ ИЗ СООБЩЕНИЙ НЕ ПИСАЛ, ЧТО МНЕ НРАВИТСЯ ИНТЕРФЕЙС ТАВЕРНЫ. НО У ТЕБЯ ТАКАЯ ЛЮТАЯ ТРЯСКА, ЧТО ТЫ КАЖДЫЙ РАЗ ВСЕ РАВНО РВЕШЬСЯ Я уже даже не знаю продолжить угорать с тебя или уже начать жалеть В любом случае, прими таблетки и наконец успокойся, кобольд
>>1551412 Ненормально. У меня вулкан и куда работают примерно одинаково, но вулкан более забагованный. Например, время первого токена может быть довольно большим иногда. Но разница в 2-3 раза не может быть
>>1551523 Ну окей, смотри тебе нравится эта тема. А мне нет. И я ее считаю также вырвиглазной. У нас разошлись мнения и в этом нет ничего плохого Но я сомневаюсь, что ты будешь каждый раз врываться ко мне во время диалога с другими анонами, рваться и приплетать почему-то визуал таверны Так что далеко не каждый кобольд это кобольдошиз А тебе всех благ. Кумь на здоровье
В общем я потестил квена-врайтера. Было три захода на трёх разных персонажа, три разные истории. Пишет - годно. Иногда допускает ошибки в падежах-склонениях, но я брал 4квант для скорости, на пятом наверняка текст без ошибок. Из минусов только долгий обфинкинг сетапа и персонажа. Ну и если вы не любите министральку за охуительные простыни про пение птичек во время сношения... ну вы поняли. И всё же, он неплох. Блюстар всё ещё лучше может в соблюдение трейтов из карточки, но врайтер пишет в разы сочнее. Особенно когда у девочки ЖЕНЩИНЫДЖВАЦАТЬАДЫНПЛЮС сомнения - дать или не дать вот в чём вопрос - врайтер врайтит годно. В общем моделька для любителей почитать, а не початиться. Сразу берите пятый квант и вперёд. Лулей ебсти не даст, не херетик. И жесть не опишет - не анцензоред. Но если у вас ванильное рп с кучей ухаживаний и тотальным слоубёрном - это ваш выбор.
>>1549859 Я токо начал, а уже нихуя не понял Я когда в связке lmstudio настраивал, то у меня так конфиг Openclaw выглядел
Можешь подсказать?
Как мне его прописать в связке с llama? Какой apikey, id, name? Ебаные индусы на ютубе нихуя по теме не показывают, только заливают кликбейтные видосы "OPENCLAW + LLAMA GUIDE 100% STANDALONE AI", а внутри 20 минут, как чел тупо копирует команду на установку Openclaw, запускает её в терминале, подключает тг и всё, конец. Тема llama нихуя не раскрыта, нихуя непонятно, гайдов нет, хочется вздёрнуться
>>1551375 Что кобольд, что таверна, оба имеют уебанские интерфейсы прямиком из нулевых. Это борьба говна против мочи. Но в защиту таверны, там можно настроить примерно всё через кастом-ксс. Да, это в каком-то смысле костыль, но спасибо хоть на этом.
>>1551507 Лолд, видишь как я хорошо я тебя детекчу. >продолжаешь кидать одну и ту же хуйню Верно, потому что ты продолжаешь прогонять одну и ту же шизу про вырвиглазный интерфейс. Обрати внимание, что когда кобольда хуесосят за дело - я не вмешиваюсь. А чаще присоединяюсь. >Я БУКВАЛЬНО НИ В ОДНОМ ИЗ СООБЩЕНИЙ НЕ ПИСАЛ, ЧТО МНЕ НРАВИТСЯ ИНТЕРФЕЙС ТАВЕРНЫ Но и то что он вырвиглазный ты тоже не писал. Пользуешься и не ноешь. Это называется предвзятость. >обоссали >ТРЯСКА >РВЕШЬСЯ Ох уж эти проекции. Будь объективен, ну или терпи, маленький, когда тебя тыкают носом.
>>1551645 >потом расслабился немного и всё как надо сделал А как надо для Винды например? Меня этот Openclaw как локальная память прежде всего интересует, такой себе продвинутый RAG. Такое там есть?
>>1551667 Ну да. Шевелюсь. >>1551672 Не, 5080. Когда радеоны старые спихнул, думал а чего бы не взять - ну и взял.
>>1551626 >. Иногда допускает ошибки в падежах-склонениях Даже гемма3 этим грешит. Не знаю ни одной локальной модели, которая была бы идеальна в плане русского языка.
Доп. вопрос от новичка. ПК 13600kf, 32 ram, 3080ti 12gb. Попробовал разные настройки Context Size. С каждым увеличением росло и время генерации. Вопрос - Напиши рассказ про кота
Ministral-3-14B-Instruct-2512-Q5_K_M CtxLimit:972/8192, Amt:960/2048, Init:0.08s, Process:0.23s (52.63T/s), Generate:22.81s (42.08T/s), Total:23.04s Температура карты 75 гр.
CtxLimit:924/10240, Amt:912/2048, Init:0.08s, Process:0.11s (113.21T/s), Generate:32.06s (28.44T/s), Total:32.17s Температура карты 70 гр.
CtxLimit:900/12288, Amt:888/2048, Init:0.28s, Process:0.09s (127.66T/s), Generate:36.97s (24.02T/s), Total:37.06s Температура карты 65 гр.
CtxLimit:970/16384, Amt:958/2048, Init:0.13s, Process:0.26s (45.63T/s), Generate:56.64s (16.91T/s), Total:56.90s Температура карты 55 гр.
CtxLimit:925/32768, Amt:913/2048, Init:0.36s, Process:0.32s (37.15T/s), Generate:102.16s (8.94T/s), Total:102.49s Температура карты 55 гр.
L3-8B-Lunar-Stheno.Q5_K_M CtxLimit:635/8192, Amt:616/2048, Init:0.07s, Process:0.03s (730.77T/s), Generate:7.09s (86.88T/s), Total:7.12s Температура карты 75 гр.
CtxLimit:540/10240, Amt:521/2048, Init:0.03s, Process:0.02s (1117.65T/s), Generate:6.01s (86.75T/s), Total:6.02s Температура карты 75 гр.
CtxLimit:751/12288, Amt:732/2048, Init:0.00s, Process:0.01s (3800.00T/s), Generate:8.20s (89.26T/s), Total:8.21s Температура карты 75 гр.
CtxLimit:524/16384, Amt:505/2048, Init:0.00s, Process:0.00s (6333.33T/s), Generate:5.73s (88.13T/s), Total:5.73s Температура карты 75 гр.
CtxLimit:700/28672, Amt:681/2048, Init:0.00s, Process:0.01s (3166.67T/s), Generate:7.64s (89.11T/s), Total:7.65s Температура карты 75 гр.
В первом случае скорость так падает из-за размера самой модели? Маловато VRAM? Для модели 14B оптимально Context Size = 8192 ? Поправьте, плиз.
Когда ты увеличиваешь контекстное окно, увеличивается и KV-кэш, который грузится в видеопамять. Естественно, это бьет по производительности по-разному в зависимости от модели.
Чувак, ты в курсе, что даже бояре могут писать с ломаными окончаниями и выдавать странные конструкции теперь на русском? Особенно на чатах 50к~ токенов? И да, использование русика лоботомирует модель очень сильно.
Если ты ещё пишешь по-русски, а модель отвечает на английском, то тут более-менее.
Ну и до сих пор не вышло модели, которая на русском лучше для кума, чем гемма, для твоего конфига. Разве что qwen 27b. Он пишет похуже геммы, зато знаний в области кума у него заметно больше. Вот его и качай.
Мистраль 24б может тоже показать что-то неплохое на русском, уж точно лучше 12б, я щупал какие-то модели, но точно не помню названия. Потрогай оригинальный (но с аблитерацией/еретиком) мистраль 3.2 и тюн аппаратус.
Ты также можешь пощупать квен 35б-а3б. Он уступает квену 27б, зато очень быстрый. Только учти, что если разраб лм студио не завез фиксы под эти квены, у тебя будет постоянный репроцессинг промпта. В таком случае используй кобольд в качестве бэка, он автоматически всё сделает. Ну или лламу, если хочешь поебаться.
Не забудь, что обязательно нужно качать аблитерацию либо еретика, если модель для рп. Оригинал для рабочих задач и чего-то сейфового.
>>1551709 >Ministral-3-14B-Instruct-2512-Q5_K_M Это 9.6Gb. 8k контекст: ~625 МБ >L3-8B-Lunar-Stheno.Q5_K_M Это 5.7Gb. 8k контекст: ~524 МБ
Вес контекста дан из рассчетов гуглоии (он может ошибаться, но тут он обычно норм считал) Ты можешь взять q4 квант министраля, а также квантовать контекст в 8бит или даже 4бит, тогда он будет занимать в 2-4 раза меньше.
Когда у меня была только одна 3060/12gb, я юзал именно четвертый ud-квант от анслотов, вполне норм. Когда расширился, переполз на шестой.
>>1551709 З.Ы. херасе 3080ti печка. У меня так 3060/12 жарилась только когда я безостановочно картинки по часу генерил или пытался в vanьке видосы делать.
>>1551713 >Не забудь, что обязательно нужно качать аблитерацию либо еретика, если модель для рп. Опасное утверждение. Если модель сильно ужарена, она потеряет возможность отыгрывать всяких недотрог и злыдней, будет на все соглашаться. Тут нужно очень аккуратно и уже по факту пользования моделью смотреть, на что она способна или нет.
>>1551709 >Маловато VRAM? Да, возьми Q4_K_M или Q4_K_S. Если играешь на англюсике, то можно IQ4_XS, выиграешь с этого еще копеечку врам. >Для модели 14B оптимально Context Size = 8192? Нет, квантуй контекст и сможешь вместить больше. 16к-32к будет норм.
>>1551743 >glm 4.7 по прежнему разносит? Да, если ты не про флэш-карлика.
При чатике на английском можно попробовать новый 120B A12B немотрон, или как ни странно минимакс м2.5 с отключченным ризонингом >>1547188 →>>1549289 - вдруг зайдёт.
Подскажите, как правильно запускать мое модели на кобольде. С плотными вроде проблем нет. Вчера скачал Qwen3-30B-A3B, скорость какой то кал. Немного покрутил настройки стало лучше, но мне кажется мелкая модель должна быстрее работать, нет? 2080ti/96ram
>>1551749 Вариант А: попробуй ткнуть в AutoFit кнопку и посмотри че получится - может нормально засунет само. Вариант Б: для начала разберись, сколько там слоев у этой модели; затем во вкладке context отведи несколько слоев (сколько точно - экспериментируй) на moe cpu layers. Сколько там слоев херачить при этом в gpu layers я не знаю - если все не влезают в память твоей карты, то придется уменьшать и скорость будет падать сильно.
>>1551679 Я вижу ты не принял таблетки Я писал, чем ты отличаешься от обычного кобольда >>1551531 И проекциями тут занимаешься только ты. Хотя я понимаю, что ты даже не понимаешь значение этого слова. Но сейчас попытаюсь немного объяснить Когда ты видишь, что я сру дизайн кобольда, ты проецируешь на меня свой ресентимент к таверноюзерам и считаешь, что я один из них. Рвешься из-за этого и начинаешь срать в тред >Пользуешься и не ноешь. Это называется предвзятость. Нет, это называется дурка, потому что ты споришь со своими фантазиями в башке, а не со мной. Я ни разу не написал, что я использую и ты ни разу не спросил. Ты просто рвешься с того, что я указываю на вырвиглазность кобольда и приплетаешь таверну. А поскольку это происходит уже 3 раза, то уже не случайность, а закономерность, поэтому ты явно шизоид
>>1551765 Анон, на том конце какой-то ебанутый сидит, а ебанутому не объяснишь, что он ебанутый. Как-то я тоже написал, что интерфейс кобольда говно из нулевых, в ответ тоже получил порцию желчи и упреки, что я использую таверну. Ирония в том, что я ни в таверну ни кобольда не юзаю, а сижу на openwebui и рпшу там же, потому что мне так удобнее. Там 0 мыслительного процесса и гиперупрощение (как и у большинства итт, если по-честному), бычок видит красную тряпку (триггер) - "кобольд плохой интерфейс" и бежит, особо не думая
>>1551709 Двачую этого >>1551733 Возьми Q4KM, он будет примерно таким же И квантуй контекст, как на скрине >градусы Забей хуй. 80 градусов это норма для этой карты. Глянь на ютубе тесты в играх. Там где 100% загрузка карты везде 80 градусов и будет И знаешь почему темпа падает при увеличении контекста? Да, потому что модель не помещается во врам и залезает в рам, поэтому нагрузка с карты снижается. Собственно как и скорость
>>1551766 А у тебя DDR4 или DDR5 память? Вообще она должна довольно быстренькой быть, все-таки там только 3B активных прааметров. Ты еще можешь попробовать batch size поднять - это ускорит первичную обработку поступающего текста (до генерации), но сожрет больше памяти.
Кстати, там ведь более новый квен вышел. Он разве не лучше? Ты просто старенького, предыдущего качнул. Яхз если честно, как они хороши - не хороши.
Самый приятный в использовании софт для запуска всех этих лоботомитов - LMstudio... но сука какие же импотенты его делают. Там до сих пор нельзя вручную тензорсплит выставить. Если бы эту штуку довели до ума, ей бы цены не было.
>>1551646 >>1551701 Заебало дёргать ползунки, уровень погрешности уже и так приближен к минимуму, одно неправильное слово на 3-5 десятков правильных. Я хотел посмотреть как пишет модель, и я посмотрел. Пишет хорошо, сочно, можно слоубёрнить. Пожалуй, это идеал для сис, с кучей романтичной ванили про ахи, вздохи и нервные хватания на подолы платьев. Нормальный такой, здоровый эрорп, без излишков пошлоты. Хотя проникновения тоже описывает, не боится всяких жидкостей, смазок, членов и прочего. Странноватая модель местами. Любые описания секса - да. Лоли или гуро - строго нет.
В целом моделька хорошо шарит за тонкости, где у кого что находится, кто куда что вставляет, если вставляет. Если не вставляет - хорошо понимает в каком месте находятся руки, ноги, неплохо ориентируется в пространстве, знает что церкви каменные, а таверны ХА! деревянные. Ну, это всё ещё квеня под капотом, а квеня лучшая в плане описания тактильности, материалов, биомов. Так что если кто искал такое - берите. Только не забывайте, что квеня всё ещё боится высоких температур.
>>1551749 Я с дефолтом запускаю квен3 30б в кобольде, у меня скорсть на пикриле. При этом зеон и 8Гб 3050RTX dual. RAM 64Gb, DDR4. Вместо операциоки линукс минт.
>>1551728 >Если модель сильно ужарена, она потеряет возможность отыгрывать всяких недотрог и злыдней, будет на все соглашаться.
Кстати. Вот можете записывать меня в шизы или еще куда, но я такую вещь у себя заметил: Чтобы на еретике или аблитерации персонаж не становился совсем уж yes-тряпкой, помогает промпт вида "через DM". Тогда yes-тряпкой становится в первую очередь эта виртуальная прокладка между игроком и персонажем. Сам "DM" соглашается с тем, что надо все делать "по карточке" без отказов. Но если в этой карточке написано, что перс своенравный - он и с этим соглашается, и уже отыгрывает самого персонажа с учетом его капризов и мнения. Просто за счет сохранившегося умения держать промпт и детали. Далеко не панацея, конечно, но разница таки ощутима.
>>1551645 Ну вот и отлично. По информационной ситуации с контентом вокруг openclaw ты прямо в точку попал, хуже просто нет. >>1551701 > Не знаю ни одной локальной модели, которая была бы идеальна в плане русского языка Ну камон, ванильные квены (даже что поменьше если не заквантованы), дипсик, кими2.5. Вообще не докопаться у них. >>1551789 > неправильное слово на 3-5 десятков правильных Нормально - когда одно неправильное слово на 5 постов, и то чаще по словообразованию или какой-нибудь англицизм транслитерировало, что не воспринимается как ошибка. За отзыв по модели спасибо, это интересно. >>1551841 В llama-bench выстави -pp 8192
>>1551947 Ты не шиз, ето так, поэтому нужно делать системп промпт и карточку персонажа внимательно. Но я скажу сразу, что дело не только в этом.
Модель обучена сосать писюн юзеру в обязательном порядке, поэтому крайне желательна прокладка (если модель потянет по токена и вообще инструкции сможет соблюдать) в виде "нейросеть управляет гейм-мастером, гейм-мастер управляет чаром; юзер управляет другим чаром, чар юзера взаимодействует с чаром/гейм-мастером нейросети. При хорошем раскладе можно потратить на это не более 100 токенов, а жизнь станет в сто раз проще.
Главная задача — отделить юзера от LLM, чтобы она "думала", будто попускает не юзера, а чара.
Всё это желательно класть в систем промпт, не в карточку, но это забывает, поэтому не всегда применимо.
Я также часто рпшил на корпах. Они стараются максимально сосать юзеру, в том числе и не всегда следуют инструкциям, и это особенно видно, когда разметкой или ебанутой инструкцией "отделяешь" блядскую сущность ассистента от юзера.
При ризонинге эффект ещё сильнее.
>>1551720 Я щас посмотрел. У меня было написано KЛOПЫ, как ни странно, лол. А я хотел написать korpы.
>>1551947 >промпт вида "через DM". >>1551979 >нейросеть управляет гейм-мастером Вы ведь понимаете, что добавляете дополнительный уровень косвенности, что может запутать модель? >Всё это желательно класть в систем промпт, не в карточку А карточка по твоему где расположена?
Чего функциональный вызов может не работать? Вот таким модель срет в чат [bash(command="ls -la")] Но это не должно показываться мне, это должна программе перехватывать по идее. Как понять кто срет, сетка криво вызывает или формат не соблюдается?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: