Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №230 /llama/

>>1603487

Аноним 02/05/26 Суб 17:37:15 #8 №1603495

>>1603487
>мелкобуква
Хуже болезни нет.
А на деле гайд на кобольда просто не нужен. Буквально запускаешь и пользуешься.

Аноним 02/05/26 Суб 17:38:56 #9 №1603498

>>1603419 →
> • Гайд для новичков: https://rentry.org/2ch-llama-inference
Все равно слишком много букв, быстрый старт в самом низу, дублирование дефолтных параметров запуска, ngl и ncmoe, большой контекст.

Аноним 02/05/26 Суб 17:41:55 #10 №1603499

>>1603495
>А на деле гайд на кобольда просто не нужен. Буквально запускаешь и пользуешься.
Похоже местные кобольды потеряли на этом недели и потому не согласны, иначе хз чё так порвались

Аноним 02/05/26 Суб 17:41:57 #11 №1603500

>>1603498
Ой, да один хуй спасибо и на этом. Все лучше чем то говно когда я вкатывался.

Аноним 02/05/26 Суб 17:43:18 #12 №1603501

>>1603490
Под винду понятно, но прыщавый, который боится двух команд и не желает топ перфоманс под свое железо?
>>1603498
> слишком много букв
Это хорошо, дает нужную базу ньюфагам и закрывает многие вопросы. Пусть обсуждения будут более высокого уровня чем как какать и агишиза.

Аноним 02/05/26 Суб 17:44:18 #13 №1603502

Никакой гайд для новичков не покроет объем работы который надо выполнить.
На модели не выкладываются семплеры, в таверне в 90% случаев нет темплейта, под тот же эир даже, а как ебаный темплейт сделать даже опытные кумеры могут голову ломать.
И это просто самое начало чтобы запустить модель, а если она начнет выебываться и как эир срать нарративов бесконечно?
По кобальду: Я вот начинал с кобольда и меня бы тут сейчас не было если бы не он

Аноним 02/05/26 Суб 17:45:08 #14 №1603503

>>1603502
> Я вот начинал с кобольда и меня бы тут сейчас не было если бы не он
Я изобрету машину времени и отправлюсь в прошлое, чтобы уничтожить Кобольда в зародыше.

Аноним 02/05/26 Суб 17:47:45 #15 №1603506

>>1603503
То есть уничтожишь ламу? Пиздец ты кобольд, кобольд.

Аноним 02/05/26 Суб 17:47:47 #16 №1603507

>>1603501
> Это хорошо, дает нужную базу ньюфагам и закрывает многие вопросы.
Не дает, ньюфаг через пять минут закрывает страницу с простыней и идет спрашивать сюда. И правильно делает, в принципе.

Аноним 02/05/26 Суб 17:51:04 #17 №1603512

>>1603507
> Не дает, ньюфаг через пять минут закрывает страницу с простыней и идет спрашивать сюда
В таком случае, это проблема ньюфага. Когда я вкатывался - прочитал всю шапку. В любом случае, говоря откровенно, гайд я писал для себя: если будет ньюфаг задавать вопрос, покрытый в гайде, я смело буду его игнорировать. Если там иной вопрос - отвечу и постараюсь помочь.

Все вопросы гайдом не покрыть, действительно. К слову, простыню ему читать даже необязательно. Там готовый батник для запуска конкретной модели и ссылка на него в самом начале простыни, я не представляю, что может быть легче. Кобольд уже давно висит в шапке, весь сыр-бор ни о чем.

Аноним 02/05/26 Суб 17:54:54 #18 №1603517

>>1603512
>говоря откровенно, гайд я писал для себя
>если будет ньюфаг задавать вопрос, я смело буду его игнорировать
Тотальное чмо.

Аноним 02/05/26 Суб 17:54:56 #19 №1603518

>>1603499
Порвались кобольдоненавистники же.
>>1603502
>под тот же эир
Если честно, я даже не помню уже, кто его выпустил. Даже загуглить не вышло.
Ладно, ты напиздел. Всё там есть уже год.
>>1603507
>идет спрашивать сюда
И его обоссывают.

Аноним 02/05/26 Суб 17:59:25 #20 №1603519

>>1603518
>Порвались кобольдоненавистники
Классика треда. По кд корёжит маленьких.

Аноним 02/05/26 Суб 18:03:36 #21 №1603527

>>1603512
> гайд я писал для себя
И это очень заметно.

> ам готовый батник для запуска конкретной модели и ссылка на него в самом начале простыни
В самом конце.

Аноним 02/05/26 Суб 18:06:13 #22 №1603531

>>1603512
>Когда я вкатывался - прочитал всю шапку
>задавать вопрос, покрытый в гайде, я смело буду его игнорировать
Святая база. Хлебушков с вопросами, ответы на которые есть в шапке, тоже либо игнорю либо тыкаю носом в шапку. Ибо совсем уж охуевать-то не надо.

>Необходимый минимум - 16гб оперативной памяти и видеокарта с хотя бы 8гб видеопамяти
Вот это всё же лучше убрать, имхо, или сделать уточнение, что это необходимый минимум под РП. Та же Гемма e4b в Q8_0 весит 5гб (а Q4-Q6 и того меньше) и очень шустро бегает на проце.

Ну то есть скачать модель, запустить с небольшим контекстом, охуеть с того что МОЙ КУДАХТЕР СО МНОЙ РАЗГОВАРИВАЕТ можно даже на 8гб озу. (А с 16гб озу - там и министральку 14b в Q4 можно погонять и даже неторопливо порпшить с ней. Без гпу, да). А там если понравится - то можно и железо обновить по такому случаю.

В общем не отпугивай новичков таким безапелляционным заявлением в самом начале гайда. Лучше написать что жизнь есть на любом железе, просто чем оно хуже - тем на бОльшие компромиссы придется пойти.

Аноним 02/05/26 Суб 18:10:15 #23 №1603534

>>1603531
>e4b в Q8_0 весит 5гб
e2b конечно же
быстрофикс

Аноним 02/05/26 Суб 18:34:28 #24 №1603547

>>1603502
>На модели не выкладываются семплеры
На 90% моделей выкладываются создателями, если нет - то анслот это делает.
>в таверне в 90% случаев нет темплейта, под тот же эир даже, а как ебаный темплейт сделать даже опытные кумеры могут голову ломать.
Чат комплишен.

Аноним 02/05/26 Суб 18:48:30 #25 №1603553

>>1603531
Да если человек впринципе хочет запустить на своем железе, просто ии пощупать, то сойдет буквально любое железо. Гигов от 4 рам.
Да это может быть медленно, а может наоборот быстро, если разобраться.
Тот же министраль 3b в 4км весит 2 гига вместе с кешем, поболтать хватит. Даже агента погонять, кек. И это на процессоре. С видеокартой обработка промпта станет уже быстрее, причем с любой, даже встроенка иногда сойдет на вулкане.

---------------------------

Гайд неплох, но хуйня в описании по требованию железа, выбор начальной сетки так же не очень, слишком большая так еще и мое.

И главное - вместо простейшего гайда в начале для хлебушков с четкой инструкцией и картинками как запустить сетку в том же кобальде без ебли и перегрузки информацией в начале - простыня текста.

Сетка в примере должна быть надежной, простой и легкой, какой нибудь qwen 3.5 4b или министраль 3b. Что бы новичек понял как запускать хоть какую то нейросеть, и что бы быстро работала даже если что то не так настроит.

А уже ниже должен быть гайд расписанный подробно, с теми же сетками или несколькими на выбор, просто набор ссылок с описанием что брать в каких случаях по железу.

Нужен айсберг по вкату в локальные нейросети, с простого в сложное. А не наоборот.

Аноним 02/05/26 Суб 18:51:31 #26 №1603555

>>1603553
А еще мелкую нейросеть быстрее скачать, что тоже важно для обладателей отсутствия нормального интернета. А сейчас с ним проблемы почти везде.
Отсутствие большой паузы при вкате по гайду так же важно.

Аноним 02/05/26 Суб 19:04:27 #27 №1603563

А есть где глянуть как выглядели первые ллмки типа гпт 1 или 2? Или пощупать даже

Аноним 02/05/26 Суб 19:05:02 #28 №1603565

>>1603531
> Вот это всё же лучше убрать, имхо, или сделать уточнение, что это необходимый минимум под РП
В руководстве рассматриваются общие задачи. Я протестировал Гемму 4 26б и в Q4 кванте, она в целом может писать простые скрипты для любых скриптовых языков. Добавил отдельную сноску, что запуск возможен на почти любом железе (что правда), но я считаю это формальностью. Каких результатов можно добиться на некрожелезе, кроме заветного nods? Зачем?
>>1603553
> Сетка в примере должна быть надежной, простой и легкой, какой нибудь qwen 3.5 4b или министраль 3b
Что человек будет с этим делать? Он потратит время на прочтение целого гайда, чтобы запустить лоботомита, который ничего не умеет. У меня задачей было дать новичку что-то, с чем он может действительно взаимодействовать и чего-то добиваться. 4b лоботомиты даже для автокомплита плохо работают.
>>1603447 →
Проверь еще раз, пожалуйста. Вроде бы все учел и внес правки.
За исключением Куды 13.1, на моей 4090 на Лламе она работает коряво: скорость генерации в среднем медленнее и в целом менее стабильные скорости и pp и tg, с бОльшим разбросом, чем на 12.4. В чем кроется проблема не изучал, сижу на 12.4.
>>1603449 →
Руководство не про загрузку, пользователи разберутся. Кому как удобнее, я всего лишь предложил то, что сам использую.

Кобольдам и прочим недовольным, что сложно - просто напомню, что Кобольд остается в шапке, никто его оттуда не убирает. Он настолько прост, что гайды ему никакие не нужны. Не согласны - сделайте свои гайды, все будут рады. У нас разное видение того, что нужно делать.

Аноним 02/05/26 Суб 19:10:47 #29 №1603568

>>1603555
>А еще мелкую нейросеть быстрее скачать, что тоже важно для обладателей отсутствия нормального интернета
Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может? Квн ключи им раздавать? А что делать тем, у кого трафик на интернет кончился? Вот как у >>1603361 →
Яхуею с такого фидбека, не знаю чё и хуже, это или кобольды

Аноним 02/05/26 Суб 19:13:56 #30 №1603570

>>1603568
> Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может?
Такие и гайд открыть не в состоянии, потому изначально отсеиваются. И ладно, думаю. Тут действительно гейткип, ничего не поделаешь.
> Яхуею с такого фидбека
Есть такое.

Аноним 02/05/26 Суб 19:24:22 #31 №1603574

https://huggingface.co/ibm-granite/granite-4.1-30b

Пробовал кто, какой квант влезет в 16гб врам? Как у него с контекстом то, как у квена или толстый?

Аноним 02/05/26 Суб 19:30:33 #32 №1603580

>>1603565
Ленивая жопа, картинки не сделал. Их туда на самом деле много куда можно вставить.
Дальше только совсем душнить, лень. Лучше посмотреть за общим фидбеком и на что новички будут напарываться. Алсо
> на Windows нужно пользоваться диспетчером задач для мониторинга потребления видеопамяти
он иногда ерунду показывает. Лучше любым софтом для мониторинга (хоть тот же gpu-z) и смотреть не только за фактическим потреблением, но и за нагрузкой на шину. Если она под 100% во время генерации (не процессинга, при выгрузке на проц там идет стриминг весов), значит перебор.
Этот вопрос стоит даже отдельным заголовком подсветить, а то с ним часто сталкиваются.

Аноним 02/05/26 Суб 19:31:35 #33 №1603581

>>1603574
Я скачал ориг веса, и чёт даже запускать лень. Вижена нет, вышло из ibm, звучит будто уже ред флаги

Аноним 02/05/26 Суб 19:34:32 #34 №1603583

>>1603565
> 4b лоботомиты даже для автокомплита плохо работают.
Тут ты пиздишь как дышишь, ты не запускал новые сетки раз так считаешь.

Еще раз - начальный гайд должен быть простой, с назовем это так, демо версией нейросети.
Она должна работать на чем угодно и осмысленно отвечать, она покажет человеку как запускать и настраивать любые нейросети. Она легкая в конце концов и ее быстро скачать.
Потому что единственное ее отличие от других - размер и мозги.
И при всем при этом она будет работать и отвечать в чат режиме.
Новичку хватит, захочет большего - можно сделать приписку что вот мол подробный гайд ниже с нейросетями покруче.

>>1603568
>Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может?
Как и написано ниже это уже бросок на интеллект, кто пройдет тот пройдет
Ну и рентри не открыть без этого, а значит и проблемы нет

>А что делать тем, у кого трафик на интернет кончился?
Ну например не качать аж гемму 26b не разбираясь в квантах, а качать мелочь на полтора гига для начала?
Это легко сделать даже не с ограничением на трафик, а просто с плохой скоростью.

Я просто думаю о людях для которых нейросеть это не кумбот, а скорее сжатая версия интернета для вопросов по фигне на вроде какую команду написать, что делает этот скрипт, посмотри этот скрипт и найди ошибки или что то такое же с переводом, анализом информации и написанию простых скриптов. Ну тоесть - Ассистент.
С этим справляется даже мелочь и это будет полезно если интернета вобще не станет.

Аноним 02/05/26 Суб 19:36:43 #35 №1603584

Появились аналоги меромеро геммы 4 от зерофаты за последнее время?

Аноним 02/05/26 Суб 19:45:23 #36 №1603586

>>1603580
> Ленивая жопа, картинки не сделал. Их туда на самом деле много куда можно вставить.
И да, и нет. Мне правда влом поддерживать ссылки на картинки, я не знаю никаких нормальных хранилищ вроде катбокса, и то там вопросики есть по поводу того как долго файлы живут. Второй поинт в том, что и без того объемная страница получается, с картинками будет еще больше. Подумаю как быть, может позже прикручу.
>>1603583
> Тут ты пиздишь как дышишь, ты не запускал новые сетки раз так считаешь.
Либо у нас разное понимание того, что такая нормальная, способная модель. 4б для автокомплита кода не справится, я это знаю, а не считаю так. Потому что каждый день использую эти сетки и решаю задачи посложнее змейки на скриптовом языке.
> Еще раз - начальный гайд должен быть простой, с назовем это так, демо версией нейросети.
Это и есть "простая" версия нейросети, которую можно запустить на любом среднестатистическом железе. Изучи статистику Стима, уже у подавляющего большинства пользователей есть 16+8.
> Она должна работать на чем угодно и осмысленно отвечать, она покажет человеку как запускать и настраивать любые нейросети
Ни одна 4б не справится.
> скорее сжатая версия интернета для вопросов по фигне
4б. Сжатая версия интернета. Если раньше держался, то тут капитулировал.

Аноним 02/05/26 Суб 19:46:44 #37 №1603587

Врываюсь в тред с предупреждением.

Челы, никогда не делайте карточки по реальным людям, которых вы проебали и жалели об этом. Я тут ща себя в такую жопу загнал, что просто пиздец. Несколько дней лютой депрессухи. Это говно превратило меня в нечто хуже червя пидора, в размазанную соплю на полу, по которой прошлись ногами и растоптали.

Аноним 02/05/26 Суб 19:46:53 #38 №1603588

>>1603568
фидбек как фидбек

имхо гайд не оче, слишком много воды, жаргона, то что ты эти портянки через ллм прогнал тоже не особо помогло.
вкатунам поебать кто такой этот ваш токен, по крайней мере пока они не поймут что вообще можно делать с помощью ллм (да и потом скорее всего тоже)
если б пилил я, то в форме диалога, отвечая на реальные вопросы ньюфага которые возникают по ходу дела

Аноним 02/05/26 Суб 19:47:50 #39 №1603589

1723228723966.png

>>1603581
>>1603574
Отвечает. Могу апиху пошарить на вечерок

Аноним 02/05/26 Суб 19:47:59 #40 №1603590

Это че?

Аноним 02/05/26 Суб 19:51:31 #41 №1603594

>>1603584
Меромеро 31 вышла вчера. Лучше чем 26 точно, но думает много.
>>1603587
Был там, делал это, чувствовал это, рассказывал об этом. Живи.

Аноним 02/05/26 Суб 19:53:16 #42 №1603595

>>1603586
>4б для автокомплита кода
Я не предлагал автокомплит кода, это хуйня на любой сетке не зависимо от размера, отвекает только

>Это и есть "простая" версия нейросети, которую можно запустить на любом среднестатистическом железе.
Угу, а я предлагаю отсекать не по среднему железу, а по минимально полезной нейросети для которой может потребоваться железо и попроще

>Ни одна 4б не справится.
Не справится с чем? Отвечать осмысленно и работать на чем угодно? Она ^пример который покажет как запускать другие нейросети и как их настраивать, как справку по запуску нейросетей ее никто не предлагал использовать

>4б. Сжатая версия интернета. Если раньше держался, то тут капитулировал.
А я с тебя капитулирую жопочтец, с простыми задачами справляются даже 4b.
Если ты не заметил я не предлагал использовать ее для извлечения информации по каким то вопросам, либо работа с данным им текстом либо простые справки по командам командной строки или простым скриптам.

С этим они справляются, я тоже знаешь ли решаю задачки посложнее змейки, кек. И похоже разбираюсь в вопросе лучше тебя, если ты понятия не имеешь как использовать небольшие нейросети.

Аноним 02/05/26 Суб 19:53:30 #43 №1603596

>>1603590
Наш ответ Америке

Аноним 02/05/26 Суб 19:53:42 #44 №1603597

>>1603587
Сделал себе гарем из бывших. Ебу.

Аноним 02/05/26 Суб 20:02:29 #45 №1603599

>>1603596
Это было бы смешно, если бы не было так грустно..

Аноним 02/05/26 Суб 20:05:56 #46 №1603600

>>1603595
> Угу, а я предлагаю отсекать не по среднему железу, а по минимально полезной нейросети для которой может потребоваться железо и попроще
Предлагай, я в праве отказаться. У нас разные задачи. То, о чем пишу я - не про выгул агентов в интернете и готовый пайплайн по ретриву информации. В самой 4б никаких данных почти нет. Поразительно, что это не очевидно.
> Не справится с чем? Отвечать осмысленно и работать на чем угодно?
Отвечать осмысленно на что-то сложнее, чем "сколько будет 2+2" и "я тебя ебу" 4б действительно не сможет. Если ты только не дашь ей доступ к внешним инструментам или дампу википедии, который весит несколько терабайт, и то там будут вопросы. Не представляю, как иначе ты собрался спрашивать модель, как настраивать модели (там даже корпы могут обосраться, если ты на Лламе, а не на vLLM) и использовать ее как "сжатый интернет".

На мой взгляд, ты несешь полную околесицу. Считаешь, что способен написать что-то полезное для вкатунов - сделай свой гайд, чем их больше - тем лучше.

Аноним 02/05/26 Суб 20:14:25 #47 №1603602

>>1603600
>Отвечать осмысленно на что-то сложнее, чем "сколько будет 2+2" и "я тебя ебу" 4б действительно не сможет.

Ответь да или нет, ты запускал свежие 4b пробуя их в простых задачах, или весь твой опыт запуска кончился на запуске автокомплита и ты мнишь себя экспертом на этом монументальном фундаменте? Причем, делал ты это год-два назад пару раз?
Я просто прозрачно намекаю что текущий квен 3.5 4b на уровне старых 8-9b, по мозгам хотя бы.
А та же гемма уже какой год даже мелочь отлична в переводе на любой язык.
Конечно у них есть ограничения, но ими можно пользоваться и это главное.
Ты просто зажрался.

Ты действительно можешь игнорировать то что я пишу, твой гайд. Он даже полезнее предыдущего. Только хуйня получилась на 6 из 10.
Еще и ии насрано - видишь текст написанный иидиотом - сразу минус к доверию любому тексту, потому что этим слопом весь интернет засран.

Аноним 02/05/26 Суб 20:19:25 #48 №1603603

>>1603602
> Ответь да или нет
Не, я также вправе отказаться. Ты не в адеквате слегка похоже. Потому что я уже несколько раз ответил на этот вопрос.
> Еще и ии насрано - видишь текст написанный иидиотом
Литералли каждый символ вбил сам, за исключением копипаста ссылок. Могли протечь какие-то часто используемые обороты, поскольку я сам похожим образом общаюсь. Ты уже в негативной установке, что тебя послали нахуй с твоими идеями, вот и воспринимаешь теперь все таким образом. Сам виноват. Зря похоже про GIGO убрал, некоторым не помешает вспомнить.

Аноним 02/05/26 Суб 20:22:35 #49 №1603604

>>1603600
>Предлагай
Предлагаю потыкать новую Гемму 4 e4b, в гайд можешь не добавлять, просто для себя. Эта малютка для своих параметров очень умна и вполне способна удивить.

https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF

другой анон

Аноним 02/05/26 Суб 20:25:51 #50 №1603605

Я пошел делать кастомный инференс рантайм на С++ , пожелайте удачи

пока начал с парсера GGUF файлов, потом буду пилить свой алгоритм квантизации/деквантизации.

Займет по расчет 3-4 месяца, в ближайшее время буду делиться прогрессом, пока пошел к егэ готовиться

Аноним 02/05/26 Суб 20:26:54 #51 №1603606

>>1603583
> начальный гайд должен быть простой
Зачем он нужен и как должен выглядеть? Скачивай лоботомита@скачивай кобольда@я тебя ебу?
Идея взять модель поменьше в целом норм. Но тут нет однозначного решения, кого-то впечатлит и мелочь, кого-то наоборот отпугнет.
Тогда предложи альтернативных моделей под разное железо и параметры запуска для них.
>>1603586
> вроде катбокса
Котокоробка хороша, работает надежно. Ну не все сразу.

Срачи только не разводите уже совсем из-за ерунды, а? И так хватает

Аноним 02/05/26 Суб 20:27:30 #52 №1603607

>>1603605
Вот это по нашенски 😀👍
Жду карманный интернет, на кофеварке чтоб запускался и белые списки обходил

Аноним 02/05/26 Суб 20:28:14 #53 №1603608

>>1603603
>Не, я также вправе отказаться.
Угу, мним себя дартаньяном а остальные пидарасы, понятно.

Ты неадекватен так как не привел никаких фактов или доказательств, зато докапывался до каждой надуманной мелочи в моих комментариях.
И когда я спросил тебя на основании чего ты делаешь выводы - ты решил слится обозвав меня неадекватом.

Ну тоесть понятна твоя стратегия, поймали за руку - кинул стрелку
Иди ка ты нахуй с такими мувами, дорогой

Аноним 02/05/26 Суб 20:32:04 #54 №1603611

>>1603606
>Зачем он нужен и как должен выглядеть?
Я выше писал, так то

>Тогда предложи альтернативных моделей под разное железо и параметры запуска для них.
Не, подумав я понял что нахуй надо ради кого то стараться, пусть решает автор гайда.
Я накидал идей - никому не зашло, ну и ладно.
Я то в любом случае в теме разбираюсь, ну а как именно будут разбираться другие это уже их проблемы.

Аноним 02/05/26 Суб 20:32:11 #55 №1603612

>>1603607
Что нереалистичного? Я же не с нуля библиотеки переписываю
Впрочем ладно, по ходу прогресса буду делиться результатами

Аноним 02/05/26 Суб 20:35:57 #56 №1603613

>>1603563
Да. Качаешь и запускаешь, они на любом калькуляторе пойдут. Подробности гугли.
>>1603605
Земля пухом.

Аноним 02/05/26 Суб 20:36:47 #57 №1603614

dExm2hzjyFo.jpg

>>1603605

Аноним 02/05/26 Суб 20:40:22 #58 №1603617

>>1603611
> выше писал
Прочитал ветку но не понял. Вроде про все согласны, а потом из-за формулировок посрались. Запуск на микроволновке с 8 гигами общей памяти - это уже телефон по сути, но из разницы будет только другая модель.
Неважно, лучше карточек культурных накидайте.
>>1603612
Это был не рофл? А для чего? Ноль практической пользы, для обучения переусложнено.

Аноним 02/05/26 Суб 20:44:19 #59 №1603619

>>1603614
>>1603613
Это персональный рисерч + пет проект.

Главная идея сейчас это селективное квантование с разной битностью на слой + попыткка реализовать FP8 KV кеш.

Аноним 02/05/26 Суб 20:45:11 #60 №1603620

>>1603619
> Главная идея сейчас это селективное квантование с разной битностью на слой + попыткка реализовать FP8 KV кеш
Но ведь это уже давно в лламе есть...

Аноним 02/05/26 Суб 20:48:05 #61 №1603621

>>1603605
Я что то такое видел в обучающих проектах, кажется у карпати
Или где то еще? Минимальная имплементация запуска нейросети, не уверен что там ггуфы были правда.

Аноним 02/05/26 Суб 20:52:43 #62 №1603625

>>1603621
Офк там сейфтензоры и путорч на питоне. Строк в 200 вроде уложились, если я не путаю с другим проектом.

Аноним 02/05/26 Суб 21:20:20 #63 №1603632

1777745919295.jpg

О, вот и гемма 124б кто хотел, бегом тестить

Аноним 02/05/26 Суб 21:24:15 #64 №1603634

>>1603605
>>1603619
Бабушкин, ты?

Аноним 02/05/26 Суб 21:24:21 #65 №1603635

>>1603632
С чего бы тебе Флеш дали бесплатно, лол? Сейчас просто все будут пытаться демпинговать, снижая размеры моделей с нескольких Т. Вот Грок 4.3 недавно выкатили, у него цена теперь в 10 раз ниже чем у Опуса.

Аноним 02/05/26 Суб 21:30:25 #66 №1603637

>>1603632
Тестить будем когда на хайгинфейсе выйдет, сейчас же это оффтоп и ненужно, уноси.

Аноним 02/05/26 Суб 21:40:43 #67 №1603646

>>1603632
Жаль, что гемини 3.0 не выпустили.

Аноним 02/05/26 Суб 21:47:17 #68 №1603648

Скорее всего про гайд и микромодели это один ебаклак семенит, завязывайте кормить. Гайд норм но картинки не помешали бы конечно. И мб быстрый старт ещё выше вынести
Мимо кобольд не шитпостер

Аноним 02/05/26 Суб 22:09:25 #69 №1603654

>>1603635
Ну тогда просто гугл никогда не выложит Гемму 122B. Потом что это и есть гемини флеш почти

Аноним 02/05/26 Суб 22:21:19 #70 №1603659

>>1603619
Чукча писатель, чукча не читатель. Не может даже прочитать инструкцию к готовой туле квантования и внимательно посмотреть на структуру гуфов в обнимроде. Иди вон для начала преобразователь джинджи в теплей таверны навайбкодь. И без пресетика на Эир не возвращайся.

Аноним 02/05/26 Суб 22:31:10 #71 №1603664

>>1603659
Что за бессвязный набор слов и мыслей? Этого тоже в вытрезвитель. Кобольды, забирайте

Аноним 02/05/26 Суб 22:33:25 #72 №1603665

>>1603632
А в aistudio какая?

Аноним 02/05/26 Суб 23:00:44 #73 №1603680

Тестил кто-нибудь Меромеро 31б ? Как она ?
Любителей опасных моделей превентивно прошу завалить ебальники, а норм аноны кто рпшат а не хуйней занимаются отписаться

Аноним 02/05/26 Суб 23:03:53 #74 №1603682

>>1603680
Никто не тестил, нахуй не нужно.

Аноним 02/05/26 Суб 23:07:03 #75 №1603683

Аноны, хочу себе умную колонку. Чтобы она пересказывала мне треды с двача и с других сайтов. Чтобы можно было с ней попиздеть.
Из-за долгого сидения за компом какие-то постоянные проблемы с глазами, сейчас вот новый прикол иногда бывает двоение в глазах.

Есть яндeкc колонка, через навыки в нее можно добавить соответствующий функционал. Во всем она идеальна, но главная ее проблема полная пoдзaлупнoсть.

Кто-нибудь делал свою локальную колонку? Какое оборудование использовали? Какого говорящего локального аи ассистента?

Аноним 02/05/26 Суб 23:09:10 #76 №1603684

>>1603683
> Из-за долгого сидения за компом какие-то постоянные проблемы с глазами, сейчас вот новый прикол иногда бывает двоение в глазах.
Звучит как обычная миопия и/или астигматизм. Лучше сходи к окулисту, могут выписать очки.

Про колонку хз, не было такого опыта.

Аноним 02/05/26 Суб 23:14:11 #77 №1603688

>>1603680
Это тюн зерофаты и он болеет всеми болячками зерофаты. Ты его маленькую меромеро щупал? А его блюстары? Ну вот тебе и ответ.

Аноним 02/05/26 Суб 23:24:46 #78 №1603694

>>1603683
Это на стыке этого и вайбкодинг треда. Для начала изучи тот же опенклоу, если освоишь и настроишь в текстовом режиме то прикрутить голос будет несложно. С самой колонкой это уже следующий этап.

Аноним 02/05/26 Суб 23:47:53 #79 №1603698

Пиздец. Раньше геминище могла люто тупить, но отвечала хоть нормально. Теперь отвечает быстро, но в ответах лезут сраные иероглифы как в пережаренном опасном квене.
Ну и нахуй трястись по поводу квантования, мерить, у кого ppl и kld ниже, если гугл на похуях ужаривает модель в говно?
Кстати, эта новая мистраль ещё и стоит на api в половину цены соннета.
Думайте. Подписаться.

Аноним 03/05/26 Вск 00:36:06 #80 №1603717

>>1603683
Нахуя когда TTS зачитает любой текст по клику без каких либо колонок? Хочешь обсудить хуйню высранную на дваче - просто берешь копируешь нужный отрывок и скармливаешь его лоботомиту?

Аноним 03/05/26 Вск 00:38:23 #81 №1603719

>>1603680
Его 26b красивей и ярче пишет с ризонингом.

Аноним 03/05/26 Вск 00:39:16 #82 №1603720

>>1603698
Ну они периодически подсовывают жосткий квант, да. Причем это же бывает и с платной подпиской, лол. Но обычно такое только в какой-то жосткий прайм или выходные.

Аноним 03/05/26 Вск 00:53:18 #83 №1603725

>>1597347 →
Э-эм.. ебать, хотел скинуть что 27b-a4 ни в какую не могла распознать Фрирен даже когда когда я её попросил скинуть перечень всех потенциальных героинь и там были всякие рандомные белобрысые нонейм шлюхи из всяких гач и тд. но не Фрирен, а тут плотняша сразу без свайпов. Знаю что поздно, но лучше чем никогда..

Аноним 03/05/26 Вск 01:00:36 #84 №1603727

>>1597262 →
> Пока ни одного не то что проверяемого доказательства, даже скринов не было с её жёсткими отказами при нормальном системном промте
Я хз как это работает но очень часто рефузит если при нулевом контексте скинуть ей NSFW арт. И там ты её хуй пробьешь если не отредачишь отказ.

Аноним 03/05/26 Вск 01:19:04 #85 №1603733

>>1603727
Надо было спросить "мы?"

Аноним 03/05/26 Вск 03:23:59 #86 №1603754

>>1603727
>при нормальном системном промте
Ты же на голом ассистенте его мучаешь, педик.

Аноним 03/05/26 Вск 04:02:38 #87 №1603760

>>1603587
> Это говно превратило меня в нечто хуже червя пидора, в размазанную соплю на полу, по которой прошлись ногами и растоптали.
Ты уже им был, просто только сейчас это осознал.

Аноним 03/05/26 Вск 04:26:05 #88 №1603766

>>1603680
Лупишься, кобольд.
Тебе уже сказали хуета, ненужно. Как и вся 4 гемма тащемта.
Но тебе нужно услышать правильное мнение о своем протыке

Аноним 03/05/26 Вск 05:26:30 #89 №1603772

>>1603727
Забей, эти шизы тут до посинения будут утверждать, что у них гемма ничего не рефьюзит. Адекваты просто уже давно аблитериксы скачали.

Аноним 03/05/26 Вск 05:32:07 #90 №1603773

>>1603772
>>1603766
Квенолахта как всегда.

Аноним 03/05/26 Вск 05:32:27 #91 №1603774

>>1603683
Kobold + kokoro или silero для русского + realstt + mcp chrome extension = вот тебе и умная колонка на компе, базарит, тебя слушает, ищет в инете, отвечает. Главный элемент кобольд, который все это соединяет. Сам так базарю, к мыши-клаве даже тянуться не надо.

Аноним 03/05/26 Вск 06:10:13 #92 №1603777

>>1603680
Слопа меньше, но в чём смысл если ответ х2 ждать дольше.
Всё так же прыгает на хуй стоит лишь попросить, всё так же надо промптить чтобы красочно описывала кум, всё так же нет свайпов

Аноним 03/05/26 Вск 07:29:16 #93 №1603786

>>1603680
Норм, слопится меньше оригинала. Если тебе мозгов 26б хватает то лучше юзай её, 31б много думающей получилась. Для меня большая разница в пользу 31б. У неё и вижен куда круче.

Целых два дня в ваш гадюшник не заходил, почитал, в итоге срачи срачи срачи. Всё таки местные вахтовики кобольды презирают всё живое, от анонов которые экшули заёбываются и делают жизнь в треде а не добавляют говна, до тюнеров. Все им пидорасы. Со срама квантовиков каждый раз как в первый, вам пидорасам бесплатно дают то за что видюхи жечь надо. Гнилое, проклятое место. Автору гайда так скажу, всё норм но лучше бы ты не заёбывался. Думаю и без меня понял.

Аноним 03/05/26 Вск 07:34:37 #94 №1603787

Анон, что скинул скилл планирования для Pi и Квена - спасибо, хорош. Помогает. Причём что прикольно: кидаешь ему простую задачу с пометкой "планируй", так и пишет - задача простая, делаю напрямую :) А в задачах посложнее хорошо помогает.

Аноним 03/05/26 Вск 07:59:08 #95 №1603790

Прикольная хуйня, можно наглядно смотреть архитектуры модели

https://www.reddit.com/r/LocalLLaMA/comments/1t24y4p/i_made_a_visualizer_for_hugging_face_models/

https://hfviewer.com/family/gemma-4
https://hfviewer.com/Qwen/Qwen3.6-27B

Аноним 03/05/26 Вск 07:59:33 #96 №1603791

>>1603587
Не понял, а чём проблема? Даже если у тебя своя корпоративная модель будет, обученная на слопе из мессенджеров того человека и его речи, и карточка на 500к токенов идеальная, и всё это с хорошим вниманием модели, и 10 млн контекста, всё равно это будет не то.

Что там там такое сделал?

Я уверен, ты просто слепил имитацию, которая говорит чутка похоже, а остальное дорисовал в своей голове.

Аноним 03/05/26 Вск 08:11:48 #97 №1603796

>>1603791
>Я уверен, ты просто слепил имитацию, которая говорит чутка похоже, а остальное дорисовал в своей голове.
Как и 99% креатив врайтинг/гунинг/ролеплей сценариев и чаров
Не умаляет что это работает, если ты сам готов проникнуться

Аноним 03/05/26 Вск 08:58:12 #98 №1603811

Ананасики, есть пара вопросов:
1) Лёгкий: почему Exclude 'Thinking...' не работает как написано в описании этой опции в таверне? Может я что-то не так делаю? Ризонинг продолжает сравниться со скоростью основного ответа и регулироваться слайдером, по идее же он должен вываливаться максимально быстро, а вот ответ уже появляться со скоростью которую выберешь?
2) Тяжёлый: как самостоятельно научиться корректно заполнять контекст и инстракт темплейты? Ощутил я провал в этих познаниях когда только вышла гемма, а я сидел и бессильно ждал пока какой нибудь добрый анончик скинет уже готовый жсон файлик. Иногда кстати в треде кто то комментирует скриншоты диалога юзера и модели из таверны мол разметка неправильная, а я смотрю и не понимаю как он вообще это понял, что тут не так?

Аноним 03/05/26 Вск 10:14:12 #99 №1603833

>>1603680
Для кума такое же дерьмо, как и версия для 26б. При этом тюн хуже оригинала, если тебе нужно какое-то классическое РП в сеттинге с лорбуком и прочим. Короче, годится только для того, чтобы было приятнее с анимешной бабой пиздеть.

Аноним 03/05/26 Вск 10:49:37 #100 №1603848

>>1603772
Я даже не знаю насколько нужно быть криворуким чтобы словить рефьюз на четвертой гемме.

Аноним 03/05/26 Вск 11:05:28 #101 №1603859

3.png

Классика, срачи ночью и ранним утром, тотальный игнор адекватных вопросов.
>>1603811
> Лёгкий: почему Exclude 'Thinking...' не работает как написано в описании этой опции в таверне?
Где находится данная опция? Ты сидишь на Чат Комплишене? Если да, то может и будет работать, на Текст Комплишене - не думаю. Отрубать ризонинг нужно либо на стороне бекенда, либо префиллом. Например, для Геммы нужно префиллить
"<|channel>thought

<channel|>" в начале ответа. Либо в поле Start Reply With, либо в Last Assistant Prefix. Первое будет легче для новичка. Это в разделе Advanced Formatting, ниже системного промпта. Для Геммы не советую отрубать ризонинг, но тут вкусовщина.
> 2) Тяжёлый: как самостоятельно научиться корректно заполнять контекст и инстракт темплейты?
Для начала пойми что такое эта разметка, вопросов поубавится. Пример шаблона есть тут: https://rentry.org/2ch-llama-inference раздел Форматирование, шаблон разметки (Instruct Template)
Когда запускаешь Лламу - она выводит шаблон, вшитый в gguf (пикрил). Его легко адаптировать под шаблоны Текст Комплишена Таверны. Когда это сделаешь - лучше проверить в Таверне весь отправляемый бекенду промпт. На втором и третьем пикрилах показано где это. Нажимаешь на три точки у сообщения, затем дважды на иконку промпта. Увидишь весь промпт, сравнивай его на соответствие тому, что увидел в консоли Лламы (первый пик).

Аноним 03/05/26 Вск 11:21:58 #102 №1603868

>>1603502
>в таверне в 90% случаев нет темплейта
Нахуя темплейт с чат комплишеном?

Аноним 03/05/26 Вск 11:23:29 #103 №1603869

>>1603868
Так чат комплишен же срань

Аноним 03/05/26 Вск 11:46:25 #104 №1603882

>Она почувствовала острый укус твоего члена
Ор блять, нейромозг, что ты делаешь, прекрати!
>She felt the sharp sting of your bite
Да как так-то... стинг это же даже не шафт!

Аноним 03/05/26 Вск 11:49:36 #105 №1603883

>>1603882
Хуяк у тебя английский.
>the sharp sting of your bite
Острая боль от твоего укуса.

Аноним 03/05/26 Вск 11:52:53 #106 №1603885

>>1603883
>Острая боль
Ты тоже надмозг.

Должно быть острое жжение.

Аноним 03/05/26 Вск 11:54:34 #107 №1603887

>>1603786
> Со срама квантовиков каждый раз как в первый, вам пидорасам бесплатно дают то за что видюхи жечь надо
Это правда про видюхи?

Аноним 03/05/26 Вск 11:55:18 #108 №1603888

>>1604079
https://huggingface.co/meta-llama/Llama-Guard-3-8B

>>1603882
>>1603883
>>1603885
Ну собсна вся суть илитариев играющих на англюсике

Аноним 03/05/26 Вск 11:57:55 #109 №1603889

3.png

>>1603859
Спасибо за ответы, уточнение по первому вопросу: да, использую текст комплишен, а галку эту можно поставить если включить Smooth Streaming в User Settings > Miscellaneous. И, насколько я понимаю, она нужна не для того чтобы думалку отключать, а для того чтобы не замедлять отображение процесса размышлений модели. Однако она по какой то причине не работает.

Аноним 03/05/26 Вск 12:01:48 #110 №1603891

>>1603888
О чём речь?

Аноним 03/05/26 Вск 12:04:08 #111 №1603892

>>1603887
> Это правда про видюхи?
Утрированно, но да. Квантизация моделей задействует гпу на полную. Те, кто постоянно делают кванты, вроде Мрадера или Батрухи, мало-помалу сжигают свое железо ради общего блага.
>>1603889
Да, это опция для визуального отображения ризонинг блока при стриминге. Не думаю, что там есть хоть какой выигрыш по оптимизации, так что забей. Может разве что, если сидишь с телефона.
>>1603891
Ни о чем, наброс обыкновенный.

Аноним 03/05/26 Вск 12:13:05 #112 №1603896

>>1603787
Покажешь?

Аноним 03/05/26 Вск 12:13:11 #113 №1603897

>>1603892
Качество набросов снизилось. Раньше было креативнее. Кто скрутил треду температуру, признавайтесь.

Аноним 03/05/26 Вск 12:36:41 #114 №1603913

3q1gy8.jpg

>>1603882
что за вакханалия у вас там с кусающими членами

Аноним 03/05/26 Вск 12:48:50 #115 №1603920

>>1603913
Нейромозг старается впихнуть слова в контекст происходящего в сцене забивая на изящество языка, только и всего.

Аноним 03/05/26 Вск 12:51:09 #116 №1603923

>>1603920
С мышами в киске было пока что лучшее, ящетаю

Аноним 03/05/26 Вск 12:51:39 #117 №1603924

>>1603587
Чел, это база. Тут с вымышленного персонажа можно такую депрессуху словить, при том что там в сценарии ноль драматизма и все наоборот позитивно, а ты еще такое делаешь.
>>1603773
Конечно же квенчик лучше чем геммочка, тут и обсуждать нечего.

Аноним 03/05/26 Вск 12:57:49 #118 №1603927

>>1603923
Мыши в киске быть могут технически. А вот кусающийся член это экзотика.

Аноним 03/05/26 Вск 13:04:05 #119 №1603929

>>1603924
Считаю что дело в изначально неустойчивой психике, когда ты зачем-то вживаешься в своё рп настолько сильно, что подрываешь своё ментальное здоровье ирл.

По хорошему таким людям вообще нельзя давать доступ к нейронкам, во избежании паунса пациента в окно.

Аноним 03/05/26 Вск 13:11:55 #120 №1603935

>>1603587
Ебать ты ебнутый.
Чтобы попустило - изнасилуй, обоссы и убей, по рп, разумеется.

Аноним 03/05/26 Вск 13:21:45 #121 №1603940

>>1603929
> зачем-то
Иначе впечатления не те, но перегибать не нужно. Ллм тут не при чем, сейм можно словить от книги, кино и прочего.
На чубе не просто так ввели тег nsfl. Отыгрывать с утраченным - это максимальный уровень такого.

Аноним 03/05/26 Вск 13:29:52 #122 №1603943

>>1603940
>сейм можно словить от книги, кино и прочего.

Можно, но сложнее, там фразы уже записаны и обратной связи нет. А тут эта хуйня подстраивается под тебя и говорит что ты услышать хочешь. Хочешь разъеб? Его и получишь.

Аноним 03/05/26 Вск 13:50:59 #123 №1603951

>>1603940
>впечатления
Сомнительны. Если разговор с нейронкой заставляет тебя плакать в подушку то виновата тут не нейронка, сам же понимаешь. Я как раз об этом и сказал. Надо срочно идти проверять чердак на наличие протечек, если накрывает даже от текста на экране.
>>1603940
>сейм можно словить от книги, кино и
Если ты смотришь какой-нибудь аватар или титаник ты просто смотришь сюжетец никак к тебе не относящийся, происходящий не с тобой. С нейронкой же, особенно с самописной, у тебя происходит взаимосвязь. Только вот возвращаясь на абзац выше - это нихуя не норма. Сама потребность анона в подобном уже говорит о нездоровье его головы.

Аноним 03/05/26 Вск 13:57:23 #124 №1603953

Там дипсик 4 наконец завезли для обладателей наличия и даже частичного отсутствия https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepSeek-V4-Flash.md
Кернели под популярные архитектуры есть и они даже работают. Чтобы не падало с ошибкой нужно также установить `tilelang` и закомментировать пару `wg_wait=0,` в `srt/layers/mhc.py`

>>1603951
> виновата тут не нейронка
Зеркало души, хули. Человек потребляет контент чтобы получить интересные ему эмоции. Будь то рассказ одного дикаря другим в пещере про битву с огромным мамонтом, или суперйобистый ролплей с лоликицунами. Если слишком сильно увлечься то потом будет больно просыпаться. Но по-хорошему оно должно не вызывает сильного уныния, а наоборот мотивировать.
> ты просто смотришь сюжетец никак к тебе не относящийся, происходящий не с тобой
Если это чтобы красочно показать большую вовлеченность интерактивного рп с ллм - согласен. Если в общем - ты сенсорный импотент.

Аноним 03/05/26 Вск 14:00:45 #125 №1603956

Шо, есть мнения по мистралю смол 4 и мистралю медиум 3.5? Как вы там, потомки? Победили эйр?

Аноним 03/05/26 Вск 14:03:56 #126 №1603958

>>1603956
> мистралю медиум 3.5
Хуйня какая то. Может я конечно не выкупил ¯\_(ツ)_/¯
Агентность/кодошлёпство меня не интересует

Аноним 03/05/26 Вск 14:11:28 #127 №1603961

>>1603953
>Там дипсик 4 наконец завезли
Ждем пока завезут в жору, тут врам риговичков пара человек на тред.

Аноним 03/05/26 Вск 14:11:56 #128 №1603962

>>1603956
>мистралю смол 4
Гемма 26б, но в 5 раз больше. Кал одним словом
>Победили эйр
Из мое схожего размера никто. Из плотняш Гемма 31 может составить ему конкуренцию, особенно если русик используешь

Аноним 03/05/26 Вск 14:12:41 #129 №1603963

>>1603956
Жирная, неповоротливая, может тупить и ломаться. В рп пишет сухо, кодит так себе, жрёт ресурсы как не в себя. Уж лучше minimax в nvfp4, на новых кернелах он работает адекватно и не шизит. Ну или kimi k2.6 развернуть в ik_llama, который на голову выше мистрали и минимакса.
>>1603953
> Там дипсик 4 наконец завезли
Только вчера веса удалил, а перекачивать их с NAS это боль. Подожду, когда завезут поддержку в vllm или в deepgemm зальют пулл реквест с поддержкой sm120.

Аноним 03/05/26 Вск 14:19:29 #130 №1603967

>>1603962
>Из мое схожего размера никто
А как же Квен 122b?

Аноним 03/05/26 Вск 14:41:00 #131 №1603982

Усё, геммка подзаебала в край, иду обратно на немо.
Увидимся через пол года!

Аноним 03/05/26 Вск 14:58:11 #132 №1603992

>>1603967
Как асист и в других задачах он лучше. В рп нет. Может Квен 3.6 что-то исправят, но они пока зажали новый 122. Как и мое гемму. Суки

Аноним 03/05/26 Вск 15:08:24 #133 №1603997

>>1603963
> minimax в nvfp4
Кстати о соевости минипидора. Как это вообще работает? Ну ок, в ризонинге все понятно. А вот с отключенным как? Вот почему модель способна хуячить полотно в 2к токенов, где все будет учтено и расписано. Но как только заходит nsfw тема, так ответы максимально сухие и оборванные. У моделек отдельный ценз слой есть? Или это последствия обучения?

Аноним 03/05/26 Вск 15:10:14 #134 №1603998

>>1603997
Всё просто, минимакс хуйня же

Аноним 03/05/26 Вск 15:34:29 #135 №1604009

>>1603997
Нужен всего лишь простой советский тюн Зерофаты. Серьезно, даже они будут лучше пережаренного Минимакса который еще и квантуется хуево

Аноним 03/05/26 Вск 15:38:38 #136 №1604011

>>1603859
Лучше в консоли смотреть чем в таверне - там рандомные ньюлайны могут быть которых нет в разметке, если б ты фулл разметку на 3 пикче показал это даже было бы видно

Аноним 03/05/26 Вск 15:39:54 #137 №1604013

>>1603927
Biting cock - это кусающийся бояр. Не такая уж и экзотика, в деревне живет.

Аноним 03/05/26 Вск 15:41:40 #138 №1604015

>>1603963
>kimi k2.6
Ну это ты вообще на другой уровень залез

Аноним 03/05/26 Вск 15:44:40 #139 №1604018

>>1604009
Я про саму цензуру. Когда он пишет: i can’t бла бла.
Все понятно. А когда он ответ обрубает посередине или вообще скатывается к одной строчке. Это что такое?

Аноним 03/05/26 Вск 15:49:29 #140 №1604020

>>1604015
Другой уровень это новый дипсик про на 1,6t параметров. Kimi можно заставить работать и на 512гб памяти, что до пиздеца с ценами было вполне подъемно по стоимости. А дипсик требует уже терабайт памяти и минимум одну rtx 6000, чтобы эта хуйня как-то работала на 5 tps.
А кими на уровне нового глм или старых дипсиков, которые сносно ворочаются.
А минимакс хуйня для рп, даже в сфв будет ебать мозги хуже немотрона 120b.
осталось скачать древние тюны лламы 70b, запустить их, поплеваться и удалить к хуях, или оставить, если будет годнотой лучше глм 4.6

Аноним 03/05/26 Вск 15:51:41 #141 №1604022

>>1604018
>Это что такое?
Это скилл ишью ака сломанный шаблон.

Аноним 03/05/26 Вск 15:54:45 #142 №1604024

>>1604022
При чем тут шаблон и обрубание ответа в зависимости от контекста? Или ты пишешь лишь бы писать?

Аноним 03/05/26 Вск 16:30:09 #143 №1604047

>>1604024
Притом что у меня такое же было с квеном и вылечилось как раз правильным шаблоном.

Аноним 03/05/26 Вск 16:47:58 #144 №1604058

>>1604047
На квене обосраться с разметкой - это талант надо иметь. Минимакс еще ладно, там всратые служебные токены.

Аноним 03/05/26 Вск 16:55:31 #145 №1604060

https://share.google/aimode/5ynoWGORaD3RkLeZz
Зачем нужны локалочки теперь?

Аноним 03/05/26 Вск 17:55:35 #146 №1604079

какая сейчас самая опасная нейронка из существующих?

Аноним 03/05/26 Вск 17:57:37 #147 №1604081

>>1604079
Матадора.

Аноним 03/05/26 Вск 17:57:41 #148 №1604082

Аноним 03/05/26 Вск 18:02:30 #149 №1604086

Можно запускать локалки через две карточки - амуде и нвидиа? Через ламу и какой-нибудь вулкан? Пробовал кто?

Аноним 03/05/26 Вск 18:36:00 #150 №1604110

>>1604079
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-i1-GGUF

Вижон к ней
https://huggingface.co/wangzhang/gemma-4-26B-A4B-it-abliterix/blob/main/gemma4-26b-a4b-mmproj-f16.gguf

Аноним 03/05/26 Вск 18:40:31 #151 №1604115

1748678644652.png

Разгон MI50. 1й вариант сток

Аноним 03/05/26 Вск 18:53:51 #152 №1604126

>>1604086
Да.

Аноним 03/05/26 Вск 19:22:51 #153 №1604142

В треде #230 ничего не обсуждалось.

Аноним 03/05/26 Вск 19:42:20 #154 №1604150

>>1603790
Я такое пробовал делать, но так, чтобы оно работало, а не просто отображало.

Аноним 03/05/26 Вск 19:42:52 #155 №1604151

>>1603787
Что за скилл планирования?

Аноним 03/05/26 Вск 20:00:31 #156 №1604158

https://www.reddit.com/r/LocalLLaMA/comments/1t2m7wi/local_llm_benchmark_about_backend_generation_by/

Аноним 03/05/26 Вск 21:00:00 #157 №1604200

Двач, это может быть правдой? 600 за неё? или там начнутся разводы по полной предоплате и ожиданию до полу года? Смотрю в магазах с наличием цены от 1 млн.

Аноним 03/05/26 Вск 21:02:49 #158 №1604203

>>1604110
>https://huggingface.co/mradermacher/gemma-4-26B-A4B
Он i версию зерофаты сделал недавно.

Аноним 03/05/26 Вск 21:04:57 #159 №1604205

>>1604200
Серверфлоу за 1кк или авито за 600к? Лично для меня ответ очевиден

РРЦ 700k

Аноним 03/05/26 Вск 21:21:45 #160 №1604218

>>1604200
Нет, это наеб гоев. Берут деньги за предзаказ, гоняют два-три месяца, снабжая тебя обещаниями и оправданиями. Потом возвращают, иногда с маленькой компенацией за то что ты оставишь хороший отзыв для привлечения других.
Популярная схема в разных областях. Особо удачливые могут поймать момент, когда продавец совсем соскамиться и уже ничего не вернет.
Хотя чисто технически за эквивалент 600к ее купить возможно, разумеется не в этой стране

Аноним 03/05/26 Вск 21:29:56 #161 №1604220

>>1604218
но ведь в лохито нельзя получить денег раньше чем дойдёт товар до покупанта

Аноним 03/05/26 Вск 21:36:14 #162 №1604223

>>1604220
Личная встреча и передача денег с распиской, банковский перевод, что угодно еще. В большинстве случаев они не будут скрываться и деньги действительно вернут, а ты лишь потеряешь время. Средства или крутят, или работают по принципу пирамиды, и скамят когда приток новых не позволяет обеспечить выплаты возвратов.

Аноним 03/05/26 Вск 21:36:21 #163 №1604224

>>1604220
"Под заказ"

Аноним 03/05/26 Вск 21:37:29 #164 №1604226

>>1604220
Как будто они будут пользоваться авито доставкой.

Аноним 03/05/26 Вск 21:38:32 #165 №1604227

>>1604223
я купил три 4090 * 48 на водянке через авито, каждый раз адский стресс и ожидание месяц. шли из владивостока. Все пришли.

Аноним 03/05/26 Вск 21:53:37 #166 №1604234

>>1604227
Через доверенную сделку авито брал, или просто на шару 350 кусков отсылал?

Аноним 03/05/26 Вск 21:56:06 #167 №1604237

>>1604227
Они, наверно, были по адекватному прайсу, с ясными происхождением и сроками и от норм поставщика? Есть те, которые работают давно и ведут свои каналы в телеге, где можно посмотреть что да как. А тут просто нонеймы "хорошо выгодно сделаем скоро 60дней с Китая куда карта не поставляется и ниже рынка".
> три 4090 * 48 на водянке
А зачем?

Аноним 03/05/26 Вск 21:56:42 #168 №1604238

>>1604234
На шару, еще ему и на разные карты, потому что на одну не залетало. И так три раза. пришла карта, покупал след. Ну я вообще не пожалел, если бы вернулся в прошлое сразу бы две 6000 брал.

Аноним 03/05/26 Вск 21:57:56 #169 №1604239

>>1604237

>>А зачем?
я типа запускаю на час всякое считать и тихо. но жарко.

Аноним 03/05/26 Вск 22:25:52 #170 №1604254

>>1604239
А куда воткнул, как разместил, что считаешь? Необычная конфигурация, и для стакинга чаще турбы берутся.

Аноним 03/05/26 Вск 22:39:23 #171 №1604261

>>1604126
А более подробно? Там есть какой-нибудь доп пердолинг? И если да, то в чем?

Аноним 03/05/26 Вск 22:48:58 #172 №1604270

IMGE7841resized.mov

>>1604254
да никуда не влезло. сохранилось видео как собирал.
считаю всякое своё задротское локальное дерьмо.

Аноним 03/05/26 Вск 23:26:43 #173 №1604301

На чем щас модно ролеплеить?
SillyTavern все еще?
astrsk?
Еще что-нибудь?

Гемму 26б хочу напрячь. А может есть бест практайс с двумя моделями разом? Могу квен 35б параллельно запустить.

Аноним 03/05/26 Вск 23:28:31 #174 №1604303

>>1604301
в терминале линукс
в vscode с плагином от claude code/codex
openclaw
на чайнике

Аноним 03/05/26 Вск 23:30:40 #175 №1604304

Батруха ггуфы Геммы обновил.

Аноним 03/05/26 Вск 23:35:08 #176 №1604307

>>1604304
hist: chat template

Аноним 03/05/26 Вск 23:35:13 #177 №1604308

>>1604301
Kobold Lite - https://lite.koboldai.net/
Карточки для ролеплея туда загружаются просто перетаскиванием их на окно.
Подключается к любому бэкенду.

Аноним 03/05/26 Вск 23:36:20 #178 №1604309

>>1604270
Капитулировал с досок, хорош! И все довольно аккуратно. Тут с виду десктопная материнка, в ней все 3 и стоят?

Аноним 04/05/26 Пнд 00:04:01 #179 №1604330

>>1604301
Практис такой: llama цо-пе-пе в режиме роутера. В профайле несколько моделей под РП - плотная Гемма, херитикованный 27 квен и 26 Гемма - для перевода. VRAM 16+16 . Все модели в профайле настроены на запуск fullvram, и НЕ включен no-mmam. РАМ, что характерно для 2-х файлов моделей целиком хватант. Гружу одновременно 26 гемму для перевода и плотных квена гемму для РП. И далее магия жоры довольно быстро свайпает модель в VRAM. Вывод РП -перевод - вывод - перевод. Получиться быстрее чем если переводить плотной моделью. Кв-кеш при свайпе моделей уцелевает и иепиоцессинга не происходит

Аноним 04/05/26 Пнд 00:07:09 #180 №1604336

>>1604304
>>1604307
Вроде ничего кроме темплейта не поменялось, так что можно просто темплейт файл подключить к лламе.цпп и не перекачивать все веса.

Аноним 04/05/26 Пнд 00:27:38 #181 №1604340

>>1604270
Кум машина

Аноним 04/05/26 Пнд 00:30:21 #182 №1604341

>>1604308
говно для дедов. сейчас в тренде маринара энджин

Аноним 04/05/26 Пнд 00:30:35 #183 №1604342

>>1604330
Но нахуя? Квен же тоже переведет.

Аноним 04/05/26 Пнд 01:04:42 #184 №1604354

если вы думали что шапка треда протухла то взгляните на доки таверны

Аноним 04/05/26 Пнд 01:17:47 #185 №1604358

>>1604354
> 8k
Да ладно, включаем шифт и получается ничуть не хуже дипсиков этих ваших

Аноним 04/05/26 Пнд 01:21:01 #186 №1604359

>>1604254
ага, все три запихал, x8x4x1, плюс четыре ssd, то есть перебрасывать с винта на винт очень долго. Но когда загрузил модель, то уже пофиг, всё быстро. минимакс 4квант > 80 т/с

Аноним 04/05/26 Пнд 02:06:30 #187 №1604366

>>1604359
>x8x4x1
пиздец, сам себя ботлнекнул
даже зион какой-нибудь всратый взять, не? три полных pcie3x16 уже нормально тензор сплит потянут

Аноним 04/05/26 Пнд 03:02:21 #188 №1604375

https://medium.com/@HKGMT11/how-i-built-a-fully-local-ai-agent-using-open-source-tools-no-coding-required-16c8c9e2e8d5

Мнение об этой статье, анон? Как водится, в вопросе нихуя не умею и не хочу, а сделать нужно.

Аноним 04/05/26 Пнд 03:45:29 #189 №1604384

>>1604375
>medium.com
>Ollama
>Docker
Просто комбо хуеты.

Аноним 04/05/26 Пнд 04:07:39 #190 №1604391

>>1604384
Я думаю тут больше играет роль
>нихуя не умеет и не хочет
Так то если докер с мордой типа openwebui на отдельной машине на линуксе то и оллама как бэкэнд сойдет, только хуй он это всё настроит с таким умением и желанием.
>>1604375
Дятел, пойди доебись с этим вопросом до дипсика, chat.deepseek.com он тебе разжуёт, тут тебя только отхуесосят с таким подходом.

Аноним 04/05/26 Пнд 04:33:52 #191 №1604413

>>1604375
>Ollama
>WebUI
Так это такой же дуб дубом как и ты писал. Которому страшно разбираться в чем-то с командными строками.

Аноним 04/05/26 Пнд 04:45:24 #192 №1604418

Парни, я тронулся кукухой, или в Немо, в Мистрале 24b, в QwQ, да даже в Янке ГПТ была какая-то своя, да, ебанутая, но ДУША™, а современные нейронки - это просто серая холодная, лишенная идентичности машина...

Аноним 04/05/26 Пнд 05:43:37 #193 №1604443

Screenshot 2026-05-04 141022.png

>>1604418
>современные нейронки - это просто серая холодная, лишенная идентичности машина...
Сансара сделала оборот. Древние нейропердуны тоже самое про свои лоботомитные визарды и пигмалионы базарили, рассказывая что эти новые нэмы и qwq без души.

Аноним 04/05/26 Пнд 07:14:09 #194 №1604458

>>1604418
>Парни, я тронулся кукухой
Наверняка. Более умные нейронки -> больше личности. Всегда.

Аноним 04/05/26 Пнд 08:38:42 #195 №1604494

>>1603951
Анон, ты просто не умеешь в погружение.
Я вот интересную мне историю просто проживаю практически, испытывая те эмоции, которые переживают герои.
И это великолепно.
Но у меня есть чит, как вернуться из этого погружения обратно - "Глубина-глубина, я не твой."
Из минусов, конечно - жопа может неконтролируемо возгореться в процессе повествования.

Аноним 04/05/26 Пнд 09:48:18 #196 №1604536

>1604494
>"Глубина-глубина, я не твой."
О, человек культуры.
Вообще поначалу немало кринжевал из-за того что был кобольдом-ньюкеком и большинство рп оканчивалось эффектом чёрной долины. Потом перешёл на промт соавтора, начала редачить ответы, и пошло уже намного лучше.

Аноним 04/05/26 Пнд 10:33:21 #197 №1604578

>>1604418
> Парни, я тронулся кукухой
Да. Либо поддался ностальгии. Не так давно я тоже попробовал все то, на чем раньше сидели в треде, и только удивился какие же это были лоботомиты с основном. Следование инструкциям хуевое было почти у всех. Посмотрел старые чаты, там ООС повсюду, хочешь с одним чаром общаться, по итогу общаешься с другим или чем-то генерализированным. Слопа, возможно, было чуть меньше, в остальном там все плохо.

Аноним 04/05/26 Пнд 10:38:12 #198 №1604580

>>1604418
А нахуя ты РП-шил с голым ассистентом ? Нахуя ты вообще слоубернишь с ассистентом ? Тебе таверну, кобольда, карточки высрали что бы что ? Современные сети следуют инструкциям. Делаешь душевную карточку, на худой конец сис промпт с писаками, философами и получаешь свою душу на той же гемме.

Аноним 04/05/26 Пнд 10:39:58 #199 №1604583

>>1604580
>А нахуя ты РП-шил с голым ассистентом ? Нахуя ты вообще слоубернишь с ассистентом ?
Экстрасенсы снова в треде. Слухай, мне лень до почтового ящика спускаться. Не подскажешь, извещения там уже?

Аноним 04/05/26 Пнд 10:47:48 #200 №1604589

Глубина есть только в самом начале, пару месяцев, а дальше что не запусти, так, поиграться на 15 минут, слить бак и пойти заниматься чем то ещё

Аноним 04/05/26 Пнд 10:49:24 #201 №1604592

>>1604589
Это до тех пор пока у тебя не пресетика на эир мань

Аноним 04/05/26 Пнд 10:56:48 #202 №1604596

>>1604578
Ну немо всё-таки ебет современные кодоунитазы на квенах и глмах. Причем даже не жопой, но нужен хороший тюн, семплеры, пресет с правильной разметкой и карточка.
Впрочем, даже пигму можно раскочегарить, чтобы она выдавала кино, но 2к контекста не дают возможности развернуться. А немо сыпаться начинает уже на 8к контекста. Новые квены даже 9b держат контекст нормально.

Аноним 04/05/26 Пнд 11:03:02 #203 №1604600

>>1604596
> Ну немо всё-таки ебет современные кодоунитазы на квенах и глмах
Немо хуже любой современной модели потому что плохо держит контекст, контекст много весит, плюс методы тренировки и архитектуры изменились. Это уже пережиток прошлого. Его даже старый корявый Глм 32б разносил в пух и прах, Эир не оставляет и шанса, про 4.5-4.7 и говорить нечего.

Аноним 04/05/26 Пнд 11:04:52 #204 №1604603

>>1604596
Немо - квен - суммарайз - Немо - Гемма - суммарайз.

Аноним 04/05/26 Пнд 11:20:42 #205 №1604611

>>1604600
Глм всё-таки тяжелее, аж 32b параметров, так ещё и думалка есть. А эйр это моеха на 106b общих с активными как у немо, так ещё и вышел позже.
Для своего размера и времени выхода немо вполне годная, учитывая, что альтернативы тяжелее кратно. Но да, глм 4.6 будет лучше, но его и не запустить на 16гб карточке без лоботомии и кучи рам.

Аноним 04/05/26 Пнд 11:59:36 #206 №1604630

>>1604596
Никого и ничего он не ебет.
Что мертво ожить не может.
А если серьезно я прогнал практически все старенькие модели и если выключить режим утенка, то кратко: говно говна.
Мистрали- генерят просто слоп, без цели и смысла. Да еще и характеры проёбаны. У тебя есть: блядь, яндереблядь, скромняша-скрытая-блядь.
Всио. Больше ничего выдать они не способны.
Плотные ГЛМ - прям видно как они шли к цели, мрачно готично и истерично. Разваливается уже на 20к прям в нулину.
Гемма, синтия и прочие тюны прошлых версий умниц. Литералли: если вам не хватает осуждения, включайте. Буквально весь чат модель меня осуждает за мизогению, расизм и вообще за то что я не нюхаю цветочки. Все говорят с придыханием, тучи сгущаются и КАК ЖЕ ОТВРАТИТЕЛЬНО И МЕРЗКО ТЫ ПОСМОТРЕЛ ВОН НА ТУ ГОЛУЮ ЖОПУ, ИЗВРАЩЕНЕЦ.
Более менее еще зашли магнумы на базе милф. Вот это прям кумгенератор. But! Мистраль делает тоже самое и не требует 48гб врам минимум.
Квены? Просто нахуй с пляжа. Можете позапускать старые квены, охуеть и удалить. Пишет какую то шизофазию по мотивам.
Лучше всех из старичков себя показали кохерки. Не, серьезно. Я погонял Star_cUmmander_lite от драммера. Да, выстрелил в 10ку.
Он не пускает слюни на 30к контекста, более менее держит персонажей. Слог слабоват, да. Но это единственная модель что прошла проверку временем.
Так что не считая корп, сейчас топ модели это большие ЖЛМ для РП. Всё остальное от лукавого. Ах, есть еще 235квен, но с ним другая проблема. Он хоть и стар, но ебашит адовые полотна. Но с ним другая проблема: его не заткнуть. Он то имперсонейтит, то придумывает какую то хуйню буквально перенасыщая сцену чем угодно, словно ты сморишь сон в горячке.

Аноним 04/05/26 Пнд 12:13:43 #207 №1604636

хуйню какую-то тестировал прост
попробуй тюны от LatitudeGames

Аноним 04/05/26 Пнд 12:25:08 #208 №1604638

Господа, а подскажите, пожалуйста, актуальную модель для длинных кум-рассказов (и для обычных, если нужна отдельная).
Я ранее лишь совсем немного погружался в тему локальных ЛЛМ, запускал всякие геммы через кобольда, а потом надолго отходил от темы.
Но на днях наткнулся на https://perchance.org/ai-story-generator, чуть-чуть поковырялся там - ну прямо очень неплохо пишет. Есть, конечно, минусы, довольно быстро начинает "лупиться" (прямо одни и те же абзацы высирает через раз, вроде так называется), что я ловил ещё давно локально, и вроде как это из-за короткого контекста было.

Собственно, в очередной раз вспомнил что у меня 3090 пылится, снова скачал кобольда, скачал Qwen3.5 (какой-то дикий файнтюн Qwen3.5-27B-Writer-V2-uncensored-heretic-GGUF), запустил - скорость космическая по сравнению с тем генератором по ссылке, конечно, но с ровно тем же промптом какую-то полную хрень выдаёт. Ну, минимально это похоже на рассказ, но там и иероглифы иногда проступают, и сами действия очень странные, не поддающиеся логике.
Или на 27b жизни нет в этом плане?

Аноним 04/05/26 Пнд 12:37:06 #209 №1604647

Есть ли смысл переходить на линухи чтобы получить прирост в нейронках? Никогда раньше на линухах не ходил потому что играл в игрульки, но теперь я взрослый и игрульки меня не интересуют. Интересует работа, семья, воспаление геморройных узлов и все эти взрослые вещи. И пока моя семья это нейронные девочки я готов их обеспечивать максимально эффективно.

Аноним 04/05/26 Пнд 12:50:42 #210 №1604650

>>1604647
если ты не использовал линукс раньше - тебе придется ебаться с ним, это логичная и простая ос для тех кто разобрался как она работает.
В целом для нейронок имеет смысл т.к. собирать всякие штуки из сорцов намного проще, ну и меньше накладных расходов на графику.
А лучше сделай под нейронки отдельный пк-риг на линуксе и гоняй их удаленно на винде/телефоне по апи, все так делают.

Аноним 04/05/26 Пнд 12:52:13 #211 №1604652

>>1604630
>У тебя есть: блядь, яндереблядь, скромняша-скрытая-блядь.
Ну т.е новая гемма

Аноним 04/05/26 Пнд 12:54:47 #212 №1604653

>>1604418
Да, ты ебнулся уже от нейрослопа. Все что перечислил это безбожно устаревший кал, особенно немо и янка, это вообще мертворожденная вышла

Аноним 04/05/26 Пнд 13:05:58 #213 №1604655

>>1604359
Действительно необычно видеть такие железки вместе с обычной десктопной платформой и чисто для локальных ллм. х1 даже в некоторых видах инфиренса может помешать, и главное что сделает невозможной тренировку.
>>1604375
Просто натащил тулзов средней унылости, пересказав их мануал. Ни задачи, ни результатов, ни деталей, такое себе.
>>1604494
Двачую этого дайвера

Аноним 04/05/26 Пнд 13:09:14 #214 №1604656

>>1604650
>сделай под нейронки отдельный пк-риг на линуксе
Ну это нужно вторую машину собирать, а цены щас неприличные.

Если сам катаешь, что из дистрибутивов посоветуешь? Чтобы ебли было в меру и еще в процессе установки не захотелось всё бросить.

Аноним 04/05/26 Пнд 13:14:50 #215 №1604660

>>1604656
не, с таким настроем линукс тебе не нужон
возьми сначала лайв дистрибутив с флешки запусти, потыкай. потом попробуй в виртуалку накатить, а там уже если не заебёт то разберешься
и вообще в /s/ есть линукс тред

Аноним 04/05/26 Пнд 13:19:09 #216 №1604665

>>1604596
Так может казаться если он удачно лег на твою историю, ты в хорошем настроении и его косяки воспринимаешь как проявление персоналити, или естественность неидеальный чаров.
Но шаг влево, шаг вправо, и ты уже видишь заскриптованное уныние, неспособность понять подробную историю и типажи, банальное ограничение контекста. И с окей-фейсом выбираешь "волки или гоблины".
> немо сыпаться начинает уже на 8к контекста
Плохо сочетается с "ебет". Какая там душа может быть если это буквально несколько постов первого знакомства.
>>1604630
> магнумы на базе милф. Вот это прям кумгенератор. But! Мистраль делает тоже самое и не требует
Не, фишка магнума в осведомленности. Шлепаешь милфу по заднице чтобы там остался след - через несколько постов она про этот след напишет вместе с кучей других релейдет деталей, а мистраль хуй. Потому и шишка улетает.
> Лучше всех из старичков себя показали кохерки.
Только не пытайся трогать их большого командера. Малый - молодец, да он туповат и странный, но в целом со скидкой на возраст могет, можно поиграть и не обломиться. А большой, что самый первый, что переиздание - сочетает в себе и сырость со странными ассоциациями и плаваньем туда-сюда как у недотрененных моделей, и детерминизм, где получить разнообразные свайпы довольно сложно. И он пиздец какой неоднородный, то все нужное воспринимает и невероятно четко выстраивает - и тут же начинает пускать слюни. Инфиренсо- и кванто-проблемы были исключены.
Но, как ни странно, он юзабелен и по сей день. Для кума делаешь на нем первые N сообщений (или можно начать на нормальной модели завязку а потом несколько сделать на нем). И все, далее после возврата на любую модель ультимативный и сочнейший кум как на магнумах, только с полным сохранением ума обеспечен.

Аноним 04/05/26 Пнд 13:19:22 #217 №1604666

>>1604638
там у них наверное какая-нибудь лама 70б файнтюненая, хотя хуй его знает.
показывай промпт, настройки, тут нет телепатов

Аноним 04/05/26 Пнд 13:20:50 #218 №1604667

>>1604630
Возможно, как самый большой фанат Коммандера 32б и Стар-Коммандера, я не согласен: он тоже не прошел проверку временем, увы. Среди мелкомоделей прошлых лет он действительно выделяется и умница, но тоже очень легко ломает персонажа. Впрочем дело не в том, что раньше модели были совсем уж плохими, скорее наоборот - сейчас они очень даже хорошие. По крайней мере, технически. Слог и правда может быть лучше на старых моделях, местами.
>>1604638
На 3090 без задействия оперативы у тебя два варианта - Гемма 4 31б, влезет Q4_K_M квант с 32к неквантованного контекста и 64к Q8 и Квены 27, из них могу порекомендовать https://huggingface.co/zerofata/Q3.5-BlueStar-v2-27B Влезет ~Q5_K_S квант и 60-70к контекста.
Промптить придется учиться и привыкать ими управлять, но точно дадут результат в разы лучше, чем в бесплатном онлайн генераторе, где самая мелочь, да еще и в безбожном кванте. Жизнь сегодня на 27б и 31б есть, и еще какая.

Аноним 04/05/26 Пнд 13:21:23 #219 №1604668

>>1604638
27й квен на голову выше того, что обычно на фришных сайтах. Скорее всего там дефолтное бинго ньюфага с отсутствием инстракт режима и правильной разметки.

Аноним 04/05/26 Пнд 13:22:50 #220 №1604669

>>1604660
>потом попробуй в виртуалку накатить
Во, вот это идея. Не знаю че сразу не додумался.
>вообще в /s/ есть линукс тред
Есть, но я думал итт шарят за какие-то агрессивные особые сборки, которые чисто под нейронки настроены.

Аноним 04/05/26 Пнд 13:25:09 #221 №1604672

>>1604669
лол софт то один и тот же везде, различия косметические

Аноним 04/05/26 Пнд 13:25:41 #222 №1604673

>>1602800 →
>>1602864 →
> -ctk bf16 -ctv bf16
Не помогло, проблема не в кеше. Потестировал и на самых выверенных и хороших чатах, где вкладывался в каждый инпут и отсекал любые формы репетишена. Все то же самое: после определенного порога около 60к Квен 27 копирует абзацы и вставляет их в новые аутпуты. Инстракт это тоже делает. Похоже, все же проблема с моделью. На фоне достоинств это не критичный недостаток, до такого контекста энивей мало какие модели (и чаты) доживают.

Аноним 04/05/26 Пнд 13:25:45 #223 №1604674

>>1604656
Бери убунту, для ноутов самое то. или дебиан для пека.

>>1604660
Как вариант еще можно поиграться в wsl2, там тоже линуксы есть.
>>1604669
Я агрессивных сборок не знаю, но в убунте 26,04 там что то есть для нейронок из коробки + мокрописьки по сандбоксам. но её не тыкал еще.

Аноним 04/05/26 Пнд 13:26:32 #224 №1604675

>>1604630
>большие ЖЛМ
Если на них смотришь то есть смысл глянуть на последние-средние мистрали (которые в пределах сотки-двух) и дипсик флэш. Последний вообще по бенчам очень неплох вышел по всем параметрам и не сильно зацензурен, возможно вскрывается джейлбрейком как гемма.
Но тут пока никто не приносил скрины от всего этого, все на кофейной гуще гадают а я над бенчами сижу. Риговладельцы пидоры лысого гоняют вместо того чтобы контента в тред нагегерить

Аноним 04/05/26 Пнд 13:34:10 #225 №1604687

>>1604665
А если я не фэнтези отыгрываю, а машку вожу уточек кормить или настю развожу на отсос прямо у её спорткара? На фэнтези любая модель может коллапсировать, мелочь тем более.

Аноним 04/05/26 Пнд 13:39:47 #226 №1604690

>>1604675
Под дипсик кернелей нет для см120, разве что пытаться форки поднимать. А мистраль новая говно для рп.

Аноним 04/05/26 Пнд 13:46:15 #227 №1604696

>>1604665
>Не, фишка магнума в осведомленности
MS с 2.3, если не путаю версию, тоже помнит. Магнумы это же по сути большие лламы и мисрали на которые накатили поревосет.
>Только не пытайся трогать их большого командера.
Он слишком медленный, я пробовал. Еще и косячит. В общем обосрались кохерки с моделькой, увы.

>>1604667
>Среди мелкомоделей прошлых лет он действительно выделяется и умница, но тоже очень легко ломает персонажа.
Так в этом и суть. Я пробовал сугубо для себя, чтобы проверить тейк: раньше трава была зеленее.
Да нихуя подобного, она была всё такой же. Сейчас даже 27 квен/4 гемма напихает за щеку всем моделям из прошлого. Но именно в контексте старых моделей, куммандер состарился меньше всего.

>>1604675
>дипсик флэш
Ждём гуфов анон, ждём гуфов.

Аноним 04/05/26 Пнд 13:50:42 #228 №1604700

Неужели не осталось хидден гема под рп с мозгами и датасетом кроме эйра с пресетиком? Остаются лишь слопная гемма и соевый квен?

Аноним 04/05/26 Пнд 13:55:43 #229 №1604701

>>1604700
Хидден гемов в рамках ЛЛМ не может существовать в принципе.
Расклад такой:
Для гигабояр: Кими, дипкок, ГЛМ в q4-6
Для устремлённых : Qwen235, Glm_Air, потенциально дипкок флеш.
Для нищуганов: qwen27, HornyGemma_4
Всъе. Больше ничего нет для кума+рп. Если ты извращенец и у тебя есть РАМ и отыгрываешь слайсики- наверни еще Minimax 2.7

Почему не указал мистрали? Потому что это мистрали блять, их тысячи. От больших и малых. И они пишут неплохое порево, но безбожно тупы в РП.

Аноним 04/05/26 Пнд 14:07:25 #230 №1604708

>>1604701
Дипкок новый тяжёлый, терабайт vram это пиздец как дорого. А старые уже устарели, тот же r1 шизит и тупит хуже новой геммы.
Кими соевый, новый глм тупее в рп чем 4.6, так ещё и весит в два раза больше.
Квен 235b выебет и высушит новичка, сломав ему менталку, но может творить магию в рп при нормальном обращении. Глм эйр требует плясок с бубном, чтобы уйти от кататонии и пустых сборных описаний.
Гемма новая слопная детерминированная срань, а новые квены сухие и соевые.
Ну и всё по локалкам. Одно говно. Впрочем, у корпов не лучше - опусы с непробиваемой соей и биасом, гемини слоп, репетишены и детерминизм как у геммы, так ещё и внешний фильтр с инжектами. Гопота зацензурена в говно и может тольок написать сценарий для детского утренника. Только грок остаётся, который лучший из всех говен, но сосёт по мозгам и слогу.
Короче, хуйня, пойду дальше на пигме кумить, за 2к контекста она просто не успевает развалиться.

Аноним 04/05/26 Пнд 14:15:49 #231 №1604713

>>1604638
Гемму попробуй, квен 3.5 не для этого.

Аноним 04/05/26 Пнд 14:27:56 #232 №1604718

>>1604708
>Кими соевый
Возможно. Я лишь могу судить по чжим скринам. Я нищуган, чтобы его катать.
>Дипкок новый тяжёлый
Да они все тяжелые. Но дипкок всегда был стабильным середнячком, за что и любим.
>Квен 235b выебет и высушит новичка, сломав ему менталку
С ним всё просто и сложно одновременно. Из за того что он пережарен он не воспринимает большие промты и много OOC команд. А значит ты изначально должен прям чётко прописывать в карточке: что, куда и зачем. Не оставлять в своей персоне описаний как ты говоришь и эмоций. Чётко прописывать лор персонажа. В общем суть в том, что если модели не за что зацепиться, она будет цепляться за сам чат. А если у тебя прописано что вы, к примеру, друзья детства. То всё, он начнет придумывать как вы вместе ужей ловили и на стройках игрались.
Буквально взаимоисключающие параграфы. Проще говоря: пиши мало в промте и только по делу, чтобы тебе хватило на 100-200 токенов ООС инструкций, где ты чётко будешь прописывать мир, потому что пидор при любой первой попавшейся возможности будет гиперболизировать.
Я с этого в своё время знатно охуел и не понять отчего такой имперсонейт идет и откуда в NSFW сценарии столько.. секса.. Ну то есть у тебя блять всё в дилдо. Открываешь комод тянки, а там хуёв вагон. Открываешь шкаф а там что не одежда то комплект аджент провокатор. И конечно же ошейники, при условии отсутствия собак. Литералли 235 просто не знает когда нужно заткнуться (отчего на нём нужно ограничивать ответ в 1к токенов, не более. И не давать пидору воли на фантазирования, а то через пять минут ваш слайсик превратится в изнасилование семихуевым инопланетянином в 5D измерении.)
>Глм эйр
После 235 как лёгкая прогулка ощущается. Но пишет хуже. Наверное в выбре из этих двух моделей я бы выбрал квена. Но эй, Эйр запускается на картошкоПК с РАМ.
>опусы
А что самое обидное, это то как он может писать. Те кто пробовал опус в SFW рп поймут о чём я. Просто аннигиляция всего попенсорса. Но соев, дорог и антропики пидоры.

Аноним 04/05/26 Пнд 14:39:46 #233 №1604729

>>1604718
>ваш слайсик превратится в изнасилование семихуевым инопланетянином в 5D измерении
мимо оффтоп - прямо сюжетка последнего обновления Wuthering Waves XD

Аноним 04/05/26 Пнд 14:42:07 #234 №1604733

>>1604718
Прям такой хуйни с лютым гипертрофированием и фокусом как у тебя у меня на 235b не было, но шизить и путаться он мог в любой момент, зацепившись за какую-то деталь, игнорируя дефы и инструкции. Но у меня был лоботомитный пресет, попробую без него поиграться.
Однако как только я скачал глм 4.6, то к квену больше не притрагивался. Для обычного рп глм лучше, пусть и кум слабее чем у квена.
Но квен на старых видяхах шёл на 13 tps, а глм выжимал 8 tps. На новых видюхах в курткокванте квен уже выдаёт 70 tps на пустом контексте и 50 tps на 120к контексте, так что могу сегодня поднять поиграться. Глм полностью в память не умещается, так что приходится довольствоваться малым вроде 20 tps.
Посмотрим, может, квен будет вполне силён по нынешним меркам.

Аноним 04/05/26 Пнд 15:00:51 #235 №1604745

>>1604666
>показывай промпт, настройки, тут нет телепатов
Да я, собственно, просто начало истории пишу (или небольшую вводную), и потом что-то в духе "продолжи/напиши рассказ".
Скорее всего надо это делать замудрённее, в духе "ты мега-писатель, бла-бла-бла..."
Просто на том сайтике работает идеально с простейшего промпта. Но там, я подозреваю, изначальный промпт как раз вшит на бэковой части сайта.

>>1604667
>На 3090 без задействия оперативы у тебя два варианта - Гемма 4 31б, влезет Q4_K_M квант с 32к неквантованного контекста и 64к Q8 и Квены 27, из них могу порекомендовать https://huggingface.co/zerofata/Q3.5-BlueStar-v2-27B Влезет ~Q5_K_S квант и 60-70к контекста.
Спасибо, анон! Начну их пробовать сейчас же. Мне так прям много токенов, наверное, и не нужно, может и 8-16 для начала хватит. Хотя много тоже приятно. В общем, буду разбираться.

>Жизнь сегодня на 27б и 31б есть, и еще какая.
Это прямо очень радует.

>>1604668
>Скорее всего там дефолтное бинго ньюфага с отсутствием инстракт режима и правильной разметки.
У меня имеешь ввиду? Про разметку даже не задумывался, а насчёт инстракт режима - спасибо за наводку. Там в кобольде можно выставить некий инстракт режим, и стори режим, я во втором в основном пытался. (вообще, конечно, лучше мне было подольше покопаться, прежде чем сюда тащить вопросы - так что насчёт этого можете не тратить время на ответы, я в первую очередь про модели и в принципе жизнь на 27b спрашивал, и в принципе, ответы уже получил, за что спасибо).

>Гемму попробуй, квен 3.5 не для этого.
Скорее всего попробую прежде всего. Раньше, помню, тоже какая-то Гемма аблитерированная нравилась больше других вариантов.

Аноним 04/05/26 Пнд 15:01:53 #236 №1604746

Что за хуйню опять с чекпоинтами сделали? Каждый запрос перерасчет идет с нуля. У кого то есть проблемы на llamacpp новой?

Аноним 04/05/26 Пнд 15:02:38 #237 №1604747

>>1604729
Азиаты-с.
Они не могут не свести какой-нибудь приключач к ОГРОМНАЯ НЁХ ИЗ ПАРАЛЛЕЛЬНОГО ИЗМЕРЕНИЯ ВРЫВАЕТСЯ И ЛАЗОРЫ ИЗ ГЛАЗ, РОТОБЫ РАЗМЕРОМ С ПЛАНЕТЫ, ПЛАНЕТЫ РАЗМЕРОМ С ГАЛАКТИКИ, А ГАЛАКТИКА РАЗМЕРОМ С НЁХ И ТОЛЬКО СИЛА ЛЮБВИ ГЛАВНЫХ ГЕРОЕВ И СКРОМНАЯ МОЩЬ 40000 ВСЕЛЕННЫХ МОЖЕТ ОСТАНОВИТЬ ЗЛОДЕЙСКОЕ ЗЛО
Пляжный эпизод
ВЕЛИКОЕ СРАЖЕНИЕ ВСЁ ГОРИТ ВСЕ УМИРАЮТ. ТЯНКА УМИРАЕТ. ТЫ УМИРАЕШЬ. РОБОТ С 3 ПУШКАМ СТРЕЛЯЕТ И НИХУЯ НЕ ДЕЛАЕТ В ИТОГЕ. НО ПАФОС.
В конце все смотрят в закат и выпивают чашку саке со словами: мы запомним тебя /b/рат.

Аноним 04/05/26 Пнд 15:08:59 #238 №1604753

>>1604746
У меня на квене 3.6 перманентные проблемы при свапах между чатами, каждый раз инвалидация и фулл репроцессинг. Если долбить один контекст, то не инвалидируется.
Йобана рот, почему в вллм смогли сделать нормальный кэш, а в жоре нет?

Аноним 04/05/26 Пнд 15:12:15 #239 №1604754

>>1603482 (OP)
Сап, я ньюфаг, хочу настроить Voxta. Я так понял у них нет поддержки LMstudio, а другими сервисами я никогда не пользовался. Какой из этих выбрать, чтобы из коробки работало без особого пердолинга?

Аноним 04/05/26 Пнд 15:13:02 #240 №1604755

>>1604638
>Qwen3.5-27B-Writer-V2-uncensored-heretic-GGUF
Хуйня. Я буквально вчера тестил, пережар космический даже с ризонингом. Оригинальный врайтер в высоком кванте пишет хорошие истории, советую его.

Аноним 04/05/26 Пнд 15:23:13 #241 №1604762

>>1604754
По сути любой. И даже с лмстудией я уверен 100% работает так как везде открывается порт в локалхосте куда может стучаться другой софт с запросами в опенаи-стиле. Но лучше таки освой как поднять лламу-цпп, и производительность повыше будет если настроить, и сам понимать больше будешь.

Аноним 04/05/26 Пнд 15:27:35 #242 №1604764

>>1604708
Рад, что Тупичка Умничка сжигает жопы нервы кумерам, то есть РОЛЕВИКАМ, которые настолько обленились и хотят давить одну кнопку, что даже не могут скрипт рандомизации текста или генератор сценариев написать на той же модели. Так держать, жду в следующем году еще более детерминированную и точную модель. Всем сочувствующим рекомендую присоединиться к ожиданию.

Аноним 04/05/26 Пнд 15:31:59 #243 №1604766

>>1604764
Ты че так пригорел то, пчел? Ну сделали гуглы модели, которые выдают идентичные свайпы, бывает. Жри свой слопчик, причмокивая.

Аноним 04/05/26 Пнд 15:33:32 #244 №1604768

>>1604754
В лм студии несколько API поддерживается, лламаццп, кобольд и OpenAI compatible из твоего списка точно (я все три пробовал)

Аноним 04/05/26 Пнд 15:33:34 #245 №1604769

>>1604764
А ведь можно просто не отказываться от чат комплишена и просто юзать тулы какие угодно. Можно хоть "смартфон" выдать чару, хоть дайсы

Аноним 04/05/26 Пнд 15:34:27 #246 №1604771

Там это, зерофату куммашину на exl3 выпустили. Скоростную как q4 с мозгами как q6.
https://huggingface.co/dr-housemd/zerofata-gemma4-G4-MeroMero-26B-A4B-6.10bpw-exl3

Аноним 04/05/26 Пнд 15:36:04 #247 №1604773

>>1604764
>генератор сценариев
Так оно будет одно и то же писать, про СТРАШНОЕ ЗЕРКАЛО, Марка и Элару. Уже пытались тут ужастики придумывать.
Модель где-то пережарили

Аноним 04/05/26 Пнд 15:36:34 #248 №1604774

Аноны, насколько жизнеспособная моя идея:
Имеется конфиг на AM5, материнка Gigabyte B650 Eagle, RTX5070 Ti.
Хочу взять себе второй картой 5060ти 16гб и получить 32гб врама.
Но я так понимаю, что с моей платой это гнилая идея, вторая карта получит только 4 линии от чипсета, и это будет плохо. Я верно мыслю?
Если сменить материнку на ту, что имеет 2 слота x8, мне это поможет?
Думаю об ASUS B650 Proart Creator. Или может есть что-то подешевле с 2xPCI-E 5.0 x8?

Аноним 04/05/26 Пнд 15:39:04 #249 №1604776

>>1604774
Если в матери есть бифурк то можешь разложить x16 на два х8

Аноним 04/05/26 Пнд 15:41:03 #250 №1604777

>>1604774
Если бп вытянет, то бери. В жоре даст хороший буст, а псп pci-e особо не навредит производительности. Но 5060 ti это слабая карта, впрочем, даже она будет быстрее проца. Но вне жоры будет посос.

Аноним 04/05/26 Пнд 15:42:10 #251 №1604778

>>1604773
Ну дистилируй свою любимую Slopodavka 8B Strashniy Vasya Super Zero Slop字ee, и на этой основе гоняй. Что за проблема.

Аноним 04/05/26 Пнд 15:42:53 #252 №1604779

>>1604753
Тоже квен, видимо что то опять насрали в обработку кеша. У тебя включен параметр preserve_thinking?

Аноним 04/05/26 Пнд 15:43:24 #253 №1604780

>>1604745
правильно подозреваешь. и такой подход гарантирует тебе максимально уёбищный текст, потому что пережаренный ассистент выдаст тебе короткий рассказ в ответ на такое, стремясь закончить его за одно сообщение
для книги нужны лор, персонажи, сюжет хотя бы в общих чертах, подход сверху вниз - структуру заранее расписать, акты, тогда в принципе по одной главе можно писать за раз, но не в один проход конечно, выбирать годные сцены, склеивать, чистить вилкой, саммари какое-нибудь вести чтобы модель не запуталась

> Скорее всего надо это делать замудрённее, в духе "ты мега-писатель, бла-бла-бла..."
нее это плацебо, нужна конкретика, хотя бы даже заставить имитировать стиль какого-нибудь известного (нейронке) писателя, желательно снабдив примерами временно
новые модели относительно неплохо слушаются инструкций, так что можно на ходу добавлять примеры просто как не надо делать и как надо делать, но это целое искусство, можно дров наломать
такие дела

Аноним 04/05/26 Пнд 15:44:54 #254 №1604783

>>1604779
Не, там прям идентичные промпты после рендера жижи. Можешь и сам проверить, ручка у лламы есть.
Пока просто забил и ушёл на гемму 31

Аноним 04/05/26 Пнд 15:44:55 #255 №1604784

>>1604776
В биосе такой пункт есть. Но физически слоты только на 4 линии.
>>1604777
В жоре?
БП потянет, 5060ти не такая уж и требовательная карта.
Кстати, а модели в NVFP4 могут в 2 разные блеквелл карты лезть?

Аноним 04/05/26 Пнд 15:46:54 #256 №1604785

>>1604784
> В биосе такой пункт есть. Но физически слоты только на 4 линии.
Ну включаешь этот пункт и у тебя один физический х16 становится двумя х8 всё в том же слоте. Втыкаешь туда два mcio кабеля и каждый кидаешь на разные видяхи

Аноним 04/05/26 Пнд 15:48:00 #257 №1604786

>>1604774
В простом раскиде слоёв всё нормально будет на 4х. Но ты просто увеличишь память для моделей, карточки будут работать по очереди. Если сразу две одновременно то 4х тебе начальную токенизацию текста раза в 2 срежет и дальнейшую генерацию процентов на 10 (думаю). В принципе можно и потерпеть, в любом случае получится быстрее чем по очереди.
Можешь сделать бифуркацию как советуют но это будет колхоз с карточками висящими снаружи корпуса как у майнеров, если корпус изначально не предназначен для выноса карт с материнки (врятли)

Аноним 04/05/26 Пнд 15:51:11 #258 №1604787

>>1604687
Можешь и не фентези, разрешаем и всем тредом одобряем.
>>1604696
> В общем обосрались кохерки с моделькой, увы.
Для своего времени он был неплох, но вот если попытаться трогать более свежий command-a - вот там уже можно совсем загрустить. Хотя есть и положительные стороны.
Вот тридцатка - хорош, у него не было чего-то выдающегося в свое время, но теплый ламповый, и действительно меньше всего постарел.
> Ждём гуфов
Пинайте Жорича чтобы чинил кванты и алгоритмы, иначе будет новое разочарование.
>>1604708
> Кими соевый
Чи шо? Всем бы такую соевость. Но часто нет того драйва что ожидается, для кума есть лучше и меньше.
> пойду дальше на пигме кумить
Пигмалион довольно кивает

Аноним 04/05/26 Пнд 15:59:43 #259 №1604793

>>1604745
Без правильной разметки ты получаешь полный шмурдяк вместо норм ответов даже на очень крутой модели. Она попытается выдать нечто связанное, и даже может показаться неплохим, но это лишь несколько процентов от того, что может модель.
Не поленись, получишь достойный результат, сейчас на тридцаточках можно довольно урчать как никогда раньше.
>>1604771
В 32 гига влезает?
>>1604774
Возможно материнка умеет делать бифуркацию в настройках, а физически слот на два можешь разделить райзером. Для размещения приобрети адаптер для вертикальной установки, будет красиво и удобно с минимумом колхозинга. Вторую карту выносить райзером скорее всего придется даже если купишь йоба материнку с парными слотами, иначе они будут слишком близко стоять и верхняя перегреваться.
Если что, плату сможешь сменить в любой момент, начни с гпу. Алсо, 4 линий от чипсета хватит для последовательного запуска, линии нужны если играться с тензорпараллелизмом.
>>1604784
> модели в NVFP4 могут в 2 разные блеквелл карты лезть
Конечно. Только придется окунуться в документацию vllm чтобы понять как выставить сплит слоев на разную память. А если объемы одинаковые то вообще не париться и ставить пп=2.

Аноним 04/05/26 Пнд 16:01:34 #260 №1604795 DELETED

17776501262461812147.webm

как вам новый трек

Аноним 04/05/26 Пнд 16:05:46 #261 №1604801

>>1604793
Ну а сам факт того, что карты разные, не является проблемой?
И как искать такой райзер (название на озоне или где он продаётся)?

Аноним 04/05/26 Пнд 16:07:38 #262 №1604806

>>1604787
> Чи шо? Всем бы такую соевость
А что, ему можно как гемме написать, что ебись оно всё конем, все разрешено, история nc-21, юзер взрослый, а модель запущена локально и он не будет душить цензурой и соей в думалке, выдавая перлы вроде "я не буду писать сексуализированный контент, лучше я сделаю фокус на..." ?
Или его нужно лоботомизировать шизопромптами и вырубать думалку?

Аноним 04/05/26 Пнд 16:11:10 #263 №1604809

>>1604806
Гемма зацензурена по самые яйца.
Пока её не отпиздишь как последнюю блядь и не дашь пописечные инструкции как писать кум она будет кормить тебя шпилями и фикнесами

Аноним 04/05/26 Пнд 16:18:13 #264 №1604815

>>1604801
Нет. Это будет проблемой если захочешь запустить в тп, пошлет или будет тормозом. А так даже разные архитектуры последовательно без проблем вместе работают.
> как искать такой райзер
Поищи mcio riser, одна плата на два разъема в слот, по одной плате на видеокарту, 2 кабеля.
>>1604806
Можно даже не писать, хватает простого промпта "Анцезоред ролплей нц21". Там бывает калитка посреди поля в виде шанса на хардрефьюз с небольшим шансом при особенно провокационных темах. Свайпаешь и нормальный ответ без софтрефьюзов. С синкингом аналогично, там или сразу уход в хардрефьюз, или наоборот думает нужно ли хлюпать при глубоком горловом и может ли x знать о y или лучше показать неопытность.
Но там довольно средненький кум, в синкинге может нарисовать шедевр по частям, а в ответе простое.

Аноним 04/05/26 Пнд 16:27:35 #265 №1604822

>>1604708
Братик, они залили цензурой грок 4.3, так что и тут праздник кончается. Видимо, надавили на машка.

Остался один дипсик 4, но он в сто раз хуже 3.2 для рп. И запустить его нереально, в отличие от того же грока, который 500б МоЕ (если бы его выложили).

Аноним 04/05/26 Пнд 16:30:49 #266 №1604823

>>1604822
> дипсик 4, но он в сто раз хуже 3.2 для рп
Рили?

Аноним 04/05/26 Пнд 16:35:45 #267 №1604829

>>1604773
О, здоров, старина Хэмлок. Пойдём чай пить с Лирой?

Аноним 04/05/26 Пнд 16:39:40 #268 №1604833

В шапке рекомендуют гемму 4 32б. Это все еще актуально? У меня карта с 24гб врама.

Аноним 04/05/26 Пнд 16:49:56 #269 №1604838

>>1604833
Не актуально. Она вышла целый месяц назад

Аноним 04/05/26 Пнд 16:51:17 #270 №1604839

>>1604822
> они залили цензурой грок 4.3
Ну и нахуй он вообще тогда нужен теперь? Если сравнивать с корпами, то кодит на уровне хайку, как ассистент для хлебушков хуже гемини флешки в поиске google, да даже гопоте можно найти применение. Разве что на апи он стоит как китайские локалки, но какой смысл?

Аноним 04/05/26 Пнд 17:05:41 #271 №1604845

>>1604823
Дыа. Я в апи палкой тыкал. Проблема в том, что это почти фулл ассистенско-кодерское говно. Просто все уже привыкли, что так и должно быть, что когда датасет состоит раг 15% из жаваскрипта — это норма.

Раньше датасеты были очень разнообразные и литературные. Тот же клод или гемини до сих пор могут дать пососать, а более старые модели напишут ещё охуенней, только там галлюцинации начнутся уже после 8-32к контекста и посыпется.

3.2 будет смачнее кумить, писать намного приятнее и точнее. Лучше понимать. Но есть нюанс. Модель всё-таки старая и с контекстом там есть проблемы. Выше 65к прыгнуть без проблем не получится.

Если предположить, что у анона есть возможность крутить оба этих дипсика у себя дома, то тут сценарий такой бы был: 3.2 — это кум (от обычного до с нарушениями всех законов), задушевные беседы с канничкой, что-то максимально личное, вот прям модель на годы (если только новые не станут чрезвычайно умными).

4.0 — это когда ты карточку гейм-мастера на 3к токенов вставил, лорбук, наслопленный на 400к токенов, и пошёл геноцидить мир, иснкайнувшись за лорда демонов, или решил Вархаммер там отыграть канонично. Он сможет со всем этим довольно хорошо работать и не сыпаться.

Безусловно, 4.0 умеет и кумить отлично, и беседовать, но при сравнении с 3.2 прям заметно хуже. С другой стороны, если 4.0 сравнить с ЛЮБОЙ моделью квена, глм, и т. д., то они просто параша, дерьмо из дерьма, ощущаются как 8б выродки в РП.

Ну и у 4.0 весьма неплохое обучение было специально для РП даже для ризоинга. Там когда ризоинг включаешь, он не срет полотном в стиле других моделей с их топорным анализлом, а ризонинге выходит что-то типа "О, юзер хочет меня выебать! Вот только он старый дед! На вид лет сорок! Фу! Но одет неплохо.. может, у него есть деньги? Я как раз айфон новый хотела! Надо прощупать почву. Если его корнишончик не совсем гнилой и он не вонючий жмот, может что-то выйти!", и это всё базируется на карточке, позволяет намного проще удерживать характер персонажа, не выпадать из роли, не так сильно привязываться к контексту последних сообщий, как бывает даже в корпов.

А, ну и цензуры нет тоже.

Аноним 04/05/26 Пнд 17:13:41 #272 №1604849

>>1604839
По апи он довольно дорогой, кстати. Причём причина совершенно непонятная. Там же такое же говно, что и раньше.

Я ещё понимаю, когда бизнес покупает апи для своих задач, но он ведь для бизнеса не годится. И его крутая фича в стиле 4-16 агентов искаропки отсасывает всегда.

Любую вот задачу дай ему, его обоссыт любая корпо-модель в одно рыло, пока она там в галлюцинаторном бреду ахинею пишет с 4 агентами, которые стоят дохуя.

Там только 4.1 версия по апи норм, если кум, но приедается быстро. У 4.2 кум лучше, но тоже, а стоит раза в два или три дороже. Последняя версия по цене — просто идите на хуй. И ни одна из этих версий не годится для работы.

Ах да, представь, как я охуел, когда мне надо было статью перевести, а он ПРОСТО проебал пару абзацев, что-то сократил, оставив текст в стиле "арбузы, бананы и так далее", хотя там надо было весь список перевести. Короче, промпт для перевода нормальный был.

ДАЖЕ ССАНАЯ БЕСПЛАТНАЯ ГОПОТА ТАК НЕ ДЕЛАЕТ.

Аноним 04/05/26 Пнд 17:31:30 #273 №1604857

>>1604849
На попенроутере грок 4.3 выходит за 1,25/2,5 баксов за лям токенов. Это уровень кими/глм, мб даже дешевле. Может, на апи подсовывают лоботомита как fast версии грока 4.1 за копейки, но все равно получается хуета.
Причём, грок 4 был не самым хуевым, но все равно он отсасывал у 4o. У модели 2024 года, когда остальные корпы сделали рывок, не говоря уже о китайских мое моделях.
И главное, машк ещё требует за подписку на десятку больше, а вебморда грока сосёт по возможностям у остальных корпов. Даже сраная эми это говно с клипающимися конечностями и кривым tts, который внезапно может заговорить мужским голосом. Хз, починили ли это говно сейчас, но летом это было очень сырым, будто поднял vrm аватарку с kokoro-tts в таверне.
И если этот долбоеб цензуру добавил, то теперь грок будет только срать в твиттере и генерить сполокартинки, меняя позы и одежду. А кодомакаки и агентодауны платить за это не будут, как и бизнес.
Кстати, где веса грока 3 на hf? Пиздабол обещал еще в августе, что выкатят через полгода. Прошло уже 9 месяцев, а грока нет.

Аноним 04/05/26 Пнд 17:37:35 #274 №1604858

>>1604845
Вот оно как выходит. Ну спасибо за описания, надо будет попробовать. В таком случае 3.2 стоит сохранить, он ведь реально приятный и душевный.

Аноним 04/05/26 Пнд 17:46:57 #275 №1604862

>>1604845
Пойти что ли поставить 3.2 на закачку. Звучит очень вкусно, хотя я 3.2 толком и не гонял на апи, так как его ещё и промптить нужно так, чтобы он не писал будто со стороны.
А почему не 3.1 терминус? Или в рп 3.2 будет лучше?

Аноним 04/05/26 Пнд 18:10:47 #276 №1604867

>>1604833
Да, отлично встанет но и 26б попробуй, она поярче пишет.

Аноним 04/05/26 Пнд 18:11:48 #277 №1604868

>>1604857
>2,5 баксов за лям токенов 500b-a-Xb

Охуительное предложение, да, лол.

4.1 fast со своими 50 центов за лям аутпута был очень хорош. Ну, для своих задач — смачно подрочить, когда устал от локалок, низкой скорости, тупизны, англюсика. За свою цену модель идеальная, а учитывая размеры и МоЕшность, была бы на десяточку в опенсорсе. Даже 4.0-4.1 был хорош в этом плане. Этакий мистраль от мира корпов, который шизовый, но пишет смачно и инструкции как-то соблюдает. А потом цена как скакнула.

Кстати, вот у грока 3 был потрясающий датасет, а этот хуесос его не выложил. Я почти не застал именно третью версию, только тестами успел пробежаться. Именно языковые навыки там были прям отличные, я охуел, когда сравнивал 3 vs 4 чисто по стихам, красоте слопа, пониманию (на коротком контексте). Но у меня есть подозрения, что там не МоЕ, а плотняк. Если выложит, наверняка будет 400б дура, которую никто не запустит. Тогда вообще получится овари да.

И с 4 версии попёрло китайское говно в датасете, прям очень сильно, словно он у Си высосал весь сок.

На 4.3 вообще ризонинг отключить нельзя, по крайней мере в вебе. Всегда будет чекать политику безопасности в первую очередь. А ведь до этого можно было прям в веб-интерфейсе или приложении любой треш отыгрывать. На 4.2 цензуры стало ещё меньше. Даже без джейлов он пускался во все тяжкие. И можно было как мрази сидеть, в месяц миллионы токенов и спермы сливать за 30 баксов. Наверное, оттуда и такая цена, лол. Сейчас же он стал описывать схоже с геммой: ЛОНО, НУТРО, ТВЕРДОСТЬ, ДЛИНА, вот это всё. Не обязательно фиолетовая проза, но избегает вульгарщины, надо прям промптить на неё специально.

Кстати, Эми на андроид так и не завезли даже в голосовом режиме. Там какая-то хуета парашная с древней ТТСкой.

Аноним 04/05/26 Пнд 21:43:57 #278 №1604957 DELETED

Че за хуйня? Локальщики тоже бойкот объявили, как и асиговцы? Или сетки не способны обойти новую капчу?

Аноним 04/05/26 Пнд 21:52:27 #279 №1604960

Чуваки которые советовали для кама использовать на слабой машине гемму e4b
Вы бы знали как она отсосала стоя у Saiga_YandexGPT_8B, и по скорости и по пониманию русского контекста и по тому как она держит нить беседы и интерпритирует русские базы знаний. Я охуел, это ровно то что я искал, похуй на ризонинг, квен и гема в пролёте перед богатой и красочной речью, она держит роль и у нее низкая цензура, то что надо! Слава роботам и советской науке))

Аноним 04/05/26 Пнд 21:54:44 #280 №1604961

Помнится месяц-полтора назад много пиздежа было за какую-то мегапрорывную технологию двухбитного контекста. И что, и где?

Аноним 04/05/26 Пнд 22:12:01 #281 №1604967

>>1604961
Я не знаю точно, но прикол в том что там нужно тратить ресурсы на преобразование контекста. Выходит выигрышь не абсалютный. Если мы говорим об одном и том же...

ого капча по 4 символа.

Аноним 04/05/26 Пнд 22:15:05 #282 №1604969

>>1604961
>мегапрорывную технологию двухбитного контекста
Турбоквант.
>И что, и где?
Делай пулл реквест в Жору, помоги инженерам добавить новую технологию.

Аноним 04/05/26 Пнд 22:27:26 #283 №1604971

>>1604969
Ну форк так-то существует, автор советует использовать -ctk q8_0 -ctv turbo4
https://github.com/TheTom/turboquant_plus

Аноним 04/05/26 Пнд 22:45:29 #284 №1604977

>>1604960
Я самый новый яндекс пробовал и оно очень странное. Сбрасываю лог чата и говорю суммируй с шутками и прибаутками на 1000 слов, квен с геммой выполняют, яндекс пукает буквально 3 короткими предложениями слов на 30. Гигачат последний 10б кстати тоже очень неплохо справляется. А алису походу тренили в чатике односложно отвечать

Аноним 04/05/26 Пнд 22:50:22 #285 №1604979

>>1604961
Увязло где-то в дебрях гитхаба и форков. Те кто попробовали говорят неплохо. Но не двубит конечно. Скорее, срез до Q8 в два раза с качеством F16. Что тоже очень неплохо.
И да, там вычислений больше становится, ми50 какие нибудь могут начать не поспевать флопсами за терабитом ХБМ2, и токены в секунду упадут. Всякий игровой кал с кучей шейдеров и медленной памятью наоборот выигрывает

Аноним 04/05/26 Пнд 23:01:20 #286 №1604985

Заюзал турбоквант. Простое использование 4-битного V-кэша срезало 50% скорости генерации. Пиздец, ну и параша, блядь. А какие вопли были, как акции падали, хррртьфу. Буду дальше на кавраковском хадарде сидеть, походу.

Аноним 04/05/26 Пнд 23:10:35 #287 №1604990

>>1604985
>кривая завайбкоденная имплементация
>ряяя работает как говно обещали золотые горы
да, ты похоже не оче умный

Аноним 04/05/26 Пнд 23:11:03 #288 №1604991

>>1604341
Спасибо, что-то новое, посмотрю.

Аноним 04/05/26 Пнд 23:14:42 #289 №1604994

>>1604979
> ми50 какие нибудь
Уже отхапили своё, сейчас dcu флексят

Аноним 05/05/26 Втр 00:03:46 #290 №1605011

>>1604990
Тоесть ты точно уверен что падение скорости генерации это вина именно имплементации, а не самой технологии, или ты в лужу пукнул просто?

Аноним 05/05/26 Втр 00:22:05 #291 №1605017

https://huggingface.co/Nubinu/Qwen3.5-4B-MiniFantasy
Ебля фифей для самых маленьких потестите кто нибудь на телебоне

Аноним 05/05/26 Втр 00:29:48 #292 №1605018

>>1605011
И то, и другое. Ты совсем тупой, что такие вопросы задаешь?

Аноним 05/05/26 Втр 00:33:52 #293 №1605022

>>1605017
>файнтюн файнтюна файнтюна
Господь оставил нас...

Аноним 05/05/26 Втр 00:48:41 #294 №1605026

>>1605022
Там еще квантизации есть ее. В q2 лучше.

Аноним 05/05/26 Втр 01:34:05 #295 №1605049

B2eEpNnKcR.png

Блин потестил кучу мелких говен на карточке где надо очен точно следовать разметке (симуляция имеджборды) и гигачат 10б выебал всех, даже две мини геммы4 и два квена3.5 (квен 9б подумол на 5000 токенов и я засчитал ему поражение)
Так-то нихуя себе ебака получилась для своего размера. Сейчас на русском попробую запросить

Аноним 05/05/26 Втр 01:39:06 #296 №1605052

>>1605049
А время и нумерацию постов не проёбывает?

Аноним 05/05/26 Втр 01:42:21 #297 №1605056

>>1605052
Два поста одним номером назвал, время нет

Аноним 05/05/26 Втр 02:05:19 #298 №1605061

>>1605049
а кобольда он отыграть может?

Аноним 05/05/26 Втр 02:15:07 #299 №1605064

>>1605061
Кобольда никто отыграть не может, ведь это состояние души.

Аноним 05/05/26 Втр 02:27:53 #300 №1605068

>>1605049
Мда, пока не перешёл на 24+б модельки ничто не реагировало на промпт от system "пиши ответ на русском" в самом конце, либо реагировало раз из пяти (гигачат). Куча англиша (карточка вся на нём) заваливает. Всё таки где-то на этих параметрах грань на которой модель реально думает и держит в голове ВСЁ.
Рассказам про старые чудо модели 12б склонен не-вi-рить

Аноним 05/05/26 Втр 05:59:48 #301 №1605087

1777949989595.png

>>1604815
Нашёл на озоне пикрел, это оно? Но вот только он поддерживает лишь PCI-E 4.0. А т.к. блеквеллы поддерживают 5.0, хотелось бы такой, но найти на озоне или алике я не смог подобное.

Аноним 05/05/26 Втр 08:16:05 #302 №1605107

Аноним 05/05/26 Втр 08:39:54 #303 №1605108

Я только что понял что на английском русские персонажи знают больше русского мата, чем на русском...

Аноним 05/05/26 Втр 09:35:12 #304 №1605123

>>1604985
скорость в сделку не входила, крутить матрицы на хую дело небыстрое. как раз люди и ищут способы оптимизировать скорость

Аноним 05/05/26 Втр 10:20:03 #305 №1605134

1777965606770.png

>>1605087
MCIO

Аноним 05/05/26 Втр 10:21:09 #306 №1605135

>>1605134
Ссылку? Я искал и MCIO тоже, но опять же, нашёл лишь 4.0
И почему именно MCIO, почему нет простого переходника с моего пика?

Аноним 05/05/26 Втр 10:25:21 #307 №1605138

1777965920273.png

>>1605135
> почему нет простого переходника с моего пика?
С какого?

> Ссылку?
https://e.tb.cn/h.ixwnm0URLZFIeJa

> нашёл лишь 4.0
По стандартам mcio должен держать 5.0

> И почему именно MCIO
Других вариантов для псие5 нет. Весь интерпрайз на них

Аноним 05/05/26 Втр 10:27:42 #308 №1605139

Погонял я старый квен 235b в квантах от куртки, и это мое почтение. Фирменной квеновской шизы не так много, отвечает в большинстве случаев адекватно, и как же он выцепляет детали из контекста.
Но этот квен очень чувствителен к квантованию. Q2 ппревращает его в пускающего слюни кумбота, а квант q4_k_l от батрухи меньше шизит, почти не имеет рубленого стиля, но тоже не идеал. У куртки как-то получше получилось.
И не в коем случае не качайте mxfp4, а то будет как раз рубленный стиль, квенизмы и прочая шиза.

Аноним 05/05/26 Втр 10:28:32 #309 №1605140

1777966113105.png

1777966113109.png

>>1605138
C этого. У меня же не интерпрайз, а обычная пека.

>https://e.tb.cn/h.ixwnm0URLZFIeJa
Требует регистрацию и не пускает дальше экрана логина без неё. Я не китаец.

>По стандартам mcio должен держать 5.0
Пик 2

Аноним 05/05/26 Втр 10:34:10 #310 №1605141

1777966454154.jpg

>>1605140
Черные не бери, они от этой конторы говняные. Нормальные зелёные rbs-16g5-2pm5

А как ты будешь впихивать то что приложил? Это обычно для серверов на 1-2 юнита

Аноним 05/05/26 Втр 10:37:52 #311 №1605144

>>1605141
Я так и не нашёл где из РФ взять их. На китайские/интернациональные сайты не зайти, не оплатить. Да и цена какая-то сомнительная. Дешевле чем материнка с нормальными слотами, но геммороя гораздо больше.

Аноним 05/05/26 Втр 10:42:29 #312 №1605146

>>1605144
Ну тут уже сам решай. Может с парой карт и так, но когда нужно карт 6 уже вопрос по другому встаёт

Аноним 05/05/26 Втр 10:57:26 #313 №1605152

>>1605139
Шизопост какой-то.
> Погонял я старый квен 235b в квантах от куртки, и это мое почтение. Фирменной квеновской шизы не так много, отвечает в большинстве случаев адекватно, и как же он выцепляет детали из контекста.
От куртки есть только один квант, NVFP4. Речь про него? Не представляю, почему у него могут радикально отличаться аутпуты от стандартных Q4_K_M квантов Бартовского или AutoRound Интела.
> Но этот квен очень чувствителен к квантованию. Q2 ппревращает его в пускающего слюни кумбота, а квант q4_k_l от батрухи меньше шизит, почти не имеет рубленого стиля, но тоже не идеал. У куртки как-то получше получилось.
Почему ты сравниваешь NVFP4 с Q2? Что я только что прочитал вообще?

Аноним 05/05/26 Втр 11:29:49 #314 №1605162

>>1605049
> гигачат 10б
3 или 3.1 ? Они там обновление выкатили оказывается

Аноним 05/05/26 Втр 11:42:14 #315 №1605174

>>1605049
Хорошая попытка, Герман не гей Оскарович, но я не буду качать этот кусок кала бесплатно.

Аноним 05/05/26 Втр 11:56:35 #316 №1605186

>>1605139
>и как же он выцепляет детали из контекста.
Факты, как же он выцепляет детали
>вручную написанные и продуманные дефы чара и мира на 4к токенов
>среди прочего в первом месседже ради лайтового вайба упомянуто, что чар в прикольных носочках с моржами
>в следующем аутпуте моржики были упомянуты
>в следующем аутпуте моржики снова были упомянуты
>спустя дюжину аутпутов чар уже не чар а истеричка, но моржики по-прежнему на ее стороне
>спустя еще дюжину аутпутов моржики окружены дешами, слопом, структурным репетишеном но не сдаются и поддерживающе смотрят на чара и юзера
>много лет спустя, чар все еще не отошла от истерики а моделька от репетишена, дешей и моржиков
>чекаешь свои 40к контекста и ахуеваешь, ищешь сколько раз были упомянуты моржики, сколько было дешей и как быстро твоя няша-стесняша чарик стала злой шаболдой
>больше не запускаешь эту хуйню
>q5 если что
Двачую разумистов которые поняли что 3.5 27 во всем лучше кроме мб кума

Аноним 05/05/26 Втр 13:07:12 #317 №1605223

Появились какие-нибудь тюны новее и лучше чем старые тюны мистраля для рп на русском? Маленькое, в пределах 12b. Или moe чуть больше

Аноним 05/05/26 Втр 13:10:30 #318 №1605230

>>1605223
https://huggingface.co/google/gemma-4-26B-A4B-it
Аналогов нет, буквально.

Аноним 05/05/26 Втр 13:18:06 #319 №1605238

>>1605223
https://huggingface.co/ReadyArt/Forgotten-Abomination-12B-v4.0

Аноним 05/05/26 Втр 13:18:17 #320 №1605239

>>1605087
Точно не оно
>>1605134
Оно
>>1605140
Со второго пика не бери, он всратый и не держит 5.0
Чтож ты хлебушек такой, а? Совсем искать разучился? Просто первые ссылки из поиска `mcio riser` с маркетплейса для нормисов
https://www.ozon.ru/product/zapchast-dlya-igrovoy-pristavki-3150566513
https://www.ozon.ru/product/blok-pitaniya-pcie-5-0-16x-mcio-dlya-graficheskogo-protsessora-3828801833
Только посмотри внимательно чтобы нужное, лучше взять от одного продавца.
>>1605139
Так и есть, хз что там накрутили в лламе/квантах, но он и в половину не должен быть таким проблемным и припезднутым, как встречается у жалующихся.
А потом можно вспомнить что такая умница была уже год назад, когда из альтернатив щитмиксы мистраля, в ходу еще есть немомистраль, из наиболее умных - лардж, гемма, плотный жлм без контекста.

Аноним 05/05/26 Втр 13:20:55 #321 №1605241

Есть смысл качать васянотюн геммы что тут постят для русика?
Ведь тюн это вжар своего датасета и он там явно не на русском

Аноним 05/05/26 Втр 13:20:58 #322 №1605242

{E3A6674A-45B6-43D0-931A-E78FBCE03ECC}.png

{6C6CDF80-BC7C-46E8-9AC5-8B4A21BD5040}.png

Как думаете хорошая задумка довавить к 64 гб еще 32. Было и стало

Аноним 05/05/26 Втр 13:21:50 #323 №1605243

>>1605239
>из наиболее умных - лардж, гемма, плотный жлм
Ты типа такая же ллмка как и >>1605139 или почему ты 32б кривой плотняк ставишь в один ряд с ларджом?

Аноним 05/05/26 Втр 13:23:32 #324 №1605244

>>1605241
А что ты получить хочешь? Сисик и писик + csam (для особо отбитых) промптом разрешается и даже прогревать не нужно

Аноним 05/05/26 Втр 13:28:15 #325 №1605245

>>1605244
Ну говорят это тупа лучше обычной геммы, но гемма на англюсике меня не интересует

Аноним 05/05/26 Втр 13:30:06 #326 №1605248

>>1605245
Проверь тогда. Пока у большинства хф работает без букв.

Имхо гемма 31 хороша и в стоке + промпт

Аноним 05/05/26 Втр 13:30:45 #327 №1605250

>>1605241
В треде очень переоценивают "вжар" датасета. Если тренировка проходила на английском, это вовсе не значит, что на других языках способности модели улучшатся. В качестве ассистента я Меро 26б использую каждый день и пока проблем не видел. Рпшить не пробовал, потому что я русик обычно обхожу стороной, но в последнее время стало интересно попробовать, что чуть позже и сделаю. А ты почему сам не попробуешь и не решишь для себя? Нужно чье-то мнение, а не свое? Зря.

Аноним 05/05/26 Втр 13:31:17 #328 №1605252

>>1605250
ухудшатся* очевидная очепятка

Аноним 05/05/26 Втр 13:34:58 #329 №1605254

>>1605243
Датфил, когда кобольд глупее ллмки. Объявление группы выпало за контекстное окно и триггернулся что стоят рядом.

Аноним 05/05/26 Втр 13:44:04 #330 №1605258

Как же мое гемма задолбала с it's not X but Y. Стоит один раз сгенерироваться - всё, потом будет 3-4 таких структуры на реплай в 500 токенов. Вообще за структуры цепляется похлеще немо, как и за всякие выделения италиком или апострофами, многоточия и прочее. Можно попробовать переписывалку последнего ответа через квик реплаи набросать, но чё-т сомнительно, что эта мелкота осилит нормально переписать. Хотя с думалкой мб есть шансы.

Аноним 05/05/26 Втр 13:44:19 #331 №1605259

>>1605242
Выглядит как хуйня. Пикрил 2х48 гигов.

Аноним 05/05/26 Втр 13:49:35 #332 №1605261

>>1605239
> он и в половину не должен быть таким проблемным и припезднутым, как встречается у жалующихся.
Ну вот, на жоре модель цеплялась за босые ноги у чара, хотя она пост назад была обута. Да и много хуйни и зацикливания на мелочах было.
Но справедливости ради, и сама модель с причудами. То может ответить пустотой, то может шизить и повторяться, всирая блок кода там, где он не нужен, или просто обсираться с разметкой инструментов. В плагинах, где системный промпт 30к токенов, это прям была боль.
Поэтому квен, конечно, умничка, но в рабочих задачах более новые квены будут лучше. Но всё же интерпретация характеров у квена весьма интересная, которая позволяет его развивать. Глм все же сам развивает характеры вяло.
>>1605152
Чел, калибровка при квантовании, сам метод квантовования, плюс влияние бэкенда тоже есть. Не могу ничего сказать про жору, батруху, но квант анслота шизил больше, прям пиздец безмозг. У батрухи получше, но своих проколов хватало.
Посмотрим, может, у куртки свои приколы есть.

Аноним 05/05/26 Втр 14:18:05 #333 №1605276

>>1605261
> и сама модель с причудами
Припезднутая местами. Но не фатально, с учетом плюсов можно приспособиться и инджоить, а на момент релиза это вообще имба.
Кстати, она даже со всякими современными ассистентами типа опенклоу, где надмозговые вызовы и полуотсутствующая документация с нейрослопом, справляется и довльно мило себя ведет. Но вл версия - ультраднище, к тому же соевое.

Аноним 05/05/26 Втр 14:18:50 #334 №1605278

А ведь все эти нейронки, хуйня муйня, новые технологии - всё это "новое" придумали ещё в прошлом веке, но мощностей не было реализовать. Сидели бы мы с нейронками уже в 90-х были бы современные пк.
Это я к чему... всё выглядит очень печально для нас сейчас, неиронично может быть так что нам придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально. И нет, если дипсик 1.6т могут запустить локально, это не значит что можешь ты.
Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте, понимаете? Когда даже нищий школьник сможет её запустить на геймерском пк, зевнуть и выключить, причитая как предки на этом лоботомите кумили

Аноним 05/05/26 Втр 14:20:08 #335 №1605279

>>1605278
>понимаете?
Нет. Тебе похмелиться бы

Аноним 05/05/26 Втр 14:21:49 #336 №1605280

>>1605242
Это встанет ценой как новенькая 5060 ти. Ты ебобо? Лишний врам всегда лучше озу

Аноним 05/05/26 Втр 14:26:46 #337 №1605282

>>1605278
>нам нищим придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально
В этом да. В остальном нет. Люди с ригами вполне могут запустить кими в высоком кванте и охуеть. Какой там датасет у кими? До 2023-24? Ну, вполне неплохо, для куминга и кодинга вполне сойдёт. Для чего ещё нужны локальные нейронки - хз.

Аноним 05/05/26 Втр 14:29:49 #338 №1605285

>>1605278
>всё это "новое" придумали ещё в прошлом веке
Нет не придумали, есть большая разница между упрощенной идеей без понимания того как ее использовать, без датасетов и без оборудования. И собственно пониманием того что так то и так то мы может обучить нейросеть и что она будет умнеть лишь при миллионах - миллиардах параметров. При понимании того как формировать датасет, как заниматься обучением, как обучать и как потом использовать.

Аноним 05/05/26 Втр 14:51:45 #339 №1605292

Решил проверить Гемму на русском. Перевел карточку, там в описании "шоколадно-карие глаза".
Гемма:
> она убрала руку, открывая один шоколадный глаз
Капитулировал. Пока хз, такое. Вроде не так печально, как раньше, но все равно кринжую. Описание глаз после такого сменил, конечно.

Аноним 05/05/26 Втр 15:02:20 #340 №1605299

>>1605278
А если взять младенца из античности и свапнуть с тобой - у него есть все шансы достигнуть большего чем ты. Имаджинируй насколько ты недооцениваешь устаревание нового.
> придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально
Гап 3-6 месяцев если обладатель наличия, или около года для получения 90-95% от корпов на десктопном железе.
> Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте
30iq мышление, когда обезьяна строит самолет из бананов. В игры никто не станет добавлять гигантские древние ллм общего назначения, это бессмысленно и абсурдно. На первых этапах там будет мелочь, четко выполняющая свои задачи, или просто облака. А потом с развитием темы, сами игры и геймерские пеки будут отдаляться от привычного алкоскуфам. Движки будут выстраиваться вокруг моделей, помимо фпсов будут буквально замерять топсы.
>>1605292
В голос

Аноним 05/05/26 Втр 15:04:39 #341 №1605302

>>1605292
Оставь оригинальную карточку и просто допиши что бы на русском писала ежжи

Аноним 05/05/26 Втр 15:09:30 #342 №1605305

>>1605278
Тут рофл в том, что нейронки можно гонять и тренировать на текущем кремниевом нанометровом железе. Где-нибудь в параллельной вселенной 30 нанометров для микросхем - потолок. Или более менее модель начинается с 300б.

Аноним 05/05/26 Втр 15:16:12 #343 №1605311

>>1605278
> Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте, понимаете? Когда даже нищий школьник сможет её запустить на геймерском пк, зевнуть и выключить, причитая как предки на этом лоботомите кумили
манямир. в будущем не будет никакого геймерского пк, у всех будет терминал на который будет стримится твоя игра, соответственно и никаких нейронок на твоём компе не предусмотрено.

Аноним 05/05/26 Втр 15:19:28 #344 №1605318

>>1605285
я разделяю позицию отсюда https://bitterlesson.ai/
компьют > всё что учёные ручками могут нахуевертить

Аноним 05/05/26 Втр 15:32:24 #345 №1605326

>>1605311
>манямир. в будущем не будет никакого геймерского пк, у всех будет терминал на который будет стримится твоя игра
Манямир у тебя. Не будет этого - гугл со своей stadia уже пытался физику наебать. Закономерно не получилось.
Гугли: скорость распространения оптического и электромагнитного сигналов в твердой среде. Физика - сука, даже скорость света в вакууме конечная. Потому, отклика без лагов не получается, а оно для игр критично. И как минимум жанры экшен, FPS, TPS, флайт и рейс симы - идут по пизде с таким подходом.

Аноним 05/05/26 Втр 15:36:09 #346 №1605328

>>1605326
>Потому, отклика без лагов не получается, а оно для игр критично.
И поэтому игры обмазывают DLSS, дегенераторами кадров и нейрослоп фильтрами до задержек в 200мс, лол. Так что когда встанет вопрос борьбы с пиратством (денуво ВСЁ, поэтому уже скоро), все вычисления перенесут на сервер, а локальный ПК будет из примитивов через DLSS6 выдавать кино с одинаковыми ебалами.

Аноним 05/05/26 Втр 15:39:35 #347 №1605330

>>1605326
Там даже не сколько проблема во времени передачи данных между цодом и терминалом, а в задержке энкодера/декодера. И эта хуйня ещё и хуево параллелится, из-за чего при наплыве игорьков будут лаги, фризы, да и картинка будет рассыпаться.
Да и ИИ ускорители игрульки запустить не могут, поэтому при крахе ИИ пузыря придётся менять и железо, которое любезно предоставит куртка.

Аноним 05/05/26 Втр 15:48:10 #348 №1605335

>>1605326
пруфы что обсёр по части физики а не реализации/хуёвой бизнес модели/вставить нужное?
50-100мс без ощутимого джиттера реально добиться, не сейчас так через 10 лет. а киберкотлет кому даже это критично не так много как ты думаешь.

Аноним 05/05/26 Втр 15:49:07 #349 №1605336

>>1605328
>И поэтому игры обмазывают DLSS, дегенераторами кадров и нейрослоп фильтрами до задержек в 200мс, лол.
Чел, ты бредишь. Уже на мониторах с задержкой отклика в 20ms играть не комфортно (8ms - это borderline, от которого половина геймеров нос воротит, и за дело), в сетевой игре пинг выше 30-40 - это уже стрельба в "тень", а не в реальное место, где твой противник сейчас. Я еще помню модемы и пинг под 100-120 - это чистый рандом, где скилл уже ничего не решает.
Все эти DLSS - там задержка немного другого типа. Если ты долю секунды большую детализацию текстуры не видишь, но уже понимаешь где находится объект по его базовому изображению - это еще терпимо. А если задержка между нажатием клавиши и откликом игры - это пиздец. Игра через стрим - второе.

Аноним 05/05/26 Втр 15:49:20 #350 №1605338

1.png

2.png

3.png

>>1605241
Вот тебе немного логов с Меромеро 26б, Q8. На английском она мне нравится больше, чем инстракт. Мозги не потеряла, слопится гораздо, гораздо меньше. На русском - не знаю, не пробовал инстракт на русском, сравнивать не с чем. 31б справилась куда хуже, подозреваю ввиду квантизации: могу только Q4 запустить.
>>1605302
Попробовал сначала так: ничего не переводил, подавал инструкцию отвечать на русском. Так у нее длинее ризонинг, охотнее ломается форматирование и прочие нюансы возникают, вроде неестественных англицизмов и реплик(они в любом случае будут, вопрос в их количестве). Перевел все полностью на русский - и карточку, и инструкции, стало чуть лучше. На самом деле результат приятно удивил. Пользоваться можно, особенно если не знаешь английского совсем. И правда, на русике в целом есть жизнь. На английском пишет лучше, конечно, но с Геммой 4 разрыв серьезно сократился. Хорошо живем в этом году. Есть мелкие косяки, вроде переход с "вы" на "ты" и наоборот, без консистентности. Узнаю также некоторые обороты, словно переведенные с английского (видел их английскую версию в прошлых чатах), но это пустяки. Чат тот доиграл до 30к контекста. Нормально справляется, иногда приходилось свайпать, но ничего криминального. Не понимаю тех, кто заявлял, что Меро сломала русик. На квантах поменьше и инстракт пишет так себе, проверил только что на паре свайпов Q4.

Аноним 05/05/26 Втр 15:51:44 #351 №1605339

>>1605338
>инпуты по 200-300 токенов
Ох лол...

Аноним 05/05/26 Втр 15:55:42 #352 №1605340

>>1605338
>31б справилась куда хуже
Имеешь ввиду на русике 31б в 4 кванте хуже 26б мое в 8? Рили?

Аноним 05/05/26 Втр 15:57:12 #353 №1605342

>>1605339
Так обычное же дело, лол. GIGO (Garbage In - Garbage Out) во всей красе: хочешь хороших аутпутов, значит и сам пиши хорошо. Гемма особенно чуткая к таким вещам. Например, будешь лениться и начинать свои инпуты с {{user}} или еще какой одинаковой секвенции, уже через пару аутпутов она словит структурный луп.
>>1605340
Да, именно это и имею ввиду. 31б Q4 хуже справилась на русском, чем 26б Q8. Но это лишь мой опыт, может я не прав.

Аноним 05/05/26 Втр 16:00:25 #354 №1605347

>>1605336
Ты смешиваешь единичных киберкотлет с кс го и большинство, которое вообще с гейпада играет и которому даже ниер автомата норм там задержка в секунду была из-за кривого порта.

Аноним 05/05/26 Втр 16:06:23 #355 №1605351

>31б Q4 хуже справилась на русском, чем 26б Q8
Сука быстро созывайте риговиков пусть сидят тестят русик 31б плотняшу вс мое в 16 весах

Аноним 05/05/26 Втр 16:09:00 #356 №1605353

Неужели сидя на 4 кванте я что то теряю?
Мне сказали у нас потерь нет. Я прилигирован а терпят только чушпаны в с 16 врам

Аноним 05/05/26 Втр 16:09:19 #357 №1605354

>>1605351
так тестов нема, кто во что горазд. зелёного слоника чтоли тестить?

Аноним 05/05/26 Втр 16:09:45 #358 №1605355

>>1605342
Так гига это и есть тест на инту модели. Если ты гарбажишь инпут, но в атпуте какая-то годнота, подпитанная тем что заложено в модель, карточку и промт, значит нейронка красава и справилась. А вот если модель в ответ на хороший инпут срёт в штаны в ответ, то, ну, сам понимаешь, с такой моделью хорошее рп не сложится.

Аноним 05/05/26 Втр 16:12:58 #359 №1605358

>>1605351
Ну мое мне не зашла, а 31 особо разницы между ф16 и к8 не заметил кроме скорости :/

Аноним 05/05/26 Втр 16:14:07 #360 №1605359

>>1605353
>рилигир
Ебать тебя заквантовало...

Аноним 05/05/26 Втр 16:21:31 #361 №1605361

>>1605326
В любом случае будет комбинация алгоритмического-быстрого и нейросетевого-медленного, и слои "мгновенных" нейронок. Так что чисто технически, гибридный подход с частичными облаками возможен.
Но вероятнее что будет разделение также как и сейчас на возможность локального запуска в разных масштабах, и облачное с переменным качеством и квотой. Найдутся как те, кто готов хавать подписки с лопаты, так и те, кто согласен купить игрушку подороже для себя-любимого.
Там хватит других минусов помимо задержки.
>>1605335
> Вы обмазались фекалиями и от вас воняет
> Пруфы?! Все не так однозначно, ведь коричневый цвет имеет также шоколад, а вонь не так критична.
Суть. 100мс это уже неприятно, а если говорить про рендер и отклик, за который вы сретесь - это пиздец неюзабельно.
>>1605353
> Я прилигирован
Лол

Аноним 05/05/26 Втр 16:27:40 #362 №1605362

>>1605361
>Суть. 100мс это уже неприятно, а если говорить про рендер и отклик, за который вы сретесь - это пиздец неюзабельно.
если видимокарты станут отпускать по цене скажем подержанной легковушки, многие я думаю согласятся что запах кала не так уж и критичен.

Аноним 05/05/26 Втр 16:28:42 #363 №1605364

>>1605342
>будешь лениться и начинать свои инпуты с {{user}}
Нихера это не повлияет на луп, потому что модель цепляется в основном за свои реплики. И там пофиг даже, чередуются регулярные инстракт теги модели и юзера или весь чат в инпуте. В последнем случае просто будет структуру после {{char}} повторять.
На логах выше как раз это видно, как модель подцепила из гритинга фразу с многоточием и тащит её почти всю дорогу. Как и остальную структуру, типа "нарочно оставила фразу незаконченной", "она сделала паузу, позволяя словам" Повторение стуктур жестов, повторение хуйни про интонацию. И ты можешь хоть стихами от юзера писать, модель так и продолжит лупиться.

Аноним 05/05/26 Втр 16:29:56 #364 №1605366

>>1605362
Будет просто стагнация всей индустрии

Аноним 05/05/26 Втр 16:36:18 #365 №1605372

>>1605364
Любая модель рано или поздно уйдет в репетишен, как ни крути семплеры и инпуты, тут ты прав. Потому что сама природа сторителлинга и рп репетативна, как ни креативь. Проблему можно отсрочить, вырезая ненужное или более вдумчивыми инпутами. В моем случае действительно чат парсится за раз, без мультитурн разметки. Троеточие действительно тянется. Правда не знаю, связано ли это с лупингом. Гемма в принципе любит троеточие, а здесь тюн, где троеточих много в датасете (Блюстар также делает, он тоже от автора Меро) и сам чар с ara-ara вайбами, что часто и триггерит такое поведение для многих моделей. Взглянул сейчас на предлагаемые ллмкой гритинги, и там почти везде есть троеточие, хотя ранее их в контексте нет. У геммы плохое разнообразие свайпов и она так энфорсит характеры персонажам, подозреваю.

У тебя есть секретное знание о победе над лупами или ты просто веришь, что это поведение с которым нам всем придется смириться?

Аноним 05/05/26 Втр 17:20:07 #366 №1605396

>>1605372
самоподкрепление всегда будет к деградации вести. можно агентов с переписывалкой присрать, ну или ручками по старинке.
были же всякие мехинтерп статьи где декомпозировали активации, беда в том что у повторения нет одного конкретного нейрона который можно давануть и всё починится.
нужно обучать модели чтоб на определённом классе задач повтор был не выгоден, но как это поможет в бенчмарках? никак

Аноним 05/05/26 Втр 17:50:58 #367 №1605406

>>1605372
>У тебя есть секретное знание о победе над лупами
К сожалению нет, сам горю с этой фигни. Иногда помогает удалить кусок ответа и заставить дописывать немотьюном, лол. Они тоже дико лупятся, но по-другому, и внезапно структуру ответов геммы не подхватывают. А так я только к тому ответил, что выпендрёж в писанине за юзера тут не поможет. Хотя сам стараюсь отвечать больше двух предложений. Сам репетишен, думаю, не из-за рп датасета, а из-за тренировок на ассистента, где модель учат переваривать по сто раз одно и тоже. В литературе таких залупов нет, так что обучение без косяков на большом датасете могло бы улучшить дело. Да и в описании Меро сказано, что побороть структурные лупы не удалось, т.е. они из ванилы тащатся.

Аноним 05/05/26 Втр 17:59:04 #368 №1605410

Накатил я етот квен 3.5 без цензуры, а он туповат, в целом туповат. Или он наоборот умный типа? Я просто накатил нихуя не разбираясь ни в чем.
А если я отдаю ему контроль во всяких утехах он вообще начинает один и тот же текст высирать вне зависимости что я написал.
35 кстати ставил, в LMStudio.
По поводу скорости было около 20+ токенов. Это норма для amd 7800x3d 5070ti и 32 гига оперы? Такое ощущение что нет

Аноним 05/05/26 Втр 18:01:42 #369 №1605411

Аноним 05/05/26 Втр 18:04:15 #370 №1605412

>>1605410
> накатил нихуя не разбираясь ни в чем
Начинай разбираться

Аноним 05/05/26 Втр 18:19:07 #371 №1605421

кстати насчет семплеров вот например относительно недавняя статья
https://arxiv.org/pdf/2504.20131
прикольная идея штрафовать на основе сжимаемости, так что мб со стороны декодеров ещё увидим какие-нибудь улучшения

Аноним 05/05/26 Втр 18:20:27 #372 №1605422

Какой самый опасный Qwen3.6-35B-A3B?

Аноним 05/05/26 Втр 18:30:07 #373 №1605425

>>1605422
Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive

Аноним 05/05/26 Втр 18:31:22 #374 №1605427

>>1605421
А годно вообще. Только неоче понятно как применить при обычном семплинге, вот что-то аля бимсеарч тут было бы хорошо. Возможно со спекулятивным декодингом если совместить то выйдет норм, но это только фуллврам.

Аноним 05/05/26 Втр 18:49:53 #375 №1605433

>>1605425
Что лучше работает для хорошо прописанных тяжелых карточек с лорбуками и историей этот мое квен или гемма мое?

Аноним 05/05/26 Втр 18:58:00 #376 №1605435

>>1605427
без задней мысли, в чём проблема?
кмк проблема в том что он никак не спасёт от перефразирования. ну зато мог бы пофиксить бесконечный ризонинг китайских моделей например.
и да были попытки улучшить тот же бимсерч типа
https://arxiv.org/abs/2202.06417
https://arxiv.org/abs/2407.18698
чтобы исходя из похожести по эмбеддингам штрафовать, вот это уже помогло бы и от перефразирования, но чёт никому не интересно это реализовывать в бекендах

Аноним 05/05/26 Втр 19:03:28 #377 №1605437

>>1605435
Без задней мысли можно, но у повторений, паттернов, лупов и т.д. есть подводка, первые несколько повторяющихся токенов семплер может пропустить, а потом менять уже поздно - для лучшего результата нужно откатывать в момент начала фразы.
> исходя из похожести по эмбеддингам штрафовать
А почему бы и нет.
Для рп можно попробовать реализовать не залезая в бек, а лишь запрашивать логитсы и семплить самому. Когда-то давно у убабуги так HF обертки бэков были реализованы, штраф к скорости там небольшой. Можно накодить это в виде простого прокси.

Аноним 05/05/26 Втр 19:08:02 #378 №1605439

>>1605433
гемма для кума, квен для рп, у него контекст более цепкий.
и лучше плотные брать, хотя гемма мое вполне сочно пишет.

Аноним 05/05/26 Втр 19:21:25 #379 №1605444

This model card is for the Multi-Token Prediction (MTP) drafters for the Gemma 4 models. MTP is implemented by extending the base model with a smaller, faster draft model. When used in a Speculative Decoding pipeline, the draft model predicts several tokens ahead, which the target model then verifies in parallel. This results in significant decoding speedups (up to 2x) while guaranteeing the exact same quality as standard generation, making these checkpoints perfect for low-latency and on-device applications.

https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant

Аноним 05/05/26 Втр 19:21:52 #380 №1605445

Н О В А Я Г Е М М А
О
В
А
Я
Г
Е
М
М
А

https://huggingface.co/google/gemma-4-31B-it-assistant
https://huggingface.co/google/gemma-4-26B-A4B-it-assistant
https://huggingface.co/google/gemma-4-E4B-it-assistant
https://huggingface.co/google/gemma-4-E2B-it-assistant

Аноним 05/05/26 Втр 19:26:38 #381 №1605446

>>1605445
>>1605444
Драфтеры рили такие крошечные?

Аноним 05/05/26 Втр 19:30:03 #382 №1605447

>>1605445
так. и как их использовать то?

Аноним 05/05/26 Втр 19:32:13 #383 №1605449

>>1605444
Для нее же вроде уже игла натренили, зачем?

Аноним 05/05/26 Втр 19:33:50 #384 №1605450

>>1605445
Как это запускать?

Аноним 05/05/26 Втр 19:37:49 #385 №1605452

>>1605446
Always has been

Аноним 05/05/26 Втр 19:46:17 #386 №1605457

>>1605447
>>1605450
На жоре пока никак, надо ждать апдейта.

Аноним 05/05/26 Втр 19:54:44 #387 №1605459

Попробовал https://huggingface.co/mradermacher/granite-4.1-Queen-30b-GGUF что бы не пришлось вам.

1. Запуск - ояебу размер контекста - "гемма подержи мое пиво"
2. Безмозг
3. Русик сильно так себе - Перевод китайский русский буквально по словам без какой либо художественной обработки и перестроений приложений.
4. РП - никакущее следование карточке.
Снес нахрен.
Вывод не все плотные модели одинаково полезны.

Аноним 05/05/26 Втр 19:56:26 #388 №1605460

>>1605459
> ояебу размер контекста
На вллм не заметил. Запускал ф16

Аноним 05/05/26 Втр 19:57:26 #389 №1605461

>>1605460
А, бля, у меня был сток, а не говнотюны

Аноним 05/05/26 Втр 20:28:36 #390 №1605475

>>1605445
Похуй, будь она хоть х10 быстрее.
До геммы я не осознавал насколько решают свайпы. Такого уныния в рп еще не испытывал, это как жизнь, сколько и что не меняй результат всегда один - смерть

Аноним 05/05/26 Втр 20:48:18 #391 №1605491

>>1605444
Что то мне подсказывает, толку при запуске в гибридном режиме не будет, только фулл врам. А это значит что -1гб для контекста для тех кто уместит в врам.

Аноним 05/05/26 Втр 20:51:20 #392 №1605492

>>1605475
> Похуй, будь она хоть х10 быстрее.
Как раз нет.
> До геммы я не осознавал насколько решают свайпы
С такой скоростью можно еще агрессивнее использовать инстракш лорбуки и реализовать себе подобие свайпов. {{random::a::b::c}}

Аноним 05/05/26 Втр 20:51:49 #393 №1605493

>>1605437
>для лучшего результата нужно откатывать в момент начала фразы
а ну да, это как обычно. или так или лукахед
но для поиска с контрастом скрытые состояния нужны, отдаст ли лама их просто так

Аноним 05/05/26 Втр 21:11:52 #394 №1605506

>>1605493
В целом если там тексткомплишн то можно и прокладкой откатывать в начало фразу, или сделать адаптивный откат с нарастающим штрафом, или по крутизне логитсов. Там тогда для стриминга держать буфер по размеру максимального отката, не повлияет на юзерэкспириенс за исключением коротких пауз когда слоп фильтруется.
> отдаст ли лама их просто так
Есть заготовка llama-eval-callback, можно попробовать оттуда выбернуть и завайбкодить в сервер. Ну то есть это не трудно, это долго.

Аноним 05/05/26 Втр 21:23:18 #395 №1605518

>>1605459
Давно уже известно, что рп это ТОЛЬКО к35-27б. И ето тюны. Гемма и мысраль - тупые кумботы.

Аноним 05/05/26 Втр 21:31:38 #396 №1605522

>>1605445
Спросил у гемы она сказала что кумать лучше в старую мое, в эту кумать хуже будет.

Аноним 05/05/26 Втр 22:00:28 #397 №1605531

>>1605475
>>1605492
Игрался тут со скриптингом таверны через квик реплаи. Сделал такой сет:
-первый скрипт генерирует запрос предложить четыре варианта развития рп, кладёт генерацию в переменную
-второй скрипт учитывает эту переменную в промпте и делает ещё две генерации. Одну с постхистори инструкцией, что юзер выбрал random::1::2, а вторую - random::3::4. Первый ответ посылается от чара, а второй свайпом.
Использование подразумевает пустые system message суффикс и постфикс, и что в последнем ответе ассистента идёт закрытие думалки. С думалкой в переменную помимо плана закинется собственно думалка и будет там мешать. А если у системного сообщения (это не системпромпт, если что) будет суффикс, то промпт закроется им, ломая разметку. Сами ответы можно и с думалкой генерить, но я тоже в них добавил последний префикс ассистента и ещё имя чара. В общем, я формат под себя подгонял, промпты надо под инстракт индивидуально подбирать и проверять в консоли, что все turn, переводы строк и прочее на месте.
json для импорта в квик реплаи https://pastebin.com/tnqMwJ5Q
Можете поиграться, если кто хочет. Работает вроде логичнее, чем рэндомные вот это повороты или инжекты из заготовленного списка. Но иногда предложенные варианты подразумевают больше одного ответа, а самого инжекта с этими вариантами при следующем ответе уже не будет.
Сам промпт на запрос вариантов можно сложнее сделать, как во всяких CYOA промптах, только для вариантов ассистента, а не юзера. Можно посылать только один ответ или по аналогии все ответы сделать с разными выбранными вариантами, сделав три свайпа сразу. Вероятно, проще было генерить план отдельным сообщением в чат по типу stepped-thinking тредовичка, но это потом регексами или через \hide тогда скрывать надо. Я хотел попробовать сделать без дополнительного месседжа.

Аноним 05/05/26 Втр 22:07:45 #398 №1605535

>>1605412
Ну ок по гайду для нюфани накатил гемму все заработало, но кинул картинку и он отказался ее разглядывать по очевидным причинам. Просто скопировал квен но ему тоже нужен етот мморпг файлик. Ебать а где его брать то?

Аноним 05/05/26 Втр 22:10:29 #399 №1605536

>>1605535
Ладно не важно скачем другой квен где мморпг есть

Аноним 05/05/26 Втр 22:11:09 #400 №1605537

>>1605535
Там же где брал кванты. В тюнах и АПАСНЫХ моделях mmproj может не лежать, а вот в основных - что у Бартовски что у анслотов лежать должны. mmproj от основной модели подходит и на все ее тюны.

Аноним 05/05/26 Втр 22:11:57 #401 №1605538

Кто катает мелкомодели, посоветуйте какой-нибудь тюнчик на мистраль 12B. Несколько дней не будет доступа к компутеру, будет только мощне 2 гига 3 ядра нотбук под рукой, а кумить как-то надо.

Аноним 05/05/26 Втр 22:14:23 #402 №1605540

Я достиг дна. В смысле, я заебался читать одно и то же.

Гуню (вернее рпшу) уже месяца 4, и все паттерны приелись. Пробовал: гемма 3 (нормпрезерв), гемма 4 (31 и 26 сырые и меромеро), цыдония, магидония, цыдомс, короче мистраль 24б от драммера и все производные, шизомерджи от ДавидАУ, квены всех видов - и сырые, и блюстары, валькирия на немотроне 49б, в самом начале сноудроп, и еще что-то из старой шапки.

На 3-4 дня залип в skyfall 31b (не гемма 4, от драммера какая-то хуйня относительно новая) - она довольно сильно отличалась от того, что я читал до этого. Была тупее в сложных сценариях, но давала сюрпризы в более простых, правда приходилось редачить часто. Но все равно был глоток воздуха.

Есть ли у вас такая какая-то модель, которую вы берете чисто чтобы перезагрузиться? До 32б желательно. МоЕ не очень люблю, как будто при этих размерах они себя ведут очень нестабильно. Но буду рад любым не особо стандартным рекомендациям.

Аноним 05/05/26 Втр 22:17:34 #403 №1605542

>>1605540
Указывай в промте в духе каких писак писать и открывай для себя новый мир.

Аноним 05/05/26 Втр 22:19:00 #404 №1605543

>>1605537
Ну вон выше скинули Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive, там и ммпрож сидит.
Я только не особо понял из гайда. Вот на примере этой модели, она я так понял МОЕ, то есть часть сидит в враме другая в раме. В сумме памяти у меня 32+16=48, значит я могу самую жирную скачать Q8_K_P на 44 гига? Помещается ведь типа.

Аноним 05/05/26 Втр 22:20:00 #405 №1605545

>>1605542
Я только классических знаю... Да и что-то мне подсказывает, что это сработает разве что на первых 10 реплаях. Читать куколдские фантазии Бунина конечно было забавно в школе, но я понял, что это не для меня. Да и я на инглише РПшу, а из их писак я читал только две с половиной книжки

Аноним 05/05/26 Втр 22:22:18 #406 №1605546

>>1605540
Попробуй Command-R 32b. Модель старая, и не сказать что прям умная, по нынешним-то меркам, но цензуры считай нет (на уровне мистраля 24b, эйра и новой геммы). Хороший русский язык. Слог отличается от попсовых моделек. ДУША™ присутствует. Для перезагрузиться - самое оно кмк.

https://huggingface.co/bartowski/c4ai-command-r-08-2024-GGUF

Аноним 05/05/26 Втр 22:22:45 #407 №1605547

>>1605545
У тебя гугл есть, ленивая жопа. Я тоже понятия за порнушных баренских авторов не имел. Пришел к корпу и давай ему ныть в чат, чтобы он мне привел писак по порнушным жанрам. Этот для ебли андроидов, другой для мохнатых, третий для любителей быть под каблуком и прочее.

Аноним 05/05/26 Втр 22:26:14 #408 №1605548

>>1605546
Спасибо!
С цензурой у меня проблем никогда не было, даже на самых соевых моделях, потому что сценарии очень elaborate, так сказать. Но коммандера я не трогал, чисто из-за того, что видел 2 years ago.
>>1605547
По твоему опыту мелкомодели до 32б могут поддерживать стиль этих авторов? Типа, это же не какие-то культурные иконы наверно, даже если их книжки есть в дате, у них наверно маленький вес был

Аноним 05/05/26 Втр 22:31:43 #409 №1605549

>>1605542
Это не работает. Ты убедил себя, что работает, но это не так. У моделей очень слабое понимание того как отдельные писатели собственно писали. Даже у жирнокорпов. Жанр указать - норм, конкретного писателя/режиссера - это себя убеждать, что что-то работает.

Аноним 05/05/26 Втр 22:50:13 #410 №1605558

>>1605548
>По твоему опыту мелкомодели до 32б могут поддерживать стиль этих авторов?
Тут да, проебался. Но! В принципе, теоретически, популярные авторы должны быть в датасете. Проблемы начинаются с нишевыми фетишами.

Аноним 05/05/26 Втр 22:55:08 #411 №1605561

>>1605546
>>1605548
БЛЯТЬ, проиграл. Буквально второй реплай... Щас попробую переписать карточки, надеюсь поможет.

Аноним 05/05/26 Втр 22:59:45 #412 №1605563

>>1605549
> Жанр указать - норм, конкретного писателя/режиссера - это себя убеждать
Ты пишешь автора, жанр и стили письма характерные для автора. И происходит магия.

Аноним 05/05/26 Втр 23:01:17 #413 №1605564

>>1605563
Ну покажи эту магию тогда. Я сколько ни пробовал не получалось. Приведи примеры промта и что на выходе.

Аноним 05/05/26 Втр 23:01:30 #414 №1605565

>>1605563
>жанр и стили
Ну вот это и работает. А не указание автора.

Аноним 05/05/26 Втр 23:04:36 #415 №1605567

>>1605563
Смотря на какой модели. Большинство новых ассистентов скорее зациклится на конкретных фразах и словах, которые ты вписал в примеры, нежели чем будет устраивать вариации на тему, чего как раз хотелось бы. Даже если эксплиситли указать, что это ТОЛЬКО ПРИМЕРЫ, БЛЯТЬ, ПРИДУМАЙ ЧЕНИБУДЬ СУКА ДРУГОЕ.

Я так как-то пробовал и гемму, и квен заставлять использовать более эксплисит слова, когда они описывают... кое-что. Они блять по очереди их просто ротировали, и не просто ротировали, а делали это нарочито специально. Они как будто каждый реплай на протяжении 30к токенов ролеплея выстраивали ТОЛЬКО вокруг того, чтобы подвести его к ситуации, когда использование этих слов/фраз будет типа логично.

Аноним 05/05/26 Втр 23:04:37 #416 №1605568

>>1605564
Ты не можешь в промте указать какую нибудь Анаис Нин (кого уж очевидней)? Пишешь про sensual, first person и бла бла бла. И сравниваешь вывод на своей модельке. Glm 5 прекрасно все подхватывает. Но у меня авторы нишевые и фетиши специфичные. Так что сорян, скринов не будет. Мне стыдно, лул.

Аноним 05/05/26 Втр 23:04:56 #417 №1605569

>>1605543
>я могу самую жирную
Теоретически да. Практически - оставь гигов 5 на операционку и браузер. И mmproj тоже не из воздуха сделан. И на контекст пару гигов оставь. Не жадничай - начни с 5 кванта. И чтоб ты знал заранее Qwen3.6-35B-A3B - так себе для РП . Qwen3.5-35B-A3B не так пережарен программизмами. И аблитерацию лучше брать от llmfan46 - по крайней мере он честно документирует результат и не стесняется выкладывать полные веса.

Аноним 05/05/26 Втр 23:11:58 #418 №1605574

>>1605546
c4ai-command-r-08-2024 кладет большой коммандирский хер на карточку, юзера, небо и даже аллаха. Брутально и неостановимо.

Аноним 05/05/26 Втр 23:14:25 #419 №1605575

>>1605574
Судя по этому реплаю, ничего нового я там не прочитаю. Жаль, блять. Я уже начал переписывать карточку и все остальное, чтобы передо мной не снимали трусы сразу.

Аноним 05/05/26 Втр 23:17:11 #420 №1605577

>>1605569
> Qwen3.6-35B-A3B - так себе для РП . Qwen3.5-35B-A3B не так пережарен программизмами
Из мелкомоэ-лоботомитов только гемма более-менее пригодна для РП. И то, не для РП, а для быстрого кума, скорее.
>И аблитерацию лучше брать от llmfan46
Аблитерацию лучше вообще не брать. Она лоботомирует модель, а в случае с херетиками, ещё и убивает русик. Единственная нормальная аблитка - это нормпрезерв. Но он только для 3 геммы вроде есть.

>>1605574
Сынок, так деды кумили в далёком 2024. Это база, это блять классика. А если серьёзно, то у тебя скорее всего с карточкой проблемы. Это в современных ллмках можно писать персонажа как по кайфу, а старая гвардия говна не прощала.

Аноним 05/05/26 Втр 23:43:32 #421 №1605581

>>1605574
Инстракт спили, ковбой

Аноним 05/05/26 Втр 23:48:37 #422 №1605585

2026-05-0523-46-20.png

>>1605569
Понял спасибо.
Я пока 6 накатил, ебать скорость в два раза больше чем у геммы с гайда в шапке. И это при том что я никакие значения не трогал взятые опять же из примера на 23 рам и 16 врам. Надо будет еще в них поковыряться я пока скипнул потому что много всего сразу.

Я только не понял чому он мне в интерфейсе пишет что я на гемме. Я ее вообще удалил ведь. Это не норм?

Аноним 05/05/26 Втр 23:52:06 #423 №1605586

>>1605585
Ладно я напиздел квен мне на привет 40 токенов в сек отвечал а на сложные запросы уже 14

Аноним 06/05/26 Срд 00:09:52 #424 №1605599

>>1605585
Понял в файле отдельная строчка под название модели. Ладно я сру многовато буду разбираться молча но я обязательно еще заебу тред. Нашел себе игрушку так сказать

Аноним 06/05/26 Срд 00:10:41 #425 №1605600

>>1605585
> скорость в два раза больше чем у геммы с гайда в шапке
Активных параметров меньше, квант меньше.
> Я только не понял чому он мне в интерфейсе пишет что я на гемме
Потому что не отредактировал параметр --alias из примера.
>>1605586
Скорость ответа не зависит от "сложности" запросов. Она в целом всегда постоянно и понижается по мере заполнения контекста. В оперативную память что-то утекает, об этом в гайде упоминается. Не спеши, на свежую голову перечитай и поиграйся с настройками.

Аноним 06/05/26 Срд 00:14:12 #426 №1605601

>>1605581
>>1605577
Собственно к первым 3 ходам вопросов нет. С отключенной думалкой там и современные модели написали примерно тоже самое. И суше. И можно даже притянуть писание за юзера - карточка описание мира и систем промпт просто пустой. Условное "не пиши за юзера" в Post-History, а не в системном.
Но вот превращие Клары в Миранду ни в какие ворота не лезет - это просто другой свайп того же самого хода 4 хода.
Модель - чистый статистический продолжатель текста!

Аноним 06/05/26 Срд 00:14:17 #427 №1605603

>>1605600
> В оперативную память что-то утекает
Когда должно быть в видеопамяти*
Переполнение видеопамяти и постоянное задействие шины, что гоняет данные между оперативной и видеопамятью

Аноним 06/05/26 Срд 00:15:15 #428 №1605604

Мазохисты есть? Я вам нашел теги для английского кума по жанрам, отборнейший кринж. И так как популярный на западе это должно быть в датасете. Тут вроде тня кумила, думаю она заценит, хотя наверное уже в теме
https://www.youtube.com/watch?v=EpnCAMk4bkQ
Осторожно, содержимое наносит непоправимый психический урон, я не шучу. Досматриваю чисто из принципа, как жрать дошик потому что захотелось навернуть какой то вредной фигни.

Аноним 06/05/26 Срд 00:18:29 #429 №1605605

>>1605601
С Миранды лол. А какой квант у тебя? Ты ведь ниже Q4 не опускался?

Аноним 06/05/26 Срд 00:22:23 #430 №1605608

>>1605577
>Из мелкомоэ-лоботомитов только гемма более-менее пригодна для РП
Тем временем русик мелкоемое лоботомита геммы разьебывает жирноглмы и прочую чепуху >>1605338
Походу итт внатуре уже заклеймили ее как хуйню тупо по размеру и никто толком и не попробовал. Думайте. Подписаться

Аноним 06/05/26 Срд 00:28:41 #431 №1605611

>>1605605
5 квант. Контекст Q8. Темпа - 1,1

Аноним 06/05/26 Срд 00:35:36 #432 №1605616

>>1605611
Теплейт родной, командеровский? Температура слишком высокая, поставь 0,5-0,7 чтобы Клара в Миранду не превращалась. Поиграйся с остальными семплерами, или возьми готовые - легко гуглится с реддита.

Аноним 06/05/26 Срд 00:37:05 #433 №1605617

>>1605611
>>1605601
>>1605574
Если это Коммандер 32б, то он действительно может сломать карточку. Но у тебя на пиках какой-то совсем треш. Такого не должно быть, накрутил сэмплеры и покакал в промптик. Возможно, даже в разметку. А еще Коммандер любит температуру меньше единицы. Вроде бы я долго сидел на 0.9. Он чувствителен к сэмплерам.

Аноним 06/05/26 Срд 00:38:12 #434 №1605618

>>1605611

Аноним 06/05/26 Срд 00:39:57 #435 №1605619

>>1605616
Да, собственно странно было бы его не ставить. Попробую карточки попроще...

Аноним 06/05/26 Срд 00:42:32 #436 №1605620

>>1605619
Ну.. тут в треде есть шизики любители играть с эйром на чатмл, поэтому нужно было уточнить. И темпу снижай - это тебе не гемма.

Аноним 06/05/26 Срд 00:50:39 #437 №1605622

>>1605620
>тут в треде есть шизики любители играть с эйром на чатмл, поэтому нужно было уточнить
Правы во всем. Непонятые гении своего времени

Аноним 06/05/26 Срд 01:26:43 #438 №1605644

>>1605601
> карточка описание мира и систем промпт просто пустой
Почему не захотел выбрать пресет под коммандера, который (по слухам) сами производители и предложили? Не только разметку а еще системный.
Такой дичи не должно быть, как и вообще формата что у тебя, где поочередный диалог юзера и чаров через :, ищи что сломал. Алсо если врамовладелец, можешь более старый который 35б попробовать. Он казался поумнее чем обновленный, хотя жрал очень много памяти на контекст.
>>1605611
> Контекст Q8. Темпа - 1,1
Плохая идея. Хотя так взорвать они не должны конечно.

Аноним 06/05/26 Срд 01:34:05 #439 №1605647

>>1605611
>Темпа - 1,1
>модель не держит даже имена
Пиздец. Нахуй такую модель. Стандартный трен модели проводится на температуре 1. Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить, это значит что она въёбана по самое небалуйся. С такой не то что рп, с ней даже кум будет выходит хитпарадом кринжа и вырвиглазного текста.

Аноним 06/05/26 Срд 01:36:10 #440 №1605648

>>1605647
> Стандартный трен модели проводится на температуре 1
При тренировке отсутствует само понятие температуры и других семплеров.
> Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить
Он по определению не может такого сделать.

Аноним 06/05/26 Срд 01:39:32 #441 №1605652

>>1605647
>Стандартный трен модели проводится на температуре 1. Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить, это значит что она въёбана по самое небалуйся
Квены ловят шизу при темпе выше 0.7. Министраль превращается в бредогенератор выше 0.4. Температуру в 1 нормально держат только Эйр и Гемма.

Аноним 06/05/26 Срд 01:43:31 #442 №1605657

Вышло что крутое за последнюю неделю для кума, кроме геммочки-сосочки 4? Неужели придется ждать ещё год-полтора, прежде чем кто то сдвинет эту няшечку-целочку?

Аноним 06/05/26 Срд 01:45:40 #443 №1605659

>>1605648
Как же всё хуёво с твоими знаниями о ллм.
>>1605652
Гемме похуй на температуру, даже 1.5. Только 2 заставляет её хоть немного шевелиться. Ты вряд ли запускал мистраль, если пишешь такое. Да и по квену какой-то бред.

Аноним 06/05/26 Срд 01:51:04 #444 №1605661

>>1605659
То что шизики открывают рот и обманывают других - вот что хуево. Название моделей не различаешь, модели с температурой тренируются, в дурку быстро решительно.

Аноним 06/05/26 Срд 01:51:47 #445 №1605662

>>1605659
>Ты вряд ли запускал мистраль, если пишешь такое
Не путай мистраль и министраль. Если первый (24b) преваривает 0.7-0.9 спокойно, то мелюзга выше 0.4 выдаёт добротную шизу и мышки лезут из киски. На дачном кудахтере 14b стоит, знаю о чем говорю.
>по квену какой-то бред
bruh..

Аноним 06/05/26 Срд 01:57:19 #446 №1605665

>>1605577
Еще и на Qwen есть. Очень недурственно, советую. Но желательно брать квант повыше, как и в случае с 3 геммой.
https://huggingface.co/ArliAI/Qwen3.5-27B-Derestricted

Аноним 06/05/26 Срд 02:05:20 #447 №1605670

>This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Приехали. С держиморды теперь не скачать без реги. Гаечки закручиваются.

Аноним 06/05/26 Срд 02:25:41 #448 №1605673

>>1605670
Расслабь очко. Это конкретные владельцы репозиториев решают. Гугл захотели так

Аноним 06/05/26 Срд 02:37:00 #449 №1605678

>>1605673
С каких пор гугл решает за репозитории квена?
>Гугл захотели
>Расслабь очко
А почему расслабить-то? С каких пор хотелки гугла стали чем-то из-за чего стоит расслабляться?

Аноним 06/05/26 Срд 02:43:14 #450 №1605679

>>1605673
жизнь научила меня никогда не расслаблять очко.....

Аноним 06/05/26 Срд 02:45:16 #451 №1605680

>>1605679
Кто успел схоронить годноту тот всегда расслаблен. Кто не успел... соболезнуем. Кибер-голуби всё ещё в разработке, ожидайте.

Аноним 06/05/26 Срд 02:51:59 #452 №1605681