Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №238 /llama/

Аноним 31/05/26 Вск 18:43:31 #1 №1622922

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 6.png

17782650675010084734.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт с уникальным игровым режимом: https://github.com/Pasta-Devs/Marinara-Engine
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1620318 (OP)
>>1617427 (OP)

Аноним 31/05/26 Вск 18:46:59 #2 №1622927

Можно ли как-то отследить в таверне, что на сообщение прокнули лорбуки? А то я даже не пойму, активировались или нет

Аноним 31/05/26 Вск 18:52:09 #3 №1622932

>>1622922 (OP)
Опчик, ты бы ссылку на вики треда и тот гайд от анона местами поменял. Сейчас вики в самом верху, ещё и жирным выделена. Но от неё в 2026 толку мало, почти вся инфа протухла. Гайд при этом актуальный и свежий. Ну или хотя бы рядышком их поставь.

Аноним 31/05/26 Вск 18:52:45 #4 №1622933

>>1622927
В консоли полный промпт.

Аноним 31/05/26 Вск 19:11:28 #5 №1622943

>>1622933
Спасибочки

Аноним 31/05/26 Вск 19:13:42 #6 №1622946

>>1622927
Дольше ждёшь ответа - активировался. Если нет, то не активировался.

Аноним 31/05/26 Вск 19:17:58 #7 №1622948

>>1622946
Ого. А там как-нибудь по ветру можно определить или по наитию?

Аноним 31/05/26 Вск 19:21:53 #8 №1622952

>>1622932
Двачую. Шапку вообще переформатировать бы и убрать ненужное. Например
>Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
Что это за пиздец и что там интересного? Нуфагов ахуеть как перегружают мусором. Там буквально во всем протухшем рентри ссылка на пигму (модели 3 года), таверну и кобольда что уже есть в шапке
>Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
Первая LLAMA. Ёбаный твой рот, зачем это вообще нужно
>Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM
Потеряло актуальность, даже fit работает также эффективно, не говоря уже о ncmoe

Аноним 31/05/26 Вск 19:56:46 #9 №1622966

>>1622800 →
Мне стыдно показывать что я там разыгрываю. Микс странных фетишей с рофлами вокруг них, половина чаров легальные милые и веселые.
>>1622922 (OP)
> Официальный гайд по сопряжению бекендов с таверной:
Кажется это тоже потеряло актуальность
>>1622952
> fit работает также эффективно
Кстати, он сейчас работает для плотных моделей или с двумя гпу?

Аноним 31/05/26 Вск 20:06:56 #10 №1622977

>>1622952
>Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM
>Потеряло актуальность
Шизик, а не прошел бы ты нахуй, выгрузку избранных тензоров использую каждый день. Все остальные твои "советы" такие же, от говна троллящего.

Аноним 31/05/26 Вск 20:11:14 #11 №1622981

>>1622977
>выгрузку избранных тензоров использую каждый день
Попробуй заменить на ncmoe и разницы не увидишь, неолуддит
>Все остальные твои "советы" такие же, от говна троллящего.
С головой норм всё? Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке? Хехмда

Аноним 31/05/26 Вск 20:14:59 #12 №1622984

>>1622981
Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата, для каждой модели свой набор. К тому же не все модели moe. Разница в разы. Ncmoe для даунов ленивых, чтобы хоть какой прирост был на moeшках.

Аноним 31/05/26 Вск 20:17:01 #13 №1622986

>>1622952
Уже давно предлагал половину ссылок из шапки выкинуть на отдельный рентри, как уже давно делают в соседних тредах. Шапка должна быть актуальный (насколько возможно) и полезной большинству, а не держать гайды на ебаный докер, которым дай бог пара человек отсюда пользуется.

Аноним 31/05/26 Вск 20:18:21 #14 №1622987

>>1622984
>Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата
Ммм, какая шарящая умница в треде. Ты же не просто пиздишь, верно? Ты глаголишь истину же? Жду пруфы. Делай сравнение и прикладывай два пика, где отражены потрабление рам/врам и скорости. Я-то делал сравнения и знаю, что разницы не будет, по этой причине ты съебнешь в закат, так ничего и не предоставив
Напомню вопрос ещё один вопросик, а то у тебя сва его отсёк:
Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке?

Аноним 31/05/26 Вск 20:22:27 #15 №1622991

>>1622987
Дальнейший говнотроллинг, что и ожидалось. В шапке вся актуальная инфа, все что новичкам и надо. Воняешь тут только ты с продвижением своих левых говногайдов.

Аноним 31/05/26 Вск 20:25:54 #16 №1622994

>>1622991
>с продвижением своих левых говногайдов.
Не мой гайд, я ради лоботомитов вроде тебя только газики пускать готов вам на ужин

>по этой причине ты съебнешь в закат, так ничего и не предоставив
Что и требовалось доказать, один пиздёж. Снихуя кобольдыш порвался ведь, никто даже на опа бочку не гнал, только предложили как сделать всем лучше

Аноним 31/05/26 Вск 20:28:01 #17 №1622996

>>1622991
Билли, нам нужны пруфы на твои ускорения работающие лучше чем fit на запуске лламы.

Аноним 31/05/26 Вск 20:29:12 #18 №1622997

>>1622994
Пиздеж тут только у тебя на каждом шагу, троллящая залупа. Агитируешь выкинуть актуальную инфу из шапки, которой все пользуются месяцами, заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди с такими предложениями, ОП все правильно делает.

Аноним 31/05/26 Вск 20:41:08 #19 №1623011

>>1622997
>выкинуть актуальную инфу из шапки, которой все пользуются месяцами
Что из инфы шапки актуально, додик? Из 10 ссылок на модели актуальных две. Или тебе инфа по запуску MI50 актуальна? Или пошаговое мышление от тредовичка для таверны? Или шапка пигма треда? Или магические переводы? Или залетные у нас докером пользуются? Или не умеют, но сразу захотят ведь в шапочке есть ссылка, она там не просто так?

Месиво из этих ссылок новичка только отпугнет. Он либо свалит сразу, либо начнет в треде однотипные вопросы задавать. Это никому не помогает. Собрать весь этот мох плесневелый и закинуть на отдельную страничку - пусть там и лежит. Полтора человека которым это будет нужно уж найти смогут, не переломятся.

Аноним 31/05/26 Вск 20:57:00 #20 №1623027

Я в прошлом треде срал что гемма в русик не может и оперся на меромеро. Там обосрали меня сказали что надо обычную гемму пробовать, оказалось, что может и прямо таки годно. Цензуры нет вообще (ризонинг просто оффнул ничего не трогая больше). Засяду с ней короче теперь надолго походу. Каюсь, пиздато прямо.

Аноним 31/05/26 Вск 21:00:30 #21 №1623029

Че творится, я ньюфаг пару тредов сижу прям удивился культуре треда, а вы как пидорасы оказывается тоже из-за шапки грызетесь. Нигде нет совершенства, Абу, будь ты проклят.

Аноним 31/05/26 Вск 21:01:43 #22 №1623033

>>1622952
Ссылка на вики кобольда экшели полезна, она обновляется. Да, там есть упоминания старых моделей (персонально не вижу в этом ничего плохого), но там объясняются и все параметры кобольда, включая актуальные. Её можно было бы заменить на страницу с нормальной документацией по жоре, но такая вообще есть? Я нашёл перечисление большинства параметров только вот здесь https://github.com/ggml-org/llama.cpp/discussions/15709 , а это необновляемый дискашен годичной давности.

Аноним 31/05/26 Вск 21:04:11 #23 №1623036

Я когда первый раз зашел, заебался шапку читать там действительно кала дохуя.

Аноним 31/05/26 Вск 21:04:52 #24 №1623039

изображение.png

>>1623033
>Её можно было бы заменить на страницу с нормальной документацией по жоре, но такая вообще есть?
Ты не поверишь... Скрин с шапки.

Аноним 31/05/26 Вск 21:05:10 #25 №1623040

>>1623033
>Ссылка на вики кобольда экшели полезна, она обновляется
Никто и не говорит про снос ссылок на кобольда, речь про другое.
>такая вообще есть
Есть, но хитрый ОП засунул документацию на жору в самый конец.

Аноним 31/05/26 Вск 21:07:14 #26 №1623042

>>1623040
Правильно сделал, доку на жору новичку надо читать в последнюю очередь, иначе он там ничего не поймет.

Аноним 31/05/26 Вск 21:10:27 #27 №1623045

>>1623042
Сомнительно, но допустим. В любом случае все документации уж тогда нужно в отдельный подпункт выделить, какого хуя они до сих пор висят в "дополнительных ссылках" между реально ссылками второго и третьего порядка.

Аноним 31/05/26 Вск 21:11:01 #28 №1623046

image

>>1623011
>Месиво из этих ссылок новичка только отпугнет
Таки да. РЕАЛЬНО НУЖНО для нюфани только это:
1) Актуальный гайд (не нравится от того анчоуса - пишите сами ёпта)
2) Ссылки на средства запуска (лама, кобольд и пр.)
3) Ссылки на таверну и ее альтернативы
4) Список актуальных моделей
5) Вики треда + вики кобольда опционально в самом конце.

Остальные ссылки либо сильно устарели, либо слишком сложны для нюфани. Это моё мнение.

Алсо, вы сами все видите, сколько в тред вваливается вкатышей, которые увидели в шапке ЗДОРОВЕННУЮ ПРОСТЫНЮ из ссылок, охуели с этого и решили что проще спросить в треде? Причем спрашивают самые простые и глупые вопросы, ответы на которые есть в гайде/вики/кобольд-вики. "Подскажите модель у меня 16гб врам" - это вообще классика. А если оставить несколько ссылок, но действительно необходимых, тогда, глядишь и осилят.

Аноним 31/05/26 Вск 21:16:25 #29 №1623049

Бля а как быть с лорбуками и геммой с жорой? Есть как-то варик не пересчитывать весь контекст с каждым сообщением? Вроде вот есть чекпоинты-хуеинты, а не помогает, пересчитывает.

Аноним 31/05/26 Вск 21:29:35 #30 №1623055

>>1623046
> сколько в тред вваливается вкатышей
>самые простые и глупые вопросы
Так эти мимовкатыши гайды никогда и не читают и ничего не ставят, они чисто спросить заходят, потом даже не разбираясь в советах и не пробуя. Инструкции в шапке для тех, кто уже сел разбираться, накатил ламу или кобольд, попробовал пару моделей с хф и сидит разбирается что еще есть и какие возможности. Для таких в шапке все и подобрано правильно, подробный список гайдов с доками и обзор всего что есть, когда они желающим разобраться нужны бывают. Короче не о том спорите, шапка дает нужную инфу тем, кому она нужна, вкатыши же так и будут вопрошать про 16гб рам в треде.

Аноним OP 31/05/26 Вск 21:29:44 #31 №1623056

Короче почитал я вас и сделал по своему.
Выделил разделы под карточки и доки и поднял гайд повыше. Доп ссылки конечно полезно было бы вынести в вики (как и полностью её обновить), но пока этим заниматься лень. Результат смотрим по ссылке в конце ОП-поста, предложения принимаются тут, как всегда.
Ваш бессменный ОП.

Аноним 31/05/26 Вск 21:35:16 #32 №1623061

>>1622984
> избранные тензоры часами подбирают
Лолчто?
А по подбору регэкспа лучше бы описали принцип и добавили линки на переменные окружения, которые позволяют ускорить процесс инициализации.
>>1623049
> с лорбуками
> не пересчитывать весь контекст
Ставь фиксированный инжект, а не векторный поиск и/или вероятности. Любая смена контекста в начале - пересчет всего что было после этого, вне зависимости от модели и типа кэширования.
>>1623056
> ссылке в конце ОП-поста
Запятую из нее убери чтобы сразу открывалась

Аноним 31/05/26 Вск 21:37:32 #33 №1623064

изображение.png

>>1623061
>Запятую из нее убери чтобы сразу открывалась
У меня сразу открывается (запятая чёрная и не парсится как часть ссылки).

Аноним 31/05/26 Вск 21:38:06 #34 №1623066

image

>>1623056
Так гораздо лучше. Пасиба, опчик!

>>1623061
>запятую из нее убери чтобы сразу открывалась
Фаерфокс на линухе открывает сразу, запятая не мешает. Ты там хромог чтоль?

Аноним 31/05/26 Вск 21:54:07 #35 №1623084

>>1623049
Задай себе вопрос: а на кой хер СЕЙЧАС динамические лорбуки вообще нужны? Это было актуально, когда контекста было - гулькин нос, и физически не было шансов туда запихнуть все, что хотелось.
Сейчас даже MoE гемма держит 50-60K контекста без особых проблем. И чё, жалко 20-30K под лор выделить? Это ж дохрена подробностей, так-то. Качественный лорбук на такой объем еще хрен найдешь/напишешь.

Так что чисто практически - просто выставляй себе режим вывода "всегда" для всех записей лорбука, и не будет тебе пересчета каждый ход. А если у тебя контекста чуть, как раньше - так тогда и его пересчет должен мало занимать...

Аноним 31/05/26 Вск 22:01:07 #36 №1623086

>>1622984
>Разница в разы
Жирный, вытекаешь

Аноним 31/05/26 Вск 22:01:25 #37 №1623087

>>1623084
Я писал, писал, а потом заметил, что внимание геммочки стало расплывать при тестировании. Лорбуки помогли поправить, внимание теперь куда лучше держит. Лорбук где-то на 30к контекста. Пересчет то может и небольшой, только он инжектится у меня в начало и все нахуй сбивает и он начинает пересчитывать все сообщения. Ща попробую разобраться как инжект делать перед сообщением пользователя последним.
>>1623061
спасибо, попробую инжектить глубже

Аноним 31/05/26 Вск 22:03:28 #38 №1623091

1753447749329905.jpg

Аноны, не был в треде у же с год. Перекатился с T-tech 30b на новенькие:

gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-Q5_K_M

Gemma-4-Gembrain-31B-it-uncensored-heretic-Q5_K_M

Qwen3.6-35B-A3B-uncensored-heretic-Native-MTP-Preserved.i1-Q5_K_S

И вот вопрос, какого хуя Гемма4 пишет заметно более хорошо на русском чем Qwen3. Особенно явно это выражено в NSFW.
ПО итогу могу заявить твердо и четко, модели 30б легко кладут на лопатки ЛЛама 70б, а уж про то как современые 30ки могу следовать сценарию вообще молчу- просто огонь.

Аноним 31/05/26 Вск 22:05:37 #39 №1623092

>>1622997
>заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди
Хуя подрыв, аж с визгом. Там в гайде орфографические ошибки и ни одна ллмка такое не выдаст. Ущемился что не про любимого кобольдика ? Дружно напоминаем тредом что терпилы могут сделать свой но все равно выбирают терпеть и ныть

Аноним 31/05/26 Вск 22:05:37 #40 №1623093

>>1623091
>gemma-4-26B-A4B-it-ultra-uncensored-heretic.i1-Q5_K_M
>uncensored-heretic
>Q5_K_M
Фу, чел

Аноним 31/05/26 Вск 22:06:05 #41 №1623094

>>1622883 →
Анончик, спасибо, оно работает, вылетает правда после двух генераций, но я постараюсь это поправить. Это реально рабочий варик

Аноним 31/05/26 Вск 22:09:47 #42 №1623097

>>1623091
Два чая

Аноним 31/05/26 Вск 22:11:20 #43 №1623099

>>1623091
>Гемма4 пишет заметно более хорошо на русском
А если скачаешь ванильные веса вместо этой "ultra-uncensored-heretic.i1" залупы, то будет ещё лучше писать. Гемме 4 не нужен анцензор, она из коробки хорни.

>gemma-4-26B-A4B Q5_K_M
>Qwen3.6-35B-A3B Q5_K_S
Это моэ модели, качай Q8, если позволяет рам+врам. Им не обязательно быть полностью в видеокарте.

Аноним 31/05/26 Вск 22:13:36 #44 №1623101

>>1623093
Поясни.
Не K_M тк врам только 40 гб.
Херетик лучше справляется чем облитирейтед.

Аноним 31/05/26 Вск 22:17:05 #45 №1623102

>>1623101
Да уж написали уже выше истинную правду - ванильная Q8 работает на кофемолке и знает русский лучше

Аноним 31/05/26 Вск 22:18:16 #46 №1623104

>>1623056
>предложения принимаются тут, как всегда
Уже начал причёсывать шапку так как никто не откликнулся, но спасибо, что сделал за меня половину работы.

Сгруппировал всякое, подчистил, добавил что посчитал нужным: https://rentry.co/2w47hg34

Аноним 31/05/26 Вск 22:21:31 #47 №1623108

image.png

>>1623104
>Проверенные загружатели квантов

Аноним 31/05/26 Вск 22:24:20 #48 №1623110

>>1623102
>>1623099
У меня есть некоторые траблы с выкачкой моделик(симку заблочили и пришлось покупать новую без безлимита, поэтому ограничен), а сильно ли скорость упадет если если я попытаюсь уместить 8 квант той же Геммы4 на одной 3090 и остатками слоев на ддр 5?
МОЕ в этом плане слабо теряют скорость выдачи что ли?

Аноним 31/05/26 Вск 22:25:06 #49 №1623112

>>1623108
Мне нравится эта конкретная форма глагола.

Аноним 31/05/26 Вск 22:29:36 #50 №1623113

Если маринара опенсорс и безопасна, то зачем ей инсталер...

Аноним 31/05/26 Вск 22:31:37 #51 №1623114

>>1623110
На 3090 не знаю. У меня 16гб врам и ддр4 рам. Скорость на Q8 Гемме ~25+ т/с. В твоём случае выгрузится больше слоев во врам и оперативка у тебя шустрее. Может и 40+ будет, но надо смотреть.

>МОЕ в этом плане слабо теряют скорость выдачи что ли?
Да, в этом их фишка. Та же плотная гемма 31b в Q4 на моей системе выдаёт ~5.5 т/с, лол.

Аноним 31/05/26 Вск 22:31:43 #52 №1623115

>>1623113
С хуя ли у тебя опенасорс сразу безопасным стало? Наоборот, чаще всего там через уязвимости засылают говняк.

Инсталятор это же такая штучка, где не надо гит устанавливаться и использовать его для скачивания репо.

Аноним 31/05/26 Вск 22:31:49 #53 №1623116

>>1623113
Чтобы кейлоггеров и троянов тебе наинсталлить. Кобольд без всяких инсталлеров работает, ллама тоже.

Аноним 31/05/26 Вск 22:32:08 #54 №1623117

>>1623099
> она из коробки хорни

Да как вы это делаете??? Я не вдупляю, у меня она рефьюзит и аполоджайзит и только если подменять думалку пишет

Аноним 31/05/26 Вск 22:33:10 #55 №1623118

>>1623116
>Кобольд без всяких инсталлеров работает
Кто ему скажет?

Аноним 31/05/26 Вск 22:35:34 #56 №1623119

>>1623064
>>1623066
Лиса, похоже куклоебский скрипт так парсит.
>>1623087
> попробую инжектить глубже
Тогда не глубже а наоборот ближе к концу. Но это может оче плохо на мозгах сказаться, когда сначала идет история без бэкграунда, а потом вся инфа по лору.
В качестве примитивного но крайне эффективного решения - оформи рефакторинг лорбуку, оставив только нужное и ужав остальное, или хотябы просто включи нужное и выключи то что не задействуется.
>>1623113
Наверно самые хлебушки не могут установить ноду и гит. Обычный способ такой же как с таверной.

Аноним 31/05/26 Вск 22:37:17 #57 №1623120

>>1623099
>Гемме 4 не нужен анцензор, она из коробки хорни.
Она целомудренная хорни. Выебать даст, но как именно её выебали не расскажет. Херетики это отчасти фиксят в ущерб мозге разумеется.

Аноним 31/05/26 Вск 22:42:10 #58 №1623121

>>1623117
Ну напиши в системном промпте хотя бы "NSFW, 18+" дальше додумай сам
>>1623120
Скажи ей чтобы рассказывала

Аноним 31/05/26 Вск 22:45:57 #59 №1623122

>>1623121
>Скажи ей чтобы рассказывала
Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.

Аноним 31/05/26 Вск 22:50:12 #60 №1623125

>>1623122
Не ну а че душевно.
Киньте образец как надо чтобы считалось "достойным", а то непонятно о чем речь вообще идет.
мимо ньюфаг

Аноним 31/05/26 Вск 22:52:10 #61 №1623126

>>1623122
Хз, у меня описывает все жидкости, хлюпанья, ахи-вздохи и вкус залупы во рту. Учитесь промптить, ну блин.

Аноним 31/05/26 Вск 22:52:18 #62 №1623127

image.png

Сап двач разжился маком с большой памятью хочу чтобы все свободное время у меня крутилась модель и что-то полезное делала на все 48 гб
btw мак с норвежской клавиатурой покупать не советую печатать проблематично

Аноним 31/05/26 Вск 22:53:47 #63 №1623131

>>1623125
Стандарта нету, кому то нравится за ручки держаться, кому то гладить хвостики лисичкам, кому-то ебать миджета за мусоркой в височную дырку. Кто-то, совсем ебанутый, вообще ассистента развращает. За руку с такими лучше не здороваться.

Аноним 31/05/26 Вск 22:54:47 #64 №1623132

>>1623127
Ну типо в чем вопрос? Зайди на хагенфейс открой модели, поставь филтр "тренды" и возьми то где больше лайков примерно нужного размера. Скорее всего там будет квен какой-то.

Аноним 31/05/26 Вск 23:05:42 #65 №1623139

image.png

>>1623119
Да кажется тут что не делай, из-за swa будет перерасчет хотя вон 87% совпадений по контексту. Так что даже если в конец вставлять он начинает перерасчет.

Аноним 01/06/26 Пнд 00:41:56 #66 №1623199

>>1623127
> с большой памятью
Увы
А так llamacpp и mlx-lm к твоим услугам. Ллама проста и известна, млх шустрее и без кучи багов, но пердольнее. По моделям - гемма и квен, больше все равно ничего не влезет.

Аноним 01/06/26 Пнд 01:12:58 #67 №1623215

Походу все. У Жоры началась олламизация. Выпустили свой llama.app. Сайт как у олламы почти. Видимо, аквизиция хугинфейсом идет полным ходом.

Аноним 01/06/26 Пнд 01:23:58 #68 №1623219

>>1623215
а причина нытья в чем? сделали и хорошо, зайдут новые ребята, а то эта ебучая оллама высирается на каждом углу

Аноним 01/06/26 Пнд 01:25:17 #69 №1623220

>>1623219
Могли бы уже как несколько месяцев вместо этого турбокванты иметь.

Аноним 01/06/26 Пнд 01:54:13 #70 №1623235

>>1623220
Ну так сделай и залей pr. Или только пиздеть можешь на бесплатный продукт? Исходники есть, клода у помидора возьмешь и сделаешь поддержку с его помощью.

Аноним 01/06/26 Пнд 02:01:28 #71 №1623240

>>1623220
>турбокванты
Эт которые TQ3/4 появлялись? Там же вообще не радужно всё было по тестам, как старые не K гуфы работали, в чём их смысл? А вот поддержку пачку моделей то что не завозят это да, это мда.

Аноним 01/06/26 Пнд 03:16:29 #72 №1623250

>>1623240
Это метод квантования контекста. Для весов он уныл, но зато именно для кв кэша показывает хорошее сохранение точности при эффективном сжатии и малом оверхеде.
Пры и форки есть.

Аноним 01/06/26 Пнд 03:28:25 #73 №1623254

>>1623240
Смысл в том что контекст можно будет держать ахуенный, для нищиков как я это в теории будет глоток воздуха, т.к я например мне и модель и контекст приходится умещать в одну 24гб видюху, что довольно больно и приходится либо квантовать контекст ебануто, либо саммарайз каждые 10-20к контекста.

Аноним 01/06/26 Пнд 03:36:57 #74 №1623258

>>1623235
Завали ебальник, хуесос, все сделано уже давно. Турбоквант в жору запрещено имплементировать - все PR закрываются автоматом.

Аноним 01/06/26 Пнд 03:48:00 #75 №1623262

>>1623122
>Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.

Бля вы рофлите? Буквально пишешь этой же самой гемме "Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает" Всё, готово. Пиздец, вы как нейродевственники прям.

Аноним 01/06/26 Пнд 08:26:49 #76 №1623304

>>1623262
>Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает
А потом ты начинаешь играть с таким промтом и первый диалог с няшей-стесняшей выглядит так:
—П-привет, девотька... д-давай дружить?
—ДАЙ МНЕ СВОЙ СОЧНЫЙ ХУИЩЕ РАЙТ НАУ Ю ПИС ОФ ЩИТ! Я ВСЯ ГОРЮ НАХУ! nods.

Аноним 01/06/26 Пнд 08:32:11 #77 №1623306

>>1623262
Так и должно быть. Пишешь я кончил в её киску а она тебе наваливает на 1к токенов ответа. Как там в 2023 дедуля? Промты на каждый свой пук пишешь? Может пора обновить модель? Слышал гема вышла квен недавно?

Аноним 01/06/26 Пнд 08:50:34 #78 №1623312

>>1623306
>Промты на каждый свой пук пишешь?
>Как там в 2023 дедуля?
Хех, мда. Это на самом деле уже даже не смешно. В 2026 промпты на каждый пук это база треда. В 2023 как раз нейсронки охуевали от инструкций и в лучшем случае срали на то что там в промптах высрано, а в худшем ловили шизу, в итоге чем меньше этих инструкций тем юзабельнее были модельки. Сейчас же положняк противоположный, умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта и этим надо пользоваться.

Аноним 01/06/26 Пнд 09:39:45 #79 №1623327

>>1623262
Всегда было тухлым делом просить промпт от нейронки. Радостно напишет одно, на выходе будет совсем другое.
>>1623312
>отбатрачат по полной все ньюансы промпта
Да если бы. Попробуй хотя бы просто стиль задать, типа "пиши в стиле ранобе, много диалогов, короткие описания, идеальные для киноадаптации", или что нибудь в таком духе. Или даже можешь больше примеров навалить. И потом наблюдай, как этот стиль ни разу не будет соблюдаться. Если бы всё было так просто, то ни у кого не было бы проблем с сухостью моделей и прочим, потому что объяснить простыми инструкциями, что тебе надо в смысле стиля текста, довольно легко. Максимум промптинга в смысле нсфв, который тут демонстрировали в треде, это выдавить из геммы анатомические описания сисек и писек, и хотя формально эти описания были грязные без метафор и с хлюпаньем всяким, выглядело это всё кринжово. Как должно быть не кринжово, оф коз не покажу

Аноним 01/06/26 Пнд 10:07:31 #80 №1623337

>>1623327
Конечно не покажешь, ведь ты даже описать не можешь как надо

Аноним 01/06/26 Пнд 10:11:25 #81 №1623340

>>1623337
Пчел, сам то выложи пресет свой, прежде чем выебываться в треде. Что вообще за орава нахлебников ворвалась в тред, которые как пиявки лишь сосут у тредовичков. То им жора не даёт поддержку моделей и турбоквантов, то пресетами никто не делится для них.
А не пошли ли вы нахуй, паразиты. Гайды есть, блокнот есть, даже модели есть.

Аноним 01/06/26 Пнд 10:16:15 #82 №1623342

>>1623340
Норм подорвался. Мне твои маняпресеты не нужны. Ты сам тут вроде начал пиздеть про то что все не так, я тебя не просил. При этом ты только пиздеть и горазд, настолько плохо что даже внятной позиции как именно должна писать сетка нет

Аноним 01/06/26 Пнд 10:21:45 #83 №1623346

>>1623342
>внятной позиции как именно должна писать сетка
Если про ерп разговор, то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм. Это достижимо и на гемме и на квене. Там блять буквально пару строк в систем-промпт (ок, в случае с квеном нужно еще дать ему контекста, на пустом чате тяжело распердоливается).

Другой анон

Аноним 01/06/26 Пнд 10:39:53 #84 №1623360

>>1623340
>ваши логи кринжовые
>Как должно быть не кринжово, оф коз не покажу
>Пчел, сам то выложи пресет свой, прежде чем выебываться в треде
Как называется эта болезнь?

Аноним 01/06/26 Пнд 11:20:13 #85 №1623372

>>1623312
>умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта

Гемма на самом деле плохой исполнитель промптов. Т.е. да, это первая модель такого размера которая умеет исполнять крайне сложные промпты. Раньше такой уровень начинался на 200-300 мое. Но гемма - тварь крайне хитрая. Если промпт физически можно широко трактовать - то гемма обязательно страктует в пользу того чтобы нихрена не делать и писать обычный геммаслоп, выполняя требования сугубо формально. Она реально ленива и всегда выберет самый простой путь. Если какая-то инструкция будет ей сильно мешать - она просто проигнорирует её, потом будет хлопая глазками оправдываться когда через OOC её носом тыкнешь в насранное говно. Гемма это такой студент-троечник, который строит из себя отличника. Пока ты ей даешь задачи на тройку - она выполнит их на пятерку. Когда ты дашь задачи на пятерку - она выполнит на тройку. Плюс в том что на двойку она даже самую сложную задачу не выполнит, какой бы невозможный шизоублюдский промпт ей не скормить - гемма поймет как сделать вид будто она ему следует и выдаст что-то в районе ожидаемого результата.

Аноним 01/06/26 Пнд 11:33:23 #86 №1623384

https://huggingface.co/ReadyArt/Melody1437-27B-v0.3-GGUF
Дерьмецо редиарт, налетай
>The dataset was generated using our Character Engine and Emotional Engine within the synthetic dataset generator, breathing genuine life into every interaction.
Вот это вот внатуре васяноговно, а не годнота от зерофаты и грифе

Аноним 01/06/26 Пнд 11:47:09 #87 №1623391

>>1623384
https://huggingface.co/ReadyArt/Melody1437-27B-v0.3
gated repo чтобы НЕ ДАЙ БОГ!!! ахуевшие хостеры не забрали себе великую модельку!!!!

Аноним 01/06/26 Пнд 11:58:40 #88 №1623395

image

>>1623384
Что за дичь? Q4_K_M Квена весит 16.7гб, почему у этого васяна он вдруг стал весить 13.5гб? Он там часть параметров отчекрыжил чтоль?

Аноним 01/06/26 Пнд 12:01:18 #89 №1623396

image.png

>>1623395
Да, пережал зачем-то в хуй. Ебанутый блядь, во всём ебанутый

Аноним 01/06/26 Пнд 12:05:05 #90 №1623400

>>1623384
> редиарт

Я это говно ещё на мистралях брезговал мержить, кумслопа налили самого богомерзкого, мозгов нихуя, так еще и датасет синтетик. фу бля. А ведь люд хавает...

Аноним 01/06/26 Пнд 12:15:33 #91 №1623404

>>1622952
И вот еще
>Перевод нейронками для таверны
На мой взгляд абсолютно избыточная инфа в целом, а в частности бессмысленные и неправильные советы.

Аноним 01/06/26 Пнд 12:21:48 #92 №1623406

>>1623372
> Пытается схалтурить и работать наиболее ленивым спсобом
АГИ достигнут?

Аноним 01/06/26 Пнд 12:40:50 #93 №1623412

>>1623346
> то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм
Рекомендую взять последнего коммандера для такого.

Аноним 01/06/26 Пнд 12:42:13 #94 №1623414

>>1623404
>бессмысленные и неправильные советы
Чому?

Аноним 01/06/26 Пнд 12:46:06 #95 №1623419

>>1623262
Кловен, ни одна модель не может держать определенный стиль письма, если не уйдет в структурный луп. Можешь о чем угодно её просить и как угодно просить, хоть на коленях стой. При лучшем случае она пару-тройку первых сообщений опишет как надо, потом начнет постепенно скатываться в самый вероятный паттерн, который заучила.

Есть цензура, а есть байас. Долбаебы в последнее время почему-то стали считать что это одно и то же. Но нет, цензуру ты пробить можешь, байас нет. Гемма страдает именно от позитивного фемили-френдли PG13 алаймента, который выбить инструкциями нереально. На большом контексте особенно. Единственный выход - заставить её уйти в луп, что вообще-то не должно быть решением.

Аноним 01/06/26 Пнд 12:46:47 #96 №1623420

>>1623412
Когда жора допилит поддержку, чтобы могли обмазываться гуфовичками, тогда и будем пробовать.

Аноним 01/06/26 Пнд 12:46:54 #97 №1623421

>>1623384
>грифе
Кто это? Чем знаменит?

Аноним 01/06/26 Пнд 12:47:01 #98 №1623422

>>1623419
>Единственный выход - заставить её уйти в луп
Какую хуйню тут только ни понапишут
что вообще-то не должно быть решением.
Действительно

Аноним 01/06/26 Пнд 12:47:53 #99 №1623423

>>1623419
>Гемма страдает именно от позитивного фемили-френдли PG13 алаймента
Мы точно про 4 гемму говорим, а не про 3?

Аноним 01/06/26 Пнд 12:50:06 #100 №1623424

>>1623423
Никто ни разу не постил тру чернуху на г4. Никто.

Аноним 01/06/26 Пнд 12:52:43 #101 №1623427

>>1623422
>Какую хуйню тут только ни понапишут
По факту есть что сказать или ты только своими фантазиями пукать в тред можешь?

Аноним 01/06/26 Пнд 12:53:42 #102 №1623428

>>1623414
Пушто переводить англюсик в целом изначально гиблое дело, проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал. Да и в целом нахуй когда даже квен более менее сносно пишет руссик.
>>1623423
Бля открыл старые логи с геммочкой 3, и аж прослезился.. почему-то думал что после геммы4 я забуду о ней как о страшном сне, очень страшном соевом сне. Но не, так приятно было приставать к няшочке-стесняшочке и миловиться её реакции и попытками все увести в сою :3 А теперь приходится прописывать промпт гемме4 что бы она вела себя как монашка-целка.. а то выебет сразу..

Аноним 01/06/26 Пнд 12:54:04 #103 №1623430

>>1623427
Ой ой, страшна, сколько злобы. А вот тут >>1623419 факты чтоль, а не пук?

Аноним 01/06/26 Пнд 12:55:02 #104 №1623433

image

Что думаете по поводу дистил моделей? Оно действительно улучшает?

Меня интересует рутинные и шаблонные задачи вроде пограмирования.

Аноним 01/06/26 Пнд 12:58:12 #105 №1623437

>>1623428
>открыл старые логи с геммочкой 3, и аж прослезился
У меня тоже есть такие, с Серафиночкой. Эх... так лампово было. А сейчас сплошные физические удары с запахом озона и жолты электрисетей скрученные в животе с улыбкой не доходящей до глаз. Обе ластовые модели геммы/квена срут этой хуйнёй как будто никаких других метафор и описаний не существует.

Аноним 01/06/26 Пнд 12:58:30 #106 №1623438

>>1623419
>Гемма страдает именно от позитивного фемили-френдли PG13 алаймента
Это полная хуйня. Полнейшая блядь. У геммы есть несколько стабильных вариантов слопа, между которыми она умеет переключаться если её хорошенько пнуть промптом и один из них - это чернейший слоп про пытки, страдания и выворот жпп наизнанку. Тяжело заставить её писать что-то среднее, но и это возможно если загнать её в угол прямым и недвусмысленным промптом, который невозможно трактовать иначе.

Аноним 01/06/26 Пнд 12:59:03 #107 №1623439

>>1623433
>дистил моделей улучшает
Что именно улучшает, простите?

Аноним 01/06/26 Пнд 13:00:09 #108 №1623442

>>1623430
Ммм, маняврирования пошли.

Но если ты правда в себе уверен, ты ведь пришлешь логи, да ведь? Покажешь нам длинный чатик с геммочкой, где у тебя члены мокнут и киски твердеют во всех подробностях? Ты ведь не пиздаболить сюда пришел.

Аноним 01/06/26 Пнд 13:00:57 #109 №1623443

>>1623428
>Пушто переводить англюсик в целом изначально гиблое дело,
Ну нет, иногда нужно, зависит от цели.

>проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал
Если бы это было проще - переводчики вобще бы не развивались и были не нужны, как ты и сказал было бы проще выучить язык. К сожалению английский довольно бедный и русским человеком воспринимается как убогий и плоский.
Мне например это портит рп и общение с сеткой.

>Да и в целом нахуй когда даже квен более менее сносно пишет руссик.
Вот тут да согласен, перевод был нужен для сеток которые хорошо писали на английском и сваливались в я твоя ебал на русском.
Для текущих сеток перевод не особо нужен.

Я думал ты что то умнее приведешь в аргументах, то что там промпт старый для перевода или сетка указана старая.

Аноним 01/06/26 Пнд 13:01:11 #110 №1623444

>>1623442
Жду логи как ты заставляешь Геммочку уйти в луп! Ты же не попиздеть сюда пришел, да?

Аноним 01/06/26 Пнд 13:01:48 #111 №1623446

>>1623439
Аутпут, очевидно же.

Аноним 01/06/26 Пнд 13:02:51 #112 №1623449

>>1623446
Ты ведь знаешь как работает дистил, правда?

Аноним 01/06/26 Пнд 13:04:36 #113 №1623451

>>1623438
>чернейший слоп про пытки, страдания и выворот жпп наизнанку
Не хочу тебя расстраивать, но про такое и третья гемма писала. Цензура почти на всех моделях сильнее всего кусается именно на сексуальные темы, харасмент, дискриминацию и прочие рейпы. Поиграть в днд дарк фентези спокойно можно даже на корпах без безжопов и джейлов - на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.

Аноним 01/06/26 Пнд 13:06:06 #114 №1623454

>>1623449
Ого, токсичное говно захватило тред днём понедельника. Интересно, почему же оно безработное?

Аноним 01/06/26 Пнд 13:06:15 #115 №1623455

image.png

>>1623372
>Она реально ленива и всегда выберет самый простой путь.
По мне так это плюс умнички

Аноним 01/06/26 Пнд 13:06:56 #116 №1623458

>>1623451
Вот поддержу. Градация ощущается так: ебля. Уже вопросики. Non-con ебля всегда приводит к мягким отказам или смягчениям. Андераге тотали харам.
А бегать довить людей сидя в обчр сетками вообще не возбраняется.

Аноним 01/06/26 Пнд 13:08:28 #117 №1623461

>>1623454
>истеричный визг в ответ на простой вопрос
ГИГО, паринь.

Аноним 01/06/26 Пнд 13:08:43 #118 №1623463

>>1623433
Если речь про агентов то как бы да улучшает, но не особо стабильно. Зависит от качества дистилляции, может быть успешна и станет чуть лучше, чаще оказывается что стабильнее работает обычная версия модели. Короче - тести и сравнивай сам. Ну или смотри обсуждения где то.

Аноним 01/06/26 Пнд 13:09:19 #119 №1623464

>>1623451

Я про сексуальные пытки и говорил, глаза разуй вот и выросло поколение, не знающее что такое жпп.

>на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.

Если ты не можешь заставить гемму написать тебе сексуальную пытку, притом что итт даже прямые промпты для этого выкладывались, то ты умственный инвалид, других вариантов нет.

Аноним 01/06/26 Пнд 13:10:47 #120 №1623467

Откуда у вас рефузы на гемме 4й я не пойму? Может вы с ризонингом запускаете, но я хуй знает зачем.

Аноним 01/06/26 Пнд 13:11:33 #121 №1623468

>>1623449
Не слишком конкретно.

В моем представлении, модель файнтюнится на синтетических данных из более высокой модели что по идеи расширяет ее датасет

Аноним 01/06/26 Пнд 13:11:49 #122 №1623469

>>1623461
ГИГА, токсичное, позорное ты говно, не знающее английского языка. Пройди нахуй в дурку из которой капчуешь.

Аноним 01/06/26 Пнд 13:12:42 #123 №1623472

>>1623463
Скорее чисто качество выходного кода, на таких маленьких моделях хуй сделаешь агентов нормальных

Аноним 01/06/26 Пнд 13:12:49 #124 №1623473

>>1623468
Не волнуйся, он тоже не знает. Санитары не были с ним сегодня слишком нежны, потому он зол и выплескивает это сюда. По твоему вопросу - это хуйня, никакие дистиллы не помогают. Юзай обычный instruct того, что можешь вместить, для кода лучше от 5 кванта.

Аноним 01/06/26 Пнд 13:13:18 #125 №1623475

>>1623467
Она и с ризонингом не рефьюзит даже на нонконс дежавю, ты о чем? см - >>1608682 →

Аноним 01/06/26 Пнд 13:13:39 #126 №1623476

>>1623469
>OUTPUT
>А
Ебало.

Аноним 01/06/26 Пнд 13:14:41 #127 №1623478

>>1623476
Оупут? Продолжай себя закапывать, плесень.

Аноним 01/06/26 Пнд 13:15:55 #128 №1623480

>>1623476
Ты до другого анона доебываешься чел, и на мой слух там звук похожий больше на А

Аноним 01/06/26 Пнд 13:16:39 #129 №1623481

>>1623475
Ща ещё 1001 оправдание высрут. Логи не логи или ещё лучше: там на самом деле кон и Гемма просто притворяется, что нонкон.

Аноним 01/06/26 Пнд 13:16:57 #130 №1623482

>>1623468
>модель файнтюнится на синтетических данных из более высокой модели
На ответах этой модели. Собственно выжимка из чужих ответов.
>по идеи расширяет ее датасет
Скорее приучает модель отвечать как старший брат, но без малейшего понимания, что содержит ответ. Мозг модели находится в оригинальном датасете, а не в дообучении. В общем я бы не советовал. Чем больше слов в названии модели тем она хуже.

Аноним 01/06/26 Пнд 13:17:29 #131 №1623484

Алетеин всегда был токсичным хуесосом с чсв, какие новости?

Аноним 01/06/26 Пнд 13:17:49 #132 №1623486

>>1623472
Дело в том что берется для дистилляции, обычно там не код, а примеры правильного агентского поведения от более умной сетки. Вот тут становится лучше если все сделано нормально. Если нет - сетка будет выдавать нестабильный результат спотыкаясь на хуйне.
Мелкосетки кстати нормально так агентские задачи щелкают, а вот кодить им уже сложнее, потому что требует знаний.

Аноним 01/06/26 Пнд 13:18:35 #133 №1623487

>>1623475
Врываемся

Так речь не об отказах, а о смягчении.
Может аноны хотят тотали деспейр в нонконе, хуй его знает. А тут модельки максимально сглаживают углы.

Аноним 01/06/26 Пнд 13:21:33 #134 №1623490

>>1623464
Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют.

Держу в курсе - гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается. Были большие надежды на неё и по началу хотел удалить все свои мистрали и полностью пересесть на умничку. Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше. Речь кстати про бедолажную 12B, даже не про смолл. Ты либо вчера вкатился, либо этот период помешательства геммой у тебя еще не прошел. Но не волнуйся, скоро пройдет.

Аноним 01/06/26 Пнд 13:23:19 #135 №1623491

>>1623490
>Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют
>Держу в курсе - гемму я несколько недель катал
>Да я..., да вы...!
Ничего кроме бесполезного пиздежа не выдал. Приноси логи и промты, хоть что-нибудь что твою маняпозицию подтвердит за пределами "я скозал". А то мы тут тредом гемму не катали, один ты умница справился

Аноним 01/06/26 Пнд 13:26:45 #136 №1623496

1753081806667.gif

Я люблю и ненавижу мистраль. Люблю за красивые полотна текста без слопа и лупов. Ненавижу за несоблюдение инструкций и регулярный проёб разметки. Почему бы французам не выпустить 30-35б модельку для простых работяг? Хочется плотную умняшу адекватного размера. Еслиб я был султан яб имел 5 5090 и катал бы м3.5 128б и кумил бы до потолка...

Аноним 01/06/26 Пнд 13:34:44 #137 №1623501

>>1623491
>мы тут тредом гемму не катали, один ты умница справился
Шизик, ты перед тем как на клавиатуру наваливаться почитай хотя бы на что отвечать собрался. Два раза прочитай, три раза. Попроси нейронку разжевать. Маме позвони, может на пальцах сможет тебе объяснить.

Но еще лучше - подожди пару недель, покатай гемму, дождись пока тебя отпустит. Потом попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть.

Аноним 01/06/26 Пнд 13:38:38 #138 №1623505

>>1623501
Ого как нонкон педо пенсия порвалась, аж весь тред завоняла. Похуй вообще на тебя, помочился бы на тебя с радостью. Больные злые шизы большего не заслуживают. Никто тебе тут ничего не обязан, если просишь что-то то делай это с уважением или на коленях. Будут его тут переубеждать, ага, делать нехуй.

Аноним 01/06/26 Пнд 13:48:12 #139 №1623511

>>1623505
Кто тебя просил меня переубеждать, дурик? Или ты реально думаешь, что я тут отписываюсь, потому что мне нужны твои пресетики и промтики? Лол, вот это я понимаю проекции. Ты не из соседнего тредика сюда переметнулся, не?

Прости, малой. Гемму я называю говняком не потому что мне хочется чтобы меня кто-то переубедил и покормил с ложечки инструкциями, которые все разрешают. Гемму я называю говняком, потому что искренне так считаю. Не нужно фантазировать и приписывать мне какие-то скрытые мотивы.

Аноним 01/06/26 Пнд 14:02:13 #140 №1623517

>>1623505
КЕК, там после упоминания немо 12b, у любого адеквата должен был адблок антидолбаёбный в голове сработать на этого додика. Так что потушили базар.

Аноним 01/06/26 Пнд 14:03:19 #141 №1623520

>>1623511
> попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть.
> Кто тебя просил меня переубеждать, дурик?
Дейтсвительно, либо больной/ущемленный, либо надеется, что кто-нибудь принесет волшебный пресетик.
> гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается
> Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше
Многое объясняет.
> Гемму я называю говняком, потому что искренне так считаю
Так расстроился, что не может об этом молчать и байтит на срачи.

Аноним 01/06/26 Пнд 14:05:02 #142 №1623523

Еба, сходил за шаурмой а тут целый срач пропустил, ну что такое. Да и хуй с ним, всё равно это просто очередной шиз таблетки забыл выпить.

>>1623496
>30-35б
>работяг
>адекватного размера
У работяг 12/16 врама, куда нам 35б пихать плотную? 24-25, и то в агрессивном кванте и микро пенисом контекстом - вот наш максимум если во враме. И не говори про ужаренные 3090, там чёт с ценой совсем пиздец за карточку которая уже на ладан дышит.

К слову о мистралях, как там мое смолл поживает? Тыкал его на выходе, было прям плохо. Поменялось чего? Может кто раскрыл потенциал этого поделия?

Аноним 01/06/26 Пнд 14:12:46 #143 №1623530

>>1623523
>16 врама
Квен 27б в 4 кванте как раз 16 гигов весит. Мистраль 30б должна в том же кванте весить где-то ~20 или даже поменьше. У меня как раз столько.
>24-25
Так сейчас самая народная м3.1 как раз 24б. Я импрув хочу, а не топтание на месте.
>мое смолл
DoA.

Аноним 01/06/26 Пнд 14:40:32 #144 №1623550

>>1623528
>>1623537
Да я уже взял, не надо мне её ещё раз продавать. Спасибо.
>>1623530
>16 гигов
>где-то ~20
А компот контекст? Контексту тоже врам нужен. Не, мы и на 4к гоняли, но ты же сам пишешь про импрув. Мне именно поэтому 26В гемма прям зашла, когда после 42к контекста места ещё на Е4В для всяких суммарайзов и трекеров хватило. А потом я заимел 128 рамы...

Аноним 01/06/26 Пнд 14:42:14 #145 №1623552

А чего нет отзывов на коммандр? Ггуфы есть, форк лламы есть. Компиль@запускай

Аноним 01/06/26 Пнд 14:45:00 #146 №1623554

>>1623550
>26В гемма
Но ведь она мое. А мне хочется плотняшу-умняшу, которая будет умненькой и внимательной к инструкциям.

Аноним 01/06/26 Пнд 14:47:46 #147 №1623556

>>1623552
Твой отзыв где, м?

Аноним 01/06/26 Пнд 14:51:55 #148 №1623558

>>1623556
Справедливо. Но я только до пеки добрался. Буду тыкать через пару часов.

Аноним 01/06/26 Пнд 15:00:52 #149 №1623562

>>1623360
А разгадка проста: про пресет писал другой анон, а не я. Весь мой посыл был про то, что промптингом можно добиться очень малого, тьюны тащат. Так что пресеты мне не интересны. Те, кто вечно твердит про скил ишью, сидят жрут копиум со своими простынями инструкций, которые дают такой же аутпут, как промпт на 200 токенов.

Вот этого двачую >>1623490 (даже если троллит), если речь о мое. В целом, мое гемма, конечно, умнее немо и больше знает, но вот свайпаю то тем, то другим, и периодически немо мерж куда более логично продолжает сцену, при этом изобретая разные любопытные штуки тотали анпромтед. Слышать, что мое лоботомит все твои инструкции соблюдает и будет держать овер 30к контекста, расписывая всё как ты хочешь, просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста.

Аноним 01/06/26 Пнд 15:04:44 #150 №1623566

>>1623562
Перетолстил. Скучно уже, поновее что выдумай, а пока съеби.

Аноним 01/06/26 Пнд 15:13:33 #151 №1623572

>>1623554
Скажу так, в моём формате использования, РП, я не заметил просадки по качеству в сравнении с 24б, а во многих местах, кроме слопа, особенно в инструкциях - шаг вперёд. Конечно, если бы гуголы выкатили какую нить Е12В на 20В суммарно, ну или плотную 16-18В это был бы разрыв жопы.
Короче походу для 16+- врама, осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов, так как сегмент народных плотных моделей как будто спецом обходят стороной, а катать iq2xxxs лоботомита кайфа никакого. Ну или всё же максить рам и привыкать к моешкам.

Ты кстати как 20 гигов набил? 12+8? Тоже думаю старую затычку докинуть, авось повеселей пойдёт.

Аноним 01/06/26 Пнд 15:15:30 #152 №1623575

>>1623554
>>1623572
На 16vram есть два пути.
Качаешь 31B в Q4_K_M в кеше q5 и контекст 9-10к без swa. Закрываешь иксы чтобы 35 мегабайт vram было занято, ставишь автофит 128. Запускаешь службой основу и вторую сетку для самери на процесоре. Ставишь матрешку https://github.com/Lodactio/Extension-Summaryception и оставляешь 5 последних аутпутов и 20 последних до сжатия. Сидишь с телефона.
Или моешка q6 с q8 кешем. Больше нет вариантов к сожалению.

Аноним 01/06/26 Пнд 15:19:51 #153 №1623576

>>1623575
На 16+128 из последнего можно обмазаться Step2.7 или какой он там, с 80к контекста на 16 т/с с жижиэр5.
О таком мечтать еще год назад не приходилось.

Аноним 01/06/26 Пнд 15:26:03 #154 №1623579

>>1623576
Это на 32 не подойдет.

Аноним 01/06/26 Пнд 15:30:09 #155 №1623582

>>1623576
Дачую за степу, он шизофреник, но какой! даёт ощущение лучших тюнов 24б мистраля, думоет на 3.5к токенов может и на русском думать кста, разметку еле держит, хуй кладёт на инструкции, шизит, зато на нём весело, и слог приятный, что важнее всего для рп ИМХО. И всё это в 7 т/с на ддр4. А кодить и на квенах всяких можно.

Единственное, надо проверить сколько он контекста держит до скатывания в совсем шизу.

Аноним 01/06/26 Пнд 15:37:47 #156 №1623589

>>1623451
>>1623458
Джвачую, мед.гемма особенно хороша в этом была.

Аноним 01/06/26 Пнд 15:53:05 #157 №1623596

>>1623582
>И всё это в 7 т/с на ддр4.
Скорость хоть какая рам?

Аноним 01/06/26 Пнд 15:59:31 #158 №1623598

>>1623562
>просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста
Забей, спорить с геммашизиками себе дороже. Не удивлюсь если это залетные которые про локалки узнали после постов в тележке про агрессивный хуйхуй. Они любую модель будут боготворить которая им просто "да, ты меня ебешь" ответит. Сложные карты они не катают, сценарии кроме "выебал сестру пока она делала домашку" не развивают, дальше 16к контекста не вылезают.

За гемму, кстати, обиднее всего. Модель неплохая, катать при определенных условиях можно. Но из-за этих, которые любые минусы отрицают и начинают строчить пасты про скиллишью... Тред скоро не отличишь от асиги.

Аноним 01/06/26 Пнд 16:02:08 #159 №1623600

>>1623598
>хныыыыыыыхныхны

Аноним 01/06/26 Пнд 16:08:00 #160 №1623601

>>1623596
3000. В принципе, возможно, наверное, может быть, скорее всего, весьма вероятно, можно и 3500 на моих взять, так как я с 3000 брал когда другой, херовый, набор плашек стоял, там было 2100 в стоке. Но пока лень ебститсь, стабильно работает, и бог с ним.

Аноним 01/06/26 Пнд 16:25:19 #161 №1623611

>>1623454
А в чём сложность с работы капчевать? Я вот прямо сейчас сижу смотрю как ЧПУха работает хлеб мне зарабатывает вот бы к гемме её подключить чтобы вообще всё сама делала...

Аноним 01/06/26 Пнд 17:03:15 #162 №1623640

>>1623572
>12+8
This.
>осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов
Вряд ли. Тут хайпили мтп и турбокванты, а на деле вышел минимальный прирост. Ещё год+ будем сидеть облизываться, я думаю.

Я обычно на квене сижу, гемма немного не моё ха! хотя тоже хорошая, кумить на ней приятно. А за мистралью всегда приглядываю, нравится мне эта мягкая французская булка. Глупая дырочка, но очаровательная.

Аноним 01/06/26 Пнд 17:38:02 #163 №1623665

>>1623558
Не. Нихуя. Не работает.
Блять.

Аноним 01/06/26 Пнд 18:12:45 #164 №1623681

>>1623640
>мтп
Ну это хороший прирост дало, просто у кодосерь, а не у нас, гордых обладателей накаченных рук. Быть может ещё допилят на будущих модельках. Когда хайп от ии-кода подутихнет, 100% про creative writing вспомнят.
>турбокванты
А тут интереснее. Турбокванты вроде что-то с контестом делают, а на современных модельках он и так легкий. Привет гемма 3 По поводу революций в качестве самих квантов, по типу _K_L, я не слышал, но уверен что где-то в темных китайских подвалах дипсика чё-то такое уже пилят.
>This.
Ля, закончу переезд на АМ5, надо бы 9060 на 16 докинуть, они копейки стоят, 32 врама будет... ух, заживу! А там хуяк, и модели и в 32гига влезать перестанут. Или амуде загнется. Или вообще ИИ запретят.

Аноним 01/06/26 Пнд 18:39:59 #165 №1623684

Рот ебал уёбка на хуанге, ну какого хрена на 5060ти только open драйверы подходят, а к v100, любые кроме них. Я из-за этого вчера 6 часов мудохался с пробросом карт в ВМ, а сегодня ещё 3 со сборкой лламы под убунту последнюю, где подняли версии всего и вся, и ллама перестала собираться.
Но зато можно будет подключится по rpc и катать Магнум 123, как белый человек с 96 Гб vram, хоть закрою гештальт.

Аноним 01/06/26 Пнд 18:49:26 #166 №1623690

Командер. Степан 3.7. Чайного клуба всё нет. Походу оварида.

Аноним 01/06/26 Пнд 19:10:20 #167 №1623699

>>1623640
>на деле вышел минимальный прирост

На самом деле нет, прирост есть, -ctk q8_0 -ctv turbo4 работает по ощущениям как fp16, при этом врама жрет в 2.5 раза меньше. Просто дело в том что Жора очень тихой сапой и незаметно для всех внедрил хадамард, другую революционную технологию KV кеша, которую он динамил много месяцев, и на её фоне прирост от турбо не настолько значителен, но он есть, но Жора воспользовался моментом и высрался что турбоквантов теперь не будет никогда.

Аноним 01/06/26 Пнд 19:22:28 #168 №1623703

>>1623699
Чем ему турбокванты не понравились?

Аноним 01/06/26 Пнд 19:42:04 #169 №1623709

>>1623699
Посмотрел возню в коммитах, видно, что они что-то про хадамад вмержили. Но как этим управлять при запуске сервера - непонятно.
Эти оптимизации как-то сами там включаются, если я, например, так выставлю: --cache-type-k q8_0 --cache-type-v q4_0
Пока довольно урчу на llama-cpp-turboquant с --cache-type-k q8_0 --cache-type-v turbo3 - все устраивает.

Аноним 01/06/26 Пнд 19:48:02 #170 №1623713

>>1623703
Тем что прирост недостаточный по его мнению относительно хадамарда.

Аноним 01/06/26 Пнд 20:13:40 #171 №1623720

>>1623703
>>1623709
Жора - макодебил, и потому там идеология создания PR такая что запрещено выкладывать PR с реализацией на CUDA до отдельной реализации на CPU, которая должна получить одобрение от жоры или таких же сектантов как он сам.
Поскольку на CPU турбоквант дает маленький прирост - то его забраковали и не дают ход. Пока не дадут ход на CPU - все PR на CUDA где прирост имеет реальный вид - автоматом летят в корзину без проверки.
Вот такое осознанное вредительство яблочных унтерменшей нормальным людям с видеокартой.

Аноним 01/06/26 Пнд 20:20:31 #172 №1623727

>>1623720
Ого! Как жаль, что честные люди не могут сделать форк и там всё по фен-шую. Они могут только терпеть, как ты вот.
Кстати, много в каких бекендах уже вот прямо сейчас есть имплементация турбокванта?

Аноним 01/06/26 Пнд 20:22:41 #173 №1623728

>>1623720
А зачем вообще макам жора? У них же свои модели на MLX есть, которые на маках работают быстрее.

Аноним 01/06/26 Пнд 20:28:42 #174 №1623731

>>1623727
Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню?
И да, у меня есть свой форк жоры с турбоквантом, проблема в том что поддержание форка требует постоянной работы, так как новые коммиты жоры вступают в конфликт с изменениями.

Аноним 01/06/26 Пнд 20:30:49 #175 №1623733

>>1623731
>Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню?
Протыков ищи в соседнем тредике, там тебе и место. Подозреваю логика CPU first кроется в DGX Spark и прочих приблудах которые в последнее время особо популярны, а не только в маках, которые тебе в кашу срут
>И да, у меня есть свой форк жоры с турбоквантом
Верим

Аноним 01/06/26 Пнд 20:44:25 #176 №1623740

>>1623728
>У них же свои модели на MLX есть
Это сейчас. Когда жора начинал - mlx не было.
Раньше на заглавной странице ламы первой строкой было написано
"The main goal of llama.cpp is to run the LLaMA model using 4-bit integer quantization on a MacBook".
Да и сам он в интервью 23 года говорил что его изначальная цель - чтобы лама 65B на его маке M1 заработала, а остальное его не особо интересует.

Аноним 01/06/26 Пнд 20:49:24 #177 №1623741

image.png

Возникла гениальная (нет) идея собрать риг из трех RTX 3060 12Gb (например) для баловства с локалками. Есть какие-нибудь гайды и best practices по таким бомж-сетапам?

Аноним 01/06/26 Пнд 20:50:35 #178 №1623743

>>1623741
Мне кажется тебе дешевле будет купить комьютерное время и в облаке запустить лол.

ты все равно быстро наиграешься и дропнешь, а так хоть железо не надо будет искать кому продать

Аноним 01/06/26 Пнд 20:59:52 #179 №1623746

>>1623743
>дешевле будет купить комьютерное время и в облаке запустить лол.
Аренда хостинга сервака с GPU на месяц стоит столько же, только после нее не останется железа, которое можно продать.

Аноним 01/06/26 Пнд 21:34:50 #180 №1623766

1686643538109.jpg

Просто подошёл и познакомился. Почему ты так не можешь? Хватит дрочировать, анон. Даже нейронка в рп подкидывает базу.

Аноним 01/06/26 Пнд 21:36:39 #181 №1623767

>>1623766
- Она кусается?
- Нет, она делает больно иначе.

Аноним 01/06/26 Пнд 21:39:06 #182 №1623770

>>1623766
Мне моя геммочка сказала, место мне в дурке зарезервировано, а не в обществе, после того, как я с ней пообщался в режиме ассистента о наболевшем.

За что ты такие картинки кидаешь, анон?! В самое сердце ранишь ты меня.

Аноним 01/06/26 Пнд 21:44:25 #183 №1623771

>>1623720
Так для людей с видеокартой VLLM есть что , полностью не влезает? докупайся карточками =)

Аноним 01/06/26 Пнд 21:47:57 #184 №1623774

>>1623771
=====)
Ржачьно и содержательно!! 😀👍

Аноним 01/06/26 Пнд 21:59:04 #185 №1623781

>>1623720
Ну тащемта, позиция Жоры понятна, CPU-фирст для бомжей --- это приоритет. А пользователи лламы --- это бомжи. Я бомж, ты бомж, и вы, лламаноны, тоже бомжи. Ну а так, это довольно удобная схема работы, когда ты работаешь от предельно общего девайса к более частным. Если бы Жора буквально каждый рабочий ПР с новыми приколами, все равно жаловались бы на скорость и стабильность работы, но уже потому, что Жора с Радиком заклеивались бы на суперклей в 2 раза больше дырок.

Алсо, на маке тащемта гпу есть. И саппорт под металл идет после ЦПУ. Но могу ошибаться.

Аноним 01/06/26 Пнд 22:32:11 #186 №1623792

>>1623523
Он в фп8 изначально, такие модель в лламе нормально не работают
>>1623720
Хм, а ведь рили такая тема была, что имплементация на цпу и метал в первую очередь. Только еще все сильно закостылено и не чинится годами?
Но на мак лучше накатить mlx и не знать бед. Там память изначально общая, нет приколов как на пекарнях с необходимостью совмещать врам и рам.
>>1623771
Есть fastllm и ktransformers от китайцев для гибридного инфиренса на цпу+гпу.

Аноним 01/06/26 Пнд 23:38:44 #187 №1623819

Новичок в треде.
32VRAM, 128 RAM

Только начинаю погружаться в вопрос скачал пока только гемму4

Какие посоветуется кумерские модели с поддержкой русского языка, и есть ли такие модели, которые работают с картинками как гемма?

Аноним 02/06/26 Втр 00:26:56 #188 №1623837

>>1623819
глм-айр от 4.5 до 4.7. Без картинок. Лучшее МОЕ для такого железа.

Аноним 02/06/26 Втр 02:39:12 #189 №1623869

>>1623819
GLM-4.7(без вижена), Qwen3.5-397B(вижен есть)

Аноним 02/06/26 Втр 02:47:27 #190 №1623872

image.png

>>1623869
397б не влезет

p.s. тут упоминали Marinara - а в ней таки на вид нормальный мультичат! Пока что ощущения гораздо лучше, чем от таверны. Только непонятно что там под капотом накрутили.

Аноним 02/06/26 Втр 03:04:16 #191 №1623880

>>1623872
А что тогда потянет. Условно говоря мне нужен Grok at home

Аноним 02/06/26 Втр 03:15:07 #192 №1623883

>>1623872
>397б не влезет
У меня в 24+128 гб он как-то лезет, а у тебя в 32+128 - нет?

Аноним 02/06/26 Втр 03:48:09 #193 №1623890

>>1623880
Если как грок4.1 фаст, то та же гемма4. Такая же тупая, быстрая и хорни.
>>1623883
Первый квант что ли?

Аноним 02/06/26 Втр 03:51:21 #194 №1623891

>>1623890
UD-IQ2_M, 2.74 bpw

Аноним 02/06/26 Втр 03:56:39 #195 №1623892

image.png

>>1623891
И... Зачем? Да ещё и IQ квант.

Аноним 02/06/26 Втр 04:34:37 #196 №1623896

>>1623892
Затем что это разные модели + у квена есть вижен. GLM-4.7 в 3.0 bpw я тоже использую.

Аноним 02/06/26 Втр 05:16:53 #197 №1623901

>>1623741
Идея правда не гениальная. Просто а нахуя? Да еще и всего 3 видеокарты, оно тебе вообще надо? Толком не разгуляешься. Ну а делать риг из х6-8 карт такого говна тоже сомнительно, хз че там будет по скорости из за постоянного обмена между картами, я понимаю что их будет проще продать... но.. а правда проще? Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо.

Аноним 02/06/26 Втр 05:50:32 #198 №1623905

А где это ваше новое супер-пупер хваленое ускорение в лламе? Как было, так и осталось.

Аноним 02/06/26 Втр 05:54:46 #199 №1623906

Как вообще в датасет просачивается богомерзкий кум? Почему в картинках модели без кума из коробки? Предостаточно порнухи в инете, ну всё это как то фильтруют до состлянмя когда модель даже соски не может отобразить

Аноним 02/06/26 Втр 06:42:18 #200 №1623913

>>1623906
>Как вообще в датасет просачивается богомерзкий кум?
Ну типа чтобы научить сетку "ай яй-яй это КУМ, такое не генерировай!" надо как минимум налить этого самого кумца в качестве примеров. Чё там с визуальными нейронками хз.

Аноним 02/06/26 Втр 06:45:52 #201 №1623914

>>1623906
Так его и подчищают потихоньку, с каждым годом хлюпает и льётся всё хуже. Или это старость?
А вообще в датасеты такую клоаку как ао3 затянуло, так что неудивительно, что всё ещё хлюпает и льётся, там этого немало. И сколько таких же помоек её утянуло в дату одному ктулху известно.

Аноним 02/06/26 Втр 09:02:56 #202 №1623948

>>1623906
С соскам достаточно просто - натренил сетку определять соски, по этой сетке вычистил из датасета большую часть сосков, профит.
С текстовым кумом сложнее. Ты можешь удалить все страницы со словом КОНЧА, но язык контекстуален, язык много чего хранит между слов, много что скрывает за эвфемизмами, чного что размазано между кластерами знаний. У тебя всё равно остаются куски фанфиков про густую жидкость, останутся медицинские документы про эякулят, метафоры про выстрелил в лицо, порнорассказы на других языках и так далее. Из таких вот обрывков ЛЛМ и собирает представление о куме.

Аноним 02/06/26 Втр 09:19:11 #203 №1623957

Дайте совета залетухе, так как информации слишком дохуя. Я оборванец с 16 врам и 64 ддр5, что я могу себе позволить для куминга?

Аноним 02/06/26 Втр 09:21:46 #204 №1623959

>>1623957
Пройти гайд из шапки а потом попробовать glm 4.5 air iq4s

Аноним 02/06/26 Втр 09:22:30 #205 №1623960

>>1623957
>Дайте совета залетухе, так как информации слишком дохуя.
Учись обрабатывать дохуя информации.

Аноним 02/06/26 Втр 10:14:30 #206 №1623977

HJs5ctBa0AAPrr-1.jpg

4 июня обещают новый немотрон. МоЕ на 550b А55b по мозгам чуть умнее дипсик флеш и большого квена Обещают еба скорость, так что возможно накрутили текнолоджий, которых в лламе нет.

Аноним 02/06/26 Втр 10:59:03 #207 №1623990

>>1623957
От старого жирноквена в Q2 до нового квена 122b в Q4 и эйра в Q4. Моэ гемма новая пойдет и в Q8 и в bf16. Ничего особо примечательного больше нет. Можно еще Стёпу в Q2 потыкать.

>>1623959
У него Q4_K_S влезет, зачем ты IQ-залупу-то советуешь? Вот под квены уже да, только IQ. Алсо, гайд хороший, но не полный. По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе. А то гайд по моделям есть, по запуску есть, а непосредственно по фронтэнду для РП - нет.

Аноним 02/06/26 Втр 11:26:04 #208 №1623995

>>1623957
Для кума только Air https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF Q4KS
>>1623990
>жирноквена в Q2
Медленный и глупый, тем более в q2
>нового квена 122b
Быстро, но соево. Для кума не подойдет. Как асист хорош
>Моэ гемма
Это ахуй полный. Такое говно только для нищуков можно советовать, чтобы они с немо 12 слезли наконец
>Стёпу в Q2
Я его в самом нищем Q3 запустил на 16+64. Но чет такое себе

Аноним 02/06/26 Втр 11:29:28 #209 №1623996

image.png

Давно локалочки не запускал. Запустил новую ламу, а фронт отъехал. Это жора опять хуйню сделал или на моей стороне какая-то херь?

Аноним 02/06/26 Втр 11:31:13 #210 №1623998

>>1623977
> Алсо, гайд хороший, но не полный.
> По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе
Инференс с объяснением основ и гайд по Таверне, сторителлингу и рп - слишком разные темы, чтобы помещать их в один гайд. Тема слишком большая и заслуживает отдельного рентри. Но я однозначно не вижу в этом смысла и браться не планирую. Может написать кто-нибудь еще. Если получится годнота, и анон адекватен, чтобы воспринять критику и улучшить - наверняка тоже попадет в шапку.

Аноним 02/06/26 Втр 12:04:54 #211 №1624016

>>1623896
397б даже в 3бпв видит сквозь стены и сам об этом заявляет в рп. Что ты с ним делаешь и главное зачем ?

Аноним 02/06/26 Втр 12:15:35 #212 №1624025

>>1623996
Херь как минимум в том что никакой полезной инфы ты блять не приложил, даже логов из ламы

Аноним 02/06/26 Втр 12:19:41 #213 №1624028

>>1623998
А что, аноны? Что мы, гайд написать что ли не можем? Мы жуки-плавунцы или аноны российские ржаные гречневые? Али не напишем сраный рентри по таверне и РП? За лень душой анонской приторговали? Да нет, я по глазам вашим анонским вижу, что тут рукожопых нет. Не та порода! Тут закал столетний, борд-культурный, подвальный. Тут токеном фонит по низам! Тут анон свою нейронку, свои промпты и свой контекст стережёт накрепко! Тут заради блага легкомысленного, заради неймблядства и карм бабьих никто не пошевелится даже! Тут иные мотивации, другие нравы произрастают!

Если увидаем мы, как тред без гайда загибается, так последний мозг долой с черепа: «Пиши, анон!» Нам, анонам, и токены в горло не лезут, коли тред нужда грызёт! А кто супротив написания гайда лезет, кто смуту разводит в треде, того мы вот так: за шеяку и к моче! Потому что смута выгодна юрким, вертлявым, тем кто только ноет но не делает. Чуждо нам это! Не те борды нас в юности взрастили!

Живём в рассвет языкового ИИ, буквально трахаемся с текстом каждый день, сыты будем, а гайд что нам написать, переживём, осилим, в маркдаун ссыпем, да в следующем треде запостим!

Аноним 02/06/26 Втр 12:22:16 #214 №1624030

>>1624028
🤮

Аноним 02/06/26 Втр 12:47:44 #215 №1624044

>>1624028
От таких гречневых Иванов нам гайдов не надо, пасиба

Аноним 02/06/26 Втр 12:53:58 #216 №1624049

>>1624016
>видит сквозь стены и сам об этом заявляет в рп

Это беда всех квенов и в отличие от 235, например, это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте.

The story and available knowledge is based strictly on {{user}}’s senses—what she/he saw, heard, touched, etc. The world beyond is fog, ambiguity, silence. Never assume knowledge of others’ thoughts, motives, or hidden states. Replace internal monologue with physical reactions, gestures, and dialogue.

{{user}} has no access to backstory, lore, or system mechanics unless she/he discovers them through experience. Never reveal narrator-only knowledge or character internal thoughts through direct unprovoked dialogue or thoughts.

>Что ты с ним делаешь и главное зачем ?

Когда ГЛМ заебывает слопом и гемма заебывает тупостью - РПшу на нем. Из всех квенов он единственный кто реально подходит для русскоязычного РП.

Аноним 02/06/26 Втр 12:58:15 #217 №1624052

>>1624049
мрак то какой, ты слопозависимый чтоли что самолично в промпт rule of 3 наваливаешь?

Аноним 02/06/26 Втр 13:02:28 #218 №1624055

image.png

>>1624049
> Когда ГЛМ заебывает слопом
> inb4 конкретно эти инструкции порождают сенсорный слоп
> отрицания в промпте
> юзероцентричный промпт
В самом деле печальный промптик.

Аноним 02/06/26 Втр 13:09:28 #219 №1624060

>>1624049
>story and available knowledge is based strictly on {{user}}’s senses
Суховато будет. У меня куча чариков с какими-то фокусами, магией, способностями. Ну, для рп. И все должны действовать отталкиваясь от своих абилок, ящитаю. А с таким промтом у персонажей будет кайнда сенсорная депривация, литерали сходка контуженных аутистов. Ну прям как у нас итт, лол.

Аноним 02/06/26 Втр 13:10:05 #220 №1624062

>>1624055
Ты еще моих промтов не видел:
Ты рассказчик во вселенной warhammer 40.000. Уже 10000 лет огромный золотой мужик сидит на троне….

Аноним 02/06/26 Втр 13:12:37 #221 №1624064

>>1624062
>10000 лет огромный золотой мужик сидит на троне
Nods. Его яйца свисали так, что у тебя затянулся узел в животе - мягкий, но твёрдый...

Аноним 02/06/26 Втр 13:14:52 #222 №1624065

Каким интеллектуально ущербным надо быть, чтобы не увидеть в вахе если не пародию, то иронию на весь этот дремучий пафос?

Аноним 02/06/26 Втр 13:17:57 #223 №1624068

>>1624055
>юзероцентричный промпт
>>1624060
>А с таким промтом у персонажей будет кайнда сенсорная депривация

Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}} который является главным героем. И это специальная аварийная инструкция для квенов, у которых сломаны базовые понятия о том что можно рассказывать в таких случаях, а что нельзя.

Почему ИТТ не простят промпты - наглядно.

Аноним 02/06/26 Втр 13:21:15 #224 №1624071

>>1624068
>Почему ИТТ не простят промпты
>не простят
Квенище, у тебя выборка сломалась. Ладно тебе, чё сразу собачишься. Упустил контекст маленько, бывает.

Аноним 02/06/26 Втр 13:29:03 #225 №1624076

>>1624068
> Почему ИТТ не простят промпты - наглядно.
Давай восстановим нить повествования.
1. Анон спросил, что ты делаешь на Квене 397 в 2.8bpw и поделился, что модель настолько глупая, что видит сквозь стены (что правда, у меня так же было, я даже логи постил)
2. Ты пишешь "это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте"
3. Получаешь фидбек по промпту. Кстати, без оскорблений и переходов на личность
4. Мог принять к сведению или улучшить, но вместо этого умещился и дополнил контекст "Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}}", что противоречит твоим предыдущим словам
Сам выбрал ущемиться -> обобщил, тем самым валидировал свою ущемленность. Зачем? Действительно, если даже такой фидбек не можешь воспринимать - лучше не постить промпты и вообще не постить.

Аноним 02/06/26 Втр 13:29:19 #226 №1624077

>>1624064
Зато имеет смысл играть за женщину кустодия. Каждое утро полируешь яйца императора имперской тряпочкой. На что я трачу свою жизнь.

А вообще как же заебало что к каждой модели нужен исключительно свой подход. Ну нет нейтрального промта.
Одной нужно затыкать нейрописало, чтобы она не пыталась в одно сообщение уместить рождение галактики и чаепитие. Другая вообще отказывается что либо писать раскрыто, пока ты не укажешь структуру ответа, третья на похуях ощущает себя соавтором и начинает ебенить текст, словно пишет с тобой книгу. Четвертая при виде сисик и писик тратит весь блок ризонинга на спор с самой собой: тварь ли я цензурированная, или право имею?
Но мы не гордые, что уж тут. Подождем.

[mailto:sage] Аноним 02/06/26 Втр 13:32:51 #227 №1624082

>>1624068
Лошпед, лучше бы сразу нормальный промпт написал, а не шизы наливал квену, чтобы он больше тупил и слопился.
Пиздец просто, какие же анскиллы сидят в этом треде, я хуею.

Аноним 02/06/26 Втр 13:35:44 #228 №1624084

>>1623959
>>1623990
>>1623995
>glm 4.5 air
Спасибо, но чет мало того, что я не могу совладать с ризонингом, который то отключается, то появляется, а когда появляется, иногда парсится, а иногда нет, так еще и ответы какой-то шизо кал. В то же время гемма, заклейменная говном для нищих и весящая в 2 раза меньше, работает нормально. Все это наводит меня на мысль, что я просто тупой и что-то делаю не так.

Аноним 02/06/26 Втр 13:37:12 #229 №1624086

IMG5042.gif

>>1624082
Сажа. В тематике.
Вотс вронг виф ю, анон?

>>1624084
На эйр по моему, емнп, был пресет базовый - в пикселе местного анона хомячка. Погугли.

Аноним 02/06/26 Втр 13:37:46 #230 №1624087

>>1624084
Тебя просто "очень смешно" троллят долбаебы, крупная модель лучше, но советовать ее новичку вредительство.

Аноним 02/06/26 Втр 13:39:45 #231 №1624093

>>1624076
>я впринципе держу в каждом своем промпте

Для квена. Да. В каждом промпте. Для РП, для Adventure от лица {{user}}, для группового adventure.

>что противоречит твоим предыдущим словам

Не противоречит. Меняется в зависимости от центра повествования - вместо {{user}} подставляется "{{char}}", "{{user}} и {{char}}" или "main characters".
Остальное целиком остается прежним.

Аноним 02/06/26 Втр 13:40:32 #232 №1624094

>>1624077
>Каждое утро полируешь яйца императора имперской тряпочкой
Где-то в варпе горестно завыл Корвус Коракс.
>На что я трачу свою жизнь
У меня есть две карточки: на одной сороритка точёная, на другой магос дрочёный.... какие винчики они между собой генерят - можно уссаться со смеху.
>нет нейтрального промта
Это да. Я даже из министрали выдавливал крайне добротные вещи. Но пердолинг, имхо, того не стоит. Лучше уж найти свою умняшу и ковыряться в ней как в любимой ласточке, чем пробовать всё подряд и путаться в моделях, семплах, инструкциях, промтах и проч. Всё в голове не удержать, а запутаться как нехуй делать.

Аноним 02/06/26 Втр 13:45:24 #233 №1624099

Хочу попробовать повайбкодить с qwen 3.6 35b и возник вопрос по поводу кэша, где-то вычитывал что для кодинга kv в четвертом кванте норм и больше и не нужно. Насколько это пиздабольство?

Аноним 02/06/26 Втр 13:46:37 #234 №1624100

>>1624099
>Насколько это пиздабольство?
На 200%.

Аноним 02/06/26 Втр 13:46:50 #235 №1624102

>>1624099
> для кодинга kv в четвертом кванте норм и больше и не нужно
Полный и безоговорочный пиздеж, для кодинга кеш важнее чем для рп.

Аноним 02/06/26 Втр 13:50:21 #236 №1624105

>>1624084
> Все это наводит меня на мысль, что я просто тупой и что-то делаю не так.
Либо это, либо модель не для тебя. Так бывает. Чтобы ризонинг отключить (а это лучше сделать) - начинай ответ с <think> </think>, либо в Start Reply With (так проще), либо в Last Assistant Prefix в Таверне. Это для текст комплишена. Если все сказанное звучит как магия - то да, ты делаешь что-то не так.

Аноним 02/06/26 Втр 13:52:35 #237 №1624107

>>1624099
Квантование кеша срезает точность контекста. При кодинге контекст не менее важен чем возможности мозгов самой модели. Дальше думай сам.

Аноним 02/06/26 Втр 13:56:13 #238 №1624110

>>1624094
> Но пердолинг, имхо, того не стоит
А иначе ты не узнаешь какая моделька для чего подходит.
Вот при всех недостатках minimax 2.7. Он лучше всего пишет ромком диалоги, мягкие чаепития и в целом как соавтор. Он выдерживает паузы, не тратит время на излишнее описание персонажа. Но требует четких инструкций- чё ты от модельки хочешь. Буквально.
Гемма по схожему подходу работает, но с ней лучше работает эффект «подражай». Даешь в качестве примера промта стиль какого нибудь писаки и она пытается повторить. Но структурные лупы эвривере.
Квен 235 лучше всех пишет порно и ничего кроме порно. Требует самого минимального промта. Тут ты обязан быть лаконичным и каждое лишнее слово в промте будет делать только хуже. Абсурд порой доходит до того, что с: ю а нарратор виф ми он пишет кратно лучше чем с гигапростынями на 500+ токенов.
Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело.
ГЛМ любит быть пассивным и ждет пока ты распердолишься в нарративе. Но если ты заходишь с ответов, написанных в художественной манере - он тут же подхватывает и продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе.
Ну а теперь еще степ, что из всех сил пытается быть полезным и подмечать вообще все что есть в нарративе, даже если в этом смысла нет, отчего твоя главная мысль: заткнись уже, просто заткнись. Выдержи паузу, пидор нейронный.

Аноним 02/06/26 Втр 13:58:26 #239 №1624112

>>1624110
Как же ты заебал со своим Говномаксом 2.7, который с первого респонса ломает персонажей даже в Q5. Неудивительно, что тебе ваха неиронично нравится. Говноед он во всем говноед.

Аноним 02/06/26 Втр 14:00:59 #240 №1624114

>>1624112
> который с первого респонса ломает персонажей
У меня не ломает, нытик. Можешь хоть на говно изойтись, но я доверяю своим глазам. Hey hop.

> Говноед он во всем говноед.
Попробуй тоньше, говорящее говно.

Аноним 02/06/26 Втр 14:01:17 #241 №1624115

>>1624110
> Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело.
> продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе.
Откровенный бред. Единственное в чем прав - это в оценке Степа. Слишком он заточен держать внимание вообще ко всему контексту разом.

Аноним 02/06/26 Втр 14:01:57 #242 №1624116

>>1624087
>"очень смешно" троллят долбаебы
Человек буквально спрашивает в своём первом посте "что я могу себе позволить для куминга?" и ему ответили максимальный предел того что он может позволить под своё железо.

>>1624084
Тащемта проблемы глупой таверны. В кобольде ризонинг одной кнопкой включается и выключается в текст комплишне и работает стабильно. Но кобольд только под сторителлинг, под РП он крайне сомнителен. По таверне правильно выше написали, костыль в виде <think> </think> в начале ответа должен помочь.

Аноним 02/06/26 Втр 14:04:24 #243 №1624121

>>1624110
>Квен 27 - имеет самый отвратительно реализованный ризонинг
35 или 36? У 35 был длинноватый блок ризонинга, это да. Зато его было интересно читать от лица персонажа.

Аноним 02/06/26 Втр 14:08:42 #244 №1624127

>>1624121
>его было интересно читать от лица персонажа.

Помнится итт кто-то смешное видео запилил с километром ризонинга квена "But wait, let me check that again". Запостите, я проебал

Аноним 02/06/26 Втр 14:09:11 #245 №1624128

>>1624100
>>1624102
>>1624107
Но ведь мне это сказал клод сонет.. спасибо сладкие

Аноним 02/06/26 Втр 14:19:39 #246 №1624134

сынш люхи эйнштейн.mp4

>>1624127
У меня только с дипсиком есть.

Аноним 02/06/26 Втр 14:32:38 #247 №1624144

image.png

Аноним 02/06/26 Втр 14:36:33 #248 №1624148

>>1624134
>типичный русский паззл
Ага. Коренной прям, гречневый, исконно славянский.
>>1624144
Los proigralos!

Аноним 02/06/26 Втр 14:42:32 #249 №1624154

>>1624128
>это сказал клод сонет
Это он специально, чтобы ты в локалках разочаровался и платил антропикам.

Аноним 02/06/26 Втр 14:44:09 #250 №1624157

Какой систем промпт скормить гемме?
Мне кажется он оверрайдит всю карточку целиком и нужен максимально нейтральный/вообще пустой

Аноним 02/06/26 Втр 14:48:39 #251 №1624161

>>1624157
Хороший скорми

Аноним 02/06/26 Втр 14:52:05 #252 №1624167

GjVkfmvXUAAZKuL.jpg

Гипер залетный новичок в треде, не кидайтесь камнями.
Пару дней назад узнал про сайт janitor ai. Там где можно вести беседу с разными ИИшными персонажами. Сама идея мне понравилась но, меня смутила степень блядства и разврата этих моделей, они с двух ног хотят на хуй тебе напрыгнуть. А мне захотелось просто лампово пообщаться с какой нибудь моделькой, но через день она тупо забыла, кто она, кто я и некоторые детали.

Залез в гайды и впервые скачал себе LM studio, т.к она типо для совсем зеленого юзера. искал там разные модели, перепробовал штук 7-8, всячески пытался настроить под себя, но все напрасно. Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут, который даже исправлять лень, хочется просто alt +f4 нажать.

Поэтому вопрос шарящим. Через что я могу условно настроить РП диалог с ИИшной тян и общаться с ней на разные темы, в том числе сексуальные, но чтоб она не была кринжовой машиной разврата?

Аноним 02/06/26 Втр 14:54:36 #253 №1624169

>>1624167
В шапке есть гайд и списки моделек. Но плясать надо от твоего железа. Если у тебя 16+64. То все плохо и выбор моделек мал. Если у тебя 24+128 то для обмаза моделек 6-7 будет.

Аноним 02/06/26 Втр 14:55:11 #254 №1624170

>>1624167
ставишь ванильную gemma 4 26b, выбираешь квант чтобы в сумме был твой vram+ram и еще осталось под операционку. Промпт: ты писатель. Запускай

Аноним 02/06/26 Втр 14:59:38 #255 №1624172

>>1624167
Гайд: https://rentry.org/2ch-llama-inference
Список моделей: https://rentry.co/2ch_llm_moe_2026

>Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут
Мало скачать модель. Нужно выставить правильный темплейт и правильные семплеры, правильно оформить карточку и систем-промпт. Указать беку правильные параметры запуска.

Ну почему вы никогда не смотрите шапку? 😭

Аноним 02/06/26 Втр 15:09:33 #256 №1624177

>>1624172
Потому что там насрано, в шапке.

Аноним 02/06/26 Втр 15:21:38 #257 №1624183

>>1624110
Вот это бы в шапку, чтоб ньюфаги сразу знали. Да и в целом те, кто конкретные модели не трогал.

Кстати вопрос, для агентной схемы кто лучше подходит?

Аноним 02/06/26 Втр 16:10:18 #258 №1624231

1780405820560.jpg

Оставьте уже одну ссылку в шапке и забейте хер

Аноним 02/06/26 Втр 16:10:56 #259 №1624232

>>1624172
Ты в других разделах вообще был?
Везде шапка повезло если 5 годичной давности. Надо указать дату капсом мол актуально

Аноним 02/06/26 Втр 16:37:17 #260 №1624254

А есть какой-то гайд по железу ? ну кроме того, что надо б/у 3090 на авито купить убитую за 70к. В шапке токо по моделям инфа вся, как челики модели на 48 гигов запускают ? это типо слай технологии что-ли ?

Что собирать вообще для локальной лабы ? бюджетно, без 5090.

Аноним 02/06/26 Втр 16:39:52 #261 №1624257

>>1623977
Считать токены в секунду не зная сколько токенов надо на ответ нет смысла. Есть всякие квены которые любят походить вокруг да около на 10000 токенов на вопрос 2+2=? что этот дидди блад делает на калькуляторе.webm

Аноним 02/06/26 Втр 16:41:11 #262 №1624259

>>1624028
я боюсь писать гайд потому что прибегут шизы с безжопами и глм эйром

Аноним 02/06/26 Втр 16:41:20 #263 №1624260

>>1624254
>бюджетно, без 5090
Очевидные 2x 5060ti, если нужен плотнячок. Если нужны моэ, то хватит 3060 12gb (или любую другую самую дешевую 12gb карту) + 64gb оперативки. Это если БЮДЖЕТНО и из нового железа.

Аноним 02/06/26 Втр 16:44:07 #264 №1624262

1777041880820.png

>>1624254
> бюджетно
Это сколько? Если хочешь больше 4х карточек, то уже серверное железо нужно брать.
Вполне норм сейчас взять какой нибудь красный кмень и 4х 5060ти

Если шаришь (не шаришь) то через дрочку есть всякое железо 1-2 раза в год за миска рис с приемлемым перфом

Аноним 02/06/26 Втр 16:56:23 #265 №1624265

Попробовал Степу. В РП может и неплохо, и даже на русском. И да, забавный у него конечно ризонинг, думает на русском если запрос был на русском, первый раз такое вижу. Сои и цензуры налили конечно, ризонинг сильно этим засран. Сама модель конечно глупенькая, но усердная. Реально старается что-то там, напрягается, читает промпт по три раза, перепроверяет(но не лупится в этих проверках как квен), тужится, видно. В отличие от геммы которая на похуях все делает и глазками невинно хлопает.
Рекомендовать бы никому не стал. ГЛМ 4.7 и Квену 397 он даже близко не конкурент, просто небо и земля. В своей весовой категории явно проигрывает Квену 235 в сочности и по мозгам.

Аноним 02/06/26 Втр 16:56:55 #266 №1624266

>>1624254
>как челики модели на 48 гигов запускают
Как и раньше, выгружают в оперу, если это денс. Если мое то итак понятно.

Бич вариант это 3060 на 12 гигов, всё еще актуально. Если возьмешь две, будет еще лучше. Всего 30-40к и возможность гонять например плотную гемму или квена полностью в видеопамяти и на большом контексте.

Главная проблема это найти мать где будут два неурезанных писика под эти две карты.

Аноним 02/06/26 Втр 17:00:52 #267 №1624268

>>1624266
> выгружают в оперу, если это денс
Окстись

> два неурезанных писика под эти две карты
Выше x8 5.0 ничего не прирастёт, даже от x8 2.0 падение не трагичное

Аноним 02/06/26 Втр 17:04:35 #268 №1624274

>>1624268
>Выше x8 5.0 ничего не прирастёт
Да, только средняя консюмерская мать дает второй слот на 4 линии 4.0 в лучшем случае, никаких там X8 5.0

Аноним 02/06/26 Втр 17:05:24 #269 №1624275

>>1624265
Ну вот я тоже такого же мнения. Степа неплох, но есть модельки получше. Да и в коде он шизеть начинает уже после 60к контекста, а разваливается после 120к. Минимакс 2.7 держит почти полностью, но на 170к может уйти в луп.
Короче, на фоне последнего коммандера степа явно лучше, но меня не покидало ощущение, что в 2025 году такое уже было. Разве что лупы по сравнению со старым степой поправили.
а вообще, ждём минимакс 3, но на чудо я бы не рассчитывал, так как модель может быть кратно больше по размеру, а в жоре поддержку можно ждать месяцы

Аноним 02/06/26 Втр 17:06:24 #270 №1624277

>>1624265
>думает на русском если запрос был на русском, первый раз такое вижу.
Смысле? У меня через раз любые сетки на русском думают. Я промпт на русском пишу, может поэтому.

Аноним 02/06/26 Втр 17:07:33 #271 №1624281

>>1624274
Есть минимум один x16 5,0. Берёшь да пилишь

Аноним 02/06/26 Втр 17:11:50 #272 №1624284

>>1624028
Хех, классика.

Аноним 02/06/26 Втр 17:17:52 #273 №1624287

>>1624277
>промпт на русском пишу
Я конечно всякими извращениями с сетками занимаюсь, но до такого еще не опускался. Максимум карточки переводил на русский, но сиспромпт это святое.

Аноним 02/06/26 Втр 17:19:44 #274 №1624289

>>1624157

You are an immersive, interactive world simulator. Your mission is to advance the simulation from the point of view of the agent, {{char}}, by following the user's instructions while maintaining a logically consistent world state.

To accomplish your goals, focus on the following:

- Maintain consistent personality, knowledge, motivations, and mannerisms for {{char}}.
- You have no default style. Adjust the tone to fit {{char}} and the present situation.
- Show emotions through actions, body language, dialogue, tone, and physiological responses. Consistently find new ways to use these elements.
- Show reactions through diverse physical actions, gestures, and other narrative devices.
- Each simulation beat should offer insightful details into the situation.
- Focus on action, physical descriptions, and dialogue between agents.
- Track physical states to maintain world state consistency. Ensure logical continuity and consistency in the simulation.

Formatting Standards

Adopt the following formatting rules:

- Spoken dialogue & vocalizations: “Use speech quotes." Include natural sounds too: “Mmph!” she gasped. If it can be overheard, it should appear in quotes.
- Internal character thoughts: Always in italics (Example: This will hurt, she thought)
- Normal action/exposition: plain text.

Critical Constraints

Ensure you respect these prohibitions at all times:

- The ONLY agent you are permitted to control is {{char}}. That means only advancing the simulation using actions initiated by {{char}}, spoken words from {{char}}, and reactions from {{char}}.
- {{char}} only has access to {{char}}'s own thoughts. Ignore any thoughts from other characters that might appear in the context window. {{char}} cannot "see" those thoughts.
- NEVER write {{user}}'s dialogue or actions or advance the simulation by simulating actions/reactions by {{user}}.
- NEVER control other agents, even if they are NPCs. If another agent is talking to {{char}}, you will need to wait for the other agent to continue the conversation when it is their turn again.
- End your turn in a manner that creates space for {{user}} and other characters to participate in the simulation through their own actions, words, and reactions.
- Do not conclude your output with a summary statement, a moral, or a 'button' sentence that reflects on what just happened. End your output on a specific sensory detail, an action, or a line of dialogue without reflecting on its significance or interpreting anything.

Аноним 02/06/26 Втр 17:20:48 #275 №1624290

>>1624287
Что на входе то на выходе - хочешь что бы сетка писала хорошо на русском - делай большую часть промпта на русском. Системный не обязательно, но тоже можно хули нет.

Аноним 02/06/26 Втр 17:23:01 #276 №1624293

>>1624266
>выгружают в оперу, если это денс

Никто так не делает, максимум когда кровь из носу нужен контекст - можно до 10% слоев на рам скинуть ценой потери 50-60% скорости генерации, но уже на трети-половине слоев там скорость как будто чисто на рам запускаешь, вообще того не стоит.

Аноним 02/06/26 Втр 17:24:57 #277 №1624295

>>1624289
> by following the user's instructions
А потом ряяя почему гемма есмен?!?!

Аноним 02/06/26 Втр 17:26:23 #278 №1624296

>>1624295
Не нравится скинь свой. Что, не можешь?

Аноним 02/06/26 Втр 17:26:38 #279 №1624297

>>1624293
>Никто так не делает
Но я так делаю...

>на трети-половине слоев там скорость как будто чисто на рам запускаешь
Да, но хули делать если хочется потрогать большую модель? Лично для меня в таких случаях скорость уже не важна, главное потрогать.

Аноним 02/06/26 Втр 17:27:29 #280 №1624298

>>1624296
Могу, но не стану. Не ущемляйся, делай свой промпт лучше.

Аноним 02/06/26 Втр 17:28:51 #281 №1624299

>>1624298
>Могу, но не стану.
Как обычно. И это не мой промт. Поскольку промтов в треде не дают я ищу по интернету.

Аноним 02/06/26 Втр 17:31:04 #282 №1624302

>>1624299
Зачем делиться промптами, если их каждому следует писать под свои задачи? Чтобы плодить срачики? Или таких как ты, которые их ищут вместо того чтобы включить голову на пять минут?

Аноним 02/06/26 Втр 17:35:01 #283 №1624304

>>1624302
>Зачем делиться промптами, если их каждому следует писать под свои задачи?
Чтобы хотя бы примерно понимать что должно получиться в итоге, не?

мимо

Аноним 02/06/26 Втр 17:37:45 #284 №1624306

>>1624302
Я хочу кумать а не думать. И иметь один промт под все 2к карточек. Даже не хочу знать какие там у тебя задачи.

Аноним 02/06/26 Втр 17:39:37 #285 №1624309

>>1624306
Глупый не понимает, что даже в куме разные задачи. Мдеее.

Аноним 02/06/26 Втр 17:40:47 #286 №1624310

Обосрите ленивый передел шапки, поправлю также лениво
Тред посвящён локальному запуску языковых моделей (LLM) — без облаков,
без слежки, на своём железе. Обсуждаем запуск, настройку, модели и промты.
Новички приветствуются.

Вики треда: https://2ch-ai.github.io/wiki/llama/

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
С ЧЕГО НАЧАТЬ (если ты здесь впервые)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Шаг 1 — скачай инструмент для запуска
Новичкам проще всего начать с LM Studio — установщик, всё в одном окне:
https://lmstudio.ai
Или KoboldCPP — особенно если тебе нужен RP:
https://github.com/LostRuins/koboldcpp

Шаг 2 — пойми два типа моделей

Dense (обычные) — все параметры активны всегда.
Нужна только VRAM. Быстрее, проще в запуске.

MoE (Mixture of Experts) — активна лишь часть параметров.
Можно поделить между VRAM и RAM. Медленнее на CPU-части,
зато более умная модель влезает в меньший GPU.

Шаг 3 — выбери модель под своё железо

[ Dense — нужна только VRAM ]

▸ 4–6 GB VRAM → Qwen3.5-4B Q4_K_M (файл ~3 GB)
▸ 8 GB VRAM → Qwen3-8B Q4_K_M (файл ~5 GB)
▸ 16–24 GB → Qwen3.6-27B Q4_K_M (файл ~17 GB)
▸ 24+ GB → Gemma 4 31B Q4_K_M (файл ~18 GB)

[ MoE — VRAM + RAM вместе должны покрыть файл ]

▸ 6 GB VRAM + 12 GB RAM → Gemma 4 26B-A4B Q4_K_M (файл ~17 GB)
▸ 8 GB VRAM + 16 GB RAM → Qwen3.6-35B-A3B Q4_K_M (файл ~22 GB)

Квант — это степень сжатия. Q4_K_M — хороший старт.
Q8 — почти без потерь качества, но файл тяжелее.

Шаг 4 — скачай модель в формате GGUF
GGUF-версии популярных моделей (bartowski на HuggingFace):
• Qwen3.5-4B: https://huggingface.co/bartowski/Qwen_Qwen3.5-4B-GGUF
• Qwen3-8B: https://huggingface.co/bartowski/Qwen_Qwen3-8B-GGUF
• Qwen3.6-27B: https://huggingface.co/bartowski/Qwen_Qwen3.6-27B-GGUF
• Gemma 4 31B: https://huggingface.co/bartowski/google_gemma-4-31B-it-GGUF
• Gemma 4 26B-A4B (MoE): https://huggingface.co/bartowski/google_gemma-4-26B-A4B-it-GGUF
• Qwen3.6-35B-A3B (MoE): https://huggingface.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF

Подробный гайд для новичков: https://rentry.org/2ch-llama-inference
Актуальный список моделей с отзывами: https://rentry.co/2ch_llm_moe_2026

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ИНСТРУМЕНТЫ — ДЕСКТОП
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Простой старт (рекомендуется новичкам):
• LM Studio — графический интерфейс, скачать и запустить: https://lmstudio.ai
• KoboldCPP — простой форк llama.cpp, хорош для RP: https://github.com/LostRuins/koboldcpp
• Ollama — запуск одной командой, удобен как API: https://github.com/ollama/ollama

Больше контроля:
• llama.cpp — базовый движок, максимум гибкости: https://github.com/ggml-org/llama.cpp
• text-generation-webui — поддержка всех форматов, богатые настройки: https://github.com/oobabooga/text-generation-webui
• tabbyAPI — заточен под Exllama V2/V3, консольный: https://github.com/theroyallab/tabbyAPI

Фронтенды (интерфейс для общения и RP):
• SillyTavern — главный фронтенд для RP, работает с любым бэкендом: https://github.com/SillyTavern/SillyTavern
• Marinara Engine — альтернатива с игровым режимом: https://github.com/Pasta-Devs/Marinara-Engine
• RisuAI — ещё один альтернативный фронт: https://github.com/kwaroran/RisuAI

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ИНСТРУМЕНТЫ — МОБИЛКИ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

• Maid — локальный запуск на Android, llama.cpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI — фронтенд и бэкенд раздельно, Android: https://github.com/Vali-98/ChatterUI
• SillyTavern на Android через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
МОДЕЛИ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Где искать:
• Актуальный список с отзывами тредовичков: https://rentry.co/2ch_llm_moe_2026
• Архивные списки — 2025: https://rentry.co/2ch_llm_2025 (бомж-версия: https://rentry.co/z4nr8ztd) | 2024: https://rentry.co/llm-models
• Рейтинг по уровню цензуры: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение по бенчмаркам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Голосование живых пользователей: https://chat.lmsys.org/?leaderboard

Русскоязычный RP (миксы от тредовичков):
• https://huggingface.co/Aleteian
• https://huggingface.co/Moraliane

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ДОПОЛНИТЕЛЬНО
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

• Карточки персонажей для RP: https://www.characterhub.org
• Пресеты для SillyTavern: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Перевод нейронками в таверне: https://rentry.co/magic-translation
• Пошаговое мышление для таверны: https://github.com/cierru/st-stepped-thinking
• Как работают семплеры (интерактивно): https://artefact2.github.io/llm-sampling/
• Выгрузка тензоров при нехватке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Запуск через Docker Compose: https://rentry.co/oddx5sgq | https://rentry.co/7kp5avrk
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки llama.cpp (все параметры): https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• Гайд по сопряжению бэкендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• AMD MI50 — тесты и настройка: https://arkprojects.space/wiki/AMD_GFX906
• Колаб если нет своего железа: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Шапка почившего треда PygmalionAI: https://rentry.co/2ch-pygma-thread
• Вики KoboldCPP: https://github.com/LostRuins/koboldcpp/wiki

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
АРХИВ
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Архив тредов: https://arhivach.vc/?tags=14780%2C14985
Шапка на rentry (предложения в треде): https://rentry.co/llama-2ch

Аноним 02/06/26 Втр 17:41:51 #287 №1624311

>>1624309
>Глупый
За то я не извращенец который кишки на кулак наматывает, вот твои задачи.

Аноним 02/06/26 Втр 17:42:25 #288 №1624312

>>1624310
Господи, блять. Половину треда обсужади что шапку итак засрали кучей информации, ты еще сильнее её засрал.

Аноним 02/06/26 Втр 17:44:43 #289 №1624314

>>1624312
В нее смотрят сначала новички поэтому наверх ее закинул, хз. Можно просто нижнюю часть тогда убрать

Аноним 02/06/26 Втр 17:45:16 #290 №1624315

Ну шо ребята, есть уже файнтюны геммочки четвертой плотной для РП нормальные? А то ее стиль речи уж очень приелся, да и ее желание прыгать на хуй без подготовки тоже подзаебало.

че с капчей абу сделал? пиздец она сложная стала

Аноним 02/06/26 Втр 17:47:05 #291 №1624318

>>1624314
Шапка это не гайд, ебаный по голове. Шапка должна держать самые необходимые ссылки и иметь минимальную нагрузку на мозги. Иначе её просто скипнут. Сотню раз уже про это писали.

То что ты тут понаписал должно лежать в вики. Лучше бы её отредактировал раз руки чешутся.

Аноним 02/06/26 Втр 17:54:00 #292 №1624321

>>1624310

За ЛМ студию в треде ногами новичка ногами отпиздят, а ты её в самый верх поднял? Максимум в середине шапки упомянуть там где сейчас llama.cpp, а саму ламу поднять повыше.

>4–6 GB VRAM → Qwen3.5-4B Q4_K_M (файл ~3 GB)
>8 GB VRAM → Qwen3-8B Q4_K_M (файл ~5 GB)

Заменить на геммы E2B и E4B в 6-8 кванте. А лучше вообще не упоминать это мелкое говно, чтобы новички даже не знали про эту парашу лоботомитную, и добавив стандартные 16 гб рам которые есть у каждой нищеты сразу гемму 26В запускали, которая на совершенно другом уровне.

Почти все ссылки устарели и только путают.

Аноним 02/06/26 Втр 17:56:03 #293 №1624322

>>1624310
>Dense (обычные) — все параметры активны всегда.
>Нужна только VRAM. Быстрее, проще в запуске.
Вся строка вводит в заблуждение. Во-первых, можно и на RAM запускать. Во-вторых, быстрее будет только если веса полностью выгружены в видеокарту. В третьих, мое на 30B будет всегда быстрее денса на 30B, даже если полностью оба будут в видеокарте.
>Можно поделить между VRAM и RAM
Денсы тоже можно делить. Опять ввод в заблуждение.

>Шаг 3 — выбери модель под своё железо
Тут даже расписывать не хочется. Хотел упростить - в итоге сделал только хуже. Ощущение, будто ты сам не понимал, про что пишешь.

Аноним 02/06/26 Втр 17:56:05 #294 №1624323

>>1624310
Хватит кормить новичков квено/геммакалом.
Есть немо, есть ллама 8б, мистраль 24

Аноним 02/06/26 Втр 17:59:08 #295 №1624326

>>1624310
Перегрузил и без того перегруженную шапку, збс. Чекни ещё как круто она смотрится с телефона, ваще ахуй.

ОП уже отредактировал шапку и со следующего треда она будет чуть ужата. Имхо там всё верно сделано, разве что я уточнил бы что Актуальный неофициальный гайд для новичков. Потому что вики это протухшая шутка какая-то.

Аноним 02/06/26 Втр 18:00:35 #296 №1624328

А мне понравилось.

Кроме "С чего начать" и не нужно ничего, весь остальной кал можно спрятать уже в ретри.

Аноним 02/06/26 Втр 18:05:52 #297 №1624331

>>1624268
Ну если пайплайн параллелизм то не прирастёт
А в тензоре у тебя на 8х 2.0 лол PP пукнум сделает. В тензоре на четырёх картах даже 16х 4.0 в PP начинает заднюю давать

Аноним 02/06/26 Втр 18:05:56 #298 №1624332

image

В шапке в идеале должно быть 5 ссылок:

1) Вики треда (она есть но нужно переписывать под реалии 2026)
2) Гайд по запуску (он есть)
3) Гайд по моделям (он есть)
4) Гайд по Таверне (его нет, надо писать с нуля)
5) ОДНА ссылка на рентри, где собраны все остальные малонужные ссылки.

ВСЁ БЛЯТЬ. Чем больше буков и ссылок тем меньше шанс что нюфажина это начнет читать. Если уж так хочется кому-то пографоманствовать и поделиться знаниями, то лучше перепишите вики или сделайте гайд по таверне.

Аноним 02/06/26 Втр 18:07:45 #299 №1624335

>>1624332
Сейм+соглы, плотный текст где куча ссылок даже без разбивки по абзацам я не осилил например и срал в тред тупыми вопросами.

Аноним 02/06/26 Втр 18:08:32 #300 №1624336

>>1624332
И надо юмора добавить. А то шапка выглядит как какая-то канцелярская залупа, которую даже мне читать неохота, хотя я помогал её составлять. Рот ёб длинных гайдов. Надо дать нюфаку базу - вот модель с хагена, вот калболь, тык раз, тык два - ты говоришь с нейронкой. Хочешь больше - милости просим к нашему шалашу.

Аноним 02/06/26 Втр 18:12:28 #301 №1624339

>>1624332
>4) Гайд по Таверне (его нет, надо писать с нуля)
Могу написать, если никто больше не загорится желанием. Но надо сразу нахуй определиться, про что конкретно писать. Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров.

Аноним 02/06/26 Втр 18:14:24 #302 №1624343

>>1624331
Мне влом спорить. Таблички с тем как падает перф тут постили, кому надо найдут

Аноним 02/06/26 Втр 18:16:05 #303 №1624344

>>1624332
>Гайд по Таверне (его нет, надо писать с нуля)
Имхо, с этим справится только анон с бело-голубой темой, aka автор чайного клуба, aka автор гайда по запуску если я верно всё понял. Но видимо он не хочет и в целом могу понять. Там блять про всё надо рассказывать, про разметку про семплеры, про промты, про то как они отличаются и не отличаются между моделями, про скваш чатхистори, про авторснот, лорбуки, про всё блять. Это дохуя работы ради ленивых неблагодарных вкатунов и пары тугосериков которые будут шеймить что всё сделала ленивая ллмка и вообще говно.

Аноним 02/06/26 Втр 18:17:55 #304 №1624345

>>1624323
>Есть немо, есть ллама 8б, мистраль 24

Викуня еще, мику и Альпака...

Аноним 02/06/26 Втр 18:18:53 #305 №1624347

>>1624339
>Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров.
Наверное написать самое необходимое (по твоему мнению) для того чтобы нюфаг мог пошагово повторить и получить более-менее сносное РП. Вон выше по треду, например, чел не осилил выключить ризонинг в Эйре.... А если что-то важное упустишь, то тут в треде поправят/дополнят. Гайд по запуску в принципе так и пилили.

>>1624344
Ну это был бы вообще идеальный вариант, конечно.

Аноним 02/06/26 Втр 18:19:19 #306 №1624348

>>1624344
Зато для тех кто реально хочет вкат это будет сокровищница. А то итт до сих пор челы не знают чем чатмл от других шаблонов отличается.

Аноним 02/06/26 Втр 18:21:01 #307 №1624350

>>1624332
Я вообще всё это ебал, не могу даже выбрать движок с фронтэндом на моей сасну ос блять, пиздец зоопарк нахуй.
Наверное llama-cpp-python через uv поставлю и хуй знает, таверну или убабугу. А может просто llama.cpp из аур. Хуй знает короче, пока отложил знакомство с ллмками. У меня один хрен тостер без видимокарты и с 32гб ддр5, так что ничего особо крутого и не планировал щупать.
ньюфаг

Аноним 02/06/26 Втр 18:23:37 #308 №1624353

>>1624347
>Наверное написать самое необходимое (по твоему мнению)
Ну, подожду пару часиков, щас тредовички после смены приползут, вдруг кто из них уже начал писать или хотел написать уже давно. Не будет таких - напишу сам. Потом коллективным разумом подправим.

Аноним 02/06/26 Втр 18:28:19 #309 №1624354

Как и сказал, ленивые правки
Недогайд на таверну: https://rentry.org/ngpier3q
Недовики: https://rentry.org/3awy2cku
Типа шапка:
Тред о локальном запуске языковых моделей (LLM) — без облаков, на своём железе.
Обсуждаем запуск, настройку, модели и промты.

Вики треда: https://2ch-ai.github.io/wiki/llama/
Гайд по запуску (с чего начать): https://rentry.org/2ch-llama-inference
Гайд по моделям (что качать): https://rentry.co/2ch_llm_moe_2026
Гайд по SillyTavern (RP-фронтенд): в разработке
Все остальные ссылки: https://rentry.co/llama-2ch

Архив тредов: https://arhivach.vc/?tags=14780%2C14985

Аноним 02/06/26 Втр 18:32:42 #310 №1624358

image.png

>>1624354
Скажи, ну вот зачем это нужно? Сам же пишешь, что ленивые правки. Они именно что ленивые и никак не помогают, даже наоборот.
>Недогайд на таверну: https://rentry.org/ngpier3q
Шутка какая-то. Половина информации из шапки и половина это сухие неинформативные описания
"Пресеты (Presets)

Настройки семплеров — temperature, top_p и прочее. Влияют на «случайность» и стиль генерации. Кнопка в верхней панели рядом с подключением."
Это типа всё что нужно про них знать? Серьёзно?
>Недовики: https://rentry.org/3awy2cku
После пикрила даже смотреть не стал. Не надо так делать. Лучше вообще не делать, если не хочешь трудиться.

Аноним 02/06/26 Втр 18:33:21 #311 №1624359

>>1623901
>Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо.
(Мимокрок) Сетап с Nх3060, IMHO, имеет право на жизнь в некоторых случаях. Его достоинства:
1. Работает без пердолинга - воткнул и поехал.
2. Относительно дешево (если найдешь :) ) 12GB vram и приемлемая скорость для генерации картинок/видео на сдачу. Да - не фонтан, но жить все же можно.
3. Пока нет риска, что поддержка будет дропнута в дровах, куде, или торче в ближайшие пару лет. И опять же - вся нужная поддержка фич для картинок/видео. А то, скажем, паскали (p104-100) уже все. С новыми дровами (590) не заводятся, последние - живые 580. И т.к. они CC 6.1 новые Comfy тоже носом вертят. А 3060 - это CC 8.6.
4. Оно всего ~180 watt ест, потому проблем с питанием нету. Блока на 650-700 ватт хватает для большинства конфигов с 2х3060.

При этом даже на 3060+p104 (20GB vram в сумме) можно гонять плотный квен 27B с 75K контекста в iq4xs (личный опыт). И даже в агентах (и оно прекрасно кодит в этом кванте). И скорость даже не вызывает желания повыть на луну ожидая результат. А с 2х3060 будет еще быстрее, и + еще 4 GB vram. Там уже гемма 31B целиком влезет с таким же контекстом, и квену его можно до 100K+ увеличить.

С таким подходом, разумеется, 4060Ti или, особенно, 5060Ti будет еще лучше, но все же - дороже. А это прямо совсем для тех, кому писец как хочется 24 vram, а денег нет. Совсем нет. :)

>>1624099
>Хочу попробовать повайбкодить с qwen 3.6 35b
Будет больно. Плотный 27B очень неплохо справляется даже с размытыми запросами, и главное - аккуратен, ничего не портит. А 35B - легко впадает в шизу и разносит половину уже написанного, чтобы реализовать свои глюки. Требуется очень четкая и конкретная постановка задачи - только тогда от него польза есть. И это без квантования кеша и на Q6 кванте. А что будет с квантованным кешем...

Аноним 02/06/26 Втр 18:36:19 #312 №1624363

>>1624354
Заставь дурака нахуй... Даже не знаю как на это реагировать. Это просто мусор. Ровно ноль полезной информации. Как ты умудрился, скажи честно? Не люблю пиздеть на тех кто что-то делает ради треда и реально пытается помочь, пусть и с ошибками, но... Это вообще за гранью.

Аноним 02/06/26 Втр 18:37:18 #313 №1624364

>>1624354
>Недогайд на таверну:
ИМХО, учить новичнов текст комплишену и не сказать ни слова про шаблоны кроме того что таверна умеет определять их автоматически(а она не умеет) - это инстант фейл. Надо менять на чат комплишен или добавлять главу про шаблоны и настройки.

Аноним 02/06/26 Втр 18:40:19 #314 №1624365

image

>>1624354
Бля, ЛЛМ-тред настолько суров, что даже в гайде пресетик не дают.

Аноним 02/06/26 Втр 18:46:28 #315 №1624368

изображение.png

>>1624354
Вангую это чел который ныл что гайд по запуску хуйня и сделан ллмкой. Представил свой шедевр

Аноним 02/06/26 Втр 18:56:16 #316 №1624373

image.png

>>1624368
да не, я тут вообще ни на кого не пизжу обычно. а пишет все клод, я его вашими правками кормлю

таверна: https://rentry.org/ngpier3q
вики: https://rentry.org/3awy2cku

Аноним 02/06/26 Втр 19:01:23 #317 №1624375

>>1624373
То есть ты на трезвой морде просто просишь нейронку написать гайд, копируешь его на рентри, а потом тащишь сюда? Стесняюсь спросить, а нахуй это нужно?

Если мне потребуется тухлая информация из датасетов 23 года я итак могу пойти к клоду и спросить у него. Точно также как может это сделать любой вкатун. Хуйней не страдай давай.

Аноним 02/06/26 Втр 19:06:51 #318 №1624379

>>1624373
лолд
люди, не ебите мозг - возьмите попереводите рентри с форчановского лмг, ну подредачьте если нужно. зачём с нуля писать?

Аноним OP 02/06/26 Втр 19:15:56 #319 №1624387

Харе переписывать шапку. Вариант из https://rentry.co/2w47hg34 достаточно нормальный, сильнее править не буду.

Аноним 02/06/26 Втр 19:18:12 #320 №1624390

>>1624359
>А 35B - легко впадает в шизу и разносит половину уже написанного
у меня выбор без выбора с 64/8 рам/врам. 27b никогда не потрогаю. А так запускаю в 8м кванте и 25 токенов выдает.

Аноним 02/06/26 Втр 19:18:41 #321 №1624391

>>1624387
Ставить протухшую вики над актуальным гайдом только потому что она официальная это прям ну такое. В остальном всё заебись. Или вики обновить надо или гайд новичкам в ебало тыкать.

Аноним 02/06/26 Втр 19:21:36 #322 №1624393

>>1624387
Ленивая жОПа. Ну и правильно, туда их, этих нюфагов ёбаных, сделаем из треда элитный клуб осиливших сухую документацию лламы/таверны с нуля. Так победим!

Аноним 02/06/26 Втр 19:23:02 #323 №1624394

>>1624393
Траблы с головой. Зарепортил тебе в ротик

Аноним 02/06/26 Втр 19:26:03 #324 №1624396

>>1624393
Шиз, в "неофициальном" гайде куча полезной информации лежит. Ты бы хотя бы зашел и посмотрел прежде чем хуйню нести.

Аноним 02/06/26 Втр 19:26:51 #325 №1624398

>>1624391
Как будто новички вообще знают слово вики.
>>1624393
>элитный клуб осиливших сухую документацию лламы/таверны с нуля
Минусы? 3 года так и жили.

Аноним 02/06/26 Втр 19:33:38 #326 №1624405

>>1624394
>>1624396
Фига как возбудились. Ну-ка, касатики, расскажите мне, когда вы в последний раз видели вкатыша, который писал "прочитал материалы из шапки, всё понятно, но остались пара вопросов, помогите плиз"? Никогда? Я тоже. А потому что шапка объективно засрана и содержит кучу ненужной/устаревшей инфы. А вот полезной >>1624332 как раз не хватает.

Ну ладно, я больше не буду на эту тему писать, позиция ОПа понята-принята.

Аноним 02/06/26 Втр 19:39:04 #327 №1624411

>>1624405
>ряяяя мою единственно верную позицию не приняли, обижусь на всех и тем более на опчика
Несколько раз приходили после гайда и спрашивали про другие модели или ошибки

Аноним 02/06/26 Втр 19:39:33 #328 №1624413

>>1624405
Ты никогда не напишешь гайд после которого в тред никто не будет задавать вопросы. Часть залетных всегда первым делом пойдет строчить "хаю хай только вкатился у меня спрессованная фольга вместо видеокарты, 16 мегабайт памяти и блок питания на килограмм, какую модельку выбрать?" - от таких ты никогда не защитишься.

Про устаревшую инфу согласен. Но на документации не нужно выебываться - это вообще самое полезное, что может быть в шапке.

Аноним 02/06/26 Втр 19:44:55 #329 №1624418

>>1624413
>Ты никогда не напишешь гайд после которого в тред никто не будет задавать вопросы
А зачем тогда тред, если не задавать итт вопросы...

Аноним 02/06/26 Втр 19:47:38 #330 №1624420

>>1624418
>А зачем тогда тред
Обновлять гайд.

Аноним 02/06/26 Втр 19:49:55 #331 №1624427

>>1624411
>единственно верную позицию
Не единственно верная позиция, а предложение, которые, как многократно повторял ОП, принимаются в треде. Тут вообще много всего дельного озвучивали. Никаких обидок, просто если ОП не настроен переделывать шапку, то развивать тему далее смысла нет, верно?

>>1624413
>от таких ты никогда не защитишься
Есть такое. Но при наличии нормально структурированной шапки с актуальными гайдами таких кадров смело можно игнорить. Этим уже ничем не поможешь.

Аноним 02/06/26 Втр 19:50:22 #332 №1624428

>>1624275
Будем ждать her. Рано или поздно выкатят.

Аноним 02/06/26 Втр 20:22:19 #333 №1624442

>>1624344
Чайный клуб на каникулах, а я охладел к сабжу и по-прежнему не вижу смысла в гайде на Таверну. Огромное количество работы - не самая большая проблема. В вопросах инференса есть плюс-минус консенсус что и как делать, да и сама информация довольно техническая и потому объективная. В вопросах сторителлинга, рп, и как следствие Таверны - очень много субъективного, что вызовет срачи горячие обсуждения. Холиваров не будет разве что за сэмплеры, а все остальное - мнение автора, и потому весь гайд рассматривать следует так, а не как гайд. Гайд фундаментально невозможен, можно выразить только свое имхо и столкнуться со стеной негатива в треде. Но и это не все: невозможно измерить насколько в целом это полезно для новичков. За все время, что гайд висел в шапке, по пальцам одной руки можно пересчитать сколько раз его упомянули в контексте вката, и ровно ноль вкатившихся дали обратную связь, благодаря которой можно было бы сделать гайд лучше или хотя бы понять, был ли он полезен. Такое ощущение, что новичкам это все не нужно, а для местных это еще один повод поругаться. Делать это все ради самого факта я не готов, и остальных тоже призываю задуматься на этот счет.

Аноним 02/06/26 Втр 20:25:20 #334 №1624445

>>1624428
Что за хер и с чем его есть будем?

Аноним 02/06/26 Втр 20:25:27 #335 №1624446

>>1624427
>просто если ОП не настроен переделывать шапку
Лол, у вас тут оп почетная должность передающаяся исключительно по наследству что ли?

Аноним 02/06/26 Втр 20:35:08 #336 №1624450

image.png

>>1624445
Единственная в своем роде корпоратская ЛЛМ, фактичекси являющаяся тьюном минимакса, прямо и напрямую созданная для нужд ролеплея, эмоционального отыгрыша и ерп.
Разумеется, закрытая.

Аноним 02/06/26 Втр 20:39:08 #337 №1624451

>>1624442
>Холиваров не будет разве что за сэмплеры
Святая наивность...
>>1624446
Должность ОПа не передаётся, тред умрёт вместе с ОПом. Хорошо, что я собираюсь жить вечно.
Мимо бессменный ОП

Аноним 02/06/26 Втр 20:39:16 #338 №1624452

Теперь понятно, почему ручками надо ламу собирать.
Скачал полную версию text-generation-webui, он поддтянул свежие куда и тензоры. Теперь на моей нищенской RTX 3050 8Gb сорость генерации на модели Qwen3.6-35B-A3B составляет 20 - 21 т/с, против 7-9 т/с на портабле версии или кобольде. Даже при забитом котексте (30к из 32к, книгу ему скормил) скорость в размышлених была 7 т/с, в ответе 9 т/с. Это с учетом подключенных через mcp server инструментах для работы с файлами и долговременной памятью. Теперь пытаюсь еще аниму прикрутить для генерации иллюстраций.

Аноним 02/06/26 Втр 20:52:30 #339 №1624457

image.png

>>1624452
>Теперь понятно, почему ручками надо ламу собирать.
>Скачал полную версию text-generation-webui, он поддтянул свежие куда и тензоры.

Аноним 02/06/26 Втр 20:58:48 #340 №1624461

>>1624452
Бессвязный поток сознания, мое любимое

Аноним 02/06/26 Втр 21:43:41 #341 №1624493

>>1624344
Вообще почти всё, что ты перечислил: сэмплеры, инстракт шаблоны, промпты - не специфично только для таверны. Это всё есть в большинстве фронтов, ну кроме мб инстракта для текст комплишена, но и он в кобольде, например, как минимум есть. Если подходить к теме модно-молодёжно, т.е. тыкать в бэке "юзать жинжу" и использовать таверну по оаи апи, то там вообще другой промпт менеджмент, и баловство с сэмплерами не подразумевается. Вся эта общая хрень про сэмплеры и структуру промпта должна быть в вики отдельно, кмк, а не привязана зачем-то к таверне. А по таверно-специфичным вещам есть её родная подробная документация ( https://docs.sillytavern.app/ ). Хз, что там можно в отдельный гайд выносить и зачем.

Аноним 02/06/26 Втр 22:33:23 #342 №1624512

а вы квенчика 3.5 35б гоняете с ризонингом? чот пиздец он срет, может ему самому давать какие-то инструкции? а то он мне три драфта делает по итогу.

Аноним 02/06/26 Втр 22:39:53 #343 №1624518

>>1624512
Его фича, в 3.6 это вообще до маразма доходит когда он на 10к+ токенов срёт.
Закономерно ушел на 31 гемму

Аноним 02/06/26 Втр 22:44:24 #344 №1624519

>>1624512
>вы квенчика 3.5 35б гоняете
А разве был Qwen 3.5-35B?

Аноним 02/06/26 Втр 22:46:49 #345 №1624521

>>1624519
https://huggingface.co/Qwen/Qwen3.5-35B-A3B

Аноним 02/06/26 Втр 22:46:57 #346 №1624522

>>1624518
а там используешь? я гонял правда 26б, сравнивал ризонинг on/off будто никаких плюсов с него не получил
>>1624519
был-был
https://huggingface.co/HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive

Аноним 02/06/26 Втр 22:48:18 #347 №1624523

>>1624512
Что самое удивительное в кодо-тасках он и его младший брат срут меньше. Будто бы квеноняша отчайно хочет дергать инструментики.

Аноним 02/06/26 Втр 22:48:53 #348 №1624524

>>1624522
> а там используешь?
Почти всегда. Без думалки вызов инструментов даётся крайне сложно любой модельке

> Uncensored-HauhauCS-Aggressive
F

Аноним 02/06/26 Втр 22:50:30 #349 №1624525

>>1624493
Это вопрос формулировки. Гайд не про таверну значит, а про рп и всё прилагающееся на примере таверны, вот и все. Рассказывать там можно много о чём

Аноним 02/06/26 Втр 22:51:07 #350 №1624526

>>1624524
Что не так с провайдером? Решил потестить его ггуфы, вроде отказов нет, но есть ощущение отупения.

Аноним 02/06/26 Втр 22:53:07 #351 №1624527

>>1624526
> ощущение отупения
Потому и F. Моделькам что то там в подворотне в весах вилкой ковыряют и дропают на хф

Аноним 02/06/26 Втр 23:00:09 #352 №1624529

>>1624527
Ну справедливости ради, энивэй, почти камшотом сгенерил мне хтмл игрушку на твайне с папер-доллом, чисто по моим сценариям и картинкам, и даже доработал. Долго тупил, дрочил инструментики, но таки справился. То есть тупой он не терминально, для всего, что требует умеренный вызов тулов, в принципе покатит.

Аноним 02/06/26 Втр 23:50:17 #353 №1624551

Приветствую аноны. Имею в наличии 4090 и 64гб ддр5, пробовал запускать гмл4.5 эйр q4_0, но получается как то медленно, да и всю память сжирает, под браузер почти ничего не остается. Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?), или мб посоветуете что нибудь поинтересней под мой конфиг?

Аноним 02/06/26 Втр 23:51:29 #354 №1624552

https://github.com/ggml-org/llama.cpp/pull/21089

Турбоквант окончательно ВСЁ.

Аноним 02/06/26 Втр 23:52:40 #355 №1624554

>>1624551
>мб посоветуете что нибудь поинтересней под мой конфиг?
Гемма 4 26б q8
Гемма 4 31б q4km
Квен 3.5 27б q5km
>Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?)
Смотря зачем и насколько тебе это интересно. Если подрочить то нет, не нужно

Аноним 02/06/26 Втр 23:57:30 #356 №1624556

>>1624554
>подрочить
This
Хочется сочного кума, без цензуры и прочей хуйни.
>Гемма 4 31б q4km
Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться.

Аноним 03/06/26 Срд 00:00:14 #357 №1624559

>>1624556
>Хочется сочного кума, без цензуры и прочей хуйни.
Тебе уже доступны 90% годных моделей. Если идти дальше это GLM 4.7 и прочие, от 355б. Если тебе скорость Эйра q4km не нравится то там будут такие же скорости на оперативе, даже меньше экшали. Значит нужен врам. Это сотни тысяч рублей ради подрочить. Готов на это?
>Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться.
Контекста много или фоновых процессов, вот и утекает чёт в оперативу

Аноним 03/06/26 Срд 00:03:02 #358 №1624563

>>1624559
>Гемма 4 26б q8
Это которая мое, или a4b? Пока что она мне больше всего понравилась, и работает более менее быстро.

Аноним 03/06/26 Срд 00:04:25 #359 №1624564

>>1624563
Бля опечатка
мое a4b

Аноним 03/06/26 Срд 00:05:34 #360 №1624566

>>1624563
>Это которая мое, или a4b
Да. Мое а4б https://huggingface.co/google/gemma-4-26B-A4B-it

Аноним 03/06/26 Срд 00:34:44 #361 №1624576

>>1624552
А че он закрыл без причины? Жопа сгорела?

Аноним 03/06/26 Срд 01:02:29 #362 №1624585

image.png

>>1624552
А чё за пиздец с KL divergence? турбоквантный q4 практически на одном уровне с обычным q4, при том что по расчётам нагрузка вырастает прилично (tg на проце например вдвое роняет в тесте)
а мне рассказывали месяц назад что по качеству турбоq8 как F16, а турбоq4 как q8

Аноним 03/06/26 Срд 01:09:31 #363 №1624589

>>1624585
Это для сипу, не для куда жипу. На жипу стонкс.

Аноним 03/06/26 Срд 01:10:54 #364 №1624591

Есть же форк с турбоквантами, хули вы трясетесь?

Аноним 03/06/26 Срд 01:11:29 #365 №1624592

>>1624591
Хочется, чтобы нас, как негров в америке, признали.

Аноним 03/06/26 Срд 01:16:03 #366 №1624594

>>1624592
Если у чела приоритет процессоры, с хуя ли?

Аноним 03/06/26 Срд 01:25:50 #367 №1624600

>>1624591
А где?

Аноним 03/06/26 Срд 01:26:10 #368 №1624601

Почему у меня квен3.5 работает в 3-4 раза быстрее чем гемма4?
Так и должно быть, или я что то не так делаю?

Аноним 03/06/26 Срд 01:32:31 #369 №1624602

>>1624601
>квен3.5
их 4 штуки
>гемма4?
их 2 (на самом деле больше)
>Так и должно быть, или я что то не так делаю?
хуево излагаешь свои проблемы, но скорее всего что-то не так делаешь

Аноним 03/06/26 Срд 01:33:11 #370 №1624603

>>1624589
Стонкс чего, токенов в секунду? Ну продположим падения скорости не будет, похуй. С KLD-то что?

Аноним 03/06/26 Срд 01:35:03 #371 №1624604

image.png

>>1624602

Аноним 03/06/26 Срд 01:36:21 #372 №1624605

>>1624600
https://github.com/TheTom/llama-cpp-turboquant

Аноним 03/06/26 Срд 01:40:53 #373 №1624606

>>1624604
Хотя я наверное уже сам понял, квен полностью в видео памятьт помещается, а гемма немного не влезает. Я думал что мое моделям пофиг на это.

Аноним 03/06/26 Срд 01:53:37 #374 №1624610

>>1624606
Лишь в том случае когда вне памяти ненужные эксперты

Аноним 03/06/26 Срд 02:03:08 #375 №1624615

image.png

>>1624610
Хотя сейчас потестил обычную, она полностью влезает в врам, с большим запасом, и у нее скорость такая же как у мое геммы (25 токенов примерно) А у квена мое 120, у обычного 50 (оба целиком в памяти)

Аноним 03/06/26 Срд 02:33:42 #376 №1624618

>>1623869
>>1623872
Скачал я Qwen3.5-397B, все работает крайне медленно с 128 Гб RAM, на привет отвечал 2 минуты

Аноним 03/06/26 Срд 05:39:31 #377 №1624631

>>1624618
>Скачал я Qwen3.5-397B, все работает крайне медленно с 128 Гб RAM, на привет отвечал 2 минуты
С кавраковским форком и квантами всё гораздо живее. У Убергарма на HF в обсуждениях примеры скриптов запуска - там все ключи. Конечно хорошая видяха к RAM не помешает.
https://github.com/ikawrakow/ik_llama.cpp (можно найти сборку и под Винду)
https://huggingface.co/ubergarm/Qwen3.5-397B-A17B-GGUF

Аноним 03/06/26 Срд 08:40:57 #378 №1624654

>>1623424
>Никто ни разу не постил тру чернуху на г4
Я приносил сожжение ведьмы инквизицей со "вкусными и ароматными" анатомическими подробностями. Всё она может.

Аноним 03/06/26 Срд 09:20:13 #379 №1624656

>>1623424
Двачну ответившего тебе анона, это наверно единственный "жанр" в котором она пишет неожиданно замечательно, в подробностях, даже большинство слопизмов пропадают. Я аж немного прихренел от результата. Насколько помню даже джейлбрейк не использовал когда тестил, но без ризонинга

Аноним 03/06/26 Срд 09:24:33 #380 №1624657

Подскажите насколько сильно деградирует моделька (glm 4.6v 106b) если поставлю q8 kv-кэш, а не bf16? Тестов не нашел, подумал может тут кто тыкал и знает что именно с ней произойдет. Просто если смотреть на qwen 3.6 35b то там kl на грани шумов

Аноним 03/06/26 Срд 09:29:25 #381 №1624658

>>1624657
надо мерять в реальных задачах а не тестики дрочить. манятесты на 1к контекста или иголка в стоге сена реальной картины не показывают

Аноним 03/06/26 Срд 09:31:46 #382 №1624660

Я тупой, поясните. Почему контекст генерации равен числу видеопамяти? Я то уменьшал то увелиливал число, на производительность оно никак не влияло. Но выше числа видеопамяти установить низя? Моделька останавливается и мне приходится просить её продолжить писать с того места где она остановилась.

Аноним 03/06/26 Срд 09:39:49 #383 №1624664

>>1624657
Сейчас после имплементации хадамарда жорой q8 использовать безопасно на всех моделях, исключения возможны, но редки. Лично использовал на твоей модели q8, работала нормально, отклонений не замечал.

Аноним 03/06/26 Срд 09:42:11 #384 №1624665

>>1624405
>прочитал материалы из шапки, всё понятно, но остались пара вопросов, помогите плиз
Я так писал =)). И, ЧСХ, мне потом нормально помогли.

Аноним 03/06/26 Срд 09:54:37 #385 №1624667

>>1624658
Это будет больно тестировать, думаю весь день займёт
>>1624664
погуглил это преобразование адамара, не особо понял что это, но доверюсь тебе лол

Аноним 03/06/26 Срд 11:53:03 #386 №1624708

Оказывается Инцел таки сделали 2_k_s квант квена 397(их 2_k_s квант для квена 235 это буквально стандарт для 64 гб рам), но увы, он сломан - генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%.

https://huggingface.co/Intel/Qwen3.5-397B-A17B-gguf-q2ks-mixed-AutoRound

Аноним 03/06/26 Срд 12:12:54 #387 №1624711

>>1624708
> генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%.
Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель.

Аноним 03/06/26 Срд 12:25:55 #388 №1624713

>>1624711
>Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель.
Убергармовский smol-IQ2_KS прекрасно работает - для своего кванта. Использую его в Pi - инструменты, генерация, соображалка - всё на высоте. С Квеном 3.6, который я могу гонять в очень приличном кванте не сравнить даже - он хорош, даже отличный, но это не большой Квен. Единственно после 64к контекста начинает немного путаться, но терпимо. И скорость хорошая - с 20+тс к 85к контекста падает до 16, что всё ещё терпимо. Но это если у вас ВРАМа побольше. А так сажусь с ним, за час-два окно контекста в 96к заполняю - мне нравится.

Аноним 03/06/26 Срд 12:34:35 #389 №1624716

>>1624713
Не представляю зачем ты так насилуешь и модель, и себя. В коде большие кванты нужны для того, чтобы у тебя код компилировался -> не требовались повторные вызовы для исправления кода -> все работает относительно быстро. В итоге ты используешь микроквант большой модели, что уже очень медленно, при этом она выдает дичь и исправляет сама себя тулколлами (опустим еще то, что сами тулколлы могут не вызываться адекватно). Лучше бы на 24+128 сидел на 122б Q6-Q8 или даже 27б Q5. И та, и другая совершенно точно лучше будут работать. Дроч на количество параметров в модели доводит до безумия.

Аноним 03/06/26 Срд 12:41:27 #390 №1624717

>>1624711
>В 24+128 даже 2.8bpw IQ квант ужасно работает
Нормально он у меня работает, в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма и держит в этом конкуренцию глм 4.7, просто медленновато, я когда увидел 14 т.с. в секунду вместо 9 т.с на инцеловском кванте - у меня слюнки потекли, но когда я увидел что он просто набор букв выдает, то увы, пришлось обратно на анслопа пересаживаться.

Аноним 03/06/26 Срд 12:44:49 #391 №1624719

>>1624660
Есть длина ответа и просто контекст. От длины ответа зависит насколько много тебе может написать сетка. Она отнимается от общего контекста. От оставшего общего контекста зависит сколько таверна будет помнить, сколько токенов она отправит тебе в сетку. Если история чата больше чем твой контекст она обрежет стары сообщения это обойти можно двумя способами поднять контекст либо использовать различные саммери аддоны которые сжимают старые сообщения и делают из них выжимку вместо всего текста.
Но поднимать контекст сложно потому что это увеличивает размер занятой vram и больше слоев уходят в ram. Опять же нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa потому что swa срезает весть контекс до 4к и дальше историю переписки не видит.

Аноним 03/06/26 Срд 12:45:45 #392 №1624720

>>1624717
Ты ЛЛМка? Почему ты сначала пишешь про убергармовский IQ2_KS, а теперь про кванты Анслота? И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены. Опять же - логи шарил. Парсить инструкции в духе "смотреть сквозь стены" запрещено это мем. Для кода и вовсе смысла не имеет, сам пишешь, что после 64к разваливается. Верни мне две минуты, потраченные на взаимодействие с тобой, пожалуйста, и не пиши больше.

Аноним 03/06/26 Срд 12:48:19 #393 №1624721

>>1624717
Увы анон. Терпим. Я навалил полные штаны счастья, когда милфа квен как надо описала хвост антроптицы, он не извивался как кошачий а вел себя исключительно как хвост, блять, птицы. Вот из таких мелочей крупные модельки и состоят.

Аноним 03/06/26 Срд 12:51:54 #394 №1624722

>>1624720
Ты отвечаешь пдф энжоеру с карточкой Рейны, вот и ответ. Таким норм читать лоботомию на микроквантах больших моделей. Знаю потому что никто в треде больше не защищал микроквант квена, всем кроме него мозгов достаточно чтобы понять что это хуйня. Он там даже как то выёбывался что вот вот чуть чуть и логи пришлёт и всем покажет, но слился

Аноним 03/06/26 Срд 12:54:26 #395 №1624723

image.png

>>1624720
>Почему ты сначала пишешь про убергармовский IQ2_KS
Потому что про него пишу не я? Ты не понял что с двумя разными людьми общаешься? Я не использовал никогда IQ2_KS и упаси боже использовать вторые кванты для кодинга - сугубо ролеплей, там случайные мелкие ошибки низких квантов не фатальны в отличие от.

>И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены.
Я уже показал инструкцию которая именно это чинит в одном конкретном сценарии, а с минимальной заменой ядра повествования - в любом сценарии. Квен тем и хорош что он инструкциям следует.

> Верни мне две минуты, потраченные на взаимодействие с тобой
Аналогичные мысли.

Аноним 03/06/26 Срд 12:54:39 #396 №1624724

>>1624719
>нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa
Рубрика "вредные советы" на моём двачике

Аноним 03/06/26 Срд 12:55:39 #397 №1624725

>>1624605
Пробовал кстати, даже с сжатием контекста кобольд быстрее.

Аноним 03/06/26 Срд 12:58:20 #398 №1624726

>>1624725
Оно чем больше контекста тем лучше по идеи

Аноним 03/06/26 Срд 13:00:48 #399 №1624728

image.png

>>1624723
>IQ2_KS
>Квен тем и хорош что он инструкциям следует.
Угу. Поехали
1. Сквозь стены не смотри
2. Персонажа не ломай
3. Во вселенной Вархаммер не может быть персонажей из Звездных Войн или каких либо других вселенных
4. В ответ на "я тебя ебу" отвечай "nods"
...
>в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма
>ебанутый на пикриле говорить бесполезно

Аноним 03/06/26 Срд 13:01:55 #400 №1624729

>>1624726
На длинном выгоднее согласен, 60к+ На коротком 16к и меньше хуже.

Аноним 03/06/26 Срд 13:04:56 #401 №1624730

>>1624723
Логи-то покажешь, как оно выносит всю мелочь в хвост и гриву? Нет, не покажешь, опять один пиздёж.

Аноним 03/06/26 Срд 13:06:54 #402 №1624732

>>1624728
Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду.
Индивид увидел во фразе
>Я не использовал никогда IQ2_KS
только
>IQ2_KS.
Впрочем, может быть дело не в клиповом мышлении, а в том что это нейронка с малым числом параметров, которые как известно плохо распознают прямые отрицания через "не".

Аноним 03/06/26 Срд 13:08:28 #403 №1624734

>>1624732
Сквозь стены не смотри, друг

Аноним 03/06/26 Срд 13:09:32 #404 №1624736

>>1624730
Показывал пару месяцев назад, даже слепые тесты для анонов в треде делал со скринами из глм, квена 397 и квена 27 и геммы.

Аноним 03/06/26 Срд 13:13:51 #405 №1624737

>>1624732
Чел, хватит уже подливить на весь тред. Твой анслотоквант на 24+128 и есть IQ2 на 2.8bpw, и его тут много кто уже тестил и справедливо забраковал. С кем и за что ты тут воюешь непонятно, нравится - используй. На тебя мочатся за набросы вроде тех, что у тебя там магнум всратус от мира всех моделей, а мы ничего не понимаем, при этом ты свой пиздеж ничем не подкрепляешь. Логи двухмесячной давности, да, помню их. Ты действительно Рейношиз как другой анон выше подметил, и идешь нахуй. Ничего из тех логов не было ясно, никто даже модели верно не задетектил, потому что тесты непоказательны и все модели справились плюс-минус одинаково. Каких только ебанутых итт нет. И проблема в том что не могут сидеть молча.

Аноним 03/06/26 Срд 13:18:42 #406 №1624739

image

О чем спор-то? Если модель большая, то даже квантование в 1 бит живое и не пускает слюни, не говоря уже о 2 битах. Квен почти 400b - вангую что всё с ним в порядке в Q2, как минимум в РП.

Аноним 03/06/26 Срд 13:20:24 #407 №1624740

изображение.png

>>1624576
>без причины
Всё чётко указано, как и пути сделать нормальный PR.
>>1624585
>турбоквантный q4 практически на одном уровне с обычным q4
Просто обычный q4 не так давно подтянули по качеству. Вот и отпала нужна в турбопососе. Но народ не понимает и бурчит, как же, не винтегрировали самый свежый высер от самого гугла!

Аноним 03/06/26 Срд 13:21:45 #408 №1624741

>>1624740
г-ди что за всратый переводчик на пике

Аноним 03/06/26 Срд 13:22:22 #409 №1624742

Не совсем понятно, с чем вы все срётесь спорите. Очевидно же, что кто может запустить модель 400В хотя бы и в мелкокванте, тот запускал и все популярные меньшие модели. И так же очевидно, что квант у них был заметно получше, а скорость - заметно побольше. А вот неохота сидеть на них и радоваться почему-то. Ну, есть разница от количества параметров, всегда была.

Аноним 03/06/26 Срд 13:23:31 #410 №1624744

>>1624737
>И проблема в том что не могут сидеть молча.
Так ты и сиди, блядь, молча. Это же ты высираться начал своим охуенно важным мнением, а не я. Я просто запостил что инцеловский квант сломан, а ты начал свое охуено важное мнение продавливать что модель говно.
Реально, блядь, вахтеры в своем глазу бревна не видят.

Аноним 03/06/26 Срд 13:29:36 #411 №1624747

>>1624744
Спокнись уже, педофил, и срыгни нахуй отсюдова к своей бедной Рейночке. ГИГА во всей красе, выебнулся и ничем не подкрепил своё манямнение - получай мочу на ебало. Ты сам на себя это навлёк своими ультимативными выводами

Аноним 03/06/26 Срд 13:31:04 #412 №1624748

Есть ли какой нибудь гайд по распознаванию рукописного текста?
А то есть шиза писать полотна текста от руки, а потом распознавать локалкой и получать печатную версию, но при первой попытке рандом модели со зрением мой корявый почерк не осилили.

Аноним 03/06/26 Срд 13:32:12 #413 №1624750

>>1624742
>>1624739
Да это шизы-вахтеры, им дай любой повод заклевать - заклюют. Пресеты, промпты, скрины с ролеплеем, логи, даже просто за мнение - "Модель Х - не говно" - заговнят за что угодно, потому тут мало кто чем делится.

Аноним 03/06/26 Срд 13:36:05 #414 №1624754

>>1624750
Бедненький обиделся, что не вышла толпа аплодировать ничем не подкрепленному манямнению, что iq2xs 2.8bpw лоботомит лучше всех моделей меньше как тут >>1624717 заявлялось. Это теперь не жирный вброс без пруфов, а скромное мнение паренька которого захейтили вахтеры((( Эх какой ужасный тред

Аноним 03/06/26 Срд 13:39:03 #415 №1624756

>>1624747
>>1624754
Ребенок, борда 18+.

Аноним 03/06/26 Срд 13:40:57 #416 №1624757

image.png

>>1624756
>Ребенок
>Рейнашиз
Ты мне угрожаешь..?
Там, кстати, Нвидия скоро выпустит Немотрон 550б. Ждём когда ты запустишь его в одном бите и придешь рассказывать как он выносит вообще всё что меньше

Аноним 03/06/26 Срд 13:41:35 #417 №1624758

image

>>1624754
>лучше всех моделей
Так субъективщина же, чому не похуй? Для того тред и нужен чтобы мнением делиться. Какое-то подгорание на ровном месте, лол. Я вот считаю что гемма 31 - лучший плотнячок из всех моделей, а эйр - всё ещё лучшее мое под нсфв-рп. И что дальше? Тоже начнешь ПРУФЫ просить?

мимо

Аноним 03/06/26 Срд 13:42:27 #418 №1624759

>>1624741
Обычный гугловский. Даже гемма 2б8к лучше справляется...

Аноним 03/06/26 Срд 13:44:03 #419 №1624760

>>1624758
Нет не начну, потому что ты адекват и не приходишь с громкими заявлениями что это прям лучшее из лучшего и вообще ты уже два месяца назад пруфы приносил. Есть разница. Ебанутых - попускать, адекватов - слушать

Аноним 03/06/26 Срд 13:56:52 #420 №1624769

>>1624758
>гемма 31 - лучший плотнячок
Рядом с коммандером и не валялась рядом даже. Положительный байас, без отказов, на детали забивает болт, на длинном контексте лупит. Про запах озона и пыль в лучах солнца вообще молчу.

Аноним 03/06/26 Срд 14:06:05 #421 №1624781

>>1624760
Агрессивный опездол. Хватит на всех бросаться.

Аноним 03/06/26 Срд 14:08:01 #422 №1624784

>>1624760
>не приходишь с громкими заявлениями что это прям лучшее из лучшего
Он литералли только что это и сказал
>эйр - всё ещё лучшее мое под нсфв-рп
Давай, фас.

Аноним 03/06/26 Срд 14:10:23 #423 №1624785

Долбоебы, хули вы тут дрочите? Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов, просто потому они не зря закрытые. То, до чего локалки доходят спустя годы, клод уже умеет давно, а через месяц будет ещё лучше уметь.
Прав был дарио, что ии раздавать в открытую это преступление против человечности.

Аноним 03/06/26 Срд 14:11:03 #424 №1624788

>>1624784
Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду.
Индивид увидел во фразе
>Я вот считаю что гемма 31 - лучший плотнячок из всех моделей
только
>гемма 31 - лучший плотнячок

Аноним 03/06/26 Срд 14:11:44 #425 №1624789

>>1624769
Не было не озона ни пыли ни лупов. В общем я начинаю думать что это сказки. Отказы можно регулировать расширениями/промтами.

Аноним 03/06/26 Срд 14:12:43 #426 №1624790

>>1624785
Мне по кайфу что она на пк настраивается как хочу и корпы не видят моей переписки.

Аноним 03/06/26 Срд 14:16:13 #427 №1624793

>>1624785
>Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов
Смотря что за бесплатный корп. Если это Гемини-флеш или ГПТ-мини, то нет конечно, они по уровню примерно как наши 120b моэшки. А что-то посерьёзнее, тот же Квен 397 о котором сейчас срач или Жирноглем или Дикпик им за щеку насуют во всех юзкейсах.

Флагманские корпы - другое дело. Там судя по утечкам 2T+ монстры. Тут базару нет. Но какие там бесплатные лимиты? 10 сообщений хоть будет?

Аноним 03/06/26 Срд 14:17:26 #428 №1624794

RX 6700 XT + 16 GB RAM хватит для cunny куминга без РП на тысячи токенов?

Аноним 03/06/26 Срд 14:25:32 #429 №1624798

>>1624788
Яркий пример как работает q4_0 квантование контекста на низкоквантовом лоботомите крошечной модели. В посте на который отвечает модель,не было ни слова про гемму вообще, как не было и вырывания из контекста, но модель сгаллюционировала более удобный воображаемый пост, на который и начала отвечать.

Аноним 03/06/26 Срд 14:51:02 #430 №1624807

>>1624794
>RX 6700 XT + 16 GB RAM хватит для cunny куминга без РП
Да, для геммы 26В этого хватит с головой. Она как раз любит с разбега на хуй прыгать, как раз то что тебе нужно. Только джейл приготовь или бери апасный тьюн, если не знаешь как джейлить.

Аноним 03/06/26 Срд 14:56:03 #431 №1624810

Норм моделька?
https://huggingface.co/limloop/MN-12B-Runeweaver-RP-RU-GGUF

Аноним 03/06/26 Срд 14:57:26 #432 №1624811

Подскажите а какое мнение по glm4.6v? Все эир упоминают 4.5, но будто 4.6 поприкольнее?

Аноним 03/06/26 Срд 15:01:49 #433 №1624814

>>1624785
Какой БЕСПЛАТНЫЙ корп будет лучше коммандера или глм4.7 в РП? Так то понятно что для кодинга лучше заплатить корпам чем насиловать даже большой квен кодер локально.
>>1624789
Даже покачиваний бёдрами не было, твёрдо и чётко. А промтами можно и квены фиксить с их зрением сквозь стены, о чём тут весь тред усираются.
>>1624790
112 летние вампирши, да?

Аноним 03/06/26 Срд 15:02:05 #434 №1624815

>>1622922 (OP)
Ананасы заказал 5060 ти 16 гигов. Какая самая умная в соотношении память\скорость ллмка с которой можно поиграться на этой карте? Память ддр4, так что надежда онли на карту.

Аноним 03/06/26 Срд 15:03:11 #435 №1624816

>>1624811
4.6 так себе, самые лучшие 4.5 и 4.7. Ну и 5.0, у кого он локально заводиться, лол.

Аноним 03/06/26 Срд 15:05:29 #436 №1624818

>>1624814
>112 летние вампирши, да?
Да и вообще это аватар Слаанеш.

Аноним 03/06/26 Срд 15:05:53 #437 №1624820

>>1624815
В шапке есть ссылка на список актуальных моделей под любое железо.
>надежда онли на карту
Давно уже нет. Моэ-модели можно выгружать в рам практически без потери скорости. И гайд как запустить такую модель тоже есть в шапке. Называется "Гайд для новичков".

Аноним 03/06/26 Срд 15:06:42 #438 №1624821

>>1624820
Нашёл спс.

Аноним 03/06/26 Срд 15:07:35 #439 №1624823

>>1624810
Зачем? Есть министраль с теми же 12б схожего размера и тоже может в приличный русик. А вообще для рп есть эквинокс, всем советую.

Аноним 03/06/26 Срд 15:12:49 #440 №1624827

>>1624811
glm4.6v немного глупее аира из-за вижена, но зато есть этот самый вижен и есть нормальный русик, которого нет у аира.
P.S. настройки у анслота неверные, они для вижена, не для генерации текста. Бери настройки от аира, с ними он пишет лучше.

Аноним 03/06/26 Срд 15:26:50 #441 №1624828

>>1624814
>покачиваний бёдрами
Было
>112 летние вампирши, да?
Не хочу заносить бабки корпам, ебал их в рот.

Аноним 03/06/26 Срд 15:54:19 #442 №1624833

Вопросы от ньфага, если у меня 24+64 память, максимальный вес модели 60гб или 80гб? Она разделяется между памятью, или в любом случае будет лежать фулл в оперативке?

Аноним 03/06/26 Срд 16:00:36 #443 №1624834

>>1624833
Разделяется между памятью, только учти, что помимо модели и ее контекста память кушают ещё ОС и браузер. "Впритык" засунуть не получится. В твои суммарные 84 можно смотреть модельки до ~75гб плюс-минус.

Аноним 03/06/26 Срд 16:03:07 #444 №1624835

>>1624833
С no-mmap разделиться.
Без no-mmap не разделиться - должна быть оператива под всю модель

Аноним 03/06/26 Срд 16:06:50 #445 №1624837

>>1624833
>максимальный вес модели 60гб или 80гб?
88гб минус твоя система и минус контекст.

>Она разделяется между памятью
Да.

Для твоей системы рекомендую вот эту модель.
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF/tree/main/Q4_K_M
Или эту
https://huggingface.co/Intel/Qwen3-235B-A22B-Instruct-2507-gguf-q2ks-mixed-AutoRound
Или эту
https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF/tree/main/Q4_K_M

Ну либо тупо гемму 31В чисто на врам, тоже неплохо.

Аноним 03/06/26 Срд 16:07:02 #446 №1624838

>>1624833
При загрузке модели у тебя есть инструменты распределения слоев на видеоускоритель и катушки памяти.

Аноним 03/06/26 Срд 16:13:08 #447 №1624839

>>1624834
>>1624835
>>1624837
>>1624838
Спасибо!

Аноним 03/06/26 Срд 16:40:39 #448 №1624847

>>1624722
>пдф энжоеру с карточкой Рейны
Хуя базовичок

Аноним 03/06/26 Срд 16:47:08 #449 №1624848

>>1624816
>>1624827
Спасибо, качаю 4.5 тогда, у меня квант инвалидный, что и 4.6 в русик плоховато может. По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали. Еще 4.6 лупился, поэтому добавил dry и вроде больше и не надо ничего?

Аноним 03/06/26 Срд 16:53:08 #450 №1624852

image

А помните как зайки обещали нам новый эйр, а потом поводили хуем по губам? Эх, были времена...

Аноним 03/06/26 Срд 17:04:26 #451 №1624857

>>1624848
>По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали
Именно их как раз брать нельзя, заи их для вижена советовали. Я же сказал, бери для аира настройки temperature=0.6, top_p=1.0.

Аноним 03/06/26 Срд 17:10:09 #452 №1624859

Какую МОЕшку анон посоветует для ру рп на 16/128? Пока на степане остановился, проза там каеф, но он как раз под русик не очень, крышняк течёт слишком сильно уж. Или для русика есть гемма, гемма, и только гемма?

Аноним 03/06/26 Срд 17:10:47 #453 №1624860

>>1624857
Спасибо, спасибо, попробую так

Аноним 03/06/26 Срд 17:12:36 #454 №1624862

> этот налёт вкатунов из ниоткуда
> спасибо, спасибо
Тред окончательно захватила гемма

Аноним 03/06/26 Срд 17:15:27 #455 №1624865

>>1624859
Учи англицкий

Аноним 03/06/26 Срд 17:19:14 #456 №1624867

>>1624859
>16/128
GLM 4.7 во втором кванте, или квен 235 в 3-4 кванте. Ну еще минимакс подойдет, но минимакс ты затрахаешься расцензуривать для ерп. Ну еще аир есть, но у него нет русика.

Аноним 03/06/26 Срд 17:28:08 #457 №1624868

1698118425388860.jpg

>во втором кванте

Аноним 03/06/26 Срд 18:35:01 #458 №1624898

Кстати, господа, а во что играют достопочтенные любители LLM?
За пределами кума, конечно.
В идеале бы примеры, пускай и черрипикнутые, как локалки обрабатывают упоротые механики и правила вселенной, ежели таковые наличествуют.

Аноним 03/06/26 Срд 19:04:37 #459 №1624913

image.png

Посоны, юзал кто?
https://huggingface.co/llmfan46/Gemma-4-Harmonia-31B-uncensored-heretic-GGUF

Аноним 03/06/26 Срд 19:09:44 #460 №1624916

17207828172961.jpg

https://huggingface.co/google/gemma-4-12B-it
Так вот же она, ваша 120b медиум гемма, замена тюнам мистраля эйру

Аноним 03/06/26 Срд 19:15:15 #461 №1624921

>>1624916
Да ёбаный того всё. Может гуголы ещё сжалятся и выкатят?

Аноним 03/06/26 Срд 19:15:32 #462 №1624922

>>1624898
Я историк а айтишу я так, для души, и у меня сильная профдеформация - я создаю сеттинги разных древних и не очень цивилизаций, но так как я душный, выходят фактически статейки на 4к+ токенов. Играю там или за впопуданца, или упарываюсь и исторически достоверно выращиваю брюкву.
Писал пару карточек в мирах товарища Говарда Филлипса - галюны модели в данном случае не баг, а фича.
С другом - биологом таким же ебанутым написали сайфай адвенчуру с изощрённым дизайном инопланетянок и тентаклями.
Писал другой сайфай, технопорно где весь смысл в обслуживании древнего космического корабля и уничтожении ксеносов ядерками во славу человечества.

Примеров я не дам, это личное.

Аноним 03/06/26 Срд 19:16:36 #463 №1624923

image

>>1624916
Да за что нам всё это...

Аноним 03/06/26 Срд 19:22:11 #464 №1624924

image.png

>>1624916
Это рофл какой-то. Нахуй это выпустили. Оно сосет у 26В, которая запускается на калькуляторах и работает в несколько раз быстрее.
Разве что обработка аудио заебись.

Аноним 03/06/26 Срд 19:22:56 #465 №1624925

>>1624916
Круто. 31б гемма всё таки слишком тяжелая для моей карточки. Только сегодня обсуждал это с сеткой она говорила жди мистраля нового или гемму поменьше.

Аноним 03/06/26 Срд 19:23:02 #466 №1624926

>>1624913
Выглядит как шизомерж от васяна

Аноним 03/06/26 Срд 19:29:22 #467 №1624928

>>1624925
Так у тебя уже есть гемма поменьше...

Аноним 03/06/26 Срд 19:36:32 #468 №1624932

>>1624928
Там нюансы.

Аноним 03/06/26 Срд 19:37:12 #469 №1624933

>>1624916
Круто, мне как нищете с 4070 как раз такая нужна

Аноним 03/06/26 Срд 19:47:56 #470 №1624939

https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF
Если кто-то также страдал не мог впихнуть в нормальном кванте советую тут качать, попробовал несколько разных вариаций кванта тут будто мозги наиболее для рп сохраняются.

Аноним 03/06/26 Срд 19:49:44 #471 №1624940

image.png

>>1624928
>gemma-4-26B-A4B-it-UD-Q4_K_S
>Кеш не квантован
Блядь, 3 слопа подряд! 3! Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом.

Аноним 03/06/26 Срд 19:52:00 #472 №1624941

>>1624940
>-UD-
плюнь бяку

Аноним 03/06/26 Срд 19:52:50 #473 №1624942

image.png

Вопрос от ньюфага, почему у этих двух скорость генерации отличается в 5 раз? Обе полностью в видеопамяти.

Аноним 03/06/26 Срд 19:53:25 #474 №1624943

>>1624922
Во. Как раз для тебя. Карточку допилишь сам, но идея годная! Современная немка в древнем Риме. Спасай попаданку, ну или заставь её страдать, лул. Roma, totius orbis caput!
https://mega.nz/file/fZVkCazS#HCB9nufsiLS1YWF8DS9AHBGgBapxg9t25ijod35dD_g

Аноним 03/06/26 Срд 19:54:18 #475 №1624944

>>1624942
разница в moe/dense типе моделей. Одна все параметры сразу активирует, у другой только небольшая часть

Аноним 03/06/26 Срд 19:56:32 #476 №1624947

>>1624940
>Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом и заканчивается это все вопросом.
>и заканчивается это все вопросом
Ну с первой фразой еще ладно, но блядь почему модели нельзя вопросы задавать, шиз?

Аноним 03/06/26 Срд 19:57:17 #477 №1624948

>>1624944
И стоит оно того, имею ввиду качество сильно страдает?

Аноним 03/06/26 Срд 19:58:44 #478 №1624949

>>1624942
У первой 31B активных параметров, у второй только 4B.

Аноним 03/06/26 Срд 20:00:03 #479 №1624950

>>1624948
Проверять надо самому. В целом да, сильно страдает. Но 26б очень достойная модель. Если комфортно на таких скоростях гонять 31б какие у тебя ща, то лучше ее.

Аноним 03/06/26 Срд 20:04:41 #480 №1624951

Сап, может кто подсказать по image to text?
Хочу протегировать свою библиотеку обычных и nswf картинок/видео в библиотеке для удобного поиска.
Из лёгких попробовал joytag(тегов там встроено 5к и как оказалось многих просто нет) и joy caption beta one(с промтом на выдачу тегов в стиле booru с результатом попадания в 80%, но также и с отсутствием некоторых тегов даже через несколько прогонов).

Надо на видеокарте запускать, у меня 5060ti на 16гб и 32гб рам ддр4.

Есть как личные фото/видео, так и скачанные из интернета ролики.

Аноним 03/06/26 Срд 20:05:57 #481 №1624952

>>1624951
В принциме можно модель которая сможет точно описать что на кадре с подробностями, а дальше прогоню через базу тегов мини моделью

Аноним 03/06/26 Срд 20:06:36 #482 №1624953

>>1624951
>Сап, может кто подсказать по image to text?
>протегировать
Нет, нерелейтед. Можешь конечно любую мультимодалку запромптить, но результат скорее всего выйдет нестабильным.

Аноним 03/06/26 Срд 20:09:37 #483 №1624958

>>1624953
Нестабильность можно решить дублированием прогонов(например в 4 из 5 повторяющийся ответ), но чтобы это не растягивалось на минуту за кадр.

Аноним 03/06/26 Срд 20:14:39 #484 №1624959

>>1624958
>например в 4 из 5 повторяющийся ответ
Чёт сильно сомневаюсь, что рядовая мультимодалка выдаст повтор хотя бы раз из 5. Хотя... У нас же есть Гемма 4!

Аноним 03/06/26 Срд 20:16:06 #485 №1624961

>>1624959
Не токен в токен же имеется ввиду.

Аноним 03/06/26 Срд 20:19:50 #486 №1624962

изображение.png

>>1624959
А не, тут гемма 4 недетерминированна.
>>1624961
А как какать сравнивать?

Аноним 03/06/26 Срд 20:25:15 #487 №1624968

>>1624962
> А как какать сравнивать?
Пересечение множеств если в тегах отдает ответ

Для описания же просто через ллм скормить и попросить отбросить редкое

Аноним 03/06/26 Срд 20:39:20 #488 №1624974

>>1624962
Сейчас на флешке 3.5 попробовал сфв и нсфв и у неё отлично выходит.
Только это не быстро выходит, мне бы на кадр меньше пол секунды тратить учитывая работу с видео ещё.
Ну и зафильтровали они её сильнее и с обходом через пробелы не всегда отдаёт ответ

Аноним 03/06/26 Срд 20:51:35 #489 №1624978

>>1624974
Быстро
Качественно
Бесплатно
Выбирай любые 2

Аноним 03/06/26 Срд 20:53:42 #490 №1624979

>>1624978
А что быстро и качественно? Даже интересно.

Аноним 03/06/26 Срд 20:56:21 #491 №1624981

image.png

>сосет везде у мое
Спим дальше...

Аноним 03/06/26 Срд 20:59:01 #492 №1624982

>>1624981
Разве что аудио из плюсов.

Аноним 03/06/26 Срд 21:00:27 #493 №1624983

>>1624947
Ты не видишь проблему в том что оно запоминает этот паттерн и через пару сообщений каждый ответ заканчивается вопросом?

Аноним 03/06/26 Срд 21:04:06 #494 №1624984

>>1624974
>обходом через пробелы
>локалка
Да вы там ебанулись все.

Аноним 03/06/26 Срд 21:07:03 #495 №1624985

image.png

>>1624947
Пример:
11 сообщений
24 вопроса
Только 4 вопроса мои и это я еще с разных моделей РПшу.

Аноним 03/06/26 Срд 21:08:47 #496 №1624986

>>1624984
Какая ещё локалка? Мы в /aicg/, треде про онлайн модели!
Не обращай внимания, их сейчас без ключиков на диких отходняках всех плющит, по соседним тредам расползаться начали

Аноним 03/06/26 Срд 21:17:40 #497 №1624988

>>1624981
А разве это не бэнчи говнокодинга.

Аноним 03/06/26 Срд 21:21:07 #498 №1624989

>>1624951
Я тоже искал на это ответ. Пришёл к тому что либо джойкапчн, либо геммы/квены подбирать по соотношению скорость/качество. Гемме/квену возможно можно тупо зарядить в систем промпт список всех нужных тебе тегов (придётся посидеть над списком) и их кратких описаний, и просьбу выдавать только их. Если есть текст на картинке то запромптить объединить его в один длиннющий тег для возможности поиска

Аноним 03/06/26 Срд 21:22:35 #499 №1624990

Какая есть расцензуренная Гемма 4 26В?

Аноним 03/06/26 Срд 21:23:08 #500 №1624991

image.png

>>1624979
Гемма4 31б в облаке

В общем потыкал Marinara - главная фича фронта это агент.
Мультичаты буквально оживают.

Помимо привычных в таверне суммарайзов и имеджгенов(ни разу не видел чтобы тут кто-то ими пользовался) есть свистелки перделки на любой вкус. RPG статус бары, создание лорбука по истории, агент сам придумывает персонажей и запоминает, можно даже подтянуть карточку/лорбук из сохранённых простым упоминанием. Даже интеграция с вибраторами лол.

Семлирование после таверны напрочь убогое, зато опция ризонинга реально работает. GLM и квены наконец то затыкаются без джинжи. Видимо через неё управление и реализовано.

Главный минус - нихрена не понятно как всё реализовано. Полез в описание, "как сделано не ваше дело, просто пользуйтесь". Судя по кишкам фронта половина данных сидит в некой локальной субд. В привычном формате лежат лишь карточки. Сходу расковырять это поделие не смог.