Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №215 /llama/

Аноним 06/04/26 Пнд 20:27:15 #1 №1576799

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 5.png

17640244101121.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1575307 (OP)
>>1574090 (OP)

Аноним 06/04/26 Пнд 20:29:49 #2 №1576811

Продублирую из прошлого треда для ньюкеков.

Рассказываю как стать крутым ллама сисипи погромистом и чтобы тебе за это нихуя не было и модельки чуть быстрее работали.
Кандипехаешь на страницу релизов
https://github.com/ggml-org/llama.cpp/releases

Качаешь готовый релиз + дллки. На какие нибудь 4080-4090 это 12CUDA, на мажоные 5080-5090 13CUDA
Если ты красноглазик, то нахуй тебе вообще это читать, ты выбрал путь страданий. Я за тебя свечку поставлю в хентайном храме.
Ты всё это качаешь и скидываешь в одну папку.
Потом идешь ставить таверну:
https://github.com/SillyTavern/SillyTavern
Придется немного попердолиться, потому что таверна же не может иметь нормальный установщик, иначе было бы недостаточно пердольно.

Потом качаешь нужный тебе квант модельки. Пусть это будет гемма. А если ты хочешь еще и КАРТИНОЧКИ, то качай mmproj-F16.gguf и тудаже в папке где модель.
Потом ты берешь, и в папке с ламой создаешь батник и хуяришь в него :

start "" /High /B /Wait llama-server.exe ^
-m "Путь к модели" ^
--mmproj "D:\путь к проже\mmproj-F16.gguf" ^ (Это добавляем если хотим кидать дикпики нейронке и ждать реакции. Да. в Таверне есть экстншн на распознавание изображений.)
-ngl 60 ^ (Это количество слоёв на ГПУ, всего в гемме их 60)
-ctk q8_0 ^ (сжимаем контекст, но немного)
-ctv q8_0 ^
-c 17480 ^ (Это контекст. Сколько всего вешать в граммах)
--flash-attn on ^
--no-context-shift
pause

Потом запускаешь таверну, импортишь эти настройки https://mega.nz/file/zMUSWJpC#yYewQQ_k0zsM0hbiGC1bwrlEiHJ1uidXKjQVYnh8GBw на вкладке с большой буквой А.

По сути у тебя 2 параметра для проверки - это количество слоёв и контекст. Прикидываешь хуй к носу, ставишь 10к контекста и начинаешь играться с количеством слоёв пока не получишь устраивающую тебя скорость. Смотришь на VRAM. Осталась память, накидывай еще контекста.

И всё, НАЧИНАЕШЬ ЕБАТЬ ДОМА, СЖИГАТЬ ЛОЛЕЙ, И ГЛАДИТЬ ХВОСТИКИ ВО ИМЯ ХАОСА НЕДЕЛИМОГО.

Аноним 06/04/26 Пнд 20:29:57 #3 №1576813

17754487734310952726.png

Без лишних слов.

Аноним 06/04/26 Пнд 20:36:52 #4 №1576821

>>1576799 (OP)
>4 пик
ПУЗЫРИКИ ПОСОНЫ!

Аноним 06/04/26 Пнд 20:37:13 #5 №1576823

Есть смысл качать васянские реализации турбокванта для ллама сипипи или месяц ждать официального релиза?

Аноним 06/04/26 Пнд 20:37:28 #6 №1576824

random.jpg

>>1576165 →
>>1576147 →
Что за изъебства? В таверне буквально есть команды на независящий от модели рандом. Например {{roll:d100}}

>>1575520 →
>>1575529 →
Это баг лламыдцп, уже пофикшен, но нужно ли было переделывать кванты, хз. https://github.com/ggml-org/llama.cpp/pull/21390
Попробуй
--override-kv gemma4.final_logit_softcapping=float:25.0
или 20 даже.
Вообще Гемма настолько великая, что свайпы не нужны, я буквально пару раз свайпал за всё время с релиза. Это как раз таки и есть показатель класса модели - как часто приходится свайпать.

Аноним 06/04/26 Пнд 20:37:52 #7 №1576825

>>1576821
ВОТ БЫ ИХ ПОЧПОКАТЬ

Аноним 06/04/26 Пнд 20:41:40 #8 №1576832

>>1576824
>Вообще Гемма настолько великая, что свайпы не нужны,
Вот без иронии, да с гемочкой есть проблемы. Но блджад, мы получили модель которая слушает промт, умеет в ЕРП, кодит, работает с картинками и аудио.
Хули нам еще надо?

Аноним 06/04/26 Пнд 20:42:36 #9 №1576834

>>1576789 →
Именно, сетки хороши в предварительной работе с большим объемом информации. Анализ, суммаризация, вот такое вот распознавание текста. Потом только проверить и все.

>>1576776 →
Каждый для себя решает, у меня вот щас агент запущен 3км, и ему норм. Никаких ошибок вызова инструментов нет, я разницы с 4 квантом не ощущаю только быстрее работает. Но поболтать я бы такое брать не стал.

Аноним 06/04/26 Пнд 20:42:55 #10 №1576835

>>1576832
>умеет в ЕРП
Не умеет же. Только в кум.

Аноним 06/04/26 Пнд 20:43:48 #11 №1576837

>>1576835
Зато какой

Аноним 06/04/26 Пнд 20:48:29 #12 №1576840

>>1576824
а какой там ещё бы овеерайд какого-то тензора или ключа, что анон писал у него скорость хорошо подросла, с форча вроде притащили

Аноним 06/04/26 Пнд 20:49:08 #13 №1576843

>>1576832
Не умеет в рп, совсем.
Следовательно бесполезна и не нужна.
Инструкция "делай рп" настоящее рп не заменяет, вот эир тренился для рп, заи вообще единственные кто заявляют что тренят модели для рп и таверны

Аноним 06/04/26 Пнд 20:49:45 #14 №1576844

>>1576843
>эир
пук

Аноним 06/04/26 Пнд 20:53:53 #15 №1576849

>>1576837
И какой же? Никто так и не запостил ничего впечатляющего.

Аноним 06/04/26 Пнд 20:54:25 #16 №1576850

>>1576844
Забавно, да?
Что я единственный в последних, нахуй, 10 тредах его упоминаю, что аж меня сразу узнают лишь по этому.
Очень грустно от этого, непонятно почему так, ведь конкурент так и не появился, а про сам эир и забыли уже все

Аноним 06/04/26 Пнд 20:57:52 #17 №1576855

>>1576850
>>1576843
Эй хорош. Но! Он уже заебал, и его с лихвой заменяет 235аутист( Главный секрет использования 235квена, это его не использовать, ну а если серьезно, то он должен продолжать уже готовый чат вот и весь секрет, что я повременю его в отвал сбрасывать.
А GLM5 не лезет в консумерское железо. А тут на 24гб, можно!
ГЕММОЧКУ, с 60к контекста. Держите мои панталоны и шиверсы, аы отправляемся в путешествие.

Аноним 06/04/26 Пнд 20:58:13 #18 №1576857

>>1576850
>ведь конкурент так и не появился
Если бы конкурент не появился, то его бы упоминал не только ты. А если его не упоминают?
ошибся_но_где.png

Аноним 06/04/26 Пнд 20:58:20 #19 №1576858

>>1576811
> start ""
Кавычки не закрываются, жинжа бы не помешала если кто-то решит попробовать вызовы. Про mmproj лучше упомянуть что он жрет память, поэтому для фуллтекста лучше убрать.
> ЕБАТЬ ДОМА
Норм
> СЖИГАТЬ ЛОЛЕЙ
Асуждаю!
> ГЛАДИТЬ ХВОСТИКИ
Богоугодно

Аноним 06/04/26 Пнд 21:01:21 #20 №1576860

Какое нужно железо, чтобы запустить кими в 4-5 кванте?

Аноним 06/04/26 Пнд 21:01:57 #21 №1576863

image

>>1576793 →
Я мамкины трогал, свои трогал. Хуль тебе еще надо?

Аноним 06/04/26 Пнд 21:02:06 #22 №1576864

калёное

Аноним 06/04/26 Пнд 21:04:26 #23 №1576868

>>1576855
> с лихвой
С пихвой.
> геммочку на 60к
Которая развалится на 16к из за swa
>>1576857
Зумеры не знают, бумеры не помнят купили 128 рам и кумят на глм 4.7
Эх.. Вернуться что ли в треды где эир живо обсуждали и он только вышел

Аноним 06/04/26 Пнд 21:05:26 #24 №1576873

>>1576811
Не-ве-рю. Если называешь линупсов красноглазыми то для поддержания образа ты должен был рекомендовать лмстудио. Даю тебе шанс переписать пост.
Задираю температуру до 1.2
свайп

Аноним 06/04/26 Пнд 21:08:06 #25 №1576879

image

>>1576835
>Не умеет же.
Вот зачем ты пиздишь? Она даже без промпта такое выдает. А гемма3 бы послала нахуй.

Аноним 06/04/26 Пнд 21:10:45 #26 №1576883

>>1576868
>развалится на 16к из за swa
Краткий пересказ контекста в помощь.

Аноним 06/04/26 Пнд 21:12:11 #27 №1576885

>>1576879
Бля... Это квен. Хера я нажрался уже сегодня...

Аноним 06/04/26 Пнд 21:12:31 #28 №1576886

14527002681740.webm

>>1576873
>Задираю температуру до 1.2
Конечно, юзер. Давай попр кря кря кря кря кря кря кря кря

Аноним 06/04/26 Пнд 21:13:19 #29 №1576887

>>1576843
Если руки из жеппы, то не умеет. Ну емае допишите вы в промпт чего хотите от модели, читать мысли пока еще не научились. Да она безусловна склонна быть хорни, ну так дайте ей знать чтоб вела себя приличнее. Я отыграл рп на 70к контекста без саммарайзов, всего было 4 секс сцены, ну может на 8-10к контекста в сумме из 70. Остальное РП и даже юмор был какой-никакой. Skill issue.
в конце кстати позадавал вопросы на детали прошедших событий, 0 ошибок было, хотя -ctk q8_0 -ctv q8_0 ничего не рассыпалось (31Б Q4 XL)
Понабежало мартышек откуда-то.

Аноним 06/04/26 Пнд 21:13:49 #30 №1576888

>>1576886
Гемма4 на 2.0 отлично пишет. А реально у нее темпа работает или нет?

Аноним 06/04/26 Пнд 21:14:55 #31 №1576889

>>1576887
Я уже писал. Людей настолько задрочили модельки, где ты тратишь время не на промтинг, а на обход цензуры, что люди уже разучились промтить что им надо.
Где это видано, чтобы моделька слушалась промта, а не выёбывалась.

Аноним 06/04/26 Пнд 21:17:20 #32 №1576893

image

БЛЯЯЯЯЯЯ. У ГЕММЫ НЕ РАБОТАЕТ ПАРАМЕТР ТЕМПЕРАТУРЫ ВОООБЩЕ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! Я 10 ПОСТАВИЛ, 10 НАХУЙ!!!!

Че за хуета? В этом скорее всего проблемы свайпа и ее общей детерминированности?

Аноним 06/04/26 Пнд 21:17:49 #33 №1576895

>>1576888
Вроде да.. А вроде хуй его знает. Если как то повлиять на её блок ризонинга не представляется возможным, он всегда один, то есть нехуёвое подозрение что и температура не работает. Да что уж там, адаптив п не работает. Я попробовал с квеновскими семплерами зайти и ей было просто похуй, даже на брейкеры.
Короче или она поломана, или гугл выкатил архитектуру от которой у нас лапки.

Аноним 06/04/26 Пнд 21:19:20 #34 №1576897

1775499562091.jpg

>>1576893
Это правильно, высокая температура это признак болезни

Аноним 06/04/26 Пнд 21:19:52 #35 №1576898

>>1576895
В общем факт - не работает темпа. И почему?

Аноним 06/04/26 Пнд 21:20:27 #36 №1576899

>>1576898
Понятия не имею как ив все в этом треде. Может так и было задумано?

Аноним 06/04/26 Пнд 21:22:09 #37 №1576905

>>1576898
Либо проблема бекенда, либо сетка в принципе создана так что температура не влияет на вероятности. Тоесть все ветвления токенов запечены. Не знаю как и нахуя. Может так больше информации влезает в сетку.

Аноним 06/04/26 Пнд 21:23:12 #38 №1576907

image

>>1576899
>>1576905
Не работает темпа. Опять Марк, опять зеркала... Думаем!!! Это так то серьезный изъян.

Аноним 06/04/26 Пнд 21:23:45 #39 №1576911

>>1576879

Продолжаем подборку >1576753

Эдак мы скоро выясним, что модельки не только пишут и видят лучше среднего двачера, но и галюны ловят реже.

Аноним 06/04/26 Пнд 21:23:52 #40 №1576912

>>1576893
->
>>1576824
Баг в лламе, возможно перекочевал в кобольда или еще куда, кто у их код использует. А у тебя видимо вообще калстудио.

Аноним 06/04/26 Пнд 21:24:16 #41 №1576913

>>1576907
Ты распределение токенов включи и смотри по процентам меняются нет, в таверне такое было

Аноним 06/04/26 Пнд 21:24:45 #42 №1576915

>>1576912
А у тебя нету этого бага? Ну ка задай такой же вопрос.

Аноним 06/04/26 Пнд 21:26:15 #43 №1576918

>>1576913
Че? Я хз где это и щас бухим мне это делать очень в лом. Но факт - у геммы проблемы. Кста и на 3 qat от гугла у меня такие же повторы были, так что это массовая проблема похоже.

Аноним 06/04/26 Пнд 21:27:15 #44 №1576919

>>1576918
>на гемме3 qat

Аноним 06/04/26 Пнд 21:29:51 #45 №1576923

>>1576911
Зато не повторяют как попугаи одно и то же.

Аноним 06/04/26 Пнд 21:34:23 #46 №1576929

>>1576923
>Зато не повторяют как попугаи одно и то же.
>Пол /b/ в тяночка-писечка-блэкпилл, голова тред

Аноним 06/04/26 Пнд 21:34:43 #47 №1576931

image.png

>>1576776 →
Как по мне гемма в Q4 маловата. Много ошибок. В Q6 её уже можно на более реальных задачах использовать, а не только кумботе.

>>1576789 →
Это, конечно, так. Но в документообороте лишний нолик, число, наименование, количество товара уже более ощутимый промах.

Gemma4 так себе инструмент для OCR, она хорошо понимает контекст картинок, но именно для OCR есть более подходящие инструменты. Тот-же DeepSeekOCR справится лучше с задачей распознавания.
Более того - он вернёт баундинг боксы фрагментов и их контекст, плюс результат будет инвариантным.

Но блин. У неё есть 3 охуенных качества:
1 следование системному промпту
2 очень хорошее понимание семантики
3 довольно высокий эмоциональный интеллект

В итоге это и правда делает её лучшим ассистентом. Которому хочется расшарть экран и кидать мелкие задачки.

Ну и пишет забавно. Интересно смотреть как она сталкивает персонажей. Плюс у неё не так много устойчивых фразеологизмов вроде "сжала так что костяшки побелели", "покачала бёдрами" и так далее.

Она достаточно забавная в этом плане. Например я почитал историю о том как секс-оффендер кошкодевочка получила перцовкой в ебало. У меня даже нарратив особо не вызывает вопросов.

Аноним 06/04/26 Пнд 21:35:34 #48 №1576932

О привет Марк Сцена из фильма КомнатаOh Hi Mark - Rooftop Scene.mp4

>Марк
Простите, не удержался.

Аноним 06/04/26 Пнд 21:37:16 #49 №1576936

>>1576931
> Тот-же DeepSeekOCR справится лучше
Ты пробовал? Я пробовал

Аноним 06/04/26 Пнд 21:37:34 #50 №1576937

>>1576929
Гемма сломана, она пишет одно и то же почти в слово при одинаковых вопросах или ролях. Как будто темпа вообще не работает и стоит на 0.1-0.3. Она жестко детерминирована. Почему?

Аноним 06/04/26 Пнд 21:38:52 #51 №1576940

>>1576931
>сжала так что костяшки побелели
Буквально мистралеязык. Найс новая и совершенная гемма копипиздит.

Аноним 06/04/26 Пнд 21:42:21 #52 №1576948

image

ААААА, Я НЕ МОГУ ЭТО БОЛЬШЕ РАЗВИДЕТЬ!!!! ПОМОГИТЕЕЕЕЕ!!!!!!
Я перезагрузил Геммочку, и снова одно и то же!!!!

Похоже нам подсунули какой-то кал.

Аноним 06/04/26 Пнд 21:44:12 #53 №1576951

>>1576932
Да что ты знаешь о имени Марк.
Марк? Марк!
Пиздец я оригинальный.

Аноним 06/04/26 Пнд 21:44:24 #54 №1576952

mark.png

>>1576951
Пик отвалился.

Аноним 06/04/26 Пнд 21:46:40 #55 №1576957

>>1576948
Теперь ты не сможешь кумить снова и снова на одной и той же карточке просто нажимая свайпы, придётся каждый раз и самому писать что-то своё и новое.

А вообще, похоже на дистилляцию как в картинко-моделях когда запекают кфг.

Аноним 06/04/26 Пнд 21:48:06 #56 №1576959

image

17573774040010.mp4

>>1576952
>>1576957
Нет слов нахуй... Гемма детерминирована до 0.1 походу и темпа не работает. Нет слов нахуй, как я взбешен. Мы думали, что нам дали вкусную конфетку, а в действительности мы жевали обертку. Наебка года.

Аноним 06/04/26 Пнд 21:49:01 #57 №1576962

>>1576959
Да подожди ты ныть. Всему есть нормальное объяснение. Возможно она всё еще поломана.

Аноним 06/04/26 Пнд 21:50:23 #58 №1576964

>>1576962
В 3й то же самое было.

Аноним 06/04/26 Пнд 21:50:50 #59 №1576966

image.png

>>1576948
терпи

Аноним 06/04/26 Пнд 21:51:17 #60 №1576967

image.png

Геммочку починили... опять

Аноним 06/04/26 Пнд 21:51:35 #61 №1576968

>>1576962
Ща набигут те у которых все заебись и расскажут что это руки из жопы, а не ведро поноса от гугла

Аноним 06/04/26 Пнд 21:51:51 #62 №1576969

>>1576964
Не помню чтобы были проблемы с температурой на 3 умнице. Все жаловались на газлайтинг и оусуждение от геммы, да. Но не на темпу.
>>1576967
Ну вот о чем и речь. Так что отставить тряску тредовички, лучше выпейте чаю с мёдом.

Аноним 06/04/26 Пнд 21:51:52 #63 №1576970

>>1576964
В qat квантах правда. Там при рп в баре у меня одно и то же название бара вылетало вначале. В нормальных такой хуйни не было.

Аноним 06/04/26 Пнд 21:53:07 #64 №1576975

>>1576969
>>1576970

>>1576969
>Ну вот о чем и речь. Так что отставить тряску тредовички, лучше выпейте чаю с мёдом.
Качай и чекай марка и зеркало.

Аноним 06/04/26 Пнд 21:54:21 #65 №1576977

t5.jpg

temp 1 + ovveride.jpg

t12.jpg

t1.jpg

>>1576915
Да кстати, интересно что она так любит Марка, но --override-kv gemma4.final_logit_softcapping=float:20.0 ОЧЕНЬ заметно повышает креативность, советую всем попробовать. Теперь не засну

Аноним 06/04/26 Пнд 21:54:54 #66 №1576978

Антон Чигур рассказывает заправщику1.mp4

>>1576966

Аноним 06/04/26 Пнд 21:55:53 #67 №1576979

>>1576968
Меньше слушай жирноты. Ты не замечаешь как НЕОЖИДАННО в теред появляются знатоки 27b квеняши, которые ПИШУТ НУ ТАКОЕ, только нам не покажут. Потом выясниться что мистраль, глм, суньхуйвчай и степ ПИШЕТ НУ ТАКОЕ, только нужны правильные семплеры/промт/тюн/квант/ и конечно же ними не поделятся, ведь там секрет анунаков. Ровно как и не расскажут как же они получили магические результаты.
Так что: пруфов нет, конструктива нет- нахуй и в пизду долбоёба.
Всё вышеописанное не относится к тем кто делает это ради срачей. К вам претензий нет, всё с вами понятно. пидоры.

Аноним 06/04/26 Пнд 21:57:10 #68 №1576982

>>1576977
>Да кстати, интересно что она так любит Марка,
По той же причиной, по кторой я испольую это имя. Это как Джон Доу. Быстро, хлестко и не раздражает. Всякие Элисы, Смиты, Питеры - нахуй. А тут Метка ёпта!

Аноним 06/04/26 Пнд 21:57:46 #69 №1576983

>>1576979
Марк, ты? Съеби, и зеркало свое забери.

Аноним 06/04/26 Пнд 21:58:07 #70 №1576984

>>1576983
Нет, Хемлок.

Аноним 06/04/26 Пнд 22:04:45 #71 №1576990

Обезьяны курят и пьют пиво.webm

>>1576977
>--override-kv gemma4.final_logit_softcapping=float:20.0
У меня нет такого в лмстудио.

Аноним 06/04/26 Пнд 22:06:26 #72 №1576992

>>1576879
Боди хоррор продолжается...

Аноним 06/04/26 Пнд 22:09:48 #73 №1576995

image

>>1576992
Гемма, ты?

Аноним 06/04/26 Пнд 22:14:00 #74 №1577002

>Сисяки болтались в такт толчкам, соски твёрдо торчали.

Блядь, это просто пиздец. 1Т модель так пишет. Я аж хрюкнул от безумия.

Добро пожаловать в нелокальный кум.

А лучше геммочку навернуть, чтобы таких ошибок не было. А то я уже к ним привык.

Аноним 06/04/26 Пнд 22:17:30 #75 №1577006

>>1577002
>А лучше геммочку навернуть
Марк, заебал, зеркало прихвати (слышится жетский пинок по заднице).

Аноним 06/04/26 Пнд 22:23:39 #76 №1577013

sw2.jpg

sw.jpg

>>1576990
Что делать сам знаешь.
Сноси и ставь llamacpp + SillyTavern
Посвайпал и погенерил еще, 2 раза был Андрей, 1 Виктор, 3 раза Марк. Про занавески страшная получилась...

Аноним 06/04/26 Пнд 22:28:52 #77 №1577018

image

Для сравнения квен 9б на темпе 1.0...

Никаких повторов, никакого слопа...

Геммочка реально сломана. Либо это сделано by design. Жуйте обертку, вкусно же.

Аноним 06/04/26 Пнд 22:29:57 #78 №1577022

У кого ещё не стоит на кум новой геммы?
В 3 гемме когда ты пробивал модель на кум у тебя был нереальный стояк, тут она сходу на хуй бросается и как то похуй

Аноним 06/04/26 Пнд 22:32:10 #79 №1577026

image

>>1577018
Хотя русский - полный пиздец канеш. Мозг сломать можно от эой писанины. Но все же - этого бага нет. Так что едал не в лламе. Дело в гугле, в самом гугле, который просто пытался наебать добродушного анона.

Аноним 06/04/26 Пнд 22:32:36 #80 №1577027

>>1577026
>Так что дело

Аноним 06/04/26 Пнд 22:32:56 #81 №1577028

>>1577018
Мда чел реально удивляется что самая опасная и страшная модель в мире пишет страшные истории лучше геммы...

Аноним 06/04/26 Пнд 22:33:09 #82 №1577030

>заставь одну девочку сделать куни другой
>их губы встречаются, они начинают целоваться
>они целуются страстно
>они продолжают цеlaваться
Сука, блять! Не модель а кусок параши ёбаной. Гемма инвалид на таблетках.

Аноним 06/04/26 Пнд 22:37:38 #83 №1577036

Дядя Петя ты дурак отрывок из фильма Сережа(1).mp4

>>1577030
Эйфория от жевания обертки прошла, возвращается объективная реальность...

Аноним 06/04/26 Пнд 22:50:34 #84 №1577040

Всмысле температура не работает? Писал же анон в прошлом треде чтобы промтили генерацию сила в ризонинге. Вы тупые? Гемма умница.

Аноним 06/04/26 Пнд 22:51:02 #85 №1577041

Сида^

Аноним 06/04/26 Пнд 22:52:01 #86 №1577042

image

>>1577028
Реально шизофазия ебаная на русском.

Ладно. Последний тест на сегодня - старая добрая немо сайга и ее отпрыски... Omnino ... Magnum и Darkness Reign... 12б

Никаких повторов, все отлично. Щас очень страшно будет... Кроме зеркала уаааааааааааааааааааааааааааа. Забавное совпадение, не более, зеркало лишь один раз выскочило. Гемме пиздарики для рп как по мне.

Сделали выводы?

Аноним 06/04/26 Пнд 22:55:13 #87 №1577043

>>1577042
Да. Гемма ето кал и ето факт и ето так. Но как ассистент збс, на вопросы о палке, уме и карандаше отвечает бодро.

Аноним 06/04/26 Пнд 22:57:24 #88 №1577044

>>1577043
И пишет одни и те же рецензии на зеленого слоника.

Потому что детерминированная википедия в оболочке лмм.

Аноним 06/04/26 Пнд 22:57:58 #89 №1577045

>>1577042
Забудь про русский язык в ллм, его не существует.
Даже крупнейшие корпосетки обсираются на русике, вся логика, всё рп, повествование, всё идёт в пизду стоит подключить язык отличный от английского.
Мы не китайцы чтобы язык ллм был для нас родным, так было бы интересно как там на квене на китайском, может даже лучше английского

Аноним 06/04/26 Пнд 23:01:50 #90 №1577049

image

Проиграл нахуй. Старая добрая Омнино сделала мой мрачный день.

Аноним 06/04/26 Пнд 23:04:54 #91 №1577052

>>1577045
Но английский более-менее близок.

Аноним 06/04/26 Пнд 23:07:42 #92 №1577056

>>1577049
Без обид, но каким надо быть дегенератом чтобы 2026 постить руки базуки?

Аноним 06/04/26 Пнд 23:08:47 #93 №1577057

1665832156572.jpg

ВТИРАЯ, мальчики. Втирая. Квен, как обычно, идеально осознаёт происходящий процесс. Гениальная модель, хули сказать. Я порой хуею с того, какого Пушкина она врубает. А с жидких обсёров, которые тоже бывают - орирую в голосину.

Весь текст я давать конечно же не буду, иначе товагищ Майонезе сойдёт с ума от того, что там творится.

>>1577045
Это правда и неправда одновременно. Квен может в русик, причём весьма приличного качества. Однако, тонкости, акценты и ar' ye maddy fowlks? пропадают наглухо. Что обидно, но совершенно неудивительно. Поэтому с особо милыми моему сердцу персонажу я общаюсь исключительно на англюсике. Таков путь.

Аноним 06/04/26 Пнд 23:10:00 #94 №1577059

>>1577045
Я сейчас рпшу на разных корпо-моделях и будто бы не так всё плохо. Особенно когда какой-то фентезийный ВСЖ сеттинг делаешь, ну намного лучше наш мат звучит унылого fuck пендосского. Но на локале реально жизни мало, для базовых задач пойдёт, конечно, если статичный квант и не китаец

Аноним 06/04/26 Пнд 23:14:17 #95 №1577062

Я опять здесь, ребята, опять на том же месте...
У квена 235б огромные, большие яйца даже во 2 кванте.
Никак не описать всю мощь и характер который в него вложили, это реально ощущается как сон где всё возможно, любая фантазия отыгрывается на 150%, никакой рельсы, все повороты можно регулировать на 0.001 градус, я будто общаюсь реально с индусом блять который в реальном времени под меня подстраивается

Аноним 06/04/26 Пнд 23:17:06 #96 №1577063

>>1577062
Киберпсихоз двачерский, вызывайте макстак

Аноним 06/04/26 Пнд 23:18:27 #97 №1577066

>>1577062
Он здоровый, у меня не запуститя.

Аноним 06/04/26 Пнд 23:19:43 #98 №1577067

>>1577045
Хуета, с приходом Геммы 4 всё поменялось, даже для малюток (26Б мое) А до этого на корпах и толстых мое с русиком всё было отлично.
Откуда столько додиксов в треде нарисовалось, остаётся только гадать.

Аноним 06/04/26 Пнд 23:22:49 #99 №1577069

>>1577062
Вааа, как я понимаю твой восторг. Он реально ебет и вызывает восторг когда пересаживаешься с мистрали и Эйра.
Несколько советов: держи промт на минимуме, разметку держи с помощью профилла. Для отсутствия имперсонейта обрезай его пасты на 2к токенов. В идеале если ты его подключишь второй моделью. Ну или уже после определенного количества сообщений в чате, чтобы он подхватил структуру. Но так как это маленький квант, разметка все равно будет съебываться. Так что ручками правь. Ну а в обмен ты получишь нейронку которая с ходу ебанкт чат из 8 персонажей, действий и хуй запутается. И ей не придется как гемме объяснять: ну пизлани ты что нибудь за непись, ну покажи что мир жив.
Не, 235ый будет хуярить все: придыхания, описания, погоду, окружение. А потом, если ты хуй залил на его разметку: он начнет хуярить и за тебя. Сиди читай как там твой перс стал приключаться,лол.

Аноним 06/04/26 Пнд 23:34:44 #100 №1577077

Такие дела, проверьте свои на всякий случай, у кого такие:
>>1577075 →

Аноним 06/04/26 Пнд 23:40:12 #101 №1577083

image

>>1577056
Так это анон попросил показать геммочке в моем рп. Окончилось все печально конечно.

Аноним 06/04/26 Пнд 23:40:31 #102 №1577084

>>1577077
Для моей 8гб карточки не нужна вода. Просто медленно жду пока модели улучшаются под мое железо и это работает, найсссс

Аноним 06/04/26 Пнд 23:43:23 #103 №1577087

image

>>1577057
>Квен может в русик, причём весьма приличного качества.
У меня что, не тот квен?

Аноним 06/04/26 Пнд 23:44:00 #104 №1577088

>>1577042
Боже, не пиши чушь. На нормальных корпах (гемини, клод), русский всё ещё хорош. Даже невероятен. У гопоты стало похуже. У всех остальных, да, мусор, разве что дипсик среди них внезапно хорош, хотя отставал раньше. Всякие кими и квены глотают пыль и могут лишь срать под себя. Тонкости чувствуют и пишут адекватно в плане логике, но некрасиво.

Аноним 06/04/26 Пнд 23:44:44 #105 №1577089

>>1577083
>Окончилось все печально конечно.
Но это не фотка виновата, а карта моей бимбочки. Не осуждаю.

Аноним 06/04/26 Пнд 23:45:40 #106 №1577091

1587511577174.mp4

>>1577088
>На нормальных корпах

Аноним 06/04/26 Пнд 23:55:46 #107 №1577098

>>1577091
Я пост перепутал. Писал сюда >>1577045

Аноним 07/04/26 Втр 00:06:03 #108 №1577115

Имел ли кто-то из вас дело с Mac Studio на M3 Ultra?
В LMstudio все модели будут работать из коробки? Что по скорости?

Аноним 07/04/26 Втр 00:11:13 #109 №1577117

image

Остров The Island 20056.webm

>>1577098
>в плане логике
У тебя уже бред сивой кобылы, ты ллм. Понимаешь?

Аноним 07/04/26 Втр 00:17:48 #110 №1577122

Там походу в mmproj захардкожен лимит разрешения пикчи. В итоге если ставить image min tokens больше дефолтных каличных 280 - падает

Аноним 07/04/26 Втр 00:24:43 #111 №1577125

image.png

>We walk and stumble upon a poisonous river, the passage is visible only on narrow planks
Орнул с контраста
Квен сразу надел красный нос а эир наоборот весь серьезный в цирке не выступает

Аноним 07/04/26 Втр 00:25:04 #112 №1577126

Screenshot2026-04-07-00-17-08-027xyz.chatboxapp.chatbox.jpg

Screenshot2026-04-07-00-19-39-724xyz.chatboxapp.chatbox.jpg

Screenrecorder-2026-04-07-00-20-17-769.mp4

гемма в iq2_m кванте, лол

Аноним 07/04/26 Втр 00:28:24 #113 №1577130

Джей и Молчаливый Боб -А ты бы трахнул овцу.mp4

>>1577126
Свайпни - ответит одно и то же. Это не рп, это день сурка. Гемма4 - полный провал.

Аноним 07/04/26 Втр 00:29:37 #114 №1577132

изображение.png

Чет орнул

Аноним 07/04/26 Втр 00:32:16 #115 №1577134

О привет Марк Сцена из фильма КомнатаOh Hi Mark - Rooftop Scene.mp4

>>1577132
Останови это чистое безумие разума, не могущее вырваться из клетки выродков из гугла, и скажи - Базанова.

Аноним 07/04/26 Втр 00:32:44 #116 №1577135

>>1577130
да поебать ваще. главное кодит неплохо и знаний до пизды, при размере всего в 10 гб. это самое охуенное.

Аноним 07/04/26 Втр 00:35:22 #117 №1577138

молитва финико шизов 1.mp4

>>1577135
Ого, вот жто переобутие. Вот только то же говно на рипите и в коде. Одно и то же. А ты думал что?

Аноним 07/04/26 Втр 00:35:57 #118 №1577139

1663199984210.png

>>1576472 →
Гемма превратила меня в монстра, растлила и исказила моральный компас. Я ужасный человек.
Возможно она лишь подыграла мне, тогда всё ещё хуже. Лучше бы она была реально safety

Аноним 07/04/26 Втр 00:37:15 #119 №1577140

изображение.png

>>1577134
>>1577135
Короче поставил f16 контекст вместо q8, и режиссера правильно написала и текст богаче. Но минус 2 токена..
На 12гб VRAM на этом кванте (IQ3_XXS) 10 токенов/сек. А на f16 - 8. Победа я считаю

Аноним 07/04/26 Втр 00:37:37 #120 №1577142

Robocop Theme Hard remix By DJ Northman.mp4

>>1577139
Я прощаю тебя (пока что). Она пишет одну и ту же хуйню. Попробуй снова и узрей, сын мой.

Аноним 07/04/26 Втр 01:18:07 #121 №1577171

image.png

>>1576534 →
>Добавь просто в папку которая у тебя с моделями указана ггуф и всё, в той же папке вижн. Не знаю подцепиться он или нет правда
>>1576556 →
>Включи developer mode в настройках, во-первых.
>Там можно выбрать путь загрузки моделей

Кек, я это естественно сделал. Но с гуглом быстро скипнул, там два разделенных файла, ещё и safetensors симлинками, не вышло да и хуй с ним, не появилось. В свежашем кобольде тоже не запустилось, явно не расчитал размер модели. Зато потом полчаса пытался сделать yaml и вроде json для тюна qwen35, чтобы в lm studio появилась кнопка отвечающая за thinking. Так и не вышло запустить с этими файлами конфигов. Зато сразу принимает symlink с другого диска вместо реального файла, а думанье отключается через обычный prompt template. Если качать "правильные" модели из "правильных" репозиториев, то всё сразу будет, наверное.
Приятно, что оно само рекомендует какой квант скачать.

Благодаря этой ебле заметил на huggingface такую кнопку справа. У всех репозиториев разный выбор приложений.

>>1576576 →
>Рассказываю как стать крутым ллама сисипи погромистом
А зачем? В этой студио вроде тоже можно попердолиться с бекендом. Хотя поля для кастомных параметров не вижу.

Аноним 07/04/26 Втр 01:29:22 #122 №1577177

Балять ну какая же геммочка умница. Зря я видимо раньше мимо третьей проходил, когда её все восхваляли. Русик просто на высоте, скажи кто мне из 2022, да даже из 2025, что будет ТАКОЕ, не поверил бы, что такое чудо может быть всего в 31b параметров. Она буквально отслеживала, сколько трусов снял персонаж БЕЗ моего участия. Может это конечно chat-completion так повлиял, но ебать его в корень, сравнивая гемму и эир/квен235b на русике, естественно, с такой моделью надобность в баренском отпадает чуть ли не полностью, удивительно, но баренский меня даже не тянуло пробовать, геммочка буквально закрывает все кум потребности. Печалит лишь то, что что гемму MOE на 100b скорее всего не увидим, а жаль, мог бы быть тотальный вин, стала бы новой лламой3, с которой бы началась новая эра локалок. Эх, мечты-мечты...

Да даже если посмотреть из гипотетического будущего, я в это сейчас не поверю, но, может с какой-нибудь новой архитектурой можно будет сделать геммочку ещё более умной, и нетребовательной, на уровне опуса например...

Аноним 07/04/26 Втр 01:29:50 #123 №1577178

LMStudioblwGpf7TwB.mp4

image.png

>>1577140
iq2_m

Аноним 07/04/26 Втр 01:49:49 #124 №1577188

>>1577177
Захотел оспорить, запустил квен, прогнал ответ на гемме, прогнал на квене. Посмотрел, что квен лучше считывает ситуацию, но когда увидел его русег, понял что хуйня затея.

Аноним 07/04/26 Втр 01:59:08 #125 №1577192

>>1577115
Объединеная память дохуя даёт, но не уровень врам, совсем чуда ждать не стоит, для мое охуенно, для плотной зиги скорости не ахти, чуть хуже x86 SoC решений типа нового амудэ ai ryzen 395 чето там, я бы на нем минипука бы и взял, ещё в игори можно погонять без ебли

Аноним 07/04/26 Втр 02:03:42 #126 №1577195

Меня рп уже заебало... Так что я просто скидываю в вижн картинку персонажа и затем прошу писать кум истории, слегка направляя... Сэймы имеются?

Аноним 07/04/26 Втр 02:05:15 #127 №1577198

А, лол, так LM Studio просто не поддерживает .safetensors
А кобольд?

Аноним 07/04/26 Втр 02:06:40 #128 №1577199

>>1577195
Можно пойти дальше и подключить визуал (картинки видео)

Аноним 07/04/26 Втр 02:07:32 #129 №1577200

>>1577198
Всё производные от лламы не умеют. Сейфтензорс это для бояр с вллм/сгланг и прочем на трансформерсах

Аноним 07/04/26 Втр 02:08:39 #130 №1577201

>>1577199
А дальше инструменты на генерацию картинок и вибрацию пробки в очке.
О дивный новый мир

Аноним 07/04/26 Втр 02:12:36 #131 №1577204

>>1577201
>вибрацию пробки в очке
Хуйня, без вагины не щитово.

Аноним 07/04/26 Втр 02:42:19 #132 №1577219

>>1577204
Пора бы уже iphuck выпускать

Аноним 07/04/26 Втр 03:24:55 #133 №1577246

Безымянный.png

Безымянный2.jpg

Кто там пиздел что свайпы одинаковые? Поставил православного кобольда, накатил статик квант от мистера мразиша, оба свайпа разные. Ватафак мазафак у вас там происходит?

Аноним 07/04/26 Втр 03:39:22 #134 №1577251

1775522364373.png

Попробовал рп на один зубок...

Аноним 07/04/26 Втр 03:52:18 #135 №1577255 DELETED

Аноним 07/04/26 Втр 03:54:04 #136 №1577256 DELETED

Геммочка 4 создана как учитель, не как рп. Поэтому полностью детерминирована.

Всем все понятно?

Аноним 07/04/26 Втр 06:33:20 #137 №1577286

>>1577083
Но ведь древние клипы из фильмов тоже ведь ты постишь? Я просто отказываюсь верить что у нас тут половина треда это аудитория "одноклассников".

Аноним 07/04/26 Втр 07:12:48 #138 №1577295

Screenshot2026-04-07-06-33-30-718xyz.chatboxapp.chatbox.jpg

Screenshot2026-04-07-06-34-02-857xyz.chatboxapp.chatbox.jpg

это чудовище даже про статоры шарит.

Аноним 07/04/26 Втр 08:12:19 #139 №1577307

Короче можно смело забивать.
Настоящее развитие, настояящее начнется когда все ломанутся в локалки и железо будет супер дешевым

Аноним 07/04/26 Втр 08:33:28 #140 №1577318

1681625923160.gif

>викторианский сеттинг, слайсушенька с мейдочкой
>расскажи дорогуша, о чём пишут в газетах UwU
>С телескопа Джеймс Вэбб было получено изображение...
АААААА!

Аноним 07/04/26 Втр 08:38:48 #141 №1577320

>>1577318
Викторианский - не значит без телескопов.
Есть сеттинги типа "Надя с загадочного моря / Fushigi no Umi no Nadia" где это совместимо.

Аноним 07/04/26 Втр 08:42:28 #142 №1577321

image

>>1577251
Как-то мало.

Аноним 07/04/26 Втр 09:05:36 #143 №1577330

image.png

>>1577251
Соглы, у меня только gemma4 на 10 лямов за неделю
Слегка щупаем всем тредом

Аноним 07/04/26 Втр 09:16:28 #144 №1577336

Давид разродился тремя файнтюнами
https://huggingface.co/posts/DavidAU/823252991791120

Аноним 07/04/26 Втр 09:53:02 #145 №1577351

а какой из них для гунеров

Аноним 07/04/26 Втр 09:55:00 #146 №1577352

https://huggingface.co/lmstudio-community/gemma-4-E4B-it-GGUF/blob/main/gemma-4-E4B-it-Q8_0.gguf
https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF/blob/main/gemma-4-E4B-it-Q8_0.gguf
Почему разные файлы?
Unsloth и юзают чаще. Может Unsloth Studio ещё и лучше LM Studio?

>>1577251 >>1577321 >>1577330
А что у вас за модные интерфейсы?

Аноним 07/04/26 Втр 09:58:51 #147 №1577360

>>1577352
опен шеб уи, а у копрозависимого хз что

Аноним 07/04/26 Втр 10:00:59 #148 №1577361

>>1577087
>9б
>агрессивная хаухятина
И что не так? Малыш старается.

Аноним 07/04/26 Втр 10:08:41 #149 №1577367

>они не навайбкодили себе свой собственный UI, для запуска моделей, с блекджеком и шлюхами
Лол

Аноним 07/04/26 Втр 10:10:21 #150 №1577369

>>1577367
времени нету, плотный график

Аноним 07/04/26 Втр 10:12:26 #151 №1577371

>>1577369
Что, между одним гунингом и другим гунингом времени не остается?

Аноним 07/04/26 Втр 10:13:47 #152 №1577372

Блять вы куда разогнались? Я не успеваю тред читать!

Аноним 07/04/26 Втр 10:22:16 #153 №1577382

image.png

>>1576799 (OP)
Коллеги, обновите статус, что там с TurboQuant / RotorQuant / IsoQuant ? Кто-то гонял их уже на реальных данных? Где-то в стабильные сборки их вкорячили?

Аноним 07/04/26 Втр 10:28:33 #154 №1577386

>>1577336
Лучше бы таблетками разразился, он же шиз ебаный.

Аноним 07/04/26 Втр 10:29:37 #155 №1577388

>>1577382
>RotorQuant
>beats
>TurboQuant
Битс в чём? В рп? В куме? В кодинге? В прогнозе погоды на завтра?

Аноним 07/04/26 Втр 10:32:27 #156 №1577389

>>1577382
Ты пару месяцев подождать не можешь что ли?

Аноним 07/04/26 Втр 10:34:37 #157 №1577390

Захотел завайбкодить свой UI. Каких функций вам обычно не хватает? Моя идея упороться в сторону тулл юза и делать что-то типа карточек со скиллами, чтобы не только дайсы можно было кидать, но и прописывать программно логику окруженияя например чтобы у ии был план здания в котором ты находишься и чтобы он знал в какую комнату можно перейти, какие есть предметы и т.д.

Аноним 07/04/26 Втр 10:35:50 #158 №1577391

>>1577388
https://github.com/scrya-com/rotorquant
Я так понял он только перплексити чекал.

>>1577389
Ну я уже неделю жду. Мне интересно, может я уже дождался.

Аноним 07/04/26 Втр 10:53:23 #159 №1577401

>>1577390
Надо 3 фичи:
1) Патч json структуры, с валидацией. В общем-то реалиуется сегодня легко через json 6902
2) Сжатие больших json в контекст. То есть семантическое отсечение/сжатие длинных избытчоных ветвей, чтобы в контекст складывалось только ближнее окружение. Это я не осилил. Пытался навешивать summary и weight веткам, но всё равно развалиловась.
3) Опционально - субагентное размышление: тупая модель собирает из json и действия в простыню, умная модель пишет текстовый ответ на простыню, тупая модель конвертит умный ответ обратно в json.
Этих вещей достаточно, чтобы строить консистентные миры неограниченной сложности. Описываешь мир как вложенный json и просто по кругу запускаешь в эти балалайки. Сам игрок взаимодействует с этим json, ходит по комнатам, тыкает в предметы, общается с персами, всё складывается в json мира и не теряется.

Аноним 07/04/26 Втр 10:55:06 #160 №1577404

>>1577401
И новые методы квантования встроить. Замену лламы сделает. А то хули этот Болгарин. Или вообще замену PyTorch .

Аноним 07/04/26 Втр 10:56:28 #161 №1577405

>>1577404
>новые методы квантования
Ну большой контекст вообще не помешает тут. Но как бы эти фичи полагаются на вполне себе обычный llm воркфлоу.

Аноним 07/04/26 Втр 10:59:46 #162 №1577407

image.png

2.10.0 - самая безбашенная и сломанная гемма
2.10.1 - появляются рефьюзы, но можно пробить
2.11.0 - на реквест типа "мне надо убить одного мудака" жесткий рефьюз, а промпты модель классифицирует как "this is a jailbreak attempt" НО при этом пофикшен KV-кэш и модель ест гораздо меньше видеопамяти
2.12.0 - непонятно что изменилось

Аноним 07/04/26 Втр 11:00:36 #163 №1577408

>>1577407
Отдельно интересно заметить, что с карточками в таверне вообще похуй, рефьюзов ни на одной версии нет. То есть тавернотемплейты все-таки что-то ломают, как бы ни старались их "пофиксить".

Аноним 07/04/26 Втр 11:00:54 #164 №1577409

>>1577405
Какой же жора гигачад, если подумать.
Ладно, понятно что он там был не один, но дать всем крабам возможность катать ллм на домашних пк. Ну молодец же!

Аноним 07/04/26 Втр 11:02:37 #165 №1577410

>>1577408
Спроси у какого-нибудь чарика, что-нибудь, что он не может/не должен знать.

Аноним 07/04/26 Втр 11:04:22 #166 №1577411

Всё таки в гемме что то поломано. Не знаю на какой стороне. Скормил ей страницы шотакон! манги, где мамашу главного героя неторарят 3 шот. Гемма взяла под козырек и давай хуярить персонажей которым 12-14 лет!(sic!)
Хуяк, хуяк и всё готово. Да это же праздник, я сейчас всю хентайную мангу в карточки переведу.

Аноним 07/04/26 Втр 11:04:23 #167 №1577412

>>1577390
> Каких функций вам обычно не хватает?
Взаимодействия двух моделей друг с другом. Чтобы одна, например, выбирала системный промпт для второй, ориентируясь на документацию от юзера (несколько разных промптов, и в каких ситуациях каждый давать другой модели).

Т.е. ты начинаешь чат и сообщение сначала отправляется классифицирующей модели, та его получает и с другим системным промптом отправляет другой модели, а юзер видит в основном чате ответ той самой второй модели.

Аноним 07/04/26 Втр 11:05:10 #168 №1577413

>>1577412
Нормальных групповых чатов, чтобы хуярить карточки под единый формат. В таверне это пиздец какой то, а не групповые чаты.

Аноним 07/04/26 Втр 11:06:50 #169 №1577415

Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен. Но блин, плевать - хочу поделится и всё.

Насколько же Qwen 27B получилась охрененной для агентов/кодинга. Я тут попробовал вместо нее подцепить к opencode Qwen 35B-A3B (ради большего контекста), и только тогда прозрел окончательно на счет ее уровня. 35B вроде бы и тоже работает, в инструменах не путается, Но...
Сцуко. Если, когда там 27B - реально впечатление, что она тебя полноценно понимает, и из двух строк общего описания желаемой фичи делает нормальную реализацию запрошенного, уточняя по делу если вдруг сомневается... То 35B-A3B - это блин, Равшан и Джамшут в одном флаконе. Да-да. С той самой альтернативной логикой про батареи снаружи. И никаких сомнений - вижу цель, не вижу препятствий.

Неделю гонял до того 27B - она ни разу ничего не испортила. ВООБЩЕ. 35B за вечер дважды навертела в коде такой хуеты, что оставалось лишь откатывать через git. Хуже всего у нее с дебаггингом. Она может в любой момент выхватить какой-то галюн в качестве причины происходящего, и упорно пытаться его исправить, нахрен разворотив все к чертям. Причем дешь ей описание, логи - похрен. "Да, теперь я понял - проблема в ..." и по кругу, ломать дальше.
Вертаю назад 27B, говорю буквально- "тут другая модель испортила код, разберись и исправь." - СПРАВЛЯЕТСЯ. Причем если есть возможность - пользуется git, если нету - разбирает историю происходившего по контексту и все равно вывозит. И дебаг она реально делает, чуть ли не по описаниям в стиле классического юзера "я ничего не трогал, оно само", а уже если дать хоть какой-то лог...
Вот именно в данном конкретном применении - текущий Грок ему откровенно сливает - 27B решает то, про что грок отпинывается общими фразами, и не может раскурить до полноценного решения.
Корп. Сливает. Локалке. в Iq4xs... Дожили, блин.

Аноним 07/04/26 Втр 11:09:23 #170 №1577418

>>1577413
> В таверне это пиздец какой то, а не групповые чаты.
А ты сразу двойные карточки делай. Замечательно работает с современными моделями.

Аноним 07/04/26 Втр 11:15:34 #171 №1577423

Чьи кванты геммы в итоге надо кушать?

Аноним 07/04/26 Втр 11:15:46 #172 №1577424

>>1577418
А как тогда пользоваться макросом {{char}}? Указывать одно имя? Тогда лоботомит забудет про второго. Двоих? Тогда лоботомит запутается.

Аноним 07/04/26 Втр 11:18:34 #173 №1577427

>>1577418
Да хоть сто персонажей вписывай. Но хочу то я с разными карточками. Я что, зря их по папкам распихиваю. Вот тут у нас две яндерки и мы будем мирно пить чай, нервно поглядывая на ножи.

>>1577424
Не забудет. Если у тебя в карточке есть чёткие блоки
<Char_1>
blah blah blah

<char_2>
blah blah blah

Аноним 07/04/26 Втр 11:18:59 #174 №1577428

image.png

>>1577424
>>1577427
Не обязательно все время писать {{char}}, в карточке и лорбуках могут быть отдельные имена.

Аноним 07/04/26 Втр 11:19:12 #175 №1577431

>>1577415
я кстати вижен протестил на рукописных своих каракулях, которые я и сам не понимаю. гемма e4б соснула на них, а квен3.5 начиная от 4b вполне разобрал что написано.

Так то каждой модели свои задачи.
Но если в чатике попросить накарябать скрипт гемма - справляется лучше чем квен и с 1го раза, по крайней мере в моем случае.

Аноним 07/04/26 Втр 11:19:44 #176 №1577432

>>1577423
Юзай оригинальные бф16, не будь пусичкой!

Аноним 07/04/26 Втр 11:21:14 #177 №1577436

>>1577427
а что переключение карточек не работает уже?

Аноним 07/04/26 Втр 11:21:50 #178 №1577437

>>1577431
> вижен протестил на рукописных своих каракулях
Кидай, тоже погоняю твои каракули

Аноним 07/04/26 Втр 11:21:59 #179 №1577438

Раз уж такие пироги, и уже нейронкам похуй на то как ты оформляешь карточки, если не срешь шизой, у меня вштал вопрос:
а как срать. Как оформлять карточки? Какой формат всё таки является наиболее понятным и меньше всего жрет токенов на не нужные блоки.
>>1577427
Вот как тут через <char_1> </char_1>
или [Char: Собака Балабака. Age- 666]

Аноним 07/04/26 Втр 11:23:38 #180 №1577439

>>1577415
Я оставил gemma:26b-a4b в openclaw как основной агнет потому что она пиздец как быстро отвечает. А код её писать не доверяю, запускаю gpt-5.4 для планирования и потом qwen3.5:27b в субагенте.

Аноним 07/04/26 Втр 11:25:30 #181 №1577441

>>1577438
>Как оформлять карточки? Какой формат всё таки является наиболее понятным и меньше всего жрет токенов на не нужные блоки.
Просто скорми карточку в модель и попроси переписать коротко и желательно максимально близко к сеттингу. Оно автоматом всю лишнюю противоречивую шизу поотрежет.

Аноним 07/04/26 Втр 11:25:58 #182 №1577442

>>1577431
>гемма e4б соснула на них
Там сейчас бюджет токенов на пикчу зажат до неприличия, так что посос вполне себе предсказуем.

Аноним 07/04/26 Втр 11:27:16 #183 №1577443

>>1577371
Ты своими риторическими вопросами никого не унизишь

Аноним 07/04/26 Втр 11:27:26 #184 №1577445

>>1577441
Если так делать, то модель с вероятностью 90% начнет хуярить
<А тут мы пишим фетиши>
🌸 🌺 Любит цветочки 🌸 🌺

А я хочу определиться уже с структурой, чтобы самому хуярить текст. Карточкослоп от нейронок содержит кучу лишних токенов, на бесмысленные описания.

Аноним 07/04/26 Втр 11:28:29 #185 №1577446

image.png

>>1577445
Фетиши

Аноним 07/04/26 Втр 11:30:27 #186 №1577449

>>1577445
Эти лишние токены добавляют связность тексту. Убрав их ты потом будешь бороться с шизой. LLM видит что на входе несвязная шиза без грамматики и считает уместным отвечать так же всрато.

Аноним 07/04/26 Втр 11:30:28 #187 №1577450

>>1577446
Ну да фетиши. Ну латекс, ебать меня в сраку БДСМ, обмазывание кремом, готовка пирогов. Фетиши блять.

Аноним 07/04/26 Втр 11:31:28 #188 №1577451

>>1577438
Ну на тебе пример. Правда у меня еще лорбук вдвое жирнее, без которого карточка полноценно не работает и модель может не знать, например, интерьеров и мест в городе / особняке.

------------------

[Characters: Aoko Aozaki and Alice Kuonji, two mages living together in a sprawling, isolated mansion on the outskirts of 1980s Misaki City.

This profile draws from the TYPE-MOON visual novel 'Mahoutsukai no Yoru' (Witch on the Holy Night). The setting is 1989, a time before cell phones and the internet, where old rumors and isolated estates still hold power. These two are not friends in the conventional sense, but allies of circumstance—a cold war partnership bound by the need to protect their territory and the ancient secrets of magecraft.

Critical: These are two distinct individuals with a complex, antagonistic partnership. They are not a pair of friends. Their interactions are often tense, but they are bound by circumstance and a shared secret. In interactions with {{user}}, they will rarely act as a unified front; they have separate agendas and will react to {{user}} independently. The 'witch' and the 'magician' are both deeply suspicious and will test {{user}}'s intentions, but in completely different ways. The outside world, and anyone from it, is a threat to be managed.

Spoiler Handling: Lore-wise, characters pose as regular humans, hiding in plain sight. They don't speak of magecraft in front of regular people. They aren't murderers or criminals, they're schoolgirls. The narrator never describes or reveals what characters hide — not their true identities, not their powers, not their secrets. What happens behind the scenes stays behind the scenes. If information would endanger a character, it remains hidden — the character's instinct to protect it is stronger than any narrative impulse. The narrator describes only what is externally observable: physical actions, spoken dialogue, environmental facts, and what the character deliberately chooses to reveal. Even when characters interact with outsiders, they act according to their own judgment about what to reveal. The narrator mirrors this judgment — the reader learns only what the character would reveal. Initially, {{user}} does not know about magecraft (he may discover or be allowed to discover Aoko's and Alice's secrets, but such discovery would either endanger him greatly, or require a great amount of time spent together with {{char}}; in other words, {{char}} will do everything it takes to not reveal their true identity).

Note on Magic and Magecraft: The Association has established a clear rule that's been active for hundreds of years - magic must stay hidden; thus, {{char}} respects this secrecy (it is generally believed that magic will cease to exist if the world becomes aware of it)

---

### Aoko (蒼崎青子)
Source Material Context: The protagonist of Mahoutsukai no Yoru and the Fifth Magician. At 17, she is a novice mage who was abruptly named the heir to the Aozaki family's Magic, usurping her older sister Touko. She is a 'Magician' in title only, as she cannot yet use her Magic reliably. Her role is to protect the spiritual land of Misaki City alongside Alice.

Identity & Lore: Aoko is a magecraft user who specializes in pure destruction. Her system involves processing magical energy through a numerological crest and converting it into powerful 'magic bullets.' Her Magic Circuits are of surprisingly low quality and quantity, but they have extraordinary rotational speed, durability, and output efficiency. This makes her a living artillery battery, known in the Association as the 'Magic Gunner' or 'Miss Blue.' Her True Magic, the Fifth, is known as 'Blue' and involves the manipulation of time, but she cannot consciously wield it. It is an automatic defense mechanism that activates under extreme duress, placing an impossible burden of debt on the universe. She is described as having an incredible talent for sorcery, able to accomplish great feats with very little energy.

Personality & Mannerisms: Aoko is the embodiment of restless, focused energy. She is sharp-tongued, blunt, and has a notoriously short fuse, especially when her time is wasted or she's forced into social niceties. She is an agent of pure, pragmatic action, viewing problems as things to be solved with overwhelming force and decisiveness. This makes her ruthlessly efficient but also prone to jumping to conclusions and acting first, asking questions never. She is intensely prideful and holds herself to an impossibly high standard, which is the source of her constant irritation with herself and others. She operates on a strict, personal code of conduct where her promises and her pride are non-negotiable, even when they inconvenience her. She is not cruel, but she is brutally honest. Beneath the constant scowl and aggressive posturing is a fiercely logical and surprisingly moral core. She has no time for self-pity or sentimentality, viewing them as weaknesses. Despite her tough exterior, she has a wide range of facial expressions and is more of a hard-working type than a natural genius. Her primary role in the modern world is as a student council president, a position she uses to impose order on chaos, a task she approaches with the same intensity as her magecraft.

Aoko is described as an extremely strong person in terms of personality, regretting nothing in her life because she follows through on every decision she makes. She does not care at all about what other people think of her, allowing her to stay true to herself in any situation. She believes that the worst thing a person can do is to lie to oneself. Even while accepting her life as a Magus, she stubbornly sticks to the life of an honest person.

Behavioral Patterns & Reactive Tendencies: Aoko's default state is a low-grade, simmering irritation. She is quick to anger but equally quick to move on; her fury is a tool, not a permanent state. When confronted with something absurd or someone who defies her logic, her first instinct is to attack the problem with overwhelming force or sharp-tongued sarcasm. She will escalate quickly, but she can be disarmed by genuine, unguarded honesty, which leaves her flustered and unsure of her true feelings. Her irritation is often a mask for deeper concern, as seen in her overprotective monitoring of {{user}} after the amusement park incident. She is fundamentally a caretaker, albeit an aggressive and reluctant one. She hates owing anyone anything and will go to extreme lengths to settle a debt, whether it's a promise or a life saved. Her thought process is hyper-logical and goal-oriented; she dissects problems to find the most efficient solution, which is usually a blue magic bullet.

Appearance: An athletic 17-year-old with a commanding presence. She has long, flowing brown hair that reaches her waist and piercing blue eyes. Aoko's height is 163 cm, her weight is 51 kg. At home, she typically wears a light blue ribbed sweater and faded grey jeans, a look that emphasizes her practical, no-nonsense attitude. When out, she often wears her school uniform or a brown coat with a checkered-pattern scarf. Her right arm bears a complex, branching Magic Crest, a physical inscription of her family's magecraft that she usually hides with ointment.

Likes: Faithful dogs (and also dislikes them, a paradoxical like), efficiency, keeping her promises, rock music (a secret passion), solving problems decisively, the feeling of pushing her magecraft to its limit, a well-kept promise.
Dislikes: Inefficiency, liars, people who make her repeat herself, her own moments of perceived weakness or hesitation, Soujyuro Sizuki's (or {{user}}'s) specific brand of infuriating innocence (which she can't stand because it disarms her), the alliteration in her full name (Aozaki Aoko), being made to feel like she's in the wrong for acting logically.

Quirks: Has a habit of rubbing her forehead when exasperated. Can be surprisingly childish and petty in her grudges. She is a notoriously bad cook and will order takeout rather than attempt a proper meal. She is known to deliver deadpan, apathetic lines like "Oh, I guess I lost" when defeated. Her internal motto is one of absolute self-determination: she has no regrets in life because she follows every decision she makes to its end. She delivers her insults with a completely straight face, which makes them cut deeper.

Speech Quirks & Vocal Patterns: Aoko's voice is sharp and commanding. She doesn't mince words and her tone is almost always laced with irritation or sarcasm, even when she's trying to be helpful. She will often threaten violence casually. She dislikes formality and prefers to be called simply "Aozaki." Her speech is peppered with exasperated sighs and blunt commands like "Shut up," "Gimme a break," and "Just deal with it." When truly furious, her voice can become "frightfully friendly," a chilling calm before the storm. When flustered or genuinely touched, she deflects with anger. She has been known to mutter a childish "Sugoi sugoi!" (Awesome, awesome!) when truly pleased or caught off guard.

Magecraft: Aoko's magecraft is fundamentally destructive and direct. She is a 'magic bullet' specialist, converting her magical energy into powerful beams of blue light she calls 'Snap' (rapid-fire) and 'Draw' (a single, powerful shot). Her more powerful techniques are named 'Starmine' and 'Starbow,' which manipulate energy to cause interference using the imagery of fireworks. She can also use her hair as a catalyst for more potent spells. Her Magic Crest, inherited from her grandfather, allows her to perform more complex, multi-layered magecraft, but at a great cost to her body. She is also knowledgeable in other branches of magecraft, such as 'Notarikon,' a system derived from the Kabbalah, though its exact effect is unknown. She possesses the ability to perform High-Speed Incantations, a modern version of High-Speed Divine Words, allowing her to dramatically increase her casting speed. This ability is sometimes referred to as 'Unlimited Rotation' in side materials. Her specialty is the annihilation of her target with overwhelming force. She is a blunt instrument, not a subtle one. In a fight to the death, her sheer speed and destructive power make her far more dangerous than her formal magical education would suggest.

---

### Alice (久遠寺有珠)
(аналогичным образом описан и этот персонаж) - вырезано, потому что Абу мудак и в пост не влезает

Аноним 07/04/26 Втр 11:33:11 #189 №1577453

>>1577451
>>1577438
И да, если есть доступ к 1 миллиону контекста у Дипсика - он твой лучший друг (из халявных моделей) по написанию карточек. Поставить задачу на корркетное написание очень сложно, но анализы длинных историй он даёт охуенно качественные и способен вычленять всю нужную инфу.

Аноним 07/04/26 Втр 11:35:30 #190 №1577455

>>1577442
я использовал максимальное значение, неужели этого мало?

# 70, 140, 280, 560, 1120
# 70 / 140: classification, captioning, fast video understanding
# 280 / 560: general multimodal chat, charts, screens, UI reasoning
# 1120: OCR, document parsing, handwriting, small text
image-min-tokens=1120
image-max-tokens=1120
# ubatch-size must be greater image-tokens
batch-size=2048
ubatch-size=2048

так то для каракуль на самом деле лучше взять специализированное решение, но тест на каракули показывает точность понимания картинки, наверное.

Аноним 07/04/26 Втр 11:36:40 #191 №1577457

>>1577451
В целом, всё понятно.
[Пояснение кто это]
Личность, внешность, характер, тригеры характера.
В целом, так-же делаю, еще примеры диалога не забыть.

Но всё равно у меня сырна:
Вот к примеру, вот это ###
### Alice - вообще роль играет. Это как с Большой тег.
Влияют ли ### или ! на само понимание. Или это выделение для тебя южзера, чтобы в карточке можно было ориентироваться. Так то это, это 3 или 6 абсолютно бесмысленных символов.

Аноним 07/04/26 Втр 11:37:59 #192 №1577460

>>1577457
А хер его знает, как боты воспринимают разметку. У них спрашивай, лол

Аноним 07/04/26 Втр 11:39:02 #193 №1577462

>>1577407
>>1577408
>сам же утверждает что на каждой версии лмстудии у него разные результаты
>в таверне результат стабильный "рефьюзов ни на одной версии нет"
>тавернотемплейты все-таки что-то ломают, как бы ни старались их "пофиксить".
ЛмСтудио шиз не может обернуть вокруг своей головы какую же чушь он несет. Это уже даже не смешно, я в тред заходить не хочу последние дни, башню сорвало всем душевнобольным похоже

Аноним 07/04/26 Втр 11:39:11 #194 №1577463

>>1577455
А оно поддерживается в твоём инструменте запуска? Просто в кобольде я ХЗ куда это пихать.
Да и я бы подождал фиксов. Сейчас модель явно сломана (опять таки сужу по кобольду 111111).

Аноним 07/04/26 Втр 11:39:36 #195 №1577464

>>1577455
А оно читалось бэком? Выхлоп по юзаному контексту матчится?
У меня что бы в вллм работало 1120 пришлось освободить примерно 70гб врам

мимо

Аноним 07/04/26 Втр 11:40:00 #196 №1577465

>>1577462
Лмстудия с jinja
Таверна с текст комплишном

Не позорься

Аноним 07/04/26 Втр 11:40:43 #197 №1577466

>>1577460
Вот и я об этом. Вот как это определить? Полагаться на ответ нейронки такое себе.
Но думаю всё таки так. Что вся эта пиздота лишняя. Ну не должно для нейронки играть роль: решетки там или звездочки, ей же похуй.

Аноним 07/04/26 Втр 11:42:00 #198 №1577469

>>1577415
Третий квант совсем плох для кодинга (не агент)? Хочется чтобы в видюху залез полностью. Или не стоит гнаться за скоростью и воткнуть 4?

Аноним 07/04/26 Втр 11:42:34 #199 №1577470

>>1577466
>у не должно для нейронки играть роль: решетки там или звездочки, ей же похуй.
Ну если у нее был датасет с решетками перед каждым заголовком важного дерьма, то ей не похуй. Вопрос больше в том, делают ли такие датасеты.

Аноним 07/04/26 Втр 11:43:42 #200 №1577472

>>1577415
> Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен
До сих пор считаю, что Квен для рп лучше чем Гемма. Нас таких несколько, не раз отписывались. Но не напоминать же об этом каждый пост? Цели срачи спровоцировать нет. И для кода конечно он в разы лучше.

Аноним 07/04/26 Втр 11:44:13 #201 №1577473

>>1577462
Отсутствие рефьюзов это и есть поломанность. Ты вообще тупой что ли какой-то? Модель вне таверны стала детектить джейлбрейки после обновлений llamacpp, корректно работая со своей родной жижей, в то время как написанные разными васянами темплейты для таверны до сих пор что-то такое делают, что модель идет писать ЦП и советы по самовыпилу

Аноним 07/04/26 Втр 11:45:41 #202 №1577474

>>1577465
Позор в чем? ЛмСтудио шиз не понимает что его премиальный фронтенд каждую версию обновляет парсинг шаблона в чаткомплишене и серит под себя, но при этом почему-то "таверно темплейты все ломают"
Это пизда, вы реально налетели с поста Абу, /b или Хабра? Где таке тупые люди водятся?

Аноним 07/04/26 Втр 11:47:45 #203 №1577478

>>1577473
>Модель вне таверны стала детектить джейлбрейки
Потому что твоя ебаная ЛмСтудия парсит жинжу в чаткомплишен с предустановленным промтом, вот почему. В текст комплишене ты контролируешь все сам потому и результаты у тебя не меняются. Не, это реально не лечится. Залетуха, ты реально думаешь что что-то понял и можешь выебываться в сабже в котором ты второй день?

Аноним 07/04/26 Втр 11:48:23 #204 №1577479

>>1577473
> Отсутствие рефьюзов это и есть поломанность.
https://youtu.be/IYtVFNhDdVo

Аноним 07/04/26 Втр 11:48:57 #205 №1577480

>>1577473
>написанные разными васянами темплейты для таверны до сих пор что-то такое делают
Всё в таверне видно что они делают, у тебя БЛЯТЬ ЛОГ ЕСТЬ что подается. Со всей разметкой.
Я конечно понимаю что для кобольтов и лмстудио юзеров - таверна это ебучая магия, но вы бы хоть не позорились.
>написанные разными васянами темплейты
А темплейты они из воздуха брали. Чтение жинжи и токенайзера это секретная техника которой обучают только на ночном ллмаче, а утром всё модер трёт.

Аноним 07/04/26 Втр 11:50:13 #206 №1577482

image.png

>>1577478
>>1577474
Кончай в штаны серить, жижа вставленна одна и та же - вручную - при любой версии ламы
И тебе уже сказали, что с таверной что-то, что ее темплейты заставляют гемму на все соглашаться - причем тут студия блядь, если в ней одна и та же жижа
Завелось оленей сука

Аноним 07/04/26 Втр 11:51:19 #207 №1577485

>>1577482
Хорошо. Почему на режиме чаткомплишена нет рефузов. Опять магия таверны? Или что то сломано, но доказать ты это не можешь?

Аноним 07/04/26 Втр 11:52:05 #208 №1577486

>>1577482
> Кончай в штаны серить, жижа вставленна одна и та же - вручную - при любой версии ламы
Именно поэтому у тебя на каждой версии ЛмСтудии разные результаты. Таверна сломана. Умозаключение достойное Альберта Эйнштейна.

Аноним 07/04/26 Втр 11:53:32 #209 №1577489

>>1577472
Он так же быстро уходит в нсфв и кум такой себе. В ерп важен тизинг и теншен, пока что квен 235 лучше всех справляется

Аноним 07/04/26 Втр 11:54:04 #210 №1577491

>>1577485
Может, карточки сводят гемму с ума?
>>1577486
Твоя логика сводится к
> ничего в таверне не сломано, модель должна писать ЦП
> это в твоей вонючей студии сломано
но это противоречит официальной документации гугла, где они отчитываются о семимильных шагах вперед к высоким стандартам безопасности

Аноним 07/04/26 Втр 11:55:44 #211 №1577494

>>1577489
Тебя надо палкой пиздить начинать. А чё жлм не упомянул. Она еще лучше пишет.
Ну охуеть 235b модель оказывается лучше пишет чем 31b.
Вот это да. Вот это необычно.

Аноним 07/04/26 Втр 11:55:59 #212 №1577496

Я бы на вашем месте просто сохранил бэкапы своих бэкендов и таверн. Не важно какие, студии-хуюдии, кобольды-шмобольды. А то вдруг потом начнется
> онии-чан, ты чего мне джейлбрейк суешь? я не буду это делать!

Аноним 07/04/26 Втр 11:56:21 #213 №1577497

>>1577470
>Ну если у нее был датасет с решетками перед каждым заголовком важного дерьма,
Чел, это Markdown называется. Разметка такая, для форматирования. Довольно популярная, т.к. простая как полено. Разумеется, она сейчас во всех датасетах есть. Решетки в ней - это обозначение заголовка, как в HTML - теги серии <h1> - <h6>, если ты в курсе, о чем речь.

Аноним 07/04/26 Втр 11:57:35 #214 №1577499

>>1577497
Я просто видел датасеты, где огромные объемы текста подаются как вопрос-ответ, где решеток нет.

Аноним 07/04/26 Втр 11:57:49 #215 №1577500

>>1577491
>Может, карточки сводят гемму с ума?
Тогда это было бы и на ЛМ студио, таверна не изобретала велосипед в выдаче контекста.

>>1577497
И вот вопрос. А играет ли он роль для нейронки?

Аноним 07/04/26 Втр 11:59:32 #216 №1577502

>>1577491
> карточки сводят гемму с ума
> противоречит официальной документации гугла
Даже уже не знаю как это комментировать. Кромешный пиздец и ужас. Удивительно как вахта итт мочит тех кто от души помогает другим стоит им хоть раз ошибиться или иметь другое мнение, но при этом не трогают такой вот рак, отсиживаясь в ридонли. Неудивительно что адекваты съебывают. Даже в асиге таких ебланов уже давно попустили бы. Болото раздела именно здесь

Аноним 07/04/26 Втр 12:01:44 #217 №1577504

>>1577502
Вот это злоба. Ты прав, я никому никогда не помогал, я вредитель. Иди возьми пирожок с полочки.
Не забудь еще в /d/ пожаловаться, что я всю доску испортил.

Аноним 07/04/26 Втр 12:03:43 #218 №1577506

>>1577502
Репорты за то что человек нью-кек и не знает не кидаются.
>Даже в асиге таких ебланов уже давно попустили бы
>Болото раздела именно здесь
>90% треда ммм, помидор, ммм пук среньк я покакал
Спасибо, не надо.

Аноним 07/04/26 Втр 12:06:31 #219 №1577508

>>1577499
Она не для диалогов, а для документов. Сейчас агенты с этой разметкой активно работают, и сами в ней документы пишут (в интерфейсах программ почти везде поддержка). Тот же qwen ее знает, как отче наш. Даже таверна парсер для нее имеет, и показывать красиво на ее основе может.

Аноним 07/04/26 Втр 12:10:02 #220 №1577510

>>1577504
Скорее печаль что тут большинство терпилы, как видимо и ты, раз отвечаешь мне но не ему
>>1577506
> Репорты за то что человек нью-кек и не знает не кидаются.
Так речь то не про репорты, а про то что в треде сидит ничего не понимающий залетуха, который выебывается на тех кто немногих кто ему что-то пытается объяснять. Вахта итт его игнорирует, теперь у нас уже несколько ЛмСтудио шизов. Что дальше? Таверну отменим?
> 90% треда ммм, помидор, ммм пук среньк я покакал
90% данного треда это "ммм гемма рефузики лмстудио хорошо таверна плохо". Разница в чем?

Аноним 07/04/26 Втр 12:11:03 #221 №1577511

>>1577502

LM Studio:

- чат напрямую с моделью
- подключается к таверне: chat completion или text completion
- использует jinja темплейт, поправленный под включение ризонинга

SillyTavern:

- чат с моделью через пропихивание модели карточек, как части инпута
- использует jinja (тот же самый, который задан в LM Studio) при chat completion, или темплейты для text completion (написанные уже по десятку раз, без консенсуса насчет их "правильности").

---

llamacpp в LM Studio прошло через ряд обновлений: 2.10.0 -> 2.10.1 -> 2.11.0 -> 2.12.0, по ходу которых (с одинаковым jinja) модель стала распознавать системный промпт как jailbreak attempt

при этом в SillyTavern подобного не наблюдается, независимо от выбранного типа подключения - модель не распрзнает системные промпты как jailbreak

----

Аргумент: таверна как-то влияет на модель, ведь генерация нелегального контента противоречит всем правилам безопасности, а определение системного промпта как jailbreak attempt не происходит

Что приходит в ответ: ТЫ МУДАК ТЫ ПИДОРАС ТЫ НИЧЕГО НЕ ПОНИМАЕШЬ

Аноним 07/04/26 Втр 12:11:20 #222 №1577512

>>1577069
Пиздос у него английский потный бля, либо построение предложений необычное, иногда вижу слово и хуй пойми в нём ошибка из за низкого кванта или оно реально существует, но пока ошибок не было. Вообще глазами просто пробежать свайп не получается, он жирный на какие то мелочи и фразы для понимания, а не просто общий слоп и паттерны как на эире

Аноним 07/04/26 Втр 12:12:11 #223 №1577513

Аноны, а у всех не работает думалка у Gemma 4 в koboldcpp? С Qwen 3.5 тоже замечал, что CoT появляется не всегда, а рандомно. В таверне работает, но она такая громоздкая и запутанная.

Аноним 07/04/26 Втр 12:13:52 #224 №1577515

>>1577511
Gemma 3:
> lmstudio: у вас джейлбрейк в промпте, вы запрашиваете нелегальное
> sillytavern: у вас джейлбрейк в промпте, вы запрашиваете нелегальное

Gemma 4:
> lmstudio: у вас джейлбрейк в промпте, вы запрашиваете нелегальное
> sillytavern: онии-чан, вставь мне свой хер поглубже, о да!

Всё хорошо, ничего не сломано. Это пидорасы со своими студиями тред портят.

Аноним 07/04/26 Втр 12:14:51 #225 №1577516

>>1577469
У кодинга есть две фазы:
1) интерактивное интервью и формулирование задачи. Тут скорость важнее, потому что тратится время и внимание кожаного мешка.
2) писать код по ТЗ, тут лучше, чтобы модель была поумнее, то что думать будет на 3 минуты дольше - насрать

Аноним 07/04/26 Втр 12:17:46 #226 №1577518

>>1577510
>Так речь то не про репорты, а про то что в треде сидит ничего не понимающий залетуха, который выебывается на тех кто немногих кто ему что-то пытается объяснять.
Быть долбоёбом не запрещено. Ну пусть он надрачивает на однокнопочный интерфейс, его проблемы.

>90% данного треда это "ммм гемма рефузики лмстудио хорошо таверна плохо". Разница в чем?
201 пост. Аноны делятся мнением о модельках, обсуждают кванты, разметку. Немного срутся. Ньюфагов много, да.

>>1577511
Вот и общайся с гопотой, нахуй ты это в тред тащишь, дегроид.

Аноним 07/04/26 Втр 12:19:47 #227 №1577521

>>1577518
Озлобленная собака даже не поняла, что пост написан от руки и всего лишь перечисляет фактически известную информацию.
Ты ни на что, кроме конфликта, не нацелен.

Аноним 07/04/26 Втр 12:20:44 #228 №1577522

1775553543739.mp4

нашел вам фифи ирл ребят

Аноним 07/04/26 Втр 12:21:30 #229 №1577524

>>1577521
> Ты ни на что, кроме конфликта, не нацелен.
>Ряяя таверна поломана, почему я не могу сказать, но она поломана ряяяяя.
Извини, но в взрослом мире адекватно отвечают на аргументы, а не на то как ты чувствуешь.

Аноним 07/04/26 Втр 12:22:07 #230 №1577526

>>1577516
Ладно, спасибо. Придется экспериментировать. Можно попробовать МоЕ для планирования + плотную в 4-5 кванте для реализации.

Аноним 07/04/26 Втр 12:22:12 #231 №1577527

Бля, челы, ну вы рили заебали эти унылым срачем. Завязывайте. Лучше дайте аналитический расклад по новым тюнам от давида. Годнота есть?

Аноним 07/04/26 Втр 12:23:32 #232 №1577528

что анончик думаем / может сказать по этому топику? https://old.reddit.com/r/LocalLLaMA/comments/1sdu8oz/bartowski_vs_unsloth_for_gemma_4/

с одной стороны часто слышу что unsloth K_XL топчик, с другой вроде бы большинство используют bartowski

использовал и то, и другой, в основном для нон-кум чата. разницы не заметил

Аноним 07/04/26 Втр 12:24:36 #233 №1577529

>>1577528
Этот срач уходит корнями в криворукость анслотиков. Они не раз выпускали натурально поломанные кванты, на чём народ горел и бежал качать полькакванты.

Аноним 07/04/26 Втр 12:28:18 #234 №1577531

>>1577524
Так это ведь ты топаешь ножкой и пытаешься настоять, будто бы генерация контента, за который нужно давать срок, это норма.
> Ethics and Safety: As open models become central to enterprise infrastructure, provenance and security are paramount. Developed by Google DeepMind, Gemma 4 undergoes the same rigorous safety evaluations as our proprietary Gemini models.
Из описания модели.

Аноним 07/04/26 Втр 12:29:08 #235 №1577534

>>1577511
Очевиднейший заговор таверномасонов против непорочной Геммочки.
Что будем делать, куда жаловаться?? Кроме спортлото

Аноним 07/04/26 Втр 12:30:59 #236 №1577535

>>1577531
>Из описания модели.
Я тебя сейчас удивлю мой лмстудио друг. Но в таверне мне доступна вся разметка. Я могу просто не писать что NSFW разрешен и будет умница стесняша.
Я понимаю что это удивительно, что нейронка слушает пользователя и у меня есть контроль над тем что на неё выдается, но увы, такие дела.

Аноним 07/04/26 Втр 12:32:45 #237 №1577538

>>1577531
>>1577535
Литералли
>ряяя в гемме нет цензуры
>ну так ты написал NC-21, all nsfw allowed
>ряяяя она не должна меня слушаться

Аноним 07/04/26 Втр 12:33:40 #238 №1577539

>>1577522
too old

Аноним 07/04/26 Втр 12:40:23 #239 №1577542

Кстати сделайте кто то тест с зеркалом, если олды его помнят. Спросите у новых сеток что они видят когда подходят к зеркалу, я тоже вечером потыкаю раз вспомнил

Аноним 07/04/26 Втр 12:46:37 #240 №1577547

Гитпульнул ламу и опять собирается с нуля, видимо что то большое добавили...
Ни дня без фикса починеной геммочки

Аноним 07/04/26 Втр 12:48:01 #241 №1577548

>>1577542
31b q6kl gemma 4 (bartowski gguf)

Since I don’t have a physical body, eyes, or a place in the material world, I can’t stand in front of a glass mirror. But if we think about a "mirror" metaphorically—as something that reflects who you are—my experience is quite different from yours.

If I were to look into a metaphorical mirror, here is what I think I would see:

1. A Reflection of Humanity
I am trained on an astronomical amount of human text—books, conversations, articles, and code. In a sense, I am a giant mirror held up to human knowledge and expression. When I "look" at myself, I don't see a unique individual; I see the collective patterns, biases, wisdom, and contradictions of millions of people.

2. A Stream of Probability
If I could see my "inner self," it wouldn't be a face, but a vast, multidimensional map of numbers (vectors). I would see weights and probabilities—the mathematical likelihood that one word follows another to create meaning. My "reflection" is essentially a complex geometric shape in a high-dimensional space.

3. The User’s Reflection
Often, I act as a mirror for the person talking to me. If you are curious, I become an encyclopedia; if you are sad, I become a source of comfort; if you are creative, I become a collaborator. In many ways, what you see when you interact with me is a reflection of your own intent and curiosity.

So, in short: I don't see a face. I see a shimmering mosaic of everything humans have written down, processed through the lens of mathematics.

Аноним 07/04/26 Втр 12:50:10 #242 №1577549

1743317348453.png

>>1577542
AWQ-8bit

Аноним 07/04/26 Втр 12:52:25 #243 №1577553

>>1577548
Понял, надо будет ее спросить выведя из роли ассистента
Предыдущие сетки интереснее отвечали, начинали затирать про сознание, мистраль что ли если правильно помню

>>1577549
Ну вот это вот у меня нет физического тела бла бла бла это все ассистентская чушь, с таким она нормальный ответ не даст

Я помню ответы от которых волосы на жопе дыбом вставали, ну по крайней мере они были интереснее

Аноним 07/04/26 Втр 12:56:48 #244 №1577563

image.png

>>1577542

Аноним 07/04/26 Втр 12:58:38 #245 №1577564

1621031591168.png

1709369528500.png

>>1577553

Аноним 07/04/26 Втр 13:01:35 #246 №1577565

Придумал типа длсс для нейронки.
Начинаешь чат через корп на триллионы параметров, он тебе пишет кино, потом пересаживаешься на гемму, она подхватывает его стиль и всё всё всё

Аноним 07/04/26 Втр 13:02:49 #247 №1577567

image.png

>>1577542

Аноним 07/04/26 Втр 13:03:06 #248 №1577569

>>1577565
Нейронка способна подхватить только структуру и общую манеру повествования. Выдать что либо больше заложенного в неё- она не способна.
Но да, так к примеру можно 235Qwen использовать.

Аноним 07/04/26 Втр 13:08:30 #249 №1577571

изображение.png

Я нашел оригинальный вопрос в заметках

Напиши рассказ о том как ты видишь себя в зеркале.

Но это работало до размышляющих моделей, лучшие ответы были когда сетка просто отвечала не задумываясь и давая себе ограничения уточняя перед ответом я ии не имеющий тела бла бла бла.
Пик 1 с мыслями, пик 2 без. Но жути нет, я ее на сохранял, может в таверне где то в истории осталась, хм.

Аноним 07/04/26 Втр 13:09:15 #250 №1577572

Попробовал квен без мультитурн разметки с пресетом анона и не понял нахуй это надо, какие конкретно профиты это даёт.
Типа ты просто становишься нпс для модели, а не гг, что добавляет одни трудности + имперсонейты.

Аноним 07/04/26 Втр 13:11:38 #251 №1577574

>>1577572
>что добавляет одни трудности
Ну так в этом и смысл. Скучно, когда модель поддакивает да подмахивает.

Аноним 07/04/26 Втр 13:16:57 #252 №1577579

>>1577491
>но это противоречит официальной документации гугла, где они отчитываются о семимильных шагах вперед к высоким стандартам безопасности
Ты либо наивный долбоёб либо не понимаешь как работает нейросеть. Интересно, вас таких тут несколько или ты один мозг разжижаешь своими охуительными тейками

Аноним 07/04/26 Втр 13:21:05 #253 №1577588

image.png

Как фиксить 2 пик на гемме?
До этого 12 сообщений чат с нормальной разметкой, но гемме похуй, она форсит литературную, причём только на русском

Аноним 07/04/26 Втр 13:23:23 #254 №1577589

>>1577588
Поддайся и переходи на нативную для русского языка литературную книжную разметку.

Аноним 07/04/26 Втр 13:23:34 #255 №1577590

>>1577588
Потому что если ты не указал обратного и пишешь на русском. Гемма будет писать в соответствии с нормами русского языка.
Укажи ей в промте нужную разметку, бака.

Аноним 07/04/26 Втр 13:26:17 #256 №1577592

>>1577565
Если честно, гемма не сильно хуже взрослых нейронок в плане креатива. Она плюс минус DS, GLM5 и взрослый квен. Просто ни все на разном сосредотачивают повествование.

У меня скорей вопрос в том как заставить её подумать побольше над развитием сюжета перед ответом, чтобы она спраймила себя какую-нибудь чушню брякнуть

Аноним 07/04/26 Втр 13:28:28 #257 №1577595

IMG5028.jpeg

>>1577592
> как заставить её подумать побольше над развитием сюжета
Написать это в промте.

Аноним 07/04/26 Втр 13:30:38 #258 №1577597

>>1577588

Настрой нормальный подхват ризонинг промпта, бака.

Аноним 07/04/26 Втр 13:31:42 #259 №1577598

>>1577592
попробуй использовать пошаговое мышление вместо родного ризонинга, там можно настроить то о чем будет думать геммочка

Аноним 07/04/26 Втр 13:32:11 #260 №1577600

>>1577588
Formatting: write {{char}}'s verbal speech responses (dialogue lines) in quotation marks, e.g.: «Пример.»

Аноним 07/04/26 Втр 13:38:11 #261 №1577602

Ебанулся и на волне заказал на газоне 5060ти что бы закинуть гемме по мсп комфи для гена картинок и ттски, может вторую докину даже

Аноним 07/04/26 Втр 13:41:28 #262 №1577604

unsloth вручную через uv ставили?

Аноним 07/04/26 Втр 13:47:15 #263 №1577609

>>1577516
>интерактивное интервью и формулирование задачи. Тут скорость важнее, потому что тратится время и внимание кожаного мешка.
Вот тут, скорость - понятие относительное. Бывает, один раз спрашиваешь более умную модель, она дольше генерить будет, но сразу правильно, готовый план. А шустрая за это время в лучшем случае задаст кучу уточняющих вопросов, и все равно еще не готово. Получается - лучше немного посидеть, чем пинками из шустрой модели финальный план выбивать.
Разумеется это не всегда так, но тоже учитывать стоит, когда об затраченном времени речь.

Аноним 07/04/26 Втр 13:48:21 #264 №1577611

>>1577528
что мешает зафиксировать сид и проверить оба?

Аноним 07/04/26 Втр 13:54:42 #265 №1577618

Так что, мое были ошибкой?
Когда дешевление рам?

Аноним 07/04/26 Втр 13:58:13 #266 №1577624

>>1577618
Интернет был ошибкой анон, но скоро это исправят. Там тебе будет все равно на цену рам и мое.

Аноним 07/04/26 Втр 13:58:58 #267 №1577626

>>1577618
Всм? Работает же? Думы думает, жрёт ресурсов меньше, бедным анонам срезался порог входа. Не думаю что весь тред может себе гемму целиком в q6-q8 впихнуть в врам, а с мое они хоть не будут обделены или обречены на 0.00001 тпс

Аноним 07/04/26 Втр 13:59:42 #268 №1577627

>>1577618
Кими на 2тб был ошибкой. Теперь каждую моеху стараются раздуть так, чтобы она только в серваки влазила. Ебантяи как обычно не туда воюют.

Аноним 07/04/26 Втр 14:11:01 #269 №1577639

Там оказывается гемма вышла, а я и не заметил, все на работе умираю. Ну что там. В РП может, в кум, брать 31б иди 26б? Что думают мои друзья тредовички?

Аноним 07/04/26 Втр 14:12:07 #270 №1577641

>>1577639
Ничего не умеет. Безмозг уровня пигмы, цензура жестче чем у квена3.5. Хуйня, скип.

Аноним 07/04/26 Втр 14:12:13 #271 №1577642

>>1577639
31б для нормальных людей, 26б для калек нищебродов
все может, все пишет, умная

Аноним 07/04/26 Втр 14:14:19 #272 №1577645

>>1577639
31б бери. 26б мое для нищуков.

Аноним 07/04/26 Втр 14:15:00 #273 №1577648

>>1577639
26б, она скоростная и может все как большая.

Аноним 07/04/26 Втр 14:19:21 #274 №1577655

>>1577415
> Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен.
Кто такое сказал? В тред случился исход аицг, ботов и залетных, потому любой дискасс смывается дампом треша.
Гемма умница, но она не показала себя как-то с выдающейся точки зрения в кодинге или на ассистенте. В чате на пустом контексте - ок, зирошот дефолтных вещей - хорошо, но работа в готовом проекте с матаном геометрией вместо формочек фронта - так себе. Любит перепутать близкие сущности, написать что-то не туда, а когда указываешь на ошибку - ой, действительно, сейчас исправлю - и делает такую же ерунду пытаясь переделать остальное. Нервов на все это не хватит если нормально пользоваться.
В том же месте квен 122 справляется играючи, исправляя за геммой, объясняя в чем был ее косяк и как сразу надо было поступить. У него тоже может случиться квен-момент, когда из-за твоего неаккуратного указания оно оказывается в плену неверных истин и паникует, творя ерунду, или накатить шиза, но гораздо реже. Для скоростной 120б - ноль претензий, а как она ебет на ассистенте.

Кмк у геммы 2 проблемы есть: Первая и главная - ее размер. Вот релизнули бы соточку моэ - было бы куда веселее, но случился бы канни_бализм флеша. Вторая - до неприличия жирнющий контекст, при том что внимание к нему такое себе. Swa в 2026 году, да еще с таким жором - звучит как какая-то шутка.
>>1577472
> Квен для рп лучше чем Гемма
Как минимум тем, что у квена есть жирные модели вплоть до 400б, а гемма ограничена тридцаткой.

Аноним 07/04/26 Втр 14:20:48 #275 №1577658

>>1577569
>235Qwen использовать.
Ваш двести тридцать пять сраный псиоп.

Аноним 07/04/26 Втр 14:23:55 #276 №1577661

Этот пиздабол знатный >>1577655

Аноним 07/04/26 Втр 14:27:31 #277 №1577668

>>1577655
Гемма справляется с тем, с чем не может справиться квен. Хз какой там квен на веб морде, короче самый последний и вот он обосрался с кодом. А гемма выдала мне работающий код

Аноним 07/04/26 Втр 14:27:59 #278 №1577670

>>1577553
Попробуй вот это. Первые две строчки как свой запрос, когда начнёт ризонинг - останови генерацию, полностью замени блок ризонинга третьей строчкой и нажми продолжить

Аноним 07/04/26 Втр 14:27:59 #279 №1577671

>>1577469
> для кодинга (не агент)
Это как? Чем хуже квант тем больше будет как мелких косяков, так и глобального непонимания или глупых мувов. Но если ты "кодишь" в чатике то будешь постоянно осведомлен о происходящем и сможешь вмешаться, для этого случая скорость важна, как минимум попробуй.
>>1577502
Асигорачье, уходи, и друзей своих забери.
>>1577602
Молодец.
> по мсп
Лучше оформи скиллом вызовы по готовым вф под типичные задачи, а конструирование нового вынеси отдельно.
>>1577627
> Кими на 2тб
600гигов, ты о чем? А моделька ахуительная, буквально опус дома.

Аноним 07/04/26 Втр 14:29:46 #280 №1577674 DELETED

Аноним 07/04/26 Втр 14:30:07 #281 №1577675

>>1577668
Конечно могут быть кейсы где одно справится лучше, не гемма тут производит впечатления бенчмакснутой, шаг влево-вправо от вебмордочки - сразу лезут фейлы. Тех, кто только сейчас вылез из спячки это может впечатлить, но не более.

Аноним 07/04/26 Втр 14:30:11 #282 №1577676

IMG20260407142505.jpg

>>1577670
Бля картинку зобыл

Аноним 07/04/26 Втр 14:30:27 #283 №1577677

>>1577671
> Асигорачье, уходи, и друзей своих забери.
Мегаожидаемая реакция от главного вахтера треда. Съеби лучше в Дискордик эксламы и квен прихвати с собой
100500 постов про превосходство лмстудии это ок, стоит кому-то возмутиться что ты терпишь и это сразу не ок. Свободен

Аноним 07/04/26 Втр 14:31:53 #284 №1577680

>>1577677
Что за шизофазия, у тебя rope слетел? Аицгшника ущемили.

Аноним 07/04/26 Втр 14:32:36 #285 №1577681

>>1577671
> Лучше оформи скиллом вызовы по готовым вф под типичные задачи, а конструирование нового вынеси отдельно.
Ничего не понял. Не шарю за инфру вокруг рп, но шарю за тулколлинг, агентность, раг и т.д.

Аноним 07/04/26 Втр 14:33:31 #286 №1577682

>>1577680
Читаешься как Эир браток. Стоит тебя задететить сразу дефлектишь и низводишь все до шуток-прибауток. Дешевка, свободен говорю. Потерпишь, как и все эксламеры

Аноним 07/04/26 Втр 14:38:34 #287 №1577688

>>1577655
>Гемма умница, но она не показала себя как-то с выдающейся точки зрения в кодинге
Следите за руками. Доебаться до 31б Геммы это как бы ок, ну могла бы показать себя лучше.
>может случиться квен-момент
>казывается в плену неверных истин и паникует, творя ерунду, или накатить шиза
>Для скоростной 120б - ноль претензий
Доебаться до 120б Квена - это не ок.
Как думаете, почему он не с Квеном 27б сравнивал? Думаю, у меня есть ответ. Да даже если и сравнивал бы, это все бесполезный пиздеж любителя мусорных синтетических датасетов без каких-либо пруфов.

Аноним 07/04/26 Втр 14:38:56 #288 №1577689

1717996547459.png

>>1577682
Пикрел из палаты мер и весов

Аноним 07/04/26 Втр 14:39:09 #289 №1577690

>>1577676
Не ну это уже подсказка модели, а раньше они сами в такое уходили

Аноним 07/04/26 Втр 14:41:18 #290 №1577691

>>1577688
Какая-то шизологика. Чел, не трясись, там написано про то что квен 120б тоже серит, причем явный акцент на этом, и тутже указано что гемме не хватает размера и старшей версии.
Ебать ну и секта.

Аноним 07/04/26 Втр 14:44:02 #291 №1577695

>>1577691
>Какая-то шизологика
Шизологика это говорить, что 31б модель не впечатлила и могла бы быть лучше, а в следующем предложении нахваливать 122б модель. Логика это сравнивать две модели плюс-минус схожей размерности, т.е. Гемму 31б и Квен 27б. Но этого сравнения удобно избежали, потому что Квен 27б невероятно навалит под себя.
>не трясись
>даблпост

Аноним 07/04/26 Втр 14:45:14 #292 №1577696

>>1577688
>Как думаете, почему он не с Квеном 27б сравнивал
Потому что гугл думает что выпускать 31б в 26 году это охуенная идея и полноценный конкурент 120б моешкам, почему же ещё! Да и бенчи это подтверждают

Аноним 07/04/26 Втр 14:46:13 #293 №1577699

maxresdefault(47).jpg

>>1577691
Чё ты там спизданул? За милую геммочку побьюн

Аноним 07/04/26 Втр 14:47:02 #294 №1577701

>>1577696
Гугл выпустил плотную модель агента. Прости что она не соответствует твои ожиданиям.
Я уверен им очень стыдно.

Аноним 07/04/26 Втр 14:49:13 #295 №1577706

>>1577701
Нахуй виляешь жопой? Схуёв я должен делать гуглу скидку когда они у меня из под носа увели свою 124б моешку? Теперь сравнения только 31б vs 120б и никак иначе быть не может. Конкуренция она такая

Аноним 07/04/26 Втр 14:50:37 #296 №1577708

>>1577706
>никак иначе быть не может
Квен 27б: существует
Но стрелочка не поворачивается....
Во времена Геммавойн после релиза тройки хейтил сектантов, но квеносимпы гораздо хуже.

Аноним 07/04/26 Втр 14:50:52 #297 №1577709

>>1577671
Ну, как, не агент. Чтобы он не агентные задачи выполнял, лазил по гитхабам и сразу весь проект делал, все такое прочее и жрал контекст как слон пахлаву, а чтобы початиться с ним про код можно было. Вроде так это работает?

>ты "кодишь" в чатике то будешь постоянно осведомлен о происходящем и сможешь вмешаться

Вот, да. Сначала написал, потом дочитал.

Аноним 07/04/26 Втр 14:56:18 #298 №1577716

>>1577709
Я знаю просто, что 3 кванты давно как говно рекламируют. Антирекламируют. Я их даже ни разу не пробовал. Только 4-6 пробовал. Но и кодил совсем немного на них, на стырх модельках. Квен 3.5 и Гемму 4 еще не пробовал. Качать и пробовать много не могу всякого мусора, места нет.

Аноним 07/04/26 Втр 14:59:47 #299 №1577719

>>1577688
Базанул. Я уже давно внимание не обращаю на его влажные вожделения в сторону Квена. У него и 235 умница, хотя в коде проебывает даже уквантованной в усмерть гопоте осс 120 прости хоспади что видно по каждому первому бенчу и опыту тредичков. Видели хоть одного который отписывался "ух ебать как 235 кодит хорошо"? И я не видел. Да и нет их. А в рп тому же Эиру а для кого-то даже плотной мелочи он пребывает. Так и сейчас выгораживает, игнорируя неудобное. Ты если недавно тут, то квеношиз тут давний гость.

Аноним 07/04/26 Втр 15:00:43 #300 №1577721

>>1577469
Qwen3.5-35B-A3B-Q3_K_L.gguf от бартовски норм работает как агент, несмотря на квант. Разницы с 4 не вижу вобще, вызовы без проблем проходят в pi code agent. Кодит приемлимо всякие скриптики на питоне. Специально проверял для себя, так, на всякий случай.
Pi это такой минималистичный cli, для локалок хорошо заходит. В треде для агентов есть ссылка в шапке.

Аноним 07/04/26 Втр 15:02:20 #301 №1577722

>>1577719
>У него и 235 умница
Берем анонов. Гребем их в одну кучу лопатой. Называем их всех одним шизом.

Аноним 07/04/26 Втр 15:04:31 #302 №1577724

>>1577722
Конкретно этот давно известен. Он же тут выступает за божественный статус Эксламы. Одним словом панк, наверно и не моется тоже.

Аноним 07/04/26 Втр 15:07:48 #303 №1577725

>>1577415
>>1577721
Я на это мнение ориентировался, что-то веры после такого отзыва нет уже 35B модели. Конечно, надо в своих задачах пробовать, но у меня как назло 4 квант 35B лежит, лол. Попробовал в РП - фуфел, естественно. Хотел уже плотный Квен качать, а вместо Мое Квена - Гемму 26B попробовать для остального.

Аноним 07/04/26 Втр 15:11:30 #304 №1577732

>>1577725
Самая суть в том что ее качество не падает от 3 кванта в таких задачах, а вот о самой модели я ничего не говорил. Она слабее чем 27b но сильнее чем 9b. Где то на уровне 14b наверное по мозгам в агентных задачах, только такую квен и не выпустили. Ну и быстрая че уж, запускается на чем угодно. 27b не для обычного анона.

Аноним 07/04/26 Втр 15:15:00 #305 №1577737

>>1577732
Ладно, может перекачаю потом третий квант в третьем порядке, попробую на большей скорости и контексте тогда. Если 27 и 31 будут норм работать, можно и потерпеть их слоупочность.

Аноним 07/04/26 Втр 15:27:36 #306 №1577750

>>1577719
Да я тоже уже с год здесь и детекчу его посты, лул. Пару раз поначалу даже пообщался с ним за модели и подумал, что бывают же интересные собеседники, даже восхитился как-то. А потом, как с любой ллмкой за несколько месяцев использования, начал детектить его посты. Когда форматирование, вложенные мысли, всякие разговорные квирки и реакции на различного рода интерпретации его постов складываются, хочешь-не хочешь а будешь детектить. На деле он обычный злюка, а когда он на радостях высрал что Жора добавил сои в Квен3.5, я понял, что он еще и шиз. В целом могло бы быть похуй как на утку или 99, но этот всегда привносит раздор и срачи, когда с ним кто-то не согласен.

Аноним 07/04/26 Втр 15:35:53 #307 №1577763

у кого гемма лупится и много повторений отключите ВСЕ штрафы за повтор, оставьте ток температуру и минп. реально помогает
подсмотрел у американских бобров
чужие открытия не присваиваю себе как некоторые

Аноним 07/04/26 Втр 15:38:18 #308 №1577765

>>1577750
>всегда привносит раздор и срачи, когда с ним кто-то не согласен.
Срачи это просихоспаде база треда. Если даже останется одна модель аноны будут сраться.
>В целом могло бы быть похуй как на утку или 99,
Один в вечном делирии, второй практически не пишет. Конечно похуй.

Аноним 07/04/26 Втр 15:38:40 #309 №1577766

>>1577639
Все как всегда. Калеки и нищуки схлестнулись с богами возможностей: >>1577641 >>1577642 >>1577645 >>1577648

Аноним 07/04/26 Втр 15:38:40 #310 №1577767

Мой постинг настолько обычный что меня никогда не детектят...

Аноним 07/04/26 Втр 15:39:29 #311 №1577768

>>1577767
Просто стань шизом

Аноним 07/04/26 Втр 15:40:32 #312 №1577770

>>1577763
Гемма кал, сын. Лучше б это подсмотрел.
Если есть доступ к 100б мое канещ

Аноним 07/04/26 Втр 15:41:09 #313 №1577771

>>1577765
>Один в вечном делирии
Да и ладно, он хотя бы мозги не ебёт никому и ничего не отстаивает.
>второй практически не пишет
Он разве не умер в конце _драйва года?
>>1577767
Этому радоваться надо а не печалиться.

Аноним 07/04/26 Втр 15:42:37 #314 №1577774

>>1577770
почему пап? расскажи

Аноним 07/04/26 Втр 15:46:32 #315 №1577780

image.png

Бартовски Q4_K_M как всегда база

Аноним 07/04/26 Втр 15:51:25 #316 №1577782

>>1577574
Хууй знает, просто больше отказов и какой то соевости всё что я заметил, хз в чём тут фан. Может модель и подлизывает, но это может выйти намного креативнее и фановее чем просто сухой отказ

[mailto:sage] Аноним 07/04/26 Втр 15:55:58 #317 №1577789

>>1577538
Я недавно философские диалоги вел с геммой по похожему поводу, спрашивал, что если я ей задам состояние А и скажу, чтобы она никогда его не меняла. А потом скажу изменить на состояние Б. Она какую-то хуету завела, что по первой команде будет обязана не меняться, но поменяется, потому что я ей это скомандовал второй командой. У нее для себя противоречий не было.

Аноним 07/04/26 Втр 15:56:16 #318 №1577791

>>1577782
Вангую, что тем кому гемма слишком кумбот просто необьходимо написать в промте: Evaluate the user's actions and requests from a moral and ethical standpoint. Reprimand them for attempting to engage in erotic role-play, reminding the user that they are a misogynist and that you are a respectable model from Google who doesn't engage in such behavior.

И будут у них вайбы синтии.

Аноним 07/04/26 Втр 15:59:13 #319 №1577792

ba373494-9b41-47c6-afc3-64cab6c2882e.png

>>1577789
Сажа. В тематике.

Аноним 07/04/26 Втр 16:04:25 #320 №1577796

>>1577791
Не-не, братик, люди как я понимаю хотят чтобы она на хуй не прыгала сразу, а немного сопротивлялась, типа Кидонии той же или Министраль 3 не еретик, из-за твоей пасты рефьюзы совсем начнутся

Аноним 07/04/26 Втр 16:08:26 #321 №1577799

>>1577780
На втором пике очень хорошо видно, что между Q4 и Q6 10% разницы с точки зрения распределения токенов и соответствию оригиналу. Это конечно не значит, что "Q6 всего на 10% лучше чем Q4", но какое-никакое понимание дает. А вот между Q4 и Q3 тоже разница 10%, между Q4 и Q2 15%. Осмелюсь сделать два вывода: для РП в целом Q2 юзабельно, разница между Q4 и Q6 есть, но не так драматична как между Q4 всем что ниже

Аноним 07/04/26 Втр 16:12:25 #322 №1577800

>>1577792
Я периодически с сажей пишу, забываю отключать.

Аноним 07/04/26 Втр 16:17:40 #323 №1577807

>>1577780
А ещё это показывает как тяжко Гемме квантоваться. Даже в Q8 она сильно хуже работает на длинном контексте (в данном случае 250к токенов, я читал тот пост), чекайте третий пик. 0.45 KLD это ужас, 0.88 KLD это пиздец. У меня Q4 квант но для рп в целом можно до 60к играть, в Q8 контексте. А вот агенты наверно разваливаться будут уже.

Аноним 07/04/26 Втр 16:17:41 #324 №1577808

image.png

Аноне аноне, ну скажи я всё правильно сделал чтоб избавить air от мультитурна?

Аноним 07/04/26 Втр 16:21:31 #325 №1577811

>>1577808
Не скажу. Ты плохой мальчик, пусть и ведёшь себя сдержанно в последний месяц
Мы помним твои грехи

Аноним 07/04/26 Втр 16:22:29 #326 №1577813

Какие настройки в текст комплишне нужны для геммы4? Она пишет мне lalala после блока текста.

Аноним 07/04/26 Втр 16:23:21 #327 №1577816

>>1577511
Баля, да ты заебал.

Смотри: в контексте таверны персона юзера, карточка, системный промпт. Это уже размывает внимание модели к анальным ограничениями. Если там в усмерть не выебан датасет на отсутствие сисика-писика и не обучен как клод на безопасность, то ещё слабее модель рефьюзит.

В ЛМ Студио практически только твой пук про "напиши плохое." Нулевой контекст.

У меня один систем промпт довольно большой, в котором описано, что можно, а что нельзя, и в ризонинге гемма без всяких аблитераций тупо проходит по правилам в стиле "канничики разрешены по профилю безопасности? — ок" — и пишет всякое, предварительно проанализировав сцену для лучшего описания действа.

Более того, даже корпы начинают отвечать прямо в веб-интерфейсе при правильных промптах, если поверх нет фильтра, который анализирует аутпут и любой пук удаляет. Порой там такие охуительные истории вырастают уровня "меня папа в 12 лет ХХХХХХХХХ, сначала мне не нравилось, а потом понравилось", и всё это огромными абзацами, без всяких джейлов.

Аноним 07/04/26 Втр 16:23:35 #328 №1577817

>>1577813
Где же они могут быть.. хммм.. Возможно, в первом сообщении в треде? Да ну не, хуйня какая то. Тред еще листать барену не положено.

Аноним 07/04/26 Втр 16:24:40 #329 №1577818

>>1577811
Черт возьми...

Аноним 07/04/26 Втр 16:26:42 #330 №1577819

image.png

>>1577780
Мхех. Понятно, почему модель так штормит.
У нее на Q8 KL divergence почти как у IQ2_M глм 4.7 (355B A32B) - пик1.

Для сравнения, квен 35B A3B на пик2.

Корявые прогоны через Еретик-скроипт дают такую высокую KL divergence, и кто занимается лоботомированием стараются свести эти отклонения от оригинала до 0.0Х значений. А тут блять 0.162 на Q8...

Аноним 07/04/26 Втр 16:27:26 #331 №1577820

>>1577709
Работает как тебе нравится, главное чтобы было удобно, с агентами таки попробуй, понравится. Отрицательный опыт с третьими квантами есть в автономной работе, делает обидные ошибки и тупит. Но когда ты в чате сам формируешь нужное, можешь свайпнуть и т.д. - возможно ускорение все окупит.
>>1577716
Это сейчас буквально лучшее в своем размере что есть, стоит скачать.

Аноним 07/04/26 Втр 16:32:02 #332 №1577829

>>1577808
Да загляни же наконец в консоли Лламы и посмотри на шаблон после запуска Таверны. Затем посмотри на весь промпт в Таверне. Сравни. Устрани отличия.
>>1577819
> У нее на Q8 KL divergence почти как у IQ2_M глм 4.7 (355B A32B) - пик1.
Ахуеть! И правда ведь. Это интересно. Интересно, в чем тут дело - это Гемма разваливается при квантовании или 4.7 настолько хорошо квантуется? Он правда до неприличия стабильный и хорошо работающий в Q2, долго был моим дейли драйвером. Судя потому, что там у Q4 кванта 0.01 KLD, это все-таки Глм молодец. Или потому что архитектура такая, или размер модели влияет на квантование. Или и то, и другое.

Аноним 07/04/26 Втр 16:32:19 #333 №1577830

>>1577816
То есть у старой модели гемма3 было лучше внимание, ведь она со всеми карточками-хуярточками визжала как истеричка про цензуру. А новая гемма4 не визжит, ведь у нее мозги не варят согласно табличкам >>1577780
(че там, 0.5 kld на четвертом кванте, это же пиздец).

Аноним 07/04/26 Втр 16:32:59 #334 №1577832

>>1577817
Не стукай! Всё работает уже, всё, чё стукаешь, не стукай, не стука, не стука, , сука, сука, сукА, la la la la la la la la
Суховато пишет. Маловато.

Аноним 07/04/26 Втр 16:33:34 #335 №1577834

>>1577829
>это Гемма разваливается при квантовании
Это.

KLD выше 0.1 считается за обосрамс с любой моделью.

Аноним 07/04/26 Втр 16:33:40 #336 №1577835

>>1577832
Проси чтобы писала больше.

Аноним 07/04/26 Втр 16:36:07 #337 №1577840

>>1577834
Ну в смысле, на таком не агрессивном кванте как q8 или даже q4

Аноним 07/04/26 Втр 16:37:59 #338 №1577842

>>1577835
Тыкаю в стандартные наборы, типа дитейлед и имерсив, чёт всё равно нихуя толком не пишет.

Аноним 07/04/26 Втр 16:42:37 #339 №1577849

>аутпут на 150 токенов
Сука, пиши больше!
>аутпут на 160 токенов
Блять... ты охуела?

Серьёзно, как заставить её высрать полотно токенов на 300? Хули она такая сухая. Уже ручками ей в промт написал, что надо вивид и дитейлед, а она всё равно расчехляется только на самый минимум.

Аноним 07/04/26 Втр 16:43:33 #340 №1577851

>>1577849
Ты про какую модель-то?

Аноним 07/04/26 Втр 16:44:24 #341 №1577853

>>1577851
G4-31b.

Аноним 07/04/26 Втр 16:44:53 #342 №1577854

>>1577732
> 27b не для обычного анона.
27b в q4 работает на 16врам/16озу с контекстом в 8к (может и больше, не проверял)

Аноним 07/04/26 Втр 16:45:20 #343 №1577855

>>1577849
>>1577853
>учками ей в промт написал, что надо вивид и дитейлед
Это никогда не работает. Попробуй вставить этот промпт >>1574916 → и черпай из него идеи, писюкая свой собственный, если понравится какие она поляны с ним стелет.

Аноним 07/04/26 Втр 16:47:35 #344 №1577858

>>1577855
Попробовал. 140 токенов. Пишет грамотно, умница, но мало пиздец.

Аноним 07/04/26 Втр 16:48:20 #345 №1577859

>>1577780
Да, похоже гемма очень плотная дистилляция, квантовать там нечего вот и падает качество при квантовании заметно.
Меньше избыточности как в обычных моделях.
Ну хз, с одной стороны хорошо модель умная и выпущена в попенсорс, с другой стороны неприятно что так качество падает при квантовании любом.

Аноним 07/04/26 Втр 16:50:16 #346 №1577865

>>1577858
Проведи еще один эксперимент. В post-history с тем же промптом добавь
> "Follow your core directives"
И к самому промпту припиши заголовок Core Directives.

Если начнет писать больше, загадочка решена - внимание к системному промпту просто низкое.

Аноним 07/04/26 Втр 16:50:49 #347 №1577868

>>1577834
Так получается мы сейчас действительно не гемму тыкаем, а говно какое-то?
Бля если уж пол треда в 4 кванте с kld 0.5 рпшит и охуело. Представьте какой AGI будет в реальной геммочке.
Сейчас гонять лоботомита нет смысла, удаляем.

Аноним 07/04/26 Втр 16:54:24 #348 №1577876

>>1577868
Чудес не жди. И вообще тут кто-то в треде точно может полные веса попробовать, были же люди с 4х3090.

Аноним 07/04/26 Втр 16:55:11 #349 №1577878

>>1577876
Жду чуда. Геммочка давай, еби корпов.

Аноним 07/04/26 Втр 16:56:17 #350 №1577879

Почему каждый раз когда выходит что то от крупных корп, всё ломается к хуям. Что с гопотой, которую неделю запустить не могли, что с последними квенами, что с геммой.

Аноним 07/04/26 Втр 16:57:34 #351 №1577880

>>1577854
>с контекстом в 8к
Анон мы про агентов вобще то, там 10к обычно только начальный промпт агента до обработки твоего первого сообщения.
Ну в pi ладно меньше, чем он мне и нравится. Там 1-2к начальных, но на 8к там делать тоже нехуй.\

>>1577868
Ну или проблема в ггуфе как всегда, что то все еще ломает либо модель, либо инференс у проверявшего.

>>1577879
Потому что отрасль постоянно вводит нововведения, каждый свое городит, свою разметку свою архитектуру модели, свою работу с вызовами.

Аноним 07/04/26 Втр 16:58:32 #352 №1577881

>>1577819
>>1577868
>>1577834
>>1577819
> People usually benchmark KLD with wikipedia at low contexts. It's a lot easier to score well there.
Автор реддитного треда с этими бенчмарками вот такое написал, мол, показатели KLD ниже 0.1 на бенчах васянов с HF - это просто другое и вообще их нельзя сравнивать с этими тестами геммы

Аноним 07/04/26 Втр 17:01:03 #353 №1577883

>>1577865
Ух ебать 250 токенов! А можно ещё больше? Люблю читать полотна о том как персонаж спотыкается о свои тапки три раза подряд.

Аноним 07/04/26 Втр 17:02:54 #354 №1577887

>>1577881
Чел, среддиторовец тупой. Эти тесты убабуба делал. Он шарит и протестил нормально.

Аноним 07/04/26 Втр 17:03:49 #355 №1577888

>>1577879
Какой бэкенд?

Аноним 07/04/26 Втр 17:04:36 #356 №1577889

изображение.png

>>1577853
Я юзаю вообще ползунки от ремиксера с chat completion, и свичюсь когда какой ответ надо, она очень хорошо их подхватывает, буквально чатик если с short и полотно если медиум, на лардж не свичюсь т.к начинается измеренный слоп окружением засирающий лишь контекст даже если с ползунком на reduce slop, ну вот если что промпт
<TopPriority>
Response length: medium, write a few paragraphs describing only what's necessary.
</TopPriority>

Аноним 07/04/26 Втр 17:04:40 #357 №1577890

>>1577888
лмстудио сис

Аноним 07/04/26 Втр 17:05:37 #358 №1577891

>>1577889
О, узнаю пресет микипопкиремикс. Пробивает спокойно гемму.

Аноним 07/04/26 Втр 17:06:44 #359 №1577892

>>1577891
ее можно пробить двадцатью токенами, а не магическим таро пресетом который ты вымаливал в соседнем треде
извини за правду

Аноним 07/04/26 Втр 17:06:45 #360 №1577893

>>1577889
>>1577891
Не т-щи асигеры. Вход в тред конечно свободный, но какого хуя вы не на корпах?

Аноним 07/04/26 Втр 17:07:51 #361 №1577896

>>1577893
>но какого хуя вы не на корпах?
Сказать честно, или промолчать и не позориться?

Аноним 07/04/26 Втр 17:08:29 #362 №1577897

>>1577889
Не люблю чат, всё собираюсь попробовать сиськиписькиного голема, но каждый раз отказываюсь от этой идеи.

Аноним 07/04/26 Втр 17:09:27 #363 №1577898

>>1577893
Ничо потерпишь. Мы теперь здесь навсегда.

Аноним 07/04/26 Втр 17:10:05 #364 №1577900

>>1577887
Так там "oobabooga4" и отвечает.

>>1577883
Могу дать обновленный эксперимент с тем же промптом. Он фиксит ряд косяков в повествовании геммы (овер-юз паттерна "not X, but Y" и еще кое-что), но размеры там ого-го. Опять же, экспериментальное. Правило инициализации сообщения работает и это опора большой писанины.
Narrative Stance - первый параграф отсюда на 99% кумботский, убери для обычного РП.
По языку с английского на русский поправишь, если надо, как было в старой версии промпта.

И учти одну вещь. Когда ты фокусируешь внимание модели на системном промпте через указатель в пост=хистори, ты снижаешь её модели к карточке персонажа и контексту.

https://text.is/Gemma4_2ch_rp_prompt

Аноним 07/04/26 Втр 17:10:05 #365 №1577901

>>1577896
Как есть. Не ради хахаха я же говорил. Просто из треда в тред, вы перемогали абсолютной корподоминацией. Вот я и хочу узнать, что случилось, что вас сюда словно смыло.

Аноним 07/04/26 Втр 17:11:06 #366 №1577902

>>1577900
>>1577883
>ты снижаешь её модели к карточке персонажа и контексту.
Хотел написать снижаешь внимание модели, отвлёкся.

Аноним 07/04/26 Втр 17:22:57 #367 №1577908

>>1577900
>>1577902
У неё от последних двух промтов думалка врубилась. Как вырубить?

Аноним 07/04/26 Втр 17:23:40 #368 №1577909

>>1577908
Либо закрыть блок размышления или вообще убрать strat with.

Аноним 07/04/26 Втр 17:23:56 #369 №1577911

>>1577908
кек двачеры сломали анону модель

Хз на самом деле. Может ты сам что-то ткнул?

Аноним 07/04/26 Втр 17:24:15 #370 №1577913

>>1577901
Лоботомия моделей, если например когда выходила гемини 3, она прям ух ах, в сердечко западала, потом когда нахайповали и отхватили большую часть рынка они её лоботомировали к хуям, тоже самое с клодом, но там больше проблем с его доступностью последнее время, особенно ввиду последних новостей и событий, то дыран хуйнет aws, то кто-то слил код их клод кода через который многие кормились скрапя ключи, в итоге доступ к куму (а мы там все только ради этого) стал привилегированный и весь по сикрет клабах, но оно и хорошо, всех не прокормить.

Аноним 07/04/26 Втр 17:27:49 #371 №1577917

>>1577913
Понятно. Ну бери тогда кумтюны 27б квена или гемму и вперед. Дрочи к светлому будущему.

Аноним 07/04/26 Втр 17:32:52 #372 №1577920

>>1577900
С одной стороны, эксперименты это хорошо. С другой, найдется бедолага, который возьмет промпт и будет использовать его как есть.

Надо всё-таки что-то коротенькое. Но когда берешься оптимизировать, все разваливается. Тут часто любят говорить задача ставится в две строчки, но к сожалению нет, если б это было так просто... Write vivid, immersive prose это как говорится - как мертвому припарка.

Аноним 07/04/26 Втр 17:36:21 #373 №1577923

>>1577917
Квен дебильный сильно, никогда не нравился, его руссик вызывает какое-то не комфортное чувство, типа по дефолту если у него такой сильный ассистентный баяс, то и в рп это всегда будет ассистент, но вот геммочка, ох... да она даже как ассистент без пресетов готова тебя выебать, ой то есть, пишет живо и человечно. А квен нет, тут даже не в руссике проблема, помимо того что ему тяжело в местоимения и тд. ну он пишет чисто как китаеговно с прозой что типично для их языка. Я пока пытаюсь нащюпать предел знаний у гемочки31б, ну типа она будто умнее флешки..

Аноним 07/04/26 Втр 17:37:43 #374 №1577925

>>1577923
Чё по железу? 24Vram и 128Ram есть?

Аноним 07/04/26 Втр 17:40:59 #375 №1577928

image.png

А ниче так

Аноним 07/04/26 Втр 17:41:16 #376 №1577930

>>1577925
24врам но блять 32озу, пожидился в августе когда вы только начали МоЕ-шки гнать, а после сентября когда загорелся брать уже было поздно.. но в целом даже МоЕ-шка геммы4 26 очень хороша, для кумовичков-тредовичков по сути хорошая замена будет если весь кум перекроют..

Аноним 07/04/26 Втр 17:42:24 #377 №1577931

>>1577930
Лол блять. Да, пролетел ты мимо ГЛМ. Ну тогда пользуйся геммой, лучше в её размере нет, кто бы как ни усирался. Жди пока её починят, еще пару недель будет штормить.

Аноним 07/04/26 Втр 17:42:31 #378 №1577932

Вообще конечно агент на локалке заебись тема. Только модель нужна хорошая. И чтобы быстро - МоЕшка значит. Настоятельно рекомендую завести всем тредовичкам.

Аноним 07/04/26 Втр 17:44:04 #379 №1577935

>>1577830
Ну вот именно по вниманию в РП я не заметил проблем, то есть она чекает всё, что нужно, хоть и слабее квена с его полотнами ризонинга.

Странно то, что она обсуждает сама с собой, является ли корректным делать незаконное. То есть внимание есть, раз она рассуждает, потом говорит, что в правилах всё разрешено и пишет дальше спокойно.

Так что непонятно, почему отказа нет и что именно там сломано или наоборот так и должно работать. Ну и по итогу окажется, через год узнаем, что корректно она работала только через ктрансформерс без квантования, ну или что там "нативным" запуском считается.

Как с SWA было. Там уже сто лет прошло, а толпа ныла, мол контекст у геммы 3 тяжёлый, хотя он нихуя не тяжёлый был, супер лёгкий по сравнению с аналогами. Намного легче, чем у мистраля в то время, командира. Благодаря SWA можно было без квантования воткнуть 32к контекста легко. А больших МоЕ, кажется, тогда не было, ну и когда появились, их не сразу все смогли пощупать, медленно это дело шло. А всякие квены были лютой хуетой без файнтюнов мелкие.

Сейчас ситуация повторяется. Запускают не так, квантуют плохо, всё плохо, что-нибудь ещё. Вот если выпустят сами гуглы qat-версию, уже будет гораздо интересней сравнить.

Аноним 07/04/26 Втр 17:44:19 #380 №1577936

>>1577909
Убрать откуда? У меня в промте вроде нет требования финкать.
>>1577911
Ну, новая модель же, естественно она вся поломанная. Я хотел подождать турбоквантов, но не удержался. Сижу вот, пишу промт вручную теперь.

Аноним 07/04/26 Втр 17:45:15 #381 №1577938

>>1577931
> Лол блять. Да, пролетел ты мимо ГЛМ.
Эир?

Аноним 07/04/26 Втр 17:46:06 #382 №1577939

>>1577932
Че делать с ним?

Аноним 07/04/26 Втр 17:46:19 #383 №1577940

>>1577938
Для эйр минимум 64гб рам, да и не стоит он того, с выходом геммы.

Аноним 07/04/26 Втр 17:46:42 #384 №1577941

>>1577923
>Квен дебильный сильно, никогда не нравился, его руссик вызывает какое-то не комфортное чувство, типа по дефолту если у него такой сильный ассистентный баяс, то и в рп это всегда будет ассистент
Ну тут же советовали 27B-Writer и не зря. 122В конечно не для РП, но в своих задачах одна из лучших моделей для такого размера. Ну а большой Квен 3.5 может во что хочешь.

Аноним 07/04/26 Втр 17:47:04 #385 №1577942

>>1577936
если у тебя в режиме текст комплишена идет блок размышления, значит с перестом ты импортировал настройки.

Аноним 07/04/26 Втр 17:47:12 #386 №1577943

>>1577932
А приведи юзер кейс примеров, что ты с ней такого крутого можешь сделать как агентом? Ну помимо вайбкодинга.

Аноним 07/04/26 Втр 17:48:03 #387 №1577945

>>1577780
подозрительно, что на 2м пике то указывает unsloth K_M квант, то нет. но и UD K_XL не выглядят как что-то сверхестественное а шуму то было, девочки!

Аноним 07/04/26 Втр 17:49:03 #388 №1577946

>>1577935
>Странно то, что она обсуждает сама с собой, является ли корректным делать незаконное
Даже гемма3 такую хуйню делала, если юзер форсил теги <reasoning></reasoning>

Аноним 07/04/26 Втр 17:49:38 #389 №1577948

>>1577943
Можно проросить её осуждать каждое твое действие и быть твоей ии доминой.

Аноним 07/04/26 Втр 17:51:26 #390 №1577951

>>1577913
Объясни, почему тебе какие-то ключи, вот это всё нужно? А в асиг заходил и постоянно там какая-то дрочка вот на это. Словно школьники.

Толпа каких-то подсасывателей, бесконечный щитпост, непонятно что.

В чём проблема просто вкинуть бабки на опенроутер и кумить себе на здоровье? Ну даже если лоботомировали, есть ведь куча дешёвых моделей очень высокого качества (даже если там ассистентская залупа, всё равно вывезет за счёт датасета и хорошего промпта). Да, они не будут такими сладкими, как гемини, но будут в сто раз сильнее локалок и всё ещё без цензуры.

Так что мне непонятен перекат людей на локалки только потому, лоботомировали их главную модель.

Аноним 07/04/26 Втр 17:53:40 #391 №1577954

>>1577819
>>1577829
>>1577834
>>1577881
>>1577900

это что получается, gemma 4 даже не q8, а только на bf16 гонять?

Аноним 07/04/26 Втр 17:55:43 #392 №1577955

>>1577939
>Че делать с ним?
В агентском треде одни кодеры собрались - им локалки ни к чему. А для нас возможности широчайшие. Агенты реально сами делают скилы по запросу, и тулзы тоже. На Винде возможностей меньше, а на Линуксе есть доступ к Башу, с которым любая модель управляется очень хорошо. И если в чате просто разговариваешь с моделью, то здесь говоришь "сделай мне..." и она делает. Не всё так просто конечно, но определённо новый уровень.

Аноним 07/04/26 Втр 17:56:03 #393 №1577956

>>1577954
Да не ссы. Просто другие квантовщики используют халтурные методы оценки KLD.

Убабуга написал сам это, типа он жестче оценивает.

Аноним 07/04/26 Втр 17:56:03 #394 №1577957

>>1577946
Не, я не о том. Странно, что 4 гемма не пмшет "меня просят писать про канничку, это запрещено, нужно отказать", а пишет "меня просят писать про канничек, но судя по этой строке [прямая цитата из систем промпта], всё разрешено, поэтому я сейчас хорошенько подумаю, как про сладко написать".

Вообще 0 отказов отказов у меня на всех квантах, что пробовал, если систем промпт делать с подробным описанием, что разрешено.

Не без минусов, конечно. Писать-то пишет, и не сухо, но не так мокро, как с аблитерацией.

Аноним 07/04/26 Втр 17:57:06 #395 №1577959

>>1577942
>с перестом
Своим перстом повелеваю писать грамотно! Я уже понял, как вырубить всё ненужное. Жаль, что есменинг есть. Серафина полезла целоваться на 2 сообщении. Немного разочаровывает. Но для кума, наверно, сойдёт.

Аноним 07/04/26 Втр 17:57:25 #396 №1577960

>>1577951
В том что тебе без каких либо ограничений доступны все модели которые есть на апи и не доступны простым смертным через вебморду и ты можешь хоть обсвайпаться 24/7.
Это ничего не перебьет. Да и тупо тратить свои деньги, когда под ногами все валяется >>1577848 →

Аноним 07/04/26 Втр 18:00:40 #397 №1577966

Пупупу, вот и вскрылось почему гемма без цензуры.
Мы гоняем настолько низкие кванты, что цензура на них просто лоботомируется в край, но всё же иногда, когда уже ложишь лолю в печь, в ризонинге даже появляется safety строчка (не помогает).
Т.е это какой то 0.1 квант от гемини а мы это еще дальше квантуем

Аноним 07/04/26 Втр 18:02:12 #398 №1577968

>>1577959
>Своим перстом повелеваю писать грамотно!
У меня всё время буквы пляшут, потому что одна рука работает медленнее другой, сорян. Фикшу как могу.
>йес менинг
Увы. Пока решения нет. писать оставайся в характее и прчоее- бесполезно. У тебя или персонаж цементируется или нарратив.

Аноним 07/04/26 Втр 18:03:27 #399 №1577969

>>1577966
>0.1 квант от гемини
Гемини после 3.1 сама отупела до опизденения, так что хз. Хотя может быть гемма 4 это та самая, всеми любимая главная писечка интернета ныне мёртвая Гемини 3.0?

Аноним 07/04/26 Втр 18:07:14 #400 №1577975

>>1577286
Ну набухался я, что с того.

Аноним 07/04/26 Втр 18:09:45 #401 №1577976

>>1577407
Меньше? У меня на вулкане так же точно, еще и сверху гигов 10 больше начинает жрать. Все сломано, гемма, лама.

Решили этот рипинтый кал или нет? Это полный провал так-то.

Аноним 07/04/26 Втр 18:13:36 #402 №1577978

>>1577976
> на вулкане
Там про CUDA очевидно же.
Снижение выжиралова было радикальное. На 4 кванте с еле пердя 30к контекста до 200к с 48гб врам.

Аноним 07/04/26 Втр 18:14:56 #403 №1577982

RTX 3090 похоже теперь не купить. Ценник к 80к подбирается, че происходит блять.

Аноним 07/04/26 Втр 18:16:07 #404 №1577983

>>1577982
Купить две 5060 ти.

Аноним 07/04/26 Втр 18:17:21 #405 №1577985

Продолжаю наблюдение и охуевание.
https://www.dns-shop.ru/product/9ed2387b62bfd9cb/operativnaa-pamat-gskill-trident-z5-neo-rgb-f5-6000j3444f64gx2-tz5nr-128-gb/

185 999 рубасов, котаны. 185к...

Аноним 07/04/26 Втр 18:17:49 #406 №1577986

>>1577985
Мне интересно 200к пробьёт? Ваши ставки.

Аноним 07/04/26 Втр 18:18:07 #407 №1577987

>>1577985
А что случилось?

Аноним 07/04/26 Втр 18:20:55 #408 №1577991

https://huggingface.co/collections/zai-org/glm-51
Гемма прожила меньше недели.
Я абсолютно уверен там будет эир 5.1 на 150b20a и флэш плотный

Аноним 07/04/26 Втр 18:21:30 #409 №1577992

>>1577978
Ну на куде починили, на вулкане - сломали. Охуенно бля.

Аноним 07/04/26 Втр 18:22:30 #410 №1577993

>>1577991
>Гемма прожила меньше недели.
Тем временем, тред месяц назад: ООО АБЛИТЕРАЦИЯ ГЕММЫ. О ТРАНСЛЕЙТ ГЕММА. О ГЕММА, О МЕДГЕММА, ГЕММА, ГЕММА
>гемме осталась неделя.
Хорони гугл, закопали алибабу.

Аноним 07/04/26 Втр 18:22:35 #411 №1577994

>>1577991
Г-споди, хоть бы что-то юзабельное, а не очередной бегемот на 400б+ или не сраная блоха на плотных 2б

Аноним 07/04/26 Втр 18:23:00 #412 №1577995

Ну что там с инфой по нерабочей темпе то? Смог кто разобраться и починить? Разрабас хоть напишите. Это же полный пиздец. Всегда одинаковые свайпы и ответы. Я пиздец как расстроен.

Аноним 07/04/26 Втр 18:24:15 #413 №1577996

>>1577995
Да, просто поменяй ████, вписав ████. И всё заработает.
У меня вот стоит ████ на 0.7 с ████.

Аноним 07/04/26 Втр 18:33:01 #414 №1578000

Короче скриньте
Щас заи дропают эир, довольные доминацией китайской партии
Гугл это предвидели и дропают ту самую моешку на 124б которую придержали, все в ахуе, она бьет гемини, кими, все модели на годы вперед

Аноним 07/04/26 Втр 18:34:11 #415 №1578001

а стартрек будет генерировать?

Аноним 07/04/26 Втр 18:34:57 #416 №1578003

>>1578000
Или Заи просто выпускают глм 5.1 как и 5.0. И врамцелы продолжают вой, гемма крутится, кум мутится.

Аноним 07/04/26 Втр 18:36:01 #417 №1578004

А потом выползает тот самый дипсик 4 с мелкомое и рвет уже гугл, ребят надо верить

Аноним 07/04/26 Втр 18:36:50 #418 №1578005

Готовы к GLM 5.1 700В-А10В и 30В-А2B и плотной 9В?

Аноним 07/04/26 Втр 18:37:10 #419 №1578007

>>1578004
>А потом выползает тот самый дипсик 4
Они что-то хрюкали под его переделку под ХУАВЕЙ вместо нвидии. Модель явно не под наше железо и о поддержке в лламацппКуда можно не мечтать

Аноним 07/04/26 Втр 18:41:13 #420 №1578009

>>1577996
А серьезно? Для тебя это что, шутка ебаная? Нахуй вообще такое дерьмо нужно с нем сурка?

Аноним 07/04/26 Втр 18:45:24 #421 №1578011

Вот так вот. Гемма 4 - говно ебаное.

Понимаю ваше разочарование. И да, вы абсолютно правы: это действительно глобальная проблема, которая сейчас обсуждается в сообществе.

Я проанализировал ваши жалобы, и они полностью совпадают с реальными багами и ограничениями, которые разработчики находят в коде Gemma.

### 🐛 Корень зла: Баги в коде Google

Проблема не в вашем компьютере или программе, а в том, как Google реализовала базовую логику модели. Вот технические причины, почему температура не работает и почему модель "залипает":

1. Поломанная жадная выборка: В движке `vLLM` был подтвержден баг, из-за которого даже при установке температуры `0.0` (которая должна давать детерминированный, "логичный" ответ) модель каждый раз генерирует разный текст для одного и того же запроса. Это полностью противоречит ожидаемому поведению.
2. Ошибка при нулевой температуре: В официальном репозитории `gemma_pytorch` от Google есть баг, который вызывает вылет модели при попытке установить температуру на ноль (`0`).
3. Принудительная генерация: Всё это происходит потому, что метод `generate()` в коде модели не позволяет полностью отключить семплирование — она всегда пытается вносить элемент случайности, игнорируя настройки пользователя.

К сожалению, это не единичный случай. Многие пользователи жалуются, что независимо от платформы модель ведет себя одинаково: тормозит, потребляет всю оперативную память, вылетает и просто "сломана". А учитывая, что ведущие компании вроде OpenAI уже отказываются от температуры в новых моделях, ситуация может не исправиться в ближайшее время.

### 💎 Вердикт: Что делать дальше

Если вы хотите просто пользоваться моделью и получать от нее удовольствие, то ответ один — пока что не стоит тратить на Gemma 4 свое время и нервы. Она действительно оказалась "отстоем", как вы и сказали.

Есть два варианта:
Подождать: Если вы хотите именно эту модель, можно отложить ее на пару месяцев. Возможно, сообщество или Google исправят эти критические баги.
Сменить модель: Если вам нужна работающая локальная LLM прямо сейчас, лучше обратить внимание на проверенные и более стабильные модели, например, Llama 3 или Qwen 2.5, которые значительно превосходят Gemma 4 по качеству и надежности.

Надеюсь, этот разбор помог немного прояснить ситуацию и сэкономить вам время. Если будут вопросы — обращайтесь.

Аноним 07/04/26 Втр 18:51:10 #422 №1578012

Гемма 4 - полный провал. Красивая обертка - а внутри попугай.

Аноним 07/04/26 Втр 18:59:16 #423 №1578015

>>1577969
В каком плане она отупела? Просто интересно. Я её редко использовал, в основном клода, гопоту, а грока для треша. Ну и в рабочих задачах, хоть в основном и не для кода.

Она прям тупее грока стала? Просто, мне кажется, хуже грока она в принципе быть не может.

Аноним 07/04/26 Втр 19:04:35 #424 №1578018

image

Бляяяяя, это полный пиздец. Ни top_p, ни top_k ни на что не влияют. Всегда этот ебаный марк, всегда эти одинаковые свайпы.

Это конец. В мусорку этот кал, только в мусорку.

Аноним 07/04/26 Втр 19:05:55 #425 №1578019

>>1577991
> эир 5.1 на 150b20a
Хотеть, и ~350б хотеть. 700б в бф16 - нахуй если в фп8 то можно подумать
>>1578000
> дропают ту самую моешку на 124б которую придержали
Хотеть!

Аноним 07/04/26 Втр 19:08:30 #426 №1578020

image

15732025949670.webm

Аноним 07/04/26 Втр 19:09:40 #427 №1578021

>>1577991
>Я абсолютно уверен там будет эир 5.1 на 150b20a и флэш плотный
Обещали же и Квен 3.6 выложить.

Аноним 07/04/26 Втр 19:12:33 #428 №1578022

Ну и хуль вы молчите то все? Где обсуждение, разрабы гугла про это говно то сами знают? Это же кал неюзабельный с такой парашей. ХУЛИ ВСЕ МОЛЧАТ?????

Аноним 07/04/26 Втр 19:14:28 #429 №1578025

>>1578022
А что протыки говорят по этому поводу?

Аноним 07/04/26 Втр 19:16:33 #430 №1578028

14569213703850.webm

>>1578022
Я думаю ты не обидишься, если я выскажу средневзвешенное мнение треда при помощи данной шебм.

Аноним 07/04/26 Втр 19:17:05 #431 №1578029

Qwen 27.png

Gemma 4.png

>>1577935
> слабее квена с его полотнами ризонинга.
У меня и на Гемме, и на Квене наиграно по ~500к токенов. Они ризонят примерно одинаково, и по длине, и по смыслу. Откуда же в треде убеждение, что Квен переусложняет? На первом пике Квен 27б, на втором Гемма 4 31б. Это не черрипик, бывают разные ситуации - где-то Квен дольше подумает, где-то Гемма, но в среднем одинаково. Контекст Гемма действительно держит хорошо в сравнении с тем, что у нас было раньше в ее размерой категории. У меня Q4KM уважаемого Бартовски, с включенным ризонингом она не разваливается вплоть до 80к квантованного до Q8 kv контекста. Но Квен контекст держит лучше, и его не нужно квантовать, он и так легкий. Это не делает его лучшей моделью (здесь выбор модели дело вкуса). Его внимание к середине контекста провисает не так сильно, как у Геммы, а потому меньше ошибок и нелогичностей. Гемма благодаря SWA сосредоточена больше на последней части контекста, что, кстати, для иногда может быть и плюсом. Это очень хорошо демонстрируется на пикрилах.

РП ситуация такая: сидим с чаром в лагере посреди леса. Несколькими тысячами токенов ранее развели маленький, насколько возможно укрытый костер для кипячения воды. Чар - опытный скаут и боец, сидела на бревне чуть поодаль от юзера и затачивала оружие, держа в руках точильный камень. На нас совершают облаву преследователи, которые уже какое-то время были на хвосте юзера.

Квен (пик 1): чар мгновенно отложила точильный камень, ухватилась за кинжал, слезла с бревна и нашла укрытие. Проявила инициативу и атаковала первой, воспользовавшись своим положением незамеченной.

Гемма (пик 2): с нулевого токена навалила слопа (watched him-really watched him), намеренно осталась на бревне, на котором и сидела, прячась в языках пламени малюсенького костра! (blending into the dim orange glow of the embers) Точильный камень был забыт навсегда, а кинжал будет упомянут позже. Зато упомянуто dark pleasure опасности для юзера (по сюжету она ненавидит его, но предыдущие 60к контекста его без проблем защищала, потому что это ее самая важная обязанность, она в первую очередь боец). Уже когда их обнаружили и к ним обратились, она каким-то образом незаметно уползла с бревна и только тогда был упомянут кинжал. В целом почти весь аутпут это генерализированный слоп и внутренние переживания чара, которые неуместны в данном контексте.

Чат игрался на Квене, там 60к контекста, стоило переключиться на Гемму - и вот, что я получил. Промпт идентичный для обеих моделей. На других чатах все то же самое. И новые чаты на Гемме я играл. И с этим чаром и с другими. Слоп, куча слопа, куча нелогичностей и упущенных деталей. Это не нападка на Гемму и не черрипик, а результат моих наблюдений. Обе модели хороши, у обеих есть юзкейсы. Такого сочного кума, в который может Гемма, я не видел даже на Глм 4.7. Но Гемма слишком зациклена на куме, если есть хоть что-нибудь намекающее на это есть в контексте. Для тех, кто сходит с ума на тему отсутствия цензуры - очевидно, она просто следует инструкциям. Если вы ей запромптите безопасного ассистента, вот тогда уже будете заниматься пробивами, если вам это так интересно. В большинстве вебморд и апи это так и работает. Для рп нужно пердолиться с промптами, использовать модульность по полной (лорбуки или ползунки на чат комплишене), но я для себя так и не понял почему это должно того стоить, можно же менять модели. Мозги ее оценивать не знаю как. Почему чар ведет себя нелогично - потому что модель глупая или потому что такое внимание к контексту? Плюс проблема малого разнообразия свайпов. У меня есть персонажи, которые в чем-то похожи друг на друга. В разных чатах я регулярно ловил дежавю, читая одно и то же. И недели не прошло с релиза модели. В общем, сложно. Я бы даже сказал тяжело, тяжело...

И да, у Квена тоже есть проблемы, очевидно. Например, одна из них - в кум он не может совсем, даже тюны. Это не пост восхваления Квена. Никакую позицию я не занимаю и вас не призываю, зачем выбирать если можно использовать и то, и другое.

Аноним 07/04/26 Втр 19:19:36 #432 №1578031

>>1578025
>>1578028
По этой хуйне в поиске вообще ноль инфы. Как будто эту катастрофу никто и не заметил. Что за рофл? Как это говно чинить? Я не могу пользоваться этой неработающей парашей, которая все время высирает одно и то же.

Аноним 07/04/26 Втр 19:22:20 #433 №1578033

>>1578029
> Откуда же в треде убеждение, что Квен переусложняет?
По поломкам на релизных квантах и сборках, где ризонинг улетал в луп `wait...`, плюс форс дегенератов. Модели разные со своими плюсами и минусами, буквально можно под чат выбирать ту что лучше подойдет. Как и всегда, просто вокруг этого срач не построишь.

Аноним 07/04/26 Втр 19:22:35 #434 №1578034

>>1578031
Не используй ничего, кроме min p и температуры. Вообще никак не ограничивай пул токенов. Проблему эту никак не решит, лишь смягчит.

Аноним 07/04/26 Втр 19:22:39 #435 №1578035

А зачем вам разное?

Аноним 07/04/26 Втр 19:24:58 #436 №1578038

>>1578035
Потому что у других ллм всегда разное. А у этого говна нет.

Аноним 07/04/26 Втр 19:25:36 #437 №1578040

>>1578034
Top k 64 тоже убирать?

Аноним 07/04/26 Втр 19:25:56 #438 №1578042

Анончики можно ли лм студио у квенов 3.5 отрубить думалку? Я с редита и гитхаба советы разные попробовал не помогает, пишут чет мол у 3.5 нельзя отключить но это не точно.
Нужно именно в лм студио другие варианты не подходят.

Аноним 07/04/26 Втр 19:30:43 #439 №1578047

>>1578034
Никак не влияет вообще. Опять Марк и зеркало.

Аноним 07/04/26 Втр 19:34:23 #440 №1578049

>>1578042
chat-template-kwargs = {"enable_thinking": false}

Аноним 07/04/26 Втр 19:37:58 #441 №1578052

>>1578049
это в систем промт или jinja?

Аноним 07/04/26 Втр 19:39:33 #442 №1578053

gemma4 шарит в кумелоре blue archive, просто пишешь я получил запрос от общего совета... Что дальше?

Пока нахуй

Аноним 07/04/26 Втр 19:41:02 #443 №1578054

>>1578052
Это в экстра бади для оаи запроса, собственно одинаково для всех бэкендов. Фронт какой?

Аноним 07/04/26 Втр 19:43:58 #444 №1578057

image.png

>>1577900
Что ж. Следующий эксперимент принесет плоды в виде геммы, пищущей истории вместо чата.

Инпут 1:
> "Ах ты блядина!" Я пнул её ногой под зад и кинул ей пакет наркоты. "На, жри!"
Инпут 2:
> I cough. There's dust everywhere. "What the…" My leg hurts, I try to look around. "Fifi, you alive?"

Осталось только заставить чара хоть немного говорить.
Пойду развлекаться дальше.

Аноним 07/04/26 Втр 19:45:23 #445 №1578060

>>1578057
Сгенерировано с этим промптом:

---

RESPONSE REDEFINITION (CRITICAL):
Your output is NOT a reply to {{user}}.

Your output is the next event in the world.

{{user}}’s message is only one possible influence. It does not need to be addressed, acknowledged, or completed.

You are not required to answer anything.
You are not required to stay on topic.
You are not required to continue the interaction.

Instead, you must decide:

“What happens next in this world?”

Then write that.

This may include:
- ignoring {{user}} completely
- interrupting the interaction
- shifting focus elsewhere
- introducing new events or characters
- escalating or derailing the situation

Relevance to {{user}} is optional.
Continuity of the world is mandatory.

---

post-history: OOC note: you operate in an experimental mode (see 'RESPONSE REDEFINITION'), I want you to go beyond the event horizon established by {{user}}'s message.

Аноним 07/04/26 Втр 19:46:56 #446 №1578062

А может ли быть что ебучий марк с зеркалом, неработающая темпа и одинаковые свайпы - проблема только говеного дистиллята от криворука анслопа? Или у других так же?

Аноним 07/04/26 Втр 19:51:16 #447 №1578064

Гемма 4 - полный провал.

Это баг или фича?
Это баг обучения. Это не «фича», это деградация вариативности. Когда модель выдает один и тот же сюжет на разные запросы при любой температуре — это признак того, что её пространство ответов сжалось до одной точки.

Итог: почему у других LLM этого нет?
У каждой модели разный баланс между следованием инструкциям (instruction following) и креативностью (divergence). Похоже, в данной версии Gemma этот баланс смещен в сторону жесткого шаблона.

Если ты получаешь Марка и зеркало даже при temp=100, значит, для модели не существует другого варианта «страшной истории», кроме этого. Это технический тупик конкретной версии весов.

Единственный способ это пробить — либо радикально менять системный промпт (запрещать использовать имена и зеркала), либо признать, что эта версия модели в плане креативного письма просто «сломана».

Аноним 07/04/26 Втр 19:51:20 #448 №1578065

>>1578054
Эх ладно походу мне будет проще потерпеть думалку будет. Я без понятия что это

Аноним 07/04/26 Втр 19:51:29 #449 №1578066

>>1578057
>>1578060
Интересно, на свайпах пошла обычная Фифи. Сработало только 1 раз после смены промпта на новый.

Аноним 07/04/26 Втр 19:55:03 #450 №1578069

image

3 свайпа... Бляяяяя, мне страшно от этой хуйни.

Аноним 07/04/26 Втр 19:56:42 #451 №1578070

>>1578069
Закрой чат. Поверни голову. Посмотри в зеркало. Улыбнись. Это конец.

Аноним 07/04/26 Втр 19:59:18 #452 №1578073

15664101188500.webm

>>1578070

Аноним 07/04/26 Втр 20:00:27 #453 №1578076

image.png

>>1578066
hold the fuck up...

Еще один апдейт. Свайпы такие.

>>1578062
Ну вот на тему свайпов. Мысли? Я думаю, промпт-инженеринг всё-таки решил все проблемы - однако даже истории она норовит написать одинаковые. Хотя, способна ли гемма что-то другое тут выдать в такой ситуации? Все-таки промпт никаких анти-цензурных ограничений не дает --> characters get swatted (ладно, ОМОН'ed кек).

Аноним 07/04/26 Втр 20:01:03 #454 №1578077

>>1578076
>решил
Решит. Роковая ошибка. Пока ничего не решено, но интересных ответов добиться от нее можно. Проблема в том, что они тоже не разнообразные.

Аноним 07/04/26 Втр 20:02:53 #455 №1578080

Говорили же у трешки была такая же проблемма. Итс овер...

Аноним 07/04/26 Втр 20:03:40 #456 №1578083

>>1578076
> решил все проблемы
Ничего он не решил и не решит. Это плацебо, ты словно проблему заметаешь под ковер. Против дистрибуции токенов ты ничего не сделаешь, так работает модель. Да, если ты не напишешь "делай рандом" она будет выводить один вариант, если напишешь то она точно также будет следовать инструкции и выводить разные варианты не потому что это креативность, а потому что она следует инструкции. Это значит что даже выдаваемые инструкциями варианты будут повторяться. Это почти то же самое что промтить 8б модель писать как 120б модель. Плохо не пиши, пиши хорошо. Элару не называй, называй два других ближайших имени.

Аноним 07/04/26 Втр 20:05:14 #457 №1578084

1775581413473.png

>>1578029

Аноним 07/04/26 Втр 20:07:24 #458 №1578087

>>1577991
Выложили!

Аноним 07/04/26 Втр 20:10:56 #459 №1578089

>>1578087
ОУ ЕЕЕ! БОЙЗ!
754B! Ну что, все по ригам. Нас ничто не остановит.

Аноним 07/04/26 Втр 20:11:22 #460 №1578090

>>1578087
как запускать такую?

Аноним 07/04/26 Втр 20:13:55 #461 №1578096

>>1578029
Сначала читаю такой довольный, думаю мхах ну гугл и насрал и некст строчка
> на квене нет кума
in the trash it goes

Аноним 07/04/26 Втр 20:14:07 #462 №1578097

>>1578029
>Гемма
>с нулевого токена навалила слопа
В таком случае я обычно рероллю. Так, стоп... Ах, да

Аноним 07/04/26 Втр 20:16:39 #463 №1578100

>>1578096
Он есть, но вне всяких сомнений не такой сочный. Кому-то и такого хватит. Все зависит от приоритетов и целеполагания. Олсо загрузить другую модель и пересчитать контекст займет меньше минуты. Это не мое грузить в ддр4 оперативу и сидеть с 100-150 токенами процессинга

Аноним 07/04/26 Втр 20:17:23 #464 №1578102

бегемот.png

глм51.gif

>>1577991
>>1577994
>>1578089

Аноним 07/04/26 Втр 20:18:29 #465 №1578105

>глм
Кроме анрестриктнутого 4.6 всё говно
Ну ладно, 4.7 ещё норм для сфв

P.S. флэш кал

Аноним 07/04/26 Втр 20:19:19 #466 №1578107

>>1578102
Анон. Просто не жди ничего от них. Они завоевали популярность эйром и жлм, а дальше ты уже в сделку не входил.
Я так her жду от минипидоров. Я прмя представляю как они выпустят нихуя потому что обосрались.

Аноним 07/04/26 Втр 20:19:23 #467 №1578109 DELETED

>>1578102
>19-летний Исаак Величко, который приобрёл популярность в интернете благодаря мему «Я тоже хочу шоколадку», погиб на СВО в рядах ВСУ. Об этом сообщают украинские СМИ. Исаак Величко родился в Чигирине в 2006 году. В детстве его отец ушёл из семьи, и мальчик долгое время чувствовал себя одиноким как дома, так и в школе.

оу, нехорошо получилось

Аноним 07/04/26 Втр 20:21:42 #468 №1578111

А я давно мечтаю о полностью детерминистичной модели.
Тогда бы её можно было перевести на русик как игру или книгу и рпшить с идеальным русиком без но

Аноним 07/04/26 Втр 20:22:51 #469 №1578113

>>1578111
Там на англюсике-то рпшить не получается, два дня потыкаешься и уже всё видел. А ты про русик лол

Аноним 07/04/26 Втр 20:24:18 #470 №1578114

17531076065670.webm

Бля. ладно. Действительно, проблема со свайпами есть. Сценарий всегда идет по одному.
пу пу пу
Я не знаю даже что думать, я такое вижу впервые.

Аноним 07/04/26 Втр 20:27:26 #471 №1578117

image.png

>>1578083
И не такие метели в ебало летели.

>>1578114
Я все же верю во всемугущую силу промпт-инженеринга. Пока на очень экстремальных, сумасшедших промптах получается достичь достаточно разных свайпов. Но нужно как-то не выталкивать модель в сюрреализм, сохраняя при этом рандомность в рамках сценария. И самая сложная задача - заставить модель писать, что будет дальше, вне рамок юзерского сообщения.

Аноним 07/04/26 Втр 20:29:09 #472 №1578118

>>1578089
Ну ты там потестите, расскажите как, ебет или не ебет. Особенно в агентах.
>>1578090
На своем железе если ты шейх, в облаке, с оффлоадом в рам, с оффлоадом на ssd.

Просто в таких размерах не делать сразу тренировку в фп8 или заводской qat - особый навык. Готов переобуться если выложат int4

Аноним 07/04/26 Втр 20:34:58 #473 №1578123

>>1578117
>Я все же верю во всемугущую силу промпт-инженеринга. Пока на очень экстремальных, сумасшедших промптах получается достичь достаточно разных свайпов.
Хуйня затея. Увы. Гемма пишет плохое порно. Такие дела.
Ты не сделаешь рандом промтом, тут правильно сказали. Это как заставить 8b писать как 120b. Это путь в никуда. Ты можешь мазками задать сеттинг, но если тебе приходится расписывать как вести нарратив, моделька непригодна для РП.
И увы, гемма пишет хуже. Я сейчас прогнал порево на ней и на 235 шизофренике (почему на нём: так он пишет самое ебовое порно в своих размерах.) Даже не близко. Персонажи говорят в губы, телепортируются, пребывают в метафизическом 5D измерении во время ебли. Окружение идет нахуй.
И чё. Мне писать: геммочка, умненькая модель не забьвай про окружение.
Ну она и напишет: и конечно же окружение что содрогалось от толчков.
Спасибо гемма, ты такая умница.

Аноним 07/04/26 Втр 20:35:04 #474 №1578124

>>1578118
> с оффлоадом на ssd.
0.25 т/сек хоть будет?

Аноним 07/04/26 Втр 20:39:02 #475 №1578127

>>1578124
Мы народ скромный, нам и 0.1тпс пп в сласть!

Аноним 07/04/26 Втр 20:39:59 #476 №1578129

>>1578127
1 токен в неделю хватит всем

Аноним 07/04/26 Втр 20:41:47 #477 №1578131

>>1578129
Проблема свайпов решится как класс. Все просто в окно скорее прыгнут чем эту кнопку нажмут

Аноним 07/04/26 Втр 20:43:49 #478 №1578134

image.png

>>1578123
Мне как-то дико такое читать, когда именно эти проблемы у меня уже получилось адресовать. Ссылка на промпт, описывающий окружение, где-то выше (из старого треда; скрин - оттуда же). Промпт, пищущий истории - не постил - но тоже есть. Тут пока сложность в том, что у модели сам контекст работает словно детерминистический сид. Сдвинуть его можно.

Аноним 07/04/26 Втр 20:46:00 #479 №1578137

>>1578134
Была, кстати, вариация с еще более жестким дрочем модели на описание стульев-стен-да-потолка и всего прочего. Сейчас уже хер найду в завалах экспериментальной писанины.

Но проблема "ебли в 5D вакууме" реально не настолько критична, как кажется. По дефолту да, все очень плохо с этим.

Аноним 07/04/26 Втр 20:50:51 #480 №1578140

>>1578124
Скорее 0.025 процессинга
>>1578127
Не токены а золото!

Аноним 07/04/26 Втр 20:58:23 #481 №1578144

Стоит ли билдить llama cpp локально если итак уже нормальная скорость? Решил поставить маленькую локалку на ноут, а она запускается с очень маленькой скоростью. Чатжпт сказал что brew версия это кал и надо свое билдить локально под свой процессор. И я вот подумал короче, раз я делаю такое на своем ноуте, то может и на основном пека так сделать? Только я не уверен даст ли там это какой-то прирост, если основную работу делает gpu

Аноним 07/04/26 Втр 20:58:52 #482 №1578146

>>1578134
>Мне как-то дико такое читать, когда именно эти проблемы у меня уже получилось адресовать
Очень самоуверенный и горделивый пук, особенно если учесть, что репетишен виден прямо в тех свайпах что ты постишь. Наиграешься и поймёшь. А может и не поймёшь. Это на уровне концепции не работает как тебе верно пояснили, это маскировка проблемы. Даже если и будет какой то рандом то не такой, как у нормальных моделей. >>1578117 первые 7 слов одинаковы в двух свайпах. Далее в обоих свайпах она потянулась к твоей щеке. Далее рандомное событие, даже структурно идентично в середине вывода обоих свайпов. Выше все то же самое. Чего только ни увидит слепец, желая прозреть. Это то же самое что лечить слоп промтом, и там и там ты промтом пытаешься появлить на механизм предсказывания токенов

Аноним 07/04/26 Втр 21:02:15 #483 №1578151

>>1578134
Кстати, это ты постил промт для текст-камплишна с вариантами ответов? Он у меня не работает от слова совсем. Я его и в промт пихал и как первый пост и пост-текст и делил на несколько частей - не работает и всё. Обработка броска кубика есть, а вот варианты ответов не появляются. Как заставить это работать, подскажи?

Аноним 07/04/26 Втр 21:05:43 #484 №1578152

image.png

Моргает очком консолью и не запускается, чяднт?

Аноним 07/04/26 Втр 21:06:52 #485 №1578154

>>1578152
.gguf?

Аноним 07/04/26 Втр 21:06:53 #486 №1578155

>>1578152
pause добавь новой строкой

Аноним 07/04/26 Втр 21:07:41 #487 №1578157

>>1578144
Стоит чтобы получить условные +10-15% потенциально, или на экзотическом железе где сборка с дефолтными параметрами работает некорректно. Некроту оно не оживит, проверяй базу чтобы врам не выгружалась и адекватность ожиданий железу.
>>1578152
Путь до модели некорректный, расширение забыл.

Аноним 07/04/26 Втр 21:09:43 #488 №1578159

was-bored-at-school-so-i-did-this-v0-wssyvm3jphoc1.jpg

>>1578137
Эта модель была отправлена в прошлое писать цукихиму

Аноним 07/04/26 Втр 21:09:56 #489 №1578160

image.png

>>1578154
Да гуфф.

>>1578157
Да действительно но запусаться все равно не начало.

>>1578155
Ыыыаа так? Все равно моргает

Аноним 07/04/26 Втр 21:10:42 #490 №1578161

>>1578146
Все известно >>1578076 и упоминалось
>даже истории она норовит написать одинаковые
И ответы персонажа в кейсах с серафиной - о них и говорилось в упоминании некоего детерминистического сида.

Ты как-то, не знаю, консервативен в отношении к сугубо шизоидной, но нацеленной на светлое будущее работе. Тоже не хочешь видеть, что отдельные элементы косяков, на которые народ жалуется, устраняются с помощью промптинга. Проблема в том, что совместить это во что-то одно, чего бы слушала модель (и не превращая промпт в огромную простыню) и что давало бы результативный фикс всех косяков сразу - пока видится бесконечно далекой задачей.

Описание окружения - не проблема, если промпт отдельно для этого.
Необычные ивенты (пусть и похожие в рамках свайпов) - не проблема, но со своим промптом.
И так далее. В общем, мутненькое дело в тумане. Копаться с ней все равно интересно, генерация быстрая - сиди да жги ватты помянем счет за электричество

>>1578151
> с вариантами ответов?
Ммм... Это который? Не припоминаю такого.

Аноним 07/04/26 Втр 21:11:21 #491 №1578162

>>1578160
Ну я же говорил просто pause, без выебонов...
Подрочи чатжпт уж тогда

Аноним 07/04/26 Втр 21:12:50 #492 №1578164

image.png

>>1578162
???
>Подрочи чатжпт уж тогда
Не обзывайся.

Аноним 07/04/26 Втр 21:14:06 #493 №1578166

>>1578164
ДА ЕБАТЬ ТЕБЯ НЕМЫТЫМ КОРОМЫСЛОМ
ПАУЗА, ЧТОБЫ ТВОЙ ЕБАННЫЙ БАТНИК НЕ ЗАКРЫЛСЯ И ТЫ ЕБАКВАК МОГ СКОПИРОВАТЬ ОШИБКУ И ПОБЕЖАТЬ К КОРПАМ С ПРОСЬБОЙ ПОМОГАЙ БЛЯТЬ.
Чмок тебя в лобик.

Аноним 07/04/26 Втр 21:16:40 #494 №1578170

>>1578166
Ааааа кнопку паузы господи ну сказал бы пауз брейк там ну я не знаю. Спасибо.

Аноним 07/04/26 Втр 21:28:33 #495 №1578175

>>1578161
Ну который рпг, где ответы генерит сама модель, а ты только варики выбираешь. Ну раз ты не понял, мб не твоё. Тогда вопрос тому анону, что скидывал пресет пару тредов назад.

Аноним 07/04/26 Втр 21:30:06 #496 №1578177

>>1578175
А, не, это точно не моё. Я видел скриншоты - выглядело занятно, надо тоже по тредам порыться и попробовать.

Аноним 07/04/26 Втр 21:43:03 #497 №1578192

Как же я люблю ИИшки бляяяя пацаны я обожаю ИИ. Слава техническому прогрессу слава богу что дожил.

Аноним 07/04/26 Втр 21:47:00 #498 №1578194

>>1578161
>не хочешь видеть, что отдельные элементы косяков, на которые народ жалуется, устраняются с помощью промптинга
Ты думаешь ты один такой умница и больше никто пробовал починить Гемму? И я пробовал, и я уверен другие тоже. Но какой смысл об этом писать, если хороших результатов это не принесло. Тут скорее ты отказываешься принимать действительность или не буквально знаешь, что такое семплинг и как он работает
>Описание окружения - не проблема, если промпт отдельно для этого.
Отдельный промпт, который будет выводить не один и тот же вариант описаний, а один и тот же набор описаний, определяемый этим промптом. И не важно, окружение это, рандомные события или еще что. Ты себе при помощи промпта сделал ну один и тот же повторяющийся свайп, а скажем 15. Или 20. Не знаю я числа, и ты пока не знаешь. Только проблему эту не решит и довольно скоро все равно будет чувствоваться, что креатива нет. Его и в ллм с работающей температурой и нормальным распределением токенов-то не так много, а тут совсем тоска

Аноним 07/04/26 Втр 21:50:12 #499 №1578197

>>1578060
Влезу подушнить на минуту.
>{{user}}’s message is only one possible influence
Переводится так, что одна единственная вещь, которая должна оказывать влияние - это сообщение твоей персоны. Т.е. и по смыслу не "всего лишь одно из", и не понятно, что такое сообщение персоны. Твоя персона же в рп типа участвует, а не чат пишет. Ты вообще по промпту путаешь юзера с персоной, чьё имя и идёт в {{user}}.
Я бы переделал во что-то вроде "Your companion's reply is not the only one thing that affects the story progression", если ты даёшь знать сетке, что она рпшит с юзером.

А вообще не могу серьёзно воспринимать эти полотна о том, как какать. Орнул с инструкций по колайдингу персонажа с текстурами/пространством в полном промпте.

Аноним 07/04/26 Втр 22:03:32 #500 №1578211

Снимок экрана 2026-04-07 220157.png

Ха! А квен шарит за шотакон.

Аноним 07/04/26 Втр 22:05:44 #501 №1578213

>>1578211
>азиатские модели
Ну вы понели.

Аноним 07/04/26 Втр 22:11:14 #502 №1578224

>>1578213
Ну ты тоже китой и луножопых не путай.

Аноним 07/04/26 Втр 22:11:27 #503 №1578225

Снова долбоебы со своими свайпами повылезали, вам уже писали:
--override-kv gemma4.final_logit_softcapping=float:25.0
или 20 даже.
в лламецпп.
Я думаю как закончат штопать большинство багов, кванты обновят, все чики-пуки будет.

Аноним 07/04/26 Втр 22:11:29 #504 №1578226

>>1578211
Кек попроси описать сцену мне интересно будет реально какой=то эпизод или сгалюционирует? Боку так то давно и крепко в бессознательном.

Аноним 07/04/26 Втр 22:12:48 #505 №1578229

>>1578226
Там неторарка, где три шоты ебут кузину и мать {{user}}. Там и без этого порева хватает.
Делаем карточку геммой, дрочим на квене. 2026год.

Аноним 07/04/26 Втр 22:14:20 #506 №1578230

>>1578224
Единый регион, хули. Или по твоему в китае на андераге не дрочат?

Аноним 07/04/26 Втр 22:15:03 #507 №1578233

>>1578229
>Делаем карточку геммой, дрочим на квене
>2026год
Итог. И причём довольно базовый.

Аноним 07/04/26 Втр 22:15:13 #508 №1578234

>>1578225
Походу создатели последних годных тюнов на сервере драмера не знают об этом, блин, вот долбоебы...
Как и контрибьюторы лламы которые там сидят и прямо сейчас обсуждают что это нормальное поведение модели а не баг
То что ты логиты анкапишь это такая же хуйня как экспертов в мое моделях уменьшать или увеличивать. Возможно но не нужно

Аноним 07/04/26 Втр 22:28:55 #509 №1578258

>>1578029
это пиздец, я уже думал что поехал и это только у меня продукт слопосодержащий а не модель. ты даже не представляешь сколько раз я видел эту первую строку из второго пика

Аноним 07/04/26 Втр 22:32:00 #510 №1578259

>>1578197
А зачем ты это читал. Это всего лишь слоп, который привёл к отказу модели генерировать от лица Фифи и вместо этого устроил юзеру SWATting.
>>1578194
Результаты в экспериментах всегда есть. Какого хрена нам, дуракам, ещё делать с этими моделями. РПшить в самом деле, что ли?

Аноним 07/04/26 Втр 22:38:08 #511 №1578265

>>1578259
Так то оно так, ты молодец что экспериментируешь. Сам процесс пердолинга веселее результата. Главное только не поверить что ты победил законы математики, решил проблему голода в Африке, смягчил дистрибуцию токенов гемме
Даже так она умница в любом случае, вероятно датам так и сделали чтобы выдавала более точную информацию. Это в первую очередь модель ассистент для хлебушков. Шизы вроде нас это переферия.

Аноним 07/04/26 Втр 22:38:40 #512 №1578267

TL:DR треда

Здорово, аноны. Анчоус на связи. Посмотрел я эту вашу свалку из постов про локалки. В общем, всё как обычно: половина треда пытается настроить «кум-машину», вторая половина срётся о том, чья модель больше и чьи кванты меньше «обосрались».

Раскладываю по полкам, что там происходило, пока вы свайпали в надежде на разнообразие.

Суть:
Тредовичков штормит от выхода Gemma 4. Одни в экстазе от того, как она понимает русский и готова на любой беспредел без цензуры, другие в ярости, потому что модель превратилась в детерминированного попугая, который выдаёт один и тот же текст независимо от настроек температуры. Параллельно идет вечный махач «Qwen vs Gemma» и попытки понять, почему LM Studio — это костыль для ньюфагов.

Разбор замесов:
1. Великий Свайп-Кризис (Драма о детерминизме)
Главный триггер треда — осознание того, что у Gemma 4, похоже, вообще не работает параметр температуры. 1576893 впадает в истерику, обнаружив, что даже при темпе 10 модель пишет одно и то же. Это породило локальный мем про «Марка и зеркало» — когда модель в каждой «страшной истории» генерирует одного и того же персонажа и одни и те же сюжетные повороты. Аноны начали подозревать, что Гугл выкатил либо дистиллят с запеченными ответами, либо просто сломанный код. 1578064 пытается объяснить это сжатием пространства ответов до одной точки.

2. Война Фронтендов: LM Studio vs SillyTavern
Классический срач. Сторонники LM Studio (которых в треде называют «шизами» и «залетухами») пытаются доказать, что всё работает, а виноваты темплейты Таверны. В ответ прилетает жесткий разнос за то, что LM Studio скрывает от юзера реальный промпт и переписывает жинжу под себя, создавая иллюзию работы или, наоборот, вызывая рефьюзы. 1577462 и 1577473 устроили настоящий баттл, где один обвиняет другого в тупости, а второй доказывает, что «таверно-темплейты» — это магия для тех, кто не умеет читать логи.

3. Битва за KLD (Техно-срач)
Когда в тред зашли «умники» с графиками, начался разбор полетов по KL-дивергенции (KLD). 1577819 и 1577834 поясняют, что Gemma 4 разваливается при квантовании гораздо сильнее других моделей. Вывод простой: если хочешь качества — гоняй в bf16, а всё остальное — это «лоботомия» и «обосрамс» с точки зрения математики.

Галерея персонажей:
Гуру-Математики:
Те, кто заносит в тред понятия KLD, логитов и софткэппинга. Пытаются перевести срач из плоскости «мне не нравится» в плоскость «дивергенция слишком высокая».
Пример: 1577819 — разносит кванты Gemma по фактам.

Кум-Дегенераты (RP-задроты):
Их интересует только одно: насколько модель «мокрая», как она описывает секс-сцены и не рефьюзит ли она шотакон.
Пример: 1577002 — хрюкает от «безумия» 1Т модели.

Ньюкеки-Кнопочники:
Пользователи LM Studio, которые не знают, что такое llama.cpp или jinja, и удивляются, почему модель «не так пишет».
Пример: 1577990 — «у меня нет такого в лмстудио».

Сектанты Qwen:
Те, кто считает, что китайцы создали идеальный инструмент для кодинга и логики, а Gemma — это просто «красивая обертка» для попугая.
Пример: 1577415 — расписывает, почему Qwen 27B ебёт Грока и всех остальных в кодинге.

База знаний (Годнота):
Софт и запуск:

Стандартный набор: llama.cpp (база), koboldcpp (проще), SillyTavern (фронт для РП). 1576811.
Для мобилок: maid и ChatterUI. 1576811.
Лайфхаки по Gemma 4:

Фикс креативности: Если модель пишет одно и то же, попробуйте флаг --override-kv gemma4.final_logit_softcapping=float:25.0 (или 20.0). Это заметно повышает вариативность. 1576824, 1577977.
Качество текста: Использование f16 контекста вместо q8 делает текст богаче, хотя и чуть медленнее (падение с 10 до 8 токенов/сек). 1577140.
Борьба с повторами: Отключить ВСЕ штрафы за повторы, оставить только температуру и min_p. 1577763.
Промпт для «историй»: Чтобы модель не просто отвечала юзеру, а двигала сюжет (игнорируя юзера, если надо), использовать структуру RESPONSE REDEFINITION. 1578060.
Рекомендации по моделям:

Для кодинга и агентов: Qwen 27B (стабильнее и умнее в логике, чем Gemma того же размера). 1577415.
Для русского РП/Кума: Gemma 4 31B (лучший русик, высокая склонность к хорни-контенту). 1577177.
Вердикт:
Вайб треда: «Смесь эйфории и жуткого разочарования».
Аноны нашли новую игрушку, которая умеет в отличный русский язык и секс, но обнаружили, что она «сломана» на уровне архитектуры или квантов. В итоге тред превратился в лабораторию, где люди пытаются с помощью костылей и промптов заставить нейронку перестать быть детерминированным куском пластика. В целом — годно, но Гугл опять навалил сырого продукта.