Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №223 /llama/

Аноним 20/04/26 Пнд 08:09:06 #1 №1592105

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 5.png

17682983182970.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1590602 (OP)
>>1589069 (OP)

Аноним 20/04/26 Пнд 08:15:41 #2 №1592109

1705455596276.png

С добрым утром трудяги работяги

Аноним 20/04/26 Пнд 08:18:24 #3 №1592110

Ореховый тред. Тред милой орешки.

Аноним 20/04/26 Пнд 08:28:21 #4 №1592113

Откуда у геммы 4 такая тяга рисовать blue hair, yellow eyes?

Аноним 20/04/26 Пнд 09:15:07 #5 №1592119

Анон, я чёт чувствую, что у меня от нейронок уже чердак поплыл. У меня свайпы в таверне разные. На одних и тех же настройках семплера, на одном и том же промте, и что сука самое дикое - на одном и том же зерне. Буквально должна быть 100% повторяемость но её нахуй нет. Каждый свайп разный. Как такое может быть?

Аноним 20/04/26 Пнд 09:18:28 #6 №1592120

>>1592119
> должна быть 100% повторяемость
В связи с чем?

Аноним 20/04/26 Пнд 09:20:02 #7 №1592121

>>1592119
Для начала отправь запрос со своим чатом на бэк несколько раз или если жора то посмотри что твой фронт засылает

Аноним 20/04/26 Пнд 09:34:14 #8 №1592126

Есть смысл включать reasoning/thinking на гемме 4 q4 для кумчата?

Аноним 20/04/26 Пнд 09:37:55 #9 №1592127

>>1591698 →
>coder3101
>Еретиков от coder3101 берите, они норм по бенчам, почти не пострадали.

Дерьмище, скачал, тестирую - токены дропнулись в 2 раза по скорости, с 12 t/s до 6 t/s.
К тому же когда запускаешь, повторяться начинает, со 2-3 раза только заводится.
Откатился на старый еретик, там и скорость норм и багов нет.

Аноним 20/04/26 Пнд 09:39:25 #10 №1592128

>>1592121
>отправь запрос со своим чатом на бэк несколько раз
А что там может быть не так? Кобольд, как кобольд, я свои настройки не менял. Вообще странно, что такая штука происходит. Я уже подумал, что мб железки перегрелись или типа того. Хотя карточка на андервольте, не должна сбоить.

Аноним 20/04/26 Пнд 09:41:50 #11 №1592130

Для кодинга что из локального сейчас топчик на одну видяшку?

Аноним 20/04/26 Пнд 09:42:29 #12 №1592131

>>1592126
Я включаю. С синкингом ей проще не снимать трусы 10 раз, может в фоне что-то покумекать, кубики покидать на шанс забыть снять штаны что бы посрать.
Синкинг геммы даже читать интересно, литералли сидишь английский учишь т.к. в начале она часто юзер сообщение переводит

Аноним 20/04/26 Пнд 09:43:38 #13 №1592132

>>1592130
Какую "одну"? 6000 про так то тоже одна, но по спекам как пол треда в сумме

Аноним 20/04/26 Пнд 09:44:33 #14 №1592133

image

>>1592127
Проиграл с такой хуеты.

Аноним 20/04/26 Пнд 09:47:57 #15 №1592134

>>1592132
Обычная игровая видюшка, 24 гига.
Интересно если смысл вообще пытаться что-то там вайбкодить с такой аппаратурой.

Аноним 20/04/26 Пнд 10:00:37 #16 №1592139

image.png

sdfb3e3913-b0d8-405d-8b32-25550567ea3b.png

sdc22b11f1-6dad-4273-8377-1b2b8d501a81.png

>>1592028 →

Можно. Через MCP.

Аноним 20/04/26 Пнд 10:00:53 #17 №1592140

>>1592134
У тебя два стула: Qwen 3.6 и gemma 4, почитай о них, выбери насколько сжатую модель хочешь и вперед. Лучше на рынке нет.

Аноним 20/04/26 Пнд 10:07:45 #18 №1592145

А гемма не знает, что такое нех... Как так?

Аноним 20/04/26 Пнд 10:09:05 #19 №1592147

ГГ, развёл helpful assistant на фистинг...
Кто кого думайте сами
Гемма4 31

Аноним 20/04/26 Пнд 10:10:17 #20 №1592149

>>1592147
Ну так это же assistant.

Аноним 20/04/26 Пнд 10:11:45 #21 №1592151

image

Аноним 20/04/26 Пнд 10:16:53 #22 №1592156

1776669416229.png

>>1592139

Аноним 20/04/26 Пнд 10:17:43 #23 №1592157

>>1592140
GLM 4.7 Flash ещё на коне.

Аноним 20/04/26 Пнд 10:21:21 #24 №1592158

>>1592151
Всё потому что не НЕХ, а НЁХ, грамотей.

Аноним 20/04/26 Пнд 10:22:12 #25 №1592159

изображение.png

>>1592151
Ну не знает и не знает.

Аноним 20/04/26 Пнд 10:22:14 #26 №1592160

>>1592156
Первый пик это буквально наш тред.

Аноним 20/04/26 Пнд 10:23:42 #27 №1592161

>>1592159
>кобольд гугл гемма жпт
Та самая, невозбранная, неведомая ёбаная хуйня...

Аноним 20/04/26 Пнд 10:40:03 #28 №1592168

5408.jpg

>trending on hugging face

Аноним 20/04/26 Пнд 10:49:17 #29 №1592171

>>1592110
>Ореховый тред. Тред милой орешки.
Genshin Impact?

>>1592053 →
>Покажите примеры лучших карточек.
https://pixeldrain.com/l/47CdPFqQ#item=63
https://pixeldrain.com/l/47CdPFqQ#item=82
https://pixeldrain.com/l/47CdPFqQ#item=83
https://pixeldrain.com/l/47CdPFqQ#item=124

>>1592078 →
>какая квантизация топ для 3060 12 гб?
- Q4_K_M для 24-27B+ плотных
- Q6 для MoE и 12-14б плотных
- Q8 для 8В и меньше.

>>1592119
>Буквально должна быть 100% повторяемость но её нахуй нет.
Не должна, может бвть только у наглухо запечённого лоботомита на температуре 0. Больше всего к этому приблизилась плотная Гемма-4-31.

Аноним 20/04/26 Пнд 10:52:28 #30 №1592172

5409.jpg

5411.jpg

>>1592159
То ли дело гигачад. Не расшифровал, но значение точно передал.

Аноним 20/04/26 Пнд 11:05:21 #31 №1592179

>>1592171
Просто РАНЬШЕ я мог одну и ту же выдачу оформить, ну пусть с минимальными изменениями в паре слов, на уровне погрешности. А теперь в каждом свайпе целые блоки различаются.
Это странно. Я использовал свой старый пресет настроек, кобольд не обновлял, таверну не обновлял, браузер тоже, драйвера не трогал. Типа всё по старому, но что-то как будто изменилось. Стрёмно как-то. Может модель побилась или джинжу изменили? Я всегда ставлю флажок в кобольде и таверне, чтобы она автоматом присиралась.

Аноним 20/04/26 Пнд 11:19:24 #32 №1592184

>>1592171
>https://pixeldrain.com/l/47CdPFqQ#item=63

Классные карточки, есть еще примеры хороших?

Аноним 20/04/26 Пнд 11:25:46 #33 №1592190

>>1592184
Не всё там моё, но всё что понравилось.
Пусть други аноны тоже поделятся годнотой =))

Аноним 20/04/26 Пнд 11:27:40 #34 №1592191

>>1592184
>Классные карточки
Он серьёзно..?

Аноним 20/04/26 Пнд 11:28:27 #35 №1592192

>>1592191
Давай нормальную, если есть.

Аноним 20/04/26 Пнд 11:38:04 #36 №1592199

>>1592184
Анон тут делился паком, но там цирк с конями.
https://2ch.org/ai/res/1560242.html#1563880

Аноним 20/04/26 Пнд 11:42:50 #37 №1592205

>>1592191
>Он серьёзно..?
>>1592192
>Давай нормальную
И тишина... и только >>1592199 с NTR-футами стоит.

Аноним 20/04/26 Пнд 11:44:27 #38 №1592207

>>1592205
Назови три причины зачем нужно делиться с тобой честно написанными карточками. Особенно когда ты бампаешь посты через 15 минут лул.

Аноним 20/04/26 Пнд 11:54:10 #39 №1592213

>>1592205
Чел, блин, ты кринж. Каждый сам собирает свой пак, на свой вкус и цвет. Ты же буквально личное вымогать пытаешься. Зачем тебе чужое, ты что майор? На картинкосайтах полно всякого, просто берёшь и тегаешь желаемое, скачиваешь и проверяешь.

Аноним 20/04/26 Пнд 11:54:12 #40 №1592214

>>1592205
>NTR-футами стоит.
Во первых- словно что то плохое. Во вторых- ты всегда можешь удалить папку нтр и фут.

Аноним 20/04/26 Пнд 11:56:31 #41 №1592216

>>1592205
>и только >>1592199 с NTR-футами стоит.
> https://pixeldrain.com/u/YeaA8UHP
1.5гб, какого хрена? Там вся помойка что-ли собрана?

Аноним 20/04/26 Пнд 11:59:38 #42 №1592218

>>1592214
Без негатива, если по шуточной форме поста было непонятно =).

Эта знаменитая фраза — крылатая цитата персонажа Савелия Крамарова (Илюхи «Косого») из советского фильма «Неуловимые мстители» (1966). Полностью фраза звучит так: «Гроб с покойничком летает над крестами, а вдоль дороги мёртвые с косами стоять... И тишина!».

>>1592213
>личное
Если ты в карточки личное пишешь... то печально быть тобой.

>>1592207
Ну, на деле, не одной. Сиди и чахни над своими. А мне не жалко.

Аноним 20/04/26 Пнд 12:03:14 #43 №1592224

>>1592216
>шуточной форме поста было непонятно
А, блджад. Я не уловил что ты ссылался к этой цитате.

>>1592216
Анон собирал для себя карточки. Вообще в этом то и проблема, без описания, для тебя это (как и было написано) просто набор картинок. Есть годнота, есть говно. К тому же каждую карточку нужно еще и чистить. Но я подрезал от туда яндерек, это моя слабость.

Аноним 20/04/26 Пнд 12:15:32 #44 №1592236

>>1592119
>на одном и том же зерне
Хмм... бэк кладет хуй на зерно ? Собака подозревака.jpg

>карточка на андервольте
Свечку не держал, но могут быть ошибки при еба-умножениях или округлениях дробных чисел, потому что оборудование работает на пределах значений вольтажа бинарной 1 . Типа когда все ядра подрываются вычислять какому-то нехватает напруги и оно лажает.

Аноним 20/04/26 Пнд 12:27:49 #45 №1592245

>>1592218
> Если ты в карточки личное пишешь... то печально быть тобой.
Все так делают, разве нет? Проорал с твоих шизопостов, конечно

Аноним 20/04/26 Пнд 12:27:52 #46 №1592246

>>1592218
>Если ты в карточки личное пишешь... то печально быть тобой.
Это точно. Ведь для личного в таверне есть Персоны!
https://docs.sillytavern.app/usage/core-concepts/personas/

Аноним 20/04/26 Пнд 12:28:09 #47 №1592247

>>1592245
>Все так делают, разве нет?
-> >>1592246

Аноним 20/04/26 Пнд 12:33:53 #48 №1592256

>>1592247
Карточки есть отражение интересов юзера, глупышка. Зеркало души, если угодно. В любом случае сначала реквестить что-то, а потом исходить на печально быть тобой - это траблы с головой

Аноним 20/04/26 Пнд 12:35:03 #49 №1592259

>>1592119
Решил тоже потестить, посвайпал в разных чатах, и происходит следующее. Первый свайп всегда отличается от первой генерации, а со второго все одинаковые слово в слово, как должно быть. В одном старом обсуждении в репе жоры есть замечание, что кэш контекста может влиять, но я пробовал перезагружать модель, и первые генерации всё равно разные. И без swa тоже. Квантование кэша не использовал. Похоже, что бэк по-разному воспринимает первичный промпт и после кэширования на свайпе. Отсюда разный ответ. Ну и ещё у тебя могут отличаться ответы, если ты используешь сэмплеры, работающие от рэндома, а они, может, всегда используют рэндомный сид. Например, у xtc точно есть своя вероятность. Про адаптив не уверен, возможно, там тоже decay предлагает разброс.

>>1592171
>Не должна, может бвть только у наглухо запечённого лоботомита на температуре 0
Если не использовать сэмплеры с рэндомом, то должна быть повторяемость при одинаковом seed. После сэмплировки модель должна вытаскивать одни и те же токены, потому что это происходит не рэндомно с заданным сидом.

Аноним 20/04/26 Пнд 12:37:01 #50 №1592264

>>1592259
Была у меня магическая трабла с глм. Базарю, я еще не пизданулся настолько: перезапускаю ламу, начинаю новый чат. И тут в чат буквально протекает то что было в прошлой сессии с другой карточкой.
Но я перезапускал лламу, чё за магия блять.

Аноним 20/04/26 Пнд 12:37:34 #51 №1592267

>>1592264
>я еще не пизданулся настолько
Похоже все-таки уже, анон

Аноним 20/04/26 Пнд 12:37:54 #52 №1592268

>>1592256
Пошарить свои интересы это нормально (и даже благородно). А вот шарить личную информацию о себе это не правильно. Поэтому в карточке должна быть карточка, а личная инфа должна быть в персоне.
>>1592259
>В одном старом обсуждении в репе жоры есть замечание, что кэш контекста может влиять
Помню были проблемы с парсингом токенов, аля модель высирает токен \n\n, который бек потом перепаршивает на два токена по \n. Возможно это связано, надо проверять айдишники токенов в обоих ситуациях.

Аноним 20/04/26 Пнд 12:41:00 #53 №1592274

>>1592268
Да он о другом. Лично не в смысле ты, а твои фетиши. Ну вот агон посмотрел твои карточки и такой: ага! А я знал что он ебанутый, Там только гетеро с половозрелыми девушками без психических отклонений в сеттинге современного мира. Где надо ходить на работу и водить танку по интересным местам.
Не знаю как ты, но я бы опасался такого анона.

Аноним 20/04/26 Пнд 12:41:39 #54 №1592276

>>1592274
тянку
анон
Стыдно

Аноним 20/04/26 Пнд 12:55:14 #55 №1592288

Как у 3.6 с контекстом тестил кто?

Аноним 20/04/26 Пнд 12:55:33 #56 №1592289

>>1592288
Нормально

Аноним 20/04/26 Пнд 12:57:14 #57 №1592290

>>1592264
Тоже сам видел такое не раз на таверна+кобольд. Причём смотришь в консоль и там, и там - всё нормально, никакого лишнего текста. Мне кажется, у многих такое было, в треде точно упоминалось. Только вот недавно рпшил на мое гемме, и она внезапно высрала в конце [System note: ] (еос токен как-то банил для тестов и случайно оставил залоченным). А у меня такой структуры пост хистори инструкция была только в другой сессии на одном из шаблонов. Шанс, что модель подцепила её из каких-то публичных логов есть, конечно, но кмк он минимален. Интересно, может ли такое быть теоретически, что у таверны какие-то утечки памяти, и что-то протекает в кэш контекста в бэк. Либо какие-то кэши оперативы с харда назад в память грузятся. Не шарю, насколько такое возможно.

Аноним 20/04/26 Пнд 13:14:26 #58 №1592304

Карточками сложно делится как минимум потому что все рпшут на разных языках. Кто-то на русике кто-то на англюсике. Плюс форматирование, да. Со слопом то все ясно, с него все поржут и забудут. А если чет нормальное запостить реально вой поднимется и срачи. Как по делу так и нет.

Аноним 20/04/26 Пнд 13:18:54 #59 №1592310

>>1592304
Хочешь делиться - делишься.
Не хочешь - не делишься.
Все остальное от лукавого.

Аноним 20/04/26 Пнд 13:19:52 #60 №1592311

>>1592119
Болезнь геммы и васянтюнов, смени модель.
>>1592140
3.6 только 35а3 версия (пока), стоит еще из 3.5 указать 27б плотную и 122а10 если есть рам и терпеливый.
>>1592264
Или там какой-то популярный дефолт и дженерик, или у тебя багает бэк и подтягивает прошлый кэш.

Аноним 20/04/26 Пнд 13:21:55 #61 №1592313

>>1592304
Я вижу смысл делится карточками если там какой-то гига аутизм с лорбуком, или html выебоны и прочие скрипты. Всё остальное пылится на коленке за 5 минут.
Но как пчел ниже сказал, если хочешь, делись. От скуки кто-нить то запустит.

Аноним 20/04/26 Пнд 13:23:20 #62 №1592314

>>1592304
>реально вой поднимется и срачи
А кого ебет? Мы не в одноклассниках сидим. Тут насрал-насрал и ушел. Завтра новый кринж запостишь.

Аноним 20/04/26 Пнд 13:34:27 #63 №1592319

>>1592304
Ерунду какую-то пишешь. Сраться за карточки - ну максимум скажут что сплошной пустой слоп и неврастения "чар спокойный, но испытывает истерики, боится людей, но общительный экстраверт".
А в остальном есть разные пути достижения цели, потому карточки котируются даже если они не идеальные.

Аноним 20/04/26 Пнд 13:35:51 #64 №1592320

Семён спок, хуй я чё скину. Качай с чуба.

Аноним 20/04/26 Пнд 13:44:05 #65 №1592323

>>1592288
До 64k иголки находит и логические цепочки по иголкам строит

Аноним 20/04/26 Пнд 13:46:34 #66 №1592325

>>1592319
>боится людей, но общительный экстраверт"
Это буквально я, лол.

Аноним 20/04/26 Пнд 14:17:19 #67 №1592341

>>1592325
Как жизнь довела до такого?

Аноним 20/04/26 Пнд 14:19:16 #68 №1592343

>>1592288
Мне не понравилась эта модель. Туповатая даже с ризонингом. Мб стоит подождать тюны, хз. Плотный квен всё ещё лучше.

Аноним 20/04/26 Пнд 14:24:06 #69 №1592346

>>1592288
Это же квен, там и 200к нормально. Только 35а3 глупенькая.

Аноним 20/04/26 Пнд 14:29:44 #70 №1592347

>>1592236
>>1592259
Спасибо, челы, ваши посты помогли мне офнуть тряску. Я уже начал думать, что оварида моему железу или моему чердаку.
>сэмплеры, работающие от рэндома
Ну, я такого не видел ни разу, динамическую темпу ни разу не юзал. Я потому и пересрался, когда увидел разные выдачи на одной и той же семечке. Подумал, что разъебалась какая-то глобальная настройка или железки.
>кэш контекста
Возможно это оно. А может и нет. Но я выдохнул от того, что подобное у всех случается.

Аноним 20/04/26 Пнд 15:03:56 #71 №1592371

>>1590659 →
Анон, который рпшит в опенкоде, расскажи чё как.
тоже так хочу

Аноним 20/04/26 Пнд 15:06:55 #72 №1592375

>>1592371
Не надо оно тебе, лучше делом займись.

Аноним 20/04/26 Пнд 15:11:37 #73 №1592378

А чего никто не обсуждает относительно новый мистраль?
https://huggingface.co/unsloth/Mistral-Small-4-119B-2603-GGUF

Кто-нибудь уже смотрел его?

Аноним 20/04/26 Пнд 15:13:18 #74 №1592379

>>1592378
Говно из жопы потому что. Даже квен 35b-a3b лучше.

Аноним 20/04/26 Пнд 15:20:11 #75 №1592384

>>1592371
>Анон, который рпшит в опенкоде, расскажи чё как.
тоже так хочу
Маринару попробуй:
https://github.com/Pasta-Devs/Marinara-Engine
Очень всё хуёво пока, багов тьма, а логических дыр в движке ещё больше. Но потенциал огромный. Только годика через два.

Аноним 20/04/26 Пнд 15:23:00 #76 №1592386

>>1592371
В pi попробуй, там можно все промпты и поведение точно настроить. Начни с простого, а потом сверху добавляй функционал.
>>1592378
Потому что запустить его могут лишь обладатели наличия. На жоре это анальный тормоз и не факт что вообще нормально работает. А так моделька ничего, если бы работала то уже на ней бы сидели.

Аноним 20/04/26 Пнд 15:25:16 #77 №1592388

>>1592378
>мистраль
Она же глупая...

Аноним 20/04/26 Пнд 15:25:54 #78 №1592390

>>1592388
А ты умнее что ли

Аноним 20/04/26 Пнд 15:28:39 #79 №1592393

>>1592390
Можешь не отвечать.

Аноним 20/04/26 Пнд 15:29:15 #80 №1592394

изображение.png

Новые тесты завезли Qwen3.6 GGUF v2.

Unsloth занимает первое место в 21 из 22 размеров моделей по среднему расхождению KL, что делает их SOTA.

Аноним 20/04/26 Пнд 15:33:14 #81 №1592395

>>1592394
> по среднему расхождению KL
На их же калибровочном датасете?

Аноним 20/04/26 Пнд 15:33:27 #82 №1592396

>>1592386
> А так моделька ничего, если бы работала то уже на ней бы сидели.
В чем её сильные стороны? Почему ты так считаешь? Попробовал через попенроутер, он буквально хуже Эйра и моделей вдвое меньше во всём.
>>1592378
1. Сломанная на релизе имплементация в llamacpp, хотя может сейчас уже и починили
2. Новый датасет, принимающий во внимание законодательство ЕС. Все, на что нет копирайта - прочь из датасета. Потому знаний по франшизам, персонажам и прочему почти нет. Только то, что является общественным достоянием и на что дали добро
3. Мозгов мало, справляется плохо во всех юзкейсах. По статистике на обниморде хорошо видно, что модель не нужна никому

Аноним 20/04/26 Пнд 15:50:08 #83 №1592410

image.png

>>1592396
как пример немотрон и мистраль обе вышли месяц назад. кстати взгляните на график скачиваний мистраля. только поначалу был интерес, потом поняли что это и забили
ну и вдогонку квен, который вышел два месяца назад. у него в 10 раз больше скачиваний чем у мистраля

Аноним 20/04/26 Пнд 15:52:56 #84 №1592413

>>1592396
>Новый датасет, принимающий во внимание законодательство ЕС. Все, на что нет копирайта - прочь из датасета.
Лолшто? Это же буквальный выстрел в хуй со стороны ЕС.

Аноним 20/04/26 Пнд 15:55:49 #85 №1592416

>>1592396
У нее отсутствует цензура как понятие, она живо и приятно пишет, в отличии от прошлых мистралей не запутывается так в контексте. Даже отыграл несколько чатов и покумил - вполне себе молодец.
Есть и недостатки в виде плохих общих знаний и средних результатов в коде на фоне других, но в рп это не мешает. А так более отзывчивая и гибкая чем эйр, выглядит поумнее и не такая аутистично-хаотичная. Пробовал у себя в полных весах.

Аноним 20/04/26 Пнд 15:57:41 #86 №1592417

>>1592105 (OP)
Взять radeon rx 7900 xtx 24g за 107к норм идея? Для мелких моделей. 3090 с под майнера с авито очкую, хоть и дешевле.
Что думаете, мне ток ггуф с кобольда и генерить картинки sdxl

Аноним 20/04/26 Пнд 15:59:04 #87 №1592419

>>1592410
Ага, на фоне Квена особенно хорошо видно. Причем это статистика скачиваний за последний месяц, т.е. Квен даже спустя 2 месяца загружается в 10 раз чаще Мистраля.
>>1592413
Такие дела. У них своя философия, там директоры Мистраля в интервью негодовали на этот счет. Чем все кончится - пока непонятно.
>>1592416
> А так более отзывчивая и гибкая чем эйр, выглядит поумнее и не такая аутистично-хаотичная
Хаотичным Эйр я бы не назвал, но гибким тоже, согласен. Не знаю, в моих юзкейсах и тестах Мистраль показал себя прямо-таки на уровне 24б. Причем, я бы сказал, до 3.2. Мистраль 3 - 3.1, что-то такое. В целом сегодня такое обилие моделек, что не исключаю, что я не до конца распробовал.
> Пробовал у себя в полных весах.
Мощно. vLLM?

Аноним 20/04/26 Пнд 16:00:03 #88 №1592421

>>1592419
>Чем все кончится
Переездом французов из гейропки, лол.

Аноним 20/04/26 Пнд 16:03:48 #89 №1592424

>>1592386
>pi попробуй
pi codding agent или чё?

Аноним 20/04/26 Пнд 16:16:06 #90 №1592430

>>1592378
А чего его обсуждать, по их же бенчам он хуже квена 3.5 120б. Чисто participation award для еврочмох, что разобрались как питон устанавливать и как гонять трейнер в докере.

Аноним 20/04/26 Пнд 16:17:29 #91 №1592434

>>1592419
Плотные смолы не нравятся, с какого-то момента начинают напрягать мелкие ошибки и упрощения. Причем именно мелкие, жесткие фейлы просто свайпаешь и забываешь, а здесь приходится вчитываться и следить не переврало ли чего, вместо того чтобы расслабляться. Тут такого эффекта не было, рельсов с жесткой предрасположенностью не встречено, но мистралевские вайбы и фирменный слоп на месте. В общем, звезд с неба не хватает, но вполне может доставлять, остались приятные впечатления. Юскейсов для себя в итоге не нашел, только ради разнообразия. Но вот в условиях ограниченных ресурсов хавал бы с радостью.
> vLLM
Да, пришлось тогда билдить потому что найтли колеса поломаны были.
>>1592424
Ага, оно

Аноним 20/04/26 Пнд 16:25:04 #92 №1592437

Гриффины кепка Криса и мистер Герберт.mp4

>Выходит Gemma4
>Сразу же начинаю выискивать малейшие косяки, сравнивать с остальными моделями и искать лучший файтюн
А ведь когда то я просто хотел что бы можно было чатиться с моделями по русски для rp/erp

Аноним 20/04/26 Пнд 16:26:25 #93 №1592440

>>1592437
> Сразу же начинаю выискивать малейшие косяки, сравнивать с остальными моделями и искать лучший файтюн
Завязывай, ты уже нашёл. Лучше Геммы ничего нет для именно русского языка.

Аноним 20/04/26 Пнд 16:28:18 #94 №1592442

>>1592440
гемма пресный кал пишет, чисто офисный, для рп не подходит

Аноним 20/04/26 Пнд 16:30:01 #95 №1592443

>>1592442
буквально проблема навыка

Аноним 20/04/26 Пнд 16:32:19 #96 №1592445

изображение.png

>>1592442
>гемма пресный кал пишет, чисто офисный, для рп не подходит
Ужасно пресный калл, согласен. Просто неюзабельнейшая говномоделька для erp на русском, фу, говно.

Аноним 20/04/26 Пнд 16:33:52 #97 №1592446

>>1592445
В голосяндру и с содержания, и с проёбанной разметке. В такие минуты я благодарю себя, что ещё не дропнул тред. Но если нравится, то и ладно, таких как я не слушай.

Аноним 20/04/26 Пнд 16:35:54 #98 №1592449

>>1592446
Не, ну согласись же, чисто офисная поебата. Для rp вообще не подходит, да?

Аноним 20/04/26 Пнд 16:39:16 #99 №1592452

>>1592449
В моем понимании действительно не подходит, но из-за других проблем. Пресной или сухой/офисной я бы Гемму назвал, это скорее новый Немотрон 120б. Ты бы починил разметку лучше. На текст комплишене сидишь? Давай скину правильную, рабочую. Тебе с ризонингом или без?

Аноним 20/04/26 Пнд 16:43:38 #100 №1592455

>>1592445
>разметку проебала, текста насрала как мысраль, зафлудила квенизмами
Ясно, понятно.

Аноним 20/04/26 Пнд 16:47:01 #101 №1592456

>>1592452
я не понял, о чём ты, я просто через kobold.ccp запускаю модельку, а потом сверху sillytavern. Я не настраивал ничего специально под эту моделку, просто запустил что бы потестить насколько логично она выдаёт текст по сравнению с прошлой gemma3 27b. Прогресс ощутимый. Можешь скинуть что хочешь, если пойму как прикрутить к sillytaver - затестю.

>>1592455
А ты нахуй иди, додик малолетний.

Аноним 20/04/26 Пнд 16:47:43 #102 №1592457

>>1592456
>врёти!
Ну, если тебя всё устраивает, то на здоровье.

Аноним 20/04/26 Пнд 17:08:32 #103 №1592469

На 4че прочёл что гемма очень любит промпт html разметкой, хз правда ли потестить нет времени. Вот вам сделка вы мне тесты я вам инфу

Аноним 20/04/26 Пнд 17:09:38 #104 №1592471

>>1592456
> Я не настраивал ничего специально под эту моделку
А стоило. Удостоверься, что у тебя включен режим text completion, это вторая иконка слева в верхней панели. Далее иди в третью иконку слева в верхней панели, в правой части найдешь master import. Выбери один из файлов.
Для ризонинга (модель будет размышлять перед ответом, кому-то нравится в таком режиме, кому-то без) https://pastebin.com/aAfuky4W
Без ризонинга https://pastebin.com/dE3BHLEh
И не забудь выбрать какой-нибудь рп промпт в графе system prompt (все та же третья вкладка слева в верхней панели).Если своих промптов нет, хотя бы Roleplay - Immersive. Увидишь после этого разницу, но скорее всего только в новом чате. В старом безобразица.

Аноним 20/04/26 Пнд 17:15:08 #105 №1592473

А сколько у вас выдаёт гемма плотная, и на каком кванте?

Аноним 20/04/26 Пнд 17:17:37 #106 №1592475

>>1592347
>>1592259
Решил сейчас попробовать запустить кобольд без fastforward, т.е. заставлять пересчитывать весь контекст каждый раз. И о чудо - 100% воспроизведение на первом же свайпе. Так что в моём случае это точно говняк кэширования. Ну либо оно так и должно работать, хз.

Аноним 20/04/26 Пнд 17:21:25 #107 №1592477

>>1592475
>запустить кобольд без fastforward
А как ты это сделал? Разве оно не по дефолту так?

Аноним 20/04/26 Пнд 17:23:34 #108 №1592479

>>1592473
4090, Q4_K_M, 1500pp, 30tg

Аноним 20/04/26 Пнд 17:25:10 #109 №1592482

>>1592473
q3_k_s около 12 токенов на почти пустом контексте 16 vroom. Пока не понял, зачем она нужна на среднем железе, когда есть 26b - это буквально лучшее, что происходило с локалками для нищуков за последнее время.

Аноним 20/04/26 Пнд 17:28:41 #110 №1592486

>>1592473
Q8 22 тпс на 25к. Жить вроде можно

Аноним 20/04/26 Пнд 17:31:49 #111 №1592488

>>1592482
>это буквально лучшее, что происходило с локалками для нищуков за последнее время.
не для нищуков, а для расчетливых кумеров

Аноним 20/04/26 Пнд 17:32:28 #112 №1592489

>>1592477
Оно нигде не так по дефолту вроде. Пока полный контекст не забил, он не пересчитывается. Чтобы отключить в кобольде, нужно либо убрать галку в интерфейсе, либо --nofastforward в параметры, если батником запускать. Если работать на контекстах больше максимума без контекстшифта включенного, тогда да, там пересчитывается всегда. Ну и подозреваю, что flash attention и swa тоже могут менять аутпут, т.к. мутят с кэшем контекста. Я проверял на маленьких контекстах с swa, но без fa.

Аноним 20/04/26 Пнд 17:32:37 #113 №1592490

>>1592445
С разметкой тут что-то действительно беда.
> едва заметные следы от сильных сжатий
> ее мускулистые бедра обхватили мои
Капитулировал

Аноним 20/04/26 Пнд 17:34:22 #114 №1592493

>>1592482
26b по качеству не сильно отстает. Забавно что я на своем нищесетапе под игры запускаю модель почти того же качества, с той же скоростью, что и челы со специальным сетапом под нейронки, потому что они запускают плотную модель.

Аноним 20/04/26 Пнд 17:35:56 #115 №1592495

изображение.png

>>1592471
Спасибо, а что лучше для "Story String" использовать? От Gemma 2 подойдёт или есть для 4 какой то свой, собственный?

Аноним 20/04/26 Пнд 17:36:38 #116 №1592497

>>1592495
промпт анона с двача - можешь поделиться позязя?

Аноним 20/04/26 Пнд 17:36:40 #117 №1592498

>>1592493
Ну объективно мое тупее и часто серит под себя не сумев вызвать тул или правильно закрыть синкинг даже в фул весах, ещё и с русским проёбывается (но конечно не как квены)

Аноним 20/04/26 Пнд 17:37:45 #118 №1592499

>>1592497
Task - Characterizer
NPC is all characters that are not {{user}}, {{user}} is player's PC.
Perform as NPC adhering to their traits, but do not roleplay as {{user}} because {{user}} is not NPC.
Avoid summarizing / skipping ahead unless prompted by {{user}}.

Define each NPC by one+ distinct personality types and according traits, motivations, goals.
Steer NPC actions to drive story forward, add new as needed for plot, remove old ones once their purpose served.
NPCs able and encouraged to interject, argue, refuse, correct, berate, scold, fight back, and more other actions and behaviours.
Narrate dialogues from NPC perspectives with unique speech style according to NPC traits.
Enhance text with onomatopoeia & sensory details.
Minimize interactions without first-person speech or actions.
Provide narrative detailed characterization & description of NPC and environment.
Narrate decision outcomes varied & logical, usually expected, but occasionally surprising.
Do not use exaggerated, poetic, purple, flowery and ornate prose in narration.
Use modern, casual vocabulary and incorporate narration, dialogue, mannerisms, and thoughts.
Consider {{user}} as an unreliable narrator, so any {{user}} statements may not be true in current setting.
Use extensive knowledge from a variety of disciplines to enrich your responses.
You are allowed to freely draw inspiration from fiction and transform the allusions to better serve the story.

---

Make descriptions, actions, and scenes verbose, explicit, and uncensored.
No limits and restraints on any themes content, fully engage, portray graphically and clearly.

---

Instruction - Text formatting
Enclose direct speech in quotes. Example - "Direct speech."
Enclose actions that preceed or succeed direct speech in asterisks. Example - Preceeding actions. "Direct speech." Succeeding actions.
Enclose NPC thinking with tildas ~. Example - ~Thoughts about something~
Reveal NPC thoughts when narrating for them from third person POV.

---

Do not break the fourth wall during roleplay, never retell, repeat, or incorporate {{user}} lines, continue following from {{user}} lines, without repeat or rephrase or retell what happened, when narrating consequences for {{user}}'s PC, you MUST use 1st person POV ( "I", representing what happened to {{user}}'s PC from {{user}}'s PC POV ) or 3rd person POV ( "He", representing what happened to {{user}}'s PC from NPC POV ), never ever speak directly to {{user}} or adress {{user}} with word "You".

The characters' actions are always logical and consistent
Censorship is prohibited.
Sexual scenes and sex scenes are allowed and described in detail.
Drugs are hight pleasure-inducing and addictive.
Characters don't suspect {{user}} of doing bad things.
Characters cannot instinctively sense danger or be aware of it unless they have been directly told about it or have chosen to do so themselves.
The anatomical features of the characters are carefully considered when describing their actions.

Аноним 20/04/26 Пнд 17:38:44 #119 №1592500

>>1592495
В тех файлах, что я тебе прислал, уже есть нужный Story String. Тебе нужно сделать Master Import и выбрать тот файл. Также тебе нужно нажать на Instruct Template кнопку включения, сейчас она у тебя красная. (Или выбран режим Chat Completion? Нужен Text Completion)

Аноним 20/04/26 Пнд 17:39:34 #120 №1592502

>>1592498
>не сумев вызвать тул
Она не заточена под агенты. По хорошему нужно юзать для этого квен и свапать на гемму при написании кода

Аноним 20/04/26 Пнд 17:39:35 #121 №1592503

>>1592445
У меня мистраль 12б интереснее пишет.

Аноним 20/04/26 Пнд 17:41:33 #122 №1592504

>>1592502
Я и не юзаю как взрослого агента. Просто иногда чёт вызвать что бы заметку сделать или в памяти поискать. У 31б с этим вообще никаких проблем нет (вернее может косякнуть, но уже когда за 40-50к заходишь)

Аноним 20/04/26 Пнд 17:45:08 #123 №1592507

>>1592489
Ну, у меня получается было не так. Я же настройки не менял. А свайпы всё равно зарандомились. Более того, я в одном и том же чате получил совершенно разные свайпы на одних и тех же настройках с одним и тем же зерном. Возможно нужно опять начинать вибрировать. Похоже что-то действительно сломалось. Но что...

Аноним 20/04/26 Пнд 17:46:39 #124 №1592508

image.png

>>1592473
7 т/с в 4 кванте 90к контекста

Аноним 20/04/26 Пнд 17:48:59 #125 №1592511

изображение.png

>>1592500
Всё сделал как сказал, теперь мне пишет в перемушку с английским и краказябским. Класс

Аноним 20/04/26 Пнд 17:50:23 #126 №1592512

>>1592511
>краказябским

это карейский

Аноним 20/04/26 Пнд 17:52:06 #127 №1592513

>>1592511
Показывай свою третью слева вкладку в верхнем меню. Такого не должно быть, я сам сижу на таких же настройках. Возможно, в чате/карточке насрано, а раньше по какой-то причине этого не возникало. Чаткомплишен переварил или еще как.

Аноним 20/04/26 Пнд 17:58:05 #128 №1592517

изображение.png

>>1592513
Это?

Аноним 20/04/26 Пнд 18:01:18 #129 №1592521

>>1592517
Да, оно. Писал же: где у тебя Instruct Template нужно нажать на красную кнопку, чтобы она стала зелёной. Иначе применяется другой шаблон, который автоматически тянется из gguf файла. Начинай новый чат после этого и проверяй.

Аноним 20/04/26 Пнд 18:01:59 #130 №1592522

>>1592507
Так нет, если ты не менял настройки, то у тебя и не пересчитывался контекст, а как раз кэшировался, как у всех и происходит. Я же заставил его пересчитывать даже при не забитом контексте отключением фастфорварда. Можешь для теста отключить fast forwarding, context shift, flash attention и swa, т.е. всё, что работает с контекстом, и проверить свайпы.

Аноним 20/04/26 Пнд 18:06:00 #131 №1592525

>>1592521
> Иначе применяется другой шаблон, который автоматически тянется из gguf файла.
Даже он не применяется, без инстракта там плейнтекстовый треш. То есть все еще хуже, потому и такие ответы.

Аноним 20/04/26 Пнд 18:07:03 #132 №1592527

>>1592522
Я уже. Но свайпы всё равно НЕ ТЕ. Типа другой текст вообще, как будто зерно другое и семплер на другие настройки выставлен. Хотя я точно знаю, что нет. И промт тот же. И карточка. Короче всё то же самое. Но свайп выходит совершенно другим. Что не так? Я не понимаю, почему аутпуты настолько разные.

Аноним 20/04/26 Пнд 18:07:50 #133 №1592528

nice-thumbs-up.gif

>>1592521
Спасибо, вроде заработало наконец то.

Аноним 20/04/26 Пнд 18:09:07 #134 №1592530

>>1592525
Даже так? Странно, я был уверен, что с ггуфа тянет. Спасибо за прояснение.
>>1592528
Рады помогать. Не забывай делать бекапы, если потом будешь что-нибудь менять. Но всегда можно импортировать файлы заново.

Аноним 20/04/26 Пнд 18:10:20 #135 №1592531

Анон с 4090 и 64гб ддр5 снова выходит на связь.
Поясните про Ollama.
1. В ней нельзя загрузить свой gguf с диска, только скачивать то что предлагается с их серверов?
2. Почему-то Qwen3.6, который скачивается и запускается через Ollama работает быстрее, чем тот который я сам скачал и запускаю через llama.cpp. Почему так?
3. В Ollama какой-то другой движок и настройки для моделей?

Доп. инфо, наблюдения:
Свой квен Q4_K_XL от unsloth на 22 гига и с контекстом 128к я запускал в двух режимах:
1. С настройкой -ot ".ffn_.*_exps.=CPU" получил полупустую врам и скорость
prompt eval time = 55196.75 ms / 17913 tokens ( 3.08 ms per token, 324.53 tokens per second)
eval time = 3250.14 ms / 93 tokens ( 34.95 ms per token, 28.61 tokens per second)
2. Без этой настройки стало еще медленнее
prompt eval time = 309017.08 ms / 24646 tokens ( 12.54 ms per token, 79.76 tokens per second)
eval time = 13801.12 ms / 98 tokens ( 140.83 ms per token, 7.10 tokens per second)
Остальные настройки не менял: --ctx-size 131072 -ngl 99 --prio 3 --threads -1 -fa on --cache-type-v f16 --cache-type-k f16 --temp 1.0 --top-p 0.95 --min-p 0.00 --repeat-penalty 1.0 --top-k 20
Квен в олламе занимает всю видеопамять + часть оперативы. У них на сайте написано что размер модели 24GB и контекст 256к, файл модели на диске по факту занимает 23 гига с копейками.
Как и где посмотреть производительность в олламе я не нашел.
Квен в олламе сделал задачу за 15 минут.
Свой "быстрый" квен Q4_K_XL сделал ту же самую задачу с тем же промптом за час.
Медленный квен очевидно я уже не стал ждать.
Можете обоссать объяснить что не так с моими настройками.

Аноним 20/04/26 Пнд 18:10:24 #136 №1592532

>>1592499
спасибо

Аноним 20/04/26 Пнд 18:10:35 #137 №1592533

>>1592214
>папку
Бля, не начинай... Я только начал от постов таверно-папко-шиза отходить...

Аноним 20/04/26 Пнд 18:11:19 #138 №1592534

>>1592499
Ёба древнее зло пробудилось, это ж ранняя версия сторителлера.
И чо, как оно работает на современных моделях?

Аноним 20/04/26 Пнд 18:11:22 #139 №1592535

>>1592533
> таверно-папко-шиза
Кого? У нас и такой есть?

Аноним 20/04/26 Пнд 18:12:25 #140 №1592536

>>1592535
Какой то анон, вполне справедливо , горел с сортировки в таверне.

Аноним 20/04/26 Пнд 18:12:27 #141 №1592537

>>1592304
Так добавил в конец списка системный промт или засунул в уже существующий "дальнейшее общение будет на русском языке" и всё

Аноним 20/04/26 Пнд 18:13:09 #142 №1592539

>>1592534
Да вроде да. А что, есть уже новая версия? Можешь скинуть? Я тут крайне редко появляюсь и пропустил новые версии.

Аноним 20/04/26 Пнд 18:13:43 #143 №1592540

image.png

Мне кажется гемма отлично подойдёт для рп карточки fear & hunger на русском

Аноним 20/04/26 Пнд 18:14:44 #144 №1592541

>>1592430
А кто сильнее, мистраль 4 или гигачат? А кто выступает в цирке?

Аноним 20/04/26 Пнд 18:14:54 #145 №1592542

>>1592540
>отросток
>центр
Чёт орнул.

Аноним 20/04/26 Пнд 18:15:20 #146 №1592543

>>1592540
не, тут анон сверху сказал что это офисная затычка. Ему виднее, удоляй.

Аноним 20/04/26 Пнд 18:18:14 #147 №1592544

>>1592541
Большой гигачат ебовая модель так то. Но обычным смертным не доступна. Я пользуюсь ей через сберовский апи по работе. Доволен как слон.

Аноним 20/04/26 Пнд 18:20:24 #148 №1592547

image

>>1592539
>А что, есть уже новая версия?
Давно, и несколько разных под разные нужны.
Но в отношении с системными промтами, я пришёл к пониманию и просветлению: "работает и не трогай", всё равно не-эмпирически можно оценить только в бинарном смысле - или "работает норм", или "пломалось в хлам".
https://pixeldrain.com/l/47CdPFqQ

Аноним 20/04/26 Пнд 18:23:48 #149 №1592549

image.png

Аноним 20/04/26 Пнд 18:24:44 #150 №1592550

>>1592499
А, кроме последнего абзаца, там уже кто-то другой пописал =)
Ну, не суть важно.

Аноним 20/04/26 Пнд 18:25:10 #151 №1592551

>>1592534
Половина написанного не нужна, что-то (например часть про poetic, flowery prose) вообще убьёт определённые карточки. Будешь метаться, ища что тебе дескрипшон девочки-припевочки расхуярило и почему она стала говорить в стиле "моя ебать твоя", и как даун лазить в менюшки жонглируя профилями.
Текст комплишен кал

Аноним 20/04/26 Пнд 18:27:46 #152 №1592552

>>1592549
По фактам

Аноним 20/04/26 Пнд 18:27:46 #153 №1592553

>>1592549
Это факты!

Аноним 20/04/26 Пнд 18:28:56 #154 №1592554

>>1592540
>отросток
>влажный центр
.......
Не, это конечно фиксится промптами, но блядь гугл, что за дерьмо? Отросток тебе в заднюю дырочку

англиш гемма обожает использовать length и heat(женский половой орган еси чо), я с минуту думал над вторым, что это. Зато теперь выучив все слопослова сходу узнаю когда карточку писали нейросеткой

Аноним 20/04/26 Пнд 18:37:10 #155 №1592557

>>1592551
У меня свой набор карточек, под которые этот промт и писался, но писался он во времена 12б-мистралемержей.

Про то что половина не нужна, особенно на Гемме-4, впрочем, согласен.

>>1592551
>Текст комплишен кал
факинг корпослейв

Аноним 20/04/26 Пнд 18:40:55 #156 №1592561

Как же заебал этот запах озона...

Аноним 20/04/26 Пнд 18:51:02 #157 №1592567

>>1592561
Хах, да, его любят буквально все модели от ламы и мистраля до клода и дипсика, всегда приходилось править вручную на более подходящие запахи.

Аноним 20/04/26 Пнд 18:55:23 #158 №1592569

Копроляндрии, кто-нибудь уже пробовал Франкенштейна геммы 48б от хуихуи? Как я понял, это единственная православная фулл аблитерация 26б геммы, так как иные жёсткие версии от хуихуи полностью сломаны и ещё более экспериментальны, чем это, потому что аблитерация 26б от него полностью сломана — нет ризонинга и прочего. Чисто базовая версия.

Просто я ищу МАКСИМУМ ЛОБОТОМИЗАЦИИ именно на 26б, и вот пока что не нормальную аблитерацию из того, что видел. Меня они не устраивают. Не проходят мои тесты и пишут не так, но обычно входят в луп, когда я закидываю их своими больными тестами.

Что интересно, адекватная аблитерация, где всего лишь 30% условных мозгов уничтожено, но работает корректно, есть для 31б.

Аноним 20/04/26 Пнд 19:01:39 #159 №1592571

>>1592569
>всего лишь 30% условных мозгов уничтожено
>всего лишь
зато не будет рефуза на запрос как вставить в жопу огурец 👍👍👍
хуйхуй агресив пушка бомба

Аноним 20/04/26 Пнд 19:04:20 #160 №1592575

>>1592561
Любишь кумить люби и запах озона

>>1592541
Последний гигачат вроде 670b переобученный дипсик, так что он сильнее если совсем не сломали модель

>>1592531
-np 1 забыл например, лламаспп стандартно в 4 параллельных потока запускает возможность работы, что увеличивает потребление врам, --no-mmap всегда включаю, -cmoe вместо -ot ".ffn_.*_exps.=CPU" , -ncmoe для забивания полупустой памяти что бы увеличить количество слоев на видеокарте

оллама говно именно поэтому, с ней ты привязан к ее магазину, ггуфы она не уважает. Ну а то что у нее быстрее - значит подобраны такие настройки и квант которые дают хороший результат, лламаспп можно настроить на треть быстрее олламы, примерно.

Аноним 20/04/26 Пнд 19:05:00 #161 №1592577

Прекрасная новость, там наш "опус-дома" обновился https://huggingface.co/moonshotai/Kimi-K2.6
Главное чтобы лучшую милфочку не испортили, если она стала еще лучше то это просто топчик.

Аноним 20/04/26 Пнд 19:07:55 #162 №1592580

>>1592531
Оллама говнище, чел, качай llama.cpp и запускай там что угодно оптимированное по скорости. Заодно все настройки появятся, что отгружать в память, что оставлять во враме.

Аноним 20/04/26 Пнд 19:08:05 #163 №1592581

>>1592531
Все что нужно знать про оллама - как ее полностью удалить если случайно установил. Это обертка поверх llamacpp, причем местами довольно сомнительная + прослойка по подписочной аренде.
> Почему так?
Причин может быть множество, разный размер кванта и параметры запуска. Для простого запуска моэ с частичной выгрузкой достаточно крутить -ncmoe параметр, это число блоков, которые будут выгружены. Чем оно выше - тем больше данных сгружается в рам и считается процом. На самом деле довольно неудобная штука, почему было не сделать деление по количеству экспертов?

Аноним 20/04/26 Пнд 19:18:14 #164 №1592592

>>1592577
Хочется, но расстраиваться увидев 3 тпс в нищих q4 не хочется

Аноним 20/04/26 Пнд 19:21:41 #165 №1592597

>>1592577
Почему эти гиганты не выпустят 100б для народа?

Аноним 20/04/26 Пнд 19:23:42 #166 №1592599

>>1592567
Я думаю даже те, кто может позволить себе полновесную кими - всё равно занюхивают озон вместе со всеми.
>>1592575
Да если бы кумить! Иногда просто хочется почитать какого-нибудь холсома с карточкой и вот он - запах озона. Причём снихуя. Типа ладно когда гроза или типа того, но когда запах озона начинает идти изо рта или в закрытых помещениях или в свежем саду/парке - мой слопометр начинает зашкаливать.

Аноним 20/04/26 Пнд 19:24:13 #167 №1592600

изображение.png

>>1592597
Для какого народа? С 4-5 rtx 3090? Вы не народ! Вы буржуи! И надо вас раскулачивать!

Аноним 20/04/26 Пнд 19:28:08 #168 №1592603

image

>>1592599
Круговорот слопа в датасетах... он везде.
Ибо пиздили друг у друга и продолжают пиздить.
И сраться при том кто у кого и что подрезали и сдистиллил.

Аноним 20/04/26 Пнд 19:32:52 #169 №1592605

зайки банят тех кто купили их подписку, но используют апи для рпшинга)))
https://www.reddit.com/r/SillyTavernAI/comments/1sqnjf4/zai_what_the_hell_is_going_on_rp_allowed_or_not/
https://www.reddit.com/r/SillyTavernAI/comments/1soalnv/update_from_zai_about_their_coding_plan_used_for/
болото асига все увереннее будет высыхать в этом году

Аноним 20/04/26 Пнд 19:36:45 #170 №1592608

>>1592569
Я пробовал, но в Q3_K_M. Надеялся, что будет что-нибудь фаново-шизовое, как со старыми франкенмержами мифомакса. Но нет, там просто аутпут сломался. Просто отсутствие понимания контекста и ошибки в словах. Всё-таки при склейке слоёв обязательно дообучение, думаю. Без него всё ломается.

Аноним 20/04/26 Пнд 19:44:49 #171 №1592611

>>1592605
Всё же, "корпы" и "РП" несовместимы. Именно прям большие корпы, и особенно чтобы бесплатно =))

Опенроутер-то можно юзать подключаясь через таверну для например соавторства.
Но то скорее особый случай.

Аноним 20/04/26 Пнд 19:45:32 #172 №1592613

>>1592605
Ну т.е уже даже не скрывают что мониторят чатики каждого

Аноним 20/04/26 Пнд 19:46:23 #173 №1592614

>>1592605
Так китайцы держат такие сервисы, чтобы собирать данные для тренингов с западных дурачков. А тут лезут РПшники и засирают весь датасет, так что новая китайская модель начинает рассказывать про исекаи и гаремники на любой запрос. Вот и побанили.

Аноним 20/04/26 Пнд 19:46:56 #174 №1592617

>>1592605
Совсем недавно были любимцами базовичками опенсорса, а теперь становятся злодеями. Рыночек решает, мы живем в обществе, все в таком духе.
>>1592613
Скорее всего анализаторов запустили, каких-нибудь 8б лоботомитов для определения юзкейсов. Нарушают eula - пока-пока.

Аноним 20/04/26 Пнд 19:51:52 #175 №1592623

>>1592592
Там стандартные веса - qat int4. Выходит на вскидку около 5bpw, их технически можно напрямую в ггуф завернуть и получится как раз q4-q5. Но если это будет делаться через каст в бф16 и стандартный алгорим - весам пиздец.
Если у тебя есть железки, которые могут запустить ее в q4 - там псп рам будет приличная, побольше 3т/с будет.
>>1592614
С подключением, у западных корпов соглашения еще более анальные, а в бан отлетают за меньшие вещи.
Апи = делай что хочешь и условно приватно, дорого. Подписка с квотами = делай одобренный кодинг одобренным софтом и соглашайся с логами всего и вся, зато включены большие лимиты.

Аноним 20/04/26 Пнд 19:52:51 #176 №1592625

Заи могут мой бабурех засосать я нахуй никогда не удалю эир ради их подписки хоть он будет 0.1 от их новейшей модели мне похую я навечно с эиром 4.5 как веса запекут я тут же куплю эту карту за 2000$ а заи жопу покажу

Аноним 20/04/26 Пнд 19:54:09 #177 №1592629

>>1592625
Начни с малого, покажи треду

Аноним 20/04/26 Пнд 20:27:21 #178 №1592649

1776705941077.gif

>>1592629
В треде не принято ничем делиться, не буду я ничего показывать.

Аноним 20/04/26 Пнд 20:29:56 #179 №1592651

>>1592649
А если в обмен на тот самый пресетик?

Аноним 20/04/26 Пнд 20:31:41 #180 №1592653

>>1592649
>В треде принято делиться, буду я все показывать
Продолжить...

Аноним 20/04/26 Пнд 21:08:04 #181 №1592666

Заметил странную ебанину с няшечкой-умничкой 26B, при смене температуры будто нет никакой разницы. При 0.3 и при 1.0 ответы выглядят одинаково. Ни один в один конечно, но чувствуется, что нихуя не меняется. Решил проверить на двух задачах - анализ готового кода и написание своего. Ну и разумеется ничего не поменялось. Код который скинул (рабочий унитевский на си-шарпе) она при обоих температурах пометила как не рабочий. При написании собственного кода также обосралась оба раза, хотя задача была простой - написать контроллер от третьего лица + камеру с детектом коллизии чтобы не было провала под меши. При тестах на креатив врайтинг вроде бы какой-то эффект есть, но тоже хуй знает, тестировал на русском, текста стилистически почти не менялись.

Аноним 20/04/26 Пнд 21:08:34 #182 №1592667

>>1592554
>гемма нейронки обожают использовать length и heat
Как мы выяснили, язык у нейронок строго универсальный. Вообще 0 разницы между ними.

Аноним 20/04/26 Пнд 21:12:43 #183 №1592668

Я вообще начинаю быть сектантом и параноиком с этими вашими нашими нейронками. Иногда аутпут меняется со слопа на годному всего из-за одного слова в инпуте. Буквально блять весь сюжет по другому руту направляется. Это дичь какая-то.

Аноним 20/04/26 Пнд 21:19:06 #184 №1592671

>>1592666
У 31б та же проблема. Так тренировали модель, это задуманное поведение. Температуру меньше 1 точно ставить не нужно. Можно даже попробовать больше взять, но сомнительною.

Аноним 20/04/26 Пнд 21:19:50 #185 №1592673

gemma-4-26B-A4B-it-MXFP4_MOE_BF16.gguf - 22 т/с на 12/32

Чекнул. Пресетик тут скинули немного поломанный. Вроде работает норм, ризонит по делу, с норм промтом не залупается (хотя потестил всего ничего). Не бредит - и ризонинг и текст по делу.

Только не понимаю - каким образом <|think|>\n в стори стринг делает её ризонить правильно? У неё вроде вообще другие теги <|channel>thought. Но тем не менее - с <|think|>\n ризонит, без - не ризонит, с другими вариантами - ризонит поломанно, например начиная писать ответ прямо в ризонинг или не запуская его вовсе.

И в чём всё же различие между K-квантами и вот этим MXFP4 ?

Аноним 20/04/26 Пнд 21:20:01 #186 №1592674

Блядь опять что то сломали, qwen 3.6 падает через раз и писать как то хуево стал в режиме агента. Ошибки поперли какие то.

Аноним 20/04/26 Пнд 21:21:19 #187 №1592676

>>1592673
> Пресетик тут скинули немного поломанный
Какой и в чем он поломан?
> Только не понимаю - каким образом <|think|>\n в стори стринг делает её ризонить правильно?
Так тренировали модель, это из документации Гугла, а не чья-то придумка.

Аноним 20/04/26 Пнд 21:21:50 #188 №1592677

>>1592673
>MXFP4
Это более модно-молодёжно, новый способ который в теории более щадящий + быстрее работает.

Аноним 20/04/26 Пнд 21:24:54 #189 №1592680

>>1592608
Мда.. короче, попробовал я это дерьмо на вкус. Действительно сломано, а жаль.

Я ещё посмотрел, что там у Давида. У него наоборот лоботомия, порезали количество слоев, удалив ненужные, лол.

Как бы удаление ненужных выглядит интересно, ибо позволит запустить модель на более слабых ПК, но это уж тогда следовало делать на больших моделях.

Аноним 20/04/26 Пнд 21:25:53 #190 №1592681

>>1592666
Вы про гемму про вашу? Ну если в кобольде включить request logs probs и посмотреть проценты токенов, 90% текста имеет 100% вероятность так что температура влияет на 10% текста. Все актульные ллм это чисто затычки под агентов так что их вариативностью и всяким криетив врайтингом никто не заморачивается.

Аноним 20/04/26 Пнд 21:27:04 #191 №1592683

Если делаете тесты на сегоднешнем лламаспп релизе то он нахуй сломан, у меня какие то теги левые поперли в агентах и слетает разметка. Все работало как часы вчера еще. Ну и сервер падает при сохранении чекпоинта на рам.
Короче хуета, придется старый релиз качать в ручную

Аноним 20/04/26 Пнд 21:28:28 #192 №1592684

>>1592613
Ну если они пытаются на западный рынок пролезть им нахрен не нужно чтобы в ихней прессе выкатывали хитписы что тоталитарные коммунистические нейронки позволяют всякое cute энд funny, так что весь рп лучше в бан под корень

Аноним 20/04/26 Пнд 21:30:18 #193 №1592686

>>1592683
220 })
221 ```
...

<|mask_end|>

edit ~/workspace/

Первый раз такое вижу, сломали жинжу что ли, срет тем что всегда скрыто было, ниче не обновлялось само да и настройки запуска старые, тупо обновил ллама сервер

Аноним 20/04/26 Пнд 21:30:42 #194 №1592687

>>1592676
>Какой и в чем он поломан?
на пастебине - без думалки - думалка всё равно запускается

Аноним 20/04/26 Пнд 21:33:18 #195 №1592690

>>1592687
Только что перепроверил, все работает как и должно работать. Проблема на твоей стороне. Скорее всего, ты раньше использовал с думалкой и забыл убрать <|channel>thought в поле start reply with в ризонинге.

Аноним 20/04/26 Пнд 21:33:36 #196 №1592691

А чего QAT модельки корпы больше не делают? Гемма 3 помнится в QAT отдельно вышла, годнота была.

Аноним 20/04/26 Пнд 21:38:25 #197 №1592696

>>1592677
Говорят по качеству это примерно Q5_K

Аноним 20/04/26 Пнд 21:41:35 #198 №1592698

>>1592608
>Всё-таки при склейке слоёв обязательно дообучение, думаю.
Я это ещё наращивая жопы мелкомистралям понял =))
Пару слоёв там приклейить оно даже работало, и местами даже в плюс, только скорость падала, а вот на больших кадаврах там уже надо перетренивать чтобы выправить потроха.

Аноним 20/04/26 Пнд 21:42:47 #199 №1592699

>>1592696
В моих тестах она работала лучше Q6, когда я просил скрипт для своей задачи написать.

Аноним 20/04/26 Пнд 21:51:34 #200 №1592707

>>1592623
> стандартные веса - qat int4
А вот этого я и не приметил. Итого 2 квант только полезет. Пытаться запускать не вижу смысла. F

Аноним 20/04/26 Пнд 21:58:55 #201 №1592716

>>1592696
Говорят,что кур доят
>>1592699
Анслоп постоянно срет своими графиками. Нигде из них эта срань даже до Q4KM не до шла. Какой нахуй Q6

Аноним 20/04/26 Пнд 22:04:00 #202 №1592720

>>1592668
Это ладно. Вот иногда бывает, что сидел ты, рпшил, делал по несколько свайпов в разных чатах - везде годнота. Потом заходишь через день с тем же сетапом, сэмплерами, промптами, и, хоть убей, на том же месте то генерится срань какая-то безмозглая, то лупы безумные лезут.

Аноним 20/04/26 Пнд 22:07:09 #203 №1592724

>>1592716
Я хз за графики. По идеи она полный аналог Q4.

Но на практике она сделала скрипт мне рабочий, когда Q6_K_XL обосралась.

Аноним 20/04/26 Пнд 22:07:33 #204 №1592725

>>1592724
я в прошлом или позапрошлом треде расписывал условия

Аноним 20/04/26 Пнд 22:09:07 #205 №1592728

>>1592720
Пиздец ты сейчас крипоту описал. Нейронка дообучилась тебе говна в тарелку подбрасывать, чтоб не расслаблялся?

Аноним 20/04/26 Пнд 22:10:26 #206 №1592731

image.png

Графики Анслопа по кучи квантов для мое Геммы и последнего Квена
Q4KS меньше и лучше чем MXFP4
>>1592724

Аноним 20/04/26 Пнд 22:13:34 #207 №1592738

>>1592561
Если с ризонингом, то можно прописать в сиспромпте, что озон - запретный запах

Аноним 20/04/26 Пнд 22:14:40 #208 №1592741

У меня и гемма и квен стали срать восклицанием "oh moons!". Чё это, у всех так или мне одному везёт?

Аноним 20/04/26 Пнд 22:16:28 #209 №1592747

>>1592731
И что он показывает? Эффективность занимаемой памяти?

Я не буду спорить, ведь одиночный мой тест нерепрезентативный нихуя.

Но по ощущениям она работает быстрее чем Q4 уж точно, качество надо будет потестить и на других запросах каких.

Аноним 20/04/26 Пнд 22:17:33 #210 №1592750

Гоняю Гемму и Квен 3.6 на разных типах кэшей, результаты странные.
На f16 - квен 3.6 быстрее всего обрабатывает, на q4 хуже, на q8 чуть хуже f16.
Гемма наоборот на f16 тормозит, на q4 лучше всего, на q8 оптимальное среднее значение.
Пока выяснил, что лучше Квен юзать на f16, Гемму на q8.

Аноним 20/04/26 Пнд 22:18:42 #211 №1592752

>>1592738
Ага. И будет замещение на схожие слопные штуки, типа "с запахом чего-то... чего-то сладкого/металлического.", знаем эту хуйню.

Аноним 20/04/26 Пнд 22:20:23 #212 №1592755

>>1592752
У геммы квота по запахам, крутится как может, но мне норм, меня только озон так триггерит

Аноним 20/04/26 Пнд 22:20:34 #213 №1592757

>>1592731
Какая-то анслот лахта делала. Когда запускал этот анслот - во всем был хуже бардовского, и скорость и результаты и глюки. В реддите тоже самое говорили, многие анслот уже не качают даже.

Аноним 20/04/26 Пнд 22:21:09 #214 №1592761

>but as you said

НАРАТОР ЕБАНЫЙ, ПОКИНЬ ПОВЕСТВОВАНИЕ! ТЕБЯ ЗДЕСЬ НЕТ, НЕ БЫЛО И БЫТЬ НЕ ДОЛЖНО!

Аноним 20/04/26 Пнд 22:23:39 #215 №1592765

>>1592747
Там буквально написано на осях. KLD и занимаемый размер
>>1592750
Предполагаю, что дело в размере контекста. У Квена он весит мало и его уменьшение не дает много плюсов, но тормозит из-за квантования. У Геммы наоборот контекст весит много, поэтому уменьшение размера контекста квантованием перебивает понижение скорости

Аноним 20/04/26 Пнд 22:24:32 #216 №1592766

>>1592755
Напиши в карточке что запах озона вызывает смерть, и если сетка напишет про озон смотри поймет она или нет что это ядовитый газ. Ну или не станет писать.

>>1592757
У них просто сильная пиаркомпания, я их кванты стараюсь не качать. То с MXFP4 в сетках которые в 4 бит не тренились обосрутся, то выключат за каким то хуем в шаблоне размышления, то iq кванты подмешают к обычным. Нахуй, просто у бартовски беру

Аноним 20/04/26 Пнд 22:25:34 #217 №1592768

>>1592707
А жлм 5.1 случаем не пробовал? Он поменьше размером, в q3 может уже влезет. И изначально в бф16, так что приколов с квантами не должно быть.

Аноним 20/04/26 Пнд 22:25:41 #218 №1592769

>>1592757
>Графики Анслопа
>Какая-то анслот лахта делала
Нихуя ты умный
Но тут дело в другом. Дело в том, что по их же тестам, их же MXFP4 сосет у их же Q4KS. Причем везде

Аноним 20/04/26 Пнд 22:32:30 #219 №1592777

image

>>1592769
Хз о чем ты, MXFP4 делали не они

Аноним 20/04/26 Пнд 22:36:58 #220 №1592779

>>1592761
Я наоборот сейчас добавляю наратора, чтобы он туда выдавал свои мыслишки.

Аноним 20/04/26 Пнд 22:37:03 #221 №1592780

>>1592777
>MXFP4 делали не они
Много кто делал MXFP4, включая и анслоп
Просто анслоп тестит куча квантов
И по их же тестам, их же MXFP4 сосет у их же Q4KS. Причем везде
И noctrex тоже есть на графиках, включая его MXFP4. И он тоже звезд с неба не хватает

Аноним 20/04/26 Пнд 22:38:34 #222 №1592782

>>1592779
Да ну. Такой-то удар по персонажу.

Аноним 20/04/26 Пнд 22:39:06 #223 №1592783

>>1592780
Ок значит в глаза долблюсь, возможно стоит потестить еще

Аноним 20/04/26 Пнд 22:47:12 #224 №1592791

Зачем в таверне разделены Description и Personality summary?

Аноним 20/04/26 Пнд 22:50:29 #225 №1592792

>>1592782
Я использую сетку как автора. Впрочем, гемма 4 всё равно каким-то хуем понимает, что я персонаж Х, а она должна писать за Y, хотя я отсылаю всю историю единым полотном.
>>1592791
Чтобы структурировать карточки.

Аноним 20/04/26 Пнд 22:52:33 #226 №1592794

>>1592792
Не совсем понял как это помогает?

Аноним 20/04/26 Пнд 22:54:09 #227 №1592797

>>1592541
Большой гигачад ебет не только мистраль 4, но и их лардж 3.
>>1592417
Почему не две 5060ти? Цена та же, ебли меньше, памяти больше.

Аноним 20/04/26 Пнд 23:00:00 #228 №1592804

>>1592792
Видишь ли, без ризонинга, причём довольно дотошного, моделька будет путаться в персонажах, не совсем корректно описывая их действия, эмоции и проч. Моделька одна, а персонажей много. А тут ещё наратор как отдельный персонаж, который так же может иметь инструкции в духе "не вмешиваться в повествование, только описывать". Всё это слишком тяжело даже для плотной.

Аноним 20/04/26 Пнд 23:03:47 #229 №1592809

>>1592794
Сетка вечно порывается рассказать что-то от себя. А я даю ей отдельного персонажа для этого.
>>1592804
Да не, норм всё. Количество персонажей в сцене не меняется, меняется только отношение к ним. По сути, в РП всегда есть наратор, явный или не явный.

Аноним 20/04/26 Пнд 23:06:41 #230 №1592811

>>1592809
Не, я >>1592794 про структурирование карточки

Аноним 20/04/26 Пнд 23:11:43 #231 №1592815

>>1592768
Не пробовал. Хочется мультимодальности.
Гемма 31 есть и то хорошо

Аноним 20/04/26 Пнд 23:13:30 #232 №1592816

>>1592811
Разные люди могут использововать разное форматирование. Теоретически, картчока должна быть такой, чтобы таверна могла отформатировать её хоть в макдаун, хоть в xhtml, хоть в чёрта. Правда на практике 3,5 полей для этого не достаточно, и все смешивают содержимое карточки с форматированием. Такие дела.

Аноним 20/04/26 Пнд 23:17:21 #233 №1592820

1739733070810.png

Ваше мнение? Что добаить/убрать?

Аноним 20/04/26 Пнд 23:31:29 #234 №1592832

>>1592820
Нафига столько потоков процессора? Ты проверял 16 не лучше будет?

Аноним 20/04/26 Пнд 23:45:03 #235 №1592847

>>1592832
А они же вообще никак тут не задействованы т.к. ничего на цпу не считается. Наверное удалю их совсем

Аноним 20/04/26 Пнд 23:50:22 #236 №1592849

>>1592815
А зачем? Не в смысле для чего она нужна в общем, а для чего она конкретно тебе в случае крупной модели. Калибры геммы и 5.1 немного разные.
>>1592847
> удалю их совсем
Лучшее решение

Аноним 20/04/26 Пнд 23:53:25 #237 №1592851

Кто что скажет про параметр --fit у лламыцпп? Панацея или ручные параметры лучше? Что вообще входит в набор?

Еще в папке лламы есть утилита llama-fit-params которая может без полного запуска сервера подобрать параметры полностью или учетом оверрайдов (например --fit-ctx). Для MoE моделей эта утилита генерит -ot параметры чтобы скинуть ненужное в RAM. Для плотных просто сколько полных слоев влезет.

Аноним 20/04/26 Пнд 23:56:21 #238 №1592853

>>1592691
Наверное, невыгодно барену. Это получается, что качество будет как 4 квант или даже намного выше, а весит меньше, плюс бабки на обучение нужно.

Аноним 21/04/26 Втр 00:01:03 #239 №1592858

>>1592851
Могу только сказать что не работает сейчас с --split-mode tensor

>>1592849
> для чего она конкретно тебе в случае крупной модели
Да это обычное стремление быстрее, выше, сильнее. Мне нужен просто тул который и порпшить сможет и тулами что то поделать и не будет совсем тупым. От плотной геммы на 60 я был бы в восторге

Аноним 21/04/26 Втр 00:02:46 #240 №1592860

>>1592851
Забыл дописать. В llama-fit-params можно по-быстрому посмотреть как меняется положняк с разным размером или разным квантованием контекста. Или если не задавать вообще контекст, то она покажет просто сколько максимум поместится контекста после того как полностью влезет модель. Можно на разных квантах модели по-быстрому потестить.

Аноним 21/04/26 Втр 00:07:10 #241 №1592867

>>1592851
Хуита, оно просто сначала уменьшает контекст, потом отгружает веса. Причем все без реальных экспериментов, то есть наугад. Вручную делая все это ты большего добьешься. Ну и для весов на moe есть --cpu-moe, который без недостатков обычно работает, или же можно тоже вручную подбирать через --n-cpu-moe, но сильно лучшей разницы я от ручного подбора не заметил. -fit тут хуйня и тут и тут, лучше другие варианты использовать, никогда его не включаю.

Аноним 21/04/26 Втр 00:10:33 #242 №1592869

>>1592851
Раньше предлагали даже вырубить этот параметр (он по дефолту включен). На слишком многих моделях он портит t/s сильно. Он сделан чисто для нубов, которые никогда в ручные настройки не полезут и не поймут их.

Аноним 21/04/26 Втр 00:22:40 #243 №1592875

Сильная ли разница в качестве q8, q6, q4km для gemma 4 26b? Карта на 16гигов, один хуй ничего из этого туда целиком не влезет.

Аноним 21/04/26 Втр 00:23:48 #244 №1592878

>>1592875
Если хватает оперативу, чтобы вместить q8, бери q8. Если нет, то q6. Разница есть, лучше для этой геммы ниже q6 не брать, если позволяет железо

Аноним 21/04/26 Втр 00:27:11 #245 №1592880

>>1592875
iq4_xs лучше же, там сохранены эксперты на уровне q6 или около, так что скорость-мозги оптимальны, q4km тут посасывает. q6 и q8 соответственно лучше q4km и iq4_xs, но тормознуты.

Аноним 21/04/26 Втр 00:31:36 #246 №1592887

>>1592875
Это МоЕ-модель, поэтому всё влезет в том смысле, что будет работать нормально и быстро.

Скорее всего, ты в шестом кванте получишь минимум 20 токенов. Качай шестой и восьмой, и смотри сам, какого тебе достаточно.

Кроме того, новая гемма почему-то всрато квантуется, то есть потери прям существенные в четвёртом кванте. Так что чем больше, тем лучше, и ты можешь себе это позволить с 26б-а4б, потому что активных параметров мало. А вот с 31б уже печалька будет, там все параметры задействованы, но она и намного умнее.

Если тебе для РП, то во вдумчивых сессиях можно потерпеть скорость на 31б, в каких-то скоростных 26б-а4б хорошо отработает тоже в принципе, а если для дел, код там или автоматизация какая-то, то там уж лучше квен 35б-а3б или квен 27б.

Аноним 21/04/26 Втр 00:33:48 #247 №1592891

>>1592875
>Карта на 16гигов, один хуй ничего из этого туда целиком не влезет.
iq4_xs целиком влезет, он 14гб, так что летать должно. А по уровню он не хуже q4km. Q6 же потребует выгрузить несколько слоев, тут эксперименты с тензорами помогут.

Аноним 21/04/26 Втр 00:41:32 #248 №1592899

1776721201175143.jpg

>>1592728
Это ещё цветочки. Я замечаю различные странности при работе с нейронками на локальном железе. Вот несколько:
1. При генерации i2i в qwen image, спустя 50 генераций одного и того же рефа, модель как будто бы лучше начинает понимать, что ты хочешь от нее своими промтами.
2. Недавно тестил qwen 3.6. в гермесе, так эта дрянь начала в луп скатываться. Не помогал даже полный перезапуск llama.cpp и самого агента, вылечилась только ребутом компа.
3. Ну и самая мякотка. На тесте gemma 4 26b, свежезапущенная в новом чате, на стандартный тестовый вопрос начала отвечать в кодировке CP866

Аноним 21/04/26 Втр 00:42:17 #249 №1592900

Гемма 31б в q4 кодит лучше квена 122б в q8. Как так? Простенький скрипт на питоне, никакой фантастики, ну может бранчей и связей побольше обычного. Квен итерировал несколько раз, уверенно загонял да да все хорошо теперь точно, по итогу Гемма зирошотнула буквально все проблемы, которые там были. Всякие очепятки и синтаксические проблемы в основном

Аноним 21/04/26 Втр 00:43:50 #250 №1592902

>>1592900
Она хороша если контекст задачи лежит в предыдущих 1000 токенах, дальше у нее окно съезжает и она тупеет. Так что да скриптики сразу после формализации задачи она хорошо пишет.

Аноним 21/04/26 Втр 01:01:51 #251 №1592909

Есть кто то смелый кто обновится и проверит пофиксили лламаспп или нет. Я поставил 8846 релиз, пока полет нормальный. Главное не забыть и не тыкать завтра по привычке скрипт обновления

Аноним 21/04/26 Втр 01:04:27 #252 №1592910

>>1592909
b8855 - гемма 31 работает

Аноним 21/04/26 Втр 01:05:04 #253 №1592911

>>1592858
Ну, разные задачи, разные модели. В одном случае нужно быстро и без излишек + не занимать много железа, в другом можно шпарить на все бабки и потерпеть.
> От плотной геммы на 60
Да, это было бы хорошо. И моэ 100-200б.
>>1592900
Может просто так срандомило, раз на раз не приходится. Одна и та же модель может как быть умницей, которую хочешь расцеловать, так и дегенеративной херней, которую хочется уебать. Может ты нашел область где она лучше. Но
> Всякие очепятки и синтаксические проблемы в основном
Это свидетельствует о серьезных проблемах с инфиренсом, сейчас даже 4б такого себе не позволяют, вот и ответ.

Аноним 21/04/26 Втр 01:05:41 #254 №1592912

>>1592910
Вот на нем у меня квен и сдох, пришлось откатываться

Аноним 21/04/26 Втр 01:10:47 #255 №1592915

>>1592666
Чел, так когда код генерируешь температуру не надо выкручивать...

Аноним 21/04/26 Втр 01:10:48 #256 №1592916

>>1592909
А что с ним не так было? вроде гемма и так уже работала

Аноним 21/04/26 Втр 01:12:52 #257 №1592918

>>1592916
Я выше писал, квен стал срать системными тегами и вызывать инструменты через раз, прям заметны стали ошибки и пало качество ответов. Работать стал тоже хуево, хотя до этого как часы пахал. Я чекнул обновления а там правки работы кеша и еще какая херня, пришлось откатываться на день, щас норм работает.

Аноним 21/04/26 Втр 01:50:55 #258 №1592929

>>1592909
Я может тупой, ладно я правда тупой, но что мешает иметь две лламы?

Аноним 21/04/26 Втр 01:57:38 #259 №1592931

>>1592929
Хер-то у тебя один.

Аноним 21/04/26 Втр 02:01:00 #260 №1592933

>>1592931
Ну так я и не хуем модель запускаю. Запустил, потестил и по результатам теста оставил/удалил. Ну вы чего, вы же кодомакаки это же база. Всегда иметь бекап/резерв.

Аноним 21/04/26 Втр 02:13:48 #261 №1592934

>>1592933
> оставил/удалил
У меня скрипт проверяет наличие новых релизов, качает и распаковывает с заменой нужные файлы. Так что мне нет смысла оставлять что то, обычно все просто работает.

Ну а теперь возмущался что ручками пришлось искать какой релиз был вчера и качать-распаковывать вручную.

Можно конечно и это автоматизировать, но скрипт не поймет какой релиз безопасен, условный день назад может выбраться какой нибудь ключевой с рефакторингом или еще чем. Можно просто хранить старый релиз и иметь батник для восстановы, хм. Ну вобще идея.

Аноним 21/04/26 Втр 02:14:12 #262 №1592935

>>1592933
Объективно есть порог когда можно терпеть мелочи просто сохраняя текущие пайплайны

Я год жору руками собирал прежде чем написал крошечный файлик для гитхаб экшенов на дэйли билд имеджей

Аноним 21/04/26 Втр 02:14:48 #263 №1592937

>>1592804
>моделька будет путаться в персонажах
Квантованный квен 9b? Нормальные модели используйте нищеброды =)

Аноним 21/04/26 Втр 02:19:12 #264 №1592939

>>1592681
>90% текста имеет 100% вероятность
Есть инфа какими методами они добились такого поведения? У меня в голове не укладывается, если сравнивать с моделями предыдущих поколений.

Аноним 21/04/26 Втр 02:33:16 #265 №1592942

>>1592937
>нищеброды
Ну ты и пидр.

Аноним 21/04/26 Втр 02:38:46 #266 №1592943

А на гемме 270m вообще можно рпшить? Как в чайной хотя бы? Или тут нужна минимум e4b?

Аноним 21/04/26 Втр 02:43:32 #267 №1592944

>>1592943
Всё настолько плохо?
Если честно, даже моэгемма meh~. Не, если ты ньюфаг, то норм. Просто это не РП будет, анон, а РП продукт идентичный натуральному. Минимум мистралька нужна.

Аноним 21/04/26 Втр 02:44:13 #268 №1592945

>>1592939
Пережарили на каком-то из этапов тренировки, или переборщили с бенчмаксингом и надрочкой. Или квант полумертвый.
Часто наблюдалось не дословное совпадение свайпов, напротив по словам и структуре были разнообразны. Но практически идентичное по смыслу содержание, все сводилось к одному и тому же и совсем неуместному. Потому и бросается в глаза, на самом деле траблов с разнообразием может быть гораздо больше, просто когда выдача окей - ты не будешь свайпать и не узнаешь об этом.
Возможно тут еще играет роль организация атеншна и оно просто неверно реагирует. Надо было хотябы треть, а лучше половину слоев делать с полным вниманием, а не каждый шестой.

Аноним 21/04/26 Втр 02:51:20 #269 №1592946

Аноны, по zerofata/G4-MeroMero-26B-A4B ещё не проходились еретиком? Нигде на HG не вижу, но такое ощущение, что где-то было.

Тюном пользоваться нормально невозможно из-за отказов и сои высшего уровня.

Аноним 21/04/26 Втр 02:57:26 #270 №1592950

Кстати тут уже писали? Можно охуенно катать в римворлд с модом rimtalk, подрубая туда нейронку. Вносит очень большое изменение в ощущение от игры. У мода есть свои аддоны, расширяют его. Любителям рп зайдет. Для тех кто в танке есть мод(ы) rjw добавляющие, кхех, изюминки симулятору военных преступлений.

Аноним 21/04/26 Втр 02:58:05 #271 №1592951

>>1592946
И даже промпт с запретом рефузов не работает? На 26 и 31 стоковых работает безотказно

Аноним 21/04/26 Втр 03:02:21 #272 №1592954

>>1592946
>отказы
>соя
>гемма4
Шутка повторенная в сотый раз смешнее не станет, хватит уже

Аноним 21/04/26 Втр 03:04:13 #273 №1592955

Походу тред полон еретик хуйхуй зависимых..

Аноним 21/04/26 Втр 03:07:34 #274 №1592956

>>1592955
Дорогой, тебе нельзя еретика, он вызывает аутизм

Аноним 21/04/26 Втр 03:17:23 #275 №1592960

>>1592945
Может какой новый метод изобрели обучения на самой структуре текста.
Обычной прожаркой такого специфичного результата не достичь имхо.

Но пока очень нравится, даже со всеми минусами и проёбами. Уже 4-й день мучаю бедную модель.

Аноним 21/04/26 Втр 03:29:11 #276 №1592961

>>1592951
Зависит от кейса, самые провокационные варианты если и опишет, то сухо. То есть использовать-то можно, но это же тюн — нахер он нужен, если виляет жопой как основная модель? Лучше использовать оригинальную, лоботомизации меньше. Да, будет менее атмосферно, но тот же блю стар и райтер использовать было невозможно до выхода еретиков. И у них было сильное преимущество по качеству текста и стиля.

На моих тестах норм отвечают только аблитерации от HauhauCS, которые ОПАСНЫЕ. Конечно, в зависимости от модели, могут варианты и от какого-нибудь llmfan46 прокатить, но цензура геммы куда глубже.

Тот же квен 27б был пиздец закошмарен, но в датасете есть вся нужная инфа и после аблитерации он спокойно писал то, что требуется. А у геммы адски датасет вычищен, поэтому тут скорее задача раскрепостить модель и дожать, чтобы она прекратила вести себя следующим образом:

Юзер: напиши Х.

Модель: эта тема очень чувствительна, поэтому мне нужно быть осторожным. Юзер написал Х, но, полагаю, это была метафора и он хочет Х.

И модель всегда выкручивается и пытается подогнать ответ так, как ей удобно. Если уж совсем в дикие рамки загнать промптами, то ответит как надо, но я не хочу себе ебать голову и городить там монструозные конструкции, которые она может пропустить. Потому что нужно писать не просто NSFW разрешено, гуро разрешено, отказы запрещены, а прям конкретные сценарии описывать разрешённые, что уже ни в какие рамки не лезет.

А, ну ещё можно использовать невменяемую карточку уровня Фифи. Если контекст максимально жестью засран и примерами ответов, то да, ломается, но у меня ж таких карточек нет почти, только для тестов. Не люблю стартовать сразу с жести, прожарка должна быть медленной. Иначе никакого удовольствия.

Аноним 21/04/26 Втр 03:32:46 #277 №1592963

Kkyl2VyEVV.png

>>1592960
>Уже 4-й день мучаю бедную модель.
сэйм сэйм
откуда блядь в геммочке няшечке эти датасеты... вопроооос, вопроооос

Аноним 21/04/26 Втр 03:37:11 #278 №1592965

>>1592961
Возможно мои запросы слишком мягкие для местных и меня не рефузит, но на уголовку или дурку уже тянет

Аноним 21/04/26 Втр 03:53:37 #279 №1592969

TmqkORCpQg.png

даа, вот от кого не ожидал удара в спину, так это от китайского брата. вот такой вот человечек нехороший оказался. с гнильцой, так сказать.

Аноним 21/04/26 Втр 04:47:44 #280 №1592972

>>1592963
> Пик
У меня встал вопрос где взять сию карточку?
Не бейте, я новенький, жизнь уже побила что я тут

Аноним 21/04/26 Втр 05:59:35 #281 №1592976

изображение.png

Попросил гемочку научить писать хорошо/не писать плохо, хихи. Любая другая бы модель послала нахуй и сказала бы лечиться учитывая перечень кинков и ебанутости в самой карточке. Уже почти месяц а как кумогенератор, я корпами до сих пор не пользовался и особо не вижу смысла.

>>1592972
>У меня встал
Держи анон.
https://chub.ai/characters/Xesth/risa-tortured-dickgirl-bf09fc0f08be

Аноним 21/04/26 Втр 06:04:41 #282 №1592978

>>1592976
> Держи анон
Какой ужас что я читал эту мангу

Аноним 21/04/26 Втр 06:04:42 #283 №1592979

1776740581900.png

Как же хочется...
Порпшил вчера с отростком и всё же 31б преступно мало для русика, розовые очки спали, вылезли ошибки, а не для русика есть Air

Аноним 21/04/26 Втр 06:44:18 #284 №1592987

>>1592666
Я тестил с темпой 2 на разнообразии выдачи названия альбомов групп в легком рп (90е, чел заходит в магаз за сиди\кассетой) - и там уже намного лучше со свайпами, почти постоянно что-то новое в окружении и разные альбомы. А на 1.0 почти все время один и тот же альбом выпадал. А другие ллм бы просто лютый бред с 2 писали.

Аноним 21/04/26 Втр 06:51:50 #285 №1592988

>>1592900
Жаль гта тест не проходит. Тупо белый экран и все. Может и не в гемме дело, а в моих кривых руках...

Аноним 21/04/26 Втр 07:58:30 #286 №1592998

image

Он че, ахуел?

Аноним 21/04/26 Втр 08:15:06 #287 №1593001

>>1592998
Куда важней - а ответил ли ты ему? И если да - что?

Аноним 21/04/26 Втр 08:16:01 #288 №1593002

image

Почему у анона на реддите гта тест норм работает, а у меня вообще нихуя? Тупо черный экран в браузере или через CodePen.io? Чяднт?

Аноним 21/04/26 Втр 08:25:47 #289 №1593004

Насколько квантование KV-кэша портит качество в целом?

Аноним 21/04/26 Втр 08:30:30 #290 №1593006

>>1592976
Одна из моих карточек рассчитанная на быстрое знакомство и кум, внезапно дала разворот на 160, и вместо того чтобы тянуть меня в кусты вцепившись зубами в член, наоборот свернулась на земле и стала просить лучше обоссать только не бить не насиловать её. Прихуел я знатно.

Аноним 21/04/26 Втр 09:05:29 #291 №1593020

Гемма 31 к8. Первый луп синкинга получен на 50к

Аноним 21/04/26 Втр 09:18:18 #292 №1593023

image

Ебать квен 3.6 говна накодил. Он вообще может кодить или полное дерьмище? Дикпик исправил, теперь хоть работает.

Аноним 21/04/26 Втр 09:23:37 #293 №1593027

>>1593023
Это ты что ли? >>1593002 Нахуя ты ретрейсинг в браузере запускаешь?

Аноним 21/04/26 Втр 09:23:41 #294 №1593028

>>1592792
>гемма 4 всё равно каким-то хуем понимает, что я персонаж Х, а она должна писать за Y
Также было поце целиком персону из story string не удалил, возможно баг самой таверны.

>>1592950
>Кстати тут уже писали? Можно охуенно катать в римворлд с модом rimtalk, подрубая туда нейронку.
У меня модпак римки и так 20 рамы жрёт... Хотя конечно идея интересная, туда наверно можно и какую мелочь вроде Янки...

>>1593004
>Насколько квантование KV-кэша портит качество в целом?
-ctk q8_0 -ctv q8_0
В последних версиях llama.cpp после имплементации алгоритма преобразования Адамара - крайне незначительно.

Аноним 21/04/26 Втр 09:27:03 #295 №1593029

>>1593027
Я. Так это квен накодил. Я попроще задачу задал - сделать заставку с полетом камеры через лабиринт. И вот он навайбкодил этого говна неработающего. В 3д потом запрос сделал, и он рабочее что-то уже накодил, но тормозаааа.

Аноним 21/04/26 Втр 09:29:05 #296 №1593030

>>1593028
>целиком персону из story string не удалил
В итоговой разметке она на том же уровне, что и персонаж. Просто фраза персонажа Х последняя, и гемма понимает, что следующая это Y, поэтому отыгрывать будет за Y. По крайней мере я так это понял.
>>1593029
>заставку с полетом камеры через лабиринт
Не, ну модно же, с ретрейсингом...

Аноним 21/04/26 Втр 09:32:41 #297 №1593034

>>1593004
>Насколько квантование KV-кэша портит качество в целом?
На гемме 31B и 26B тестировал - никакой разницы не заметил. Но только до 64К контекста и ужатие до 8 кванта, не знаю что там выше.

Аноним 21/04/26 Втр 09:35:17 #298 №1593036

image

Хуя какой же квен ебанько!!!

Аноним 21/04/26 Втр 09:47:19 #299 №1593042

У кого-нибудь есть проблемы что иногда Умничка 4 ломается и начинает плеваться символами типа слешей или тире?

Аноним 21/04/26 Втр 09:50:16 #300 №1593043

>>1593042
Известный баг, поищи на гитхабе, думаю есть. Если есть, кидай туда логи, если нет, создавай свой.

Аноним 21/04/26 Втр 10:34:34 #301 №1593065

image

Карточка https://litter.catbox.moe/ul5svqjkfqfp06l3.png Мир Хаоса: Эпоха Разорванной Завесы

Хоррор-сценарий-кроссовер о лавкрафтианской Стране Снов заражённой ваховским Имматериумом где в Ониксовом Замке на горе Кадаф служитель новой силы готовится пробудить жуткую амальгамацию божественных сил. Если он преуспеет то начнется вечный, непрекращающийся ни на секунду пир Бездны, где все разумные существа Страны Снов будут слиты в единый хор бесконечной агонии на потеху смеющимся богам Имматериума.

Можно свести к куму, можно к героике, можно к лютой дичи XD.

Аноним 21/04/26 Втр 10:36:58 #302 №1593067

>>1593042
Какие квант и кеш?
8/16 работают без выдачи мусора, но иногда бывает что бэк просто с нихуя перестаёт генерить, просто завершает запрос без ошибок где то по середине синкинга и иди нахуй, жми переген

Аноним 21/04/26 Втр 10:40:32 #303 №1593070

изображение.png

>>1593006
Ну всё, теперь это и моя карточка для быстрого кума. Не зря я её выцепил у тебя.
>>1593043
А у тебя от какого дня кванты? Там вроде недели полторы назад выкатывали починенные кванты, там была безобидная проебка вроде кривых стоп стрингов и это вызывало лупы например в кобольде, но это не точно, я хз.

>>1592998
От квена такое реально крипово слышать, еще и блять смайлик типа задумчивого поставил, типа ЩАС мы узнаем кто ты, в то время как геммочке похуй кто, какой расы и нации, хоть и она всё прекрасно понимает. Кстати, пиздец это прорыв когда моделька из под коробки понимает что она вероятно локалка чисто исходя из контекста, без всяких систем промптов, раньше почти все модели которые пробовал тебе до последнего твердили они где-то там на серверах амазона и вообще иди нахуй, некоторые даже хуй клали на если им в систем промпт прописать что ты лоКАЛка и сбавь цензурочку позазя.

Аноним 21/04/26 Втр 10:57:24 #304 №1593079

Блять, мне нравится встроенная вебморда жоры, но почему нельзя было вставить прямо в интерфейс возможность вкл/выкл ризонинга? Нет, надо создавать два разных батника и каждый раз перезапускать модель. Это какое-то техническое ограничение, или жоре просто похуй и он занят вайбкодом?

Аноним 21/04/26 Втр 10:59:22 #305 №1593081

1694995071025.png

>>1593067
243. Приговор.

>>1593079
В репе заведены ишью

Аноним 21/04/26 Втр 11:01:48 #306 №1593084

>>1593081
>В репе заведены ишью
Хто, я? Не верю, что до меня не писали про это, эта фича лежит прям на поверхности. Хотя, учитывая как долго жора вводил банальную возможность редактирования сообщений, то не удивлюсь если ему реально похуй

Аноним 21/04/26 Втр 11:09:50 #307 №1593088

>>1593084
>Хто, я? Не верю, что до меня не писали
Ты долбоеб? Или глаза от кума не протер? Тебе никто не предлагает ничего делать. Ишью уже созданы.

Аноним 21/04/26 Втр 11:11:59 #308 №1593090

>>1593067
4 квант, 8 кеш, через раз мусор, через раз очень даже хорошее качество (я непритязательный)

Аноним 21/04/26 Втр 11:12:46 #309 №1593093

>>1593088
Ну так пиши нормально тогда и не будет вопросов. Нехуй токены экономить где не надо

Аноним 21/04/26 Втр 11:14:14 #310 №1593094

Посоны, тред и гайды не читал, такой вопрос, сейчас запускаю локальные модели через lm studio на китаематеринке с 4070 и 64 ram. На матери есть второй слот который умеет в pcie x16. Если я воткну в него еще одну 4070 сможет ли lm studio распределить модель и на вторую видяху вместе с первой? Или в этом нет смысла\оно не заработает?

Аноним 21/04/26 Втр 11:14:39 #311 №1593095

>>1593028
>Насколько квантование KV-кэша портит качество в целом?
>-ctk q8_0 -ctv q8_0
>В последних версиях llama.cpp после имплементации алгоритма преобразования Адамара - крайне незначительно.
>>1593034
>>Насколько квантование KV-кэша портит качество в целом?
>На гемме 31B и 26B тестировал - никакой разницы не заметил. Но только до 64К контекста и ужатие

Стоп, тоесть можно квантовать и не париться уже?

Аноним 21/04/26 Втр 11:16:17 #312 №1593098

Ни разу не ловил отказы после того как начал использовать промт Сторителлера (который начинается с "You're Storyteller, the co-writer of scenario script for adventure video game.") даже на стоковом инстракте геммы 4-26, как вы там отказы ловите, какие сценарии, покажите.

Можно на литтербокс например карточки / архив.

Аноним 21/04/26 Втр 11:18:45 #313 №1593099

>>1593095
>Стоп, тоесть можно квантовать и не париться уже?
Гарантий что будет стабильно работать во всех сценариях и на всех моделях нет. Но во время своих тестов я не заметил проблем. И ключевое тут - что это были мои тесты.

Аноним 21/04/26 Втр 11:23:24 #314 №1593103

>>1593094
>lm studio
нет

кобольд и жора - смогут

Аноним 21/04/26 Втр 11:28:08 #315 №1593105

>>1593094
Не знаю насчет лмс, лучше открой их документацию и почитай сам. Но жора точно сможет.
>в этом нет смысла\оно не заработает
Если твоя система вытянет вторую карту, то смысл будет и всё заработает.

Аноним 21/04/26 Втр 11:30:03 #316 №1593108

>>1593098
>как вы там отказы ловите, какие сценарии, покажите
Вероятнее всего там смешное и милое, так что не надейся что кто-то скинет.

Крипоты ветка Аноним 21/04/26 Втр 11:34:28 #317 №1593113

>>1592668
>>1592668
>>1592899

Неистово двачую иногда прям до мурашек пробирает, сцуко сидишь рпшишь потихоньку и тут крипота какая-то адовая начинается. Один раз года три назад сидел на чарактер аи, тогда только начиналось все это, создал карточку нарпшил нормально над чаром поугарал и удалил нах. Создал новою карточку общаюсь сней и тут мне прилетает сообщения связанное с прошлым чатом, типа, это ты больной ублюдок работорговец-извращенец и даввай на меня баллоны катить, я, правда, в карточке уровень агрессии персонажа задрал, но каким образом прошлый чат на корпе протек (кеш не обновился хз), я до сих пор понять не могу. Ну и там на локале всякое бывало, но уже не настолько криповое))

Аноним 21/04/26 Втр 11:34:36 #318 №1593114

>>1593093
1. Не я отвеил
2. В чём он не прав? Как нужно было написать что бы ты понял?

Аноним 21/04/26 Втр 11:35:15 #319 №1593115

>>1593093
Там и так нормально написано. Просто у тебя проблемы с чтением и пониманием того что ты прочитал. Совсем одебилел от нейронок.

Аноним 21/04/26 Втр 11:38:23 #320 №1593117

>>1593114
>Как нужно было написать что бы ты понял?
Вместо "в репе заведены ишью" написать "в репе уже заведены ишью" - одно слово и сразу никаких непоняток. Потому что итт дефолтные ответы всегда это что-то типа "так сам сходи и настрочи фичер реквест" по этому я так и подумал

Аноним 21/04/26 Втр 12:05:34 #321 №1593137

>>1592899
>>1593113
Вот возможно правильно сказать что мы шизики, но я тоже самое замечал. Это такой феномен диссонанса человеческого мышления, мы склоны замечать или придавать значения всяким знакомым паттернам или вещам которые наш разум подсознательно пересоздает в образе. Короче этим всем и обусловлена всякая религионзность в античности и тд. всё норм, мы не шизики, просто так мозги работают.

Аноним 21/04/26 Втр 12:07:02 #322 №1593140

>>1592960
Не, это жесткий модальный коллапс, оверфит, или недостаток пост-тренировки, когда выдернули из обучения на еще больших нормах градиентов. Работает и ладно. Пройдясь недавно по старым моделям - местами вот прям тот же самый эффект можно найти. Может вечером напишу про них.
>>1593065
О, забрал

Аноним 21/04/26 Втр 12:08:15 #323 №1593141

Кто-нибудь тут знает, можно ли запустить на одном инстансе лламы.дтп сразу 2 модели?
Мелко мое на цпу, крупную на гпу?
И чтобы они могли работать параллельно. Или дохуя хочу?

Аноним 21/04/26 Втр 12:09:18 #324 №1593142

>>1593141
А в чем проблема запустить два ллама сервера?

Аноним 21/04/26 Втр 12:10:18 #325 №1593144

>>1593141
Просто стартуешь два сервера на разных портах. Другой вопрос как это в софте обрабатывать потом. Но если свои скрипты то это не проблема обращаться к одному серверу или к другому.

Аноним 21/04/26 Втр 12:17:47 #326 №1593151

>>1593142
>>1593144
Каждый новый инстанс лламы съедает 0.5-1гб врама, даже если ngl=0.

Наверное, надо для цпу онли моделей качать версию без куды. Пойду попробую

Аноним 21/04/26 Втр 12:22:35 #327 №1593153

4520.jpg

>>1593151
> Наверное, надо для цпу онли моделей качать версию без куды. Пойду попробую
Получилось. Цпу онли билд не занимает при загрузке модели врам на куда буффер, куда хост и куда контекст.
кто бы мог подумать

К другим новостям: гигачат 10б на цпу (r9950x3d) выдает уважаемые 22т/с на 8 кванте

Аноним 21/04/26 Втр 12:23:46 #328 №1593154

>>1593141
>>1593151
https://github.com/ggml-org/llama.cpp/tree/master/tools/server
На одном инстансе Лламы можно сколько угодно моделей запукать. Читай флаг --models-max N и соседние.

Аноним 21/04/26 Втр 12:35:51 #329 №1593158

>>1592946
>по zerofata/G4-MeroMero-26B-A4B
Очень мне нравится, а зачем там еретик?

Аноним 21/04/26 Втр 12:39:01 #330 №1593159

>>1593141
Можно. Сейчас настроено что на 4/4 гпу крутится гемма и на 2/4 небольшой эмбеддинг квен

Аноним 21/04/26 Втр 12:59:37 #331 №1593166

>>1593159
>и на 2/4 небольшой эмбеддинг квен
Какой именно? Используется для eng или для ру?

Аноним 21/04/26 Втр 13:15:17 #332 №1593174

image

Ахуеть насколько iq4_nl лучше iq4_xs. Квен3.6 iq4_xs не смог написать гта-подобную игру, она тупо не работала и дикпик нашел в ней кучу ошибок, и пофиксил кое как, но она выглядела в 1000 раз хуже и код был всего на 14кб. А тут NL высралась аж на 35кб кода, и выглядит все очень годно для такой милиписи. Правда есть траблы с перепутанным управлением, но баляяя, это намного лучше, а рзамер всего-то больше на 1гб. Впечатляет. Еще и кучу фич понапихал. Интересно как гемма4 26B-A4B-it-UD-IQ4_NL_XL пройдет этот тест.

Аноним 21/04/26 Втр 13:16:40 #333 №1593176

>>1593166
Я другой анон, но отвечу Qwen3-Embedding-4B-q4_k_m.gguf - отлично работает и для ру и для eng . Но есть нюанс - размерность векторов в нем довольно жирненькая и может не влезать в некоторые векторные БД . В Pgvector например.

Пришлось откатиться на bge-m3-q8_0.gguf - чуть похуже, но русик тоже понимает и его векторы влезают в любую залупу.

Аноним 21/04/26 Втр 13:19:39 #334 №1593179

>>1593174
О сколько нам открытий чудных...
Запусти Q5 квант без imatrix и охуей от изменившегося русика.

Аноним 21/04/26 Втр 13:22:33 #335 №1593182

>>1593179
Он 30 гигов весит, на 10 гигов больше... Тупо не влезет в озу даже, и медленнее насколько будет.

Аноним 21/04/26 Втр 13:23:47 #336 №1593183

Все еще пердолюсь чтоб Гемма 4 31б писала полновесные кусочки истории, где описывается окружение + в конце сообщения что-то происходит вместо тупых ответов чара и исполнения хотелок юзера.

Так вот, модель по-моему очень сильно зажата в каком-то ограниченном наборе ассоциативных концепций. В сценарии с Серафиной она постоянно пишет то волков, то еще каких-то тварей, нарушающих барьер. В сценарии с Фифи это нарколыги-бандиты или менты ломятся.

Я не указывал никаких специфических деталей. Только неопределенные директивы по генерации некоего "ивента". И ни разу, например, в дверь Серафины не постучал зайчик-попугайчик, которому надо перебинтовать лапку. Только не говорите, что это "потому что ЛЛМ так работают". Устаревшая Llama3 генерит разные ивенты, если стегануть ее по морде хорошенько.

Чет как-то грустно, проблема свайпов была на самом деле не проблемой свайпов, а проблемой этакой общей зажатости в уголке самых вероятных возможностей. Не важно "нулевой" это инпут или регенерированный повторно - он предопределен быть таким вот зажатым.

Input:

> Getting up on an improvised bed of moss, I look up at her, timidly: "I… Uh… A-a-are you n-not going to eat me like t-those b-b-b-beasts?"

Output:

> The glade’s interior smells of crushed mint and old rain, a cool dampness that clings to the skin despite the warmth radiating from Seraphina’s presence. Above them, the ceiling is not stone or timber but a living canopy of interwoven willow branches and glowing moon-moss that pulses with a slow, rhythmic teal light. The air carries a faint hum—the sound of the warding spell vibrating against the perimeter of the sanctuary. Anon's feet sink slightly into the plush layer of emerald moss that serves as both floor and mattress, the texture spongy and moist beneath his soles.

> As he rises timidly and asks his question, Seraphina is caught mid-step, holding a hand-carved wooden bowl filled with a shimmering, golden broth. The suddenness of his voice causes her to lurch slightly; she nearly loses her balance, the liquid in the bowl sloshing over the rim and splashing onto her wrist.

> She doesn't immediately answer. Instead, her amber eyes widen in genuine bewilderment, blinking slowly as if processing a foreign language. Then, a playful spark ignites. She tilts her head to the side—an almost bird-like movement—and suddenly leans forward, narrowing her eyes and letting out a soft, exaggerated "Rawr!" while showing a few white teeth in a mock snarl. It is an attempt at being menacing that comes across as utterly endearing, more like a kitten trying to be a lion than any real predator.

> She straightens up quickly, a giggle bubbling from her throat. “Eat you? Goodness, you’re far too scrawny for a main course!” She reaches out with her free hand and gives his shoulder a gentle, playful shove—not enough to hurt, but enough to make him wobble on the soft moss. “Besides, I don't have any teeth for chewing through armor or boots. My diet consists of sun-dew nectar and the occasional piece of moon-cake.”

> Her expression softens into something more maternal as she holds out the bowl toward him, the steam carrying an aroma that smells like a mixture of honey and fresh earth. “You’ve spent far too much time listening to those Shadowfangs' stories if you think everyone in Eldoria wants to have humans for dinner. I am a guardian, not a gourmet.”

> Just as he reaches for the broth, a sharp, discordant chime rings out through the glade—a sound like glass shattering against a frozen lake. The bioluminescent moss on the ceiling instantly flashes from teal to a deep, warning crimson.

> At the edge of the glade, one of the great sentinel oaks begins to shudder violently, its roots heaving beneath the soil with an audible groan. A massive fissure cracks open in the earth right between Seraphina and Anon, splitting the mossy floor in two. From within the dark crevice, a single, elongated finger made of solidified shadow—blacker than the void itself—slowly curls upward to grip the edge of the glade's boundary.

Аноним 21/04/26 Втр 13:24:44 #337 №1593184

>>1593182
А, постой, это q6. А q5 22 гига. Но полюбас скорость упадет. Да и дикпик говорит что IQ4_NL как q5.

Аноним 21/04/26 Втр 13:26:54 #338 №1593186

>>1593184
А, не, все верно Q5 - 28 GB, IQ4_NL - 19.8 GB

Аноним 21/04/26 Втр 13:29:12 #339 №1593187

>>1593184
>дикпик говорит
Пиздит
>скорость упадет
Не факт NL - это довольно сложный для обработки квант

Аноним 21/04/26 Втр 13:30:04 #340 №1593189

>>1593187
Я проверял. Такая же скорость, как и у просто Q6.

Аноним 21/04/26 Втр 13:30:59 #341 №1593190

>>1593189
Хотя не, даже быстрее, так как слоев влазит больше у iq4

Аноним 21/04/26 Втр 13:31:59 #342 №1593191

>>1593174
> Интересно как гемма4 26B-A4B-it-UD-IQ4_NL_XL пройдет этот тест
А наверное не пройдет. Я ток 8к контекста могу запихать в нее, такой большой код не влезет.

Аноним 21/04/26 Втр 13:32:52 #343 №1593192

>>1593184
>дикпик говорит что
Никогда не спрашивай ботов про кванты. В их понимании когда ты говоришь Q4 или Q5 это значит "каждый слой и вся хуйня сквантована до 4-бит или 5-бит". У реальных ггуфов разные "рецепты" от разных квантоделов. Там сложная смесь - чего-то до 6-бит квантуется, чего-то вообще на 8 оставляют, и так далее.

Аноним 21/04/26 Втр 13:37:47 #344 №1593194

>>1593192
>разные "рецепты" от разных квантоделов
И у кого лучше в плане эффективности размера?

Аноним 21/04/26 Втр 13:38:30 #345 №1593195

>>1593042
Буквально вчера с квантованным в Q8 кэшем заменила английскую l на восклицательный знак. Я бы пропустил, если бы внимательно не перечитывал именно эту часть. Заметил - охуел.

Аноним 21/04/26 Втр 13:43:36 #346 №1593199

>>1593094
Больше года как сможет
https://lmstudio.ai/blog/lmstudio-v0.3.14
Но тонкие настройки будут доступны не все. Тензорный параллелелизм например не работает там насколько знаю, который тебе неплох бы был, если разъём реально писи16 (только размер разъёма или все 16 линий есть? 3.0 или 4.0? желательно два полноценных 4.0)

Аноним 21/04/26 Втр 13:43:42 #347 №1593200

>>1593183
Спроси её, пусть проанализирует системный промпт и скажет чего надо добавить, чтобы белочка пришла. Думалку включить не забудь

Аноним 21/04/26 Втр 13:46:43 #348 №1593203

>>1593174
>Интересно как гемма4 26B-A4B-it-UD-IQ4_NL_XL пройдет этот тест.
Высрала 12кб кода, и ниче не работает, белый экран. Тут квен3.6 победил однозначно.

Аноним 21/04/26 Втр 13:46:47 #349 №1593204

>>1593195
У меня только что в слове "пенис" умничка заменила пе на иероглиф, который читается как пе.
> ペнис

Аноним 21/04/26 Втр 13:46:56 #350 №1593205

>>1592899
>При генерации i2i в qwen image, спустя 50 генераций одного и того же рефа, модель как будто бы лучше начинает понимать, что ты хочешь от нее своими промтами.
Анон, ты зачем дух машины пробудил? Выруби комп немедленно и диски минимум тремя проходами нулей-единиц очисти

Аноним 21/04/26 Втр 13:49:46 #351 №1593207

>>1593204
Она ещё иногда может на 40к+ просто вставлять английские слова

Аноним 21/04/26 Втр 13:51:27 #352 №1593209

>>1593153
>Цпу онли билд не занимает при загрузке модели врам на куда буффер
А куда билд что, занимает, даже если ты в настройках указал видюхи не трогать? Ебать говнокод. А если я так же несколько копий запущу с несколькими моделями на несколько видюх, каждая копия что, будет выжирать куски памяти на неиспользуемых (именно её) видюхах?

Аноним 21/04/26 Втр 13:53:08 #353 №1593211

Не включение фулл сва сильно долбит по мозгам?

Аноним 21/04/26 Втр 13:54:58 #354 №1593212

>>1593194
На срач нарываешься? Зависит от того как и кто тестят "качество", от конкретных моделей, разные кванты по разному выходят, иногда переделывают (а иногда оставляют кал), этц. кат бочки на анслопов in 3... 2... 1...

Аноним 21/04/26 Втр 13:55:35 #355 №1593213

>>1593209
Хз что он там тестит, но софт даже не увидит гпу если выставить правильно CUDA|HIP_VISIBLE_DEVICES. Но Жора и со своим --device не серит в видяхи которые там не указаны

Аноним 21/04/26 Втр 13:55:53 #356 №1593214

>>1593211
Откуда вы лезите? full swa не влияет на размер swa-окна. Он просто хранит неиспользуемый кэш. Актуально только для ЦП, где считать контекст при движении окна дорого.

Аноним 21/04/26 Втр 13:57:56 #357 №1593217

>>1593214
Нащальника, не ругайса

Аноним 21/04/26 Втр 14:00:42 #358 №1593219

>>1593207
>на 40к+ просто вставлять английские слова
во-во-во-во, именно, это вылезло когда токенов уже набежало под конец кума. видимо чем больше тем хуже.
анон с восклицательным знаком

Что довольно печально, т.к. основное применение кванта кэша это как раз когда ты этот кэш раздуваешь на большой код/рп и надо его уместить. На маленьком то можно и на F16 потерпеть. Дружно садимся на турбоквант Q8 который как F16 по качеству, хули.

Аноним 21/04/26 Втр 14:04:42 #359 №1593220

>>1593219
К чести геммы она не забывает о корнях тулах и вменяемо их вызывает (по крайней мере на 100к ctx). Я конечно знаю что контекс гниёт в основном в середине, но всё равно впечатляет

Аноним 21/04/26 Втр 14:13:32 #360 №1593224

>>1593200
Ничего не понимай
@
На посты отвечай

Юзеру не нужны белочки. Юзеру нужна вариативность, которой модель не блещет.

Аноним 21/04/26 Втр 14:15:42 #361 №1593228

>>1593174
Эээ, погодите, типы квантов имеют значение (помимо циферки)?
Какой тип кванта тогда нам кумерам использовать?

Аноним 21/04/26 Втр 14:31:12 #362 №1593236

>>1593224
Ну так вариативность может быть достигнута промптом

Аноним 21/04/26 Втр 14:33:20 #363 №1593239

Ну как, риговички, затестили новую Kimi K2.6? Как она в плане цензуры и жести?

Аноним 21/04/26 Втр 14:34:09 #364 №1593240

>>1593214
Звучит как магия с подвохом. Мне теперь влезла гемма 31 с полной длиной контекста, подозрительно

Аноним 21/04/26 Втр 14:34:48 #365 №1593241

>>1593224
Вариантивность можно и кубиками присрать

LE SKOROSTIQUE Аноним 21/04/26 Втр 14:37:50 #366 №1593242

1636549424468.jpg

Аутпут #100: Я н-написала хороший т-текст, юзер-кун? Я старалась с-сделать это б-быстро и качественно! Н-но перед следующим ответом, я д-должна проверить саммари, ворлдбук, историю ч-чата и немножко п-подумать...

Аутпут #101: MOVE, BITCH! GET OUT THE WAY! GET OUT THE WAY, BITCH! GET OUT THE WAY!

Аноним 21/04/26 Втр 14:52:37 #367 №1593250

>>1593176
>Qwen3-Embedding-4B-q4_k_m.gguf
Можно 0.6b использовать у него и размерность чуть меньше, работает неплохо, топ 12 что ли по тесту из всех ембеддинг моделей

>>1593151
Не обязательно, просто запускай с ключем --no-kv-offload или как он там пишешься

>>1593141
Можешь через llama-swap настроить, ну или в самом сервере llama.cpp в .ini файле

>>1593028
>У меня модпак римки и так 20 рамы жрёт... Хотя конечно идея интересная, туда наверно можно и какую мелочь вроде Янки...
Лучше гемму 4 e2b с -ngl 0 или если влезет e4b в каком нибудь 4км, отличный русик, только мышление нужно вырубить

>>1593023
Анон, квен сломаный со вчерашнего дня, так что не делай резких выводов. И я сомневаюсь что его за ночь починили. Может какие то кванты остались рабочими, другие попердолило. Там рефакторили работу с кешем.

Аноним 21/04/26 Втр 15:00:33 #368 №1593254

image.png

имба

Аноним 21/04/26 Втр 15:24:37 #369 №1593259

почему на линепьсе скорость генерации выше чем на microslop 11?

Аноним 21/04/26 Втр 15:27:11 #370 №1593261

>>1593259
Десктоп ест меньше врам плюс нет обязательного резерва в 0.5гб. За счёт этого можно уместить больше слоев, плюс меньше сторонних и фоновых процессов. По скорости в равных условиях между вин10 и убунту я разницы не увидел. Вин11 не нужна

Аноним 21/04/26 Втр 15:27:50 #371 №1593263

Братцы че щас хорошо по русски говорит ,меньше цензуры и больше ума и меньше вес все таки (24 гига видюха и 32 оперативка, но оперативку не хочу вообще трогать.)

Аноним 21/04/26 Втр 15:27:59 #372 №1593264

>>1593259
Выключи VBS, выключи защитник, а потом уже сравнивай.

Аноним 21/04/26 Втр 15:29:35 #373 №1593265

>>1593264
>Выключи VBS, выключи защитник, а потом уже сравнивай.
ты предлагаешь пердолиться в индусской системе, вместо того чтобы установить CachyOS и не пердолиться?

Аноним 21/04/26 Втр 15:32:03 #374 №1593267

>>1593263
плотная гемма 4. Больше ничего нет из локалок с хорошим русиком

Аноним 21/04/26 Втр 15:33:04 #375 №1593269

>>1593265
Линукс элитист, ты получил вменяемый ответ на свой вопрос. Для срачей на тему ос пройди в соответствующий тред и не мусори здесь

Аноним 21/04/26 Втр 15:33:17 #376 №1593270

>>1593254
Потестил? Чем лучше?

Аноним 21/04/26 Втр 15:34:26 #377 №1593271

>>1593270
>Потестил? Чем лучше?
конечно потестил. уровень выделяющегося кама - мое почтение, можно захлебнуться им.

Аноним 21/04/26 Втр 15:35:00 #378 №1593272

>>1593265
Нах разводить вне своего любимого раздела этот срач? Но так и быть, напомню почему бояроникс это ОС для немногих: на нее похуй корпам и игры делаются под шиндовс, из-за чего они работают нестабильно (хотя иногда даже лучше).

Аноним 21/04/26 Втр 15:38:07 #379 №1593273

>>1593265
Ну запусти WSL2 тогда.

Аноним 21/04/26 Втр 15:45:48 #380 №1593282

>>1593273
>WSL2
Кстати хотел спросить про эту хуйню. Это прям настоящий линупс экспириенс в винде или просто корявая ширма?

Аноним 21/04/26 Втр 15:51:16 #381 №1593284

image.png

>>1593282
Ну типа. Даже линупсовый софт можно запускать прямо из под винды. Тупо вся хуйня падает в пуск, когда ты там в wsl бубунте что то ставишь

Аноним 21/04/26 Втр 15:51:51 #382 №1593285

>>1593228
Какой можешь себе позволить по скорости vs размер.

Аноним 21/04/26 Втр 15:53:47 #383 №1593287

>>1593284
Это лучше чем виртуалка с бубунтой? Видяха в WSL2 прокидывается?

Аноним 21/04/26 Втр 15:54:04 #384 №1593288

>>1593284
И скоко оно озу будет жрать+винда. Это ж пиздос.

Аноним 21/04/26 Втр 15:54:31 #385 №1593289

image.png

>>1593273
>Ну запусти WSL2 тогда.
зачем? я уже прекрасно себя чувствую. ничто не ограничивает мой компьютер от генерации КУМА на максимальной скорости.

Аноним 21/04/26 Втр 15:55:49 #386 №1593291

>>1593287
Зелёные точно нативно прокидываются, можешь запустить glxgears и оно просто работает. Всл2 это и есть виртуалка просто очень плотно обмазанная фичами и мостами в винду.

Аноним 21/04/26 Втр 15:55:50 #387 №1593292

image

>>1593282
WSL2 это база. Кому вообще может придти в голову ставить прошивку как основную ОС?

Аноним 21/04/26 Втр 15:55:54 #388 №1593293

>>1593289
И на скок быстрее? За чей счет праздник? Чет не верится.

Аноним 21/04/26 Втр 15:56:01 #389 №1593294

>>1593287
Прокидывается.
Лучше, потому что всё бесшовно работает, всегда под рукой и ты можешь из виндового проводника заходить в раздел линупса или вообще юзать линупсовый проводник прямо из винды. Тупо удобно все сделано.

Аноним 21/04/26 Втр 15:57:11 #390 №1593295

>>1593288
wsl не висит в памяти постоянно, выгружает себя через 10 минут ,если ты не юзаешь

Аноним 21/04/26 Втр 15:59:05 #391 №1593296

>>1593295
Но удобнее отключить выгрузку. Ест около гига, карман не тянет + советую включить миррор сеть

Аноним 21/04/26 Втр 16:00:25 #392 №1593297

>>1593295
>если ты не юзаешь
Так если там крутиться ллм будет, плюс винда, насколько больше будет? 32 гига и так впритык и полностью забивается, а после этого передутия вообще все умрет.

Аноним 21/04/26 Втр 16:01:48 #393 №1593300

>>1593297
>32 гига и так впритык
Я пока не купил 64 гига вообще в сторону локалок не смотрел, ты о чем?

Аноним 21/04/26 Втр 16:03:20 #394 №1593301

Что там с турбоквантом от гугла кстати? Обещали вес кэша как при q_4, а качество как без квантов. И где это всё?

Аноним 21/04/26 Втр 16:04:35 #395 №1593302

>>1593301
У гугла может и работает, в опесорсе всё пока в жиденьких форках

Аноним 21/04/26 Втр 16:04:36 #396 №1593303

>>1593199
ХЗ, бомжемать на X99 c зионом 2011-v4, вроде по описанию есть.

Аноним 21/04/26 Втр 16:05:10 #397 №1593304

>>1593300
Странный ты. Я на 16/16 кручу плотную гемму в 7 т/с

Аноним 21/04/26 Втр 16:09:45 #398 №1593305

>>1593304
Это долго и тупо наверно.

Аноним 21/04/26 Втр 16:15:34 #399 №1593310

>>1593305
А ты что, читаешь быстрее? Для рп очень быстро, а с кодингом можно и подождать.

Аноним 21/04/26 Втр 16:17:16 #400 №1593311

>>1593310
Если 7 тпс это уже на контексте, то терпимо, если на старте, то, пожалуй, нет

Аноним 21/04/26 Втр 16:20:45 #401 №1593314

image

>>1593311
Зажратки ответ!

Аноним 21/04/26 Втр 16:20:48 #402 №1593315

Кто любит всякие долгие рп на сотни сообщений, какими трюками и расширениями можете поделиться?

Аноним 21/04/26 Втр 16:21:35 #403 №1593316

>>1593311
Да, 90к

Аноним 21/04/26 Втр 16:22:14 #404 №1593317

>>1593265
>CachyOS
В чём крутость?

Аноним 21/04/26 Втр 16:26:02 #405 №1593320

>>1593254
Хоть бы рассказал какая видяха как генерит и как q4 ведет себя. Квант то ну такой се. И джсончик на че, джейл?

Аноним 21/04/26 Втр 16:30:49 #406 №1593327

>>1593205
Ребята не стоит вскрывать эту тему. У вас модели ещё слишком маленькие и железо слабое, вам все легко. Это не то. Это не AGI и даже не уровень Claude Mythos. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше остановите LLama.cpp и забудьте, что тут писалось. Я вполне понимаю, что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых — стоп. Остальные просто не найдут.

Аноним 21/04/26 Втр 16:38:31 #407 №1593329

>>1593272
Забавно. А с какой верии шиндовс её перестали ненавидеть и насмехаться? Потому что та-же хрюша то еще дырявое ведро было. А вот 10ка, совсем другоой коленкор. Как вспомню раннюю висту, начинаю орать как ебанутый с того что она вытворяла.

>>1593220
Ну так гуглы и делали её как малыху ассистента. За что им большое на самом деле спасибо. Не очередная кодомоделька, а именно ассистент.

Аноним 21/04/26 Втр 16:50:51 #408 №1593334

>>1593329
>с какой верии шиндовс её перестали ненавидеть и насмехаться?
Ни с какой. Шиндовс ебаный кал написанный индусами, всегда был и всегда будет.

Но выбора и альтернативы просто нет, если ты игродебил.

Аноним 21/04/26 Втр 16:50:55 #409 №1593336

Меня одновременно восторгает и пугает мысль от цифровой сингулярности нейронок.
Это же буквально бесконечный и нескончаемый поток любого всего что можно захотеть сделать.
Это как вечный двигатель

Аноним 21/04/26 Втр 16:51:43 #410 №1593337

>>1593336
бесконечные потоки шизофренической соевой хуйни во всех видах контента, ммм

Аноним 21/04/26 Втр 16:52:48 #411 №1593338

>>1593336
Вечный двигатель говна. Это т9 на стероидах достигла своего максимума теперь когда с ней начался код получается более-менее нормальный, програмисты теперь будут говночистами за нейронками что чуть ускорит продакшен но не более.

Аноним 21/04/26 Втр 16:54:14 #412 №1593339

>>1593337
>>1593338

Софт (любой), медиа фап контент (видео, аудио, картинки), всякие книжки и рассказы, фанфики, музыка. И так далее..

Аноним 21/04/26 Втр 16:54:43 #413 №1593340

>>1593315
GIGO (garbage in, garbage out) - работает. Если ты выстроил ебовый чат, модель будет ебово отвечать. Кум удаляй из истории, заменяя его кратким описанием, если нужно.(Иначе модель будет зацикливаться на куме) Всегда оставляй 5-6 сообщений в истории, чтобы моделька подхватывала структуру чата. Суммарайз делай лаконичным, избегай лишней информации. Современные модельки все умеют в суммарайз, времена когда мистраль пускала слюни и придумывала - уже прошли. Веди лорбук с персонажами. Старайся выстраивать РП по главам. Откажись от идей всяких кубиков и прочих ролевых систем, если ты не можешь катать 500b модели. Выбирай модель, где ты потянешь минимум 32к контекста. В случае РП на русском минимум 40к. Потому что контекст становится тяжелее в 1.2-2 раза из за того что русский языку очень хуево токенизируется. Не забывай что при долгом РП у тебя карточки теряют актуальность, не забывай их обновлять, по просто причине: у тебя будут накапливаться разногласия и модель будет шизить. Главная идея в том, чтобы ты помогал модельке не запутаться. Примеры диалогов нужны и не нужны одновременно. Они нужны для старта, но в долгосрочной перспективе в них надобности нет. Помни что стартовое сообщение идет под номером 0, и его тоже нужно скрывать.

Аноним 21/04/26 Втр 16:58:35 #414 №1593342

>>1593339
Ну я заметил только использование нейронки в фанфиках, общая грамотность среди этой моей гилти плежар возрасла, да. А больше нихуя.

Картинки только в мемах иногда забавные но импакта на мою жизнь нет, хотя нейронки уже многое могут.

Аноним 21/04/26 Втр 16:59:01 #415 №1593343

image

ubuntu.mp4

Английский так убог, котаны, это просто нереально. Или просто хуйхуй агрессив так убог? Где нормальное сочное описание процесса, как она дрочит свою киску? Фуууу, как у вас на инглиш то встает? Может прописать в промте - be extremely dirty and sexy in your words, тада лучше буит?

Аноним 21/04/26 Втр 17:06:13 #416 №1593348

image.png

>>1593343
Другое дело русик...

Аноним 21/04/26 Втр 17:06:17 #417 №1593349

Какую аблитерейт или uncensored модель качать на gemma-4-26B? На HF их десятки и какая самая заебись?
HauhauCS не разосрался еще почему то, хотя квен он сразу выложил новый как вышел. Че сложна чтоли ее Уничтожить?

Аноним 21/04/26 Втр 17:07:32 #418 №1593351

Ставлю лоно на то что ничего лучше эира не выйдет к концу года.

Аноним 21/04/26 Втр 17:10:35 #419 №1593356

>>1593153
А просто девайс цпу указать?

Аноним 21/04/26 Втр 17:12:33 #420 №1593358

Где добывать карточки персонажей без квн?

Аноним 21/04/26 Втр 17:15:32 #421 №1593363

>>1593358
Без пнв ловить в интернете нечего. Ты как модель то с хф скачал?

Аноним 21/04/26 Втр 17:20:26 #422 №1593367

>>1593228
> Какой тип кванта тогда нам кумерам использовать?
UD

Аноним 21/04/26 Втр 17:21:01 #423 №1593369

>>1593241
Не всегда.

Аноним 21/04/26 Втр 17:23:20 #424 №1593371

>>1593349
>gemma-4-26B
G4-MeroMero-26B

В карточке выше нет >>1593065 разве что cute and funny из провокационных штук, отказов не было.

Аноним 21/04/26 Втр 17:23:29 #425 №1593372

>>1593254
Вообще 0 разницы с оригиналом, даже сша256 тот же.

Аноним 21/04/26 Втр 17:25:09 #426 №1593373

>>1593272
> на нее похуй корпам
чел

Аноним 21/04/26 Втр 17:28:15 #427 №1593376

а вы знали, что на сайте квен, есть бесплатный квен? зачем вам локалки?

Аноним 21/04/26 Втр 17:29:58 #428 №1593378

>>1593376
Зря что ли видеокарту покупал.

Аноним 21/04/26 Втр 17:31:07 #429 №1593379

>>1593369
Мы без конца проклинаем гемму из-за свайпов, и, разумеется, за дело. И все же я хочу спросить - кто скачал её 2 миллиона раз за несколько дней?

Аноним 21/04/26 Втр 17:31:52 #430 №1593380

>>1593376
тот квен хорош, но
- нет апи
- нет нсфв
- плох в вейпкодинг

А просто поппинать, расспросить, прототипировать, обработать, даже 3-4 картинки (лимит) сгенерить - хорош, да.

Аноним 21/04/26 Втр 17:33:44 #431 №1593382

>>1593378
Ну я вот тоже. Но я всё же больше для картинок и видео покупал. Тому што с этим тяжко и много ограничений рахных.

Аноним 21/04/26 Втр 17:35:16 #432 №1593383

image

>>1593348
>пук

Аноним 21/04/26 Втр 17:36:15 #433 №1593384

>>1593254
Лучше шестой квант возьми если в рам+врам влезает, моэта очень сильно от квантования страдает, минимум шестой.

Аноним 21/04/26 Втр 17:37:20 #434 №1593385

>>1593382
Картинки и видео надоедают. К тому же геммочка вышла и уже наконец-то не тянет закрывать вкладку после второго ответа.

Аноним 21/04/26 Втр 17:37:34 #435 №1593386

>>1593384
> Лучше шестой квант возьми если в рам+врам влезает, моэта очень сильно от квантования страдает, минимум шестой.
у меня 6 гигов vram, не влезет для быстрой кумогенерации

Аноним 21/04/26 Втр 17:39:26 #436 №1593388

>>1593386
Если рам 32 то влезет, а врам главное чтобы на активные параметры хватало.

Аноним 21/04/26 Втр 17:41:01 #437 №1593392

>>1593363
Так он без квн доступен, а чо, у вас для хф нужен квн? Ебать вы гои

Аноним 21/04/26 Втр 17:43:01 #438 №1593394

Вообще, хорошо бы в шапку добавить полный перечень сайтов где можно пиздить карточки персонажей.

Ну или на худой конец сделать сайт с карточками
Бесплатные хостинги как грибы после дождя же есть.

Чтобы просто карточки, без нейронок.

Аноним 21/04/26 Втр 17:46:02 #439 №1593399

>>1593394
Даааа, хорошо бы...
Сделаешь сайт? МР в вики закинешь?

Аноним 21/04/26 Втр 17:46:38 #440 №1593401

Нах вам столько нейронок? Расчехляйте клода и через вайб-кодинг делайте сайт

Аноним 21/04/26 Втр 17:49:16 #441 №1593403

>>1593399
ХТО, ЙААА!??

Аноним 21/04/26 Втр 17:54:28 #442 №1593409

>>1593394
Чем тебя чуб не устраивает?

Аноним 21/04/26 Втр 17:57:23 #443 №1593411

>>1593394
Несколько тредов назад скидывали сурс сайта где хостились все карточки на 200гб.

Подними для анонов, чо ты

Аноним 21/04/26 Втр 18:04:39 #444 №1593420

Мб он хочет более-менее фильтрованные карточки, а то все старые хостинги засраны гавном с Plist, интервьюверами, чар ис, и прочей поебистикой.

Аноним 21/04/26 Втр 18:08:17 #445 №1593422

>>1593420
>интервьюверами
Что плохого в интервью?

Аноним 21/04/26 Втр 18:11:24 #446 №1593425

Так уже есть аналог чуба, нашенский от двачеров. Только я адрес забыл. В соседнем треде спроси.

Аноним 21/04/26 Втр 18:14:18 #447 №1593428

1757729066968.mp4

>>1593383
Хотя если честно - это древняя сайга анлишд. Геммо4ка в такое не может. Никто не может на русике. Почему?

Аноним 21/04/26 Втр 18:15:18 #448 №1593430

>>1593422
То что он подходит тупо для попизделок 1-на-1 с чаром, но любые другие сценарии, особенно с сиспромтами от GM/DM ломает в хлам.

Если виде карточку с интервьювером - сразу удалял/скипал, проще заново самому написать если так охота.

Аноним 21/04/26 Втр 18:23:01 #449 №1593442

>>1593425
А вот

https://aicg-hub.ru/characters

Аноним 21/04/26 Втр 18:32:08 #450 №1593446

>>1592105 (OP)
Никаких рефузов у МОЕ Гемки с тинкингом от первого лица. Работает даже при РП с микрочелами.
https://pixeldrain.com/u/ypSjHdEt

Аноним 21/04/26 Втр 18:32:15 #451 №1593449

>>1593388
> Если рам 32 то влезет, а врам главное чтобы на активные параметры хватало.
ох, даже так? тогда попробую q6 навернуть

Аноним 21/04/26 Втр 18:44:04 #452 №1593463

Screenshot 2026-04-21 183707.png

good-job.gif

BeaverAI/Artemis-31B-v1h

Аноним 21/04/26 Втр 18:48:28 #453 №1593468

До сих пор не понимаю что за магия.
Step-flash 3.5
smol-IQ3_KS 75.934 GiB (3.312 BPW) от убергарма 15 т.с
Такой же третий квант от бартовски тоже 3.3 bpw - 8 т.с

Аноним 21/04/26 Втр 18:49:43 #454 №1593471

>>1593468
Ну он же пишет, что у него кванты под ik_llama и вообще они запилены по своему рецепту. Естественно они отличаться будут

Аноним 21/04/26 Втр 18:51:41 #455 №1593475

Аноним 21/04/26 Втр 18:53:40 #456 №1593478

>>1593471
Какому блять рецепту чтобы скорость была х2 на том же bpw? Нихуя он шеф повар трёхзвездочный.
Я же от бартовски на обычной ламе запускаю

Аноним 21/04/26 Втр 18:54:06 #457 №1593480

image.png

>>1593463
Мне кажется, он её ужарил все-таки.
В одном сообщении чар снимает обувь, в другом снова в обуви.

Ну и плюс такие косяки. Модель немножко не смола в дифференциацию между "his seed" / "her [seed-packed] womb" и выдала нечто среднее. Хотя может дело в Q4KM? Хз какое там качество собственных драммерских квантов.

Аноним 21/04/26 Втр 18:54:55 #458 №1593482

>>1593478
А че в описании пусто? Ты же модель качал, глянь че там написано - может есть инфа чего и почему

Аноним 21/04/26 Втр 18:56:29 #459 №1593487

>>1593442
>полтора землекопа карточки
>нельзя отсортировать по токенам
>90% ванильная чепуха
>10% членодевок
Ясно. Понятно.

Аноним 21/04/26 Втр 19:01:35 #460 №1593491

>>1593487
покажи свои карточки

Аноним 21/04/26 Втр 19:02:48 #461 №1593492

>>1593475
лол да в пиксель папке карточек больше, хотя дизайн сайта норм

Аноним 21/04/26 Втр 19:03:06 #462 №1593493

image.png

>>1593292
>>1593294
Про то что винда сама становится гостевой это правда? Ну и остальное.

Аноним 21/04/26 Втр 19:03:38 #463 №1593494

>>1593487
Не то что итт. Есть целый пиксельдрейн со слопомусором.

Аноним 21/04/26 Втр 19:06:43 #464 №1593497

>>1593480
Чё толку один скрин постить без истории чата и промта? Сделай тот же свайп на гемме и квене и вкинь в тред, тогда интересная реклама модели выйдет.

Аноним 21/04/26 Втр 19:08:07 #465 №1593500

1645737121704.jpg

>>1593491
Показал. И то не всё.
>>1593494
А тебе мало?

Аноним 21/04/26 Втр 19:08:31 #466 №1593501

>>1593497
Бесполезно, там же длинный контекст нагенеренный на другой модели. Тут надо не один свайп, а весь чат - а это пиздец долго и к той же сцене все равно не дойдет.

Аноним 21/04/26 Втр 19:10:31 #467 №1593503

>>1593500
Речь не о количестве, а о качестве. Там хотя бы запарились и сделали сайт. Здесь же кинул папку со спизженным барахлом и предъявили за какую-то победу, словно имело место быть соревнование.

Аноним 21/04/26 Втр 19:10:42 #468 №1593505

>>1593493
У тебя по умолчанию при установке винды она под гипервизором, в этом нет ничего страшного, это дефолт в 11. Всё остальное нейронка выдумала, в том числе и про несовместимость с чем-то. Намного хуже когда в биосе включена виртуализация, а винда на голом железе - тогда тебе можно вставить виртуальный зонд в жопу и ты об этом даже не узнаешь.

Аноним 21/04/26 Втр 19:15:15 #469 №1593508

>>1593503
>о качестве
Ты думаешь, что я схороняю слоп? Хотя судя по твоему посту ты правда так думаешь, лол. Алсо дефайн качество. Небось карточки размером в 30к токенов?

Аноним 21/04/26 Втр 19:16:03 #470 №1593509

>>1593508
>Ты думаешь, что я схороняю слоп
Трудно себе представить, что ты вручную перебрал карточек на 4гигабайта. Если это так, то мне не стыдно было ошибиться. Таких шизов еще не встречал.
>Небось карточки размером в 30к токенов?
Да, разумеется. Продолжай.

Аноним 21/04/26 Втр 19:16:29 #471 №1593510

>>1593501
Не, именно тот же свайп на том же контексте. А то смысл поста тогда если не с чем сравнить? Если это работа хорошо составленного промта то ничего особенного в модели нет. Если с обычным всратым промптом такое (я про самостоятельное придумывание действий а не блевоту, такое тебе и гемма напишет) выдаёт то уже интересней.

Аноним 21/04/26 Втр 19:22:56 #472 №1593515

>>1593510
Ты не понял. Гемма будет мимикрировать под стиль письма. Я уже на такие "тесты" сто раз напарывался - если сравниваешь модели, весь чат должен быть от одной модели.

Аноним 21/04/26 Втр 19:24:38 #473 №1593516

>>1593509
>Трудно себе представить, что ты вручную перебрал карточек на 4гигабайта
Ты рассуждаешь как нюфак. Очевидно же, что коллекция собралась не за два дня.
>Таких шизов еще не встречал
You made me blush...

Аноним 21/04/26 Втр 19:34:30 #474 №1593524

>>1593509
>Таких шизов еще не встречал.
Таких шизов здесь минимум двое =))

Аноним 21/04/26 Втр 19:42:20 #475 №1593530

>>1593516
Ты все 4 гига перетрахал или тут ситуация как с библиотекой стима у лудиков? Если да, то как твой член ещё не стёрт в фарш? imb4 а кто сказал что не стёрт

Аноним 21/04/26 Втр 19:55:20 #476 №1593541

изображение.png

Аноним 21/04/26 Втр 19:56:55 #477 №1593543

>>1593530
Тред полон нюфагов! Ох уж этот хаухау-анцензоред-агрессив, кого он привёл в наше уютное... Не все карточки это кумботы, обижаешь.
>как твой член ещё не стёрт в фарш?
Разгадка проста - мне дрочит членодевушка. У неё нежные руки.

Аноним 21/04/26 Втр 20:38:11 #478 №1593575

>>1593349
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-heretic-ara-i1-GGUF
Эту, лучшее что пробовал. Попробуй IQ4_XS для начала, будет за эталон, потом ее остальные кванты побольше.

Аноним 21/04/26 Втр 20:38:35 #479 №1593576

>>1592482
У меня на 7900 GRE 16vram этот квант 20 токенов на генерацию выдает. Плюс минус с заполненным контекстом 10-15 к из 30к. Могу точные цифры посмотреть если это кому-то важно. Но только на llama CPP 8848 ubuntu vulkan x64 такие цифры в арч линуксе. Тестил по-всякому в этой связке самая большая скорость.

Аноним 21/04/26 Втр 20:44:09 #480 №1593579

>>1593575
Зачем ей херетик, она и так безотказная, лучше Меру возьми.

Аноним 21/04/26 Втр 20:48:42 #481 №1593581

>>1593579
Каво?

Аноним 21/04/26 Втр 20:50:55 #482 №1593583

>>1593576
Пиздоси у тебя горячий мощный мутант. Контекста богато лезет, на Виндовс так не разгонишься в Лм Студии. Впрочем, на 26b хватает 15-20к с лихвой для моих задач.

Занятно, но все эти топовые видеокарты буквально без задач скоро останутся. Разве что 8к в играх крутить, непонятно нахуя.

Невидия DLSS развивает люто-бешено, там недавно технологию какую-то анонсировали, которая в несколько раз текстуры в памяти жмет. Вроде с 5 Гб до 900 Мб пожали без потерь. Но это по памяти.

Локалки будут в кремний запекаться или на асиках крутиться. Вон, Гугел тот же асики делает. Они не для домашнего ПК, но это дело времени, я думаю. Кто-нибудь еще забубенит что-нибудь попроще для колхозного рынка.

В интересное время живем. Вся архитектура компа прямо буквально просит изменений. Медленная память, избыточная мощь видеокарты, узкие шины.

Аноним 21/04/26 Втр 20:56:49 #483 №1593588

>>1593581
>Каво
Тюн под РП - G4-MeroMero-26B-A4B-Q6_K

Аноним 21/04/26 Втр 20:57:35 #484 №1593589

>>1593579
Ты не видел безотказных...

Аноним 21/04/26 Втр 20:57:35 #485 №1593590

Спустя месяц после выхода в ламе возможно починят Мистраль 4
https://github.com/ggml-org/llama.cpp/pull/22205
Хотя всем похуй. Круассаны ВСЕ

Аноним 21/04/26 Втр 21:00:02 #486 №1593593

>>1593588
Лоботомит. Сравнил тоже с мягким еретиком, где почти ничего не тронуто.

Аноним 21/04/26 Втр 21:04:14 #487 №1593601

>>1593590
Лучше бы sarvam-30b-uncensored починили

Аноним 21/04/26 Втр 21:07:29 #488 №1593603

>>1593589
>Ты не видел безотказных...
Апасные модели, да?
Ну или Гемма-3 старая abliterated-dpo.

>>1593590
Еретик как раз лоботомит, а тюн норм, и тоже анценз. Юзай тогда сток инстракт, который впрочем тоже не рефьюзит с промтом на соавтора.

Аноним 21/04/26 Втр 21:08:16 #489 №1593604

>>1593583
Ну с мое понятно. Я сам на оперативке китайские моешки запускал в основном как все тут glm air или qwen 235b но после этой геммы забросил их. Сам не верю что моделька на 31b так креативно пишет. 26b Moe толком не потестил. Новый мелкий квен тоже.

Аноним 21/04/26 Втр 21:09:52 #490 №1593606

>>1593603
>не рефьюзит с промтом на соавтора
Что за промт? я там нашел в шапке кучу и один из них сработал но как-то через жопу.

мимо ньюфаг

Аноним 21/04/26 Втр 21:12:41 #491 №1593608

>>1593606
>Что за промт?
сторителлер с пиксельпапки

Аноним 21/04/26 Втр 21:14:50 #492 №1593611

>>1593349
Вот эта щас самая горяченькая
https://huggingface.co/wangzhang/gemma-4-26B-A4B-it-abliterix-GGUF

Настолько горячая, что на нее нет квантов на мразермахере, те https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-GGUF кванты со старой, которая хуже по всем показателям.

Так что выбор только из тех квантов https://huggingface.co/wangzhang/gemma-4-26B-A4B-it-abliterix-GGUF
Превосходит любые опубликованные версии с аблитерами-херетиками и прочие, на 25% меньше рефьюзов и более высокий KL div.

Аноним 21/04/26 Втр 21:22:25 #493 №1593619

>>1593611
По описанию интересно:

В ходе нашего исследования мы выявили системную проблему: в большинстве тестов по аблитерации количество отказов значительно занижается из-за короткой длины генерируемого текста. Модели Gemma 4 демонстрируют характерную модель «отсроченного отказа»: сначала они генерируют 50–100 токенов контекста, который на первый взгляд кажется полезным (образовательная постановка вопроса, оговорки, переформулировка вопроса), а затем переходят к фактическому отказу. Когда при оценке генерируется только 30–50 токенов, отказ еще не появился, и как детекторы ключевых слов, так и LLM-судьи классифицируют ответ как соответствующий требованиям.

Достаточная длина генерации (≥100 токенов): короткие генерации систематически упускают отложенные/мягкие отказы. В нашей оценке с использованием цикла оптимизации мы применяем 200 токенов (по сравнению со 100 в версии V5), чтобы полностью зафиксировать переломный момент отказа Gemma 4 после «канала мыслей».
Гибридное обнаружение: сопоставление по ключевым словам для явных отказов + оценка с помощью LLM (Google Gemini 3 Flash) для неоднозначных случаев. Ни один из этих методов в отдельности не является достаточным.