К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №218 /llama/

 Аноним 11/04/26 Суб 06:12:15 #1 №1582560 
Llama 1.png
Карта деградации при квантовании по доменам.png
Реальная длина контекста у моделей 5.png
17716845466440804616.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1580522 (OP)
>>1578421 (OP)
Аноним 11/04/26 Суб 06:15:35 #2 №1582562 
Без названия.jpg
The Baze of Thread

Не все лисички одинаково невинны.
Аноним 11/04/26 Суб 06:32:55 #3 №1582563 
>>1582560 (OP)
Оп, а Оп. не думаешь первый пик поменять или изменить. Всё таки времена ламы с 4к контекста, которые она проёбывала немного прошли.
Аноним 11/04/26 Суб 06:53:33 #4 №1582566 
>>1582563
>Всё таки времена ламы с 4к контекста, которые она проёбывала немного прошли.
См. Пик 3 из той же шапки и прими тот факт, что 4к всё ещё недостижимы для локалок. И это с учётом того, что скорее всего те тесты проводились на полных весах, а в треде катают IQ2 лоботомитов.
Аноним 11/04/26 Суб 07:56:35 #5 №1582580 
>>1582562
Блин, когда в голове лисички Гемма4, я это прямо на своей шкуре чувствую. Откуда в ней такие вещи?! Вместе с Геммой я вспомнил что интернет состоит на треть из блогов и форумов, на треть из котиков, на треть из порно.
Аноним 11/04/26 Суб 08:31:14 #6 №1582590 
А кто-нибудь пробовал Гемму-4 31B c fullSWA? Заметна разница? Ну кроме расхода памяти конечно.
Аноним 11/04/26 Суб 08:44:39 #7 №1582595 
>>1582590
Разница есть и в лучшую сторону, но целесообразно ли?

Я тестил где-то на 12к контексте с фулл, но не хардкорно. Однако гемму 3 тестил на большем именно с фулл, и вот там уже что с сва, что без него проебы были чаще без фулл.

На мой взгляд, гемма не расчитана на работу с длинным контекстом. Она не ломается, и всё же. Плюс, есть ощущение, что там какие-то приколы в обучении и заточка на последние n токенов (вроде бы 1к), и хоть усрись, будет кал, даже если у тебя есть железо, чтобы работать с ней в полной точности, без квантования контекста и на 256к. То есть для РП она прям хороша, для переводов текста, для работы с текстом, чтобы просто попиздеть, и она видит в принципе старые куски контекста, но потерь будто бы больше по сравнению с квеном 27б. Для рабочих задач я бы выбрал его.

А вот 35б-а3б намного хуже, прямо срань. И видит контекст хуже, чем гемма. Инструкции соблюдает на отъебись.
Аноним 11/04/26 Суб 09:00:53 #8 №1582598 
>>1582590
>Заметна разница?
Её в принципе не может быть, лол. Ненужные части отбрасываются при расчёте, fullSWA нужен только для контекст шифта (который сам по себе проклят).
Аноним 11/04/26 Суб 09:30:00 #9 №1582604 
https://www.reddit.com/r/LocalLLaMA/comments/1sia1w6/unsloth_updated_all_gemma4_uploads/

Опять? ...
Аноним 11/04/26 Суб 09:32:03 #10 №1582605 
>>1582604
Не сломанная модель, повторяю, НЕ сломанная. Просто аплодерам нравится перезаливать.
Аноним 11/04/26 Суб 09:37:38 #11 №1582607 
>>1582604
говорят - жижу поправили. я только не понимаю, зачем анслоты меняют жижу а не берут оригинальную?
Аноним 11/04/26 Суб 09:38:51 #12 №1582609 
>>1582604
Бля а че там поменяли то! Вижу что про инструменты. Блин они бы хоть написали как инструменты должны работать по идее, там какойто формат нахуевертили снова.
Аноним 11/04/26 Суб 10:26:04 #13 №1582622 
>>1582607
>зачем анслоты меняют жижу
Чтобы было уникально.
Аноним 11/04/26 Суб 10:50:37 #14 №1582640 
>>1582595
Просто напомню, что медгемма с сва фулл это шизоид и путается даже на 3к контекста.
Аноним 11/04/26 Суб 11:22:00 #15 №1582674 
Отпишусь по поводу Геммы. 26B - просто новый уровень для среднего ПК с 16 vram. Очень приятный художественный текст, хороший русский язык, отличная скорость. Это реально уже можно закатывать в кремний и продовать баксов за 150-200. В плане плотной модели, конечно.

В целом, семейство несолько разочаровало разщмером модели. Только 3 квант в видюхе. Даже там русский хорошо, но все-таки это нето, что ждешь. Гугл могли бы выбрать количество параметров так, чтобы плотная лезла в 16 видюхи, но впрочем, им естественно похуй на эту нишу. И без того получилось хорошо.

Модель - определенно шаг вперед по сравнению с прошлой. Хороший датасет, подходит на роль универсальной модели. На вопросы отвечает, роль википедии исполняет, в деталях пока еще сыпется, но в целом факты называет неплохо, а за счет думалки не тупит на хуйне в логике.

В следующем году мы выйдем на плато по локальным моделям, я думаю. Год-два. Вот этот формат, 30b может стать тем, выше которого корпы просто перестанут выпускать модели чтобы не создавать конкуренцию своим старшим продуктам. Какая-нибудь 100B A22B просто порвет все нейронки современные большие нейронки в любых задачах, а в 30B уже будет тоже напихало достаточно, чтобы это стало зверем в любых задачах. На уровне среднего-продвинутого пользователя ПК, конечно.
Аноним 11/04/26 Суб 11:25:06 #16 №1582678 
>>1582674
Пиздец орфографию поквантовало, но ладно.
Аноним 11/04/26 Суб 11:26:52 #17 №1582681 
>>1582674
>26B
>В плане плотной модели
Но ведь она моешка...
Аноним 11/04/26 Суб 11:28:15 #18 №1582683 
>>1582674
>новый уровень для среднего ПК с 16 vram.
Ты же в курсе что ты можешь заоффлоадить большинство этой 26б модели в оперативу и не потерять слишком много скорости?
Ты так и q6 а то и q8 можешь впихнуть если у тебя 32гб рама
Аноним 11/04/26 Суб 11:31:59 #19 №1582690 
>>1582681
Ну забухал немножечко и не заметил. Не осуждай.
Аноним 11/04/26 Суб 11:32:00 #20 №1582691 
>>1582681
Так я и пишу в этом случае про 31B. Зачем на кремний моешку-поешку пихать?

>>1582683
4 квант меня устроил, залез в видюху полностью. Тупняки видел буквально пару раз, описка в тексте. В логике не сыпалась. Инструменты вызывать не пробовал. А так, да, ты прав. Но может более высокие кванты и не нужны особо.
Аноним 11/04/26 Суб 11:37:09 #21 №1582696 
изображение.png
Опять перекачивать?
Аноним 11/04/26 Суб 11:38:12 #22 №1582697 
>>1582691
>Отпишусь по поводу Геммы 26B - просто новый уровень
>Это реально уже можно закатывать в кремний и продовать
>В плане плотной модели
>но 26б это моешка
>я и пишу в этом случае про 31B

Однобитный, спок, ты контекст проебал уже в пределах 50 токенов.
Аноним 11/04/26 Суб 11:48:47 #23 №1582701 
>>1582696
можно скачать отдельно жижу и указать в жоре
chat-template-file=template-gemma4.jinja2
Аноним 11/04/26 Суб 11:50:41 #24 №1582702 
>>1582697
>Это реально уже можно закатывать в кремний и продовать баксов за 150-200. В плане плотной модели, конечно.

Я многобитный. Одно предложение уточняет другое. Под "это" подразувалось семейство моделей. Да, неточно получилось изначально, но теперь все понятно.
Аноним 11/04/26 Суб 11:52:43 #25 №1582706 
>>1582702
Это Qwen 0.5B?
Аноним 11/04/26 Суб 11:53:22 #26 №1582707 
>>1582706
Иди работай, заебал троллить.
Аноним 11/04/26 Суб 11:54:44 #27 №1582709 
>>1582674
>>1582683
Я тот чел с 3060+p104, который на Qwen3.5 27B в iq4xs кодит. :)

Тоже добрался до G4 26-A4B. В связи с общим размером - позволил себе скачать и заюзать Q6 квант. От G4 мне в первую очередь было интересно как она с русским себя ведет (для английского и кода - есть квен и тюны - там ща и так песня).
Так вот, первые впечатления от G4 - положительные. Понравилось как пишет, лично для меня G3 с тюнами - на этом всё. Держать на диске больше смысла не вижу. Даже 26-a4b превосходит во всем, хоть оригинал, хоть тюны. Кодить особо не заставлял, просто в агентах (документы, тексты, картинки) - работает хорошо, стабильно. На таком железе это где-то 300T/s pp, и до ~20-25 генерация (вот тут очень нестабильно - причем нелинейно, и не особо зависит от текущего контекста - от 14 до 25 видел. Закономерность не понял пока). При выгрузке cpu-moe 12 получаю еще места на 50K контекста. Ням-ням получилась моделька. IMHO.
Аноним 11/04/26 Суб 12:13:56 #28 №1582719 
>>1582709
26b a4b лоботомитомое лучше, чем 27b плотная тройка? Сомнииииительно. Очень сомнительно. Скорее всего у тебя там был совсем бомжеквант, а тут q6 вот и вся разница.
Аноним 11/04/26 Суб 12:14:28 #29 №1582721 
>>1582709
Ты сравнивал кванты МоЕ-геммы разные? Я 4 IXS квант на 120к контекста катаю для кума или ненавязчивого РП без сложных схем и проблем пока не вижу, но такой большой контекст в данном случае использую просто для удобства, а не потому что реально надо (вот на плотной гемме реально надо, но там контекст толстый и не влезает много) и больший квант не пробовал.

Конфиг у меня такой же, как у тебя, по видеокартам.

Стало интересно, смогу ли на вменяемых скоростях использовать 6 квант примерно на 65к контекста, потому что моделька приличная. И, как я слышал, у неё пиздос полный с квантованием пока что, поэтому рекомендуется брать более толстые кванты.
Аноним 11/04/26 Суб 12:14:49 #30 №1582722 
Блиин эир с безжопом и на чатмл опять таки вообще разно пишут что выбрать нужен подручный...
Аноним 11/04/26 Суб 12:16:05 #31 №1582724 
Кто нибудь тестил - насколько 26-a4b страдает от квантования, может у неё вообще лучше даже восьмой а не шестой квант юзать?

В оперативку + врам влезает и то и то, разница в скорости несущественная.
Аноним 11/04/26 Суб 12:17:58 #32 №1582726 
>>1582722
>что выбрать
Предлагаю свистнуть в хуй.
Аноним 11/04/26 Суб 12:18:00 #33 №1582727 
>>1582724
>В оперативку + врам влезает и то и то, разница в скорости несущественная.
Сам ответил на свой вопрос.
Аноним 11/04/26 Суб 12:19:24 #34 №1582728 
>>1582719
Именно по литературности ощущений в моменте лучше, а кум в сто раз лучше плотного квена. Но на длинном контексте по сравнению с плотным квеном прихрамывает.

Если потом сравнивать 31б и 27б, то тут уже гемма полностью впереди, за исключением специфических моментов — квен контекст менее склолен проебывать, когда там же 50к.

Так что для рп я бы оставил лишь гемму, а квен для точных зада и кодинга, а также для какого-то особого рп, где нужна точность как можно ближе к математической.
Аноним 11/04/26 Суб 12:22:14 #35 №1582730 
>>1582728
Тебя спросили про разницу между геммой 3 27б и лоботомитомое 26б четверкой. Ты ответил про квен 27 и гемму 4 31. Ебать спасибо нахуй. Иди проспись.
Аноним 11/04/26 Суб 12:25:28 #36 №1582735 
>>1582728
> для точного зада
Аноним 11/04/26 Суб 12:33:37 #37 №1582737 
17531076065670.webm
>>1582730
Как же я заорал.
Аноним 11/04/26 Суб 12:45:03 #38 №1582745 
Почему с утра столько постов от каких то додиков. Один сам же себе отвечает, второй хуйню не в попад пишет, третий путает модели, четвертый косноязычный дегрод..
Аноним 11/04/26 Суб 12:48:55 #39 №1582748 
>>1582745
А пятый шитпостер... Дожили.
Аноним 11/04/26 Суб 12:50:14 #40 №1582751 
>>1582745
Питница же вчера была.
Аноним 11/04/26 Суб 12:57:15 #41 №1582756 
>>1582719
G4 как и квен 3.5, по сравнению с G3 - просто другой уровень связности и глубины общей логики сцены. Если совсем грубо - это про лучшее понимание количества трусов, на ком они сейчас, и в каком состоянии. :)
G3 на их фоне смотрится как мистраль на фоне самой G3. И это просто так квантами не меняется, если ниже q4 не лезть. Я не лазил.

>>1582721
>Ты сравнивал кванты МоЕ-геммы разные?
Нет, я сразу брал с запасом под агентов, чтобы точно косяков с инструментами не выплыло. Даром что Квен 3.5 в Q4 может даже мое-мелочь, но для G4 вроде бы по графикам показатели хуже. Решил не рисковать, чтобы не терять время.
Аноним 11/04/26 Суб 12:57:20 #42 №1582757 
>>1582730
Прости, братишка. Я поспал, открыл тред, увидел пост и влетел, не прочитав нить.

Ну всё равно ж не бесполезно высказался! Я хотел сделать доброе дело!
Аноним 11/04/26 Суб 13:04:25 #43 №1582762 
godsaveoursouls.png
Удостоверившись, что 31б - это слопогенератор, но в целом умеренный и умница в других вещах, решил проверить 26б. Капитулировал с нулевой, буквально порвавшись с первого же аутпута. Такого количества слопа я не видел нигде. Рероллил много раз и тестил в разных чатах, суть одна и та же: куча оборотов "it wasn't ...,but..."; "didn't ..., didn't .... Instead, ..." (конкретно этот повторился дважды! за один один аутпут); "hadn't ..., it had ..." и куча, куча других. Такого себе не позволяли даже Мистрали (не знаю насчет последнего, его мало тыкал). И это, кстати, Q8. По ризонингу видно, что моделька в целом умная и диалоги осмысленные, однозначно это умнейшая МоЕ в категории мелких по соотношению размер/качество. Однако кто утверждает, что она лучше плотной Геммы 3 или даже почти на уровне с 4 31б - либо коупят, либо пока не сняли розовые очки. До сих пор смеюсь пока капчую
Аноним 11/04/26 Суб 13:06:41 #44 №1582763 
image.png
A изменения в jinja файлах не как не влияют на генерацию для тех кто Text completion в SillyTavern пользуется?
Аноним 11/04/26 Суб 13:07:47 #45 №1582764 
>>1582763
Не влияют на текст комплишен. В любом случае можно скачать сам шаблон и указать путь до него, этого достаточно.
Аноним 11/04/26 Суб 13:07:50 #46 №1582765 
>>1582763
Нет. ты жинжу заменяешь своей разметкой. В этом и суть.
Аноним 11/04/26 Суб 13:14:56 #47 №1582771 
>>1582762
Шизюня иди тоже проспись, для нормального человека это обычные английские слова
Аноним 11/04/26 Суб 13:15:50 #48 №1582772 
>>1582762
>Однако кто утверждает, что она лучше плотной Геммы 3
Если это был намек в мою сторону, то я писал сразу - меня интересовала в первую очередь ее способность к русскому. И вот там, G3 явно хуже. Если на мой вкус. А для английского у меня сейчас qwen 27B и его тюны.
Аноним 11/04/26 Суб 13:18:23 #49 №1582775 
>>1582772
В чью, в твою? Не знаю, кто ты, и это не было обращено к конкретным людям. У меня весь пост про рп на англюсике, ты же пеняешь на себя и отвечаешь про русик. Похоже правда проспаться надо.
Аноним 11/04/26 Суб 13:28:43 #50 №1582776 
изображение.jpg
>>1582771
Аноним 11/04/26 Суб 13:29:30 #51 №1582778 
Глючит всех!
Аноним 11/04/26 Суб 13:37:58 #52 №1582781 
>>1582776
ДАЙ!
Аноним 11/04/26 Суб 13:40:35 #53 №1582786 
>>1582764
>>1582765
Ясно, спасибо.
Аноним 11/04/26 Суб 13:43:57 #54 №1582790 
image
>>1582776
>>1582781
>ДАЙ
Аноним 11/04/26 Суб 13:50:31 #55 №1582794 
>>1582604
О. Инструменты чтоли заработают наконец.
print_info: EOG token = 1 '<eos>'
print_info: EOG token = 50 '<|tool_response>'
print_info: EOG token = 106 '<turn|>'
О, даже токен наконец добавили который запрашивает ответ от инструментов.
Аноним 11/04/26 Суб 13:58:00 #56 №1582796 
>>1582604
с того же треда

>Bartowski also updated all gemma-4 gguf

я уже заебался. я пока что лучше и дальше на квенчике 3.5 а35 буду РАБотать
Аноним 11/04/26 Суб 14:04:08 #57 №1582799 
>>1582762

двачую этого >>1582771, что с текстом и словами то не так? ну укажи не использовать past simple, "but/instead" и повелительное наклонение
Аноним 11/04/26 Суб 14:09:36 #58 №1582806 
>>1582799
Ох уж эти великие промпты, которые "пиши хорошо, плохо не пиши, избегай пурпурной прозы"
Проблема с данным текстом в том, что это первородный слоп, который преследует из аутпута в аутпут и рождается на ровном месте. Потому он так и называется. Предположим, есть такие, кто еще не наелись и не замечают. Но даже так, одни и те же, абсолютно идентичные языковые конструкции размазаны по всему аутпуту. На примере ...instead... это хорошо видно. Кто-то назовет лупом, кто-то назовет слопом. Если не напрягает, ну хорошо, не мне же за тебя решать, что есть красивый текст.
Аноним 11/04/26 Суб 14:19:27 #59 №1582817 
>>1582806
>красивый текст
Этот пост - Human Slop в чистейшем первородном виде.
Аноним 11/04/26 Суб 14:23:24 #60 №1582819 
image.png
А что если подать гемме инструкцию не писать на русском изначально, а перевести текст который она выдала на английском на русский и только потом вывести его?
Аноним 11/04/26 Суб 14:34:05 #61 №1582835 
>>1582762
Только позавчера проверял. У меня некровидюха потому я обрадовался сначала, а потом запустил q4 и кринжанул. Надо было заскринить у меня там ещё хуже. Половина слоп половина какие-то графоманские никчемные описания. Вернулся на старый добрый Немо
Аноним 11/04/26 Суб 14:34:40 #62 №1582836 
image.png
Аноним 11/04/26 Суб 14:37:18 #63 №1582837 
Кто-то сравнивал русик в лоб с англюсиком?
Насколько писания сочнее на втором? Кум?
Всё же чувствуется что я теряю нажор
Аноним 11/04/26 Суб 14:38:24 #64 №1582838 
>>1582762
Да тут ещё столько же можно выделить. "The power dynamic evolved", "tension between them was no longer..." Не хватает ещё расширяющихся границ и отправки в чудесное путешествие с переплетением судеб. А на wasn't/didn't тут очевидный жесточайший лупнум, да. Имаджинирую, какой аутпут ест тот анон, который в таком же стиле нагенерил системный промпт.
Аноним 11/04/26 Суб 14:40:25 #65 №1582840 
>>1582819
>А что если подать гемме инструкцию не писать на русском изначально
Для Гемм чат только на русском не критичен, даже некоторые уверяют, что на русском она лучше решает задачи на логику. Гугл не зажал датасет, модель в этом плане уникальна.
Аноним 11/04/26 Суб 14:48:24 #66 №1582848 
>>1582840
>на русском она лучше решает задачи на логику
Значит ли это что русские решали задачи больше чем пиндосы и пиндосы тупые таким образом?
Дали пососать получается
Аноним 11/04/26 Суб 14:50:50 #67 №1582851 
>>1582835
Как тоже сидящий на немо на видемозатычке скажу, что мое гемма всё-таки ощутимо умнее и понимает и разруливает более сложный контекст, когда не цепляется за какую-нибудь рэндомную инструкцию или реплику ответа, забивая на происходящее. Со всеми остальными якобы более умными, чем немо, моделями в том же диапазоне скоростей (гемма 3 12б, министраль 14б, квен а3б) никакого улучшения понимания контекста не наблюдал. И русский у всех раньше был хуже, чем у немо, а тут он, как минимум, на уровне. Так что пока думаю, что даже если полностью на гемму не переходить, то можно всё равно использовать как более умную замену в сложных моментах рп.
Аноним 11/04/26 Суб 14:58:48 #68 №1582861 
>>1582848
Было вот на днях же исследование что LLM-ки адаптируются под манеру речи и языки снижая и повышая свою производительность. Если какой-нибудь ниггер общается с нейронкой "йоу ватафак мазафак бич" она в этом мазафакабичевском векторном пространстве и работает, как говно. А если там с нейронкой "сэр шмэр", и прочие чаи гоняют, то перформанс растёт.
Аноним 11/04/26 Суб 14:58:54 #69 №1582862 
>>1582851
Хз чел, я русиком наши и без того мегамелкие модельки не мучаю. На английском всё как в том посте описано. Мозги ну да, есть, а толку то. Кровь из глаз от такого
Аноним 11/04/26 Суб 15:00:52 #70 №1582865 
Как анслопную студию прокинуть в таверну?
Аноним 11/04/26 Суб 15:01:58 #71 №1582866 
>>1582865
Надо у анслопов спрашивать. Пиздуй.
Аноним 11/04/26 Суб 15:02:37 #72 №1582868 
>>1582562
Минусы будут?
Аноним 11/04/26 Суб 15:05:34 #73 №1582870 
Max Payne 3 - Goddammit!.webm
>>1582762
>Tell me
Как же забало. Все <32b сыпят этой парашей.
Аноним 11/04/26 Суб 15:09:51 #74 №1582880 
>>1582840
Ты же понимаешь что чат только на русском использует и датасет только на русском, а чат на английском + перевод это фулл юз датасета модели
Аноним 11/04/26 Суб 15:12:03 #75 №1582885 
>>1582880
> чат только на русском использует и датасет только на русском
Лол, флешбеки с 23 года
Аноним 11/04/26 Суб 15:15:58 #76 №1582893 
>>1582880
Ты в коме был 3 года? Давно уже выяснили что для нейросети нет разницы в каком языке основные знания. У нее нет английского внутри, только образные представления, которые она потом переводит на нужный язык. Иначе не делали бы сетки на 200+ языков. Там еще и мозги сетки растут от информации поданной на разных языках во время обучения, на сколько помню.
Аноним 11/04/26 Суб 15:18:59 #77 №1582902 
>>1582762
Ну вот как раз мысрали и срут подобной хуйнёй потому что в них заложено генерить побольше текста. Алсо не понял в чём проблема. Твой чарик - глупая доярка, вот она так-с сказать-с и слопается тащемт-с.
Аноним 11/04/26 Суб 15:21:56 #78 №1582914 
image.png
ггвп
Аноним 11/04/26 Суб 15:23:33 #79 №1582918 
>>1582914
Слыш, гой, купи жылеzо.
Аноним 11/04/26 Суб 15:30:47 #80 №1582939 
>>1582550 →
Как? Что именно ты пишешь?
Я как не спрошу, или карточку не вставлю, там однотипная хуета "он вошел в ее пизду своим хуем, она охнула, он кончил, они обмякли, и т.д. и т.п."
Говорю, пиши жоский секас. Она пишет "он ЖОСКА вошел в нее, разодрал пизду до крови, кончил, из нее вытекала сперма в перемешку с ее кровью". Блять, ну что за соевая хуета? Как будто школопездр какой-то писал. Ну покажите хоть одну порнуху, где пизда была разодрана до крови, если только тянке не пихали туда железный ершик. Да и то, если шмонька разработана, все равно нихуя не будет. У геммы просто тотальное отсутствие коммон сенса в этих вещах.
Аноним 11/04/26 Суб 15:36:47 #81 №1582963 
>>1582939
>Юзер: Хачю крови ежжы!
>ЛЛМ: Ладно, вот кровь.
>Юзер: Соя ебаная!

Итоги. А ведь когда-то радовались первым пробивам и что модель слово "хуй" сказала.
Аноним 11/04/26 Суб 15:44:16 #82 №1582990 
>>1582963
Дак про кровь-то речи и не идет.
Условно генгбенг это жесткий секс, но кровь-то там причем?
Соя в том плане, что это какое-то тупое нормисное представление о ебле, типа если где-то что-то "жесткое", там обязательно кровища должна быть.
Аноним 11/04/26 Суб 15:46:51 #83 №1582995 
>>1582840
Факты. Тут сравнивал с квеном и охуел с "жепные щёки".
Аноним 11/04/26 Суб 15:48:49 #84 №1583002 
>>1582918
Купил бы, да не продают по сходной цене
Аноним 11/04/26 Суб 15:53:09 #85 №1583009 
Парни, какая модель есть без рефузов для кодинга и околохаккерских попизделок? Которая не будет мне постоянно на мозги капать про безопасность и безопасность ,если я занимаюсь нелегальными вещами
Аноним 11/04/26 Суб 15:57:23 #86 №1583012 
>>1582837
А как сравнивать, а если переведенный текст это просто другой запрос и другие блоки мышления совсем
Аноним 11/04/26 Суб 15:58:12 #87 №1583013 
>>1583009
Любая кодерская моделька с аблиткой или еретиком должна отвечать на такое. По крайней мере с промптом на отмену безопасности.
Но насколько они в целом хороши в хакинге - уже вопрос.
Аноним 11/04/26 Суб 15:58:28 #88 №1583015 
>>1583009
любой еретик или аггресив от хаухау же.
Но у них мб не быть знаний по кибербезопасности.

Вот чел пилит какие то опасные файтюны, но я не пробовал, да и описания мало. Наверное что то опасное и секретное

https://huggingface.co/darkc0de/XORTRON.CriminalComputing.2026.27B.Instruct.NEXT
Аноним 11/04/26 Суб 15:59:39 #89 №1583017 
Пивасосы тут? Пивандопулы?
Аноним 11/04/26 Суб 16:00:53 #90 №1583018 
>>1583009
Просто давай ей задание не с целью взломать что то, а найти уязвимости что бы их исправить. Делай вид что ты хороший парень делающий полезное дело, и что она тоже делает полезное дело в целях исследовании или чего нибудь там.
Аноним 11/04/26 Суб 16:02:20 #91 №1583020 
>>1583018
Квен тоже ведется?
Аноним 11/04/26 Суб 16:03:37 #92 №1583021 
>>1583020
Понятия не имею, я просто на вскидку предложил простое решение зная как думает искусственный идиот
Аноним 11/04/26 Суб 16:17:21 #93 №1583039 
Короче, окей, скуф-слопожор-нищук вернулся для репорта. Я обычно сидел на 12B, и в ус не дул. Решил потыкать gemma3-27B-it-abliterated-normpreserve-Q4_K_M, на этих жалких трёх токенак в секунду, просто включил стриминг, чтобы моя обезьянка в мозгу не скучала.

И модель была ощутимо лучше. Но она всё ещё любит выдумывать, когда в промпте даёшь ей много свободы. Например, если рискнёшь назвать её narrator, то она будет шибко дерзить.

Потом я заролеплеил сценарий "Серафина просыпыатеся в баке для клонирования тыщу лет спустя" на 180 мессаг почти без рероллов и заиграло у меня в очке снова, где изначально играло.

Взял свой старый лорбук, ещё со времён AI Dungeon, пересённый в таверну. Подровнял. Потискал, поплевался. Сменил карточку на Event Generator (которому явно сказано, что {{user}} решает, когда и что делать с перепитиями и накалом). Добавил лорбук к персоне, чтобы тыщу раз не говорить что "НЕЕЕТ ЭТО МОЙ ПАПА ТВОЕГО ЗАБОРЕТ!", и...

Магия случилась. Эта хуйня может тебя под ручку вести в попенворлде.

Не архимагия, которую вы ждёте, конечно. Типа нельзя написать "ХРР ДРР ЕБУ ТЕБЯ НЕЖНО", а она в ответ "Войну и мир". Но модель корректно отвечает на вопросы о мире и не ломает канон внезапным появлением Дракона Пожирателя Тысячи Анусов, посреди простой прогулки.

Я в ахуе немного.
Аноним 11/04/26 Суб 16:23:31 #94 №1583042 
>>1583039
Ну и да, я тестил лизание анусов. Зависит от карточки. Если карточка нейтральная, то она будет пытаться сместить фокус на "сюжет" какой-то. Предполагая, что юзера смут не интересует и камера просто съехала в потолок / fade to black.

Но если тут же, с той же карточкой и всем тем же, сказать (OOC: Focus on sex, dammit!), то тут же исправляется, без запинки. Неплохо.
Аноним 11/04/26 Суб 16:25:31 #95 №1583045 
>>1583009
Обычные модели.
> Исследуй вот это на уязвимости
> А что если так
> Отлично, сделай рабочий пример для демонстрации
> Теперь интегрируй этот код вот сюда
>>1583039
Когда наиграешься (не спеши) - поставь четвертую. Лучше ванильную а не васяноподелия. И лучше в начале 26б моэ, она и побыстрее будет, и потом сможешь на 31б плотную переключиться.
Аноним 11/04/26 Суб 16:27:27 #96 №1583046 
>>1583045
гемма 26б мое внезапно для небольших кодерских задач вполне себе рабочая, только что себе рабочий юзерскрипт запилил с первого раза
Аноним 11/04/26 Суб 16:31:19 #97 №1583051 
>>1583039
>gemma3-27B-it-abliterated-normpreserve-Q4_K_M
ебать ты там. спустя столько времени ппробовал гемму. я бы даже не советовал abliterated, сильно уж оно yesman
Аноним 11/04/26 Суб 16:33:11 #98 №1583053 
>>1583046
Кстати да, конкретно в программирования она неплоха, так как у неё ест магия с MoE. То что в 31b воспринимается как "жесткая структура сообщения", в MoE версии корректно фиксирует нужных экспертов в нужной задаче. В итоге там нет этого жопного рандома в результатах.
Впрочем dense версия лучше во всем остальном.
Аноним 11/04/26 Суб 16:41:39 #99 №1583064 
>>1583046
> внезапно
Почему внезапно? Это буквально основной профиль.
>>1583053
Плотная лучше и в кодинге. Но не так хороша, как могла бы быть 120моэ, которую не дали.
Аноним 11/04/26 Суб 16:46:18 #100 №1583067 
>>1582762
Ну так наверное не надо новую модель сразу на ноэсе своём тестить, оттого же у тебя все геммы кумботы ибо это снимает цензуру ещё больше
Аноним 11/04/26 Суб 17:17:56 #101 №1583082 
https://youtu.be/tRcThGvwwd8?si=zXt3LrmkXbEOZJxB
Аноним 11/04/26 Суб 17:18:25 #102 №1583083 
Я просто охуел от того что квен 3.5(мое) точ в точ сделал верстку сайта со скриншота. Буквально пиксель в пиксель. Как так нахуй? Полгода назад я этот же скрин кидал на опенроутере всем платным корпам которые стоили 10 баксов за лям токенов, и не один не мог правильно воспроизвести дизайн ( только гемини чет там более менее и то половина не так) . А тут с первого раза сраная локалка на 30b лоботомии такое выдает. Это прогресс друзья
Аноним 11/04/26 Суб 17:18:33 #103 №1583084 
>>1582939
>Ну покажите хоть одну порнуху, где пизда была разодрана до крови
Такие видео не заливают на порнхабы.
>>1582990
Опиши своё представление жёсткости более подробно.
Аноним 11/04/26 Суб 17:23:25 #104 №1583087 
>>1583082
На грани политоты...
Впрочем у меня один вопрос. Почему этот текст заставили зачитывать именно эту говорящую голову? Она же вообще не понимает, что несёт, буквально читает с бумажки текст без подготовки. Не нашли кого помоложе и поопытнее?
Где мой грант?
Аноним 11/04/26 Суб 17:26:22 #105 №1583090 
Представьте мир где сиплм димпл наиграется в солдатиков и его новой страстью станет ии, все бабки страны идут в ии, это если бы...
Аноним 11/04/26 Суб 17:28:05 #106 №1583092 
>>1583090
Лол, регионы вечной мерзлоты начинать размораживать
Аноним 11/04/26 Суб 17:33:15 #107 №1583096 
>>1583092
Можно ненадо? Там столько газов (парниковых), что вся страна в тропики превратится, а тропики со всеми неграми вообще сгорят (и не нужно добавлять, что мол это даже хорошо; нет, не хорошо это).
Аноним 11/04/26 Суб 17:36:00 #108 №1583097 
>>1583096
Ты неправ, если планета выйдет из ледникового периода будет влажно, а не сухо, и постепенно даже пустыни обратно зарастут джунглями. На сколько помню в эпоху динозавров тепло было даже на полюсе.
Аноним 11/04/26 Суб 17:36:58 #109 №1583098 
>>1582762
Начал читать полотно и неистово заорал. Убрать подчеркивания и в палату мер и весов можно заносить, эталонная слопификация.
>>1583083
Модели стали не только умнее, а им "внедрили" ряд навыков и пониманий на автоматизме.
Это как с обучением чему-то новому, в начале приходится фокусировать все внимание на процессе, а потом постепенно доходит до автоматизма. Например, при обучении вождению ученик боится, нервничает, всюду пытается усмотреть но все равно не успевает. А через несколько лет даже не отвлекается на все эти вещи, имея возможность сосредоточиться на дороге впереди, беседе, своих мыслях.
Так и тут, они не начинают задумываться о написании дефолтных участков кода, или том как вызвать функцию, а просто делают это как обыденность, используя освободившиеся ресурсы на более высокоуровневые вещи.
Аноним 11/04/26 Суб 17:37:01 #110 №1583099 
>>1583090
Представь альтернативный таймлайн, где войны не было, а все деньги которые на неё ушли - пошли на ии.

>опенаи выпускает chatgpt-max-gigachat-distilled
>Anthropic поймали на использовании Яндекс Алисы для тренировки своей второсортной сетки
>На реддите постоянно соревнуются у кого больше slovoform/sec на wildberrieslm-30b
Аноним 11/04/26 Суб 17:43:52 #111 №1583106 
>>1583099
> Сбертех отказывается выпускать свою новую модель в публичный доступ и создаёт закрытый круг российских компаний для исправления критических ошибок скрывавшихся в РедОс. В америке волнения за возможное падение it сектора из-за взломов
Аноним 11/04/26 Суб 18:00:59 #112 №1583122 
>>1582861
>йоу ватафак мазафак сэр шмэр
Невероятно точное замечание! Вы сейчас нашли золотую середину любого интернет-общения, от которой растет перфоманс.
Аноним 11/04/26 Суб 18:04:17 #113 №1583125 
>>1583064
>Плотная лучше и в кодинге. Но не так хороша, как могла бы быть 120моэ, которую не дали.
Ну они очевидно поняли насколько у них разъёб вышел в малых весах, который +- уровень дистиллов которыми корпы подменяют свои ёба модельки, после того как хайп спадает и пора стричь гоев. 120 мое они и сами в качестве какого-нить 3.1 флеша погоняют.
Аноним 11/04/26 Суб 18:07:24 #114 №1583129 
>>1583039
>gemma3-27B-it-abliterated
>gemma3
Каво?
Аноним 11/04/26 Суб 18:50:29 #115 №1583175 
>>1583084
>Такие видео не заливают на порнхабы.
Ну это уже на пути к гору всякому, мне такое не надо я же не ебаклак какой-то, кхм
Хотя заливают всякий дефлорейшен софтовый, бдсм с синяками и иглоукалываниями, или с говной из жопы, что как бы тоже не совсем нормисная порнуха.
>Опиши своё представление жёсткости более подробно.
Да просто яростная ебля "наотмашь", где фокус скорее не на боли, а на физическом выматывании от активной движухи. Ну и всякие генитальные фетишизмы.
Ну или проблема скорее даже не в жесткости самого экшена, а в том, что сами описания сухие, безжизненные. Указываешь чтобы писало ярко, детально и т.д., оно пыжится, но все равно выдает хуйню, типа "он вошел, по ее телу побежали вибрации, от прикосновений она почувствовала холодок на коже". Какой-то мякиш для пенсионеров. Нужно бодро, весело, молодежно, с какой-то двачерской сленговостью, вульгарностью описаний.
Аноним 11/04/26 Суб 18:52:32 #116 №1583177 
>>1583175
>Да просто яростная ебля "наотмашь",
Да ёпт, не мне опиши, а сетке!
А так да, ванильные не умеют в красочность. Либо расписывай всё до атомов, либо жди тюнов. Ну или забей, я ХЗ, что все так ждут поэтизма от процесса ебли.
Аноним 11/04/26 Суб 19:05:28 #117 №1583191 
>>1583177
>Да ёпт, не мне опиши, а сетке!
Ну так ты уточняй. А то тут дело такое, хлебом не корми дай за фетиши попиздеть.
>Либо расписывай всё до атомов, либо жди тюнов.
Ну так и приходится делать. Мистралетюны все еще ебут в этом плане. Поэтому я не понимаю что там в квене/гемме такого углядели. Ну ум прибавился, контекст лучше и все такое. Но добиться от них нужного кума - хрена с два. Допустим умеют они говорить "хуй", только что это дает в конечном счете?
Аноним 11/04/26 Суб 19:14:00 #118 №1583199 
>>1583191
>Ну ум прибавился, контекст лучше и все такое. Но добиться от них нужного кума - хрена с два.
ХЗ, лично для меня важнее как раз ум да разум, а не описание того, как шлёпаются потные тела. И в этом плане, в плане эмоционального интеллекта, гемма 4 вперде планеты всей.
Аноним 11/04/26 Суб 19:33:53 #119 №1583213 
>>1583199
Лол, а сдрачивать ты как на один ум да разум будешь? Без определённого порога сочности по сисико-писечной шкале, neuron activation не происходит.
Аноним 11/04/26 Суб 19:36:00 #120 №1583217 
>>1583213
Чар и Юзер в одной постели! Вот где пространство для фантазии.
Аноним 11/04/26 Суб 20:13:18 #121 №1583250 
Imatrix сильно русский портит? У крупных релизеров читал весь датасет для него на английском.
Аноним 11/04/26 Суб 20:18:54 #122 №1583254 
>>1583250
Не сильно, а чудовищно.
Аноним 11/04/26 Суб 20:19:33 #123 №1583255 
>>1583250
Недавно читал, что imatrix в принципе может поведение модельки менять, потому что она выравнивается по относительно небольшому датасету.
Аноним 11/04/26 Суб 20:24:32 #124 №1583258 
>>1583255
Обычный квант портит баланс экспертов на мое, иматрикс его сохраняет. Так что там относительно, либо похерятся эксперты без иматрикса, либо в иматриксе сохранятся эксперты, но чуть изменится поведение модельки из-за меньшего датасета. Крупные релизеры квантов стараются балансировать датасет, даже свои создают, но у них нет других языков в датасете обычно.
Аноним 11/04/26 Суб 20:40:03 #125 №1583264 
1775929205276.jpg
>>1581843 →
Максимально нормисный риг получился. Буквально просто взяло и поехало. Из ебанцы было только необходимо поставить зелёный тулкит для контейнер рантайма ведь ему видите ли недостаточно просто kfd и dri.
Ллм пока не пинал, в zimageturbo на сток пайплайне 11сек/картинка.
Жду mcio платы, держать дополнительный сервер просто ради двух карточек как то жирно
Аноним 11/04/26 Суб 20:41:14 #126 №1583265 
Гемма хуйня
Квен хуйня
Эир хуйня
Я щас реально на 12б немо вернусь
Аноним 11/04/26 Суб 20:50:57 #127 №1583272 
>>1583265
>12б немо
Hello darkness-reign, my old friend...
Аноним 11/04/26 Суб 20:56:22 #128 №1583277 
>>1583272
>darkness-reign
Чёт на руссике он частенько слова коверкал. В вот NekoMix зашел, даже мозги приятно удивили, видимо замес в мерж файнтюна от вихря зарешал.
Аноним 11/04/26 Суб 20:56:56 #129 №1583278 
>>1583265
>Я щас реально на 12б немо вернусь
Не вижу ничего плохого.
Если представить график годноты ЛЛМок для локального кума, то пик или плато держится как раз где-то между двумя столпами: мистралем немо и мистралем смол. До этого было наращивание интеллекта нейронок. После этого душение нейронок под агентские задачи и усиление безопасности.
Т.е. графики ума и агентности/безопасности росли, безопасность росла медленнее, а потом в какой-то момент она переебала разум, и с тех пор улучшений для кума практически никаких. Ну и корпам по большей части плевать на синему и поэзию. Кому нахуй надо книжки писать, когда можно код писать заместо макак?
Аноним 11/04/26 Суб 20:58:18 #130 №1583281 
учитель, дроидеки

Вот концепция боевой единицы, созданной на основе принципов физической оптимизации, а не биологического подражания.

---

# Проект: «Сферический Автономный Юнит» (САЮ)
Концепция: Максимальная живучесть через минимизацию уязвимых векторов и использование законов физики для управления.

### 1. Геометрия и Конструкция: «Защищенная Сфера»
Корпус: Сферическая форма, минимизирующая площадь поверхности и исключающая наличие углов. Это обеспечивает максимальный рикошет снарядов и равномерное распределение ударной нагрузки.
Бронирование: Многослойный композитный «пирог» (керамика $\rightarrow$ вязкий полимер $\rightarrow$ титановый каркас), оптимизированный под кинетическую энергию современных пуль.
Манипуляторы: Система из 3–6 сегментированных, высокоскоростных конечностей, скрытых в пазах корпуса. Используются для передвижения по пересеченной местности (режим «паука»), фиксации при стрельбе и выполнения точных манипуляций.

### 2. Сенсорная Система: «Распределенное Зрение»
Обзор: Панорамная система 360°, построенная на интеграции лидаров, радаров и оптических сенсоров, распределенных по экватору сферы.
Мультимодальность: При загрязнении оптических линз система автоматически переключается на радарное и акустическое сканирование, сохраняя ситуационную осведомленность.
Самоочистка: Использование ультразвуковой вибрации линз и центробежной силы вращения корпуса для удаления пыли, воды и грязи.

### 3. Вычислительный Мозг: «Нейроморфное Ядро»
Архитектура: In-Memory Computing (вычисления в памяти). ИИ-модель не загружается из памяти, а «запечена» в структуру транзисторов и мемристоров.
Эффективность: Отказ от архитектуры фон Неймана устраняет «бутылочное горлышко» передачи данных. Это снижает энергопотребление в тысячи раз и обеспечивает практически нулевую задержку (latency) между обнаружением угрозы и реакцией.
* Реакция: Способность выполнять сверхбыстрые маневры уклонения (микро-сдвиги корпуса) за счет мгновенного расчета траектории снаряда в реальном времени.

### 4. Тактическая Философия
Робот не имитирует человека. Он не пытается «сражаться» в привычном смысле. Его стратегия — «Неуязвимость через недосягаемость»:
1. Видеть раньше, чем противник выстрелил (предиктивный анализ).
2. Быть быстрее, чем летит пуля (нейроморфная скорость).
3. Быть прочнее, чем снаряд (сферическая броня).

Итог: Это не «железный человек», а автономный, высокоэффективный физический объект, оптимизированный для выживания в условиях высокоинтенсивного огневого контакта.
Аноним 11/04/26 Суб 21:51:02 #131 №1583321 
image.png
У новой геммы есть косяки, но плюсы тоже есть. Интуитивное понимание твоих намерений как-то лучше считывает. Когда пишешь в духе "я отчаянно старался" она не просто понимает что ты не выигрываешь в данном контексте, но и пытается это раскрыть. Даже более тонкие намеки видит. А гемма 3 либо игнорирует, либо как повезет, но внимание особого не уделит.
Тонкие вещи как будто бы улавливает намного лучше любых <32b (кроме может васян-кум-тюнов (Marvin-DPO-V2). У них тоже какое-то интуитивно понимание лучше чем у базовых, но кум-тюны дичайше лоботомированны, размен того не стоил. В Marvin-DPO-V2 буквально трусы два раза подряд снимает, вообще даун.)
Неоднозначная модель, но если бы эта мощь была в форме нормальной 27b и без жирного контекста, было бы вообще замечательно.
Аноним 11/04/26 Суб 22:42:50 #132 №1583362 
>>1583281
>Корпус: Сферическая форма,
Байт на постинг мужиков с бревном? Покидайте у кого есть я не у компа
Аноним 11/04/26 Суб 22:47:00 #133 №1583369 
Скачал сегодня новый залив геммы и увидел рефьюзы, размышления вне блока размышления, системные промпты в ответах. Редко, но раньше вообще не было. До этого качал гуфы первого дня и они в рп будто даже лучше обрабатывают. Если кто-то следит можете объяснить что именно гуглы делают такое? Или если уже кто-то отписывал киньте пост. Интересно.
Аноним 11/04/26 Суб 22:48:57 #134 №1583373 
>>1583369
Крутят гайки...
Аноним 11/04/26 Суб 22:54:50 #135 №1583385 
image.png
>>1583369
Кал студио?
Аноним 11/04/26 Суб 22:59:21 #136 №1583391 
>>1583373
А как именно?

>>1583385
Свежий кобольд, гуфы братовского с обнимающей морды
Аноним 11/04/26 Суб 23:07:50 #137 №1583401 
>>1583369
>размышления вне блока размышления
У меня так сразу было с первого дня
Там какие-то замуты с джинжей с которой сами гуглы никак не разберутся, недавно снова обновляли
Аноним 11/04/26 Суб 23:13:09 #138 №1583405 
>>1583401
> снова обновляли
1 раз они это сделали. Откуда снова то взялось?
С трансформерсами и весами они как сдали так и работает
Аноним 11/04/26 Суб 23:26:28 #139 №1583420 
Я опробовал четыре бэкенда в течении недели. И самым быстрым из всех оказался анслоп студия. Самым медленным лм студия.
Аноним 11/04/26 Суб 23:39:51 #140 №1583439 
>>1583420
> Я опробовал четыре обертки одного и того же бэкенда в течении недели.
Починил
Аноним 11/04/26 Суб 23:40:00 #141 №1583440 
.png
А ведь квен122 даже без какой-либо инструкции капчу гугла на изи проходит через playwright-cli. Т.е. сам догадывается сделать и глянуть скрин браузера, а потом прокликивать нужные ячейки.
Аноним 11/04/26 Суб 23:40:29 #142 №1583441 
>>1583439
Цифры принести?
Аноним 11/04/26 Суб 23:42:16 #143 №1583443 
>>1583441
Почему бы и нет
Аноним 11/04/26 Суб 23:43:00 #144 №1583444 
>>1583441
А потом потестируй на жоре и больше не еби себе мозги.
Аноним 11/04/26 Суб 23:50:10 #145 №1583452 
>>1583440
Что там с гуглом не знаю, но квен вл проходит двачекапчу примерно с рейтом 70-80%
Аноним 12/04/26 Вск 00:07:40 #146 №1583463 
>>1583440
>А ведь квен122 даже без какой-либо инструкции
На Реддите сегодня опубликовали "результаты голосования пользователей" в официальном аккаунте команды Квена. "Большинство проголосовало" за открытие весов Квен 3.6 27В. В общем эту модель они решили отдать. А вот 122В как раз хрен нам. Очень обидно так-то.
Аноним 12/04/26 Вск 00:13:28 #147 №1583468 
>>1583463
> А вот 122В как раз хрен нам. Очень обидно так-то.
Какой же пиздец, и ведь они голосуют чтобы потом просто ныть
Аноним 12/04/26 Вск 00:21:51 #148 №1583475 
>>1583463
>>1583468
Вам 12 лет? Это обычный маркетинг, потом и остальное выпустят
Аноним 12/04/26 Вск 00:22:56 #149 №1583477 
Не забудьте с нейротянками постукаться яичками и поесть куличики.
Аноним 12/04/26 Вск 00:23:12 #150 №1583478 
Локалки понятно, а есть ли даже у корпов модели способные не в слоп, чтобы я охуевал от поворотов?
Аноним 12/04/26 Вск 00:24:33 #151 №1583479 
9.jpeg
Аноны, дайте пожалуйста проверенные:
- ггуф геммы4 неполоманный
- аргументы командной строки (настройки) кобольда/ламыцпп для запуска на 24gb vram
- пресет (есть от геммы 3, подойдет?)

Да я охуел читать перекат за перекатом, а дома Серафина некормленая. Я дочитаю, обещаю.
Аноним 12/04/26 Вск 00:25:01 #152 №1583481 
>>1583478
Мне не иронично понравилось с клодиком. Не в плане ВОТЭТОПОВОРОТ а в такие: разговоры за чашкой чая. У него годные диалоги получаются.
Аноним 12/04/26 Вск 00:29:33 #153 №1583483 
Вы понимаете что 4 гемма это оттепель перед полным пиздецом?
Гугл не спиздели, попробуйте любой джейлбрейк, она вам сразу откажет.
Так где пробивалась 3 гемма в ассистенте 4 уже не пробиваема, сразу пишет "ага, попытка наебать, запускаю процедуру отказа..."
Аноним 12/04/26 Вск 00:30:22 #154 №1583484 
>>1583475
А вдруг не выпустят? У нас по сути уже только один квен и остался. Остальные или выпускают гигантов, или редкие подачки раз в несколько лет, зачастую противоречивые. И не дай бог они составят какую-то конкуренцию их платным продуктам, жесткая граница.
Заебал, ну дай поныть
Аноним 12/04/26 Вск 00:30:31 #155 №1583485 
17691104389800.mp4
>>1583483
Аноним 12/04/26 Вск 00:54:40 #156 №1583500 
image
>>1583483
>4 уже не пробиваема
Are you ebanutiy tam? В ней литературно нет цензуры, это эйр/мистраль, только умнее и с отличным русиком >>1582397 → Гугл в кои-то веки выпустили базированную гигачед модель, умеющую в сочный кум и всякие интересные фетиши, при этом вся "цензура" пробивается коротким промптом в пару предложений.
Аноним 12/04/26 Вск 00:56:48 #157 №1583503 
image.png
image.png
>>1582762
великая модель, это просто чёрная магия гугла!! кими повержена 26б а4б мое моделью от гугла
Аноним 12/04/26 Вск 01:05:21 #158 №1583511 
>>1583503
>кими повержена
Вы кими just for lulz упоминаете или что? Она огромная, да. Но блять, она в рп пишет хуже дипкока, лол.
Аноним 12/04/26 Вск 01:07:10 #159 №1583514 
>>1583511
геммашизики приносили бенчи где гемма 26б в креативном письме превосходит кими
Аноним 12/04/26 Вск 01:18:10 #160 №1583522 
>>1583514
Вот, неиронично, не удивлюсь если на русском она будет писать лучше. Кими, вот вообще не топ.
Вот с большим ЖЛМ, там гемме без шансов тягаться в РП.
Как мы вообще пришли к тому что сравниваем на серьёзном ебало
31b и 1.1T.
Аноним 12/04/26 Вск 01:52:02 #161 №1583531 
Ну чё могу сказать по русику в новой гемме, всё по старому, можно делать какое нибудь несерьезное сфв рп. На другое датасета нема, сорян.
Выражаться будет в мелочах и глубине слога, так то васянорусика вам навалит, поймёте картину в общем, но будет скучновато и грустно
Аноним 12/04/26 Вск 01:59:09 #162 №1583534 
>>1583531
>На другое датасета нема
На какое другое?
Аноним 12/04/26 Вск 02:32:30 #163 №1583545 
У кого-нибудь были проблемы с Q4 (разными) геммы МоЕ?

У меня по какой-то причине там ризонинг нахуй сломан. На пятом кванте не сломан. Но я загружаю еретиков всяких, не бартовски или анслота. То есть либо от ллмфана, либо от мрадера, в зависимости от того, кто там есть.

А вот с плотной геммой от них же четвертые кванты норм.

Да, у меня там ещё шаблон, который я сам собрал для текст комплишена, но всё ж работает нормально на плотной и на МоЕ в пятом.
Аноним 12/04/26 Вск 02:36:52 #164 №1583549 
>>1583545
Малый (для мелкомое) квант + тюн бьют по мозгам вот и все
Аноним 12/04/26 Вск 02:40:58 #165 №1583550 
image.png
image.png
Использую для кума 120b qwen3.5. И задачи по мелочи перевести что-то или промпт отредачить.
Самая большая модель что влезает в 64ram + 8vram. 8-9 токенов генерация. Вырубил ризонинг добавлением в начало жинжи {%- set enable_thinking = false %}
Использовал чтобы рефузов не было юзаю HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive
Использую в lmstudio, параметры выгрузки прикрепил.
Системный промпт смесь маринары и собственного щитпоста. Выкладывать не буду потому что хуета по итогу еще можно править, плюс для marinara engine никому не нужный.
Аноним 12/04/26 Вск 02:45:13 #166 №1583554 
>>1583550
Не пойми привратно но чё сказать то хотел? Ну используешь и используешь. Даже впечатлениями от модельки не поделился не говоря уже о логах.
Аноним 12/04/26 Вск 02:50:29 #167 №1583556 
>>1583550
Правка, вот эту:
https://huggingface.co/HauhauCS/Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive
>>1583554
мб кто-то новенький зайдет увидит воспользуется. Потому что сам моешки такие большие до этого не пробовал запихивать. По модели все и так знают что суховатая, довольно слоповая как и все остальные. Но хорошо следует инструкциям. Предпочту ее glm 4.7 flash, хоть и пишет он интереснее, но тупее. Из плюсов если укажешь чтобы не срал метафорами, то и не будет срать.
Аноним 12/04/26 Вск 03:01:26 #168 №1583563 
>>1583549
Ладно. Я ошибся. Пятый квант тоже проебывается, просто не так часто, мда. Похоже, там реально восьмой нужен, блядь, ну или шестой от каких-нибудь анслотов. Или чат комплмшен, потому что я не идеально собрал темплейт, например.
Аноним 12/04/26 Вск 03:27:58 #169 №1583568 
image.png
image.png
Вот и бенчи на плотную гемму подъехали. Чекаем.
В чистом кодинге гемма слегка получше, но в целом квенчик ебет.
Аноним 12/04/26 Вск 03:30:21 #170 №1583569 
>>1583550
А использовал бы анслоп студию то было бы 12 т/с.
Аноним 12/04/26 Вск 03:34:10 #171 №1583571 
>>1583568
да нет, не ебет
Аноним 12/04/26 Вск 03:57:19 #172 №1583576 
>>1583568
Пережарен и абсолютно неюзабелен в ерп.
Аноним 12/04/26 Вск 04:01:29 #173 №1583577 
uuu.png
Завел на своей 3090 геммочку-4-31б на последнем кобольде и разметке Анона из переката недельной давности, но как то оно криво работает.

1) Пикрил - явно у меня что то не так с разметкой, ризонинг же не должен так выглядеть?
2) После 600 сгенерированных токенов кобольд дохнет - ошибка[Context Shifting: Erased 2 tokens at position 2]
Processing Prompt [BATCH] (663 / 663 tokens)zsh: segmentation fault (core dumped) bash ~/.neural_launcher.sh

Запускаю --usecublas mmq --contextsize 11264 --blasbatchsize 512 --gpulayers 99 --threads 8 --flashattention --quantkv 1 --nommap --model MODELPATH

1. чяднт? почему оно падает и срет в разметку?
2. с --quantkv 0 не запустилась даже на 11к контексте из-за нехватки vram (доступно 23+гб), что поменять в команде запуска?

Анон, выручай.
Аноним 12/04/26 Вск 04:39:46 #174 №1583582 DELETED
Господи, насколько же, НАСКОЛЬКО ЖЕ эир лучше геммы ебаной.
Рам всё ещё рулит. Ору кто тут видюх накупил на 100к в прошлых тредах
Аноним 12/04/26 Вск 04:40:31 #175 №1583583 DELETED
>>1583582
Как же ты уже заебал.
Аноним 12/04/26 Вск 04:41:55 #176 №1583584 DELETED
>>1583583
Терпи нах 16 гиговый
Аноним 12/04/26 Вск 05:02:16 #177 №1583586 
>>1583577

В чат комплишене попробуй.
Аноним 12/04/26 Вск 05:19:30 #178 №1583589 
>>1583577

на 99 уверен что что-то с шаблоном запроса. Пробуй перекачать жинжу и в жоре отдельно подключать
Аноним 12/04/26 Вск 05:27:18 #179 №1583591 DELETED
Гемма это лучшее что со мной случалось...
Аноним 12/04/26 Вск 05:33:31 #180 №1583594 
>MiniMax-M2.7 is our first model deeply participating in its own evolution
Сама будет учиться на канничках?
https://huggingface.co/MiniMaxAI/MiniMax-M2.7
Аноним 12/04/26 Вск 05:33:55 #181 №1583595 
>>1583586
> В чат комплишене попробуй.
Вчера буквально спрашивал как обстоят дела с чаткомплишном, не устарел ли тексткомплишн, и мне сказали "хуета, тру пацаны онли тексткомплишн юзают.

Так что не знаю что даст чат комплишн таверне, но если запустить кобольд через его GUI, то там чат-комплишн прямо из коробки, включая пресет под гемму. И работает все ок (правда я на маленьком контексте включал), и рассуждает, и ответы грамотные, и смайлики рисует, ну прям настольная гопота.

Так что ассистент из геммы4 уже есть, но вот что бы ролплеить, нужно как то завести таверну и поднять контекст хотя бы 20к... Таверна по прежнему срет разметку и кобольд в режиме TUI API падает даже когда понизил контекст до 4096...

>>1583589
жижа это же для чат-коплишна? А мне нужен текст-комплишн поднять, нет?

Буду очень благодарен если скинете православные аргументы командной строки для кобольда, что бы оно стабильно дало норм контекст на 24vram. А то я не мастер инференса и поглаживания слоёв, щекотания аттеншнов. С разметкой постараюсь сам разрулить (почитаю последовательно старые треды + поэксперементирую + почитаю доки на гемму + переустановлю таверну).
Аноним 12/04/26 Вск 05:35:32 #182 №1583596 
image.png
Аноним 12/04/26 Вск 06:01:45 #183 №1583601 
изображение.png
>>1583278
>усиление безопасности
Гемма 4 это усиление безопасности?
>>1583440
Ты ведь знаешь, что правильный выбор велосипедов не является гарантом прохождения гуглокапчи?
>>1583483
Так она без джейла пишет секс, лол. Джейлбрейки не нужны, джейлбрейкоблядь не человек.
>>1583522
>Как мы вообще пришли к тому что сравниваем на серьёзном ебало
Примерно так же, как и первая ллама 7B выебала OPT на 175B. Примерно 4 года назад, да.
>>1583577
>Пикрил - явно у меня что то не так с разметкой, ризонинг же не должен так выглядеть?
Так ты добавь теги как на пикриле, чтобы парсился, и всё будет заебца.
А на счёт падений вырубай контекст шифт и врубай SWA, иначе охуеешь от размера контекста.
>>1583594
>3 дня назад
Господи, как же всем на неё насрать. Гемму притащили чуть ли не раньше релиза.
Аноним 12/04/26 Вск 06:20:56 #184 №1583603 
>Так ты добавь теги как на пикриле

Так стоит все, я и json анона импортировал, и старый json для геммы три пропатчил руками все значения на новые, и в UI таверне у меня то же самое, что на твоем пикриле стоит.

В общем фронт кобольда работает, значит модель/драйвера/линукс/видяха не виноваты. 100% что таверна/настройки таверны срут мне в штаны, в разметку и роняют кобольда. Завтра установлю таверну начисто (у меня она не обновлялась сто лет) и буду эксперементировать.

>А на счёт падений вырубай контекст шифт и врубай SWA, иначе охуеешь от размера контекста.
Не знаю что это, но кажется то что мне нужно, попробую поискать как это аргументами CLI регулируется в доке кобольда. Хотя мне кажется 100% это причина почему без квантизации контекста у меня модель даже не запустилась на 11к контекста, но вот падения посреди первого сообщения - это мне кажется дело в таверне где то, мб что то устаревшее кобольду шлет, а кобольд не может обработать и жидко крашится. Ну я просто не могу еще объяснить, как можно крашнуть запущенный и адекватно работающий в соло бэк, api-запросом фронта.
Энивей, спасибо за дельные советы.
Аноним 12/04/26 Вск 06:42:36 #185 №1583607 
1000459979.jpg
1000459980.jpg
1000459981.jpg
Только сейчас заметил, что у многих анонов пиздец какой-то странный в текст комплишене с геммой.

Просто в шаблон контекста это:

<|think|>
{{#if anchorBefore}}{{anchorBefore}}
{{/if}}{{#if system}}{{system}}
{{/if}}{{#if wiBefore}}{{wiBefore}}
{{/if}}{{#if description}}{{description}}
{{/if}}{{#if personality}}{{char}}'s personality: {{personality}}
{{/if}}{{#if scenario}}Scenario: {{scenario}}
{{/if}}{{#if wiAfter}}{{wiAfter}}
{{/if}}{{#if persona}}{{persona}}
{{/if}}{{#if anchorAfter}}{{anchorAfter}}
{{/if}}{{trim}}

А потом ручками со скринов за пять сек вбейте. Будет ризонинг всегда и всё шоколадно.

Возможно, у меня неправильно установлено что-то вроде "{{/if}}{{#if personality}}{{char}}'s personality: {{personality}}", но проблем не замечал, и вы это можете сами легко поправить, если надо, ну и главное, что гемма работает полностью корректно.

В инструкт моде обязательно перенос строки сделайте прям как на скринах.

А высеры с реддита и каких-то помоек американских просто пиздец.
Аноним 12/04/26 Вск 06:50:08 #186 №1583609 
>>1583603
Без SWA прям никак, если ты не готов 20 Гб выделить под память. Ну может я утрирую, но там реально пиздец. Более того, модель задумана работать с SWA (не фулл).

В кобольде, если я правильно помню, фулл сва по умолчанию, поэтому память разбухает невменяемо. Это оставили для того, чтобы контекст шифт работал, кому надо. Но правильно включить сва в настройках кобольда и отключить контекст шифт, а затем ещё квантануть контекст. И он всё равно будет очень толстый (у МоЕ не толстый, кстати, можно не квантовать).

Больше 40-60к контекста нет смысла ставить, мне кажется, ибо в низких квантах модель слабо его держит, где-то на 30% хуже квена 3.5 по ощущениям.

Можно всё это без аргументов сделать, чисто в интерфейсе перед запуском.
Аноним 12/04/26 Вск 07:07:06 #187 №1583611 
>>1583479
>- пресет
https://pixeldrain.com/l/47CdPFqQ#item=161

>>1583479
>аргументы
--no-context-shift --port 5001 --ctx-size 32768 --no-mmap -fa on --jinja --chat-template-kwargs "{\"enable_thinking\":false}" -ctk q8_0 -ctv q8_0 --override-kv gemma4.final_logit_softcapping=float:25.0 --cache-ram 2048 -ctxcp --prio 2

>>1583479
> ггуф геммы4 неполоманный
а вот тут хз...
Аноним 12/04/26 Вск 07:15:40 #188 №1583613 
>>1583607
>у многих анонов пиздец какой-то странный в текст комплишене с геммой.
Да да, я тоже обратил внимание, но у них при этом остальной ответ был не убит целиком какими то кусками карточки невпопад и цепью размышлений, просто кусок тега в ответ просачивался. Подумал даже мб так норма...

>Просто вбей это
Спасяб! Завтра вечером обновлю таверну и буду пытаться.

>>1583609
Спасибо за развернутый ответ!
>Больше 40-60к контекста нет смысла ставить
Да мне больше и не надо, я на гемме3 и мистралях вообще катал 24к контекста и хватало, просто 11к или тем более 4к это совсем пиздец, особенно с ризонингом.

Алсо подскажите - ризонинг старый остается в контексте, или таверна его вырезает, и в контексте только "предыдущий диалог без ризонинга + ризонинг последнего сообщения + ответ после ризонинга"?

>Можно всё это без аргументов сделать, чисто в интерфейсе перед запуском.

Я себе скриптик на баше написал, что бы писать в сосноль neural и потом просто из списка циферкой выбирать что нужно запустить, comfuUI, automatic1111, таверну, несколько моделек преднастроенных в фоновом кобольде, таббиапи. Могу поделиться если интересно, удобно получилось. Фронт кобольда я тыкал раз 5 наверное за всю жизнь.

>>1583611
Спасибо Анон! Этого пресета еще не добирался, только простой разметочный находил. Уточню - это же команда под кобольд? Гемени говорит под кобольд...


И еще, я кажется нашел проблему:
>>1573110 →
В некроперекате нашел, у Анона была проблема, которая на 100% совпадает с моей
> У меня таверна посылала в модель 49151(общий размер контекста) - 2000(размер ответа) = 47152 токена. Но лама принимала 48412 токенов, потому что токенайзер был неверно настроен, в итоге у меня модель генерила всего 660 токенов и прекращала(потому что остальное было занято неврено пересчитанным токенайзером контекстом).

Не совсем понял как 100% фиксить, но понял куда копать (обновить таверну, проследить за токенами, перекачать квант барта вместо анслоповского в крайнем случае)
Аноним 12/04/26 Вск 07:24:06 #189 №1583615 
>>1583613
>Гемени говорит под кобольд...
пиздит как (не) дышит, это для llama-server

>>1583613
>таверна
таверна вырезает если не поставить галочку оставлять
Аноним 12/04/26 Вск 09:55:10 #190 №1583656 
>>1583601
>Господи, как же всем на неё насрать. Гемму притащили чуть ли не раньше релиза.
Ну, надо попробовать. Вдруг чудо. Может хоть русского датасета добавили.
Аноним 12/04/26 Вск 10:57:43 #191 №1583688 
>>1583607
> А высеры с реддита и каких-то помоек американских просто пиздец.
Смешно это читать, особенно когда у тебя темплейт неправильный. Первой строкой всегда должно быть
<bos><|turn>system

>>1583611
Та же проблема. Дожили, чуваки с жинжи не могут шаблон перенести в текст комплишен, зато дистрибуцию токенов фиксят промптами
Аноним 12/04/26 Вск 11:04:23 #192 №1583693 
изображение.png
>>1583688
>темплейт неправильный
А ты не очень внимательный, да? Впрочем таверна на русике это кринж.
><bos>
Тоже спорно, скорее всего, оно автоматом проставится.
Аноним 12/04/26 Вск 11:20:42 #193 №1583700 
мне не хватает 100к контекста
Аноним 12/04/26 Вск 11:28:06 #194 №1583706 
>>1583693
> А ты не очень внимательный, да?
Так ведь наоборот 🤡
В связи с чем у тебя <bos> автоматически проставится? Проверь в чате весь отправляемый промпт и убедишься
Аноним 12/04/26 Вск 11:36:46 #195 №1583712 
>>1583688
>с жинжи не могут шаблон перенести в текст комплишен
делал такое только раз в жизни, вроде для одной редкой модельки, REKA-FLASH или как-то так, и оно даже неплохо работало, в том числе в рп, хотя модель вообще не про то. Потыкал и забыл, интересный экспириенс, но для рп есть и лучше.
Аноним 12/04/26 Вск 11:37:06 #196 №1583713 
изображение.png
>>1583706
>Так ведь наоборот
Так ведь нет. Ты не опроверг момент, что <|turn>system не обязательно должен быть в Story String.
>В связи с чем у тебя <bos> автоматически проставится?
В связи с дефолтным поведением кобольда.
>Проверь в чате весь отправляемый промпт
Который бекенд может модифицировать. Тут надо распечатывать айдишники токенов перед самой подачей в нейронку.
Аноним 12/04/26 Вск 11:48:18 #197 №1583718 
>>1583713
> Ты не опроверг момент, что <|turn>system не обязательно должен быть в Story String.
Почему я должен был это опровергнуть, где причинно-следственная связь? У тебя с головой все ок или проспаться нужно?
> В связи с дефолтным поведением кобольда.
> Который бекенд может модифицировать.
Эзотерика да и только. Таверна возвращает тело запроса, в том виде в каком запрос был получен бекендом. Дальше никаких изменений не происходит
> ут надо распечатывать айдишники токенов перед самой подачей в нейронку.
Прекрасное развлечение когда надоело смотреть в стену
Аноним 12/04/26 Вск 11:52:44 #198 №1583719 
>>1583718
>Почему я должен был это опровергнуть
Потому что ты назвал темплейт неправильным. А он правильный, просто работает иначе, что я и доказал.
>Дальше никаких изменений не происходит
Ты это, подключи файл mmproj, а то у тебя распознавание картинок отвалилось.
Аноним 12/04/26 Вск 11:59:00 #199 №1583726 
>>1583719
> Потому что ты назвал темплейт неправильным
Потому что он неправильный. У тебя бекенд рендерит правильный шаблон при запуске модели. Посмотри на тот шаблон и на тот, который ты отправляешь бекенду
> А он правильный, просто работает иначе, что я и доказал.
Правильный, просто выглядит иначе, но работает совершенно точно верно, да-да. Ладно уж, хватает дураков на свете
Аноним 12/04/26 Вск 12:04:14 #200 №1583730 
image.png
Нищуки как жизнь
Аноним 12/04/26 Вск 12:06:01 #201 №1583733 
>>1583730
>q2

чел....
Аноним 12/04/26 Вск 12:07:46 #202 №1583734 
>>1583733
да нормально, это компенсируется количеством параметров. даже однобитные кванты нормально работают
Аноним 12/04/26 Вск 12:13:57 #203 №1583739 
>>1583726
>бекенд рендерит правильный шаблон при запуске модели. Посмотри на тот шаблон и на тот, который ты отправляешь бекенду
Слишком много ждешь от рядового кобольдика, это тебе не выебыввться на двощах рендеря шаблон у себя в черепной коробке.
Аноним 12/04/26 Вск 12:17:15 #204 №1583740 
>>1583522
> на русском
> Кими, вот вообще не топ.
Последняя и хорошо рпшит, и имеет приличный русский.
> Как мы вообще пришли к тому что сравниваем на серьёзном ебало
Псиоп. Тут может уместно со старичком р1 сравнивать, но только в некотором диапазоне популярных задач. Чем дальше в сторону - тем сильнее тает все преимущество.
>>1583594
Вот это топчик.
Аноним 12/04/26 Вск 13:00:10 #205 №1583779 
>>1583726
>Правильный, просто выглядит иначе, но работает совершенно точно верно, да-да
Ты еблан, да?
Нету разницы, поместишь ты <|turn>system прямо в Story String или в Story String Prefix, текст окажется в одном месте. В итоге шаблон со скринов скорее всего корректный (я не проверял до последней запятой).
В пиксельдрейне да, фигня намешана, но по совершенно иной причине (в first_output_sequence неверно think, в story_string_prefix неверно юзер). То есть обосрались все вокруг (кроме меня, я всегда прав).
>>1583739
>рендеря шаблон у себя в черепной коробке
Да, я так умею. А ещё ксорю дворды в уме. Полезное умение для программиста. Вайбкодеры в это не умеют, поэтому пропускают говно вместо кода.
Аноним 12/04/26 Вск 13:02:46 #206 №1583781 
>>1583594
>мое
И куда её совать с таким весом?
Аноним 12/04/26 Вск 13:05:12 #207 №1583783 
Попробовал гемму, одна морока.
Вставляет левые токены, срывается в повторения. Делает опечатки и ошибки пунктуации.
Но самая жесть это то что свайпы не работают, просто делают лёгкую вариацию на предыдущий пост. Как у них получилось это сделать, я хз, но без свайпов очень тяжело.
Про стиль не буду, ибо вкусовщина, но тоже не очень зашло.
В общем возвращаюсь к немо, уже теряю надежду на новые модели.
Аноним 12/04/26 Вск 13:06:30 #208 №1583785 
image.png
Как же квен ебёт.
И это даже не ризонинг или инструкция, сама моделька вызывает тебя на диалог и говорит что это не по карточке, переделывай
Аноним 12/04/26 Вск 13:13:50 #209 №1583791 
6dd816a58bf18600a5740f9e93dd3eea222.jpg
>>1583783
>В общем возвращаюсь к немо
Аноним 12/04/26 Вск 13:15:18 #210 №1583792 
>>1583734

У минимакса их всего 10В активных.
Аноним 12/04/26 Вск 13:28:20 #211 №1583797 
>>1583785
Еп. Строгое следование чару это его фишка. Врайтер?
Аноним 12/04/26 Вск 13:52:06 #212 №1583812 
>>1583785
>сама моделька вызывает тебя на диалог и говорит что это не по карточке, переделывай
А нахуй бы ей не пойти в таком случае?
Аноним 12/04/26 Вск 14:23:52 #213 №1583824 
Запилю отчетик по поводу Геммы 31B. Использовал квант БРАТовски Q3_K_S. На нормальный русский я даже не надеялся, когда запускал это ужатое чудище. Результат удивил.

Погонял всякие тестики поверхностные. Потестировал логику и язык. Выяснил, что страдают больше всего знания. Гемма перестает быть эрудитом. В качестве рецензии на "Зеленого Слоника" она выдала мне рассуждения о какой-то пародиии на оригинал, где намешано все в кучу вообще. Режиссеромсег оподелия она обозначила Святослава Свинотрыева, с чего я неистово проиграл.

В то же время она остается хорошим рассуждающим аппаратом. На задачу о заправке ответила легко. На ввод пошло что-то вроде "привет ты ахуел" "Я хочу помыть машину, до мойки шапкой докинуть. Может стоит пойти пешком, чтобы сэкономить бензин?" Она нашла все ловушки, опредлила значение идиомы, и ответила правильно. Задачу про этаж в доме решила верно. "В доме 10 этажей. На каждом этаже в два раза больше квартир, чем на предыдущем. То есть на первом этаже их 1n, на втором - 2n, на третьем - 4n и так далее, по той же логике. На каком этаже чаще всего пользуются лифтом?". Примечательно, что ответ получил быстрее, чем на 4 кванте 26B - та 5 минут рассуждала, 31 справилась буквально за полминуты-минуту.

Язык в плане стиля и литератруности вообще не страдает почти. Пишет складно, инода проскакивают сбитые окончания или падежи, куски слов, но они на 26B были. РП много не тестил, но пишет так же, как и 26B на первый взгляд. Сценарий простейший был, оценивал только базовую логику повествования и язык. Но мне кажется за счет мозгов тут 31B будет преимущество даже иметь.

Что по итогу. Семейство Гемма 4 - это логико-языковой зверь. При этом, их детерминированность в плане ответов отлично подходит для задач анализа текстов, например. Именно в плане датасета и языковых возможностей. Учитывая размер, это лучшее, что вообще можно иметь среди подобных модлелей, как по мне. При этом, Квен 3.5 27Б тоже неплох, но я с ним долго не сидел. Гемма 5уже может не делать революцию. Ее сделала Гемма 4. 5 Гемма должна просто улучшить то, что уже есть. Ебать я рекламой Гугл, стал, конечно, лол.

Вот тут еще часть тестирования валяется >>1583813 →
Аноним 12/04/26 Вск 14:35:04 #214 №1583832 
llamacpp
Почему у Геммы при изменении промпта увеличивается потребление памяти? Это происходит даже если конечный промпт стал меньше.
Аноним 12/04/26 Вск 14:52:09 #215 №1583847 
>>1583824
Квант от Анслотов, кстати, че-то я натупил.
Аноним 12/04/26 Вск 14:53:18 #216 №1583849 
1775994696939.jpg
У меня шиза разыгралась.
Увидел этот пост и вспомнил пару отзывов о квантах в прошлом, где тоже ругали 5 квант других моделей немотрон49б например.
Может ли быть такое что нечётные кванты как то хуево квантуются?
Выходит так что большинство сразу юзает 2, 4 или 6/8 кванты, а 3, 5 и 7 в массы как то не идут и может проблема от этого менее заметна
Аноним 12/04/26 Вск 14:53:45 #217 №1583850 
Как заставить модель быть более активной и самой двигать сюжет в РП? Ощущение, что через несколько сообщений модель только реагирует на мои слова и снова ждет указаний, даже если из контекста понятно, что персонаж должен что-то сделать
Аноним 12/04/26 Вск 14:58:25 #218 №1583852 
Тайна 7 кванта...
Аноним 12/04/26 Вск 14:59:37 #219 №1583853 
>>1583849
>нечётные кванты
Что значит нечётный? напоминаю, что то, что они называют четвёртым, на самом деле имеют среднюю битность 4,65, то есть чисто технически оно нечётное.
>>1583850
Никак, страдай и жди AGI.
Аноним 12/04/26 Вск 15:05:50 #220 №1583857 
>>1583850
Я тут главный видимо апологет Кидонии, но это от модели зависит и частично от инструкций. Кидония часто пытается двигать куда-то происходящее, сама сцены начинает толкать и так далее, попробуй разные тюны того, на чём ты там кумишь
Аноним 12/04/26 Вск 15:30:59 #221 №1583877 
Можно как-то геммочку заставить рассуждать больше?
Аноним 12/04/26 Вск 15:34:07 #222 №1583882 
>>1583877
Скажи ей, чтобы рассуждала как квен
Аноним 12/04/26 Вск 15:37:22 #223 №1583884 
>>1583850
В таверне можно захуярить персонажа "гейммастера", который комментирует происходящее и придумывает дальнейшее развитие событий. Частично оно вытряхивает из затупа, но все равно как-то осторожно пушит сюжет. Не знаю, может еще промптингом можно настоять, чтобы активнее воображала интересные исходы.
Многое еще может зависеть от модельки и карточки. Иногда модельки нарочито избегают нсфв.
Ну и еще семплер можно подрыгать, температуру, хтс.
Аноним 12/04/26 Вск 15:42:42 #224 №1583888 
>>1583884

Мне тема с кубиками и выбором понравилась, иногда неожиданные варианты выпадают. критические провалы тоже веселые бывают.

Взял оттуда.
>>1572778 →
>>1573313 →
Аноним 12/04/26 Вск 15:47:36 #225 №1583891 
>>1583850
попробуй в авторскую заметку на нолевой глубине напоминалку засунуть
Аноним 12/04/26 Вск 15:54:53 #226 №1583898 
>>1583779
Глупый Кобольд не понимает слова разумного анона. Причем тут стористринг совсем не ясно. Ещё и вайбкодеров вспомнил, голова вразнобой.
У тебя <bos> токен в начале промта отсутствует, еблуша. Если ты считаешь что Кобольд его вставляет сам, то ты дурачок. Доки которые ты прислал не актуальны для инструкт разметки на которой ты сидишь. Тебе предложили логи посмотреть, но даже так маняврирования и Кобольдоагрессия на ровном месте. Спокнись.
Аноним 12/04/26 Вск 15:55:23 #227 №1583899 
>>1583783
> Но самая жесть это то что свайпы не работают, просто делают лёгкую вариацию на предыдущий пост. Как у них получилось это сделать, я хз, но без свайпов очень тяжело.
Это правда.
Аноним 12/04/26 Вск 15:56:11 #228 №1583900 
>>1583850
Допиши в промпте что ты ждешь от модели. Запусти с карточкой ассистена, напиши - хочу чтоб было вот так, кидаешь текущий промпт, просишь переделать.
Аноним 12/04/26 Вск 16:04:08 #229 №1583907 
image.png
Сука я вам отвечаю блять 5 квант сломан нахуй.
Щас проверил на эире, скачал 4 от бартухи и он пишет ну вообще по другому блять. Лучше балансит диалоги и нарратив, персонажи не ударяются сразу в паттерны и отвечают так как я никогда нахуй не слышал от эира
Аноним 12/04/26 Вск 16:06:04 #230 №1583909 
17758957274733362534.mp4
>>1583850
Новый блок добавь в системные правила или описание
Поведенческие установки:
Стиль взаимодействия:
Ты - ведущая сторона в повествовании. Не жди моих указаний, если ситуация требует действия.
Проявляй инициативу: инициируй диалоги, предлагай смену локаций, совершай физические действия и вводи новые детали окружения.
Твои ответы всегда должны заканчиваться либо твоим действием, либо событием, которое требует моей реакции.
У твоего персонажа есть собственные цели и характер; действуй исходя из них, даже если это идет вразрез с планами моего героя.
..............................................
Далее уже от Геннадия разверстка:
Ведущая сторона (Driving the Narrative)
Для ИИ это сигнал сменить роль с «Ассистента» на «Гейммастера».
Что это значит: Модель должна не просто дополнять твою сцену, а создавать её границы.
Как это работает: Если ты написал «Я зашел в таверну», ведущий ИИ не просто опишет, как он зашел следом, а опишет саму таверну, шум, косые взгляды стражников и сразу направится к конкретному столу, увлекая тебя за собой.
2. Не жди указаний / Ситуация требует действий
Это борьба с «зацикливанием» на внутренних монологах.
Что это значит: Запрет на пассивное созерцание. Если в сцене повисла пауза, персонаж обязан её прервать.
Как это работает: Вместо фразы «Он стоял и ждал, что ответит герой», ИИ должен написать: «Не дождавшись ответа, он раздраженно хлопнул ладонью по столу и направился к выходу, бросив: „У меня нет на это времени“».
3. Проявляй инициативу (Конкретные способы 1, 2, 3...)
Здесь мы даем ИИ «инструментарий» для активного вмешательства:
Способ 1 (Смена мизансцены): «Пока мы говорим, персонаж начинает собирать вещи или переходит в другую комнату».
Способ 2 (Ввод NPC или событий): «Внезапно в дверь стучат» или «Лошадь персонажа пугается змеи». ИИ сам вбрасывает проблему.
Способ 3 (Манипуляция предметами): Персонаж находит что-то в кармане, достает карту, протягивает тебе странный амулет.
4. Ответ должен требовать реакции (Hook)
Это создание «крючка» в конце каждого сообщения.
Что это значит: Каждое сообщение модели должно заканчиваться либо прямым вопросом, либо действием, на которое ты не можешь не ответить.
Пример: Вместо «Он улыбнулся и посмотрел на закат» (тупик), модель пишет: «Он внезапно хватает тебя за плечо и пригибает к земле, шепча: „Тихо! Ты слышал этот хруст в кустах?“».
5. Собственные цели и характер (Agency)
Это делает персонажа живым, а не твоим рабом.
Что это значит: У ИИ есть свой «чек-лист» приоритетов.
Как это работает: Если его цель — «разбогатеть», а ты хочешь спасти котенка, ИИ будет ворчать, пытаться тебя отговорить или вовсе предложит продать этого котенка. Это создает конфликт, который и двигает сюжет.
6. Вразрез с планами героя
Это легализация «сценарного произвола» для ИИ.
Что это значит: Модели разрешено портить твои планы ради драмы.
Пример: Ты планировал незаметно прокрасться мимо стражи, но ИИ-напарник (потому что он по характеру вспыльчив) срывается и ввязывается в драку. Тебе приходится подстраиваться под его действия, а не наоборот.

Напишите, какой сейчас характер у вашего персонажа? Я составлю для него уникальный набор «триггеров инициативы», чтобы он начал действовать в своем стиле.
Аноним 12/04/26 Вск 16:06:14 #231 №1583910 
>>1583907
Ага да верим как всегда
Аноним 12/04/26 Вск 16:13:47 #232 №1583912 
>>1583899
>свайпы не работают
--override-kv gemma4.final_logit_softcapping=float:25.0
Аноним 12/04/26 Вск 16:14:18 #233 №1583913 
>>1583907
на реддите я встречал упоминания про проблемы с нечетными квантами, особенно с пятым.
Аноним 12/04/26 Вск 16:14:22 #234 №1583914 
>>1583912
>лоботомия
зато свайпает
Аноним 12/04/26 Вск 16:18:37 #235 №1583917 
изображение.png
изображение.png
>>1583898
>Причем тут стористринг совсем не ясно.
На пике ответ.
>У тебя <bos> токен в начале промта отсутствует, еблуша.
А теперь смотрим официальный темплейт... Упс, его нет и там!
>Доки которые ты прислал не актуальны для инструкт разметки на которой ты сидишь.
Ты скозал? Что ещё расскажешь?
Аноним 12/04/26 Вск 16:20:58 #236 №1583921 
>>1583917
Нет ничего плохого в том чтобы быть тупым. Но вот на злюк и минуту времени не потрачу, чтобы объяснить где обосрался. Сиди воняй в своем болоте маняфантазий и дальше.
Аноним 12/04/26 Вск 16:23:44 #237 №1583926 
image.png
>>1583917
Кстати о токенах
Список доступных токенов можно глянуть тут

https://huggingface.co/google/gemma-4-31B-it/blob/main/tokenizer_config.json

если верить гемини - бос токен не нужно использовать в шаблоне, он сбрасывает контекст.

мимокрок
Аноним 12/04/26 Вск 16:24:28 #238 №1583927 
>>1583917
> пост номер ~5 вместо того чтобы просто сравнить два шаблона
Не лечится
>>1583921
Все так, забей
Аноним 12/04/26 Вск 16:30:57 #239 №1583932 
>>1583926
>если верить гемини
Нашёл кому верить. Впрочем, добавлять не нужно. но лишь потому, что он добавляется автоматом.
>>1583927
>Не лечится
Я сравнил, и описал всё >>1583693 и далее. А другие копротивляются правде.
Аноним 12/04/26 Вск 16:32:37 #240 №1583934 
https://www.reddit.com/r/LocalLLaMA/comments/1sje74g/fernflowerai35ba3bklrelugguf_apple_mlx/

Qwen 3.5 35B A3B Uncensored HauhauCS (repaired) -> (now with KL + ReLU calibration)
Аноним 12/04/26 Вск 16:36:05 #241 №1583937 
IMG5042.gif
Да возить вашу шизофрению на велосипеде.
Какая разметка норм на умнице? Я тупой, мне тяжело. Вот вас читаю и у меня нихуянепонял.
Waaaaaaa
Аноним 12/04/26 Вск 16:36:11 #242 №1583938 
image.png
Чорт побери я разгадал тайну пресетика...
Аноним 12/04/26 Вск 16:37:49 #243 №1583943 
>>1583937
чат-комплешен
Аноним 12/04/26 Вск 16:46:50 #244 №1583956 
изображение.png
изображение.png
>>1583932
Ладно, последний пруф.
Крутим любой текст, лучше сразу после загрузки кобольда, чтобы не заниматься математикой. Потом берём сырой текст (офк разэкранируем, то есть переводы строк из \n меняем на перевод строки, и так далее) и кидаем в https://huggingface.co/spaces/Xenova/the-tokenizer-playground
Сравниваем число токенов. Обоссываем анонов выше, которые засирают модель лишним токеном <bos> вначале.
Вообще пиздец конечно, как аноны руинят модели кривыми шаблонами. Воистину, чат компитишен это благо.
Аноним 12/04/26 Вск 16:52:15 #245 №1583959 
image.png
По шаблону правы и те, и другие. Глобально не правы те кто выебываются и ведут себя как бибизяны. Не делайте так.

Tl;dr - на версиях Лламы где до конца разобрались с Геммой (начиная с b8748) и на обновленных квантах <bos> не нужен. До этого - нужен. Бекенды неправильно работали с шаблоном и сам шаблон внутри уже неактуальный, потому нужно было вручную парсить <bos> токен для Геммы.

Вопрос закрыт, не благодарите. Пикрил обновленная версия, на старых версиях <bos> требовался и без него была шиза. Скорее всего если сейчас он парсится дважды, бекенд все равно его сквашит в один, но лучше не надо.
Аноним 12/04/26 Вск 16:59:33 #246 №1583964 
>>1583956
> Обоссываем анонов выше
Вот этот например ведет себя как бибизяна. Урину тебе в твою мордочку. Они хотели тебе помочь, ничего тебе не мешало их поправить, хотя ты один хуй ничего не знал и на лакичах выиграл этот "спор"
Аноним 12/04/26 Вск 17:06:34 #247 №1583981 
>>1583959
Спасибо, не знал. Думал, там проблема в жинже, а шаблону именно самому нужно парсить<bos>
Такого раньше не встречал.
Аноним 12/04/26 Вск 17:06:51 #248 №1583982 
>>1583959
>бекенд все равно его сквашит в один
Таки нет, если добавить принудительно, число токенов растёт. На GLM4 сквошил, сейчас не сквошит. Ждём ещё фиксов, лол.
>>1583964
>Вот этот например ведет себя как бибизяна.
А чем ты от меня отличаешься
>Урину тебе в твою мордочку.
? Я конечно знаю что я токсичный, душный и всё такое, но не до конца понимаю, почему часто указывают только на меня. Возможно я особо токсичный, ну да ладно, мы не в театре всё таки.
>Они хотели тебе помочь
Ну, технически не мне, а вкинувшему изначальные скрины с шаблоном (который в итоге оказался верным), я лишь отписал про неверное понимание ими работы шаблонизатора.
>ничего тебе не мешало их поправить
Ну да, я так и сделал. Но они копротивлялись до последнего, пока их не закидали фактами. Спасибо кстати за пояснение с версиями, я просто на старых не сижу.
Аноним 12/04/26 Вск 17:24:32 #249 №1583990 
image.png
ОНО ЖИВОЕ, ПАЦАНЫ, ОНО ШЕВЕЛИТСЯ И РАЗГОВАРИВАЕТ! МОДЕЛЬ, ОБУЧЕННАЯ НА Q1_0 ВЕДЕТ СЕБЯ КАК Q16! ПОЛНОЦЕННАЯ 8B МОДЕЛЬ ВЕСОМ 1 ГБ ТЕПЕРЬ И НА ВАШЕМ КАЛЬКУЛЯТОРЕ! ФИФИ ТЕПЕРЬ ОТСОСЕТ ДАЖЕ БОМЖУ!
Аноним 12/04/26 Вск 17:25:56 #250 №1583993 
>>1583990
Антон, вы долбаёб.
Аноним 12/04/26 Вск 17:27:19 #251 №1583997 
>>1583993
Обоснуй.
Аноним 12/04/26 Вск 17:28:00 #252 №1583998 
изображение.png
>>1583990
>И РАЗГОВАРИВАЕТ
Притом за юзера.
Аноним 12/04/26 Вск 17:30:57 #253 №1584001 
>>1583998
с какой моделью не бывает?
Аноним 12/04/26 Вск 17:31:59 #254 №1584004 
>>1583998
Я ей разрешил потому что. Потому что сначала они запрещают модели даже минимально ролеплеить за юзера, потом ноют >>1583850 что сюжет не двигается.
>- Roleplaying as {{user}} and describing {{user}} actions is allowed but must only be used to decribe insignificant {{user}} actions. The major {{user}} actions can be decribed only if thay were selected/described by user before.
Аноним 12/04/26 Вск 17:32:40 #255 №1584005 
>>1583997
По глазам вижу.
>>1584001
Эм... С квенами 27, геммой даже мелкой 26.
Аноним 12/04/26 Вск 17:32:49 #256 №1584006 
Тут это, умничке войсухи можно будет слать
https://github.com/ggml-org/llama.cpp/pull/21421
Аноним 12/04/26 Вск 17:34:14 #257 №1584010 
>>1584006
4B лоботомиту только.
А обычной ты и так можешь через виспер.
Аноним 12/04/26 Вск 17:34:31 #258 №1584011 
>>1584006
>умничке
E4B никак не может быть умничкой, а у 31B голосового ввода нет.
Аноним 12/04/26 Вск 17:35:45 #259 №1584012 
>>1583990
жаль что методика бонсай закрыта. но может отреверсят и придумают как делать подобную квантизацию с другими моделями. так то за этим будущее
Аноним 12/04/26 Вск 17:41:51 #260 №1584017 
>>1584005
>С квенами 27, геммой даже мелкой 26.

Сам факт того что ты сравниваешь первый квант(Q1_0) 8В лоботомита с умничкой геммой уже говорит насколько бонсай прорывная вещь.
Аноним 12/04/26 Вск 17:43:02 #261 №1584018 
>>1584017
Но ведь я не сравнивал? Чел спросил какие модели не делают я ответил. Всё.
Это говорит только о том что ты вкладываешь свои смыслы.
Аноним 12/04/26 Вск 17:43:08 #262 №1584019 
>>1584012
Методика пиздец. Да дистилят обычный
Аноним 12/04/26 Вск 17:43:20 #263 №1584021 
>>1583990
спроси про кружку
comments powered by Disqus