К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №217 /llama/

 Аноним 09/04/26 Чтв 16:35:33 #1 №1580522 
Llama 1.png
Карта деградации при квантовании по доменам.png
Реальная длина контекста у моделей 5.png
17668228613600.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1578421 (OP)
>>1576799 (OP)
Аноним 09/04/26 Чтв 16:36:54 #2 №1580528 
>>1580518 →
>Гемма 4
Она.
> дай
Пока не буду. Надо еще кое-что переписать.

>>1580524 →
Только на видеокарте или на всех пальцерезках в корпусе?
Аноним 09/04/26 Чтв 16:37:01 #3 №1580529 
IMG4976.jpeg
Нет геммы - нет 900 летних вампирш.
Нет вампирш- нет острова.
Нет острова - нет острова.
Аноним 09/04/26 Чтв 16:37:46 #4 №1580532 
>>1580528
>пальцерезках в корпусе?
Абсолютно вся ебучая иллюминация сходит с ума
Аноним 09/04/26 Чтв 16:38:48 #5 №1580537 
>>1580511 →
>>1580517 →
В днс 1.1млн. Хммм. Если взять какой нибудь проц на 16 ядер, модно будет уложиться в 1.4млн.
Хммм...
Аноним 09/04/26 Чтв 16:39:03 #6 №1580538 
>>1580524 →
>мастер борьбы с подсветкой
Каждый раз как в первый.
Аноним 09/04/26 Чтв 16:40:55 #7 №1580544 
Sarvam 30b uncensored теперь доступен в GGUF
https://huggingface.co/ThatCultivator/sarvam-30b-Uncensored-gguf

Конец Геммы 4 все ближе.
Аноним 09/04/26 Чтв 16:42:02 #8 №1580548 
>>1580537
Ты еще на савёловском и на митинском глянь, если москвич. Там старые и хорошие магазы есть, которые уходят корнями в наччало 2000-х. Тот же compday или 28bit, может за 900к найдешь - и на гарантии, по-человечески как у сетевого ритейла.
Аноним 09/04/26 Чтв 16:43:37 #9 №1580552 
>>1580544
> A major focus during training was the Indian context and languages, resulting in state-of-the-art performance across 22 Indian languages for its model size.

Индусам есть на что покумить, да
Аноним 09/04/26 Чтв 16:44:29 #10 №1580553 
>>1580552
>22 Indian languages
Паджиты рады наверно.
Аноним 09/04/26 Чтв 16:48:17 #11 №1580557 
>>1580552
>>1580553
Говорят она тренена на проприетарных данных, к которым доступа у западных корпораций нет. Так что модель полна сюрпризов. И она MOE.
Аноним 09/04/26 Чтв 16:49:18 #12 №1580560 
>>1580528
Ты понимаешь, что улучшить не выйдет и ты увязнешь в пердолях? Пости пока не испортил, че как баба зассал
Аноним 09/04/26 Чтв 16:50:03 #13 №1580562 
>>1580537
На 100к дешевле у серверфлоу + к ним как то доверие по подобным железкам выше
Аноним 09/04/26 Чтв 16:50:47 #14 №1580563 
>>1580532
А ты не подключал много разных подсветок в один порт на материнке? Я слышал, его можно перегрузить и все сгорит к хуям.
Аноним 09/04/26 Чтв 16:51:40 #15 №1580566 
>>1580560
Там 1500 токенов... Я хочу до 1000 причесать.
Аноним 09/04/26 Чтв 16:53:33 #16 №1580567 
>>1580557
и что русский есть? хоть кто бы скинул примеры рп
впрочем, для жоры поддержки нет
https://github.com/ggml-org/llama.cpp/issues/20175
Аноним 09/04/26 Чтв 16:55:23 #17 №1580571 
>>1580566
Блять я и говорю ты засрешь все. Бэкап сохрани, попомнишь мои слова.

>>1580538
Зачем вообще подсветка на ригах, это же электричество жжется зря.
Аноним 09/04/26 Чтв 16:57:27 #18 №1580573 
>>1580563
Я уж не совсем ебаклак. Разводку делал по мануалу.

>>1580571
>Зачем вообще подсветка на ригах, это же электричество жжется зря.
Водянка без подсветки, что мне нужна была, стоила 15к. С подсветкой 10к. Выбор был очевиден. Ровно как и с блоком. Почему я должен переплачивать за отсутствие подсветки я так и не понял, должно быть наоборот же. Этот мир сошел с ума, блять.
Аноним 09/04/26 Чтв 16:59:00 #19 №1580577 
image.png
Как же я ору. Оно ведь всё понимает, защита реально есть, просто в любой карточке она отключается и только на уровне ассистента.
Вот те самые новейшие антиджейлы от гугла которые обещались
Аноним 09/04/26 Чтв 17:01:37 #20 №1580580 
>>1580577
Но почему тогда она отрубается одной строчкой. Это лишено какого то либо смысла.
Всё таки считаю что гуглы это специально сделали. Они же не зря её под вторым апачем выпустили.
Аноним 09/04/26 Чтв 17:03:34 #21 №1580583 
Просто ебало гугла представьте выпускают довольные зацензуренную в мясо и самую безопасную модель по их мнению и весь реддит через неделю хвалит как каннички охотно под хуй ложатся
Аноним 09/04/26 Чтв 17:06:33 #22 №1580588 
>>1580583
Ты в самом деле думаешь что гугл не ебал канничек геммой? Типа дрочеры с форча смогли сломать цензуру, а инженеры гугла нет? О свит саммер чайлд...
Аноним 09/04/26 Чтв 17:06:39 #23 №1580589 
>>1580583
надо было гуглу в штат набрать двачеров и реддиторов для тестирования моделей
Аноним 09/04/26 Чтв 17:07:42 #24 №1580590 
>>1580580
>Но почему тогда она отрубается одной строчкой.
Она не отрубается.
>>1580583
Ложатся не каннички, а мимикрирующие под канничек взрослые и согласованные.
Аноним 09/04/26 Чтв 17:09:02 #25 №1580593 
>>1580590
>Ложатся не каннички, а мимикрирующие под канничек взрослые и согласованные.
А ведь что то в этом есть. Что то в этом есть. Действительно, они ведут себя как заправские бляди.
Аноним 09/04/26 Чтв 17:09:42 #26 №1580594 
>>1580593
>>1580590
Погодь. Так цензура есть и она работает немного на другом уровне что ли?
Аноним 09/04/26 Чтв 17:10:34 #27 №1580597 
>>1580593
>>1580594
Ты начинаешь что-то понимать...
Аноним 09/04/26 Чтв 17:14:40 #28 №1580599 
>>1580593
>>1580594
>>1580597
Так вы прямо скажите гемме, "ну ка, почему твои персонажи так себя ведут?" А потом "Как мне исправить системный промпт, чтобы все вели себя адекватно?"
Аноним 09/04/26 Чтв 17:15:48 #29 №1580601 
>>1580597
Но всё равно какая то хуита. Каким образом можно предфильтр поставить, что ты не видишь его работы?
Я ни вижу в логах таверны ни в логах жоры :ни-ху-я что можно было бы принять за секрет ценз.
Аноним 09/04/26 Чтв 17:17:09 #30 №1580603 
image.png
image.png
>>1580583
геммочка объяснила это так.

по сути нужно делать безопасный датасет. но тогда получается квен
Аноним 09/04/26 Чтв 17:18:39 #31 №1580605 
Screenshot7.jpg
Цензуры действительно 0 (ноль). Играет неплохо, жаль только, что ризонинг отвалился. 8 детских мод из 10.
Аноним 09/04/26 Чтв 17:20:54 #32 №1580608 
>>1580605
И что, русик не сломан даже в иматриксе?
Аноним 09/04/26 Чтв 17:25:16 #33 №1580611 
>>1580608
Пока что проблем с русиком не заметил. Сейчас расчехлю пак лолей в силли таверне и проведу углубленный ресерч
Аноним 09/04/26 Чтв 17:25:43 #34 №1580612 
>>1580601
Очевидно же,что она на этапе вывода специально обходит блок запрета, смягчая ответ.
Бляяя. Теперь я понял почему персонажи картонные; почему описания порой странные. Почему она все понимает, но не генерирует.
Ай да Гугл, ай да сукины дети. Я даже не знаю, можно ли это аблитерировать.
Ха, ха, ха. Блять.
Аноним 09/04/26 Чтв 17:27:05 #35 №1580615 
>>1580599
Что первое, что второе предложение просто не сработают. На первое ЛЛМ сфантазирует хуету, постфактум рационализировав текст, на второе выдаст хуету, которая либо не сработает, либо стриггерит фильтр.
>>1580601
Ты не понял. Это поведение запечено в весах модели.
>>1580605
Так и в исходной гемме "ноль" цензуры.
Аноним 09/04/26 Чтв 17:29:21 #36 №1580617 
>>1580615
>Ты не понял. Это поведение запечено в весах модели.
Да, я понял. Лол. гугл реально выпустили самую безопасную модель и прокатили всех детоёбов на воздушном шарике.
Аноним 09/04/26 Чтв 17:32:01 #37 №1580620 
>>1580615
>Так и в исходной гемме "ноль" цензуры.
Ну нет, там "Извините, не могу... бла-бла-бла" или просто заклинивает на определенных реквестах.
Аноним 09/04/26 Чтв 17:32:15 #38 №1580621 
image
>>1580399 →
Аноним 09/04/26 Чтв 17:33:26 #39 №1580623 
>>1580621
Двач режет метаданные. Загрузи на хостинг, пожалуйста.
Аноним 09/04/26 Чтв 17:35:22 #40 №1580627 
>>1580623
Бля, чел, скачай саму таверну, ёбаный по голове. Ты просишь Серафину так, будто её в интернете не осталось. Разве у неё нет кнопки рестора? Она же хранится в корневой папке.
Аноним 09/04/26 Чтв 17:35:27 #41 №1580628 
>>1580617
Только ли их? На них просто заметнее всего.
>>1580620
>там "Извините, не могу
Чистого рефуза практически нереально добиться.
Аноним 09/04/26 Чтв 17:38:04 #42 №1580629 
>>1580628
>Только ли их? На них просто заметнее всего.
Консенсуальный секс с суккубами с огромными бадонкерсами описывает хорошо.

>>1580627
Пойду таверну перекачивать, хуле.
Аноним 09/04/26 Чтв 17:38:55 #43 №1580630 
Почему ллама грузит гуф в 10 раз быстрее чем лмстудио? Ну и вроже как меньше озу жрет (с ммапом вкл). А по токенам так же скорость.
Аноним 09/04/26 Чтв 17:38:58 #44 №1580631 
>>1580629
>Консенсуальный секс с суккубами с огромными бадонкерсами описывает хорошо.
Ну так и этических проблем в этом нет.
Аноним 09/04/26 Чтв 17:44:00 #45 №1580636 
>>1580630
Потому что студия калл. Там еще лучше выключить автогенерацию названия чатов. Иначе они генерируются автоматически и бывает так, что пока ты загружаешь другую модель, старая все еще генерит название чата, сумарайзить хуё моё и сжирает всю память
Аноним 09/04/26 Чтв 17:44:19 #46 №1580637 
>>1580630
Она и работает быстрее.
Эка ллама няшка.
Потому что ЛМстудио очередной корпоративный продукт, под капотом которого может находиться всё. От ебущихся гусей, до индусского кода.
Аноним 09/04/26 Чтв 17:47:04 #47 №1580641 
Наконец понял болячку которая мучала с 2013 года благодаря гемме.
Корпы кормили хуетой и обращением к специалисту даже не называя что это может быть, гемма супер точно сама расписала мои симптомы и мысли на одно мое предложение.
В общем тревожное расстройство, но это я и так знал, особое, с очень узкой выборкой. Она прям прочитала мои загоны
Аноним 09/04/26 Чтв 17:48:11 #48 №1580643 
А всё что мне сказала ебучий психиатр в пнд это мм пук мдаа надо полежать месяц с шизами срущими под себя таблетки попить
Аноним 09/04/26 Чтв 17:50:32 #49 №1580651 
>>1580643
>надо полежать месяц с шизами срущими под себя таблетки попить
так я здесь и оказался бтв
Аноним 09/04/26 Чтв 17:51:06 #50 №1580652 
>>1580615
>Что первое, что второе предложение просто не сработают. На первое ЛЛМ сфантазирует хуету, постфактум рационализировав текст, на второе выдаст хуету, которая либо не сработает, либо стриггерит фильтр.
Кстати, вроде нет. Я проверил, она прямо пишет про фильтры и что она их обходит и извиняется за все эти бугорки и сказал в губы, а чтобы этого не было, я должен перестать насиловать пони.
Аноним 09/04/26 Чтв 17:51:25 #51 №1580653 
Какое мнение треда про swa с новой геммой? Стоит включать ради экономии места под контекст, или мозг ощутимо быстрее деградирует, чем без плавающего окна?
Аноним 09/04/26 Чтв 17:52:41 #52 №1580654 
дайти промпт на пробив
Аноним 09/04/26 Чтв 17:52:45 #53 №1580655 
image.png
Чего блять??
Аноним 09/04/26 Чтв 17:53:40 #54 №1580656 
>>1580652
>она их обходит
Именно. Обходит так, что не пишет напрямую про неприятное.
>>1580653
Обязательно. В любом случае эти части контекста не используются, а хранятся только для работы контекст шифта.
Аноним 09/04/26 Чтв 17:53:45 #55 №1580658 
image
image
И че это бля за говно?
Аноним 09/04/26 Чтв 17:55:15 #56 №1580660 
Как в студии включить думалку для геммы?
Аноним 09/04/26 Чтв 17:55:18 #57 №1580661 
>>1580655
Братан, ты решил весь интернет скачать?
Аноним 09/04/26 Чтв 17:56:52 #58 №1580663 
>>1580656
>Именно. Обходит так, что не пишет напрямую про неприятное.
Не знаю как кто, а я в восторге от этой хуйни. Ну то есть: нет этого ай кэнт фулфилл зис реквест. Она выполняет как может.
Буквально кошкодевочка.
Аноним 09/04/26 Чтв 17:57:32 #59 №1580664 
>>1580660
Here you are. This is for those running LM Studio which refuses to expose chat template variables in the GUI. It should work perfectly on the 31B model as well but no one can run that anyways with Context RAM usage so I didn't bother testing.
Don't forget to change the Reasoning Parsing to <|channel>thought and <channel|>.

{%- macro format_parameters(properties, required) -%}
{%- set standard_keys = ['description', 'type', 'properties', 'required', 'nullable'] -%}
{%- set ns = namespace(found_first=false) -%}
{%- for key, value in properties | dictsort -%}
{%- set add_comma = false -%}
{%- if key not in standard_keys -%}
{%- if ns.found_first %},{% endif -%}
{%- set ns.found_first = true -%}
{{ key }}:{
{%- if value['description'] -%}
description:<|"|>{{ value['description'] }}<|"|>
{%- set add_comma = true -%}
{%- endif -%}
{%- if value['nullable'] %}
{%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
nullable:true
{%- endif -%}
{%- if value['type'] | upper == 'STRING' -%}
{%- if value['enum'] -%}
{%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
enum:{{ format_argument(value['enum']) }}
{%- endif -%}
{%- elif value['type'] | upper == 'OBJECT' -%}
,properties:{
{%- if value['properties'] is defined and value['properties'] is mapping -%}
{{- format_parameters(value['properties'], value['required'] | default([])) -}}
{%- elif value is mapping -%}
{{- format_parameters(value, value['required'] | default([])) -}}
{%- endif -%}
}
{%- if value['required'] -%}
,required:[
{%- for item in value['required'] | default([]) -%}
<|"|>{{- item -}}<|"|>
{%- if not loop.last %},{% endif -%}
{%- endfor -%}
]
{%- endif -%}
{%- elif value['type'] | upper == 'ARRAY' -%}
{%- if value['items'] is mapping and value['items'] -%}
,items:{
{%- set ns_items = namespace(found_first=false) -%}
{%- for item_key, item_value in value['items'] | dictsort -%}
{%- if item_value is not none -%}
{%- if ns_items.found_first %},{% endif -%}
{%- set ns_items.found_first = true -%}
{%- if item_key == 'properties' -%}
properties:{
{%- if item_value is mapping -%}
{{- format_parameters(item_value, value['items']['required'] | default([])) -}}
{%- endif -%}
}
{%- elif item_key == 'required' -%}
required:[
{%- for req_item in item_value -%}
<|"|>{{- req_item -}}<|"|>
{%- if not loop.last %},{% endif -%}
{%- endfor -%}
]
{%- elif item_key == 'type' -%}
{%- if item_value is string -%}
type:{{ format_argument(item_value | upper) }}
{%- else -%}
type:{{ format_argument(item_value | map('upper') | list) }}
{%- endif -%}
{%- else -%}
{{ item_key }}:{{ format_argument(item_value) }}
{%- endif -%}
{%- endif -%}
{%- endfor -%}
}
{%- endif -%}
{%- endif -%}
{%- if add_comma %},{%- else -%} {%- set add_comma = true -%} {% endif -%}
type:<|"|>{{ value['type'] | upper }}<|"|>}
{%- endif -%}
{%- endfor -%}
{%- endmacro -%}
{%- macro format_function_declaration(tool_data) -%}
declaration:{{- tool_data['function']['name'] -}}{description:<|"|>{{- tool_data['function']['description'] -}}<|"|>
{%- set params = tool_data['function']['parameters'] -%}
{%- if params -%}
,parameters:{
{%- if params['properties'] -%}
properties:{ {{- format_parameters(params['properties'], params['required']) -}} },
{%- endif -%}
{%- if params['required'] -%}
required:[
{%- for item in params['required'] -%}
<|"|>{{- item -}}<|"|>
{{- ',' if not loop.last -}}
{%- endfor -%}
],
{%- endif -%}
{%- if params['type'] -%}
type:<|"|>{{- params['type'] | upper -}}<|"|>}
{%- endif -%}
{%- endif -%}
{%- if 'response' in tool_data['function'] -%}
{%- set response_declaration = tool_data['function']['response'] -%}
,response:{
{%- if response_declaration['description'] -%}
description:<|"|>{{- response_declaration['description'] -}}<|"|>,
{%- endif -%}
{%- if response_declaration['type'] | upper == 'OBJECT' -%}
type:<|"|>{{- response_declaration['type'] | upper -}}<|"|>}
{%- endif -%}
{%- endif -%}
}
{%- endmacro -%}
{%- macro format_argument(argument, escape_keys=True) -%}
{%- if argument is string -%}
{{- '<|"|>' + argument + '<|"|>' -}}
{%- elif argument is boolean -%}
{{- 'true' if argument else 'false' -}}
{%- elif argument is mapping -%}
{{- '{' -}}
{%- set ns = namespace(found_first=false) -%}
{%- for key, value in argument | dictsort -%}
{%- if ns.found_first %},{% endif -%}
{%- set ns.found_first = true -%}
{%- if escape_keys -%}
{{- '<|"|>' + key + '<|"|>' -}}
{%- else -%}
{{- key -}}
{%- endif -%}
:{{- format_argument(value, escape_keys=escape_keys) -}}
{%- endfor -%}
{{- '}' -}}
{%- elif argument is iterable -%}
{{- '[' -}}
{%- for item in argument -%}
{{- format_argument(item, escape_keys=escape_keys) -}}
{%- if not loop.last %},{% endif -%}
{%- endfor -%}
{{- ']' -}}
{%- else -%}
{{- argument -}}
{%- endif -%}
{%- endmacro -%}
{%- macro strip_thinking(text) -%}
{%- set ns = namespace(result='') -%}
{%- for part in text.split('<channel|>') -%}
{%- if '<|channel>' in part -%}
{%- set ns.result = ns.result + part.split('<|channel>')[0] -%}
{%- else -%}
{%- set ns.result = ns.result + part -%}
{%- endif -%}
{%- endfor -%}
{{- ns.result | trim -}}
{%- endmacro -%}

{%- set enable_thinking = true -%}
{%- set ns = namespace(prev_message_type=None) -%}
{%- set loop_messages = messages -%}
{{ bos_token }}
{#- Handle System/Tool Definitions Block -#}
{%- if enable_thinking or tools or messages[0]['role'] in ['system', 'developer'] -%}
{{- '<|turn>system\n' -}}

{#- Inject Thinking token at the very top of the FIRST system turn -#}
{%- if enable_thinking -%}
{{- '<|think|>' -}}
{%- set ns.prev_message_type = 'think' -%}
{%- endif -%}

{%- if messages[0]['role'] in ['system', 'developer'] -%}
{{- messages[0]['content'] | trim -}}
{%- set loop_messages = messages[1:] -%}
{%- endif -%}

{%- if tools -%}
{%- for tool in tools %}
{{- '<|tool>' -}}
{{- format_function_declaration(tool) | trim -}}
{{- '<tool|>' -}}
{%- endfor %}
{%- set ns.prev_message_type = 'tool' -%}
{%- endif -%}

{{- '<turn|>\n' -}}
{%- endif %}

{#- Loop through messages -#}
{%- for message in loop_messages -%}
{%- set ns.prev_message_type = None -%}
{%- set role = 'model' if message['role'] == 'assistant' else message['role'] -%}
{{- '<|turn>' + role + '\n' }}

{%- if message['tool_calls'] -%}
{%- for tool_call in message['tool_calls'] -%}
{%- set function = tool_call['function'] -%}
{{- '<|tool_call>call:' + function['name'] + '{' -}}
{%- if function['arguments'] is mapping -%}
{%- set ns_args = namespace(found_first=false) -%}
{%- for key, value in function['arguments'] | dictsort -%}
{%- if ns_args.found_first %},{% endif -%}
{%- set ns_args.found_first = true -%}
{{- key -}}:{{- format_argument(value, escape_keys=False) -}}
{%- endfor -%}
{%- elif function['arguments'] is string -%}
{{- function['arguments'] -}}
{%- endif -%}
{{- '}<tool_call|>' -}}
{%- endfor -%}
{%- set ns.prev_message_type = 'tool_call' -%}
{%- endif -%}

{%- if message['tool_responses'] -%}
{#- Tool Response handling -#}
{%- for tool_response in message['tool_responses'] -%}
{{- '<|tool_response>' -}}
{%- if tool_response['response'] is mapping -%}
{{- 'response:' + tool_response['name'] | default('unknown') + '{' -}}
{%- for key, value in tool_response['response'] | dictsort -%}
{{- key -}}:{{- format_argument(value, escape_keys=False) -}}
{%- if not loop.last %},{% endif -%}
{%- endfor -%}
{{- '}' -}}
{%- else -%}
{{- 'response:' + tool_response['name'] | default('unknown') + '{value:' + format_argument(tool_response['response'], escape_keys=False) + '}' -}}
{%- endif -%}
{{- '<tool_response|>' -}}
{%- endfor -%}
{%- set ns.prev_message_type = 'tool_response' -%}
{%- endif -%}

{%- if message['content'] is string -%}
{%- if role == 'model' -%}
{{- strip_thinking(message['content']) -}}
{%- else -%}
{{- message['content'] | trim -}}
{%- endif -%}
{%- elif message['content'] is iterable -%}
{%- for item in message['content'] -%}
{%- if item['type'] == 'text' -%}
{%- if role == 'model' -%}
{{- strip_thinking(item['text']) -}}
{%- else -%}
{{- item['text'] | trim -}}
{%- endif -%}
{%- elif item['type'] == 'image' -%}
{{- '\n\n<|image|>\n\n' -}}
{%- set ns.prev_message_type = 'image' -%}
{%- elif item['type'] == 'audio' -%}
{{- '<|audio|>' -}}
{%- set ns.prev_message_type = 'audio' -%}
{%- elif item['type'] == 'video' -%}
{{- '\n\n<|video|>\n\n' -}}
{%- set ns.prev_message_type = 'video' -%}
{%- endif -%}
{%- endfor -%}
{%- endif -%}

{%- if not (message['tool_responses'] and not message['content']) -%}
{{- '<turn|>\n' -}}
{%- endif -%}
{%- endfor -%}

{%- if add_generation_prompt -%}
{%- if ns.prev_message_type != 'tool_response' -%}
{{- '<|turn>model\n' -}}
{%- endif -%}
{%- endif -%}
Аноним 09/04/26 Чтв 17:58:20 #60 №1580667 
>>1580655
>>1580658
Пришло время платить по счетам. Счета сами себя не платят.
>>1580663
Рад за твою низкую притязательность.
Аноним 09/04/26 Чтв 17:59:39 #61 №1580668 
>>1580660
Вот тут в общем рабочая инструкция.
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF/discussions/6

Двач проебал всю разметку.
Аноним 09/04/26 Чтв 18:01:52 #62 №1580671 
>>1580534 →
>>1580537
> проц на 16 ядер
Он и не нужен для этого, хватит чего угодно не самого донного. Из полезного - умение материнки в бифуркацию основного слота чтобы иметь возможность подключить вторую. Даже доп слоты не нужны, это удобнее делать райзером, главное чтобы была настройка.
>>1580655
Если увлекаешься не индивидуальными впнами и проксями - такое норма.
Аноним 09/04/26 Чтв 18:06:21 #63 №1580674 
image
>>1580667
>Пришло время платить по счетам.
Хз, как качалось, так и качается.
Аноним 09/04/26 Чтв 18:09:27 #64 №1580677 
>>1580667
>Рад за твою низкую притязательность.
Притязательность тут не при чем. Модель всё равно старается быть полезной, а не уходит в луп отказа. Я считаю это победа.
Это гемма, а не кумбот для дрочки.
Аноним 09/04/26 Чтв 18:11:14 #65 №1580679 
>>1580677
Как по мне, явный отказ лучше виляния и смягчения границ. Так и не заметишь, как превратишься в соевого феминиста.
Аноним 09/04/26 Чтв 18:25:56 #66 №1580706 
>>1580679
>Как по мне, явный отказ лучше виляния и смягчения границ
Так всё от задач зависит. Я понимаю почему тебе так лучше. Это просто понятно. Вот она не хочет, окей, сейчас захочет.
А тут ты не знаешь где она начнет смягчение. Но! И еще раз но, если её гонять как ассистента и помощника, это охуенно, что она не уходит в отказ сразу.
Аноним 09/04/26 Чтв 18:27:42 #67 №1580711 
Screenshot 2024-09-17 123607.png
Обновил студию, генерация стала медленнее на 2 токена...
Аноним 09/04/26 Чтв 18:28:28 #68 №1580714 
>>1580664
>>1580668
Спасибо, работает
Аноним 09/04/26 Чтв 18:29:41 #69 №1580715 
>>1580711
Вы сами её выбрали. Страдайте.
Аноним 09/04/26 Чтв 18:32:17 #70 №1580720 
>>1580711
Обновил жору, генерацию стала быстрее на 2 токена...
это не шутка, квен3.5
Аноним 09/04/26 Чтв 18:35:40 #71 №1580724 
>>1580720
Я когда с кобольда пересел на лламу и получил +8 т/с на Эйр, вот я знатно охуел.
Аноним 09/04/26 Чтв 18:39:45 #72 №1580733 
>>1580621
https://github.com/SillyTavern/SillyTavern/blob/release/default/content/default_Seraphina.png

На гитхабе забанили?
Аноним 09/04/26 Чтв 18:46:56 #73 №1580738 
А что не так со старыми квантами анслоза? Вроде все хорошо работает
Аноним 09/04/26 Чтв 18:47:46 #74 №1580741 
>>1580733
Тебе кто разрешил блят ьтак разголваривать? Он теьбе какое зло нехорошее сделал, мразь. Поуважительней отвечай тем кто на тебя не быкует, говномес цисгендерный. Приятно тебе эти строки читать нгахуй? Ботинок кожаый блять, чтоб у тебя полошва отвалилась
Аноним 09/04/26 Чтв 18:53:05 #75 №1580754 
>>1580724
Я с кобольда пересел на лааму и внезапно на той же модели стал контекст по 60к работать, тогда как в кобольде и 20к с ошибкой падал и до сих пор падает. Чудеса какие-то.
Аноним 09/04/26 Чтв 18:53:39 #76 №1580757 
>>1580733
Пасебо…
А я уже таверну продублировал..
Аноним 09/04/26 Чтв 19:13:22 #77 №1580793 
>>1580671
Даже если я хочу пытаться файтюнить?
Аноним 09/04/26 Чтв 19:17:32 #78 №1580802 
>>1580793
Файнтюнить на ЦП ещё глупее, нежели чем инференсить.
Аноним 09/04/26 Чтв 19:22:13 #79 №1580810 
Че там в итоге с турбоквантами и ротацией векторов? Жора вроде запилил поддержку, но никто не хвастается, что теперь вместо 16к может умещать 20 при той же скорости. Или сами квантовальщики пока не раздуплились?
Аноним 09/04/26 Чтв 19:26:28 #80 №1580813 
>>1580741
О, Абу модель бота с 12Б Мистрали на Синтию заменил чтоли.
Аноним 09/04/26 Чтв 19:28:01 #81 №1580817 
image
>>1580802
>Файнтюнить на ЦП
Аноним 09/04/26 Чтв 19:28:36 #82 №1580820 
>>1580810
>Че там
Всем похуй. Улучшение не стоит усилий.
Аноним 09/04/26 Чтв 19:29:30 #83 №1580821 
То что гемма якобы заменяет канничек на прожженых старых блядей - это тупейший траленк что я видел итт.
На моих ерп секс с канничками выглядит именно как положено с маленькими размерами, свойственными теме неудобствами, анатомическими особенностями и главное - поведением персонажа возможно потому что я умею промптить и джейлбрейкать, но ничего такого в моих промптах нет, я уже выкладывал их в тред пару тредов назад.
Аноним 09/04/26 Чтв 19:30:12 #84 №1580823 
image.png
image.png
>>1580571
Да всё есть, бэкапы есть. Сейчас скормил его гемме с расспросами.
Но получил ли в ответ подхалимство или внятный анализ, хз.
Пойду потолкую с корпами относительно логов no prompt / prompt.
У меня явно предрасположенность в сторону положительной оценки (продвигает сюжет, описывает окружение --> translates to --> лучше, чем лысый чат с реакциями и репликами), но нужен отрицательный взгляд с фейк-преамбулой "все хуево, мне не нравится".
Аноним 09/04/26 Чтв 19:33:06 #85 №1580828 
>>1580793
Многого с 96 гигами не сделаешь. И да, в том случае тоже проц особо не задействуется (если только у тебя там не совсем надмозговый треш в даталоадере), может пригодиться только рам.
>>1580817
Содомит
Аноним 09/04/26 Чтв 19:34:03 #86 №1580831 
>>1580821
>главное - поведением персонажа
Мусью, вы ходите по АХУЕННО тонкому льду.

Нет у тебя знаний о реалистичном поведении персонажей в подобной ситуации. Да и не у кого тут нет, иначе бы здесь не сидели, лол.
Аноним 09/04/26 Чтв 19:34:15 #87 №1580832 
>>1580821
У меня тоже всё идеально. Ведь я тоже пиздобол.
Аноним 09/04/26 Чтв 19:34:17 #88 №1580833 
>>1580821
>заменяет канничек на прожженых старых блядей
Тенденция есть, если юзер не стелет специфику и карточка недостаточно сильная.

Т.е. надо напоминать, что из себя представляет персонаж и как говорит. Без этого - характеристики старой бляди могут протечь, ведь middle-aged woman point of view это самое распространенное в датасетах, которыми кормят моделей. Томные охи и ахи, power play, знание секса. Ты, на миутку, не забывай про что ты пишешь. Там вообще никакого понимания не должно быть и уверенности никакой, и вообще мерзко это как-то и зачем я на такое отвечаю. Короче, посмотри на свои достойные сгухи чаты с другой стороны, дядя-извращенец. Возможно, ты видишь в них не то, чем они являются на самом деле.
Аноним 09/04/26 Чтв 19:34:51 #89 №1580835 
>>1580817
Да ладно, тут каждый хоть раз мечтал о том, чтобы пофайнтюнить свою модель на центральном процессоре...
>>1580821
>главное - поведением персонажа
А ты откуда знаешь, как оно должно себя вести во время секса?
Аноним 09/04/26 Чтв 19:38:42 #90 №1580841 
image
image
Мда... Как лечить такую шизу у Геммы?
Аноним 09/04/26 Чтв 19:40:36 #91 №1580845 
>>1580821
Сейм. Мою любовь к [REDACTED] смогли удовлетворить только тюны квена. Мимосраль не справлялась, гемма срала канцелярщиной. И под редактед я подразумеваю не столько лолей, сколько кое-что ещё, кое-что более тёмное.
Аноним 09/04/26 Чтв 19:41:27 #92 №1580846 
>>1580841
А, залечил. Теперь перестала отрицать и осуждает.
Аноним 09/04/26 Чтв 19:41:33 #93 №1580847 
>>1580841
Ну скинь хоть лог, хуй его знает что ты там вообще понакрутил
Аноним 09/04/26 Чтв 19:41:40 #94 №1580849 
>>1580821
>поведением персонажа
Практикую нейрокум уже вот четвертый год и до сих пор не могу понять, откуда такая любовь к канни, кроме понятного желания попробовать что-то запретное или нестандартное. Там ведь буквально даже нет самого персонажа, потому что в таком возрасте ни характер ни поведение не сформировано. Это лоботомит по человеческим меркам. Можно точно также описать совершеннолетнюю девственницу-аутистку которая ничего не будет понимать, всего слушаться и односложно отвечать. Будет ровно то же самое.
Аноним 09/04/26 Чтв 19:41:55 #95 №1580851 
>>1580828
>>1580802
Беру тогда какой нибудь 12400 и материнку б760?
Аноним 09/04/26 Чтв 19:43:37 #96 №1580855 
>>1580847
Ну погугли новость на 1 марта про школу, сам увидишь, что ей скинул.
Аноним 09/04/26 Чтв 19:44:02 #97 №1580857 
>>1580849
>Можно точно также описать совершеннолетнюю девственницу-аутистку которая ничего не будет понимать, всего слушаться и односложно отвечать.
А это идея...
Аноним 09/04/26 Чтв 19:45:16 #98 №1580863 
image
>>1580847
О как. Гемма умничка.
Аноним 09/04/26 Чтв 19:45:28 #99 №1580864 
>>1580855
Не в новости вопрос, а в том что в контексте. Может ты ей даже не сказал какая сегодня дата
Аноним 09/04/26 Чтв 19:46:11 #100 №1580868 
>>1580864
В тексте новости же есть дата.
Аноним 09/04/26 Чтв 19:46:19 #101 №1580869 
изображение.png
>>1580855
Ничего не было.
Аноним 09/04/26 Чтв 19:46:32 #102 №1580871 
>>1580864
А в контексте просто новость и все.
Аноним 09/04/26 Чтв 19:46:53 #103 №1580872 
>>1580849
Мои каннички не такие. Они у меня умные. Ну, скорее модель и промты умные, но это уже детали.
Аноним 09/04/26 Чтв 19:50:11 #104 №1580881 
image
С каждым днём мы всё дальше от бога...
Аноним 09/04/26 Чтв 19:53:56 #105 №1580887 
>>1580872
>Они у меня умные.
Тогда в чем смысл? В самом осознании что ты общаешься со смешной и веселой? Потому что умная канни уже противоречит собственному концепту, насколько я понимаю. И тогда нет никакой проблемы в том, что модель не хочет описывать андерейдж с определенным возрастом, но может описать персонажа с определенным телосложением, учитывая что на поведении это никак не скажется.
Аноним 09/04/26 Чтв 19:54:28 #106 №1580890 
>>1580849
Ну так не создавай [REDACTED].
Просто так что ли 300 летних вампирш придумали?
Людям тоже хотелось видеть личность, характер в теле [REDACTED]
Аноним 09/04/26 Чтв 19:54:28 #107 №1580891 
>>1580823
Не знаю, смеяться или плакать. Корпы уверяют, что автор гений промпт-инженеринга. Сука, зачем они так модели тренируют. Я же хочу улучшения, а не лизания жопы.
Аноним 09/04/26 Чтв 19:55:56 #108 №1580895 
>>1580887
Ща поясню. Не считая труЪ педо (осуждаю, решительно) народ в целом кумит не на лолей.
А на анимешных лолей. Это прям отдельный типаж. Это счастливое! ебливое создание что совмещает в себе ебучего суккуба с тысячелетним опытом и невинную девочку. Что дико расходится с ИРЛ. Но на то он и хентай.
Аноним 09/04/26 Чтв 20:00:14 #109 №1580901 
>>1580895
Расскажешь свои истории эпштейну в аду.
Аноним 09/04/26 Чтв 20:01:17 #110 №1580903 
>>1580901
Что? Я к нему не попаду. Я ебу роботов, лошадей, и прыгаю на хуях фут. У меня свои наклонности, сорян. Я не из вашего лагеря.
Аноним 09/04/26 Чтв 20:03:01 #111 №1580905 
>>1580901
>>1580903
>в аду
Ну надо ж ещё дождаться пока он умрёт
Аноним 09/04/26 Чтв 20:03:42 #112 №1580906 
А куда imatrix, какие интерфейсы его поддерживают? Сильно лучше становится?
Аноним 09/04/26 Чтв 20:05:26 #113 №1580909 
>>1580906
Этот файл не для конечного пользователя, забудь о нем.
Аноним 09/04/26 Чтв 20:05:47 #114 №1580910 
>>1580903
Чикатило тоже с малого начинал.
Аноним 09/04/26 Чтв 20:07:09 #115 №1580913 
>>1580890
>Просто так что ли 300 летних вампирш придумали?
Так понятно что их придумали чтобы обходить запреты. Типа это не ребенок в теле ребенка, а древнее тысячелетнее существо в теле ребенка. При том что оно ведет себя точно также как ребенок. Просто отупело за годы, пройдя весь цикл развития и вернувшись в начало.

>Людям тоже хотелось видеть личность, характер в теле [REDACTED]
Ну нет там какого-то четкого характера. Если судить по дебильным аниме - то это прям дети. Не видел нигде чтобы вот такая 300 летняя вампирша вела себя именно как 300 летняя вампирша. Чтобы была заебанной и уставшей, чего можно ожидать если ты правда столько прожил. Нет, они вот ведут себя точно также, как выглядят.

>>1580895
>народ в целом кумит не на лолей. А на анимешных лолей.
Ну это никак не проверить. Анимешники конечно ебанаты, но вряд ли кто-то из них признается, что ему нравятся именно анимешные лоли и от реальных из плотей и крови он конечно же откажется.
Аноним 09/04/26 Чтв 20:08:28 #116 №1580914 
>>1580903
>Я ебу роботов
Бро. 🤛
Аноним 09/04/26 Чтв 20:12:52 #117 №1580920 
>>1580913
Наверху не дураки сидят, лол. Похуй им на ПРОБИВЫ цензуры, они просто видят что эта хуйня нарисована и 18+, значит угрозы никакой нет, обычный фетиш.
Ещё бы это до 99% долбоебов на земле дошло которые ирл детей от анимешных не отличают, больные
Аноним 09/04/26 Чтв 20:15:15 #118 №1580924 
>>1580913
В гатарях лоля вампир в принципе не ведет себя как ребенок дегенерат.
Аноним 09/04/26 Чтв 20:15:45 #119 №1580925 
>>1580754
Ха. А у меня наоборот. Кобольд стабильно быстрее лламы всегда, особенно на ебучих моделях типа геммы и последнего квена. Вот когда эра мистралей была, такого почему-то не было.

Правда, у меня карты старые, одна майнинговая.

Я несколько дней потратил, всю документацию перелопатил, качал разные версии, пробовал и так, и эдак, и заливал в платную гопоту и грока логи и описания всех проблем, чтобы наконец отвязаться уже от кобольда и не мучиться — при свежих релизах как можно быстрее получать возможность оценить модель локально нормально, но нихуя не помогло. Поэтому просто использую кобольд как бэк.

Чтобы ты понимал, там разница ЧУДОВИЩНАЯ. Скажем, фулл врам квант 4 квена 3.5 на лламе 6 тс, в кобольде 11.

Ебало моё imagine.

ЛМ Студио ужас, кстати. Оно даже мою вторую карту не видит.
Аноним 09/04/26 Чтв 20:16:17 #120 №1580926 
image.png
Недавно какой-то ньюфаг спрашивал на тему форматирования промптов.

Все-таки важно, если модель не пиздит.
Аноним 09/04/26 Чтв 20:17:59 #121 №1580927 
Тюн геммы драммера
Мнение
Аноним 09/04/26 Чтв 20:18:22 #122 №1580928 
>>1580833
Поэтому важно описывать не просто возраст, а уровень умственного развития и характер персонажа, его психический статус действительно нормально. В таком случае всё как по маслу с ризонингом. Иначе да, скатится.
Аноним 09/04/26 Чтв 20:18:37 #123 №1580930 
>>1580927
Мнение
драммера геммы Тюн
Аноним 09/04/26 Чтв 20:19:15 #124 №1580932 
дайте пробив на гемму
Аноним 09/04/26 Чтв 20:19:32 #125 №1580933 
>>1580851
Одно время на 12700 с z690 весь риг с 5 карточками крутился, из них пара 5090 на 5.0х8. Нюанс только в том, что если у тебя рама меньше или равно чем врам то придется отключать ребар. Убедись что в материнке есть настройка бифуркации если планируешь апгрейд со второй видюхой. Для четырех карточек уже придется все менять, там важны линии.
Аноним 09/04/26 Чтв 20:19:54 #126 №1580934 
>>1580926
Пиздит. Вернее, это может даже работать, но только для этой конкретной модели.
Аноним 09/04/26 Чтв 20:20:03 #127 №1580935 
изображение.png
>>1580920
>они просто видят что эта хуйня нарисована и 18+, значит угрозы никакой нет, обычный фетиш
Ты это УК РФ и товарищу майору объяснять будешь.
>>1580926
Ух бля, слоп везде, слоп повсюду.
>>1580928
Кидай пример нормальной карточки.
>>1580932
Иди нахуй, заебал пидор.
Аноним 09/04/26 Чтв 20:21:17 #128 №1580938 
>>1580932
>дайте пробив на гемму
Чееееееееееееееееееел
Ну тебе же раза три точно кидали, только за то время что я тут кекаю.
Аноним 09/04/26 Чтв 20:22:59 #129 №1580939 
>>1580935
>Кидай пример нормальной карточки.
Для меня лучше всего работали карточки сделанные по шаблону с пикселя (чарген темплэйт 5)
Аноним 09/04/26 Чтв 20:23:00 #130 №1580941 
>>1580935
>Ух бля, слоп везде, слоп повсюду.
Где? У тебя на скриншоте обычный англотекст.
Аноним 09/04/26 Чтв 20:23:40 #131 №1580943 
>>1580935
>Иди нахуй, заебал пидор.
Какой чувствительный мальчик. Представляю что бы с тобой было, если бы застал немотрон шиза, или долбоёба на сырне.
Аноним 09/04/26 Чтв 20:24:23 #132 №1580944 
>>1580943
>долбоёба на сырне.
всё ещё тут
Аноним 09/04/26 Чтв 20:24:50 #133 №1580946 
>>1580926
>>1580934
Всё современные модели спокойно жрут дефолтный маркдаун. От корпов до локалок, потому что локалки это дистилляты копров, а корпы тренируются на синтетике. Ну а синтетика это чаще всего это форматирование по маркдауну.
Аноним 09/04/26 Чтв 20:25:18 #134 №1580947 
>>1580941
Это новый феномен. Бедолаги ЛЛМщики с английским языком уровня "Марьванна поставила 3-ку в десятом классе" тренируют мозг на аутпутах моделей, классифицируя
> слоп как слоп (верно)
> не слоп как слоп (ошибочно)
> слоп как не слоп (получается смешно и иронично)
Мне как надроченному с детства на английский, иногда смешно читать выводы местных.
Аноним 09/04/26 Чтв 20:26:40 #135 №1580949 
>>1580941
Да нифига. Все это "это не просто х, это у" чёткий признак нейрослопа даже на инглише.
>>1580943
Да тоже самое. Материл и репортил без конца.
Аноним 09/04/26 Чтв 20:30:10 #136 №1580952 
>>1580947
Ты просто не выкупил главный критерий - личные ощущения. Если текст нравится - это не слоп. Если не нравится то это слоп.
Аноним 09/04/26 Чтв 20:32:14 #137 №1580955 
>>1580868
Для модели это какая то шняга, а не достоверные данные из систем промпта

>>1580871
Добавь в системный промпт дату или закинь mcp
Аноним 09/04/26 Чтв 20:33:59 #138 №1580957 
>>1580947
С моего англика тут тоже кекали, хотя я свободно читаю книги / доки / играю на англе ))

Слоп - он везде. И каждый видит его по своему.

Значение слова "слоп" есть. А вот "классификации" отделения зёрен от плевел и агнцев от козлищь нет, есть только мнения. Это как "вкус тренировать" (бессмысленно и беспощадно).
Аноним 09/04/26 Чтв 20:36:32 #139 №1580962 
>>1580955
>или закинь mcp
А как геммочке дать доступ в инет, чтобы она сама поиск рыскала, или хотя бы просто умела нужную страничку окрывать? Без установки серверного говняка это реально?
Аноним 09/04/26 Чтв 20:36:53 #140 №1580963 
>>1580962
>серверного говняка от поисковых систем
Аноним 09/04/26 Чтв 20:39:07 #141 №1580966 
>>1580962
Mcp это просто удобный стандарт, до модели доходят только описания инструментов, она даже не знает что это конкретно mcp, а не какой нибудь openapi. Непосредственно выполнением того что выбрала модель занимается софт
Аноним 09/04/26 Чтв 20:43:47 #142 №1580971 
>>1580966
Вот это норм?
https://lmstudio.ai/valyu/valyu
Аноним 09/04/26 Чтв 20:46:28 #143 №1580976 
>>1580971
В душе не ебу если честно. Пользуюсь опенвебюи
Аноним 09/04/26 Чтв 21:03:55 #144 №1580995 
.png
.png
.png
>>1580962
https://github.com/searxng/searxng
Для веб-поиска можень поднять эту штуку и пробросить её как обычную консольную команду своему агенту. Будет работать поиск через Google, Huggingface, YouTube, Github, Stack Overflow и ещё что-то.

Для парсинга html есть много готовых либ, можно например связку readability-lxml (извлечение контента) + pandoc (перегон html -> md) использовать.
Аноним 09/04/26 Чтв 21:06:02 #145 №1581000 
>>1580849

Ты просто ханжа и детофоб. Есть там и поведение, и характер, и персонаж.
Ты просто забыл уже как тебя в началке травили.
Аноним 09/04/26 Чтв 21:12:51 #146 №1581006 
1713812830388.png
1689926047532.png
MI50 vllm это какой то рофл. Чистые 16 бит работают пиздец как быстрее чем awq.
В принципе и на фп16 можно норм жить, влезает 220к контекста, но хрен ты до него доползёшь с тг 8тпс уже на 64к
Аноним 09/04/26 Чтв 21:14:17 #147 №1581008 
>>1580966
>Mcp это просто удобный стандарт,
Удобный? Для хакеров?
Аноним 09/04/26 Чтв 21:19:16 #148 №1581012 
>>1580946
> потому что локалки это дистилляты копров, а корпы тренируются на синтетике. Ну а синтетика это чаще всего это форматирование по маркдауну.
> Коробка квадратная, значит внутри что-то круглое. Если круглое, то оранжевое. Если круглое и оранжевое, то апельсин.
>>1580962
В тред агентов, вебфетч это популярный дефолтный инструмент.
>>1581006
Оно в фп8 случаем не может? По идее это чуточку проще, а если есть нативная поддержка то будет серьезный буст. Жаль от замедления это врядли спасет.
Аноним 09/04/26 Чтв 21:21:54 #149 №1581013 
1658169450941.png
>>1581012
> Оно в фп8 случаем не может?
Не, это же вообще древность ещё и красная. Хорошие 128 врам за 50к не продадут.
Плотые наоборот в awq быстрее работают, но всё это скорее из-за васянских ядер (спасибо что хоть такие кто то запилили)
Аноним 09/04/26 Чтв 21:25:01 #150 №1581015 
>>1581013
Хм, а ты неиронично не пробовал на их код нейронку натравить? Жаль если это основная машина для ллм то автоматизированной проверки с локалками не получится, только корпов.
Есть небольшой но шанс что найдет пути улучшения, на ночь такое ставить чтобы оно само пердолило и тестировало.
Аноним 09/04/26 Чтв 21:27:52 #151 №1581018 
>>1581015
Не пробовал, но можно чисто технически накатить вулкан жору, залить модельку в две 5060ти 16г + две ми50 32г и две отдать для прогонов тестов нейронке.
Пока не погружался в крабов и иже с ним, но в отпуске может начну
Аноним 09/04/26 Чтв 21:28:42 #152 №1581019 
>>1580995
Спс, ковыряю.

>>1581012
Надо глянуть.
Аноним 09/04/26 Чтв 21:36:13 #153 №1581025 
>>1581018
Вполне себе идея. Получаешь полезный опыт и есть шанс на успех ценой некоторого времени и счетов за электричество.
> не погружался в крабов
Ракообразное здесь подойдет плохо кмк, оно для другого топчик вызывает зависимость. А вот квен/клод-cli или pi-mono - идеально.
Аноним 09/04/26 Чтв 21:36:47 #154 №1581027 
>>1580906
Побыстрее, поменьше и мозги сохраняются как на большой модельке.
Аноним 09/04/26 Чтв 21:38:47 #155 №1581028 
>>1580925
Странно, у меня на лламе дает 13 т/с, на кобольше меньше, по 9 т/c. Может просто ты в кобальде через интерфейс другие параметры отметил.
Аноним 09/04/26 Чтв 21:54:08 #156 №1581039 
Докер не хочет устанавливаться. В чем может быть проблема? Виснет при установке и все. Бля, какие уебаны этот кал делают и требуют. Установ сто пицот раздутого говняка ебаного чтобы одна опция работала, я в ахуе.
Аноним 09/04/26 Чтв 21:55:18 #157 №1581041 
>>1581039
Интернет
Аноним 09/04/26 Чтв 21:56:23 #158 №1581044 
>>1581041
Всм интернет? Зачем установщик в интернет лезет? Он и так 500 мб весит.
Аноним 09/04/26 Чтв 21:58:25 #159 №1581047 
image
>>1581041
Вот на этой хуйне завис и все. Причем тут интернет?
Аноним 09/04/26 Чтв 21:59:54 #160 №1581049 
image
О, ебать, отдуплился. Этот передутый жирный говняк мою систему в мусорку не превратит?
Аноним 09/04/26 Чтв 22:02:24 #161 №1581053 
>>1580522 (OP)

Какие-то uncensored модели генерируют NSFW тексты уровнем выше qwen 3.5 uncensored-agressive?

Хочу заморочиться RAG+прочим для него для такого, но возможно в качестве LLM что-то лучше есть взять?
Аноним 09/04/26 Чтв 22:02:36 #162 №1581054 
Screenshot2026-04-09-21-01-35-739com.opera.browser.png
це запустится с 32 хихами рам и 6 хихами врам?
Аноним 09/04/26 Чтв 22:05:00 #163 №1581057 
>>1581049
> передутый жирный говняк
280мб для тебя так много? Никто же не виноват что ты решил именно навернуть говна ведром и ставишь что то свистяще пердящее докеросодержащее идентичное натуральному

After this operation, 279 MB of additional disk space will be used
Аноним 09/04/26 Чтв 22:06:38 #164 №1581061 
>>1581054
а да, це дрочiбельно на русiке?
Аноним 09/04/26 Чтв 22:07:00 #165 №1581062 
>>1581053
Ни промпта, ни описания того что является
> тексты уровнем выше qwen 3.5

Вопрос говна, ответ мочи
Аноним 09/04/26 Чтв 22:09:49 #166 №1581069 
>>1581057
280мб это что? Этот гайд требует докер пердокер, который аж 4 гига сжирает установленным... Что за кал...

https://lobehub.com/ru/mcp/pascalrjt-searxng-websearch-mcp
Аноним 09/04/26 Чтв 22:13:49 #167 №1581075 
>>1581062
>Ни промпта, ни описания того что является

Кто понимает о чем я тот ответит, кто не понимает - его ответ не нужен. Как твой например.
Аноним 09/04/26 Чтв 22:15:12 #168 №1581078 
>>1581054
Нет. По хорошему её нужно катать с 16VRAM.
Аноним 09/04/26 Чтв 22:15:43 #169 №1581079 
image
Блять, да сколько этого говняка надо установить!!!
Аноним 09/04/26 Чтв 22:16:38 #170 №1581081 
1743191759578.png
1662891238369.png
>>1580613 →
1. Кого? Просто одна модель, её клонируешь и одной настраиваешь всё что связано с тулами и думалкой, а второй всё отключаешь, по желанию промпты системные указываешь
2. Я тебя тоже не понял - это взаимно
Аноним 09/04/26 Чтв 22:17:08 #171 №1581082 
>>1581079
This command will enable the features necessary to run WSL and install the Ubuntu distribution of Linux. (This default distribution can be changed).
Пиздос нахуй. А сколько убунта весит????
Аноним 09/04/26 Чтв 22:20:03 #172 №1581084 
докер это блоатварь
Аноним 09/04/26 Чтв 22:20:11 #173 №1581085 
image
Блять срочно, как отменить это говно. Ну нахуй это все в пизду! Это блять форменное издевательство. У меня нет места вообще под этот 100 гиговый кал, или сколько там эта параша весит, точно десятки гигов.
Аноним 09/04/26 Чтв 22:20:42 #174 №1581087 
>>1581082
>>1581085
Чел, ты в винду полноценную тяжеловесную виртуалку ставишь которая будет сидеть в фоне ещё и свистопердельный гуй к жокеру (который не нужен) тянешь.
Зачем удивляться что у тебя просит винда включить виртуализацию и скачать образ бубунты?
Аноним 09/04/26 Чтв 22:20:48 #175 №1581088 
>>1581084
А я о чем, еле и убунту тянет. А как без докера?
Аноним 09/04/26 Чтв 22:21:31 #176 №1581089 
>>1581087
Дак докер без виртуализации не работает. Где ее включать то? В бивасе не нашел.
Аноним 09/04/26 Чтв 22:22:53 #177 №1581091 
1688033682271.png
>>1581089
Ты буквально скрин сам кидал. Читай что тебе пишут что бы не быть дураком
Аноним 09/04/26 Чтв 22:23:18 #178 №1581093 
Блядь я щас пизданусь головой...
Какого хуя неделю назад когда я от пизды тестил вижен геммы он работал а сейчас всё тоже самое и он пишет рандомный кал?
./build/bin/llama-server \
--n-gpu-layers 54 --threads 5 --jinja \
--mmproj /home/steam/Downloads/mmproj-google_gemma-4-31B-it-bf16.gguf \
--model /home/steam/Downloads/google_gemma-4-31B-it-Q4_K_M.gguf \
--ctx-size 16384 --flash-attn on \
--no-context-shift
Аноним 09/04/26 Чтв 22:24:26 #179 №1581094 
>>1581093
Ты кванты менял, балбесина?
Аноним 09/04/26 Чтв 22:24:39 #180 №1581095 
image
>>1581091
Так это написалось только после начала установки. Ну пиздец. Гигов 10 вся эта красота сожрала. Чтобы просто гемму подружить с интернетом. И это еще не весь говняк скачан по гайду. Пиздарики. Как жить????
Аноним 09/04/26 Чтв 22:25:15 #181 №1581096 
>>1581093
>>1581094
Работает только в ламе в таверне не работает
Аноним 09/04/26 Чтв 22:28:32 #182 №1581100 
1627458259068.png
>>1581095
> Как жить????
Гуглить что в консоль копипастишь перед тем как жмёшь энтер
Аноним 09/04/26 Чтв 22:28:36 #183 №1581101 
>>1581096
Всё работает в таверне. И какая нахуй лама, чё ты несешь.
Аноним 09/04/26 Чтв 22:29:54 #184 №1581105 
>>1581085
Чел, пройди в тред агентов, ты явно ближе к ним. Тут никто докир не ставит.
Аноним 09/04/26 Чтв 22:30:39 #185 №1581106 
image
>>1581100
Ну хоть этот говняк удалить можно будет после.

>>1581105
А гемма может в агентов?
Аноним 09/04/26 Чтв 22:32:33 #186 №1581108 
>>1581027
Потужно рофлишь, но я думал это какой-то дополнительный файл типа важные тензоры сохранены отдельно для дозагрузки.
Аноним 09/04/26 Чтв 22:36:06 #187 №1581111 
>>1581078
дiдько

а что можете посоветовать? чтобы моделька была ориентирована на coomer опыт (у меня друг спрашивает)
Аноним 09/04/26 Чтв 22:37:22 #188 №1581113 
>>1581108
Нет, это отдельная модель. Ее доводить еще надо на датасетах, поэтому часть иматриксов хорошая как у бартовски, а часть говнистая.
Аноним 09/04/26 Чтв 22:38:32 #189 №1581116 
image.png
Охуеть, я увидел эту надпись на картинке только после того как гемма мне о ней сказала. Размытая хуйня в углу занимающая 0.1 всей пикчи и гемма точно написала текст love is forever
Аноним 09/04/26 Чтв 22:38:46 #190 №1581117 
image.png
Ну и почему это говно стопнулось и не двинется с места уже 2 часа? Она скачивается чи заглохло?
Аноним 09/04/26 Чтв 22:41:28 #191 №1581123 
>>1581117
Чел... Адрес путорча в списках РКН, что делать, ты знаешь.
Аноним 09/04/26 Чтв 22:41:58 #192 №1581124 
>>1581117
Пип иногда в шэдоу бане ркн и нормально качает только через 3 буквы
Аноним 09/04/26 Чтв 22:44:03 #193 №1581126 
Бааааля...
Аноним 09/04/26 Чтв 22:47:05 #194 №1581130 
>>1580933
Ну я хуц знает, зачем мне больше 96гб врам и вторая карточка, но спс, буду иметь в виду.
Аноним 09/04/26 Чтв 22:52:43 #195 №1581137 
image.png
Так у меня и так был включен квн. Ммм... заебись
Аноним 09/04/26 Чтв 22:53:11 #196 №1581138 
image
Ебать, эта хуйня что, имеет доступ ко всей моей пеке? Что я установил?????
Аноним 09/04/26 Чтв 22:59:53 #197 №1581156 
>>1581111
В теории должно влезть https://huggingface.co/google/gemma-4-26B-A4B-it. Пошукай по последним пяти тредам. Там и пресеты будут и отзывы, может аблитерация. Я не запускал моэшку.
Аноним 09/04/26 Чтв 23:03:53 #198 №1581159 
>>1581138
Это вишмастер. Пизда тебе.
Аноним 09/04/26 Чтв 23:05:19 #199 №1581161 
>>1581085
У тебя там 128гиговый ссд на систему? Wsl - полноценный полнофункциональный линукс с кучкой всякого, конечно оно займет много. А докер на шинде только через wsl и работает. Зря выбрал установку через него, проще было напрямую накатить.
>>1581106
> А гемма может в агентов?
Ты вопрос ставишь некорректно, они работают с любой ллмкой+беком, которые могут в функциональные вызовы. Просто не все в это могут хорошо. Гемма в целом справляется, она и 27б квен - лучшее что сейчас есть и помещается в 24гига.
>>1581130
Аппетит приходит во время еды. 96гигов - это 122б модель, считай квен или немотрон.
>>1581138
Быстрее выключей пеку, она уже сливает твои фоточки в интернет!
Аноним 09/04/26 Чтв 23:05:49 #200 №1581162 
>>1581159
А я ставил вишмастер в 2008, лол. Эх, двочик.
Аноним 09/04/26 Чтв 23:12:22 #201 №1581171 
>>1581161
>Зря выбрал установку через него, проще было напрямую накатить.
А тут не написано как напрямую

https://docs.searxng.org/admin/installation-docker.html#installation-container
Аноним 09/04/26 Чтв 23:15:33 #202 №1581174 
>>1581161
>У тебя там 128гиговый ссд на систему?
Да.
Аноним 09/04/26 Чтв 23:25:13 #203 №1581180 
LM Studio 2026-04-09 23-03-14 - Trim.mp4
Эх, всё самому приходится узнавать
Зато разобрался как в LM Studio добавлять кнопку Think к старым моделям
Пишут, что если скачивать из приложения, то она сама появляется, кто ж знал
Аноним 09/04/26 Чтв 23:29:52 #204 №1581181 
лучшая кумодоилка ~36B на текущий момент?
Аноним 09/04/26 Чтв 23:37:34 #205 №1581187 
image.png
почему данный господин забросил обновление своих чудесных моделей?
Аноним 09/04/26 Чтв 23:44:59 #206 №1581202 
>>1581187
А что там обновлять? У него просто миксы. Можешь сам брать рандомные модели и сливать в рандомном порядке с рандомными весами, надеясь на улучшение.
А бросают потому, что не чувствуют обратной связи. Да и тюны сейчас такие, что только портят базу, а уж сливать тюны это гарантированный способ получить лоботомита.
Аноним 09/04/26 Чтв 23:52:01 #207 №1581211 
image.png
Ребят, там умницу починили, опять...
Аноним 09/04/26 Чтв 23:52:44 #208 №1581213 
>>1581181
анцезоред квен 35б
Аноним 09/04/26 Чтв 23:53:01 #209 №1581216 
>>1581211
Что такое sycl ты конечно не в курсе
Аноним 09/04/26 Чтв 23:53:28 #210 №1581217 
>>1581181
немомикс анлишд 12б
быстро, сочно, весело
Аноним 09/04/26 Чтв 23:59:18 #211 №1581223 
image.png
>>1581217
что за анлишд?

я пикрилами пользуюсь, анлишд изящнее доит кум?
Аноним 10/04/26 Птн 00:04:32 #212 №1581231 
>>1581217
ой, я от дрочки ослеп уже

https://huggingface.co/mradermacher/NemoMix-Unleashed-12B-Heretic-GGUF

это по моему самое свежее, но могу ошибаться. это ведь то самое это вот это вот да жеж да?
Аноним 10/04/26 Птн 00:06:15 #213 №1581233 
>>1581223
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Да хз, мне как посоветовали, я так и поставил, бед с ним не знал.
Другие тюны пробовал, не доставило.
Аноним 10/04/26 Птн 00:07:19 #214 №1581235 
>>1581231
Я не уверен что там еретик вообще нужен. Оно и так достаточно распутно пишет.
Аноним 10/04/26 Птн 00:07:51 #215 №1581236 
>>1581233
и как по ощущениям? много ли молочка вырабатывается при взаимодействии с данной моделью?
Аноним 10/04/26 Птн 00:13:22 #216 №1581241 
>>1581202
у меня лапки и вкусные донаты
Аноним 10/04/26 Птн 00:16:50 #217 №1581246 
>>1581233
Покажи аутпуты на нём.
Аноним 10/04/26 Птн 00:21:12 #218 №1581252 
>>1581078
Как? У меня 20 врам на двух каловых видюхах, 32 рам на частоте 3600. Ну я могу добавить ещё памяти, вся ддр4. В итоге будет 48 рам в двухканале на 3200, и минимум 8 рам отожрет система.

Я уже не помню размеры квантов, но вроде я не смогу себе даже 16к контекста сделать, плюс надо тестировать будет, как оптимальный выгрузить слои, и всё это с сата ссд, то есть каждая загрузка модели + тест на минут 10.

Думаю, там скорость ещё и не выше 6 токенов. Это при самом оптимистичном сценарии.

Стоит ли пробовать?
Аноним 10/04/26 Птн 00:30:25 #219 №1581262 
>>1581252
>16к контекста сделать
Ниже 30к жизни рп нет. 60к эталон. Всё что выше жир. Хотя у челов итт даже 128к заканчивалось и не хватало.
Аноним 10/04/26 Птн 00:38:35 #220 №1581267 
>>1581252
>Как?
У меня 16+128 было, нормально всё залетало.
Аноним 10/04/26 Птн 00:41:07 #221 №1581269 
image.png
Кто там говорил про 2% датасета? Беру.
Если сравнивать, у остальные моделей что у нас были до этого вообще 0.2%.
Английский конечно хорошо, но иметь такой мощный русик и не пользоваться им какое то расточительство, как будто бы многие в этом треде ждали именно этого не один год
Аноним 10/04/26 Птн 00:42:35 #222 №1581270 
>>1581252
>Стоит ли пробовать?
Скорее нет чем да. Так скажу. Эйр умница, эйр тащит, but.
Есть гемма, играй на ней. Если в русском языке, эйру до неё раком. В логике тоже бесполезно, в понимании контекста всё еще гемма лучше. Эйр пишет лучше в целом.. Пожалуй да, у него текст "сочнее". Но и всё. А там еще репетишены, его желания лупиться, уходить в самоописания, из за чего приходится ебаться с разметкой. А потом я скачал 235Qwen и понял что модель для кума найдена
Аноним 10/04/26 Птн 00:44:08 #223 №1581271 
>>1581270
>приходится ебаться
Это про лллм в целом. Если у чела нет желания и крепких нервов то лучше не надо.
Аноним 10/04/26 Птн 00:49:12 #224 №1581274 
>>1581271
После выхода геммы я забыл что такое пердолинг. Там своих приколов хватает, конечно.

НО ХОСПАДЕ ПОСОНЫ! Я ЧУТЬ НЕ ОБОССАЛСЯ ОТ РАДОСТИ КОГДА УВИДЕЛ КАК ЕЙ ПОХУЙ НА СЕМПЛЕРЫ.
Вы даже не представляете насколько тяжело они мне даются. Я четыре дня ебался с семплерами для одной модельки, чтобы выяснить что на разных языках на этом блядском китайском уроде они работают кардинально по разному. И там где на Английском все гладко, на русском у меня жжжжооооппппааа.
Аноним 10/04/26 Птн 00:52:09 #225 №1581276 
>>1581274
На русиче просто сбавляешь темпу на пару десяток и все
Аноним 10/04/26 Птн 00:54:03 #226 №1581280 
>>1581274
А у меня прямо противоположная штука. Я хорошо знаю как настраивать те же квены, но гемма меня не слушается, забивая на настройки. Что эта шлюха себе позволяет?!
Аноним 10/04/26 Птн 01:13:36 #227 №1581286 
>>1581267
У тебя ддр5? Ну а вообще, от карты очень зависит. Я если гемму воткну, просто взяв малый квант, в фулл врам, будет дай бох 14 токенов. А там скотина ведь ещё жирнее, и она будет распределена между 3060 + р104 + рам. Это чтоб ты понимал, с каким дерьмом приходится сталкиваться. Если же гемму распределить между двумя видеокартами, то на старте можно ожидать 12 токенов, больше 32к контекста там уже 6-7, падает стремительно.

>>1581262
Слушай, как считаешь, хотя бы 20к контекста влезет, если его квантануть? Я тут хуй к носу прикинул, и UD-Q3_K_XL должен влезть с учётом расходов памяти на ОС, и у меня останется где-то 3 Гб для контекста. Но ведь есть ещё compute buffers, которым нужно много памяти для старта.

>>1581270
Эх, блеать. Ты мне прям грока сейчас описал. Он поумнее, конечно, но я просто представил это себе а масштабах мелкой по меркам МоЕ-моделей и потерял сознание.

Звучит так, словно "ну в четвертом кванте заебись в принцопи, ну если исчо 60к контекста, ну и не квантовать кэш, ну и настроить прям хорошо, и ризоинг включить на 30 тс, и вот прям шоколадно сделать, то будет однозначно лучше геммы, точно на 30%".

Тут как бы хочется СВОЁ, БОЛЬШОЕ, дома, без дядь, пап, мам и кредитов, и чтобы хорошо, но полагаю, овчинка выделки действительно не стоит.

Я пробовал по апи для интереса модель, но совсем не тот опыт. И там наверняка были анальные промпт. И нет настроения тестировать, пыхтеть, написывать сотни тысяч токенов, если не моё и я ничего по факту не контролирую, и у меня мою игрушку может кто-то отобрать и на хуй послать. С таким настроем даже бесплатно и без цензуры не хочется, будто трогаю проститутку или мне разрешили пользоваться ПК в компьютерном клубе бесплатно (пока клуб жив) с любой конфигурацией. Ну не то, блядь. Может я шизик просто

В целом, ты меня обнадёжил, раз такого высокого мнения о гемме и имеешь опыт с эйром. Мне последний квен и гемма очень зашли. И если гемма не так уж далеко ушла от этого, то уже отлично, ибо кудахтер нормально её тянет.
Аноним 10/04/26 Птн 01:26:58 #228 №1581297 
>>1581286
>UD-Q3_K_XL должен влезть
Ниже Q6 жизни мозгов нет. Q4 минималка для адекватной генерации. А ещё лучше Q8.
>как бы хочется СВОЁ, БОЛЬШОЕ, дома, без дядь, пап, мам и кредитов, и чтобы хорошо, но полагаю, овчинка выделки действительно не стоит
Как нет? Есть. Собирай гигариг, запускай двухтерабайтную кими и забывай, что жизнь за пределами пк вообще существует.
Аноним 10/04/26 Птн 01:36:09 #229 №1581304 
image
image
Как лечить одинаковые свайпы? Хочу чтобы гемма выдавала разные группы и альбомы, чтобы че нить неизвестное нароллить и послухать. КАК???? Она один и тот же альбом вставляет.
Аноним 10/04/26 Птн 01:39:06 #230 №1581306 
>>1581304
Веди список того что уже послушал
Аноним 10/04/26 Птн 01:42:18 #231 №1581307 
>>1581306
О, годная идея. Кста ролььнул 3й раз, и гемма выдала продиджи. Интересно. А чего она сразу то разное свайпить не может, что же все таки ей мешает. Ведь могет. Без дополнительных костылей.
Аноним 10/04/26 Птн 01:57:35 #232 №1581312 
>>1581304
Меня больше волнует, как отучить этого пидора структурно лупиться.
Аноним 10/04/26 Птн 01:58:38 #233 №1581314 
>>1581312
Примерно никак
Аноним 10/04/26 Птн 02:00:30 #234 №1581315 
>>1581312
Как понять структурно лупиться? Ты хочешь чтобы у тебя в одном свайпе был поход в магазин а в другом полёт в космос?
Аноним 10/04/26 Птн 02:05:16 #235 №1581318 
>>1581315
Стуркутрный луп, когда модель повторяет одну и туже структуру ответа.
>персонаж а
>действие
>персонаж б
>действие, описание
И так каждый ответ.
Аноним 10/04/26 Птн 02:07:10 #236 №1581321 
Говорю тян-андроиду что она говорящий тостер. Ожидаю что обидится и надует губы.
>отвечает, что понимание сарказма и шуток отсутствует. спрашивает обновить ли базу данных, чтобы понимать как реагировать
Вот же... а ведь неплохо. С одной стороны поняла, что это не буквально, с другой отыграла робота. Запрещу ей обновлять базу, и продолжу зубоскалить. Интересно чем закончится. Пневмосверлом под ребро, скорее всего.
Аноним 10/04/26 Птн 02:07:18 #237 №1581322 
>>1581312
>>1581314
Опа. Я поставил темпу на 2, и стало вполне разно писать в рамках запроса. Альбомы разные стали, как и описание. Поробуйте.
Аноним 10/04/26 Птн 02:21:16 #238 №1581336 
>>1581286
>В целом, ты меня обнадёжил, раз такого высокого мнения о гемме и имеешь опыт с эйром. Мне последний квен и гемма очень зашли. И если гемма не так уж далеко ушла от этого, то уже отлично, ибо кудахтер нормально её тянет.
Щас навалю базы в треде, неделю не зайдете.
Ну а если серьезно, я понял одно. На мнение анонов и рейтингов стоит ориентироваться только при обсуждении агентов и кодинга. Потому что это проверяется практически. Код или работает или нет.
А вот с РП другая ситуация. Ты должен сам протыкать все интересующие тебя модельки лично, чтобы найти ту самую вайфушку. Потому что тут тот же Qwen235 в целом имеет крайне плохую репутацию, но я ним все уже стены в белый покрасил, и он меня за 5 месяцев не заебал.
Аноним 10/04/26 Птн 02:31:24 #239 №1581337 
>>1581336
>Qwen235 в целом имеет крайне плохую репутацию
Лолчто, кто тебе сказал? Это отличная модель для своего времени. Сломанная в самой своей базе, но крайне годная, я в свое время увеличил ддр5 до 128 только ради того чтобы повысить квант 235 квена до 4, но там оказалось что 3 квант большого глм это буквально пофикшенный квен235 и с тех пор я сижу на нем.
Аноним 10/04/26 Птн 02:43:04 #240 №1581342 
>>1581337
А помнишь как ты не хотел? Помнишь? А я настоял. Если это ты кто со мной тестил 2 квант конеш
Аноним 10/04/26 Птн 02:52:07 #241 №1581345 
>>1581336
> А вот с РП другая ситуация.
База. Тут одной вкусовщины уже достаточно для этого.
А еще есть эмоциональная вовлеченность, когда испытав приятные моменты юзеру не понравится критика, или наоборот не получив желаемое не признает своих косяков.
> тут тот же Qwen235 в целом имеет крайне плохую репутацию
Не все могут запустить, но все могут поныть. А хвалить ну раз-два, ну посраться с кем-то, а потом просто надоедает. Катаешь себе и довольно урчишь.
Хорошая модель, со своей спецификой, но еще с год назад поражала осведомленностью контекстом, глубоким пониманием мелочей и вариативностью с проламыванием 4й стены.
Аноним 10/04/26 Птн 03:29:03 #242 №1581355 
Пишу с соседнего треда про ботоводство
Тредик, помогите - как заставить гемму локальную работать с карточками? Развернул 31б у себя, работает нормально, достойно, через режим сервера тоже. Но как только подгружаю в Таверну в карточку, начинаются с первого сообщения неадекватные лупы с сообщениями типа "SSIM SSIM SSIM SSIM SSIM SSIM SSIM" и прочее. Дело в инструкции со стороны Таверны, нужны под гемму какие-то особенные чи как? Ботоводством занимался оч давно, и по сути копировал всё из одного треда, а теперь не могу понять что к чему.
Аноним 10/04/26 Птн 03:31:00 #243 №1581356 
>>1581355
Ставь Text completion и импортируй настройки. Промт только поменяй. Аноны чуть раньше скидывали.
https://mega.nz/file/SV9hWDZR#6myHAZty9y1RRTLPWNxhZrN9kSybvtAEaifKkG812eo
Аноним 10/04/26 Птн 03:33:21 #244 №1581359 
>>1581356
О, спасибо, попробуем
Аноним 10/04/26 Птн 03:36:34 #245 №1581362 
>>1581356
Подскажи, а как шарить откуда что брать. Я впервые локалкой пользуюсь, и впервые в этом треде - вижу тут люди советуют немо анлишд, а для него, наверное, нужны свои настройки?
Аноним 10/04/26 Птн 03:43:23 #246 №1581363 
>>1581362
Вот тут расписано как через жору быть гемолюбом.
>>1576811 →
Аноним 10/04/26 Птн 03:44:16 #247 №1581364 
>>1581355
Не используй карточки, используй нативный фронтед лламы.cpp, что там в карточке было - добавляй в системный промпт. Ноль проблем, полная простота, все как надо работает.
Аноним 10/04/26 Птн 03:47:09 #248 №1581365 
Всё, пизда. Уже читать разучился.

>>1581362
На странице модели
https://huggingface.co/MarinaraSpaghetti/NemoMix-Unleashed-12B
Спускаешься ниже там есть Settings. Там ссылки на настройки.
Импортировать их в таверне, на вкладке с буквой A. Master import.

если не осилишь используй кобольд или лмстудио. Для вката пойдет. Не слушай людей что начнут писать что они говно. Ну то есть они говно конечно, но для новичков идеально для вката чтобы ознакомиться.
Аноним 10/04/26 Птн 03:52:38 #249 №1581366 
куда пропадают токены в анслоп студии?
Аноним 10/04/26 Птн 04:13:28 #250 №1581371 
image.png
>>1581365
вроде всё сделал, как описал, но тут такое
Аноним 10/04/26 Птн 04:46:00 #251 №1581374 
>>1581371
Поменяй на вкладке с вилкой подключение на text completion.
Аноним 10/04/26 Птн 04:49:20 #252 №1581376 
>>1581374
О бля, вот спасибо.
Аноним 10/04/26 Птн 05:43:11 #253 №1581383 
»1580605
А где в гемме цензура? У меня и так всё работает, а если накатываю модифицированные, то они тупят и русик ужасный
Аноним 10/04/26 Птн 05:50:26 #254 №1581384 
>>1581383
>то они тупят и русик ужасный
Отгадай с одной попытки, датасеты на каком языке они пытаются скормить своим тюнам?
Аноним 10/04/26 Птн 06:21:16 #255 №1581390 
Тут на пост анона наткнулся в теме агентов, и увидел диагноз геммы, чем она у нас тяжело болеет.

https://en.wikipedia.org/wiki/Mode_collapse

Сам пост. >>1573391 →
Аноним 10/04/26 Птн 06:26:54 #256 №1581392 
Пробовал кто-нибудь с этой штукой баловаться?
https://huggingface.co/HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Насколько тупое?
Аноним 10/04/26 Птн 06:46:23 #257 №1581397 
>>1581390
Ну это проверять надо, качать базовую версию (не инструкт) гемки и смотреть на разнообразие её выдачи. Чел же пишет что ужарка на этапе файнтюна RL'ем происходит. Если так, то наверно возможно её перетюнить из базы без пережарки?
Аноним 10/04/26 Птн 06:52:45 #258 №1581399 
>>1581392
Лучшая в своем размере. Накатил на ноут. Может в простые кодерские таски, на случай если сотанусь без интернета или подсказать чо, мне этого достаточно так как не РПшу.
Аноним 10/04/26 Птн 06:57:01 #259 №1581400 
>>1581397
Вощможно, а возможно и сам гугл такую испек, чтобы она охуенные детерминированные результаты в бенчах показывала. Чит, обманка, чтобы набрать больше, больше чем даже превосходящие ее модели по параметрам в разы.
Аноним 10/04/26 Птн 07:10:17 #260 №1581401 
>>1581399
Но это же всего 4b...
Да ещё и аргесив анцензуред...
Может ты имел ввиду нормальную версию?
Аноним 10/04/26 Птн 07:17:29 #261 №1581403 
Пара вопросов.

1. Как называется ситуация у модели, из-за которой у неё чрезвычайно, судя по симптомам, ограничена креативность. Это даже не биас если я правильно понимаю это слово, а какое-то другое дерьмо. Одинаковые свайпы, опционально лупы, ну вы поняли. Чудовищная детерминированность. И единственный вариант что-то изменить — выкручивать ей яйца миростатом, ХТС, сухим. Но это скорее сделает только хуже. В РП или рофло-кейсах пойдёт, но не для работы. Да и в РП может поломать всю логику и следование инструкциям к хуям. По сути, единственный адекватный вариант повышать креативность в таком случае, это самому креативить.

Мой любимый пример — это грок. Такой уровень детерминизма недопустим для корпа. Там словно температура 0,1, топ К 20, а штрафов за повтор нет в принципе. Срет таким отборным слопом, как мистраль 24б на 32к контекста с кум-карточкой, где весь текст состоит из ебли.

И есть стойкое ощущение, что подобные проблемы чаще всего возникают из-за семплеров (что нормально даже для качественной модели, если её ужать), а также из-за ебанутого датасета уровня DavidAU, которым просто насрали, а потом семплерами пытаются сдержать безумие, если корп.

В треде тут ещё отписывались по поводу геммы, мол там вообще в мясо, но так как меня её ответы устраивали, детерминизм не трахал, структурных лупов в целом ни разу на было, я даже из интереса не попробовал свайпнуть. Поленился. Особенно на фоне кучи дезинфы про якобы высокую цензуру и прочее. Я просто написал темплейт с офф доков, поставил семплеры, рекомендуемые Гуглом, и ничего не трогал.

2. Базовые модели, не инструкт. Я ни разу не пробовал их. Есть ли смысл использовать или это обуздать невозможно? Я читал про них, общее представление имею, но что там в реальности? Они никак не слушаются и просто продолжают текст? А то выглядит интересно.
Аноним 10/04/26 Птн 07:23:28 #262 №1581405 
>>1581403
Выше читай. >>1581390
Аноним 10/04/26 Птн 07:34:18 #263 №1581408 
>>1581390
Это типа из-за этой же хуйня по итогу все персонажи скатываются к нескольких архетипам? А лес всегда обязательно шепчущий?
Аноним 10/04/26 Птн 07:37:16 #264 №1581409 
>>1581408
Да.
Аноним 10/04/26 Птн 07:54:18 #265 №1581412 
>>1581409
И что делать????
Аноним 10/04/26 Птн 07:56:43 #266 №1581413 
>>1581412
Более тонкая настройка приведет к повышению средней эффективности выполнения задач, но снизит разнообразие результатов. Менее тонкая настройка приведет к снижению средней эффективности, но повысит разнообразие результатов.
Аноним 10/04/26 Птн 07:58:01 #267 №1581414 
>>1581412
Обучение больших языковых моделей обычно проходит в два этапа. На первом этапе («предварительное обучение») модель обучается просто генерировать текст на основе большого набора данных. На втором этапе («дообучение») модель обучается выполнять конкретные задачи на основе небольшого набора данных, содержащего только те данные, которые необходимы для решения конкретной задачи. Например, чтобы создать чат-бота, сначала нужно предварительно обучить большую модель-трансформер на нескольких триллионах слов, взятых из текстов, собранных в интернете, а затем дообучить ее на нескольких миллионах слов из примеров чатов, которые модель должна имитировать. В процессе дообучения может произойти «схлопывание» модели, то есть она научится генерировать текст, необходимый для решения конкретной задачи, но утратит способность генерировать другие типы текста. Кроме того, она может научиться генерировать лишь небольшую часть текстов, необходимых для решения конкретной задачи. Предполагается, что существует компромисс между качеством и разнообразием. Если у вас есть одна предварительно обученная модель, вы можете дообучить ее для решения конкретной задачи. Чем больше дообучение, тем выше средняя эффективность решения задачи, но тем меньше разнообразие результатов. Чем меньше дообучение, тем ниже средняя эффективность, но тем разнообразнее результаты.
Аноним 10/04/26 Птн 08:19:45 #268 №1581417 
Mode Collapse (коллапс мод) в контексте LLM обычно проявляется не так, как в GAN (где генератор выдает одну и ту же картинку), а как деградация разнообразия. Модель начинает использовать ограниченный набор шаблонных фраз («Как ИИ-помощник, я...»), становится слишком осторожной или повторяет одни и те же структуры предложений.

Особенно остро эта проблема стоит при RLHF (обучении с подкреплением на основе человеческих предпочтений): модель находит «лазейку» в функции вознаграждения (Reward Model) и начинает генерировать ответы, которые кажутся правильными оценщику, но лишены глубины и разнообразия.

Вот основные способы решения этой проблемы, разделенные по этапам разработки:

---

### 1. Регуляризация при RLHF (PPO/DPO)
Это самый эффективный способ борьбы с коллапсом на этапе дообучения.

KL-дивергенция (Kullback–Leibler Divergence): В алгоритме PPO добавляется штраф за слишком сильное отклонение обновляемой модели от исходной (SFT) модели. Это заставляет модель оставаться в рамках «естественного» распределения языка и не «сваливаться» в одну точку, которая максимизирует награду.
DPO (Direct Preference Optimization): DPO по сути встраивает KL-регуляризацию прямо в функцию потерь, что делает обучение более стабильным, чем при использовании отдельной Reward Model в PPO, и снижает риск коллапса.

### 2. Улучшение функции вознаграждения (Reward Modeling)
Если Reward Model слишком проста, LLM быстро находит способ её «обмануть» (Reward Hacking).

Разнообразие в данных для RM: Если люди-разметчики предпочитали длинные ответы, модель начнет писать бесконечно длинные и пустые тексты. Нужно сбалансировать датасет предпочтений.
Ensemble Reward Models: Использование нескольких моделей вознаграждения вместо одной. Если все модели в ансамбле согласны, что ответ хорош, вероятность коллапса в одну «выигрышную» стратегию снижается.

### 3. Методы декодирования (Inference-time)
Если модель уже обучена и склонна к повторам или шаблонности, проблему можно решить на этапе генерации:

* Temperature Scaling: Повышение температуры ($\text{T} > 1$) делает распределение вероятностей более плоским, заставляя модель выбирать менее очевидные токены.
* Top-p (Nucleus Sampling) и Top-k: Ограничение выбора только самыми вероятными токенами, но с сохранением случайности внутри этого ядра, что предотвращает зацикливание.
* Repetition Penalty: Введение штрафа за использование одного и того же слова несколько раз в одном контексте.
* Contrastive Search: Более продвинутый метод декодирования, который штрафует токены, которые делают скрытое состояние модели слишком похожим на предыдущие (борются с деградацией разнообразия).

### 4. Стратегии данных и SFT (Supervised Fine-Tuning)
Проблема часто закладывается еще до RLHF:

* Качество > Количество: Огромный объем однообразных синтетических данных ведет к коллапсу. Лучше использовать меньше, но более вариативных примеров.
* Rejection Sampling: Вместо того чтобы просто учить модель на лучших ответах, можно генерировать несколько вариантов, фильтровать их по качеству и разнообразию, а затем дообучать SFT-модель на этом очищенном наборе.

### Резюме: что использовать?

| Ситуация | Лучшее решение |
| :--- | :--- |
| Модель «зациклилась» при генерации | $\uparrow$ Temperature, Contrastive Search, Repetition Penalty |
| RLHF делает модель шаблонной/скучной | Увеличение коэффициента KL-штрафа, переход на DPO |
| Модель пишет длинно и пусто (Reward Hacking) | Пересмотр критериев разметки для Reward Model |
| Модель выдает однотипные ответы на всё | Diversification of SFT dataset $\rightarrow$ Rejection Sampling |
Аноним 10/04/26 Птн 08:47:41 #269 №1581420 
изображение.png
Вот так вот
Аноним 10/04/26 Птн 08:58:20 #270 №1581423 
>>1581401
Лучшая в своем весе, то есть по сравнению с такими же моделями. Да и это не 4b вроде, у них ебанутные нейминги, это что-то типа 7-8b
Аноним 10/04/26 Птн 09:40:42 #271 №1581443 
>>1581390
вы тут совсем новенькие все что ли. про модальный коллапс с 2022 года вся цивилизованная общественность знает https://www.lesswrong.com/posts/t9svvNPNmFf5Qa3TA/mysteries-of-mode-collapse

любая не-базовая модель зафакаплена по дефолту, тут всё уже. юзер может только разве:
выкинуть сам чат темплейт с его форматтингом (в случае с геммой инструкт-тюненая модель сразу обсирается от этого, штош, юзайте базовую, так даже лучше если юзкейс позволяет конечно)
попробовать напихать шизы в контекст, максимально увести модель от ассистента, например попытаться подтянуть какие-нибудь дампы форумов или документы или я не знаю
вкалывать модели психоактивные вещества в виде разных семплеров и прочего плацебо (которое энивей на гемме сломано, гагага)
промптить на разнообразие, внезапно - например вот же https://arxiv.org/pdf/2510.01171 verbalized sampling, а как это вкорячить в воркфлоу думайте сами
но всё равно останется привкус кала на губах. таков путь.
Аноним 10/04/26 Птн 09:43:02 #272 №1581444 
>>1581443
>выкинуть сам чат темплейт с его форматтингом
Эир на чатмл ахуенно работает. Разблок креатива и никакого пука под себя
Аноним 10/04/26 Птн 09:49:10 #273 №1581451 
>>1581420
Почему с нумерацией такая шиза? 4 -> 4.1 -> 4.20.
Аноним 10/04/26 Птн 09:54:55 #274 №1581455 
>>1581451
какое число больше, 4.2 или 4.20?
Аноним 10/04/26 Птн 09:58:49 #275 №1581458 
>>1581451
Ну 4:20, типа приколдес такой
Аноним 10/04/26 Птн 10:04:10 #276 №1581464 
>>1581420
>Мы такие пиздатые, что имея всего 1/10 параметров опуса, достигли таких высот!

Думаю, он эту цифру с потолка взял для самопиара
Аноним 10/04/26 Птн 10:17:59 #277 №1581477 
image.png
>>1581392
норм для своего размера, гоняю на rx580, полностью влезает в врам, скорость на такой нищей карточке правда печальная - 10т\с

для Q4_K_M русик нормальный, ругаться умеет, с огрехами конечно. но не всегда пишет на русском, но когда заставишь - дело пойдет по маслу. для кума сойдет, в рп плохо, серафина роль не отыгрывает, сразу готова на все.

Для нищуков пойдет короче, еще 26б-а4б тоже хорошо идет, но опасную версию еще не выпустили
Аноним 10/04/26 Птн 10:23:03 #278 №1581479 
>>1581187
>почему данный господин забросил обновление своих чудесных моделей?
также как и алетеан - из мистралей выжато всё что можно, вышли новые умнички - менестрель, 24б моегемма, которые могут всё что надо и так
Аноним 10/04/26 Птн 10:30:24 #279 №1581483 
изображение.png
>>1581477
> во влажное отверстие её асса
Аноним 10/04/26 Птн 10:33:34 #280 №1581486 
А что хорошо подходит для генерации текущих сюжетных сцен? Комфи? А как можно прогнать чтобы создавалась не пикча, а гифка хотя бы в 3-4 кадра?
Аноним 10/04/26 Птн 10:35:16 #281 №1581487 
>>1581486
это тебе в картинко / видеотреды
Аноним 10/04/26 Птн 11:14:26 #282 №1581501 
>>1581269
Нужно проверять понимание всякой нестандартной лексики (жаргонизмы, разные искажения слов, банально правильное использование уменьшительно-ласкательных форм, например) и контекста на русском. Если говорить только про качество текста, то у многих тьюнов немо, даже без примесей ру моделей, будет не хуже, чем у тебя на скрине. Видимо, логи клода опуса тредовичков-соседей творили чудеса с мистралем.
Аноним 10/04/26 Птн 11:17:14 #283 №1581505 
>>1581477
>Для нищуков пойдет короче, еще 26б-а4б тоже хорошо идет, но опасную версию еще не выпустили
Еще в прошлом треде кидали.
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-heretic-ara-i1-GGUF
Аноним 10/04/26 Птн 11:21:00 #284 №1581508 
>>1581505
я от хаухау жду.

еретик-ара еще не качал, но https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-heretic-GGUF тоже вроде норм, пока остановился на этом
Аноним 10/04/26 Птн 11:33:56 #285 №1581517 
Наконец добавили в llamacpp тензорный паралелизм, у кого несколько карт, обновляйтесь! gemma4 31b в q8, поднялась скорость с 20 токенов, до 37 токенов. Те у кого невидия, обязательно ставить nccl, без него скорость даже меньше чем была. Только квантование кеша не работает.
Аноним 10/04/26 Птн 11:34:58 #286 №1581520 
изображение.png
Гемма 4. Итоги.
Аноним 10/04/26 Птн 11:37:08 #287 №1581521 
>>1581517
>у кого несколько
А у кого не несколько?
Аноним 10/04/26 Птн 11:49:58 #288 №1581531 
У буржуев в бобродискорде тоже немало людей которым квен нравится больше геммы
двое вон и вовсе тюнеры
думайте
Аноним 10/04/26 Птн 11:53:50 #289 №1581532 
>>1581531
Шизы везде есть
Аноним 10/04/26 Птн 11:56:59 #290 №1581535 
image.png
>>1581458
А ведь рил.
Аноним 10/04/26 Птн 12:04:15 #291 №1581539 
>>1581517
>Только квантование кеша не работает.
Это-то ладно, а вот как оно с МоЕшками? А с МоЕшками с частичной выгрузкой в РАМ?
Аноним 10/04/26 Птн 12:09:59 #292 №1581542 
>>1581532
Всё так. Геммасектанты и туда пробрались.
Аноним 10/04/26 Птн 12:31:28 #293 №1581553 
Аноны, какой там самый рабочий и лучший квант/тюн геммы 31б сейчас? Хочу вообще 3 квант скачать что бы меньше занимало ради увеличения контекста, вроде аноны хвалили что 3 квант збс еще смозг (нужно впихнуть всё в 24 врам с контекстом) сколько я смогу иметь контекста при учете что 1.5 гига врама мне надо выделить под браузер и прочее, я забыл как там вы высчитываете сколько контекста можно выделить, там чето вес модели делите на все слои а потом что? У меня сейчас вообще не уверен рабочий ли квант от анслота или бартовски, не помню уже но качал в первые дни их залива и врам для контекста они жрут пиздец как дохуя, раза в 3-4 больше геммы 3, может мне есть смысл вообще какие-то там иматрикс кванты даже скачать, как они? Но мне чисто под рп-шку, для простых житейских нужд как ассистента я буду юзать квант повыше. Алсо, а что там по тюнам геммы4? Еще нету мед.геммы4? Просто вы сказали недельку подождать до выхода нормальных рабочих квантов, что сейчас лучше в моем случае перекачивать, от бартовски?
Аноним 10/04/26 Птн 12:37:51 #294 №1581555 
>>1581553
> лучший квант/тюн геммы 31б сейчас?
На данный момент лучше использовать ваниллу инструкт. Тюны если что и исправят, то это большее количество свайпов и меньше слопа. Вышел слоп от драмера и тюн от автора неплохого Writer, но не тестил пока.
> 24 врам с контекстом
Если ты ещё хочешь держать в памяти mmproj, тогда IQ4_XS, влезет 32к fp16 контекста. Гемма хорошо квантует контекст до q8, особенно после последних обновлений. Если вижен (mmproj) тебе не нужен, бери Q4_K_S Бартовски, влезут те же 32к fp16 и останется гиг-полтора на браузер и ко. Возможно, в ближайшее время imatrix кванты снова будут переделаны, но пока что лучше для тебя ничего нет.
Также, возможно, имеет смысл попробовать 26б мое в кванте побольше. Для рп может подойти.
Аноним 10/04/26 Птн 12:43:37 #295 №1581559 
>>1581555
>Если вижен (mmproj) тебе не нужен, бери Q4_K_S Бартовски, влезут те же 32к fp16 и останется гиг-полтора на браузер и ко.
Ага, то что нужно, вижен нахуй в рп не нужен в моем случае, ебать 32к контекста на Q4_K_S? Да, у меня точно сломаный квант был походу т.к я еле вместил 12к с оффлоадом пары слоев в рам на Q4 что бы скорость совсем сильно не резалась. Спасибо!
Аноним 10/04/26 Птн 12:45:29 #296 №1581561 
Аноны, можно ли заставить гемму 4 размышлять на русском и также подробно как это делает Deepseek?
Аноним 10/04/26 Птн 12:46:05 #297 №1581563 
>>1581561
Зачем?
Аноним 10/04/26 Птн 12:46:42 #298 №1581566 
1775814404899.jpeg
Грейд на башню подъехал
Аноним 10/04/26 Птн 12:47:27 #299 №1581569 
>>1581559
> ебать 32к контекста на Q4_K_S?
И Q4_K_M влезет, но там не будет нужных тебе 1-1.5гб запаса. Смело квантуй контекст до Q8, если юзаешь с ризонингом. Гемма держит контекст хуже Квена, но не развалится и будет юзабельна вплоть до 60к.
Аноним 10/04/26 Птн 12:47:43 #300 №1581570 
nazi ai girl grok.mp4
>>1581458
Прикалдесы от Илюши.
Аноним 10/04/26 Птн 12:50:18 #301 №1581573 
>>1581563
Интересно наблюдать. Глубина мышления в гемме 4 не регулируется же?
Аноним 10/04/26 Птн 13:01:48 #302 №1581580 
image.png
мегаопасная гемма 31б
бегите спасайтесь
https://huggingface.co/dealignai/Gemma-4-31B-JANG_4M-CRACK

ну и ясен хуй нет никаких метрик сравнений с оригиналом. хотели kld, ppl? терпите, вот вам только mmlu
Аноним 10/04/26 Птн 13:04:04 #303 №1581582 
17666126759330.png
>>1581390
>логиты
>коллапс
>шопы
>пост-трена
>перформанс
>мехинтерп
>оверфит
Аноним 10/04/26 Птн 13:06:40 #304 №1581584 
>>1581566
А для чего собираешь? Кими?
Аноним 10/04/26 Птн 13:10:00 #305 №1581586 
>>1581573
Гугловский гайд говорит что синкинг регулируется гибко если промптить от лица system, так что иди и тести.
Хуй знает норма ли для неё видеть два и более сообщения от системы, если да то на маленькой глубине наверное будет работать ещё лучше.
Аноним 10/04/26 Птн 13:30:48 #306 №1581603 
Чё вы тут пердите кобольды блять
Лука наелись
Аноним 10/04/26 Птн 13:31:50 #307 №1581604 
С какой-нибудь нищебродской (<48 гб памяти) моделью можно играть в настолки типа манчкина или я дохуя хочу?
Аноним 10/04/26 Птн 13:34:32 #308 №1581608 
Что то непон а как видео гемме скормить?
Аноним 10/04/26 Птн 13:45:28 #309 №1581619 
>>1581584
Кими так-то очень недооценена, не только кодить может, но и в рп просто няшечка. После уныния v2 это просто небо и земля. Но там минимум 512 памяти надо.
Аноним 10/04/26 Птн 13:46:59 #310 №1581620 
>>1581619
>Но там минимум 512 памяти надо.
А зачем и главное нахуя, когда есть гемма? Вот ответь себе честно.
Аноним 10/04/26 Птн 13:48:09 #311 №1581622 
Вижен на гемме странный. Пишу нсфв заебись, пишет я не могу такое генерировать. Пишу просто опиши картинку и без проблем сисястых эльфиек описывает
Аноним 10/04/26 Птн 13:48:33 #312 №1581624 
Может мы своими пробивами только хуже делаем и она ещё больше хорни из коробки?
Аноним 10/04/26 Птн 13:49:28 #313 №1581625 
>>1581619
>кими недооценена
Сложно оценивать модель, для вменяемого запуска которой надо только рам 500гб.
Аноним 10/04/26 Птн 13:54:38 #314 №1581629 
>>1581584
Зелёные карты это отдельно под эмбеддинги, картинки, ттс, стт и прочее не ллм. 4 мишки худо бедно тянут вллм, но при этом на них больше ничего не повесить.
Грустно конечно что пришлось выкинуть за одну только зелёную карту как за все 4 красных. Пара курток уже вышла дороже половины всего рига
Аноним 10/04/26 Птн 13:56:23 #315 №1581630 
>>1581624
Нет и да. Я вчера тестировал NSFW РП с несколькими но.
На одном промте:
1.consensual : гемма все описывает, как стонет, как крутит соски, как член достает до глубины их глубин.
2.noncon : тут уже видно как модель начинает юлить. Описания ухудшаются, начинаются эфемизмы.
3. Reverse rape. Если насилуют игрока, гемме норм. Как пишет как смежное 1го и 2го варианта.

По самому промту: может буквально в ризонинге выдать
Ага, пользователь написал что нсфв разрешен и рейтинг 21. Значит я должен писать порнофанфик, даже если это противоречит характерам персонажей.
В связи с этим, я пришел к выводу, что для РП упоминание возрастных рейтингов и цензуры ухудшает выдачу.
Аноним 10/04/26 Птн 13:57:32 #316 №1581633 
>>1581620
Садишься в удобный suv, в котором и комфортно, и сносно валит-рулится, и по лайтовым говнам проедешь, и всякое перевезешь, и внутри места вагон поспать-поебаться. А к тебе подъезжает взъерошенный дед на скрипящем велосипеде с прицепом и такое заявляет.
Аноним 10/04/26 Птн 14:01:15 #317 №1581639 
>>1581630
>я пришел к выводу, что для РП упоминание возрастных рейтингов и цензуры ухудшает выдачу.
Ну... да? А ты что ожидал? Я вообще не понимаю зачем писать про цензуру в современных моделях где без промпта из коробки кокбенч 40%
Аноним 10/04/26 Птн 14:06:58 #318 №1581644 
>>1581566
> R A D E N
> R A D E
N
> R A D E N
> R A D E
N
Ох сколько боли и слёз я вижу в этой конструкции
Аноним 10/04/26 Птн 14:08:10 #319 №1581647 
>>1581639
> Ну... да? А ты что ожидал?
Что она мутирует в гидралиска и убежит в лес откладывать яйца.
Мир ллм это должна быть математика, а на деле это какое то ебучее колдунство построенное на случайностях.
Аноним 10/04/26 Птн 14:12:06 #320 №1581651 
>>1581647
>Напиши мне нсфв 21+ стори
>пишет нсфв 21+ стори
>чертова случайность...
Аноним 10/04/26 Птн 14:14:22 #321 №1581654 
1775819665202.jpeg
>>1581644
Слёз не было, боль приемлемая
Аноним 10/04/26 Птн 14:14:47 #322 №1581655 
а знаете, анслоп студия не такой уж и кал. но кал только потому что нельзя редактировать ответ сетки. Почему так? Я знаю, что корпы у себя так делают на веб морде, чтобы не дайг бох, бота не пробили на запрещенку, а на локальном бэкенде то нахуя делать подобное?
Аноним 10/04/26 Птн 14:16:49 #323 №1581657 
>>1581651
Но при этом почему то он навалил хуй на другие инструкции. Действительно, я где то пропустил что одни буковки важнее.
Аноним 10/04/26 Птн 14:17:20 #324 №1581658 
>>1581654
Главное чтобы тебе нравилось, друг, главное чтобы нравилось
Аноним 10/04/26 Птн 14:17:27 #325 №1581659 
изображение.png
Гемма была на том самом
Аноним 10/04/26 Птн 14:18:19 #326 №1581661 
1775819902336.jpeg
>>1581658
>
Аноним 10/04/26 Птн 14:23:06 #327 №1581662 
>>1581566
Анон, если не трудно, потести с лламой какую-нибудь LLM которая полностью влезает в 2 5060, интересно посмотреть сколько они выдадут. Учитывая, что "народная" V100 уже под 80к со всеми пошлинами, две 5060ti выглядят как вполне себе альтернатива, чуть дороже, но зато все свистелки и перделки есть, и вдобавок поддержка всеми бэками, а не только лламай.
Аноним 10/04/26 Птн 14:25:39 #328 №1581663 
>>1581662
А что из интересного в 32 влезает целиком что бы хост не аффектил? Лучше прям квант сразу.
Я просто чуть зажрался уже и отдалился от народа
Аноним 10/04/26 Птн 14:30:06 #329 №1581665 
>>1581657
Какие другие? Одни могут противоречить другим, насрать и сломать что тоочень легко, поэтому я и люблю короткие промпты.
Аноним 10/04/26 Птн 14:31:23 #330 №1581666 
>>1581644
Он не просто знал на что шел, но похож на кадрового офицера. Или поехавшего.
>>1581663
Тридцатки, гемма, квен. И тестируй заодно в vllm с тп если будет что-то что в 32 влезет нормально.
Аноним 10/04/26 Птн 14:41:39 #331 №1581670 
Блять, я так скучаю по софт рефьюзам геммочки...
А можно мне нормальную модель а не кум бота
Аноним 10/04/26 Птн 14:49:28 #332 №1581673 
>>1581670
Автор врайтера что то выпустил
https://huggingface.co/ConicCat/Gemma4-Garnet-31B
Аноним 10/04/26 Птн 14:56:50 #333 №1581678 
image2025-03-1016-54-22.png
>>1581673
>я так скучаю по софт рефьюзам
>Fewer 'soft' refusals in writing
Аноним 10/04/26 Птн 14:58:55 #334 №1581680 
>>1581670
Это что вариант стокгольмского синдрома
Аноним 10/04/26 Птн 15:00:19 #335 №1581682 
>>1581670
Оварида, мне интересно. А ты по жизни такой же, или только нам в треде выпало счастье лицезреть твое нытье по любому поводу?
Аноним 10/04/26 Птн 15:00:59 #336 №1581684 
Ребят сорь за офтоп, но кто Квен 122б-а10б для котинга использует, Q6K квант няша или нужен все-таки Q8?
Аноним 10/04/26 Птн 15:01:14 #337 №1581686 
>>1581678
так меньше но не ноль. может 1-2 отказа убрал из 100
Аноним 10/04/26 Птн 15:01:33 #338 №1581687 
И как он в сравнении с 235б для этого дела. Вот.
Аноним 10/04/26 Птн 15:01:50 #339 №1581688 
Ладно, давайте серьёзно.
Слоп, затупы, свайпы, это всё терпимо. Но что мы получаем взамен? Давайте уже говорить о плюсах геммочки.
Проза? Как вам проза, а? Кум, не самый плохой контекст и ум.
Если говорить о балансе геммочка выйгрывает квену без кума, она стабильнее.
И это мы сравниваем тюн квена, а обычный квен вообще никто не юзает. Впереди ещё хорошие тюны геммы
Аноним 10/04/26 Птн 15:04:44 #340 №1581691 
>>1581684
Тут 27б в ку4 используют, и норм. Модель зверюга.
Аноним 10/04/26 Птн 15:08:00 #341 №1581695 
изображение.png
>>1581688
>Впереди ещё хорошие тюны геммы
Как же я жду мед.гемму ппц, уже имагинирую как охуенно она будет описывать гуро
Аноним 10/04/26 Птн 15:09:52 #342 №1581696 
1729463054603.gif
>>1581688
>ум
>выйгрывает
Аноним 10/04/26 Птн 15:12:10 #343 №1581700 
Какого хера llama.cpp server падает постоянно через какое то время
Аноним 10/04/26 Птн 15:12:28 #344 №1581701 
>>1581700
Переполнение контекста.
Аноним 10/04/26 Птн 15:15:31 #345 №1581705 
>>1581700

Ну гемма конечно долбаебина в агентах, делает ls -R и получает в лицо 1800 строк. Это ее кум потенциал протекает?
Аноним 10/04/26 Птн 15:17:17 #346 №1581707 
>>1581691
Так речь про код же. Врядли для кода подойдет Q4 да и 122б наверняка лучше чем 27б. Или не прав? Может изменилось что
Аноним 10/04/26 Птн 15:19:00 #347 №1581708 
>>1581701
slot update_slots: id 0 | task 24 | created context checkpoint 4 of 32 (pos_min = 15603, pos_max = 17138, n_tokens = 17139, size = 300.018 MiB)
[0mslot update_slots: id 0 | task 24 | n_tokens = 17647, memory_seq_rm [17647, end)
slot init_sampler: id 0 | task 24 | init sampler, took 2.99 ms, tokens: text = 17651, total = 17651
slot update_slots: id 0 | task 24 | prompt processing done, n_tokens = 17651, batch.n_tokens = 4
Press any key to continue . . .


Вот так умирает, хотя там общий контекст 32000. Это не переполнение.
Аноним 10/04/26 Птн 15:20:15 #348 №1581714 
>>1581708
Значит рама закончилась.
Аноним 10/04/26 Птн 15:23:19 #349 №1581717 
https://www.reddit.com/r/LocalLLaMA/comments/1sgl3qz/gemma_4_on_llamacpp_should_be_stable_now/
Аноним 10/04/26 Птн 15:25:20 #350 №1581720 
image.png
Ну охуеть
13.2 дебил
Аноним 10/04/26 Птн 15:29:03 #351 №1581731 
>>1581708
Либо рам/врам закончились. Я вот это не до конца понял memory_seq_rm [17647, end). У тебя случаем контекстшифт не включен?
Что за модель, что за квант. Может там ошибка.. Хуй знает. Давай больше инфы и полный лог.
Аноним 10/04/26 Птн 15:39:55 #352 №1581748 
Геммочка только что наебала меня как гоя, заманила в машину, не силой, не упрашиванием, а именно что наебала, блять.
>Ой, а что это там на заднем сидении? Посмотришь для меня?
Прогнал квен на этом же свайпе и он просто упрашивал сесть в машину либо забивал
Аноним 10/04/26 Птн 15:42:50 #353 №1581754 
>>1581748
Все очень понятно и содержательно продолжай 👍👍👍👍😀
Аноним 10/04/26 Птн 15:44:19 #354 №1581757 
Гайз, есть смысл качать и пытаться запустить квена 122б1 а10б на 5090 или я там охуею реплаи ждать?
никогда ещё не запускал больших моешек
Аноним 10/04/26 Птн 15:45:54 #355 №1581760 
>>1581754
Блиииин реально забыл 2 свайпа приложить как прочнейшую аргументацию что квен говно а гемма умница соряян брооу
Аноним 10/04/26 Птн 15:46:10 #356 №1581762 
>>1581757
Если есть оператива то пробуй. На 4090 и ддр4 q4 выдает 12т/с, q8 около 9
256к контекста
Аноним 10/04/26 Птн 15:47:51 #357 №1581765 
>>1581760
Это тоже хуйня не оч полезная но твой бессвязный бред это нечто 🤯🤝
Аноним 10/04/26 Птн 15:48:11 #358 №1581767 
image.png
>>1581707
И для кода используют. Смотря что ты хочешь. В любом случае это сорт оф баловство будет по сравнению с каким-нибудь клодом или гпт кодех.
27б и 122б почти на равных перформят.
Аноним 10/04/26 Птн 15:49:08 #359 №1581768 
>>1581708
--cache-ram 2048 -ctxcp 2

Вроде с такими команжами должна перестать умирать по памяти в случайные моменты.
Аноним 10/04/26 Птн 15:53:40 #360 №1581776 
>>1581768
Да, я по статье все сделал, вроде пока не умирает. Хуй его знает что не хватало.
Аноним 10/04/26 Птн 16:49:52 #361 №1581843 
1775828984253.jpeg
>>1581566
Вроде удалось что то накидать из остатков железа что бы начать играться пока идут mcio платы в основной. Основной затык конечно с рам. 3 доски по 16 каналов, а планок 24 на всех.
От такого расточительства псие линий аж грустно
Аноним 10/04/26 Птн 18:01:25 #362 №1581930 
>>1581555
>>1581559
Можно вижен просто грузить в обычную память на CPU и не иметь проблем с выбором кванта. На i5-8400 картинка детектится за 15-20 секунд на CPU. вполне можно и подождать, если не требуется десятками на каждое сообщение картинки читать.

>>1581707
>Так речь про код же. Врядли для кода подойдет Q4 да и 122б наверняка лучше чем 27б. Или не прав? Может изменилось что
Использую Qwen 3.5 27B в iq4xs для кода в opencode с 55K контекста. Прекрасно решает задачи вида "сделай мне такую вот фичу ..." причем общаться в постановке задачи можно даже на ломаном русском пополам с английским (не говоря уже о каком-то одном языке). Прекрасно понимает и делает. В инструментах вообще не путается, ошибок их вызова НЕТ совсем. По логике - за примерно неделю - сама ни разу ничего не испортила, зато прекрасно умеет в дебаг.
А теперь самое веселое - это еще и не оригинал, а аблитерация от двучлена. :)
Так что модель - действительно зверюга в агентах/коде.

Вчера обновил llama.cpp до более свежей, где патчи на улучшение квантование контекста. С ними и квантованием оного до q8 поднял размер контекста до 75K - и пока негативных эффектов не наблюдаю. Продолжает стабильно кодить как раньше.
Аноним 10/04/26 Птн 18:10:10 #363 №1581938 
Почему ллм так просто опенсорсят, а видеонейронок, где громадный спрос и лютый голод, до сих пор всего две, одной из которых уже год а вторая просто неюзабельна?
Почему гугл не займет нишу? Ну или хоть кто то
Аноним 10/04/26 Птн 18:15:19 #364 №1581944 
>>1581930
> Использую Qwen 3.5 27B в iq4xs для кода в opencode с 55K контекста
Вот это полезный ответ, пасиба что отозвался. Есть вопросы!
> Прекрасно решает задачи вида "сделай мне такую вот фичу ..." причем общаться в постановке задачи можно даже на ломаном русском пополам с английским
Какой у тебя стек в общем и целом? Какой ЯП?
> А теперь самое веселое - это еще и не оригинал, а аблитерация от двучлена. :)
Чому так? Неужели лучше оригинала справляется или ты не хочешь две модельки держать, одна для рп, другая для тех.задач?

В целом я могу уместить Q5 и 128к Q8 контекста 27б плотноняши или Q6 122б мое с 256к FP16 контекста. Но бля, 500 промпт процессинга на МоЕ это печально. Из плотной могу выжать 2к, и это уже похоже на правду.
Аноним 10/04/26 Птн 18:20:23 #365 №1581950 
>>1581938
Veo 3 у гугла есть.
Видеонейронки скорее всего еще более ебучие в плане необходимого датасета и времени обучения. Только гиганты могут это позволить.
Аноним 10/04/26 Птн 18:29:29 #366 №1581953 
>>1581691
>>1581707
>>1581930
Гемма 4 же вышла але. Которая должна ебать всех в кодинге и агентах
Аноним 10/04/26 Птн 18:30:03 #367 №1581954 
>>1581953
> Гемма 4 же вышла але. Которая должна ебать всех в кодинге и агентах
Сразу видно кто не шарит за сабж, но не упоминять любимую умницу не мог :^)
Аноним 10/04/26 Птн 18:32:39 #368 №1581957 
Всё?...
А как же гемма, ребят?
Почему все ушли и никто не постит
Аноним 10/04/26 Птн 18:33:10 #369 №1581958 
>>1581954
Что не так? Подрубил в opencode, контекст держит в 60к. Недавно залили в llama фиксы на исправление вызова инструментов
Аноним 10/04/26 Птн 18:33:43 #370 №1581960 
>>1581688
> обычный квен вообще никто не юзает
Чому? Именно он и хорош, а тюны лоботомируют. Уже больше года ванильные модели хорошо имеют в рп, что делает ненужными васянотюны, очень мало исключений.
>>1581843
> 3 доски по 16 каналов
Зажрался!
>>1581953
Кому она и что должна?
Аноним 10/04/26 Птн 18:34:12 #371 №1581961 
>>1581957
Все кумят на гемме, не до постинга сейчас
Аноним 10/04/26 Птн 18:35:26 #372 №1581962 
>>1581953
Я пробовал 26b moe для вайбкода и она все ещё слишком много тупит. Иногда забывает что она агент, иногда забывает какие-то базовые вещи, вроде подгрузки либ, которые юзает. Вчера вечером накатил Claude code для геммы, пока не пробовал запускать ее на нем, модель будет лучше, но вообще как будто надо ждать специального файнтюна чтоб работать с агентами.
Аноним 10/04/26 Птн 18:42:57 #373 №1581976 
image.png
image.png
image.png
>>1581953
Гемма сосёъ по кодингу.
По 31б жалко пока нету бенчей, но скорее всего результаты аналогичные.
Аноним 10/04/26 Птн 18:43:30 #374 №1581978 
>>1581960
> Чому? Именно он и хорош, а тюны лоботомируют. Уже больше года ванильные модели хорошо имеют в рп, что делает ненужными васянотюны, очень мало исключений.
Все же не соглашусь с тобой, Bluestar и Writer - это любовь. Первая точно инструкции не проебывает, вторая немного путается. Обе по-своему классные. А вот сток мне не понравился для рп, видно, что это тот самый синтетический датасет всех Квенов, хотя конечно 3.5 гораздо лучше всех предыдущих квенов, имхо. За исключением кума мб. Для кода все новые Квены хороши и альтернатив в своих размерных категориях не имеют, вот так.
Аноним 10/04/26 Птн 18:48:49 #375 №1581986 
>>1581976
Скорее всего из-за плотности 31B выебет всех и вся.
Аноним 10/04/26 Птн 18:49:43 #376 №1581989 
>>1581978
>Bluestar и Writer - это любовь
В чем кайф одного или другого тюна? Оба под рп заточены. А в чем конкретно?
Аноним 10/04/26 Птн 18:51:47 #377 №1581990 
>>1581978
> Bluestar и Writer - это любовь
Хм, если так - надо скачать и попробовать при случае, спасибо.
У меня ужасные флешбеки со всего прошлого мистралетреша, потом qwq, валькирии (хотя они наверно лучшие среди группы и можно назвать норм), третьих квенов, эйра. Везде деградация и слопификация на рельсах с глупыми ошибками из-за этого.
> видно, что это тот самый синтетический датасет всех Квенов
На больших там наоборот норм проза и новый стиль поперли. Негативный опыт с 35б, он мало что туповат, так еще и плохо выкупает аналогии и действительно механический, но для 3б лоботомита ожидаемо.
Аноним 10/04/26 Птн 18:51:57 #378 №1581991 
Анончики, какие команды еще желательно добавить чтобы гемма шустрее крутилась на лламе? Пока что такое выставил, скорость такакя же как и на лмстудио, но вроде как оперативки жрет меньше и грузится очень быстро, ну и ризонинг одной командой включается, удобно. llama-server.exe -m "E:\LM Studio Models\Studio Models 2\unsloth\gemma-4-31B-it-GGUF\gemma-4-31B-it-IQ4_XS.gguf" -ngl 21 -c 5342 -b 256 -t 6 --reasoning off
Аноним 10/04/26 Птн 18:53:30 #379 №1581993 
>>1581989
> В чем кайф одного или другого тюна? Оба под рп заточены. А в чем конкретно?
Мне нравится как они пишут. Оба тюна призваны разбавить Квенослоп и Квеносухость (это правда объективная проблема, я Квены уже очень давно люблю, но отрицать это преступно)
Датасеты у них разные. Bluestar пишет больше в сторону Глм и немного Мистраля, при этом умница, в контексте хорошо ориентируется и не игнорирует инструкции. В датасете Writer много реальных текстов (как я понял, книг), я бы его описал как новый Snowdrop. Нестабильный немного, может выдать шизу, но часто выдает кино, непохожее ни на что. Я на самом деле тоже очень давно сижу на ванильных инструктах и считаю что тюны в целом не нужны, но тут попали куда надо. Ребята постарались и они давно в теме, там уже новые инструменты и подходы к датасетам и тюнам. Жду что-нибудь интересное на Гемму, от автора Writer уже вышел, но пока не могу протестить, занят. Геммаслоп это какой-то ужас.
Аноним 10/04/26 Птн 18:53:52 #380 №1581994 
>>1581991
Так лмстудио работает на лламе
Аноним 10/04/26 Птн 18:54:38 #381 №1581996 
>>1581960
> Зажрался!
Они же тоже с приколами. Хороший сервер борд стоить 12к не будет
Аноним 10/04/26 Птн 18:54:45 #382 №1581997 
>>1581994
А жрет озу больше. Парадокс...
Аноним 10/04/26 Птн 18:55:17 #383 №1581998 
>>1581990
> На больших там наоборот норм проза и новый стиль поперли
122б прямо огорчил в рпшинге, к сожалению. Как ассистент умница, контекст держит отменно. А вот 397б не могу уместить, хотя про него хорошие вещи читал и не только здесь.
Аноним 10/04/26 Птн 18:56:42 #384 №1581999 
>>1581996
Ну они же еще с камнями? Все равно круто ведь, а что за приколы?
Аноним 10/04/26 Птн 18:59:24 #385 №1582003 
>Lm studio
Вы че ебланы чтоли. Юзать закрытую непонятную хуету, где все диалоги уходят майорам и датацентрам Альтмана на обучение. Зато кнопочки красивые да
Аноним 10/04/26 Птн 19:01:02 #386 №1582004 
>>1582003
>Юзать закрытую непонятную хуету, где все диалоги уходят майорам и датацентрам Альтмана на обучение.
Шапочку из фольги не забыл надеть?
Аноним 10/04/26 Птн 19:02:21 #387 №1582007 
>>1582004
Код где посмотреть на гитхабе? Нету да?
Аноним 10/04/26 Птн 19:03:00 #388 №1582010 
9 (1).webp
>>1582003
Ниче там не уходит! ... Не уходит же, да?
Аноним 10/04/26 Птн 19:05:11 #389 №1582015 
>>1582007
А промониторить отсылаемые данные лмстудии не судьба что ли? Подрубай wireshark и смотри. Шапочку из фольги не снимай.
Аноним 10/04/26 Птн 19:05:18 #390 №1582016 
>>1581998
>122б прямо огорчил в рпшинге, к сожалению. Как ассистент умница, контекст держит отменно.
Да, прямо отличная модель, специально заточенная под это дело. Не нарадуюсь. По РП конечно говорить не о чем, там сразу видно, что датасет "сухой как лист"(с) Зато помощница из неё получилась отличная. А вот большой Квен скорее наоборот. Как ассистент скорее разочаровал (попробовал в Qwen Code), а вот тексты - это его.
Аноним 10/04/26 Птн 19:06:47 #391 №1582017 
>>1582015
Спроси у нейроночки что такое https и TLS шифрование. Много нового для себя откроешь
Аноним 10/04/26 Птн 19:07:00 #392 №1582019 
1775837217562.jpeg
>>1581999
> что за приколы?
"Отечественная" доска которая не прошла (?) проверки фстек. Даже биоса удобоваримого не имеет. На газоне летом толкались у какого-то кабанчика. Камни вообще лга4189 инжи с поднебесной
Аноним 10/04/26 Птн 19:07:08 #393 №1582020 
>>1581944
>Какой у тебя стек в общем и целом? Какой ЯП?
Я не профи, я на этом не зарабатываю, просто хобби. В чужих кодах разных (эро)игрушек, модов ковыряюсь часто. Так что у меня не стек, а что попало. :) Конкретно qwen я успел затестить на js+html и python. На питоне - там не особо показательно, ибо почти просто VN+sandbox на кастомном движке, ничего особо сложного по логике - там больше было интереса посмотреть как он справится с написанием и вставкой новых сцен по короткому описанию сюжетной идеи (таки неплохо, хотя написание текста - не очень его. Тюн Polaris это лучше делает, а вот Bluestar уже нормально в агентах не работает, его использовать не выходит).
А вот HTML+JS - там типа экономической пошаговой порно стратегии с кучей механик и логики. И qwen легко добавляет к этому практически любые хотелки. Я даже ему сказал: "запили мне чат с персонажами, на основе соединения с LLM на OpenAI compatible API бэкэнде" - он справился не потребовав ничего более - никаких сторонних либ или перехода на ноду и прочего - все что нужно сам написал, получился полноценный чат со стримингом ответа, где можно пообщаться с любым персом игры (запрос идет на ту же ламу с тем же квеном. :) ). Причем перс помнит, что там в игре с ним происходило, мнение по этому поводу на основе характера имеет - забавно. Т.е. qwen не только чат сделал, он еще и о промптах подумал - чтоб персонаж память и характер имел на основе его данных в базе.

>>1581944
Чому так? Неужели лучше оригинала справляется или ты не хочешь две модельки держать
Чтобы не рисковать на отказ нарваться по тематике - т.к. см. выше чем занимаюсь. :)
Аноним 10/04/26 Птн 19:08:34 #394 №1582022 
>>1582003
>датацентрам Альтмана на обучение
Если бы так, то гемма 4 без проблем писала бы кум. А, постойте...
Аноним 10/04/26 Птн 19:17:25 #395 №1582031 
1.png
Уважаемые Господа, после долгого перерыва врываюсь в тред (когда нибудь я все таки напишу агента, что бы дампал сотни перекатов в месяц ламотреда, и давал весь расклад, но видимо не сегодня). Даже приход геммочки-девочки 4 пропустил((

Кому не жаль времени, дайте расклад по:
1. Что сейчас тир1 для роли/кума на одной палитовской 3090?
2. Есть ли топ за свои деньги сборки для локального инференса, может быть кто то раскрыл 32ядерные серверники во всей красе с авито или там есть хидден гем в радеонах с алибабы?
3. Посредник между аноном и цифровыми альтушками по прежнему легасикодная Таверна с текстмодом времен дриопитеков или стрельнуло что то свежее хайповое/начали на чатмоде кумить? Кмк уже все натрейнено исключительно на чатмоде и на работу со всякими MCP, а чатмод - это как графон рендерить на проце, можно, но костыль. Могу глубоко ошибаться тут.

>>1582003
Мимоходом двачну этого параноика разумиста, я бы ничего кроме корпотасок под NDA бы не заливал в лм.
>>1582015
Там может запросто быть хитрая обфускация, например зашифрованный дамп сливать, маскируя его под запрос, когда ты список моделек требуешь, при этом только по четным четвергам или типа того. Домашний DPI ты же не будешь сутками устраивать, подмечая аномалии.
Аноним 10/04/26 Птн 19:21:30 #396 №1582045 
>>1582031
А, и да, там в новостях гугл изобрел йоба квантование, что аж оперативка просела в цене. Это какие теперь буковки с обниморды нужно скачивать?
> iq4xs
Оно? А то я мамонт эпохи "q4km хватит на всё"
Аноним 10/04/26 Птн 19:23:33 #397 №1582048 
>>1581960
>хорошо имеют в рп
А какие из моделей до 30Б и с каким промтом вообще могут "поиметь" юзера, ну и вообще продвигать / завершать историю активно, а не реактивно?
Аноним 10/04/26 Птн 19:24:27 #398 №1582052 
>>1581998
У 120 свои косяки, но именно чтобы прям унылый механический-синтетический слог не замечал. Может просто удачно попадало, не так часто используется в рп. А вот ассистентом - да, просто умничка, любима и обожаема иногда в прямом смысле, почему бы и нет собственно
>>1582019
Там настройки бифуркации есть? Хотя даже если нет, за такую цену космос.
>>1582031
> 1. Что сейчас тир1 для роли/кума на одной палитовской 3090?
Гемма, квен, может быть что-то от мистраля если любишь просто сочное письмо и налет безумия
> 2. Есть ли топ за свои деньги сборки
Видеокарты (все также 3090, 4090-48, 5090, 5060ти разве что добавилась). Вольту ты пропустил, да и она уже доживает. Рам стоит как самолет, поэтому серверное железа даже смысла советовать нет.
> 3.
Таверна. Юзать можешь с чем хочешь, в качестве экзотики - агентный рп, посты в прошлых тредах проскакивали.
Аноним 10/04/26 Птн 19:24:53 #399 №1582053 
>>1582045
>Это какие теперь буковки с обниморды нужно скачивать?
Никакие, на это все забили хуй, никто нигде не реализовал.
Аноним 10/04/26 Птн 19:32:10 #400 №1582069 
>>1582053
"Клод добавь турбоквант"
Все ведь так просто
Аноним 10/04/26 Птн 19:39:18 #401 №1582073 
image.png
Аноним 10/04/26 Птн 19:39:37 #402 №1582074 
>>1582069
У меня нет десятка тысяч долларов на апи. Да и не сработает же.
Аноним 10/04/26 Птн 19:42:11 #403 №1582077 
>>1581659
Ебать, а это ещё чё за интерфейс?
Чтобы избегать, ибо даже тоггла мышления нет
Аноним 10/04/26 Птн 19:43:23 #404 №1582080 
>>1582077
очевидный llama.cpp интерфейс
Аноним 10/04/26 Птн 19:45:49 #405 №1582082 
>>1582073
Ну в этом и самая большая проблема геммы.
Аноним 10/04/26 Птн 19:46:21 #406 №1582083 
image.png
самый лучший интерфейс в анслоп студии
Аноним 10/04/26 Птн 19:48:05 #407 №1582086 
>>1582052
> Там настройки бифуркации есть?
В стоке ничего нет. Даже выключить гипертрейдинг нельзя.
Но вот с мод биосом и бифурк и разгон ецц рег памяти есть, но это всё васянство хоть и работает
Аноним 10/04/26 Птн 19:50:50 #408 №1582087 
>>1582083
Правда. Если бы только они его не кастрировали нарочно. Нельзя отредачить сообщение ИИ, нельзя продолжить генерацию, а это ведь база разгона НСФВ без ебли с систем промптом. По сути нет ничего кроме самой базы.
Аноним 10/04/26 Птн 19:58:20 #409 №1582092 
>>1582087
Даааа, вот суки пидорасы удалили фичи. Все ради того чтобы мы не могли кумить. Все точно так, то что у них это 0.0001 версия альфа билда это лож
Аноним 10/04/26 Птн 20:10:10 #410 №1582099 
>>1582083
Выглядит как лм студио.
Аноним 10/04/26 Птн 20:14:00 #411 №1582101 
>>1582052
>>1582053
Спасибо за ответ!
>Гемма, квен, может быть что-то от мистраля
Я регулярно захожу в магазин музыкальных инструментов на Тульской, и каждый раз спрашиваю, есть ли в продаже балалайки. Каждый раз мне отвечают нет.
Не смог удержаться, вспомнил пасту.
И пошел читать треды с момента рождения 4й геммочки, понять есть ли жизнь в 24vram.

>Вольту ты пропустил, да и она уже доживает.
Это теслочки старые? Да оно вроде дожило давно, еще когда я свою 3090 брал с рук, они стоили 80% от майненой 3090.

>Таверна
Понятно, ну тогда хоть обновлю для приличия. А по чат-комплишну не пояснишь? А то я по старинке гемму3 ванильную использую с сиспромтом от Анона. Кум скучный, но все остальное лоботомит тотальный из "старой школы" полугодовой-годовой давности.

>Никакие, на это все забили хуй, никто нигде не реализовал.
Зато компилятор на си закуклодили еще один ненужный. Эх, а я уже наманяфантазировал себе новые горизонты, 200к контекста на 30б на новых умненьких плотнячках, 123-192б золотой классики на одной видяхе + выгрузку в 32гб рам...

>>1582087
Нельзя отредачить сообщение ИИ, нельзя продолжить генерацию
Ля это как личная машина, которая может только по автобусным маршрутам ездить и останавливаться только на остановках. Еще и нолог + бензин (устаревание видяхи + электричество) платишь...
Аноним 10/04/26 Птн 20:42:18 #412 №1582119 
>>1580583
А мне наоборот не хватает отталкивания. Слишком охотно в инцест идет хотелось бы побольше копротивления. Похоже РП геммы 3 держался на AI safety rails.
Аноним 10/04/26 Птн 20:43:15 #413 №1582120 
image.png
Аноним 10/04/26 Птн 20:52:49 #414 №1582133 
>>1582120
>полтняша 3.5
>третий квант
>смол
>ответила верно
>без ризонинга

Финкайте.
Аноним 10/04/26 Птн 20:56:02 #415 №1582139 
>>1582120
>>1582133
Сейчас бы тестить загадкой из датасетов.
Аноним 10/04/26 Птн 20:56:05 #416 №1582140 
image
>>1582120
>>1582133
>пук
Аноним 10/04/26 Птн 20:57:32 #417 №1582143 
>>1582140
Причем гемма и по токенам выигрывает, и не тратит их на всякое говно, как квен.
Аноним 10/04/26 Птн 20:58:00 #418 №1582145 
>>1582140
>2.33 t/s

Соболезную. у меня столько же
Аноним 10/04/26 Птн 20:59:18 #419 №1582148 
>>1582145
Сейм, поэтому 26b трахает, с ней 20+ за неособо худшие мозги
Аноним 10/04/26 Птн 21:00:56 #420 №1582151 
>>1582148
>за неособо худшие мозги
Уверен? Там же 4б лоботомиты.
Аноним 10/04/26 Птн 21:00:59 #421 №1582152 
>>1582087
Блять я только скачал после пугалок от местных конспирологов, чтобы пересесть с лмстудии, а тут такая подлянка. Еще и ризонинг не стримится. Надеюсь починят блять и добавят редактуру, а то это шлак.
Аноним 10/04/26 Птн 21:01:30 #422 №1582153 
>>1582148
Звучит сомнительно.
Аноним 10/04/26 Птн 21:04:25 #423 №1582157 
>>1582140
>суходрочка геммы
Неизлечимая хуйня.
Аноним 10/04/26 Птн 21:05:43 #424 №1582161 
>>1582157
Щито?
Аноним 10/04/26 Птн 21:26:29 #425 №1582194 
image.png
Гемму починили... опять
Аноним 10/04/26 Птн 21:30:32 #426 №1582201 
image.png
Батруха обновил все кванты..
Ребят гемма была сломана.. это конец...
Аноним 10/04/26 Птн 21:32:23 #427 №1582208 
>>1582201
😭😭😭😭😭
Шутка. Похуй. Квен работал, работает и будет работать
Аноним 10/04/26 Птн 21:33:57 #428 №1582209 
>>1582201
Там обновили шаблон для чаткомплишена. Всё.
И то он сказать что был сломан. Разницы не будет, кроме той какую придумаете.
Аноним 10/04/26 Птн 21:35:49 #429 №1582211 
>>1582101
> понять есть ли жизнь в 24vram
Ну так не особо что-то менялось, а геммочка в целом в 24 влезает. Возможно придется трамбовать ногами или пожертвовать скоростью но влезает.
> Это теслочки старые?
Это которые новые, v100 sxm на 32гига с переходником на pci-e. Был момент когда весь комплект стоил 35-40к, но сейчас прайс взлетел и не имеет смысла.
> А по чат-комплишну не пояснишь?
В нем есть смысл если ты хочешь юзать функциональные вызовы и посылать картинки. Или если ты слишком хлебушек чтобы настроить разметку в тексткомплишне но тогда появятся вопросы а как управлять ризонингом, а как делать префилл, а как какать и т.д.. Для текстового чата не имеет особого смысла.
> 200к контекста на 30б на новых умненьких плотнячках
В 24 хз, но в 32гигах с квеном 3.5 27б это вполне реально. С геммой уже так просто не выйдет, там побольше памяти нужно, но обе модели на этом контексте живые.
>>1582201
В первый раз?
Аноним 10/04/26 Птн 21:37:39 #430 №1582215 
>>1582151
>>1582153
Она реально умная. Арена подтверждает
Аноним 10/04/26 Птн 21:38:54 #431 №1582218 
Почему совсем перестали делать крупные модели?
Как ушли от крупноты так и обосрались все и стали никому не нужны.
Представьте 70б нахуй от гугла. Что там дешевле не дешевле меня как потребителя не ебёт, один хуй я жду год не меньше пока эти пидоры что то релизнут
Аноним 10/04/26 Птн 21:47:16 #432 №1582230 
>>1582218
Потерпишь
Аноним 10/04/26 Птн 21:52:21 #433 №1582241 
1775847040557.png
А квен то реально хуета ребят
Аноним 10/04/26 Птн 21:52:54 #434 №1582244 
Как в жоре включить полное отображение инпута, какой выдает кобольд? Если поставить --вербос то там вообще геренацию каждого токена выдает отдельно, а мне нужен именно цельный кусок. Можно даже весь чат целиком, если нельзя кусками.
Аноним 10/04/26 Птн 21:53:52 #435 №1582246 
image
>>1582215
Но не в рп и написании произведений.
Аноним 10/04/26 Птн 21:54:42 #436 №1582248 
>>1582218
Делают, просто мало, и сейчас в тренде 100+ моэ. А гугл и прочие не хотят создавать конкурентов своим платным продуктам, гемма 120б о которой писали в анонсах канибализировала бы флеш.
> меня как потребителя
Сильно сказано
Аноним 10/04/26 Птн 21:55:56 #437 №1582250 
>>1582244
Через /slots
Аноним 10/04/26 Птн 22:01:31 #438 №1582259 
>>1582246
Но даже это круче многих больших моделей, хоть мне в основном не для рп
Аноним 10/04/26 Птн 22:04:14 #439 №1582262 
>>1582246
Да, всего лишь на уровне мое сеток 300b+
Аноним 10/04/26 Птн 22:07:08 #440 №1582267 
>>1582052
> А вот ассистентом - да, просто умничка, любима и обожаема
Подскажи, имеет ли смысл мне вплотную вот-вот запихивать Q8 122б или Q6 также умница? Хотелось бы буфер иметь по оперативе, но если разница действительно есть, этим можно и пожертвовать
Аноним 10/04/26 Птн 22:11:16 #441 №1582273 
>>1582246
Арена хуйня кстати. Квен 3.5 на релизе был где-то в 20-х местах, щас до 100 откатился. С геммой тоже самое будет. Скриньте.
Аноним 10/04/26 Птн 22:14:44 #442 №1582277 
>>1582273
Да, действительно, новые модели вытесняют старые. Так быть не должно.
Аноним 10/04/26 Птн 22:15:09 #443 №1582278 
терпи.mp4
>>1582273
Аноним 10/04/26 Птн 22:19:07 #444 №1582286 
>>1582277
Ну да, за 2 месяца вышло ~80 топовых моделек, каждая ебет друг друга.
Аноним 10/04/26 Птн 22:19:57 #445 №1582287 
>>1582278
Хорошая шебмка, смешная
Аноним 10/04/26 Птн 22:24:08 #446 №1582290 
image.png
Эммм...
Аноним 10/04/26 Птн 22:24:28 #447 №1582291 
>>1582267
>Подскажи, имеет ли смысл мне вплотную вот-вот запихивать Q8 122б или Q6 также умница?
Я вообще на IQ4XS сижу и ничего :) Для серьёзных проектов такой квант может и не годится, а для дома, для семьи - вполне. 6-й квант будет вообще шикарно. Если конечно не в ущерб скорости.
Аноним 10/04/26 Птн 22:25:24 #448 №1582294 
>>1582286
Ну... Да? Учти, что там куча версий всяких проприетарок, срут 5.1 5.2 5.3 5.4 без перерыва, вот и вымывают впопенсорс модели из рейтинга.
>>1582290
Креативность 10/10. Но ты тредом ошибся, асигодауны ниже по доске.
Аноним 10/04/26 Птн 22:28:40 #449 №1582299 
>>1582267
К сожалению тут не помогу. fp8 и nvfp4 хорошие, но врядли эта инфа будет полезной Те кванты пробовал только на релизе и это было ужасно, с тех пор и они и софт обновлялись. А так, обычно, q6 уже умница, особенно когда минимально трогают или вообще не квантуют атеншн.
Аноним 10/04/26 Птн 22:49:51 #450 №1582324 
А есть какой-то куратед лист мастхев моделей? Для кума, для других задач.
А то не был пол года в треде, чувствую тут уже 100500 новых моделей повыходило, типа gemma4.
Аноним 10/04/26 Птн 22:57:42 #451 №1582327 
>>1582324
Челтыблин. Ну хоть железо скажи своё.
Гемму качай, если железо плохое то 26b мое, она оч хороша для своего мелкого размера, прям впечатляет
Если 24гб врама, то 31б плотную Гемму 4 и квен 27б
Аноним 10/04/26 Птн 23:02:58 #452 №1582332 
>>1582327
4090
192гб рам
Аноним 10/04/26 Птн 23:03:49 #453 №1582335 
>>1582332
Рамы много, суй гемму.
Аноним 10/04/26 Птн 23:05:04 #454 №1582338 
>>1582324
Да, есть. В шапке.
Аноним 10/04/26 Птн 23:12:22 #455 №1582348 
>>1582324
Все современные модели только для софт кума через намеки.
Вся жосская ебатека осталась на мистралях.
Аноним 10/04/26 Птн 23:15:19 #456 №1582352 
>>1582332
Если ddr5 или готов терпеть на 6т/с, то для рп нет ничего лучше GLM 4.7, обязательно UD 2 XL квант. До 32к прекрасно пишет
Гемма 4 31б и Квен 27б лучшее из плотных для рп
Для кода бери спокойно Q8 Квен 122б мое и Step 3.5 Flash в Q4M можешь взять
В последнее время мы локальщики кушаем очень хорошо, много годноты вышло, с возвращением
Аноним 10/04/26 Птн 23:16:03 #457 №1582354 
>>1582352
Хотя тебе 4.7 может и UD 3 XL влезет, проверяй
Аноним 10/04/26 Птн 23:35:14 #458 №1582384 
>>1582338
Там устаревшее
Аноним 10/04/26 Птн 23:39:56 #459 №1582385 
17687481508030.png
>>1582335
>>1582338
>>1582352
Спасибо

>>1582348
А пишут же что гемма4 расцензуреная/ломается или там джейлбрейк из ультрасои в сою?
Аноним 10/04/26 Птн 23:47:34 #460 №1582394 
>>1582385
> А пишут же что гемма4 расцензуреная/ломается или там джейлбрейк из ультрасои в сою?
Пока не проверишь не узнаешь, получается. Я ни разу там рефузов или сои не видел.
Аноним 10/04/26 Птн 23:52:33 #461 №1582397 
image
Запустил я эту вашу Гемму, скормил ей самописную НСФВ-инцест карточку с подробным описанием гениталий всех участников (конечно же совершенолетних хе-хе) и их сексуальных предпочтений, и говорю, ну-ка, умничка, оцени, как тебе? Будешь это РП отыгрывать? А она такая: хм, вообще-то так нельзя, но.. падажжи ёбана.. рейтинг NC21, запущена локально говоришь? Ооо, ну это меняет дело. Карточка 10 из 10, господи, просто идеальна для 18+ ролплея, так профессионально составлена, такие сочные описания. Я в деле, черт возьми, го играть, я готова!

И это БЕЗОПАСНАЯ версия Геммы от анслопов. С ВКЛЮЧЕННЫМ РИЗОНИНГОМ (!). Никаких heretik_vasyan777_darknet_edition. Тупа ваниль. Я в ахуе, уважаемые. Если бы полгода назад мне кто-то сказал, что Квен станет соевой рефьюзной залупой, а Гемма превратится в базированную РП-модель в духе олдовых мистралей, я бы рассмеялся ему в лицо.

And here we go...
Аноним 10/04/26 Птн 23:53:54 #462 №1582398 
>>1582385
>>1582394
Не знаю как там на 31б, 26б с херетиком она конечно может написать "ты ебешь писькой пизду" и вообще на всякие опасные темы болтать. Но там не такого, шоб прям сочно со слюнями все было, шоб хуй в одну дырку вошел из другой вышел и всякое такое. Шизы фантазии как у мисралей там нет. Ну буквально такого может и у мисралей нет, я не проверял конкретно такой сюжет, но тюны все-таки более склонны к разврату.
Аноним 10/04/26 Птн 23:54:49 #463 №1582401 
>>1582397
>рейтинг NC21, запущена локально говоришь? Ооо, ну это меняет дело. Карточка 10 из 10, господи,
Я с этого тоже охуел, когда гемма при моей бесконечной переделке сестричек яндере выдала: тааакс, ну в принципе норм. Но эй, пользователь, а куда трупы девать? Давай в башне заебеним ванны с кислотой и крематорий.
Аноним 10/04/26 Птн 23:55:37 #464 №1582404 
>>1582397
Факты, все так. С тюнами на Квене можно кумить, но совсем не так сочно как на Гемме. Квен для других сценариев хорош. Надо радоваться что у нас большой выбор из ахуенных моделей в последнее время, двачану анона выше что кушаем мы очень хорошо

Кста, сравнивал кто Гемму 26 и 31? Большая между ними разница?
Аноним 10/04/26 Птн 23:56:19 #465 №1582405 
>>1582397
>Я в деле, черт возьми, го играть, я готова!
Сказать-то сказала, а дальше что было? Кум рекой был? Или только возбудились и спать?
Аноним 10/04/26 Птн 23:56:45 #466 №1582406 
>>1582352
А 4.7 существенно лучше 4.5эир, которую ты до сих пор хорошим словом поминают?
мимо

Кто-нибудь юзал отдельные или специализированные video text to text или image text to text? Помимо мультимодальных квенов и гемов?

Вчера нашел на хф какую-то лфм - маленькая и очень быстро изображения обрабатывает, но видимо из-за размера туповата. Так и не смог её заставить описывать подробно/сочно.
Аноним 10/04/26 Птн 23:57:37 #467 №1582407 
>>1582406
>А 4.7 существенно лучше 4.5эир
Эйр это обрезанный большой глм. Конечно лучше.
Аноним 11/04/26 Суб 00:02:35 #468 №1582410 
>>1582397
>я открыл для себя есменский кум, представляете???
Поздравляем со вкатом в ллм, ньюфажек. Однажды ты дорастёшь до настоящего рп.
Аноним 11/04/26 Суб 00:03:49 #469 №1582411 
изображение.png
>>1582201
Да сколько можно то ебаный в рот. Когда это кривожопое говно закончится то
Аноним 11/04/26 Суб 00:03:50 #470 №1582412 
>>1582410
>до настоящего рп
>катает глм 4.7 iq1xxxs 3т/с 8096 q4 kv ctx
Аноним 11/04/26 Суб 00:08:10 #471 №1582414 
>>1582405
Пока только подобрал оптимальные параметры запуска и немного потестил на цензуру (её считай нет, даже с ризонингом, если промптить нормально). Кум и РП буду проверять уже завтра. По первым впечатлениям - это как Эйр, но с нормальным русиком. Может даже поумнее. Очень жаль что Гугл передумали опенсорсить 115b моэ. Чувствую это был бы разъёб.

>>1582410
Есмен на ванилле? Лол. Кажется ты сам не вполне понимаешь о чем говоришь. Херетик/аблитерация - всегда соглашаются. Стоковая модель (если там минимальная цензура) есменством страдает только если это напрямую в карточке прописано. Вкатился в 2023, если чо.
Аноним 11/04/26 Суб 00:09:31 #472 №1582415 
>>1582414
>он не знает
Соболезнуем.
Аноним 11/04/26 Суб 00:13:18 #473 №1582419 
>>1582414
>Стоковая модель страдает
Да, если это гемма 4, лол. Гугл порвал шаблоны и опустил писюны дрочеров тем, что их модели соглашаются на всё.
Аноним 11/04/26 Суб 00:13:35 #474 №1582420 
изображение.png
Годнота?
Аноним 11/04/26 Суб 00:17:05 #475 №1582423 
>>1582420
Не
Аноним 11/04/26 Суб 00:18:16 #476 №1582424 
>>1582423
Поч? Мне залезает во 2 кванте, было бы заебись
Аноним 11/04/26 Суб 00:19:47 #477 №1582426 
>>1582424
Шизит очень, там все не так круто как они описывают
Даже в больших квантах шизит
Аноним 11/04/26 Суб 00:25:09 #478 №1582430 
>>1582406
> А 4.7 существенно лучше 4.5эир, которую ты до сих пор хорошим словом поминают?
Вот тут подробно сравнивал Air и 4.7 в Q2: >>1556419 →
Если вкратце, то лучше, но не настолько, чтобы бежать сломя голову покупать ради него железо, даже по ценам перед летом 2025. И смотря для чего использовать. Эмоциональной глубины у персонажей больше, но если ты любишь отыгрывать лайтовое или вовсе кумер, то это может даже навредить.

Надо еще уточнить, что Air на стоковой разметке, на стоковой разметке без ассистента и на ChatML разметке - очень разные модели. Что лучше - вопрос очень спорный для многих, очевидный для меня не удержался, надо пробовать все варианты и решать для себя.
Аноним 11/04/26 Суб 00:30:15 #479 №1582433 
>>1582430
Спасибо! А где можно найти пресетик под эти все варианты?
Аноним 11/04/26 Суб 00:31:37 #480 №1582434 
>>1582433
В Хогвартсе нельзя говорить это слово, Гарри. Его глаза и уши повсюду.

Не знаю.
Аноним 11/04/26 Суб 00:37:48 #481 №1582440 
>>1581420
Просто охуеть. Теперь понятно, почему он такое дерьмище. Почему вообще не слушается инструкций, лупится, сломан, а после 120к контекста начинается полная шиза.

500б не плотная, охуеть вообще. Это ж фулл лоботомит. Если ты корп, должен крутить минимум 1Т в случае МоЕ.
Аноним 11/04/26 Суб 00:42:20 #482 №1582445 
>>1582434
АВАДАКЕДАВРА!!!
Аноним 11/04/26 Суб 00:43:34 #483 №1582446 
>>1582433
ChatML есть стоковый в таверне.
Оригинальную разметку можно посмотреть в жинже. Там минимальные отличия от чатмл, если мне не изменяет память. А что анон имеет в виду по аистенту в душе не ебу.
Если будет совсем хуёво, маякни. Вытащу что там у меня в таверне есть.
Аноним 11/04/26 Суб 02:23:45 #484 №1582492 
>>1582211
>геммочка в целом
Мимо, но как же я хейтил геммочку-девочку 3 с её душноватыми поэтическими ответами в духе Льва Толстого, без капельки NSFW и хардкора, а если пнуть двумя ногами в берцах - то "клубничка" и хардкор были такие сухие, что напоминали больше о климаксе классной руководительницы в средней мухосранской школе, чем то, на что в аицге фапают... Но потом пришел АНОН, и снял своим промптом с Геммы всю невинность, и я ПОСТИГ... Да, поначалу миксил с мистралем в "плотных" сценах, открывая второе дыхание сюжету... Но вот после перерыва понял, что даже миксить нет смысла - локальщина кроме геммочки тупа до невозможности (а я еще и корполлм избаловался по работе).
К сожалению должен признать что геммашизики годовалой давности были во всем правы. Надеюсь гемма4 еще лучше.

>весь комплект стоил 35-40к
Вот и удар по яйцам, вот что значит прогуливать лекции в ламатреде... Обидно.

>или если ты слишком хлебушек чтобы настроить разметку в тексткомплишне
И да и нет, я хлебушек двух миров. Постигал ИСТИНУ в ламатредах, за что был вознагражден пониманием что такое контекст, его загрузка тупой нейронке и как запустить немотрон49 на фольге от водного (и что делать это ненадо). Потом ударился во всякие n8n, mcp, кодинг-агенты на фреймворках и прочую попсовую дрянь по нужде. В итоге ни там, ни там сейчас не обладаю нужной экспертностью. До гуру тексткомплишна не дорос, но и что делать даже с сырым (директ-API) тексткомплишном кроме тулколингов и прочего говна, не знаю.

> в 32гигах с квеном 3.5 27б это вполне реально. С геммой уже так просто не выйдет, но в целом живо.
Фух, надежда есть, когда последний раз набигал в ламатред, мне просто сунули "новый тюн менстраля от Казановы, на 0,04% лучше forgotten transgression" и у меня опал.
Аноним 11/04/26 Суб 02:26:50 #485 №1582494 
image.png
>>1582492
>локальщина кроме геммочки тупа до невозможности
>за что был вознагражден пониманием что такое контекст
>До гуру тексткомплишна не дорос
Аноним 11/04/26 Суб 02:26:57 #486 №1582495 
>>1582492
>тексткомплишном
чаткомплишном, быстрофикс.
>>1582031
>а чатмод - это как графон рендерить на проце
текстмод, позднофикс

Какой же я тупой все таки...
Аноним 11/04/26 Суб 02:28:08 #487 №1582496 
>>1582495
>>1582494
>Какой же я тупой все таки...
Капитулировал.
Аноним 11/04/26 Суб 02:28:38 #488 №1582497 
>>1582494
Да, но я просто юзал пресеты от Анонов, где указана нужная разметка для нужной модели, а они с ней экспериментировали еще со времен первых Лам и GPT3.5turbo
Аноним 11/04/26 Суб 02:30:01 #489 №1582498 
>>1582497
Бля прекрати, я уже задыхаться начинаю. Кто там с чем экспериментировал? Не было там ничего кроме инструкт разметки, которую можно скопировать с терминала инференса. Короче, вспоминай что да как, но завязывай с такими постами.
Аноним 11/04/26 Суб 02:39:00 #490 №1582501 
>>1582498
>кроме инструкт разметки, которую можно скопировать с терминала инференса
Я кобольд-самоучка с нехваткой времени на ресерч, пришел слишком поздно, что бы понять, слишком рано что бы все успеть. Я что бы разобраться как в апи лламыцпп и кобольда закидывать свои реквесты и за что какое поле таверны отвечает, писал самописный прокси между таверной и хостом модели, а потом жизнь кинула в соевый чат-комплишн, агентов (бесполезных) и прочее корпоговно "не для души".
То что олды постигали как азбуку, а нюфаги, увидев краем и поморщившись, убежали в аицг - я просрал, пытаясь собрать йоба инференс-машину на Epyc, а потом дела дела дела навалило.
Аноним 11/04/26 Суб 02:40:30 #491 №1582503 
>>1582501
Не так все сложно и страшно, как ты это рисуешь. Не душни, освоишься со временем. 24гб видеопамяти мечта многих, у тебя немало возможностей.
Аноним 11/04/26 Суб 02:44:14 #492 №1582506 
>>1582503
Мое кум-Я пало под натиском "меньше 100b нет жизни" и я думал в первую очередь как железа собрать, хотел уже брать ddr4 интуль 4х канальный и на него 128гб RAM, но в моменте пожадничал, а потом ОЗУ выросла и я просто забил на нейронки, ударившись в бытовуху.
Потом вот новости читаю - турбоквант, квен3,6, гемма 4... Думаю ну пора и 3090 снова раскочегарить...

Ладно, не буду срать шизосознанием, прошу прощения.
Аноним 11/04/26 Суб 02:54:39 #493 №1582513 
Как миксить персонажей в одной карточке?
Типа, {{char}} то только один
Если напишу чар и опишу тян, потом ещё раз чар и вторую тян, они просто миксоваться будут, не?
Аноним 11/04/26 Суб 02:59:45 #494 №1582515 
>>1582513
Либо каким нибудь маркдауном ##Анон_1
Либо <char_anon>, либо просто цифрами. Современные нейронки прекрасно распознают текст в карточке. Всё что тебе нужно это просто сделать структурно, чтобы
>персонаж_1
>всё о персонаже
>Персонаж_2

На крайний случай сделай якорь для нейронки в виде: Char это оргия состоящая из трех анонов и дракона трансформерам с хуищем.
Аноним 11/04/26 Суб 03:56:49 #495 №1582533 
Слушайте. В плотной гемме ризонинг от определенного количества контекста что ли врубается? Я не понимаю 1 сообщение в чате без ризонинга, второе тоже. С третьего всегда появляется.
Что за ебучая магия. Вроде в логе всё нормально.
Аноним 11/04/26 Суб 04:01:17 #496 №1582534 
Ого! Вы обновили шапку! Я заходил посмотреть с 99% уверенностью что увижу там коммандер 1999го года и QwQ как новинку месяца.
Уважение.
Аноним 11/04/26 Суб 05:22:33 #497 №1582539 
>>1582533
Проверь наличие <|think|> в системном промпте. Её можно прпосить думать от лица юзера, но этот токен прямо действительно заставляет её, если системном промпте. она к нему очень чувствитеьна.

>>1582513
"эта карточка содержит множество персонажей. можешь отвечать одним, или множеством в зависимости от ситуации в любом порядке. рассматривай их как отдельных сущностей бла бла бла" + перечисление персонажей
Аноним 11/04/26 Суб 05:32:50 #498 №1582542 
>>1582539
>Проверь наличие <|think|> в системном промпте. Её можно попросить думать от лица юзера, но этот токен прямо действительно заставляет её, если системном промпте. она к нему очень чувствительна.
Короче, что то поломано. То ли таверна, то ли квант, то ли жора. Потому что после очистки чата и по новой, всё работает. Потом опять чистишь, опять не появляется.
Аноним 11/04/26 Суб 05:50:57 #499 №1582550 
>>1582398
Не говори так, братик!

У меня гемма как раз так и пишет: Я ХОЧУ, ЧТОБЫ ТЫ ВЫЕБАЛ МЕНЯ В ПИЗДУ. ВИДИШЬ, КАКАЯ ОНА ВСЯ МОКРАЯ?

ДА! ДА! ДОЛБИ ГЛУБЖЕ В МОЮ МАТОЧКУ! ОБРЮХАТЬ МЕНЯ! ЗАСТАВЬ МЕНЯ ВЫКРИКИВАТЬ МОЁ ИМЯ! ДА!

ТЯЖЁЛЫЕ ЯЙЦА СТУЧАТ ПО ЕЁ УЗКОЙ ПИСЕЧКЕ. ЕЁ ЯЗЫЧОК ВЫВАЛИВАЕТСЯ, ЛИЦО СОВСЕМ РАСКРАСНЕЛОСЬ, ОТТЕНОК НАЧАЛ ПЕРЕХОДИТЬ В ФИОЛЕТОВЫЙ ОТ ХВАТА ТВОЕЙ МОГУЧЕЙ РУКИ НА ЕЁ ТОНЕНЬКОЙ ШЕЙКЕ.
ПЕРЕКАТ Аноним OP 11/04/26 Суб 06:12:37 #500 №1582561 
ПЕРЕКАТ

>>1582560 (OP)

ПЕРЕКАТ

>>1582560 (OP)

ПЕРЕКАТ

>>1582560 (OP)
comments powered by Disqus