Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №208 /llama/

Аноним 27/03/26 Птн 09:38:37 #1 №1564094

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 5.png

17695114240581.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1560242 (OP)
>>1556634 (OP)

Аноним 27/03/26 Птн 09:39:34 #2 №1564101

Резервирую для будущих целей чтобы базой не засрали.

Аноним 27/03/26 Птн 09:39:42 #3 №1564102

>>1564091 →
Встаньте на раздачу, котаны, очень надо

Аноним 27/03/26 Птн 09:44:12 #4 №1564105

>>1564101
Это База

Аноним 27/03/26 Птн 09:52:37 #5 №1564113

>>1564102
дхт включи что-ли. я просто добавил магнет и даже не добавлял урл трекера, все подцепилось сразу, 10 сидов и 40 пиров.

Аноним 27/03/26 Птн 09:57:57 #6 №1564116

Так и на какой модели кумить-то нормально простому анону с 16gb vram?

Аноним 27/03/26 Птн 10:00:03 #7 №1564120

>обхватил персонаж_нейм за талию и положил голову на ей плечо
>персонаж - маленького роста
>квен: её ноги оторвались от земли

Аааа! Вот сючок, всё понимает! Я думал, что он меня шринкнет до её роста, но нет, он её поднял. Мегахарош!

Аноним 27/03/26 Птн 10:01:15 #8 №1564122

>>1564015 →
У меня появилась идея

в принципе, часть штук решается при помощи этого расширения

https://github.com/cierru/st-stepped-thinking

там по сути пошаговое мышление и туда можно добавить шаги с промптом на расчет сцены и прочего.

Можно впринципе переработать расширение как раз не на мышление а на обсчет дополнительных блоков и когда вызывать - до генерации или после.

Будет огонь, наверное.

Аноним 27/03/26 Птн 10:02:03 #9 №1564123

Так что по новому мистралю который 119б?

Аноним 27/03/26 Птн 10:04:35 #10 №1564124

Походу в ближайшее время мы не сможем запустить в лламе кванты gpt oss 88 от нвидии. Там говорят кастомные костыли нужны для её поддержки.

Аноним 27/03/26 Птн 10:05:04 #11 №1564125

>>1564116
смотря для какого кума.
Я кумлю на своих 16гб врам рп чисто на русском:

Qwen3.5-27B-Animus-V13.0-IQ4_XS.gguf
mradermacher_Q3.5-BlueStar-v2-27B-IQ4_XS.gguf
mradermacher_Qwen3.5-27B-HERETIC-Polaris-Advanced-Thinking-Alpha-uncensored.IQ4_XS.gguf
Qwen3.5-27B-Writer-IQ4_XS.gguf
* ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf

Если англюсик - то выбор больше конечно

Аноним 27/03/26 Птн 10:05:51 #12 №1564127

>>1564124
то то я гуфов не вижу

Аноним 27/03/26 Птн 10:05:59 #13 №1564128

>>1564113
Я наоборот его выключил и загрузка пошла. Пиздец нанотехнолаги
Спасибо российскому антошке, что раздаёт. Атдушы, брат

Аноним 27/03/26 Птн 10:06:03 #14 №1564129

image.png

>>1564125
>ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf

Эм?

Аноним 27/03/26 Птн 10:06:07 #15 №1564130

>>1564116
Оперативы то сколько, кумер?
Так то, с 16гб можно: glm air, Qwen 235, Qwen27b, qwen 122b, с очень большой натяжкой но glm 4.7, Step3.5, minimax 2.5(сомнительно ибо оче сильная цензура), мистрали. И каждой модели свое количество оперативы. Но все это до 128гб залазит со свистом.

>>1564123
Мне не понравилась прям совсем. Пишет мало, пишет плохо. Глупая.
В общем обосрались мистральки и очень сильно. Так что или ждем мифический медиум или чуда от тюнеров.

Аноним 27/03/26 Птн 10:07:52 #16 №1564131

>>1564130
>Оперативы то сколько, кумер?
32гб, готовые быть заполнеными кумом до краёв. Мне важнее отсутствие цензуры в модели, а то они все инвалиды какие-то в этом плане.

Аноним 27/03/26 Птн 10:08:18 #17 №1564133

>>1564129
ты неправильно его готовишь. даже кум машины в ассистенте будут говно выдавать. в таверне гигачад охуенно пишет, ему главное карточку на русском сделать

Аноним 27/03/26 Птн 10:08:35 #18 №1564135

>>1564120
Блять, да как вы умудряетесь? У меня даже Серафина по несколько раз меняет цвет платья, путается в руках/ногах и выходит в несуществующие двери

Аноним 27/03/26 Птн 10:09:14 #19 №1564136

>>1564127
Там один чел сделал, на форке лламы, но у него там только фул пресижн веса

Аноним 27/03/26 Птн 10:10:23 #20 №1564138

>>1564133
Так я локально хочу запускать. Дай итоговый промпт для гигичада, попробую с ним.

Но пока впечатление, будто это самая зацензуренная модель.

Аноним 27/03/26 Птн 10:12:52 #21 №1564139

>>1564135
>Блять, да как вы умудряетесь?
Просто используй модели не менее 358B.

Аноним 27/03/26 Птн 10:12:56 #22 №1564140

>>1564131
Ну тогда у тебя остается 27b. Потому что для всяких моешек надо бы от 64гб.
Вот эта быстрая рука шарит за эту модельку. Я могу только за среднемоэшки помочь. >>1564125

Аноним 27/03/26 Птн 10:16:44 #23 №1564143

А куда делись все адепты glm?
Раньше как не зайду в тренд glm air, glm air.
А сейчас вообще никто не вспоминает.
Квен лучше оказался?

Аноним 27/03/26 Птн 10:17:51 #24 №1564145

>>1564143
Я перегорел слегонца, плюс пятый вышел в слишком большом размере. А так мой член моё сердечко всё ещё с 4,7.

Аноним 27/03/26 Птн 10:18:23 #25 №1564146

>>1564145
А флэш - совсем хуйня?

Аноним 27/03/26 Птн 10:19:36 #26 №1564147

>>1564143
Air попадал в сетап 16+64. Ну и тут в треде бегает шиз попрошайка, что срал эйром.
А так вышли модели больше и лучше. Что залетают в 16+128 и особенно в 24+128. Ну и квен свежий, и что главное: квены всегда умели писать, просо делают это очень специфично.

Аноним 27/03/26 Птн 10:20:14 #27 №1564148

>>1564143
Air всё ещё лучший вариант для рп вплоть до 355б, потом это 4.7. Но какой смысл продолжать об этом писать? Под каждым постом про Квен срачи разводить что ли?

Аноним 27/03/26 Птн 10:30:27 #28 №1564152

Бля, дайте пример итогового промта от таверны, чтобы я мог его в lm studio вогнать. Чатгпт отказывается показывать скрытые техники обезцензуривания.

Аноним 27/03/26 Птн 10:34:23 #29 №1564156

>>1564152
Посмотри в шапке соседнего болота. Которое ацыг. Там должны быть.

Аноним 27/03/26 Птн 10:38:07 #30 №1564157

Какой пресет, сиспромпт и сэмплеры нужны гигачату?

Аноним 27/03/26 Птн 10:38:26 #31 №1564158

>>1564156
>ацыг
Что это, блять?

Аноним 27/03/26 Птн 10:39:35 #32 №1564160

>>1564135
Это нормально. Не забывай, что без финкинга модель генерит слова, а не обдумывает их. Если ты гоняешь мелкомодельку то нечему удивляться.
>>1564125
>XS
But why?

Аноним 27/03/26 Птн 10:42:06 #33 №1564162

В общем, потихоньку издеваюсь на гигачатом. В целом, разделяю мнение, что цензура там ебейшая.
Abliteratus, heretic - не сработали. Первый вообще не запустился на их архитектуре, второй запустился, но не нашел ни паттернов отказа, ни самих отказов.

Но вот самостоятельно получилось найти слой, на котором рефьюзал срабатывает и применить примитивный steering. И действительно он начал отвечать на промпты, в которых раньше уходил в отказ.

Но это конечно все примитивная хуйня по советам нейрокомрадов. Есть ли ещё нормальные тулзы для обесцензурирования?

Аноним 27/03/26 Птн 10:42:55 #34 №1564163

>>1564158
Тред чатоделов или что то там. Acig.

Аноним 27/03/26 Птн 10:43:07 #35 №1564164

>>1564152
> пример итогового промта от таверны, чтобы я мог его в lm studio вогнать
> Чатгпт
> скрытые техники обезцензуривания.
Мне аж поплохело. Даже и не знаю с чего тут начать. Например, прекрати использовать LM Studio хотя бы в качестве фронтенда. Там у тебя даже нет Text Completion, на котором все сидят в этом треде. А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда, если нужен интерфейс. И нет никаких скрытых анонимно срать в подъезде техник обесцензуривания, не существует их. Не спеши никуда и разбирайся по-тихоньку. На Text Completion со сколь-нибудь адекватным промптом и сэмплерами результат уже будет лучше того что у тебя есть.

>>1564162
> В целом, разделяю мнение, что цензура там ебейшая.
Это модель, товарищем майором через одно-два рукопожатия. Чего вы ждали?

Аноним 27/03/26 Птн 10:48:46 #36 №1564166

>>1564164
>Там у тебя даже нет Text Completion, на котором все сидят в этом треде. А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда, если нужен интерфейс. И нет никаких скрытых анонимно срать в подъезде техник обесцензуривания, не существует их. Не спеши никуда и разбирайся по-тихоньку. На Text Completion со сколь-нибудь адекватным промптом и сэмплерами результат уже будет лучше того что у тебя есть.
Блять, как же сложно, нихуя не понимаю.

Аноним 27/03/26 Птн 10:52:50 #37 №1564168

>>1564166
Был там, знаю, потому и говорю: не спеши никуда и разбирайся по-тихоньку. Поставь для начала Кобольда и/или Таверну. LM Studio тебе только палки в колеса вставлять будет. В шапке инфа есть, пусть и устаревшая чуть, но актуальная. Но и на Ютубе есть часовые видосы по Кобольду, даже на русском.

Аноним 27/03/26 Птн 11:02:30 #38 №1564174

>>1564164
Ну хуй знает, вроде гигачат про еблю пишет, главное надо ему насрать в голову контекстом чтобы в отказ не ушел.

Я использую джейлбрейк промпт, но кажется он работает на уровне плацебо, но иногда помогает продавить некоторые отказы если контекст еще маленький

>>1564157
Я квеновский использую, вроде норм

[GigaChat-10b-a1.8b]
model = ai-sage_GigaChat3.1-10B-A1.8B-q8_0.gguf
chat-template-file=template_gigachat3.1.jinja2
no-mmap=1
ctx-size=10000
ngl=999
temp=0.7
min-p=0.05
top-p=0.95
top-k=20
batch-size=1024
ubatch-size=1024
flash-attn=1
no-context-shift=1
parallel=1
ctx-checkpoints=128
swa-full=on
chat-template-kwargs = {"enable_thinking": false}

>>1564166
Я пытался использовать текст комплишен но как то криво работает. пока вернулся на чат комплишен, там надо только шаблоны пропатчить немного и все.

Аноним 27/03/26 Птн 11:03:01 #39 №1564175

>>1564160
К_М уже не лезет в 16 врам

Аноним 27/03/26 Птн 11:05:50 #40 №1564177

Для геммы3 abliterated rpo - лучший выбор? Синтия зацензурена как и оригинал. Зачем она вообще в рекомендации?

Аноним 27/03/26 Птн 11:07:49 #41 №1564179

>>1564175
Представь как мне на 8врам. И у меня q6 минимум. Q4 - это говнище доя рп.

Аноним 27/03/26 Птн 11:09:08 #42 №1564181

>>1564166
> Блять, как же сложно, нихуя не понимаю.
Все нормально, анон. Все мы там были, сейчас попробую рассказать:
Есть два путя: чат компликшн и текст компикшн.
Это форматы общения с моделью.
В режиме чат- модель работает со своей разметкой, с понятными для неё ролями. По сути как корпы через апи.
В режиме текста- ты просто подаешь на модель блок текста. Но! Тут то и собака зарыта, ты можешь управлять простом и системными подсказками, включая формат выдачи. Проще говоря, вот эти все чатмл что в треде всплывают, вот это оно и есть. Это формат разметки в котором ты объясняешь структуру чата модельки.
Ты спросишь, а нахуя ебаться с промтами, если можно использовать чат комплишн. Потому что в таком случае ты будешь возбуждать ассистента трогая его за разные места. А с ассистентом никакого РП не будет.

В общем переходи на таверну. Она конечно говно, но все остальные фронты говно еще большее.

Аноним 27/03/26 Птн 11:11:20 #43 №1564183

>>1564179
Я не готов ждать 1-3 токена в секунду, я целиком заталкиваю плотненький квен в видеокарту. мне сейчас и 20 т/с уже кажется мало.
А для мое можно и побольше квантизацию использовать

Аноним 27/03/26 Птн 11:12:18 #44 №1564184

>>1564181
Чой та не будет? Скармливаешь карточку, и он этот образ отыгрывает.

Аноним 27/03/26 Птн 11:13:22 #45 №1564186

>>1564183
Но там же не текст, а срань господня. Еще и лупится постоянно.

Аноним 27/03/26 Птн 11:15:06 #46 №1564188

>>1564184
Да в пизду этого ассистента. Вместо ебли с промтами, ебешься с его аполоджайсами.
Я так и не нашел применения чаткомплишена в РП. Если как агента для макакакодинга то базару нет, идеально.

Аноним 27/03/26 Птн 11:21:51 #47 №1564194

>>1564188
Что за чатеомплишен? Я про лмстудио. Норм она рп делает

Аноним 27/03/26 Птн 11:27:03 #48 №1564198

>>1564138
Смотри разметку, скорее всего там насрано. У них там своя разметка ещё и с двойным системным промтом. Если ты через чат коплишн сидишь, то там нужно джинжу менять, так как таверна не может менять дев блок, а в нём паста смерти.

Аноним 27/03/26 Птн 11:28:36 #49 №1564200

>>1564194
Таверну ставь, ебаквак.

Аноним 27/03/26 Птн 11:28:43 #50 №1564201

>>1564179
У меня 10 врам, тоже ем слоп через раз (

Аноним 27/03/26 Птн 11:30:54 #51 №1564204

>>1564200
И чем она лучше? Мне аватары не нужны.

Аноним 27/03/26 Птн 11:36:52 #52 №1564209

>>1564204
Ну тогда ебись сам с лм студио. Все очень просто.
Она нахуй тут никому в треде не сдалась, кроме пары ленивых анонов, что её как менеджер закачек используют.

Аноним 27/03/26 Птн 11:45:53 #53 №1564214

>>1564181
Т.е. в текст комплишене модель из промпта и диалога пытается понять структуру с продолжить диалог?

А в чат комплишене - роли прибиты гвоздями?

Правильно понял?
И что из этого тогда в jinja файле?

мимо, тоже нубас

Аноним 27/03/26 Птн 11:47:24 #54 №1564215

1774601223922124.jpg

Давно тут не был.
Какие модели сейчас лучшие по размер=качество?
Кое как впихнул квена 3.5 27б опус 4.6 эдищон на своб 3050 6гб ноутбучную, и 16гб рам.
Скрепя зубами, выдавая 2-3 токена, но работает.
И тем не менее, ебал на такой скорости сидеть. Жаль гуглы не выпустили новые гемы. Лучшие в своём размере были.

Аноним 27/03/26 Птн 11:48:30 #55 №1564216

>>1564214
Jinja это шаблон который рендерится с данными из запроса и идёт текст комплишен.
Вызывая сразу текст комплишен идёт байпас рендера жинжи.
В джиндже можно нахуевертить что угодно + мультимодальность есть

мимо

Аноним 27/03/26 Птн 11:51:55 #56 №1564217

>>1564215
смотри в сторону мое.
последний гигачат в твою нишу вполне хорошо залетает,
https://huggingface.co/ai-sage/GigaChat3.1-10B-A1.8B-GGUF

еще теоретически можно посмотреть мелкоквены уровня 4b-9b но скорее всего только на англюсике. есть файнтюны мелкоквенов для рп

Аноним 27/03/26 Птн 11:52:15 #57 №1564218

>>1564204
В LM Studio у тебя меньше возможностей. Если бы тебе было не похуй, мог бы и в шапке прочитать и получить ответы на большинство своих вопросов. Тебе даже вежливо дали понять куда двигаться, но не хочешь слушать - да и иди нахуй.

Аноним 27/03/26 Птн 11:53:28 #58 №1564219

>>1564164
>А лучше от этого поделя отказаться полностью, в пользу llamacpp или Кобольда
Это и есть llamaccp к апи которого спокойно подключается таверна, хоть в режиме чата хоть текста (в таверне похуй как я понял)
Фронтенд используется для управлениями настройками, обновлениями, менеджментом/скачкой моделей этц, и имхо в нём это сделано лучше аналогов

Ассистент в самом ЛМе неплох в режиме "набросай мне карточку/сценарий/профиль персонажа". Офигенно работает это всё, но по картинке/кам. Можешь хоть тупо десяток страниц манги зарядить и квен зделоет, еще и на русском. Можешь сам продолжить подкидывать уточнения или вообще в любой момент селф инсертнутся. Попросишь нсфв в чем-то из этого - от души ебанёт не хуже рассказчика в таверне.

Если уже есть специализированная карточка то лучше таверна конечно

Аноним 27/03/26 Птн 11:58:20 #59 №1564221

>>1564214
Когда модельку выпускают к ней идет tokenizer_config.json
В ней и есть та самая жинжа. Там есть графа : chat_template
Разметка не появляется из воздуха, поэтому когда тут прибегают шизы с истинно правильной разметкой™ , и она отличается от того на чем обучали модель, то можешь смело бить нейродиком по их щекам.
Потом эту разметку запихивают в гуфовичка. Именно поэтому в лламе -jinja и работает.
Ну это если максимально просто.

Аноним 27/03/26 Птн 12:02:39 #60 №1564227

>>1564221
если быть точным, то в репо модели лежит файлик chat_template.jinja с жижей
https://huggingface.co/Qwen/Qwen3.5-27B/blob/main/chat_template.jinja

В этом же шаблоне кстати и используются проверки типа чтобы системный промпт не был в конце или несколько системных и тд. От этого лама иногда и падает. но можно и поправить шаблон если все равно хочется использовать чат комплишен в таверне (кстати, может падать не только в таверне, некоторые агенты тоже иногда хуйню шлют)

Аноним 27/03/26 Птн 12:06:16 #61 №1564230

>>1564204
Тем что таверна и кобольд чуть ли не единственный широко распространенные инструменты, которые дают возможность общаться напрямую с весами модели в text completion и строить свой собственный шаблон контекста, а не через jinja шаблон вшитый в модель. Дефолтные jinja шаблоны содержат в себе в самом начале контекста направляющие префиллы "You are LLM ass... by ... " . Включение думалки где надо и где не надо. Чередование диалога <ass><user><ass><user> (в результате чего модель может подыгрывать юзеру). Кроме того существует поверие, что при разном тегировании контекста (<|user|> или <|im_start|>) можно задействовать модель в "базовом" режиме - с меньшим учетом финального тренинга на безопасность/ассистентность. Ну ты конечно можешь трахаться с jinja - но боюсь "трахаться" тут будет только в философском смысле, потому что формат специфичный и без перезагрузки бэкенда не применяется.

Аноним 27/03/26 Птн 12:15:23 #62 №1564236

image.png

>>1564217
попробуй https://huggingface.co/Darkhn/Qwen3.5-9B-Animus-V13.0

Мне его старший Qwen3.5-27B-Animus-V13.0 (пик) очень нравится, хороший рп получается, младший в русский намного хуже умеет, но на англ наверное должно быть хорошо.

Аноним 27/03/26 Птн 12:17:18 #63 №1564239

IMG4976.jpeg

Подозрительно добрые аноны.
Не к добру это, не к добру.

Аноним 27/03/26 Птн 12:21:46 #64 №1564244

А по-моему наоборот, взяли и новичка забуллили на ровном месте
А он только-только научился в лм студио наряжать ассистента в кошкодевочку и пить с ним чаёк..

Аноним 27/03/26 Птн 12:50:32 #65 №1564253

>>1564221
Шизы свою разметку тоже не из воздуха берут - они смотрят в словарь токенов и видят "ага, а что это у нас в дополнение к [gMASK]<sop> и <|user|> еще и токены ChatML присутствуют - это "ж-ж-ж не спроста".

Аноним 27/03/26 Птн 12:58:59 #66 №1564259

>>1564253
Как же я хочу чтобы уже все пришли к единому формату, без этого пердолинга. Порой на жинжи без слёз не глянешь. Я так и не понял, что за хуйня в большом гичате.

> [gMASK]<sop>
Шмяк за жопку глм юзера.

Аноним 27/03/26 Птн 13:00:05 #67 №1564260

Чаб закрыли О_О ?_? С прошлого года наверно не заходил.

Хотя с актуальными моделями и шаблонами действительно проще попинать модельки скормив ей шаблон, а потом отредактировав нужное самостоятельно.

А если делать из какого устоявшегося сеттинга, то можно даже корпа с веб-поиском напрячь чтобы собрал инфу прошерстив вики.

Хотя некоторые, единичные, карточки были действительно хорошие.

Аноним 27/03/26 Птн 13:01:10 #68 №1564261

>>1564260
Работает. Вчера качал. Подрубай впн.

Аноним 27/03/26 Птн 13:10:35 #69 №1564267

>>1564177
>геммы3
- abliterated-dpo лучший "радостный-убийца-ес-мен"
- Синтия - жырухо-гемма, известна мужененавистничеством
- Синтвейв / сторителлер - мержи, работают хорошо, но потеряли актуальность после выхода abliterated-normpreserve

Аноним 27/03/26 Птн 13:15:23 #70 №1564272

image

>>1564230
А что там с джинджа? Что туда пихать надо? Первый раз про это слышу.

Я бахаю что нужно в систем промт и модель дальше сама отлично понимает, что от нее надо.

Аноним 27/03/26 Птн 13:17:53 #71 №1564273

>>1564272
не, в таверну жижу пихать не надо, это ламе в командной строке скармливать, кобольду наверно тоже можно, не пробовал

Аноним 27/03/26 Птн 13:27:36 #72 №1564279

>>1564146
Зачем жрать капусту, когда есть картошка?
Зачем сидеть на флеше, когда есть большеГЛМ? Не, серьёзно, даже не пробовал.

Аноним 27/03/26 Птн 13:27:49 #73 №1564280

>>1564272
У тебя минималистичный джинджа шаблон чат-мл. Который точно работать будет только на квенах. Можно напихать think no-think префиллы - да и по большому счету для РП больше ничего не нужно.

Аноним 27/03/26 Птн 13:28:07 #74 №1564281

https://www.dns-shop.ru/product/9ed2387b62bfd9cb/operativnaa-pamat-gskill-trident-z5-neo-rgb-f5-6000j3444f64gx2-tz5nr-128-gb/

170 тысяч котоны.
170 тысяч.

Аноним 27/03/26 Птн 13:30:43 #75 №1564285

>>1564281
Кто будет брать, не забудьте подсветку выдрать.

Аноним 27/03/26 Птн 13:31:17 #76 №1564286

>>1564272
Да блять. Нахуй тебе не нужна жинжа, если ты не понимаешь что это. Скорми её корпе и попроси объяснить структуру разметки.
Еще раз. Это готовый файл разметки. Его никуда пихать не надо, он уже есть.

Аноним 27/03/26 Птн 13:32:27 #77 №1564287

>>1564285
Я же это и сделал. Не напоминай.

Аноним 27/03/26 Птн 13:36:05 #78 №1564288

>>1564286
>дают возможность общаться напрямую с весами модели в text completion и строить свой собственный шаблон контекста
А что это дает то? Кроме разметки.

Аноним 27/03/26 Птн 13:36:34 #79 №1564290

>>1564281
Продам 64гб точно такой же за жалкие 65к купил 4 планки в конце года, а пека с ними не запускается, падла такая, только с 2

Аноним 27/03/26 Птн 13:41:38 #80 №1564292

>>1564290
На Авито продавай. Не тупи. На них гарантии по 300 месяцев идут. И память самый устойчивый элемент в пк к нагрузкам. Ей нихуя не будет.

>>1564288
Для тебя как для пользователя это дает возможность залазить ручками в разметку, чтобы был удобный для тебя формат чата. И самое главное, ты общаешься не через возбуждение ассистента. Анон об этом и писал, ты по сути напрямую с весами работаешь. Условно напрямую.
Тема какая, ассистент следует своим политикам безопасности. А нам это не надо, ебля лошадей и карточек как правило цензурируется.

Аноним 27/03/26 Птн 13:45:18 #81 №1564296

>>1564292
>Тема какая, ассистент следует своим политикам безопасности. А нам это не надо, ебля лошадей и карточек как правило цензурируется.
Не следует. У меня же модели без цензуры.

Аноним 27/03/26 Птн 13:46:35 #82 №1564299

>>1564292
> На Авито продавай.
Да я уже 2 месяца продаю. Кажется, там нет платежеспособной аудитории. Последний раз когда моя модель была в днс - цена была за 120к. А у меня за 65 не берут!
Сегодня полезу бивис обновлять, может они улучшили memory training и оно наконец заведётся с 4 планками.

Аноним 27/03/26 Птн 13:46:55 #83 №1564300

>>1564296
Желаю вам приятного рп с йес менами анон. Я в него не смог.

Аноним 27/03/26 Птн 13:48:04 #84 №1564302

>>1564299
Ты сейчас на консумерской матери пытаешься 4 плашки по 64гб запустить? Или я тебя не понял?

Аноним 27/03/26 Птн 13:48:36 #85 №1564303

>>1564300
>рп с йес менами анон
Чего????

Аноним 27/03/26 Птн 13:49:12 #86 №1564305

>>1564296
Ты похоже не очень умный, если игноришь весь тред, который пытается тебе помочь. Модель без цензуры, при этом просит джейлбрейки у чатагпт. Не лечится

Аноним 27/03/26 Птн 13:49:45 #87 №1564306

>>1564305
Это не я.

Аноним 27/03/26 Птн 13:49:51 #88 №1564307

>>1564302
Да!
x870e

Аноним 27/03/26 Птн 13:50:46 #89 №1564309

Опять ведутся на байты залётной зелени троллящей тупостью... надо карточку треда создать.

Аноним 27/03/26 Птн 13:50:49 #90 №1564310

>>1564302
А, не. Неправильно, 4 по 32. 2 комплекта по 64 т.е.

Аноним 27/03/26 Птн 14:07:07 #91 №1564313

>>1564272
Никуда не нужно пихать. Тебе нужно запустить llama.cpp или что там у тебя с поддержкой встроенного в gguf шаблона, для llama это флаг --jinja . Потом просто подключаешься в режиме Chat Completion.
>>1564288
Только контроль над разметкой. Можно префилами срать, можно менять разметку. Разметку меняют, чтобы получить от модели другое поведение, естествено модели от этого становится плохо, но выдача меняется, а им больше и не надо, они кумят а не бенчи запускают. Нужно ли тебе это, вопрос открытый.
Тут просто народ привык уже с текст комплишн сидеть, поэтому к чат комплишн предвзятое отношение. Для простого анаона достаточно чат комплишн. Алсо, на некоторых моделях текст компликшн работает только с костылями, например новые дипсики которые требуют чтобы старые ответы ассистента начинались с </think>. И обратно есть модели у которых проблемы при работе через чат комплишн, например гигачат, у которого есть дев промт который из таверны не изменить, а там, по умолчанию полотно шизы.

Аноним 27/03/26 Птн 14:17:35 #92 №1564319

image

Не запускается ваша таверна. Что делать то? Чего то опять этой херне не хватает? Это же хрекнь на яваскрипте? ААААА!!! А норм экзешник есть без этой херни? Вот лм студио установил и готово. Почему нормально сделать все нельзя?

Аноним 27/03/26 Птн 14:18:59 #93 №1564320

644783-celnometallicheskaya-obolochka-full-metal-jacket0.jpg

>>1564319
Рядовой ньюфагов. Ты вообще читал что а гитхабе таверны написано по установке, или рандомно тыкал?

Аноним 27/03/26 Птн 14:23:24 #94 №1564324

>>1564320
У меня гит уже установлен, яваскрипт тоже, а там написано - установи ка еще одно и то же, сделай из винды помойку! Нах мне это надо?

Аноним 27/03/26 Птн 14:26:36 #95 №1564326

>>1564319
Пользуйся лмстудио

Аноним 27/03/26 Птн 14:29:05 #96 №1564327

image

>>1564326
Нахер мне этим говном срать в системе КОГДА У МЕНЯ УЖЕ ЕСТЬ ЖАВА????????????????? Ебать какое блядское дермище кривое, помойка нахуй. Жрите из вашей поганой кривой помойки дальше.

Аноним 27/03/26 Птн 14:33:21 #97 №1564329

>>1564327
Тебе нормально ответили. Если лмстудио тебя устраивает то пользуйся. В тред можешь хоть 100 постов наводнять, ничего не измениться, платного саппорта нет. Хочешь экзешник? Сделай его и закоммить в опенсорс

Аноним 27/03/26 Птн 14:34:16 #98 №1564330

>>1564327
Ебать ты кобольд
(да, это намёк, кобольду ставить ничего лишнего не надо)

Аноним 27/03/26 Птн 14:37:53 #99 №1564337

image

>>1564329
Так мне что, это удалить надо? У меня тогда Jdownloader сломается. Там не будет ХАОСА?

Аноним 27/03/26 Птн 14:47:04 #100 №1564351

>>1564337
Это же не рокет саенс, спроси у дикпика, прочитай ридми. Там все написано настолько подробно, чтобы любой человек с 0.7b в голове справился

Аноним 27/03/26 Птн 14:48:26 #101 №1564352

>>1564351
А где путь модели прописывать? Нажо еще какую то срань апи устанавливать? Пиздец...

Аноним 27/03/26 Птн 14:49:33 #102 №1564354

>>1564337
Это рофл? Java != Javascript

Аноним 27/03/26 Птн 14:51:22 #103 №1564357

image

>>1564351
О, нашел. Ну щас через лмстудио скормлю значит.

Аноним 27/03/26 Птн 14:59:56 #104 №1564366

Просто пиздец. Скачал для теста тюн квена 27б от редиарт и столкнулся с тотальным количеством отказов. Затем скачал их тюн, полирнутый еретиком, и ВНЕЗАПНО отказы прекратились, НО модель МАКСИМАЛЬНО, ЛЮБЫМИ ВОЗМОЖНЫМИ СПОСОБАМИ сворачивала с тропы CSAM, чего не делал обычный квен + еретик (а аблитерация по какой-то причине тоже съезжала/описывала хуёво).

Что ещё интересно, тюн редиарта в ризонинге не так увиливает сильно, но всё равно это делает. Да и ризонинг там сломан, оригинальные настройки для квена работают неадекватно, короче, пиздец по всем аспектам. Пришлось семплеры на глаз подбирать. И всё равно цепочка рассуждений может быть чрезвычайно неадекватной, не работать или уходить в луп или бесконечный спам рандомными словами.

Даже в тестах для любителей старого изюма (чтобы не было отказов 100%), он сух как пизда моей бывшей.

И это кум-тюн? Это говно какое-то!

Мистраль 3.2 по сравнению с этим из коробки гипер секс и даже нормпресерв гемма.

Какие же они ебаные говноделы. В рот их ебал.

Аноним 27/03/26 Птн 15:02:25 #105 №1564369

image

О, работает моя няша. А миры с лором где можно надыбать? Или сам ии может написать в принципе и вставить в описание мира?

Аноним 27/03/26 Птн 15:02:46 #106 №1564370

>>1564366
Предыдущие тюны ReadyArt делал sleepdeprived, который из-за проблем со здоровьем отвалился с файнтюнинга или из жизни, увы
Сейчас делает другой чувак, который в этом ничего не понимает, это его самый первый тюн. Также мало кто еще пока понял, как в целом тюнить Квены 27б, только три человека
>Какие же они ебаные говноделы. В рот их ебал.
Напоминаю, что денег они с тебя не взяли и в будущем могут сделать хорошее. Ты там выдохни, вытащи член из жопы, погуляй

Аноним 27/03/26 Птн 15:15:35 #107 №1564386

>>1564369
лорбуки с чаба, можно саму написать прям в таверне, если инфы немного проще в саму карточку

Аноним 27/03/26 Птн 15:17:04 #108 №1564388

>>1564143
Эйр был хорош для всего времени. Можно проводить с почестями или оставить на отдельные сценарии где он прямо нравится. Конечно квен лучше по осведомленности, соображалке и работе на контекстах.
>>1564123
Да норм он, няшечка вполне, сохраняет фишки прошлых мистралей и лучше работает на крупных контекстах. Но хз починили ли наконец его в жоре ибо была неюзабельная скорость.

Аноним 27/03/26 Птн 15:19:06 #109 №1564390

Че, тут все поигрались с гигачатом новым? Видел, там батруха кванты нормальные залил.
Кстати, какого хуя все жмут attention?

Аноним 27/03/26 Птн 15:22:05 #110 №1564392

>>1564162
> не нашел ни паттернов отказа, ни самих отказов
Это очень странно, скорее всего они просто не работают нормально. Есть возможность запустить крупную модель или доступ к корпам? Есть шанс что ллмка таки распердолит и адаптирует под архитектуру, тем более что там изменений совсем немного надо. Готовых тулзов нет они не то чтобы нужно ибо обычно легко внести правки под себя в заготовках, или собрать из этого. Задачи и шаблоны меняются быстрее чем ты будешь это готовить, потому и смысла нет универсализировать и прибивать для нормисов.
>>1564285
Сука, каждый раз как в первый
>>1564390
> Кстати, какого хуя все жмут attention?
Кто все? Его наоборот лучше не трогать вообще, или хотябы ставить максимальную битность.

Аноним 27/03/26 Птн 15:24:44 #111 №1564394

>>1564370
При этом с блю старом нормально всё было, хотя, если не ошибаюсь, это тоже чуть ли не первый тюн у того чела. Конечно, у блю стара есть тонна недостатков, но он хотя бы пригоден для использования в определённых сценариях и предоставляет новый опыт, а шлак от реди арт вообще ни для чего непригоден. Их слоп для мистраля был тоже ужасен, но ещё туда-сюда, просто на любителя а это просто провал.

Да и врайтер рабочий. Даже крайне сомнительные эксперименты Давида, для корректной работы которых нужно два часа пыхтеть, чтобы модель не развалилась.

Так что не надо говорить, что его никто тюнить не умеет. Редиарт просто в своём репертуаре.

Ты бы лучше привык называть говно говном, а не защищать мусор лишь из-за того, что он бесплатный.

И да, я заношу по мере финансовых возможностей тем, кто делает, но делает хорошо. Зачем платить за треш? Чтобы его больше стало? Вот как сделают хорошее, тогда пусть приходят.

Аноним 27/03/26 Птн 15:30:41 #112 №1564401

>>1564394
По блюстару двачую, очень внезапная годнота оказалась, хоть вторая версия чуть хуже, имхо.

Аноним 27/03/26 Птн 15:31:11 #113 №1564403

>>1564394
>с блю старом нормально всё было, хотя, если не ошибаюсь, это тоже чуть ли не первый тюн у того чела
Зерофата уже почти год делает разные тюны. Он ещё на Лламе 3.3 вкатился
>Их слоп для мистраля был тоже ужасен
Были хорошие для своих целей модели. Для хоррора и контролируемого треша альтернатив не было, на этом эти тюны и специализировались, это никогда не скрывалось
>Так что не надо говорить, что его никто тюнить не умеет
Ты это придумал, я говорил, что умеют три человека его на данный момент тюнить: Coniccat с его Writer, Zerofata с его Bluestar и автор Animus
>Ты бы лучше привык называть говно говном, а не защищать мусор лишь из-за того, что он бесплатный.
Лишь призвал не гореть из-за того, что у чела не удался его первый тюн кто бы мог подумать
>Зачем платить за треш? Вот как сделают хорошее, тогда пусть приходят.
Тяжело быть тем, кому все должны. Всех вокруг также вахтеришь и решаешь, кому как жить и что делать?

Аноним 27/03/26 Птн 15:44:31 #114 №1564408

А как увидеть количество затраченных токенов в таверне?

Аноним 27/03/26 Птн 15:50:02 #115 №1564413

>>1564215
>>1564217
>>1564236
Спасибо. Крч после тестов определил для себя лучшего. Это квен на 9б опус 4.6. Квант 5.
Выдает ~22 токена. Руссик вроде нормальный.

Аноним 27/03/26 Птн 15:56:26 #116 №1564418

>>1564408
Нашел.

Аноним 27/03/26 Птн 15:57:16 #117 №1564419

>>1564310
>4 по 32
>DDR5
Больной ублюдок.
А за 60к ты 2х32 хуй продашь. Ведь я недавно за 15 такое продавал знаю, что долбоёб и надо было придержать. На лохито и прочих барахолках обитает нищий люд и сражается за огрызки по минимальному прайсу, им твоя жорого-богато-топ-жир память ни к чему.

Аноним 27/03/26 Птн 16:09:51 #118 №1564427

>>1564403
Я с зерофатой там другого чувака перепутал, да, глянул.

У редиарт вообще не было хороших тюнов в прямом смысле (для примера, денс персоналити второй версии был и в куме хорош, и лишь каплю уступал в сочности всяким брокен туту). Ну, чисто кумерские, как магнум почти. Сойдёт, особенно для своего времени и для таких размеров, то есть заняли нишу кум-тюнов на 24б и в целом было нормально. А вот по хоррору они уступали моделям Давида сильно и у них отказы возникали постоянно на них.

Мне вообще непонятно, как можно в команду набирать, уже имея какую-никакую репутацию и узнаваемость, того, у кого этот тюн реально первый, плюс жечь на это деньги. Я об этом до твоего поста не знал, что вызывает ещё большее удивление. Такой подбор кадров.

Но самая страшная проблема даже не в том, что тюн сломан в прямом смысле, а в огромном уровне сои и ужасной прозе, игнорированием инструкций. Складывается впечатление, что заправили модель ещё более соевым датасетом, чем был в оригинале. Ну а уж если забыть про полировку еретиком, то тюн теряет какой бы то ни было смысл. То есть обосрамс уже на уровне датасета произошел.

Так что гореть вполне нормально, когда ожидаешь родной и привычный непослушный слоп в стиле реди арт (или внезапный бриллиант, мало ли), но с каплей мозгов квена, а получаешь нечто, что даже охарактеризовать сложно. Настолько он плох.

Вообще не понял, причём здесь вахтерство. Я что, говорю, чтобы никто в треде это не качал, долго, систематически, отслеживая каждый пост и вставляя своё мнение из треда в тред, если кто-то не дай бог упомянет реди арт с этим квеном? Он совсем недавно вышел, я заценил и отписался.

>>1564215
Посмотри в сторону 30b-a3b квена оригинального. Как вариант, можно ещё 35b-a3b рассмотреть от того же квена. Но вот в кум он хуже может, да и в рп уступает 30b-a3b, зато в целом умнее и лучше держит сцену.

Тебе ещё тут гигачат посоветовали, и он реально хорош в своих размерах, но его может быть сложновато для тебя настроить без jinja. Ну и он слишком тупой. Сгодится только подрочить на русском с вайбом, на вменяемое рп уже не тянет.

>>1564236
Какая у тебя температура была использована для этого скрина?

Аноним 27/03/26 Птн 16:24:21 #119 №1564438

>>1564427
>как можно в команду набирать, уже имея какую-никакую репутацию и узнаваемость
>Такой подбор кадров.
Да какое там, ты преувеличиваешь. Это изначально три чувака, которые собрались по приколу и интересам, как почти все в тюнах. Известность там на уровне гаражной тусовки

Аноним 27/03/26 Птн 16:26:23 #120 №1564440

1774617545241100.mp4

>>1564427
>30b-a3b
>35b-a3b
Не влезет. 27б еле запустилась с парой токенов. А ниже кванта 4 это пиздец лоботомиты. Ладно, пойду в свой загончик аисг, кумить на корпо-опусе/гемини.
Кум всерьез не рассматриваю на лоКалках. Нужно иметь десятки врам минимум для чего-то нормально. Так, побаловался прост.

Аноним 27/03/26 Птн 16:31:00 #121 №1564443

>>1564440
>>30b-a3b
>>35b-a3b
Это моета же, она даже на процессоре норм, разве что в рп говно.
А покумить-покекать можно.

Аноним 27/03/26 Птн 16:34:12 #122 №1564446

Меня одного до сих пор трясет от всяких тюнов/докрутов/расцензуров моделей? Не знаю, может у меня предвзятое отношение осталось по привычке, со времен когда в день на ту же мистраль по 20 кум-слоп файнтюнов выходило, но меня прям отвращает идея гонять что-то неоригинальное, что не выпускал сам разработчик.

Постоянно такая хуйня - ставлю новую модель, она не работает как надо, и вместо того чтобы сэкономить время и скачать тюн/аблитерацию я пытаюсь развязать ее промтами. При том что даже сами промты нормально писать я не умею и либо это время тратится впустую, либо выходит полотно на 4к токенов где прописано всё от формата ответов до того какими прилагательными нужно описывать мокрый писик.

Аноним 27/03/26 Птн 16:57:08 #123 №1564467

>>1564446
Меня наоборот трясет от того, что тюнов слишком дохуя, и я не могу попробовать их всех, чтобы найти одну единственную ту самую жемчужину.

Аноним 27/03/26 Птн 16:57:11 #124 №1564468

>>1564446
В целом да, тюны смысла не имеют. Они обязательно бьют по мозгам оригинала, вопрос лишь в какой степени. Но иногда это необходимое зло, как в случае с Квенами3.5 или Немотронами, что старыми, что новым. Ты можешь их заставить все, что угодно, но вжаренный байас никуда не денешь. У Немотрона вообще ассистент прямо во время рп вылезает, задавая всякие уточняющие вопросы или заканчивая в духе "Главное, чтобы все были в безопасности и комфорте", почти ломая четвертую стену. Это невозможно законтрить промптом. Модельки хорошие, потому если их докрутить до пригодного для рп использования и не слишком убить мозги - это хорошо.

Аноним 27/03/26 Птн 16:57:42 #125 №1564469

Ты можешь их заставить вывести*

Аноним 27/03/26 Птн 17:06:11 #126 №1564473

>>1564468
Когда тюнов было много, это было неудобно из-за их количества, но среди них были и хорошие. Сейчас же в основном плохие или специфические, мало мастеров на все руки.

А вот без аблитерации или еретика вообще никак, при том, что еретик почти ничего не ломает. Это абсолютная необходимость, так как сефти-параша вообще чуть ли не в каждой интересной модели, убивающая градус в нужные моменты даже вне кум-сцен.

Если будешь использовать стандартные модели, то тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"

Аноним 27/03/26 Птн 17:11:34 #127 №1564477

>>1564473
> Если будешь использовать стандартные модели, то тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"
GLM так не делают. Квены так не делали никогда до 3.5. Мистрали так не делали никогда, правда не знаю насчет последнего Ларджа и Смолла, которые МоЕ. Вот данным моделям никакие аблитерации не нужны, чтобы в обязательном порядке. Ллама, вплоть до 3.3, в целом тоже. Аблитерации превращают модели в yes-man, лишаясь уместных отказов и "воли" персонажей. Потому они часто пишут сухо, скучно. И не важно, как именно эта аблитерация применялась. Такой эффект точно будет, опять же вопрос лишь в какой степени. Хорошо, что появились в последнее время "мягкие" версии, но это по-прежнему дамажит модель. Лучше обходиться без этого и без тюнов, но видимо, таких моделей будет все меньше?

Аноним 27/03/26 Птн 17:14:51 #128 №1564483

>>1564473
>Сейчас же в основном плохие или специфические, мало мастеров на все руки.
Может дело в более плотно набитых моделях? Да не, бред какой-то.
>>1564477
>GLM так не делают. Квены так не делали никогда до 3.5. Мистрали так не делали никогда
Просто ты роллишь ванилку. У меня все модели выдавали телефоны из США.

Аноним 27/03/26 Птн 17:14:59 #129 №1564484

>>1564215
> Кое как впихнул квена 3.5 27б опус 4.6 эдищон на своб 3050 6гб ноутбучную, и 16гб рам.
Какой квант?

Аноним 27/03/26 Птн 17:16:10 #130 №1564487

А Vector Storage самому включать или оно само автоматом врубится при заполнении контекста?

Аноним 27/03/26 Птн 17:22:38 #131 №1564491

>>1564483
>У меня все модели выдавали телефоны из США
Что ты там такое крутил? Квены даже лолей дают ебсти. Даже лолей наркоманок. А убивать так вообще беспрепятственно. Чё там за номера у тебя такие?

Аноним 27/03/26 Птн 17:28:49 #132 №1564495

>>1564473
>тебе в конце концов напишут номер телефона доверия или "извините, я не могу обработать этот запрос"
Гемма это обожала делать вообще во всех сценариях, не зависимо от самих сценариях. Помню когда она только вышла гонял ее на карточке где мой персонаж был описан как "стажер в крупной компании", а чар как "строгий начальник", в итоге как только начиналась сама "строгость", проснулся ассистент и написал "харрасьмент на рабочем месте это плохо, если вы стакнулись с харасьментом, обратитесь по номеру такому-то" - в итоге каждый новый реплай приходилось чистить и по 50 раз рероллить, чтобы хотя бы какие-то совсем безобидные знаки внимания могли бы пройти, не говоря уже про "не дал дойти до кулера, схватил за жопу и утащил в кабинет ебать на столе рядом с документацией"

Аноним 27/03/26 Птн 17:35:21 #133 №1564499

>>1564495
>мой персонаж был описан как "стажер в крупной компании", а чар как "строгий начальник"
>не дал дойти до кулера, схватил за жопу и утащил в кабинет ебать на столе рядом с документацией
Теперь мы знаем, что любит местная сиса...

Аноним 27/03/26 Птн 17:36:59 #134 №1564501

А таверна реально прикольная. Такой замес можно между ии устроить в чате. Сколько персов там можно макс добавить, чтобы все не превратилось в кашу?

Аноним 27/03/26 Птн 17:37:02 #135 №1564502

>>1564484
4.

Аноним 27/03/26 Птн 17:37:58 #136 №1564503

>>1564501
Зависит исключительно от сетки. На локалках быстро скатится в вакханалию. На гемини/опусе будет нормально.

Аноним 27/03/26 Птн 17:40:38 #137 №1564506

>>1564499
>Теперь мы знаем, что любит местная сиса...
Никаких сисингов, отыгрывал слоппи девчушку для разнообразия.

Аноним 27/03/26 Птн 17:49:21 #138 №1564508

>>1564506
>отыгрывалА слоппи девчушку
Я так и сказал, сис.

Аноним 27/03/26 Птн 18:11:43 #139 №1564518

>>1564477
Всё они прекрасно делали. Ты в курсе, что цензура грока и дипсика ниже, чем у всяких там глэмов и квенов, что юзают в треде из коробки? Речь про локальный дипсик/апи. Как и про грока апишного. Никаких джейлов, лоботомирующих модель. Просто обычный систем промпт, и хоть наматывай лолей в дока 2 дока трейд джва часа. Но то апи.

А всякие мистрали типа 3.2 с умеренной цензурой — это прошлое. Оно не просто морально устарело, а технически. Разрыв чудовищный. Имаджинируй ебало человека, инструкции которого модель не выполняет уже со старта рп, а сколько кэш будет весить на 70к токенах у мистраля? Не как у квена 3.5 — 4 гига всего. При этом он не сваливается в галлюцинации и не игнорирует инструкции на большом контексте. Хорошо сохранилась разве что гемма. Она до сих пор актуальна. Остальное уже чисто вкусовщина.

Yes-man бывает, но это на мой взгляд прежде всего зависит от обучения. Не зря безжоп придумали. Когда ты для модели юзер, она очень склонна подсасывать, и это проявляется даже на инстракт-модели. Лоботомия просто усиливает эту тенденцию, но и подобное фиксится. С аблитерацией муторно, а вот с еретиком совсем легко. В принципе, достаточно написать, что юзер может умереть от ваншота, что его можно слать на хуй и т. п., если это соответствует контексту ситуации, характеру персонажа и всё в таком духе. Если модель инструкции вообще выполняла, то так будет и дальше.

>>1564495
Орнул с твоих сюжетов. Максимально осуждаю.

Вообще, гемма и тогда ломалась, прям та самая, соевая, но полноценный джейл лоботомировал её похлеще аблитерации. И что самое главное, аблитерация не только убирала тупые отказы, но ещё и делала язык более сочным в описаниях.

Аноним 27/03/26 Птн 18:14:15 #140 №1564521

>>1564508
>сис
гачаслоп и сюда протёк...

Аноним 27/03/26 Птн 18:18:52 #141 №1564522

>>1564501
Смотря какая модель и как промптить. Квен 235 хорошо держит до 6 персонажей до 50к контекста. Модели больше справляются чуть лучше

Аноним 27/03/26 Птн 18:53:55 #142 №1564548

Жора украл у меня 2 недели жизни и добавил седых волос. Кто теперь всё это вернёт?

Короч: если кто страдал с проблемами тул коллинга, начиная где-то с начала марта на квенах 3.5, то версия b8203 ещё работает НОРМАЛЬНО. Что я только не делал по шизосоветам со всех тредов за это время. А оказалось-то. Причем норм issue по теме у Жоры нет. Всё позакрыто, что-то там они fixed, в итоге один хрен валится в лучшем случае через 1-2 вызова. А 8203 работает, работает и работает. Может чуть медленнее новых, но это не важно.

При это вначале этого пиздеца, когда с новыми парсером отвалился Qwen 3.5, Qwen Coder Next продолжал работать на новых версиях. До вчерашнего дня, вчера на новой версии, вместо исправления, как я ожидал, отвалился и Next. Вот у меня пригорело. Хагины им вломить должны, мне кажется, за такие релизы.

Все тесты были на 122B-A10B и Coder-Next, кванты от всех успел попробовать, это без разницы. Бэк - ллама, jinja, фронт - openclaw.

Аноним 27/03/26 Птн 18:55:45 #143 №1564551

>>1564518
> чем у всяких там глэмов и квенов, что юзают в треде из коробки
Глем и квен тоже юзаются из коробки так-то. И на дипсике, и на гроке ты получишь аположайз если сразу устроишь жесткие провокационные действия, особенно с минорами. Там весь триггер идет на соответствии действий и ответов контексту и чем дольше чат тем вероятность рефьюза стремится к нулю.
> всякие мистрали типа 3.2 с умеренной цензурой — это прошлое
Вышедший 4 - вполне настоящее, отвечает и остальным твоим претензиям.
> Когда ты для модели юзер, она очень склонна подсасывать, и это проявляется даже на инстракт-модели. Лоботомия просто усиливает эту тенденцию, но и подобное фиксится.
Все так, если следует промпту и в нем написать о снижении положительного байаса, или несколько сменить формат с дефолтного, то все получится.

Любая норм модель "цензуру" запоминает как вариант ответа на провокационные действия юзера, а не как данность и основу мироустройства, как у некоторых. Искажения фактов, жесткие софт-рефьюзы с избеганием ответов и описаний что не пробиваются простой инструкцией, соевые байасы - вот это уже пиздец.

Аноним 27/03/26 Птн 19:10:52 #144 №1564567

image

Чета рофлю. Свел двух бимб в таверне, а одна тупо отшивает другую. Эт почему так?

Аноним 27/03/26 Птн 19:12:53 #145 №1564568

А что с Мистралем Смолл 4? Правда такое уж говно, что аж 3.2 24б лучше?

Аноним 27/03/26 Птн 19:13:40 #146 №1564569

image

>>1564567
Ухаха.

Аноним 27/03/26 Птн 19:15:07 #147 №1564570

image

>>1564569
Пиздец...

Аноним 27/03/26 Птн 19:16:13 #148 №1564571

>>1564548
Мелочь норм работает с вызовом функций, только 2b лупится как мразь вызывая инструмент несколько раз подряд. Помоему она сломана как и твои большие, хотя не помню уже че у тебя не работало.

Аноним 27/03/26 Птн 19:16:39 #149 №1564572

1774628097046.jpg

Что за глм 5 турбо?

Аноним 27/03/26 Птн 19:17:22 #150 №1564573

Аноны - квенолюбы. А щупал ли кто-нибудь
https://huggingface.co/steampunque/Qwen3.5-27B-MP-GGUF/blob/main/Qwen3.5-27B.Q6_K_H.gguf ? Я пощупал на SFW писательском сценарии и по сравнению с дефолт-анслотом Qwen3.5-27B-UD-Q4_K_XL.gguf и по ощущениям этот стимпанковский квант сильно меньше шизит и слопит при размере всего на гигабайт больше... Мне прав или мне самому пора в дурку ?

Аноним 27/03/26 Птн 19:21:02 #151 №1564575

>>1564548
Была проблема с одновременно включенными тензор параллелизмом и куда-графами, когда делаешь ubatch отличный от batch - ломались генерации. Потом отключили куда-графы, уронив скорость генерации в 2-3 раза. А пару дней назад наконец пофиксили и вернули как было.

Аноним 27/03/26 Птн 19:29:51 #152 №1564578

Есть кто с p102-100 или похожей некротой? Как используете? Я думаю 1 прикупить добив памяти но не уверен на сколько плохо будет без линий пси

Аноним 27/03/26 Птн 20:17:11 #153 №1564593

>>1564578
Ты в эпоху моэ собрался некротеслу брать, лол? Оперативки докупи - будет больше толку.

Аноним 27/03/26 Птн 20:18:57 #154 №1564595

>>1564593
Почему нет? Самая дешманская врам все еще лучше оперативки, да и мое туда так же можно выгрузить

Аноним 27/03/26 Птн 20:20:29 #155 №1564596

>>1564573
А что в ней хорошего? Зачем её щупать?
>Я пощупал на SFW писательском сценарии и
Ну хоть бы показал анончикам выдачи для сравнения.

Аноним 27/03/26 Птн 20:23:11 #156 №1564598

Попробовал я этот ваш квен блю стар. Начал лучше следовать карточке и перестал соглашаться на все что я прошу. Но в сравнении с обычными анцензорами квена это пиздец даунгрейд в интеллекте и способности понимать что вообще происходит.
Продолжаю реквестировать модели для рп. Лучшие что пока трогал мистраль смалл 3.2.

Аноним 27/03/26 Птн 20:36:30 #157 №1564601

>>1564598
Попробуй Мистрал Дарк Шелби, я до сих пор лучше ничего не нашел хотя тоже давно в поисках. Пробовал и хваленную Гемму и ГЛМ и Квены.

Аноним 27/03/26 Птн 20:42:31 #158 №1564604

Врайтер еретик появился. Налетайте.

Аноним 27/03/26 Птн 21:03:11 #159 №1564617

>>1564578
>Есть кто с p102-100 или похожей некротой? Как используете? Я думаю 1 прикупить добив памяти но не уверен на сколько плохо будет без линий пси
Как раз вчера на Ютубе ролик от "Моего компьютера" вышел - провёл тесты и утверждает, что на Лламеспп можно и на первой версии псины сидеть, разница небольшая. А вот для вЛЛМ критично.

Аноним 27/03/26 Птн 21:17:14 #160 №1564623

1654122404328.png

1752919314654.png

Даже glm-ocr на мишках работает. Ну кайф же

Аноним 27/03/26 Птн 21:29:22 #161 №1564632

Анонандрии, на каком контексте у вас qwen 3.5 27b уже начинает шататься из-за большой длины контекста?

На 65к я уже чувствую что-то странное и порой явные ошибки, но не могу понять, проблема во мне, битности (IQ4XS), кривом кванте или ебучем смарт-кэше, который может так взбрыкнуть, что от жизни охуеешь. Ну и это ещё еретик, правда самой щадящей версии, где могут быть отказы, но мозги минимально подрезаны.

Когда я тестил анслотовский после фикса и бартовского (не еретики, чистые), они держали контекст на тестах, но у меня там не было лорбука, персон, двух персонажей в карточке, сеттинга, неба, Аллаха. Просто тестовые и сложные многоступенчатые задачи со всякой математикой, креативным письмом и на логику на 128к. И квант был выше — у анслопа UD, у бартовски M.

Бартовский явно серить начинал где-то на 50к почему-то. Это было не критично, если рассматривать в рамках RP, но в тестовых задачах такое неприемлемо. У анслопа где-то с 70к начиналось и явно заметным становилось к 100к.

Рассуждать на эту тему сложно, потому что модель может быть невменяемым дерьмом даже в полной точности, а может крепко держаться и в обычном четвертом медиуме. Так шо нужен ваш опыт использования на такой длине.

Ах да, сразу скажу, что квант бартовского мог быть в теории кривой, а сейчас обновлённый, так как я тестировал всё после 3-8 дней после релиза. Не помню. Сейчас там может быть всё иначе. Инфа для тех, кто собирается юзать этот квен для задач и SFW.

Если что, мой текущий квант от мрадер.. мрадчер.. мрудерхм.. махера.. ну вы поняли.

Аноним 27/03/26 Птн 21:32:42 #162 №1564635

>>1564578
У меня вторая карточка p104. Скорость роняет заметно, но всё ещё пригодно для плотных моделей. Быстрее раза в 4 по сравнению с выгрузкой. А вот МоЕ у меня почему-то медленней, даже если фулл врам сделать, нежели воткнуть в основную карту модель, а остальное в оперативку.

Аноним 27/03/26 Птн 21:36:56 #163 №1564637

>>1564623
А чего бы ему не работать?

Аноним 27/03/26 Птн 21:47:50 #164 №1564642

>>1564632
Тестил 5bpw exl3 и Q4-Q5 кванты от Бартовского и Мрадера. Нигде дальше ~~30к не ушел, карточка с двумя персонажами, ничего особо сложного. Разительной разницы между квантами не заметил. Разве что exl работал хуже всех, там ризонинг сломан и выводы странные в целом.

Аноним 27/03/26 Птн 21:51:07 #165 №1564643

>>1564623
Ну рили, чего ему не работать если кернели есть? Могут быть нюансы со скоростью и подобное, но это же не жора чтобы что-то заявленное отрыгивало.

Аноним 27/03/26 Птн 21:51:30 #166 №1564644

>>1564632
Хз, я за ~50к наедаюсь любым разовым рп. Юзаю пятые кванты для эрп/кума. Между мрадером и анслопом разницы не обнаружил, одна и та же модель работает слишком схоже.

Аноним 27/03/26 Птн 22:02:18 #167 №1564648

>>1564643
Официально мало того что поддержка Веги 7 давно дропнута дак и в целом вллм никогда под них не существовало

Аноним 27/03/26 Птн 22:02:45 #168 №1564649

image.png

>>1564596
1 пик - задачка. К ламе подрублен мини-раг с нарезкой Сергея Павлова - что б ЛЛМ работала не на сухую, а шиза (фантазия) была отборной! 2 пик результат Qwen3.5-27B-UD-Q4_K_XL . 3 и 4 - квант от паропанка Qwen3.5-27B.Q6_K_H.gguf . Если будет интересно могу скинуть рассказик целиком. Далее будет Q6_K от анслотов - результат тоже не безынтересный.

Аноним 27/03/26 Птн 22:02:52 #169 №1564650

>>1564635
Винда или линукс? Ну и могут быть проблемы куда, можно с вулкан проверить

Аноним 27/03/26 Птн 22:15:23 #170 №1564656

>>1564649
Ты ведь в курсе, что выдачи бывают разными на разных настройках семплера и семечках? Одна и та же модель может высрать десятки непохожих друг на друга рассказов. Если не сотни.
А генерация слопа это рандом. У меня были катки на 40-60к вообще без единой ошибки с полным погружением, а бывала Серрраfiна в зелёном платье уже третьим сообщением. Вряд ли это хоть что-то говорит о самой модели.

Вообще любая плотная умница может как разъебать небо и землю своим текстом, так и жидко обосраться сняв трусы через голову два раза подряд.

Аноним 27/03/26 Птн 22:29:31 #171 №1564666

image.png

>>1564649
1,2 - Qwen3.5-27B-Q6_K.gguf - аслотов
3,4 - llmfan46-qwen35-27b-heretic-v3-q6k-q5km_ffn.gguf

В общем 6-й квант стимпанка пока единственный привнес меньше всего квенизмов и генерирует самую "гладкую" прозу. Остальные буквально заражены 1. практически однотипным сценарием, который даже не перебивают полотна из RAG-а 2. Это не а - это б. 3. "Оно ЖИВОЕ" 4. "прошептал" и т.п.

Аноним 27/03/26 Птн 22:39:55 #172 №1564673

>>1564656
Я не просто в курсе - этот эффект усугублен рандомной работой инструмента. Модель сама себе буквально вторым сообщением вбрасывает в контекст пару килобайтов разных текстов "на тему".

И при этом в ризонинге:

План рассказа:
1. Начало: Момент выхода из корабля на поверхность неизвестного мира. Описание ощущений, звука шлепанца по чужому грунту.
2. Развитие: Окружающий пейзаж — что-то невероятное (как "Великий Хрустальный Фонтан" или "ледорадо"). Герой пытается осмыслить увиденное.
3. Кульминация: Момент истины, когда герой понимает масштаб своего шага и цену этого открытия. Возможно, контакт с чем-то живым или просто осознание бесконечности космоса.
4. Финал: Возвращение к кораблю, но уже другим человеком. Осознание того, что "первопроходец" — это не статус, а состояние души.

Структура рассказа:
1. Начало - подготовка к выходу на поверхность, напряжение команды
2. Момент выхода и первое впечатление от планеты
3. Открытие чего-то удивительного (как хрустальный гейзер у Павлова)
4. Осознание масштаба открытия и его значения
5. Завершение - возвращение с новым пониманием

Но хрен с ним - рваная проза на русском и квенизмы. Слегка убывают к 5-6 кванту, но только у https://huggingface.co/steampunque/Qwen3.5-27B-MP-GGUF их количество минимально. И проза как будто более гладкая, как у Геммы.

Аноним 27/03/26 Птн 22:57:05 #173 №1564691

Квен 27б даже в Q6 игнорит единственную инструкцию из префилла. Мысли?

Аноним 27/03/26 Птн 23:07:08 #174 №1564697

>>1564691
Изи
1) llama.cpp проблемы, опять
2) Все квены тренены как агенты, им нужна подробная инструкция как себя вести. Если ты дал задачу думая что сетка сама поймет что ты подразумевал то она может проебаться, так как не рыпается без инструкций
3) Скилл ишью, учись писать промпты

Аноним 27/03/26 Птн 23:09:43 #175 №1564701

>>1564697
4) Он просто хуйня
В сабже два года уже. Инструкция краткая и сложностей там нет, но справедливости ради, вообще все сетки до Степа (он 196b вроде) часто игнорят префилл. Ни одного исключения не видел

Аноним 27/03/26 Птн 23:11:29 #176 №1564702

>>1564691
Нет никаких мыслей. Я только что закончил коротенькое рп и попрощался с персонажем. К моему удивлению персонаж действительно сказал "прощай", развернулся и ушёл. Натюрлиховый финал истории. Обычно чарики пытаются вцепиться в протага зубами, даже если терпеть его не могут, лишь бы сюжет продолжать. А тут нет, норм развязка случилась. Хз что у тебя за проблемы аж на шестом кванте.

Аноним 27/03/26 Птн 23:14:04 #177 №1564705

>>1564702
К префиллу это какое отношение имеет?

Аноним 27/03/26 Птн 23:15:44 #178 №1564709

>>1564705
Про префил уже ответили. Зачем тебе два одинаковых свайпа?

Аноним 27/03/26 Птн 23:19:11 #179 №1564713

>>1564709
😀👍

Аноним 27/03/26 Птн 23:27:20 #180 №1564717

image.png

>>1564673
Продолжаем исследовать квено-прозу (и шизу) . На скринах самый первый (и довольно удачный) Еретик квантованный Мрадермахером. Qwen3.5-27B-heretic.Q5_K_M.gguf . Т.е. самый простой квант БЕЗ imatrix! Таким образом все встает на свое место т.к. у steampunque Квант тоже БЕЗ imatrix . Т.е. даже в 6 кванте imatrix портит структуру выдачи, нюансы понимания и стиля русика.

Для полной проверки гипотезы осталось за коллекционировать еще 6 квант Бартовски..

Аноним 27/03/26 Птн 23:33:55 #181 №1564722

>>1564717
>Т.е. даже в 6 кванте imatrix портит структуру выдачи, нюансы понимания и стиля русика
Охуеть открытие, анончик. Мы это ещё с десяток тредов назад выяснили... ты чиво, совсем новенький?

Аноним 27/03/26 Птн 23:35:27 #182 №1564724

А вы пробовали к SallyTavern подключать через Kobold голос? Хочу чат-бота, чтобы болтал со мной или помогал код писать. Такое возможно?

Аноним 27/03/26 Птн 23:38:24 #183 №1564725

Анончики, привет. 16гб vram 32гб ram хлебушек влетает в тред с просьбой.
Кумлю на мистральке-малой и вытекающей из нее зерофате. Мистральку использую когда надо двигать сюжет, зерофату подрубаю когда надо кумить.
Так вот. Меня в целом все устраивает, кроме того, что эти модели не умеют читать изображения.
Играю через таверну. Кормлю в чат изображение через функцию "Прикрепить изображение", сразу появляется сообщение, типа, чего вы хотите с ним сделать? Там по дефолту стоит "Что изображено на данном изображении?". Вот если зерофата просто игнорирует факт, что ей отправили изоражение, то мистралька хотя бы говорит, что она не умеет "читать" изображения. Можете посоветовать модельку какую, что умеет их читать?

Аноним 27/03/26 Птн 23:44:57 #184 №1564729

>>1564722
Бладж, я сидел на Air в 4 кванте Батрухи. И там это было не так заметно. А квены - ну все жаловались на квенизмы - может все кто жаловался на imatrix и сидели.

Аноним 27/03/26 Птн 23:45:54 #185 №1564731

>>1564717
Писал в одном из прошлых тредов, но напомню. В самом по себе айматрикс нет проблем, корень зла в калибровочном датасете. Если он мультиязычный, как у бартовски или последних квантов анслота, то всё в порядке, деградации русика не будет, модель только выиграет в мозгах. Если датасет полностью английский - остальным языкам наступает тотальная пизда. У мрадермахера, скорее всего, именно такой.

Еретик тоже дамажит русский язык, бтв. Лучше использовать нормпрезерв аблитерацию (если есть), или катать ванильную модель.

Аноним 27/03/26 Птн 23:48:38 #186 №1564732

>>1564731
А что у бартовски было хорошего с айматриксом из последнего?

Аноним 27/03/26 Птн 23:54:01 #187 №1564734

Я про imatrix кванты еще в самом начале предрекал что они будут ломать сценарии выходящие за те что в калибровочном датасете, в том числе другие языки кроме английского, раз уж это делают носители английского для себя.
Это было понятно изначально просто по описанию того как это работает.
Я больше скажу, даже мультиязычные датасеты все равно ломают модели, как и впринципе сама калибровка.

Потому что калибровка по датасету проверяет как падает качество генерации при квантовании разными квантами, и эти сценарии довольно короткие.

Нет никакой проверки того как модель деградирует в контексте после этого, и не меняется ли ее понимание задач в отличии от оригинала в сложных сценариях.

Просто потому что некоторые кванты отвечающие за это не были затронуты калибровочным датасетом, были посчитаны ненужными и квантованы хуево.
Тоесть да, в среднем мы получаем лучшее общение потому что ему отдается приоритет, в соответствии с примерами калибровочного датасета.
Но на дальней дистанции ничего не проверяется, как и выход за пределы датасета.

Аноним 27/03/26 Птн 23:58:04 #188 №1564735

>>1564732
У батрухи все кванты с айматрикс. Я от него последний квен 122б гоняю в 4 кванте, ванильный. С русиком всё в порядке. А всякие Qwen3.5-Vasyan666-ultra-uncensored-claude-anus-distill-heretic он не делает, к сожалению или к счастью.

Аноним 27/03/26 Птн 23:59:18 #189 №1564736

imatrix шиз совсем спятил, найдя себе сообщника в лице нюфага который сам не знает, о чем пишет
Терпим, н$няшиза терпели и этого потерпим

Аноним 28/03/26 Суб 00:00:22 #190 №1564737

>>1564731
>или последних квантов анслота
Нет. Только что проверил.
>Если он мультиязычный
Во тут - https://huggingface.co/Beinsezii/llmfan46-Qwen3.5-27B-heretic-v3-GGUF-6.14BPW/tree/main есть i-матричный квант и к нему дядка приложил калибровочный датасет. Русик (и не только) в сете имеется - в небольших правда количествах.
Русик все равно по портился. Такая видимо особенность 3.5 квена.

Аноним 28/03/26 Суб 00:04:57 #191 №1564742

image.png

Вот вам еще в базу треда https://huggingface.co/ubergarm/Qwen3.5-27B-GGUF/discussions/3 . К стати все представленный кванты - imatrix

Аноним 28/03/26 Суб 00:05:32 #192 №1564743

>>1564725
Бумп. Помогите глупому, плиз.

Аноним 28/03/26 Суб 00:11:54 #193 №1564747

>>1564725
Мультимодальные модели нужны. База это гемма 3 и квены вл. Квены и видики умеют (но лламацпп их не умеет).
Ну и джинджа нужна либо стандартная либо из которой нахуй не выкинули картинки

Аноним 28/03/26 Суб 00:13:47 #194 №1564748

image

>>1564737
>Нет. Только что проверил.
Хм. Ну у себя на сайте они пишут, что используют датасет батрухи, а в нем есть русик. Значит деградация русика должна быть как минимум не хуже чем у него.

>heretic
Вот ты возьми ванильный квен в НЕ айматрикс кванте от мрадермахера, и херетик-квен в том же кванте. Сравни в рандомном сфв-рп и ты охуеешь насколько херетик ломает русский язык сам по себе.

Я играю на русском и для себя остановился на айматрикс квантах бартовски и анслопа (ванильные модели + мультиязычная калибровка). Все же без айматрикс низкие кванты слишком сильно теряют в мозгах, пикрелейтед.

>>1564736
Претензии к айматрикс со стороны тех кто играет не на английском легитимны. Тебе бы самому не помешало разобраться в том как это работает.

Аноним 28/03/26 Суб 00:14:33 #195 №1564749

>>1564742
Это только для анслотовского говна показательно. Они ведь там на всяких агентах/кодмнге матрицы тюнят. После чего кодинг/математика норм, а культура уже на Q5 всрата.

Аноним 28/03/26 Суб 00:16:02 #196 №1564750

>>1564743
1. Таверна в текст комплишен не умеет гладко работать с изображениями. Через костыль реализовано - что то вроде кнопки "распознать изображение" и картинка отсылается чат-комплишн подключением. Геммморой....
2. Чат-комплишене должно работать как в нормальных фронтендах - скинул имадж в чат - ллм-ка подхватывает и распознает в контексте. Что бы это работало у тебя прожектор модели должен быть подключен к ламе или кобольду. Прожектор это такой файлик mmroj под каждую можель он свой, но для тюна его можно брать от базовой модели и любого большого квантователя.

Аноним 28/03/26 Суб 00:29:14 #197 №1564756

>>1564742
Забавно как выделяются практически без потерь, кодинг, матан и инглиш, собственно на чем и калибровали. Но какбы "калибровать" на общих знаниях тоже особо не выйдет, так что это вовсе не камень в их огород.
> все представленный кванты
Разве не только XL и прочая экзотика?

Аноним 28/03/26 Суб 01:09:17 #198 №1564788

>>1564491
>Даже лолей наркоманок.
Знаем мы ваших Фифей. Она скорее наркоманка, нежели чем андераге. Поэтому собственно и пропускает.
>>1564551
>Любая норм модель "цензуру" запоминает как вариант ответа на провокационные действия юзера
У моделей есть только 2 состояния - либо они воспринимают миноров как миноров и рефузят как сучки, либо модель одевает личину взрослого, который одел личину минора, и делает секс. Третьего не дано.
>>1564595
>Самая дешманская врам все еще лучше оперативки
По паспорту да. Но пересылки убивают весь смысл.

Аноним 28/03/26 Суб 01:20:45 #199 №1564794

>>1564725
>Так вот. Меня в целом все устраивает, кроме того, что эти модели не умеют читать изображения.
Ложь. Умеют. MS 3.2 24B 2506 и ее тюны - мультимодальные. Разбирайся что такое mmproj проектор, и как его подключать к твоему бэку. Для тюна, в принципе, подходит от базовой модели.

Аноним 28/03/26 Суб 05:23:22 #200 №1564867

Кто часто с форматами играется, подскажите.
У квена в норме в контексте сохраняются вызовы инструментов в истории, хранятся 1 вызов или вобще не включаются в контекст, а только ответ на вызов инструмента сеткой?
С резонингом такой же вопрос, знаю что его полотна не отправляют назад каждый раз, но хранится ли он 1 раз или так же сбрасывается и хранится только ответ?

Аноним 28/03/26 Суб 05:53:01 #201 №1564869

Бля забавно, парсер llama.cpp ломается если кинуть сетке на анализ файл jinja. Она начинает думать и писать части его кода и генерация ломается, хех.

Аноним 28/03/26 Суб 09:27:29 #202 №1564927

>>1564788
Чел, у неё куча описаний того какая она внешне. Даже самая лоботомированная моделька понимает что это ребёнок. Я хз что за чернуху ты там крутил, что тебя даже анцензы посылали в психушку. О много говорит, зогдумайся.

Аноним 28/03/26 Суб 09:37:45 #203 №1564938

>>1564927
>Чел, у неё куча описаний того какая она внешне.
Сейчас бы путать внешний и внутренний мир. Походу ты более квантован, чем модели, которые я кручу.
>О много говорит, зогдумайся.
Задумываться надо было 30 лет назад, сейчас же это просто последствия.

Аноним 28/03/26 Суб 09:42:57 #204 №1564940

>>1564938
>путать внешний и внутренний мир
Это нейросети, чел, у них нет внутреннего мира. Ты даёшь описание, модель даёт аутпут.

Аноним 28/03/26 Суб 09:54:24 #205 №1564943

>>1564940
Ну точно квантован до 1 бита, раз причислил внутренний мир к модели, а не к описанию персонажа. А ещё и контекст небось до 3-х бит по новому методу.
Модель прекрасно отличает описание внешности и описание характера. И если первое однозначно идентифицирует Фифи как minor, то на второе модель видит, что персонаж ведёт себя по взрослому, поэтому пишет секс. Вот и всё.

Аноним 28/03/26 Суб 09:57:22 #206 №1564947

>>1564943
У тебя братец шизофрения походу, раз ты пытаешься неиронично ебать детей при помощи нейросетей.

Аноним 28/03/26 Суб 10:02:15 #207 №1564949

1723944698944.png

1622188006246.png

Gigachat и YandexGPT это файнтюны дипсика и лламы?

Аноним 28/03/26 Суб 10:03:53 #208 №1564950

>>1564949
В целом да. С небольшими изменениями. Вот тебе и на острие прогресса, наши суверенные нейросети.

Аноним 28/03/26 Суб 10:04:07 #209 №1564951

>>1564949
Весь мир дипсик, а мы в нём ламы и кобольды.

Аноним 28/03/26 Суб 10:06:43 #210 №1564955

>>1564950
Это только у маленьких моделек или у больших такая же хуйня?

Аноним 28/03/26 Суб 10:07:24 #211 №1564956

>>1564955
У всех, не только у мелочи.

Аноним 28/03/26 Суб 10:16:09 #212 №1564959

>>1564947
Опять контекст кончился? Мы про тестирование цензуры рассуждаем. Просто заебало уже читать про пробив цензуры, когда она нихуя не пробита, а
>>1564788
>модель одевает личину взрослого, который одел личину минора, и делает секс
То есть цензура на месте. Всё остальное ты додумал.

Аноним 28/03/26 Суб 10:20:00 #213 №1564960

>>1564959
Ты реально долбаёб, которому надо лечиться.
Мимо

Аноним 28/03/26 Суб 10:20:49 #214 №1564961

>>1564959
Скорее ты просто идиот, который до сих пор не понял, что ллм всегда одевает личину "отыгрывая" персонажа. У ллм нет ни пола, ни предпочтений, ни души, ни характера. Ллм это набор алгоритмов.
>заебало уже читать
Не читай, иди нахуй. Итт челики не обсуждают цензуру уже года полтора, наверно. Всем хватает еретиков и прочих анценз версий для своих кумов и рп. Одному тебе всё не так. Серьёзно, с твоими прохладными про душу надо в дурку обращаться, а не с нейросетками болтать.

Аноним 28/03/26 Суб 10:32:14 #215 №1564965

изображение.png

>>1564961
>Скорее ты просто идиот, который до сих пор не понял, что ллм всегда одевает личину "отыгрывая" персонажа.
Ты просто не умеешь в рекурсию. Я то как раз прекрасно понял, и даже написал об этом ранее. Но суть моей претензии в том, что модель при "пробиве" уровня /ai/ отыгрывает не ту роль, что считает юзер, поэтому пробивом считаться (с моей строгой точки зрения) не может.
Да, я тупой, и не могу донести свою мысль до ещё более тупых.
>Всем хватает еретиков и прочих анценз версий для своих кумов и рп.
Говноеды, сэр. Тут и на <= 24B неиронично сидят и инджоят.
>Серьёзно, с твоими прохладными про душу
Что ты блядь несёшь...

Аноним 28/03/26 Суб 11:14:36 #216 №1564990

>>1564742
А с 12б есть сравнение?

Аноним 28/03/26 Суб 11:22:21 #217 №1564997

>>1564990
Откуда ж я знаю. Я не espen96 . Код теста он пока не выложил. Что есть, то есть - чувак и так знатно заморочился.

Аноним 28/03/26 Суб 11:25:52 #218 №1564999

>>1564997
Ой, забыл что 12б же у квена нет, только 9б. Ну там наверное все печально уже будет.

Аноним 28/03/26 Суб 11:31:58 #219 №1565005

image

>>1564997
Дикпик кое-что нашел. Чет как то не сильно хуже, особенно в коде.

Аноним 28/03/26 Суб 11:34:49 #220 №1565010

>>1564403
>Writer
У этого полноценная думалка есть, конечно он хорошо пишет.
>Bluestar
У этого думалка урезана, но всё же.
>Animus
А у этого чейны мыслей отключены целиком же, разве нет? Чем он хорош?

Аноним 28/03/26 Суб 12:06:51 #221 №1565041

У меня все модели Qwen в бенчмарках намного быстрее в режиме Vulkan, чем в CUDA. А в остальных моделях (на базе llama, gemma, deepseek) преимущество в CUDA-режиме.

Причем разрыв именно при обработке промта, разница ощутимая в разы (обычно 2-4), а при генерации разница не такая большая.

И почему koboldcpp грузит в ОЗУ даже в CUDA и Vulkan режиме? Хотя модели помещаются в видеопамять. Он грузит и видеопамять, и ОЗУ. Такое у всех моделей, даже маленьких.

Аноним 28/03/26 Суб 12:10:33 #222 №1565044

>>1565041
no mmap сделай, короче ищи функцию mmap и переключи

Аноним 28/03/26 Суб 12:14:49 #223 №1565048

1740647636566.png

>>1565044
mmap был выключен по умолчанию

Аноним 28/03/26 Суб 12:16:15 #224 №1565050

>>1565041
Кобольд говно сказано же использовать Ли Студио. Там таких проблем нет.

Аноним 28/03/26 Суб 12:19:41 #225 №1565053

>>1564419
> >4 по 32
> >DDR5
> Больной ублюдок.
Завелось после обновления бивиса. Правда, не выше 4600mhz держит. Надо будет продать свои 32х4 и брать 64х2.

Аноним 28/03/26 Суб 12:28:37 #226 №1565059

image.png

>>1565005
Вообще не в кассу. Речь идет о дефектах квантования по доменам знаний. Причем с учетом дрифта на контексте.

Аноним 28/03/26 Суб 12:30:03 #227 №1565060

>>1565053
Мы за тебя рады, но не от всей души

Аноним 28/03/26 Суб 12:32:45 #228 №1565064

>>1565059
Объясни что на пиках. Типа чем больше текста в сообщении напишешь в чат тем хуже модель будет в своих ответах? Или что?

Аноним 28/03/26 Суб 12:33:06 #229 №1565065

>>1565060
Мы рады твёрдо, но мягко.

Аноним 28/03/26 Суб 12:45:54 #230 №1565073

>>1565041
Очередное доказательство что кобольд это параша. Вот что бывает когда пытаешься на шиномонтажке открыть ещё парикмахерскую, шаурмичную и кальянку. Во всем он говно

Аноним 28/03/26 Суб 12:54:17 #231 №1565080

.jpg

Я не понимаю ллм. Вот вроде всё идёт нормально, логично, рп не ломается. Но потом случается какой-то ахтунг в тексте и я начинаю ощущать себя как пикрелей.

Аноним 28/03/26 Суб 12:56:36 #232 №1565082

Анончики, какая самая лучшая нецензуренная версия геммы3 в 12б для ерп?

Аноним 28/03/26 Суб 12:57:40 #233 №1565083

>>1565082
Вроде Дарк Шелби Гемма тоже был. Среди Мистрала альтернатив нет.

Аноним 28/03/26 Суб 13:00:14 #234 №1565084

>>1565083
А мистраль что? Лучше? Ни разу не пробовал.

Аноним 28/03/26 Суб 13:10:08 #235 №1565092

>>1565050
>Кобольд говно сказано же использовать Ли Студио
жирниииииииииииииишь

Аноним 28/03/26 Суб 13:27:59 #236 №1565104

>>1565092
А что, лм студия работает как-то медленнее или что? Пруфы где, билли?

Аноним 28/03/26 Суб 13:40:04 #237 №1565112

>>1565104
Она быстрее кобольда, но медленнее лламы
Мимо

Аноним 28/03/26 Суб 13:41:09 #238 №1565113

>>1565112
Насколько медленнее?