Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №177 /llama/

Аноним 11/11/25 Втр 19:58:09 #1 №1413912

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 4.png

17628500118690.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1408486 (OP)
>>1404870 (OP)

Аноним 11/11/25 Втр 20:48:31 #2 №1413985

pixel-0001-140202878.png

Я уже не могу, аноны. Это пиздец. Под каждую модель таверну перенастраивать надо? Срань. То лупится жестко, то срёт тоннами текста, то не срёт. Думающая модель qwen думает когда не надо и срёт своими размышлениями прямо посреди рп. Поделитесь своими настройками таверны пожалуйста, и вашей топ моделью на данный момент для РП, с которой вы больше всего времени проводите. Я устал срать себе в штаны и менять модели/крутить настройки. Спасибо.

Аноним 11/11/25 Втр 21:01:22 #3 №1414005

>>1413985
>Под каждую модель таверну перенастраивать надо?
Надо.

>>1413985
>Я устал срать себе в штаны и менять модели/крутить настройки.
Делюсь лайфхаком. В таверне можно создавать пользователей (по умолчанию - одни анмин). Я создал отдельного пользователя под каждую такую специфическую модель, и просто переключаю их. Как глобальные профили работает. Еще новому пользователю можно перекидывать конфиг от другого пользователя (файл) - чтоб совсем с нуля не настраивать каждого.

Аноним 11/11/25 Втр 21:04:38 #4 №1414009

>>1413985
>Я создал отдельного пользователя под каждую такую специфическую модель
Ебать наркоман, и для каждого продублированы карточки? Для моделей есть пресеты подключения, юзеров не надо для этого использовать

>>1413985
GLM-4.6, на остальные модели смотрю как на говно, поэтому модели не меняю и настройки не кручу

Аноним 11/11/25 Втр 21:07:46 #5 №1414015

>>1413902 →
Не пизди. С рассветом MoE главное, чтобы она с cmoe влезла, а дальше упор будет больше в ОЗУ

Аноним 11/11/25 Втр 21:15:33 #6 №1414029

>>1414005
>Делюсь лайфхаком. В таверне можно создавать пользователей (по умолчанию - одни анмин). Я создал отдельного пользователя под каждую такую специфическую модель, и просто переключаю их.
Зачем если есть профили подключения, которые включают пресет, инструкции и системный промпт?

Аноним 11/11/25 Втр 21:39:59 #7 №1414057

>>1413985
Для таких ленивых, как ты, придумали чат компитишен.

Аноним 11/11/25 Втр 21:46:03 #8 №1414062

Снимок.png

>>1413792 →
Это всё лоботомиты. Вообще все. Тебе же писали, ЭЙР запускай.
А чтоб не тормозило нужно больше карточек
>>1413669 →
>>1413654 →

Аноним 11/11/25 Втр 21:53:42 #9 №1414075

>>1413985
>Поделитесь своими настройками таверны пожалуйста
В нашем треде только Нюне разрешено делиться пресетами.

>вашей топ моделью на данный момент для РП
GLM 4.6/Qwen 3 235B

>Думающая модель qwen думает когда не надо и срёт своими размышлениями прямо посреди рп.
Вставь в поле Start Reply With
<|im_start|>assistant
<think></think>

Аноним 11/11/25 Втр 21:56:33 #10 №1414081

Каждый день Томоко.mp4

>>1414062
Анон, а можешь как хлебушку разжевать?
Карточек это видеокарт? Но они же стоят космос сейчас.
Вот ты говоришь, ЭЙР запускать. Это же вот это? https://huggingface.co/unsloth/GLM-4.5-Air-GGUF
Если да, то мне увеличение ОЗУ с 2х плашек на 64 до 4х плашек на 128 поможет? Оно же в ОЗУ будет вмещаться? Мой проц и видеокарта вытащит? спеки тут >>1413639 →
Как запускать такое через ОЗУ? Кобольд сам в ОЗУ запихает? Он поймет? Скорость какая будет? У меня сейчас на MS3.2-PaintedFantasy-Visage-v4-34B.i1-Q3_K_M.gguf
выдает такое:
[21:41:23] CtxLimit:19552/20480, Amt:459/1387, Init:0.10s, Process:0.31s (3.22T/s), Generate:57.63s (7.96T/s), Total:57.94s
Немного маловато, но терпимо ибо он самый умный ггуф.

Аноним 11/11/25 Втр 22:08:26 #11 №1414108

>>1414081
>увеличение ОЗУ с 2х плашек на 64 до 4х плашек на 128 поможет
Увеличение до 128 гб поможет запустить qwen 235b в 4 битах или глм 4.6 в 2 битах.
Для запуска glm air твоих 64 гб должно хватить за глаза. Или можешь запустить двухбитный квен 235 от интела.

>Как запускать такое через ОЗУ?
Через выгрузку тензоров через --c-cpu-moe X, где X - число выгруженных на рам слоев.

Аноним 11/11/25 Втр 22:08:52 #12 №1414109

>>1413985
> вашей топ моделью на данный момент для РП
Квен/жлм/дипсик.
> Думающая модель
Используй инстракт модель, а думающую для раздумий оставь.

Аноним 11/11/25 Втр 22:15:03 #13 №1414114

Есть ли какие-то минусы от использования Flash Attention? Изменений в скорости t/s минимальна (разница 1 t/s при ~30 t/s), но несколько раз натыкался на сообщения что с FA модель деградирует. Лично с таким пока не сталкивался.

Аноним 11/11/25 Втр 22:16:36 #14 №1414115

image.png

>>1414108
>Через выгрузку тензоров через --c-cpu-moe X, где X - число выгруженных на рам слоев.
Есть в треде Аноны, которые могут перевести с эльфийского?

Аноним 11/11/25 Втр 22:22:05 #15 №1414122

>>1414114
А ты про какой? Их вагон и маленькая тележка

Аноним 11/11/25 Втр 22:25:33 #16 №1414127

>>1414114
>минусы от использования Flash Attention
Не знаю о таких.

>сообщения что с FA модель деградирует
Вероятно люди путали причину и следствие. ФА необходимо для квантования кеша, которое частенько вызывает деградацию моделю.

Аноним 11/11/25 Втр 23:00:29 #17 №1414168

>>1414122
То которое включается при указании аргумента -fa auto в llama.cpp.

>>1414127
Возможно. Но у меня в аргументах нету -ctv -ctk, поэтому не уверен нужно ли оставлять FA.

Аноним 12/11/25 Срд 00:28:50 #18 №1414246

>>1414029
Потому, что другой юзер - не только они. Это вообще ВСЕ настройки и пользовательские материалы таверны - и карточки персов, и WI библиотека (в смысле - сами тексты, а не просто - что из них активно), и настройки GUI, и набор плагинов - вообще ВСЁ. Именно это, иногда и требуется - а не только шаблоны и семплеры поменять. Некоторым моделям даже карточки персов полноценно не подходят от других моделей без переделки, не то, что шаблоны.

Аноним 12/11/25 Срд 00:43:30 #19 №1414252

>>1414081
> Это же вот это?
Ну это ггуф (dense, плотная) Так что нет, не это. Аноны запускают именно МоЕ, тебе надо ту где ты еще в прошлых тредах кидал и спрашивал а как скачать модель когда искал квант плотной модели а там дохуя .safetensors файлов было, вот такое вот тебе и надо запускать. Поищи гайды по запуску МоЕ, в шапке наверняка они есть.
>>1414115
> --c-cpu-moe X
Это для жоры. В твоем случае если ты всё еще используешь кобольда то аналог в кобольде --low-vram это автоматически заставит кобольда распределить эксперты между врам и рам, и путь к модели надо указывать к её папке где содержатся все её файлы а не к отдельному файлу как с плотной.
Про докупку еще двух плашек это даст возможность запускать еще более умную модель в 128 озу, но многие и довольны 64 гигами, так что ты пока просто продолжай баловаться с тем что есть.

Аноним 12/11/25 Срд 00:54:49 #20 №1414254

>>1414252
Ты жирный и зеленый, или обку(р|м)ился совсем?

С каких пор жора и кобольд .safetensors запускают? Что это за чушь? И каким раком формат модели (gguf/safetensors) с ее типом (MoE/Dense) у тебя оказался связан???

Аноним 12/11/25 Срд 00:57:13 #21 №1414255

image.png

>>1413787 →
>Я хотел бы понимать как это работает. У меня не получается сделать стесняшу Томоко. ИИ вечно рвёт образ. А еще я бы хотел что бы ИИ подавал историю как от 3го лица. Типа, я пишу: Я подхожу и говорю "Привет". ИИ считает, что это действие уже произошло, и сразу отдает реакцию персонажа. А я хотел бы, что бы он описал то, как мои действия были со стороны. Я хочу что бы он еще вставлял мысли персонажа, которые бы показывали мотивацию ответа. На juicychat.ai в одной из карточки видел треккер мыслей, действий, одежды и т.д. Интересно как этого добились. А еще если в сцене присутствуют несколько персонажей, он каждого обрабатывает по очереди в отдельном блоке. А я хотел бы, что бы он сначала там в голове своей картинку построил и мне изложил пересказ.

Сделал ради прикола, поигрался с твоей Томоко. Квен конечно превратил её в хорни-блядь, и впринципе я легко мог запретить ему это делать, но суть не в этом.

Решается простой карточкой персонажа(мне было лень - я просто попросил модель саму написать карточку) и несложной системной инструкцией.

Модель - Qwen 235B Q4_k_m

Аноним 12/11/25 Срд 01:24:29 #22 №1414275

funnybirdswitharms10.png

Я забайтился на всю движуху с МОЕ моделями и заказал себе 128гб ддр4 памяти для своего пк, причём у меня видюха на 12 гб(4070ти). Я совсем долбоёб и земля мне пухом, или это будет работать? В теории же квантованный Qwen3-235B-A22B-GGUF влезает, там же 22b ведь тоже квантуется, квантуется ведь? У меня ещё есть время отменить заказ...

Аноним 12/11/25 Срд 01:32:38 #23 №1414277

>>1414275
Палю лайфхак, посмотри какой квант плотной 22b модели у тебя влезет полностью в видеопамять и тот же квант используй у мое квена 235B.
В противном случае и скорость у тебя будет такая же как на плотном кванте 22B что не влез в видеопамять, у меня так с Эрни было.

Аноним 12/11/25 Срд 01:39:54 #24 №1414280

>>1414277
Спс, ну по идее в третьем кванте должен целиком влезать, посижу немного потрогаю модельки другие, на крайняк проапгрейжу видюху до 16гб.

Аноним 12/11/25 Срд 01:45:58 #25 №1414283

>>1414275
На реддите запускали на 3060 (12Gb) + 96 рамы. Вроде даже 6t/s у них было.

Аноним 12/11/25 Срд 01:50:52 #26 №1414288

>>1414283
Мне как раз попался этот пост, я именно после него решил всё же попробовать.
https://www.reddit.com/r/LocalLLaMA/comments/1ki3sze/running_qwen3_235b_on_a_single_3060_12gb_6_ts/

Аноним 12/11/25 Срд 02:03:57 #27 №1414296

Выдавили единственного чела который делился своим барахлом и всем тредом нихуя не скинули нюфагу >>1413985 кроме бессодержательных манясоветов. Даже нейтральный семплинг или симпл 1 не посоветовали. Во дожили...
Ну а нюфаг конфигом не поделился. Какие железяки у тебя? По семплерам обычно просто всё, нейтрализуй, потом мин-п 0.01-0.05 (чем больше шизы тем выше) и темпа как в карточке модели, но дефолт 1. Для почти всех моделей есть уже в таверне шаблоны, нужно выбрать по семейству те что подходят

Аноним 12/11/25 Срд 02:12:11 #28 №1414302

>>1414296
>Выдавили единственного чела который делился своим барахлом и всем тредом нихуя не скинули нюфагу
Так и скинь ему сам прямо сейчас вместо того чтобы ругаться. А ньюфаг довольно бестолковый - уже нескольно тредов ему помочь пытаемся, он большую часть постов с советами тупо игнорит и все ждет пока ему все принесут на блюдечке вместо того чтобы самому хоть немного рукава засучить и разобраться в теме.

Аноним 12/11/25 Срд 02:16:16 #29 №1414305

>>1414302
Да рад бы но я в командировке. Ничего не достать отсюда, но если нюфаг правда бяка и не слушает то и фиг бы с ним

Аноним 12/11/25 Срд 02:25:55 #30 №1414310

>>1414275
А 22b тут не причем, братан.
В видеопамять не активные эксперты залетают, а модель-роутер и общие слои. И они у разных моделей разные.
Насколько я помню, у квена в 4 битах это занимает 4-5 гигов.
Так что все влезет.

>>1414277
Ну ты воробушек, 22 активных-то тут причем до видеокарты. =)

Аноним 12/11/25 Срд 03:52:57 #31 №1414364

image

>>1413382 →
>mmproj хоть впихнул?
Куда пихать? Он скачан автоматом и в папке с моделью, автоматом подгрузился.

Аноним 12/11/25 Срд 04:46:04 #32 №1414385

>>1414364
А, ну понятно почему не работает.

GGUFs are currently text-only. We are working to expand capabilities and remove this limitation.

Аноним 12/11/25 Срд 04:48:26 #33 №1414387

image

>>1414364
А может в этом дело. Надо выгрузить еще слоев. Видеопамяти типа не хватает.

https://github.com/lmstudio-ai/lmstudio-bug-tracker/issues/974

Аноним 12/11/25 Срд 07:01:38 #34 №1414425

image.png

Мистраль гавноэ ебучее, ебучее гавноэ для хуесосый.

Аноним 12/11/25 Срд 07:04:46 #35 №1414427

>>1413804 →
пусть лучше они ебут детей в компьютере, а не ирл

Аноним 12/11/25 Срд 07:05:28 #36 №1414428

>>1414425
базашиз, спок

Аноним 12/11/25 Срд 10:11:27 #37 №1414469

>>1414427
пусть лучше не ебут, а не ебут

Аноним 12/11/25 Срд 10:16:10 #38 №1414472

image.png

>>1414252
Попробовал я GLM-Air-4.5-106B-Animus-V12.1-Q2_K.gguf (тот что 45гб) отсюда https://huggingface.co/Darkhn-Quants/GLM-Air-4.5-106B-Animus-V12.1-GGUF?not-for-all-audiences=true . В каком то треде на него ссылку давали.
В кобольде поставил галочку на лоу врам.
Крайне долго обрабатывает. И выдает просто лютый высер. Он даже проигнорировал что персонаж ДОМА, зачем то поставил его в библиотеку. Пэйнтед Фентези Визаж намного пизже. просто небо и земля. У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра. Скажите мне, я не то скачал?
[09:59:21] CtxLimit:14114/20480, Amt:1387/1387, Init:0.13s, Process:986.88s (12.90T/s), Generate:482.37s (2.88T/s), Total:1469.25s

Аноним 12/11/25 Срд 10:31:32 #39 №1414475

>>1414472
Сколько у тебя озу? В 64гб и хоть какую-то видеокарту спокойно помещается q4_k_s с 32к контекста. И скорость у тебя пососная, там должно быть 8+ тс. Ты явно что-то делаешь не так.

Аноним 12/11/25 Срд 10:51:02 #40 №1414481

>>1414472

>>1409808 →
>>1409809 →

Аноним 12/11/25 Срд 11:08:25 #41 №1414489

>>1414475
> И скорость у тебя пососная, там должно быть 8+ тс. Ты явно что-то делаешь не так.
У меня де жа вю.
Может и у него там теслы в загашнике? Но стесняется признаться.

Аноним 12/11/25 Срд 11:37:07 #42 №1414499

>>1414472
>В кобольде поставил галочку на лоу врам.
>Крайне долго обрабатывает.
Больше таких советов слушай - так оно вообще колом встанет.
С этой опцией по другому и не должно быть. Да и не нужна она тебе под такой размер модели, если хотя бы 64GB памяти есть.

>У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра. Скажите мне, я не то скачал?
Это у тебя не AIr, это его тюн. Качество не гарантировано - как и любой тюн может быть как хорошим, так и лютой дичью, а лично его не тестил, точно не скажу.
Air с вменяемыми квантами брать здесь: https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF
Под железо с памятью 12+64 - iq4xs квант лучшее из доступного. 60GB, влезет в притык.

Аноним 12/11/25 Срд 11:43:31 #43 №1414503

image.png

>>1414475
64гб.
>q4_k_s
Вот почему так? ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы, вместо того что бы дать ссылку.
>явно что-то делаешь не так.
Я тут по пачке беломор канала пытаюсь в Панаме аэропорт найти и приземлиться.

>>1414481
>https://huggingface.co/ddh0/GLM-4.5-Air-GGUF - странные, но годные. Бери V1 если захочешь, но для начала скачай ниже.
пик 1. Не лезет.

>https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF - проверенный Курва вариант. Если нужна гарантия - к нему.
Пробую качать IQ2_M 45.1 GB
Но там же на странице пищут, что качество низкое. пик 2.

>cudart-llama-bin-win-cuda-12.4-x64.zip
>llama-b6970-bin-win-cuda-12.4-x64.zip
>в одну папку.
>Потом, хуяришь батник в папке с жорой (эт llama.ccp так называют из за автора)
>start "" /High /B /Wait llama-server.exe ^
>-m "D:\Ai\Main\GLM-4.5-Iceblink-v2-106B-A12B-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL.gguf" ^
>-ngl 99 ^ - эт слои на видюху. (их дохуя, потому что см.ниже)
>-c 20480 ^ - это контекст, сколько модель будет помнить всего.
>-t 13 ^ - это сколько ты потоков на проц определишь.
>-fa --prio-batch 2 -ub 2048 -b 2048 ^ - это батч, сам погуглишь.
>--n-cpu-moe 44 ^ - а вот это мое слои на ЦП. Приоритетней ngl
>--no-context-shift ^ - гугли
>--no-mmap - гугли
>импортишь вот это https://files.catbox.moe/qpe1a0.json и не ебешь себе мозги.
Вечером отпишусь, сработало или нет.

>>1414499
>Больше таких советов слушай - так оно вообще колом встанет.
Других вменяемых с конкретными инструкциями нет. Т.е. не нужно было галочку ставить? А запускать как обычно?

>Под железо с памятью 12+64 - iq4xs квант лучшее из доступного. 60GB, влезет в притык.
Мне хаггифейс пишет, что нет. пик 4.

Аноним 12/11/25 Срд 11:52:35 #44 №1414507

>>1414503
>Вот почему так? ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы
Заебал, ленивая сучара ебучая. Прочти ёбанную вики. Вот тебе блядь ссылка, если такой даун
https://2ch-ai.github.io/wiki/llama/#gguf

Аноним 12/11/25 Срд 11:53:54 #45 №1414508

>>1414503
>ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы

Потому что изначально подразумевается, что перед тем как задать вопрос, человек почитал шапку, вики треда, вики кобольда с документацией таверны и у него есть базовое понимание терминологии. В принципе, если бы ты это сделал - 99% вопросов которые ты задаешь отпали бы сами собой.

Аноним 12/11/25 Срд 12:14:51 #46 №1414520

>>1414503
>Мне хаггифейс пишет, что нет. пик 4.
Естественно. Он же пишет для случая, если у тебя ТОЛЬКО 64Gb рам, без учета, что еще VRAM видеокарты есть. У тебя, грубо говоря - 72GB суммарно. 60GB модель - впритык, но влезет.

Аноним 12/11/25 Срд 12:39:47 #47 №1414543

>>1414503
>Вечером отпишусь, сработало или нет.
Я буду орать, если ты еще
>m "D:\Ai\Main\GLM-4.5-Iceblink-v2-106B-A12B-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL.gguf" ^
Вот это без изменений скопируешь.

>пик 1. Не лезет.
У тебя 16+64. 60гб, с учетом на систему хватит, еще гигов 4-5 будет болтаться. Да, ты запускаешь на своей пеке исключительно нейронку, желательно без ютубчика, потому что хромиумы жирные, что пиздец.

Аноним 12/11/25 Срд 12:47:41 #48 №1414550

Железячники, какой процессор интела из консумерских линеек самый ебовый для ЛЛМ. Не серверный ксеон за тыщи нефти, а всякие i7, i9 и прочее.

Аноним 12/11/25 Срд 12:59:30 #49 №1414558

>>1413766 → Анончик, поделись как ты это реализовал? Можно ли тупо в SillyTavern сделать Group Chat и добавить туда разных персов, которые будут выступать в качестве агентов (типа: Агент сюжета: Отслеживает общее развитие истории. Агент персонажей: Следит за характерами и действиями NPC. Агент локаций и тп) и крутить это всё на одной модели?

Аноним 12/11/25 Срд 13:03:12 #50 №1414561

>>1414550
Почти любой, упор будет в ddr5

Аноним 12/11/25 Срд 13:11:17 #51 №1414570

>>1414283
Тут один анончик на 3060 добивался что-то около 10 t/s на moe модельках

Аноним 12/11/25 Срд 14:17:31 #52 №1414615

>>1414558
Я не он, но он явно использовал telemate.

Аноним 12/11/25 Срд 14:22:55 #53 №1414617

>>1414615
Что есть telemate?

Аноним 12/11/25 Срд 14:31:16 #54 №1414623

>>1414617
Давай я погуглю за тебя и помогу, анон.
Сначала ты должен открыть браузер. Ты же как то на два и зашел. В верху у тебя есть адресная строка.
Забиваешь туда google.com
У тебя откроется сайт. В поле, под цветными буквами пишешь: telemate llm
Он выдает ссылку на https://github.com/vegu-ai/talemate
Берешь устройство типа мышь и нажимаешь левой кнопкой по появившейся ссылке и изучаешь.
Если вдруг у тебя будут проблемы с непониманием что такое мышь или ссылка, напиши, я помогу.

Всиго харошега.

Аноним 12/11/25 Срд 14:32:14 #55 №1414625

>>1414623
чё

Аноним 12/11/25 Срд 14:34:28 #56 №1414628

>>1414625
Это называется текст. Он состоит из букв. Написан на русском языке. Алфавит русского языка называется кириллица.

Аноним 12/11/25 Срд 14:42:35 #57 №1414638

>>1414623
А ни че тот факт, что ты tElemate нопесал?? А дипсик не в курсе.
Спосибо за сцылку пойду изучать

Аноним 12/11/25 Срд 14:45:26 #58 №1414642

{B95006F5-6A13-4B03-A94B-4B5C1AEA75CF}.png

{58FF5852-8339-4155-8371-CD9B2BD73288}.png

Амудэёбы в треде есть?
Запускаю ROCm форк кобольда под винду, эта скатина пишет вот это на 1 секунду и инста крашит загрузку. Я что то не понимаю нихуя, почему не запускается, блять.
У самого 9070xt, HIP SDK последний поставил, на сайте поддержка есть. По загрузке кобольд видит видюху, я хэзе.
Забало пользоваться вулканом, хочу затестить ROCm.
НЕ ХОЧУ НА ЛИНУПС, СУКААА

Аноним 12/11/25 Срд 14:58:42 #59 №1414649

>>1414638
Да, ты абсолютно прав, что указал на мою ошибку 😄.

Ну а если серьезно, я специально именно так и написал, так как алгоритмы поисковых систем заточены на то, что пользователь может быть ебланом и опечататься или банально не знать, но все равно найти. Именно поэтому я и добавил llm к поисковому запросу.

Аноним 12/11/25 Срд 15:00:17 #60 №1414652

>>1414550
все консумерские говно, потому что важна скорость памяти, а не мощщя процессора. а точнее скорость помноженная на каналы памяти в процессоре.
у консумерских линеек максимальная скорость в районе 100 гигабайт в секунду, у серверных это минимальная.

Аноним 12/11/25 Срд 15:02:22 #61 №1414654

>>1414642
> НЕ ХОЧУ НА ЛИНУПС
А придётся, сам выбрал амудэ

Аноним 12/11/25 Срд 15:03:15 #62 №1414655

Джимми Уэльс смотрит на тебя как на долбоёба.jpg

>>1414642
> НЕ ХОЧУ НА ЛИНУПС, СУКААА

Аноним 12/11/25 Срд 15:04:34 #63 №1414657

>>1414652
Блять. Значит буду смотреть, какой из них поддерживает максимальное количество каналов. Ну не могут же они все быть одинаковыми.
>у серверных это минимальная.
Даже рассматривать серверные смысла нет, так как это тянет за собой смену всего блока. Я конечно люблю нейровайфу, но тратить миллион на блок не готов.

Аноним 12/11/25 Срд 15:10:59 #64 №1414662

>>1414657
лучше вторую видюху выбирай, а не новый процессор

Аноним 12/11/25 Срд 15:11:46 #65 №1414666

>>1414657
> количество каналов
Два, терпим. Это у зивончиков да эпиков по 12

Аноним 12/11/25 Срд 15:13:47 #66 №1414667

На 3070 12GB и 32 гигах озухи сейчас реально запустить какую-то модель? Генерация охуительных РП историй не нужна, быстрота тоже, нужен примитивный ассистент( просто напоминать о том, что нужно сделать), чтобы не был окуколжен цензурой и мог поддержать беседу хотя бы на темы IT, Вахи и Рогаликов. (Часто бываю в местах без связи, интернетеа и людей. Скучно).

Аноним 12/11/25 Срд 15:20:10 #67 №1414678

>>1414666
> зивончиков
разве уже 12? они последние лет 10 у амудей сосали же
а, реально
> Granite Rapids is the codename for 6th generation Xeon Scalable server processors designed by Intel, launched on 24 September 2024
> Memory channels12 channels
хуясе штеуд разогнался, всего на 3 года от амуди отстаёт.

Аноним 12/11/25 Срд 15:20:13 #68 №1414679

>>1414666
>два
Грустно вздохнул и зарыдал как побитая сучка

А ведь когда то это была компания двигавшая прогресс. 4 пни, начало ай серии.
Суки, почему вы превратились в куски говна.

Аноним 12/11/25 Срд 15:23:38 #69 №1414686

>>1414667
хороший русский язык нужен или на енглише теребонькать будешь?

Аноним 12/11/25 Срд 15:24:07 #70 №1414687

>>1414679
крякни

Аноним 12/11/25 Срд 15:25:30 #71 №1414690

>>1414686
Желательно русский, но если без вариантов - англюсик файн ту. Может даже грамматику подтяну.

Аноним 12/11/25 Срд 15:28:32 #72 №1414693

>>1414503
>q4_k_s
> пишут какие то непонятные буквы, вместо того что бы дать ссылку.
> IQ2_M
Пишет сам такие же буквы.

Ты ебобо? :)

> Мне хаггифейс пишет, что нет. пик 4.
Ну нет так нет, и хуй с ним. =)

>>1414550
Не слушай
>>1414561
Нихуя там упора нет, померяли, упор в проц, уже два человека в треде писали, и я сам лично погорел, взял говно 13400, псп максимум на 68 юзается, хотя там 90. Прирост от ядер линейный, было бы больше ядер — была бы выше скорость.

>>1414652
Жаль, что процы не могут эту скорость утилизировать нихуя, и перемножают как черепахи.

>>1414657
Тебе хуйни полной насоветовали, но я понимаю, что все без пруфов тока говна накидают, и даже не буду тебя переубеждать, пожалуй.
Так шо смотри сам, верь кому хошь. =)

Аноним 12/11/25 Срд 15:31:50 #73 №1414695

>>1414679
Всм? В серверах тебе и синие и красные дадут всё что попросишь. Для физиков и те и те выдают что с барского стола упало

Аноним 12/11/25 Срд 15:33:22 #74 №1414696

>>1414687
Понятия не имею о чем вы и вообще у меня дела.

>>1414693
> Так шо смотри сам, верь кому хошь
Дуализм треда это нормально. В этом и суть. Спрашиваешь, а потом проверяешь, но хотя бы есть понимание откуда в флюгер дует.
На моей памяти тред сходится только в одном: оллама хуйня из под коня.

Аноним 12/11/25 Срд 15:33:37 #75 №1414697

>>1414649
А почему все ещё с SillyTavern не переехали на TaleMate? Выглядит он достатошно продвинуто

Аноним 12/11/25 Срд 15:34:40 #76 №1414698

Ну так, вброшу.
На DDR4 с псп 50 после 5-6 ядер прирост скорости замедлялся и выходил на плато.
На DDR5 с псп 90-100-110 количество вычислений естественным образом удваивается за единицу времени. По какой причине с ними должны справляться те же процессоры — математически и логически непонятно.
В треде отписывался человек с разогнанной памятью, что даже 13900 его не хватало.
В треде отписывался я с 13400 говной, которая вообще память никак не «раскрывает».
Человек с райзеном 7700 отписывался о более высокий результатах в идентичных тестах против 13400 на памяти более медленной, чем моя.
Пока что нет пруфов, что i5 способны выдать х2 к скорости на DDR5 относительно DDR4.

Но если уважаемые господа в треде могут показать такой результат — буду рад видеть и ошибаться.

Протестировать проц можно просто отключив использование видеокарты --cpu-strict 1 -ngl 0 или через куда_визибл_девайсес.

Аноним 12/11/25 Срд 15:34:51 #77 №1414699

>>1414697
Таверна говно. Но проблема в том, что остальные говно еще большее. Она и так разваливается, если её еще сильнее пидорить, мы неиронично на фронт кобальта убежим.

Аноним 12/11/25 Срд 15:37:29 #78 №1414707

>>1414696
> Дуализм треда это нормально.
Это нормально, когда что-то неверифицируемо.
Но когда все банально считается и проверяется, то зачем спорить с фактами — мне не понятно.
Вот полезна ли Atlas 300i — это дуализм. А вдруг дрова ее причешут и через полгода будет топовой видяхой для ллм за копейки (но брать надо щас?). А может не причешут, и герой тот, кто ее тестировал.
Хорош ли глм-аир — тоже дуализм. Делятся сэмплерами, промптами, заебись.

А сказать, что любое говно потянет DDR5 — крайне сомнительно. Я искренне хочу увидеть тпс вдвое выше DDR4 при 5-6 тредах, но пока таких тестов не могу вспомнить в треде, к сожалению.

Аноним 12/11/25 Срд 15:38:29 #79 №1414709

Ладно, про Атлас я конечно пизданул не подумав. =D Тут нет дуализма, никто не верит, пожалуй.

Аноним 12/11/25 Срд 15:44:48 #80 №1414713

>>1414693
>Ты ебобо? :)
Если бы этот дурень хотя бы половину своей энергии, проёбанной на написание простыней и аватаркофажение тратил на чтение манов - уже давно бы сам во всём разобрался. Ёбаный стыд.

Аноним 12/11/25 Срд 16:07:07 #81 №1414735

2cpu.png

>>1414698
Вопрос по теме псп. На двухпроцессорных системах количество каналов "удваивается"? Или это не так работает? По цифрам вроде все красиво.

Аноним 12/11/25 Срд 16:09:50 #82 №1414737

>>1414735
Ну у меня выходило что самый выгодный вариант был брать с каждого проца реальные ядра поровну. Какой там прирост хз в процентах
С включённой нумой очевидно.

Аноним 12/11/25 Срд 16:18:48 #83 №1414739

>>1414737
Так а разница между 4 и "8" каналами есть?

Аноним 12/11/25 Срд 16:28:10 #84 №1414744

>>1414735
Лично я такое не собирал и не знаю.
Но люди в треде писали, что нет, не складывается по итогу. Стоит расценивать как 4 канала, чтобы не разочаровываться, а если какой-то выигрыш таки поимеешь — то будет приятным бонусом.

Аноним 12/11/25 Срд 16:34:32 #85 №1414747

>>1414739
Нет. Только софтовые сочетания. На этой тачке не до теребоньканья сокетов

Аноним 12/11/25 Срд 16:50:28 #86 №1414754

>>1414699
И конечно никто не может объяснить чем таверна говно. Попугаи как они есть
Ахуенный инструмент с кучей экстеншенов и полным контролем над промтом. Кому этого мало или с жиру бесятся или скил ишью

Аноним 12/11/25 Срд 17:07:14 #87 №1414763

токены ядра.png

>>1414693
> Прирост от ядер линейный, было бы больше ядер — была бы выше скорость.

Аноним 12/11/25 Срд 17:07:32 #88 №1414764

>>1414754
>>1410531 →

Аноним 12/11/25 Срд 17:10:02 #89 №1414766

>>1414735
теоретически удваивается, практически уполтораразаивается, в худшем случае всегоначетвертьбольшеится

Аноним 12/11/25 Срд 17:17:17 #90 №1414774

>>1414764
Таверна это даже не рп фронтенд. Это просто фронтенд для общих задач. Фреймворк и менеджер для нескольких нейронок это тупо другой инструмент. Ругать таверну за то что она не тейлмейт это пик аргументации, дыа

Аноним 12/11/25 Срд 17:27:40 #91 №1414780

>>1414754
>скил ишью
О светоч всея всея треда, о скилловик, о радость для моего сердца- поделись же мудростью с о мной, плесенью под ногами, как нормально использовать лорбуки, ведь они прекрасно реализованы.
Групповые чаты, что без сомнения самая сильная сторона таверны.
Почему мне приходится регекспами править форматирование, ведь для таверны наклонные скобочки превращаются в хтонь.
Почему я не могу выгружать сразу все свои настройки, а не по одной ?

Вот это первое что пришло в голову, с чем я ебался последнюю неделю. Оставив за скобками общее среднее техническое состояние и постоянные баги, вылеты и ошибки, которые я умудряюсь вызывать рандомным образом.

Аноним 12/11/25 Срд 17:31:09 #92 №1414781

>>1414472
>У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра
Не у одного тебя. Хотя в данном случае ты скачал слопофайнтюн для фапа. Обычный может чуть лучше будет вне фап-сценариев.

Аноним 12/11/25 Срд 17:40:40 #93 №1414788

>>1414781
>Не у одного тебя
Air очень капризная модель, крайне чувствительная к промтам и самому оформлению карточек. Из за чего, его нужно подгонять префилами под конкретную карточку и мир (если мы говорим про РП)

Аноним 12/11/25 Срд 17:41:50 #94 №1414789

>>1414774
> Это просто фронтенд для общих задач.
Тогда у меня плохие новости для таверны, поскольку для общих задач она сильно проигрывает openwebui, где из коробки есть поддержка поиска в вебе, выполнения кода, вменяемые инструменты для создания/редактирования баз знаний, интеграция с тулзами для распознавания docx/pdf, подключение кастомных тулзов (включая готовую базу тулзов поддерживаемую сообществом) и прочее.

Аноним 12/11/25 Срд 17:52:51 #95 №1414801

>>1414642
Вулкан это база, сырок.

Аноним 12/11/25 Срд 18:00:40 #96 №1414811

>>1414801
Ты ошибся тредом, сынок. Газонюхи любители сырков двумя блоками ниже.

Аноним 12/11/25 Срд 18:02:48 #97 №1414813

>>1414780
У меня за два года таверна ни разу не вылетела и не обосралась. Как так???

Аноним 12/11/25 Срд 18:05:00 #98 №1414820

>>1414789
Угу, а ещё опенвебуй это питоний блотвер который весит под два гига с зависимостями. Ты прав что есть из чего выбрать, тут никто и не писал что таверна впереди планеты всей

Аноним 12/11/25 Срд 18:06:58 #99 №1414822

>>1414754
Написано на NodeJS, че еще надо?

>>1414763
Нет, чувак, прости, я некорректно выразился, возможно.
Вплоть до максимума ядер — прирост линейный, это именно тест.
Для DDR4 и 6 ядер твоя картинка верна, я сам ее люблю.
НО, для DDR5 картинка верна уже для 8+ ядер (вероятно 10+). Вот где-то на 12 ядре мы будем опускаться, да. А до 10 скорее всего скорость будет просто расти. Но у меня нет таких процев проверить, рассматриваю поменять на i7 какой-нибудь и проверить.
А пока страдаю.

С другой стороны, то что успел взять 128 гигов двумя планочками до роста цен — тут я рад. Лишь бы теперь процессоры не стали расти в цене. =)

>>1414774
Таверна — это буквально рп фронтенд. Она так задумывалась, начиналась, развивалась. Там была Аква стартовым персом.

При этом как общий фреймворк она околонулевая, есть опенвебуи.

Если они реально сейчас поменяли направление, то им там 80% легаси надо выбрасывать и переписывать все.

Аноним 12/11/25 Срд 18:11:41 #100 №1414828

>>1414820
Звучит гораздо лучше жиэса, так-то.

———

Не, ну, закрыв глаза на хуевый фреймворк таверны и прочие особенности, Таверна дает возможность очень хорошо и тонко настраивать промпт, который подаешь в модель, и сэмплеры для генерации ответа. И это круто. Но по большей части, на это все заканчивается.
ОпенВебУИ в то же время, дает небольшой простор для настройки промпта, но так же поддерживает полноценно сэмплеры. зато имеет много всяких фишек из коробки, которые нужны для работы.
Таверну можно расширить всякими экстеншенами, Вебую тоже можно расширить.
У Таверны РП-направление, у Вебуи — рабочее.
В своих нишах они хороши, у меня лично не было существенных проблем, ни одна, ни другая не вылетали, не тормозили, не зависали как-то критично, мне нравятся оба инструмента, хотя не один из них не идеал, конечно.

Шо есть, то есть.

А выше упоминался еще какой-то фронт — его я не пробовал. Может он лучше, фиг его знает.

Аноним 12/11/25 Срд 20:10:21 #101 №1414927

>>1414302
>>1414296
Вы меня с каким-то другим ньюфагом перепутали, я лишь в конце прошлого треда писал. И спасибо за советы, они реально помогают!

Аноним 12/11/25 Срд 20:29:34 #102 №1414936

>>1414927
Ты не томокофаг? Тогда ладно, спрашивай.

Аноним 12/11/25 Срд 20:38:03 #103 №1414940

>>1414822
> Для DDR4 и 6 ядер твоя картинка верна, я сам ее люблю.
Проблема перенасыщения контроллера памяти при задании чрезмерного количества конкуретных потоков в общем. И всратенького контроллера инженерников на ам4, который может словить насыщение гораздо раньше в частности. Максимум скорости наблюдается +- при количестве потоков равных количеству ядер, этот значение стоит по дефолту и можно его вообще не трогать если у тебя не некроамд. Развели тряску вокруг ерунда, погнать рам, точнее распределить веса, погнать врам - даст больше эффекта чем эта суходрочка.
> НО, для DDR5 картинка верна уже для 8+ ядер (вероятно 10+). Вот где-то на 12 ядре мы будем опускаться
Натягивает сову на глобус пытаясь найти интерпретацию собственному опыту. Если не допускать скидывания процесса на эффективные ядра, там от 4-5 и до полного количества результат отличается в пределах рандомайзера.

Аноним 12/11/25 Срд 20:38:51 #104 №1414941

Онлайн дипсик всё ещё лучший для кодинга или гемини подтянули хоть до половины его уровня?

Аноним 12/11/25 Срд 21:00:22 #105 №1414951

>>1414936
Не, я залётный ньюфаг.
Какой параметр отвечает за количество текста высираемой моделью? А то мне по дефолту наваливает пока в лимит выводимых токенов на одно сообщение не упрётся.
И как вы качаете персонажей с карточками и лорбуками? Я пробовал с разных сайтов из шапки, через таверну напрямую качать не хочет, пишет ошибку соединения. А джсон файлы или пнг картинки конечно легко скачать, но при этом не будет всяких приколов в виде эмоций и разных поз персонажа...

Аноним 12/11/25 Срд 21:04:33 #106 №1414953

image.png

>>1414951
Качаются с chub.ai я импортил через png (если был лорбук то он вместе с ним подтянется), даже не слышал ни про какие эмоции и позы персонажа.

Аноним 12/11/25 Срд 21:08:10 #107 №1414954

image.png

>>1414953
А, я жопой читаю >>1414951
Чтобы в лимит не упиралось у тебя должен быть настроены эти темы. Мб у тебя не тот выбран шаблон

Аноним 12/11/25 Срд 21:11:43 #108 №1414955

>>1414953
Понял, спасибо.
А про ответ в токенах я и говорил, ставлю 4к, модель даёт ответ на все 4к. Думал может другими настройками можно вывод ограничить.

Аноним 12/11/25 Срд 21:12:23 #109 №1414956

>>1414954
Спасибо! Какой шаблон актуален для Квена?

Аноним 12/11/25 Срд 21:15:57 #110 №1414959

>>1414956
Если про qwq snowdrop, то chatml. Думаю обычный тоже его съест. Еще пробовал вот этот:
https://pixeldrain.com/u/E6aFzWeZ

Аноним 12/11/25 Срд 21:38:37 #111 №1414992

>>1414699
>>1414754
>>1414780
>>1414813
>>1414822

Таверна - "говно" (на самом деле - не совсем, но...) не потому, что она на JS, или из-за ее ориентации строго на RP. (Кто сомневается - попробуйте ее как способ писать рассказ на пару с нейронкой)
Ее (точнее - ее авторов) основная проблема: они практически всегда добавляя фичу, не доводят ее до ума, получая не универсальный инструмент, а узко специализированный костыль.

Вот из самого свежего: добавили возможность для сработавшего WI выводить текст в "макрос", замещая его. Первое, что приходит в голову - "охеренная фича, теперь можно в карточке персонажа динамически разделы добавлять"! АГА. ЩАЗ!
Не работает оно в карточках. И нигде больше, как только в промпте. Причем в всплывающей подсказке по этой фиче - написано, что должно работать везде. Но хрен там плавал. И когда в их трекере кто-то написал (даже не я) что не работает как заявлено/должно - ответ - "и не должно, это только для промпта, менять не будем". А нах оно в промпте, если по большому счету? Там и так есть возможность WI втыкать в нужное место через глубину и wiBefore wiAfter.

И так постоянно, с рождения. Из-за такого подхода, мультичат с несколькими карточками практически неюзабелен изначально, т.к. просто не получится сформировать вывод так, чтобы модель нормально их понимала как отдельные персонажи, с отдельным контекстом, и приходится все сливать в одну карточку, иначе только особо умные модели в получившейся каше разбираются, и то хуже чем с одной "мультикартой". На это было им указано еще в 2023-ем, но воз и ныне там. Ведь важнее кучу новых перделок воткнуть, чем довести до ума уже воткнутое.
А, да - удачи вам получить естественный порядок говорящих - таверна до сих пор умеет только включать карточки по рандому или через прямое упоминание имени карточки. Или просто по порядку. Удачи с естественным разговором где один сказал - второй ответил по смыслу.

Я, в принципе, еще дофига примеров могу привести, но смысл? Это просто крик души. Я уже и перегорел на эту тему. При этом, не сказать, чтобы таверна была совсем уж говном... Но шаг в сторону от того что авторы имели в виду - и ты будешь мучаться от нехватки гибкости, при всем кажущемся богатстве настроек. При этом - нормальной альтернативы таки нету. Частично - Risu, Talemate, openwebui, koboldlite. Но тоже со своими недостатками. Таверна, хоть и ближе всех к идеалу, но все равно далеко. И этим раздражает неимоверно. И еще больше раздражает, что авторам пофиг. У них подобные issue в трекере годами без реакции висят. Просто в игноре. Даже без минимальной отписки.

Аноним 12/11/25 Срд 21:49:26 #112 №1415003

{F4544F4E-D432-45A5-9756-BC4859634166}.png

>>1414959
Спасибо, наконец перестало срать и стало выдавать приемлемые ответы! А про персонажа вот, стандартный же имеет карточки эмоций и внешний вид. На чаб.аи тоже в описании у многих указываются, но при скачивании по джсону/картинке не подгружаются...

Аноним 12/11/25 Срд 22:36:20 #113 №1415035

>>1415003
У меня была парочка пнгшек, которые подтянули и такой вид, меня таверна еще предупредила, что это может быть вредоносный код лол. В любом случае рад за тебя, хорошего дня

Аноним 12/11/25 Срд 22:36:26 #114 №1415036

>>1414992
>Это просто крик души.
Я тебя понимаю, потому что я запилил карточку трех яндере сестер, и не то. Мне нужен именно груповой чат, но он, сука, не работает как надо. А если пихать в одну карточку, то характеры персонжаей перетекают на друг друга.
Ооооо как горит мой очаааааг, можно сталь жопой плавить.

Аноним 12/11/25 Срд 22:38:22 #115 №1415039

>>1415003
Качай карточки с https://janitorai.com/, это конечно та еще помойка, но там постоянно появляются как минимум интересные идеи.
Самый простой способ пиздинга это зайти на страницу нужной карточки и в адресной строке, заменить сам сайт на https://jannyai.com/, не трогая остальную часть ссылки.

Аноним 12/11/25 Срд 22:44:01 #116 №1415046

image.png

>>1414693
>Пишет сам такие же буквы.
>Ты ебобо? :)
Я всегда ссылки кидаю на модели. Анончики же делают это крайне редко. От того не всегда понятно что имеют ввиду. Да, я тупенький, простите.

>>1414543
>У тебя 16+64. 60гб, с учетом на систему хватит, еще гигов 4-5 будет болтаться. Да, ты запускаешь на своей пеке исключительно нейронку, желательно без ютубчика, потому что хромиумы жирные, что пиздец.
Спасибо что объяснил, ибо я тупил жестко и не понимал. Потому что никто из анонов не сказал, что ОНО СУММИРУЕТСЯ. Я то вставил свои спеки в хагифейс и недоумевал, почему анон говорит качай эйер ( https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF ), а хаги пишет, что не лезет.
>>1414520
Спасибо за разъяснение, которого мне не хватало.

Так вот, llama.cpp взлетел по вот этому гайду >>1409808 →
Я только только его завёл, всего 4 запроса сделал. Скорость вроде приличная, на уровне пейнтед фентези визажа . https://huggingface.co/mradermacher/MS3.2-PaintedFantasy-Visage-v4-34B-i1-GGUF
prompt eval time = 276.69 ms / 1 tokens ( 276.69 ms per token, 3.61 tokens per second)
eval time = 54894.71 ms / 571 tokens ( 96.14 ms per token, 10.40 tokens per second)
total time = 55171.39 ms / 572 tokens

Спасибо всем за ваше терпение и помощь.

Аноним 12/11/25 Срд 23:26:11 #117 №1415061

>>1415039
Два чая, анонче!

Аноним 12/11/25 Срд 23:46:18 #118 №1415076

IMG4763.jpeg

>>1415046
> Потому что никто из анонов не сказал, что ОНО СУММИРУЕТСЯ
Ты не обижайся, но это потому что ты бы мог почитать шапку.
Мне, блять, искренне грустно за ОПа, он столько собрал, другие анонсы пилили и все ради того, чтобы на это просто забивали хуй.

Аноним 12/11/25 Срд 23:55:42 #119 №1415085

>>1415076
Погоди, сейчас он не осилит как раскидать слои, словит аут оф мемори и снова прибежит в тред ныть и клянчить помощь.

Аноним 13/11/25 Чтв 00:02:02 #120 №1415089

>>1415085
Не, там как раз на сетап 16x64 батник, не словит.

Аноним 13/11/25 Чтв 00:05:14 #121 №1415092

>>1414781
>>У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра
Это буквально проблема написания промпта, пресета, неба, аллаха.
Скилл ишшуе короче. Это не ирония и не подъеб. Я и сам наверно месяца два только учился как и что просить от ллм. А то что тебе показалось что джейлбрейкнутый файнтюн мистрали лучше пишет, то это не удивительно так как него мозги выебаны настолько что у него весь эмбединг состоит из Я ТЕБЯ ЕБУ, ООо аа ты меня ебешь...
>>1415076
Там слишком дохуя всего для энтузиастов и очень мало для нюфаков типа него, уж проще в асиг треде почитать базу, хотя там тоде дохуя всего что нахуй не надо для локалок.

Аноним 13/11/25 Чтв 00:07:24 #122 №1415093

>>1415092
промахнулся но похуй

Аноним 13/11/25 Чтв 00:08:57 #123 №1415096

>>1414811
>>1414801
Откуда пошло это слово вообще изначально? (сырок) влом идти спрашивать в асиг

Аноним 13/11/25 Чтв 00:11:21 #124 №1415098

>>1415096
> сырок
Оттуда же, откуда "Ловите, ньюфага", сынок.

Аноним 13/11/25 Чтв 00:27:48 #125 №1415107

100026605353b0.jpg

MRxhhfp1crlD5wdi5xHKzw.jpg

>>1415098
Понятно, а у меня в голове только одни сырки..

Аноним 13/11/25 Чтв 00:35:38 #126 №1415110

>>1415096
это сильвер ренджер из л2 sr с 2003 года, потом быдло переняло на свой лад

Аноним 13/11/25 Чтв 03:02:08 #127 №1415158

Наскреб два вопросика:
1) Насколько хороши текущие моешки для (е)рп? Никогда ими раньше не пользовался и даже не знаю чего ждать. Тот же квен-235 - это уровень старой четвертой гопоты или скорее какой-нибудь большой мистрали/командора?

2) Какую мелкомодель для переводов можно взять? Хочу катать её совместно с основной моделью и впихнуть в оставшиеся четыре гига видеопамяти. Запускать буду через жору параллельно с кобольдом (если такое возможно)

Аноним 13/11/25 Чтв 05:05:44 #128 №1415203

>>1415158
>Какую мелкомодель для переводов можно взять?
Квен позволяет ру (е)рп и в нём он хорош. Датасет тематический маловат правда, но было там всё. Бери версию с ризонингом.

Аноним 13/11/25 Чтв 05:53:11 #129 №1415219

Аноны, какую модель из 24-30б (или МоЕ, но не жирнее 80б) можете посоветовать? Оригинальный мистраль 3.2 уже надоел, может вышли тюны какие? Квен 30б уже изъюзал. Геммочка - умничка - но тоже от неё устал.

Вроде что-то там повыходило, но так просто это не найти, ведь нет аналога civitai. Да и вон идеальный кандидат для меня из новых, который не перегрузит моё древнее железо - Kimi-Linear-48B-A3B-Instruct. Но не пощупать, квантов нет.

12 + 8 VRAM @ 32 RAM DDR4

Аноним 13/11/25 Чтв 06:50:28 #130 №1415248

image

Да, выгрузка слоев помогла. Это все, что может гемма? 27б будет сильно лучше чем 12? А то не точно как то.

Аноним 13/11/25 Чтв 07:50:48 #131 №1415274

>>1415248
Так отличный результат же
БЛя а что ты еще хотел от 12B
>>1415248
>сильно
не сильно

Аноним 13/11/25 Чтв 07:54:14 #132 №1415277

>>1415110
Боюсь что средний возраст асиг тредовичков не позволит оценить шутку, да чего уж там.. даже я..

Аноним 13/11/25 Чтв 08:43:26 #133 №1415299

Нужна пояснительная бригада. Что конкретно происходит вот в этих аргументах при использовании dense моделей?

-ot "blk.(0|1|2|3|4).ffn=CPU"
-ot "blk.[2-9][0-9].ffn=CPU"
-ot "blk.([8-9]|[1-9][0-9]).ffn=CPU"

Потому что фраза из документации llama.cpp "override tensor buffer type" мне не говорит вообще ни о чем.

Я так понимаю, мы выгружаем какие-то конкретные слои на CPU, но как нужно выгружать правильно и как вообще определить что выгружать - понять не могу, попробовал просто пару готовых вариантов которые нашел.

Аноним 13/11/25 Чтв 08:58:33 #134 №1415306

>>1415299
В плотных ты в любом раскладе получишь 0.001тпс при выгрузке. Тупиковый путь

Аноним 13/11/25 Чтв 09:00:06 #135 №1415307

>>1415299
Нейронка состоит из слоев, слои из экспертов. Это регексп на выгрузки части экспертов из слоев на цпу. Найди свою модель на обниморде, открой инфу о составе ггуфа и дальше о составе слоя (blk что-то там). Дальше копипасть состав слоя в нейросетку и попроси рассказать какой эксперт за что отвечает и какие можно выгрузить в рам, а какие лучше оставить в врам. Нейронка может напиздеть, но для общего понимания этого хватит. Дальше можно методом научного тыка.
Какие именно эксперты выгружает регексп тоже у нейронки спроси.
И да, выгрузка экспертов для денс моделей может дать результат хуже, чем выгрузка слоев целиком. Пробуй, экспериментируй.

Аноним 13/11/25 Чтв 09:08:20 #136 №1415309

>>1415306
Ну я сейчас пытаюсь с Magistral-Small что-то сделать. Без всех этих выгрузок на CPU - 14 t/s.

С blk.[2-9][0-9].ffn=CPU выдает 7 t/s, но при этом 4.2GB VRAM еще свободно.

С blk.([8-9]|[1-9][0-9]).ffn=CPU выдает 6 t/s, но свободно 7.2GB VRAM.

То есть всё таки что-то да выгружается и даже работает, но чужими regexp'ами криво, потому что остается много свободной VRAM. Вот и пытаюсь понять что выгружается.

Идея изначально была взята отсюда. https://www.reddit.com/r/LocalLLaMA/comments/1o8jocc/improving_low_vram_performance_for_dense_models/

Аноним 13/11/25 Чтв 10:51:50 #137 №1415336

Какой размер должен быть у модели для нормального РП?

Аноним 13/11/25 Чтв 10:54:50 #138 №1415338

изображение.png

>>1415039
>janitorai
>первая карточка с девушкой на 23 месте, остальное гей-мужики
Лол.
>>1415307
>Нейронка состоит из слоев, слои из экспертов
Что ты блядь такое несёшь?
>>1415336
1488B

Аноним 13/11/25 Чтв 11:04:28 #139 №1415343

>>1415039
Эх, вот бы кто придумал, как получить промт карточек без прокси.
>>1415338
> >первая карточка с девушкой на 23 месте, остальное гей-мужики
Там есть фильтр и друг подсказывает, что на гейских карточках тег MLM, а там всего две таких. Значит это что-то в твоей голове.

Аноним 13/11/25 Чтв 11:30:24 #140 №1415357

>>1415338
Так уборщик позволяет легко подключиться к дипсику, конечно там будет куча жирнухо контента.
Но опять же, что плохого. Ну хочется девчатам яойное порево, не нам судить.
Там хоть модерация за теги бьет по жопе.
Единственное, нельзя лорбуки скоммуниздить, но они, в большинстве случаев и не нужны, так как там просто поревобуки, которые мы заменяем шизомержами и тюнами.

Короче- одобряю. Если уделить время на копание в навозной куче, можно прям для себя хайден джемы найти.

Аноним 13/11/25 Чтв 11:40:08 #141 №1415360

>>1415306
Не мути народ. На Dense польза тоже есть, хоть и меньше. Правда ручками писать надо - одной опцией не обойдешься, экспертов которые явные и первые кандидаты на выгрузку нету.

Это основная проблема с Dense моделями - для каждой свой вариант строки писать приходится, от другой совсем не подходит обычно (кроме тюнов на базовую). А зависит хороший вариант не только от самой модели, но и от железа на котором она запускается. (RAM, VRAM как минимум.)
Из личного опыта - Gemma3-27B - с 1.5Ts до 2.8T.s на 3060. Мистраль 24 - с 4.5 до 7 на ней же.

Аноним 13/11/25 Чтв 11:48:20 #142 №1415364

>>1415357
>>1415338
Два идиота, fempov это не яойный контент.

Аноним 13/11/25 Чтв 12:04:11 #143 №1415368

>>1414940
> Натягивает сову на глобус пытаясь найти интерпретацию собственному опыту. Если не допускать скидывания процесса на эффективные ядра, там от 4-5 и до полного количества результат отличается в пределах рандомайзера.

А ты часом сам не натягиваешь сову на глобус? :)
Даже ж не читаешь, что я пишу.
Все ядра четко распределены, никаких энергоэффективных, прирост линейный, от 4 результат отличается кратно количеству ядер, а не в пределах рандомайзера.

Ты практик или диванный аналитик? Если практик — скинь просто тест на ddr5, где она показывает реальный х2 прирост от ddr4. Я жду скрина уже месяц, не кинул никто. У всех теории, и ни одного результата.

>>1415076
База.

>>1415309
Не мое дело, канеш, но почему магистраль, а не мистраль? Это ж криво обученный недоризонинг с просратыми языками, не? Будто бы мистраль 3.2 гораздо лучше магистрали 1.2…

Аноним 13/11/25 Чтв 12:17:16 #144 №1415375

>>1415343
>Значит это что-то в твоей голове.
Я просто открыл сайт, это его дефолтное состояние.
>>1415357
>Там хоть модерация за теги бьет по жопе.
То то нет нужных тегов типа loli.

Аноним 13/11/25 Чтв 12:27:40 #145 №1415384

>>1415368
>У всех теории, и ни одного результата
У меня 4 планки DDR-5 работают на частотах 2к-3к, условно, но где то в этих пределах. Оно меняется при запуске рандомно, еще и отваливаются, что система не видит их или подсветка рандомно включается. Камень - 13600к. Если ставить XMP профиль, комп уходит в ребут и сбрасывает с аппаратной ошибкой, пища через динамик. Да, я купил динамик потому что могу и стоил он 150 рубасов. Почему их вообще перестали ставить, вин же, сразу понятно что, что-то идет не так.
Так что я обосрался с 4 планками на своём опыте. Можете насмехаться.
Тесты нннада ? Хотя, неведомым образом, все равно 9-12Т/с тот же air выдает в Q4_K_S, но там есть проблема другого рода.

>>1415375
>То то нет нужных тегов
Это банально не законно, поэтому не делают. Никто не хочет за лолей и шот получить швабру в жопу.

Аноним 13/11/25 Чтв 12:36:13 #146 №1415385

>>1415384
>Почему их вообще перестали ставить
Потому что есть дисплеи с посткодами, чтобы не слушать писки?
>не законно
Ебать запугали. В большинстве стран текстовая порнуха с любым содержимым разрешена.

Аноним 13/11/25 Чтв 12:41:23 #147 №1415386

>>1415368
Ты эти сочинения уже в который раз пишешь. По какой-то причине не смог получить должного перфоманса от ддр5 на гой5 в сравнении с ддр4, и на основе этого единичного опыта с ошибкой делаешь странные выводы по поводу ядер. Уже несколько человек тебе высказали и свои наблюдения приносили.
> скинь просто тест на ddr5, где она показывает реальный х2 прирост от ddr4
От ядер перешли к твоей проблеме, лол. Ты сам
> Даже ж не читаешь, что я пишу.
чекай еще раз пост там все есть. А чтобы такие сравнения делать - платформ с двумя каналами ддр4 у меня не было с 19года. Если страдать ерундой с запускам моэ на десктопе то скорости соответствуют ожиданиям, по зависимости от ядер написано.

Аноним 13/11/25 Чтв 12:41:28 #148 №1415387

>>1415384
>Ебать запугали. В большинстве стран текстовая порнуха с любым содержимым разрешена.
Педоистерия никуда не уходила, так что нахуй эти риски.

Аноним 13/11/25 Чтв 12:42:56 #149 №1415389

>>1415385
>>1415387
Obosryalsya.

Аноним 13/11/25 Чтв 13:34:36 #150 №1415399

>>1415368
>Даже ж не читаешь, что я пишу.
А зачем? Идентифицирую тебя -> не читаю, и так каждый раз. Ни разу не пожалел. Одна вода и желчь в твоих полотнах. Что-то мне подсказывает про тебя все всё давно поняли

Аноним 13/11/25 Чтв 13:40:41 #151 №1415403

>>1415399
Дезинформации там тоже немало.

Аноним 13/11/25 Чтв 13:44:27 #152 №1415406

>>1415384
Бля, братан… Спасибо за твой опыт… Сочувствую…

Да че насмехаться, я сам советовал всем брать любой проц, а потом сижу-пержу с 13400, нихуя скорости нет.

>>1415386
Ну вот, ты опять хуйни написал, а тесты где?
Ну если у тебя соответствует ожиданием — так запусти, покажи.
Блядь, так сложно скрин сделать? Я реально не понимаю.

Вместо одного скрина ты пишешь десяток ответов мне.

Пожалуйста, просто запусти любую одну крупную мое и покажи результат. Желательно чисто на проце, ибо видеокарты разные, вносят большой разброс.

Аноним 13/11/25 Чтв 13:56:30 #153 №1415422

>>1415406
> Сочувствую
Да хуйня, возьму 2 жирные планки на днях. Зато я прям на своем опыте убедился, что 4 планки DDR 5 не работают нормально с хуинтелом. Авось кто то из тредовичков прочитает и не наступит на эти же грабли.

Аноним 13/11/25 Чтв 13:57:38 #154 №1415425

>>1415406
Какие тесты тебе нужны, сформулируй. А то все носишься с жалобами что у тебя перформит недостаточно быстро и требуешь каких-то сравнений.
Мне то не в падлу прогнать, просто для этого качать модельки придется. На эйре Q4 под 20т/с в начале, но врядли сами цифры тебе что-то дадут, ибо для сравнения придется найти комбинацию 5090+ддр4.
> Желательно чисто на проце
А в этом какой смысл? Пойдет обсчет атеншна и там будет уже сам перфоманс ядер влиять. Мало того что так никто не делает, так еще и скорость будет радикально от контекста зависить. Только не говори что ты у себя не только линейные но и с атешном тестил.

Аноним 13/11/25 Чтв 13:58:15 #155 №1415427

>>1415422
Если возьмешь, то буду рад увидеть тест на них с 13600к. =)

Аноним 13/11/25 Чтв 14:01:13 #156 №1415435

ГЛМ-Аир конечно умная но какую же фиолетовую прозу она пишет пиздец. Можно это как-то через мастер промт поправить?

Аноним 13/11/25 Чтв 14:10:23 #157 №1415450

>>1415422
>4 планки DDR 5 не работают нормально с хуинтелом
С амудёй тоже самое.

Аноним 13/11/25 Чтв 14:10:34 #158 №1415451

>>1415435
Дыа. Эйр, как уже отмечали, капризен к промту и крайне внимателен, когда это не нужно. Можешь попробовать базовый гичан, он конечно навалил туда от души, но толика логики в нем есть. Мой опыт показывает, что эйру нужно навалить промтика, не стесняясь, на коротких он работает плохо. Но это прям субъективно.

Аноним 13/11/25 Чтв 14:13:24 #159 №1415453

>>1415384
>У меня 4 планки DDR-5 работают на частотах 2к-3к, условно, но где то в этих пределах. Оно меняется при запуске рандомно, еще и отваливаются, что система не видит их или подсветка рандомно включается. Камень - 13600к. Если ставить XMP профиль, комп уходит в ребут и сбрасывает с аппаратной ошибкой, пища через динамик.
Ты Биос обновлял? У меня 13600kf и то же самое было с 16gb х4, пока не обновил. Да, изкаропки ни одна мать интеловская 4 планки не тянет с XMP, с обновлениями проблему решили. ХЗ насчет xmp с 32gb x4, правда. Но 4800 мгц должен вытягивать.

>>1415406
>сижу-пержу с 13400, нихуя скорости нет.
А у тебя что за конфиг и какая скорость?

Аноним 13/11/25 Чтв 14:21:51 #160 №1415458

image.png

>>1415427
Я выкладывал уже тесты с 13600kf с 2х64gb несколько тредов назад.

inb4 - Квен 235 4 бит - чуть меньше 8 т.с, глм 4.6 - 8.5 т.с

Аноним 13/11/25 Чтв 14:25:42 #161 №1415460

>>1415422
Это нытье про 4 плашки ддр5 самого начала тредов еще, все так.
Вообще, оно работает, 192гига после кучи усилий 5200 берут, на 4800 работает вообще сразу без какого-либо пердолинга. Но повторить подвиги с разгоном 6000 и более, что достигаются для 16-гиговых плашек не получается. Также многое от материнки зависит, вроде как на оверсракеских анусах легко берется.
Стоит ли оно того с учетом снижения частоты - тут уже пусть каждый сам для себя решает, грабли еще те.

Аноним 13/11/25 Чтв 14:27:21 #162 №1415463

>>1415435
Нюня с начала плевался от патернов и слопа а потом изменил мнение по Эиру. Писал что формат карточек радикально поменял картину. Жаль пресет не зашарил но утверждал что там ничего необычного, разве что чатмл. Я вот тоже ща свою карточку написал по другому и кайфую, нельзя упарываться в структуру и списки НИГДЕ в промте

Аноним 13/11/25 Чтв 14:28:11 #163 №1415465

>>1415453
>Ты Биос обновлял?
Стыдоба то какая, вот прямо сегодня и обновлю. Попробую на 4x16,благо валяются в столе, вместо 4x32. Спасибо за инфу, я чёт был уверен, что это сугубо аппаратная тема.
Я эту https://www.asus.com/ru/motherboards-components/motherboards/prime/prime-z790-a-wifi/helpdesk_bios?model2Name=PRIME-Z790-A-WIFI взял, мне дико расположение NVME зашло, да охлад виновый.

Аноним 13/11/25 Чтв 14:35:11 #164 №1415472

Вопрос. А в KoboldCPP я могу ручками пропустить картинку через энкодер, чтобы скормить модели её самостоятельно в нужном месте? А то он там делает какой-то мистический (Attached Image XXX) и чё он? Перед отправкой к модели подставляет на это место картинку чтоли?

Аноним 13/11/25 Чтв 14:36:58 #165 №1415474

изображение.png

>>1415458
Чёт совсем пососные планки. Норм берут под интул 7к и получают свою сотку пропускной.
>>1415460
>с разгоном 6000 и более, что достигаются для 16-гиговых плашек
48 плашки без проблем работают на паспортных 6400, я понизил до 6к чисто из-за проца.
>>1415465
>Попробую на 4x16,благо валяются в столе, вместо 4x32
А вот не факт, что если первая конфигурация заработает, то заработает и вторая. Нагрузка на контроллер разная.
>>1415472
ЕМНИП в кобольде плейсхолдер для картинки в тексте чата, ставь куда хочешь.

Аноним 13/11/25 Чтв 14:48:03 #166 №1415494

>>1415463
>чатмл
А что это?

>>1415451
>базовый гичан
А это что?

Аноним 13/11/25 Чтв 14:53:47 #167 №1415505

>>1415494
чатмл это Chat ML шаблоны в таверне, где выбирать шаблон контекста и прочие настройки. Хз как сделать так чтобы Эир не начинал после этого гадить тегами lm_end в конце, как-то можно но я не спец. Гичан это шизопромт на косарь токенов где во всех подробностях описано что такое ролевая игра и как отвечать. Имхо модель тупеет от этого, такое же говно как тут гулял раньше отруб цензуры для Геммы 27. Промты чем короче тем лучше

Аноним 13/11/25 Чтв 14:55:17 #168 №1415507

>>1415494
>>чатмл
Дефолтный пресет таверны ChatMl, используется в квеноподобных сетках.

>базовый гичан
https://rentry.org/geechan#model-specific-presets

Аноним 13/11/25 Чтв 15:00:04 #169 №1415514

>>1415505
>Хз как сделать так чтобы Эир не начинал после этого гадить тегами lm_end в конце
Вот эта задачка, хм, может не стоит использовать квеновский чатмл для глм, который натренирован на своем шаблоне? Да не, хуйня какая-то...

Аноним 13/11/25 Чтв 15:00:15 #170 №1415516

image

>>1415474
Нах ты мои старые скрины пиздишь.

Аноним 13/11/25 Чтв 15:06:18 #171 №1415522

>>1415516
Скрин сделан 5 наносекунд назад. Я вмтварь не использую.

Аноним 13/11/25 Чтв 15:07:25 #172 №1415524

>>1415514
Глупыш не знает что чатмл ни одной ллм навредить не может. Это самый широкий универсальный шаблон который никак не форматирует выдачу. Никак не ограничивает а значит и выдача разнообразнее. Много раз писали что чатмл меняет выдачу и это правда. Олды ещё на первых Мистраль моделях просекли фишку и довольно урчат
А хвосты можно убрать через регексп или лучше правильной настройкой сепараторов

Аноним 13/11/25 Чтв 15:17:28 #173 №1415535

>>1415524
Для рпшинга верно. Агентов и ассистента с неправильным шаблоном ты не поюзаешь.

Аноним 13/11/25 Чтв 15:22:38 #174 №1415545

Уже очевидно что все силы брошены на глм 5 к концу года, а эир 4.6 оставили кучке уборщиц.
Нищета опять сосет

Аноним 13/11/25 Чтв 15:25:35 #175 №1415547

>>1415535
Мне так ассистент доставил, вот бы он еще в самоценз не уходил. Ну охуенно же. И сцену опишет и действия персонажей, предложит сам варианты действий.

>>1415545
А чем тебя 4.5 не устраивает? Ладно, геммобой ждет няшку умняшку, его можно понять, гемма действительно вышла давненько. Но ты из треда в тред бегаешь с этим тейком, словно 4.6 это будет небо и земля.

Аноним 13/11/25 Чтв 15:26:39 #176 №1415548

>>1415505
> шизопромт на косарь токенов
>>1415507
Ааа да да помню такой, как я помню у кого-то с фригидной геммы3 сгорело назуй и он расписал вообще все. Ну попробуем.

Аноним 13/11/25 Чтв 15:27:09 #177 №1415549

>>1415524
>самый широкий универсальный шаблон который никак не форматирует выдачу
В таверне он включает в себя маркеры шаблона, которые используются только квеном. Как раз из-за этого у тебя глм и срет <|im_end|>, дурачок.

Аноним 13/11/25 Чтв 15:34:00 #178 №1415554

>>1415425
> А в этом какой смысл? Пойдет обсчет атеншна и там будет уже сам перфоманс ядер влиять. Мало того что так никто не делает, так еще и скорость будет радикально от контекста зависить. Только не говори что ты у себя не только линейные но и с атешном тестил.
Уф, да что так сложно, давай объясню в десятый раз.

Есть DDR4. На ней есть определенная скорость генерации, которая зависит от пропускной способности и не зависит от проца, если он нормальный.
Верно, или что-то не нравится?
DDR5 с псп вдвое выше должна давать вдвое больший перформанс, верно?
Но прирост получается меньше при совершенно равных прочих условиях.

Дело в том, что не имеет значения, как именно ты тестируешь, лишь бы условия были равны для всех платформ.
Ты прав, искать 5090 накладно, поэтому проще протестировать на проце.
Замедление? А разве оно не будет одинаковым и у тебя, и у меня, и если процессор не имеет значения, то результаты все равно должны сойтись на всех платформах, м? Или оно по-разному замедляется?

SET/export CUDA_VISIBLE_DEVICES=[]
Можешь в начале стартануть с видяхой, а потом без и сравнить результаты генерации для себя.
./llama-bench -r 3 -p 512 -n 512 -ngl 0 -m твоя модель лишь бы влезала в оперативу, скинешь где скачать, я сам качну.
Можешь поиграться с -t на свой вкус.

Ну, вроде бы, максимально стандартизированный тест от самого Герганова.

Аноним 13/11/25 Чтв 15:45:10 #179 №1415567

>>1415549
>дурачок
Найс подпись. :)

BTW - нормальные люди давно <|im_end|> в строку стоп-токенов добавили, и никаких проблем не имеют, даже если хочется ChatML использовать.

Аноним 13/11/25 Чтв 16:10:08 #180 №1415588

>>1415458
Не смог найти, у меня 89000 и латенси примерно такая же.
6000 частота.

А по токенам, можешь сделать этот тест? >>1415554

Аноним 13/11/25 Чтв 16:11:10 #181 №1415590

>>1415547
Ну расскажи чем тебя устраивает.
На chatml который тут форсят для глм ответы уровня мистраля

Аноним 13/11/25 Чтв 16:25:14 #182 №1415603

>>1415590
> глм ответы уровня мистраля
Ты когда жирнишь, хоть накидывай потоньше, а то совсем пиздец, у меня аж с монитора закапало.

Аноним 13/11/25 Чтв 16:30:29 #183 №1415610

>>1415603
>у меня аж с монитора закапало
Ему бесплатного жира доставили, а он блядь недоволен.

Аноним 13/11/25 Чтв 16:31:46 #184 №1415615

image.png

А когда на обниморде вот так разбивают файл что качать? Или как-то оба и объединять потом.

Аноним 13/11/25 Чтв 16:34:12 #185 №1415620

>>1415615
Качай все части, запускай первую

Аноним 13/11/25 Чтв 16:34:39 #186 №1415621

>>1415615
Оба файла в одну папку. Кобольт/жора подхватят второй файл сами.

Аноним 13/11/25 Чтв 16:38:21 #187 №1415626

>>1415590
>ответы уровня мистраля
Любой кто пользовался эйром и геммой, никогда не подумает на мистраль, потому что выдача - это чистейшая геминька дома, только не пытается осуждать user в каждом предложении. Я не знаю, где ты там мистраль увидел.
Мистраль настолько самобытна в своем слопе и запоминается в своей выдаче, что её сложно перепутать с чем то, потому что мелка и очень любит паттерны.
Если ты сравниваешь с большой мистралью, тут я ничего не буду говорить, так как не запускал её.

Аноним 13/11/25 Чтв 16:41:59 #188 №1415630

>>1415567
Дегенерат сам создал себе проблему использованием неправильного шаблона, потом борется с последствиями костылями, ору.

Аноним 13/11/25 Чтв 16:45:15 #189 №1415633

>>1415590
>На chatml который тут форсят для глм ответы уровня мистраля
Скил ишью в треде

Аноним 13/11/25 Чтв 16:46:07 #190 №1415635

>>1415630
Дегенерат даже не знает что у него стопстринги из коробки используются, ору

Аноним 13/11/25 Чтв 16:55:34 #191 №1415645

image

блять кароче официяльно заявляю эти все крошки от крупных коммерческих моделей просто хуита, закидываете бабла на опенрутер выбираете любую модель там есть куча free моделей и всё рпшите кумите и прочее С КАЙФОМ, а не как на эти все лупы отсутствие развития сюжета пока сам не подкинешь чего нидуь новое

Аноним 13/11/25 Чтв 17:00:01 #192 №1415653

>>1415474
>ЕМНИП в кобольде плейсхолдер для картинки в тексте чата, ставь куда хочешь.
Лол ну как бы было бы здорово если бы это документировалось так как я чет не нашел документацию по этому месту. Притом лол если просто скормить в чат формат картинки то модель начинает галлюцинации устраивать с тем что видит.

>>1415645
это ты с химерой то с кайфом дрочишь? Она же просто как хуёвый R1.

Аноним 13/11/25 Чтв 17:01:00 #193 №1415655

Аноним 13/11/25 Чтв 17:03:04 #194 №1415657

image

>>1415653
>Она же просто как хуёвый R1.

нормально всё с ней я скозал если присунуть нормальный пресет https://github.com/NemoVonNirgend/NemoEngine/blob/main/Presets/NemoEngine%205.9.1%20Chimera.json
анивэй лучше чем эти все 20б

Аноним 13/11/25 Чтв 17:04:26 #195 №1415658

image.png

>>1415588
Сделал. Дежавю, уже по твоему же вроде бы запросу делал тест без ведеокарты.

Аноним 13/11/25 Чтв 17:05:41 #196 №1415660

>>1415657
> лучше чем эти все 20б
Чел... Ты пишешь в треде где 235б уже вообще не редкость

Аноним 13/11/25 Чтв 17:06:04 #197 №1415662

интересно тот анон который обложился радивонами (тремя штуками по 24гига) ещё есть итт

Аноним 13/11/25 Чтв 17:06:56 #198 №1415663

>>1415660
>235б
>из которых активны 3б

МоЕ нищитается я скозал

Аноним 13/11/25 Чтв 17:17:05 #199 №1415668

ДЕГ - Сиди, мудак, ты - шизофренник.mp4

>>1415663
>МоЕ нищитается
>Постом выше продвигал дипсик, который мое с 37В активных параметров

Аноним 13/11/25 Чтв 17:21:23 #200 №1415673

>>1415658
Спасибо! =)
Не знаю, может и по моему, хотя вроде я просил только чувака с Ryzen 7700 какого-то…

———

Итак, я ради интереса прогнал следующим образом:
DDR4:
llama-bench -r 3 -p 512 -n 512 -ngl 0 -m G:\Models\Minimax\MiniMax-M2-MXFP4_MOE.gguf
ggml_cuda_init: failed to initialize CUDA: no CUDA-capable device is detected
load_backend: loaded CUDA backend from F:\NN\llama.cpp\ggml-cuda.dll
load_backend: loaded RPC backend from F:\NN\llama.cpp\ggml-rpc.dll
load_backend: loaded CPU backend from F:\NN\llama.cpp\ggml-cpu-haswell.dll
| model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| minimax-m2 230B.A10B MXFP4 MoE | 115.27 GiB | 228.69 B | CUDA | 0 | pp512 | 18.12 + 0.62 |
| minimax-m2 230B.A10B MXFP4 MoE | 115.27 GiB | 228.69 B | CUDA | 0 | tg512 | 5.30 + 0.08 |

build: 879dec341 (7046)

DDR5:
./llama-bench -r 3 -p 512 -n 512 -ngl 0 -m /home/user/models/MiniMax-M2-MXFP4_MOE.gguf
ggml_cuda_init: failed to initialize CUDA: no CUDA-capable device is detected
| model | size | params | backend | threads | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| minimax-m2 230B.A10B MXFP4 MoE | 115.27 GiB | 228.69 B | CUDA,BLAS | 6 | pp512 | 13.83 ± 0.17 |
| minimax-m2 230B.A10B MXFP4 MoE | 115.27 GiB | 228.69 B | CUDA,BLAS | 6 | tg512 | 8.34 ± 0.00 |

build: a19bd6f7c (7051)

На 48 псп я имею 5,3 тпс, а на 88 — 8,3, хотя должно было бы быть 9,7!
Как говорится «расчетные».
Получается, будто бы у меня 75 псп.
Неприятненько же.
Ну и сама по себе потеря 1,5 токенов (а с учетом видяхи, там увеличивается и скорость генерации — и разрыв!) неприятна для таких значений.
Мое мнение — дело в моем процессоре.

Окей, я не буду об этом ныть больше. Последний раз скажу, что «любое говно» не подойдет, на мой взгляд. А дальше уж хер с ним.

Надеюсь, >>1415425 скинет тестик.

Аноним 13/11/25 Чтв 17:22:11 #201 №1415674

image

>>1415668
for real? бляя ну это фэйл конечно лол

Аноним 13/11/25 Чтв 17:26:53 #202 №1415677

>>1415653
>Лол ну как бы было бы здорово если бы это документировалось
Флаг в руки и пше на шею.
>>1415673
>На 48 псп я имею 5,3 тпс, а на 88 — 8,3, хотя должно было бы быть 9,7!
>Как говорится «расчетные».
>Получается, будто бы у меня 75 псп.
А что не так то? Скейлинг не линейный, увы.
>>1415674
Он ещё не знает, что скорее всего все корпы давно МОЕ-параша, ибо быстрее и дешевле (на качество всем давно насрать).

Аноним 13/11/25 Чтв 17:28:48 #203 №1415678

>>1415668
>>1415677
>Он ещё не знает

а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе?
эта чё получается что столетняя лама3 на 70б полноценных будет лучше чем дипсик?! или тут анал огия с производительными и энергоэфиктивными ядрами синтола не проканает?

Аноним 13/11/25 Чтв 17:35:58 #204 №1415682

>>1414642
У меня также эта хуита на Винде падает. Но у меня десятка древняя ltsc я уже привык что там новый софт какой-то соевый может не поехать. Llama CPP со встроеным rocm работает но скорости ниже чем на линуксе. Советую купить sata SSD на 120 гб, поставить туда Линукс и не ебатся с виндой. Там потом запускаешь кобальт со встроенным rocm и проблем не знаешь. Ничего настраивать не надо тупо две кнопки нажать из под линукса.

Аноним 13/11/25 Чтв 17:45:43 #205 №1415684

>>1415677
> А что не так то? Скейлинг не линейный, увы.
Но я все же рискну апдейтнуть проц хотя бы до i7.
Может быть выброшу деньги на ветер, канеш, зато морально буду удовлетворен, сделал все что мог и все такое.

>>1415677
Даже «скорее всего» тут скорее всего лишнее.
Не помню, что там у Claude, но про Gemini и GPT точно говорили, что моешки.

>>1415678
Не будет конечно, потому что толку от плотных моделей не так много, как хотелось бы местным сторожам.
Есть еще старая же llama 405b, немотроны разные (253b, например, но это дистилл лламы), сходу не упомню, что еще.
Но по факту, ничего кроме черепашьей скорости ты на них не получишь. Мифическая глубина есть тока в башках тех, кто топит за крупные денс-модели и против корпоративных моделей и Kimi K2, Deepseek, GLM, Qwen и прочих-прочих-прочих крупных моделей (все они мое).

>>1415399
Ну, только что шизы про меня и поняли что-то из своей ноосферы.
Щас бы воду и желчь видеть в моих сообщениях, и не видить в сообщениях оппонентов. =)

>>1415403
Три раза за два года, вау. Вот ето дохуя. =)

Аноним 13/11/25 Чтв 17:46:37 #206 №1415686

>>1415682
Вот чисто ради интереса — а LMStudio не пробовал? Там тоже rocm вроде был.

Аноним 13/11/25 Чтв 17:50:51 #207 №1415688

>>1415678
>а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе?
Только большой дристраль 123B, лама 3.1 405В и её тьюны типа Hermes 4 и немотрон 253В(который та же есть урезанная лама).

>столетняя лама3 на 70б полноценных будет лучше чем дипсик?!
Ты ебу дал? Даже 405В лама соснет у дипсика ибо говно, а не модель. Мощность мое модели не определяется активными параметрами, она примерно идет как половина от общих параметров.

Аноним 13/11/25 Чтв 17:55:59 #208 №1415691

>>1415451
Испотрошил аир на разных промптах, и как оказалось (опять же имхо и пук в воду без пруфов) самый короткий промпт в 3 строчки - это самый лучший вариант. Если нет какой-то цели выжать POV, внутренний голос с прочей шляпой и нужен простой сторителлинг, то стандартных "ты сторрителлер в этом бесконечном сценарии с рейтингом 21+" будет более чем достаточно. Чем больше писал правил, тем менее креативным и более линейным становился аир. Как в плане кума, так в плане рп. Тестировал на карточке с лорбуком в 5к токенов.

Аноним 13/11/25 Чтв 17:56:14 #209 №1415692

эта новая шарит https://www.kimi.com/share/19a7db58-5932-84bf-8000-00004db4b471
it took 1T parameters to solve задачу про кашу лол

эта не шарит (так же как и гемма и прочие хуита ламы) https://chat.qwen.ai/s/d69eb0c0-ebf7-4057-822f-dd1c1c31297c

Аноним 13/11/25 Чтв 18:04:27 #210 №1415695

>>1415678
>или тут анал огия с производительными и энергоэфиктивными ядрами синтола не проканает?
Просто улучшение по другим фронтам компенсирует дебильность МОЕ. Поэтому нет, старая плотная ллама хуже новых мое. Но если бы были новые плотные...
>>1415684
>Но я все же рискну апдейтнуть проц хотя бы до i7.
Отпишись, будут ли результаты. Хотя на интуле вроде 8 ядер это пердел, увы.

Аноним 13/11/25 Чтв 18:15:15 #211 №1415705

>>1415686
Пробовал давно как-то его запускать. Там можно rocm выбрать но вроде тоже не завелось. Но мне сама программа не понравилась.

Аноним 13/11/25 Чтв 18:27:14 #212 №1415711

>>1415655
Но он может не срать этими тегами если это правильно настроить... господи дай ума этому анону

Аноним 13/11/25 Чтв 18:30:59 #213 №1415712

тред не читай@сразу спрашивай

Что сейчас актуально использовать для запуска LLM локально, в консоли линукса, чтобы потом прикрутить к этому фронт?

железка 2хP40 через vGPU

Аноним 13/11/25 Чтв 18:35:48 #214 №1415714

>>1415712
Все полезно, что в рот полезло.
Сейчас MoE в тренде.
Это когда есть модель-роутер и куча экспертов. Эксперты идут на оперативу, а в видеопамять только роутер и контекст.
Так что, DDR5 + 5090 твой выбор.
Запускать мое в видеопамяти тоже круто, но там уже неплохо бы теслочек штук 5 накопать, чтобы было 120 гигов.
Ну или хотя бы 3-4 для глм-аир.

Аноним 13/11/25 Чтв 18:42:27 #215 №1415720

>>1415655
Мой форс? Тут уже несколько анонов ответили что на чатмл выводы меняются. В лучшую или худшую сторону решает каждый сам. Поешь говна, попрошайка пресетов. Ору что ты даже стопстринги настроить не могёшь и готов неделями срать в тред лишь бы тебе принесли масткр импорт

Аноним 13/11/25 Чтв 18:47:43 #216 №1415724

>>1415668
На видриле каждый первый постер итт.

Аноним 13/11/25 Чтв 19:01:32 #217 №1415733

>>1415554
Конечно сложно, ведь ты сначала утверждаешь что
> скорость генерации, которая зависит от пропускной способности и не зависит от проца
а потом предлагаешь полностью выгружать все-все а не только линейные слои. Тебя не смущает сложность обсчета атеншна, жалобы на просадки в разы/на порядки уже на малом контексте при выгрузке целых блоков, и в то же время хорошая работа моэ и плотных поделей при правильной выгрузке? Раз не понимаешь, хотябы вот примеры тебе.
> Дело в том, что не имеет значения, как именно ты тестируешь, лишь бы условия были равны для всех платформ.
На ноль делишь. Если хочешь смотреть импакт от псп рам - тестируй операции завязанные на нее, а не вноси смуту добавляя существенную долю компьюта, которая уже будет напрямую зависеть от производительности проца в конкретных операциях.
Потому (в том числе, других факторов хватает) у тебя и происходит >>1415673 просто выгрузи на проц только линейные слои экспертов и получишь линейную зависимость о псп рам.

Если сегодня закончу не слишком поздно - что-нибудь прогоню, если нет - уже в воскресенье.

Аноним 13/11/25 Чтв 19:03:34 #218 №1415734

>>1415720
Ты заебал 99го, теперь заебываешь какого то рандома сфантазировав в голове про пресеты.
Ты мне скажи, ты ебанутый ?

Аноним 13/11/25 Чтв 19:06:19 #219 №1415737

Вообще было бы интересно увидеть тесты больших моешек на такой конфигурации: какой-нибудь миник с разделённой памятью (128гб LDDR5Х, лучше больше и лучше конечно, но таких нет пока) плюс внешняя мощная видеокарта (5090 в идеале, понятно). Может это вообще новая база.

Аноним 13/11/25 Чтв 19:06:36 #220 №1415739

>>1415734
Да чтож такое ну, опять ты по пьяне не тому реплаишь

Аноним 13/11/25 Чтв 19:09:13 #221 №1415740

>>1415739
Да ? Ну ладно.

Я слежу за тобой.

Аноним 13/11/25 Чтв 19:13:08 #222 №1415743

>>1415740
Если уж тыкать пальцем утка, то ты и был одним из тех кто его заебал. И думаю что тебе хорошо известно что в треде живёт шизик который байтит на пресеты срачами. С квеном удалось даже

Аноним 13/11/25 Чтв 19:13:41 #223 №1415744

>>1415737
Если не вылезут какие-то существенные задержки через профессор-тандерболт-псина-гпу то будет действительно ебать. Та память или просто быстрая с частотами за 8ггц, или в случае некоторых чипов там больше двух каналов и скорости еще выше. Насчет базы сложно сказать, они сами по себе дорогие, переходник-бокс дорогой, блеквелл дорогой.
Есть еще план б - можно наколхозить подключив через m2 райзер-адаптер, там и задержек особо не будет, и недорого, просто колхозище.

Аноним 13/11/25 Чтв 19:14:44 #224 №1415745

>>1415737
Внешняя гпу? Ну видимо подразумевается ноутбук. Собственно вопрос а с охлаждением что? Планки и проц в постоянном нагреве, отводится всё это хуево. Скорее гроб а не база

Аноним 13/11/25 Чтв 19:22:09 #225 №1415749

>>1415733
> а потом предлагаешь полностью выгружать все-все а не только линейные слои
Как бы да, но только вот соотношение между различными типами памяти с активной видеокартой в итоге получается такое же, как и без нее.
Т.е., подрубание видяхи мне накидывает снова меньше, чем должно быть по псп.

> Если сегодня закончу не слишком поздно - что-нибудь прогоню, если нет - уже в воскресенье.
Благодарю, как удобно.

Аноним 13/11/25 Чтв 19:25:28 #226 №1415751

>>1415743
Я ему слова плохого не говорил. Наоборот, лампово беседовали.
Я уже не раз писал, что я не в ответе за долбоёба пишущего курсивом. Ну нет на доске айди, а аватакфажить не комильфо к каждому посту.
> треде живёт шизик
Это не один шиз, а гости с асига. Но вместо того чтобы не кормитесь,байтитесь как школьники. Хотя я и сам такой же.

Аноним 13/11/25 Чтв 19:26:51 #227 №1415753

>>1415749
Вообще не понял что за соотношения. Перефразируй или как-то проще опиши. С одинаковой видюхой и одинаковой конфигурацией выгрузки получаешь не пропорционально больше скорости рам?
Так это нормально, ведь у тебя еще видеокарта работает. Тут надо вообще считать не по скорости а по времени обработки одного форварда, сменой платформы на более быструю ты ускорил время, приходящееся на обсчет процом, но никак не ускорил часть что считает видеокарта.
Для иллюстрации и понимания тут можно представить два предельных случая: один предельный случай когда у тебя абсолютно идельная гпу, что считает свою часть мгновенно - тогда будет прямая пропорция без смещения; второй - идельный проц, тогда скорость будет определяться целиком видеокартой и не сможет ее превысить.

Аноним 13/11/25 Чтв 19:31:04 #228 №1415756

>>1415733
Хотя, ок, допустим.

> просто выгрузи на проц только линейные слои экспертов и получишь линейную зависимость о псп рам.
Окей, предположим так.
Какой командой это можно сделать?
Стандартные --cpu-moe и ffn_x_exps память не «раскрывают» (тьфу блин, простите, второй раз это слово использую).

Аноним 13/11/25 Чтв 19:37:56 #229 №1415761

>>1415756
Регэкспом или командами-макроссами. --cpu-moe сделает нужное, если глянуть в коде то можно увидеть что оно, n-cpu-moe и подобные по сути просто добавляют дополнительные регэкспы.

Аноним 13/11/25 Чтв 19:38:12 #230 №1415762

>>1415753
Ладно, ты меня убедил, пойду считать миллисекунды и вычитать проходы видеокарты из обоих результатов. Может и правда я ошибся с грубым подсчетами.

Аноним 13/11/25 Чтв 19:45:54 #231 №1415765

>>1415762
Ты можешь сделать все проще - воспользуйся настройками биоса, и прогони тесты бенчмарк с разной частотой рам и там и там. Если не вмешаются какие-то сторонние факторы или проблемы, то по двум наборам этих точек можно подтвердить или опровергнуть степень скейла от псп рам, вычислить и выделить скорость видеокарты-проца и выделить сторонюю компоненту если там есть еще что-то.

Аноним 13/11/25 Чтв 20:24:14 #232 №1415804

>>1415368
>Не мое дело, канеш, но почему магистраль, а не мистраль? Это ж криво обученный недоризонинг с просратыми языками, не? Будто бы мистраль 3.2 гораздо лучше магистрали 1.2…

Да нет какой-то причины, влез в локальные LLM 1.5 недели назад, качал то что новее и выше в рейтингах которые нашел. Там Magistral был выше чем Mistral. Это в общем-то единственная причина почему именно Magistral. До тестов персональных ощущений толком не дошел так как три основные LLM которые используются - gpt-oss-20b, qwen3-30b-thinking и qwen3-coder-30b, а Magistral висит просто как запасная, на случай если эти не справятся с задачей. Это всё не для РП, разумеется.

Может и использовал бы Magistral/Mistral как основную, но скорость печалит на фоне тех которые используются сейчас. Довольно тяжело привыкнуть к 15 (с падением до 10) t/s после 60 на gpt-oss и 30 t/s на квенах. Вот и решил попробовать что-то сделать с этим, может получится выжать хотя бы 20 t/s через выгрузку каких-нибудь частей. Но пока получается хуже чем вообще без выгрузки.

Аноним 13/11/25 Чтв 20:41:42 #233 №1415819

>>1415711
Разумеется, если настроить его на родной глм пресет, то он ими срать не будет, но это тогда уже будет не ChatMl.
> попрошайка пресетов
Где я просил хоть что-то лол? Наоборот, у меня все как раз есть - и правильный пресет под глм в том числе, это ты тут на чужом для глм чатмл сидишь и байтишь чтобы тебе нормальный пресет дали. Возьми вон пресет гичана что я выше кинул и успокойся уже.

Аноним 13/11/25 Чтв 20:44:08 #234 №1415820

>>1415819
Терпи сырок, меня всё устраивает и я не доказываю другим с пеной у рта что одного лучше другого

Аноним 13/11/25 Чтв 20:47:19 #235 №1415822

>>1415820
>я не доказываю другим с пеной у рта что одного лучше другого
Ну да, ты просто жирно троллишь что модель лучше работает на чужом для нее шаблоне, а не на своем родном. Или ты реально дурачок и действительно так думаешь, я пока не понял.

Аноним 13/11/25 Чтв 20:51:01 #236 №1415827

>>1415819
>>1415822
>>1415819
>если настроить его на родной глм пресет
Даже на чатмл при правильной настройке Эир не будет срать тегами. Ты не можешь это осмыслить потому что широко открываешь рот перед драмером и гичаном, кушая промт токены и за деда и за бабку в пятом поколении, даже не разбираясь как что работает. Тебе уже дважды ответили как правильно накатить чатмл на Эир и зачем. Не надо оно тебе ну и замолкни тогда,
>модель лучше работает на чужом для нее шаблоне
Предлагаю тебе выбор: ты линканёшь посты где кто нибудь пишет что на чатмл выводы именно лучше (а не другие) или возьмёшь хуй в рот и завалишься наконец со своими набросами? Ладно есть ещё третий вариант, соскочить с темы, подозреваю это ты и выберешь
Впрочем допускаю что ты ребёнок с fomo тряской и тебя корёжит что у кого то там может быть что то работает лучше твоего)))

Аноним 13/11/25 Чтв 20:55:25 #237 №1415832

Привет, ребятки. Пытаюсь заставить ллмку генерировать охуительные истории сюжеты для рассказов в жанре киберпанк, и столкнулся с такой фигнёй. GPT-OSS-120b всё время уходит в сторону условно "безопасных" сюжетов. То есть, любой сюжет сводится к тому что герои героически предали огласке заговоры корпорации, инициировали поправки в законы и так победили злобных недругов. Ничего что можно трактовать как "нелегально" или "вызывающе". Нейронка не хочет писать про перестрелки. убийства, хакерство и киберпанковский гримдарк.
Приходит в голову только то что дело в модели, мол её натренировали на такое поведение. Поэтому хочу попробовать что-то другое. Какие модели сейчас актуальны для ролеплея и художки? Чтоб прямо свежачок? Мистраль из списка в шапке выглядит достаточно старым, годовалой давности. Qwen3 посвежее, но может есть что-то покруче?

И да, на счёт химии с промптами и параметрами инференса - есть ли какие-то хинты по правильной их установке, на случай если проблема во мне? Или хотя бы принципы подбора? Не хотелось бы полным перебором баловаться.

Аноним 13/11/25 Чтв 20:59:54 #238 №1415835

Хотелось бы доступный опенсорс, который я на своих двух видяхах могу запустить - бюджет два gpu в 48Гб+24Гб.
Если что-то имбовое, и доступно через OpenRouter - могу пойти и туда, но только если не сильно дорого - Клод сразу идёт нафиг, до сих пор помню как он ждал кучу денег на кодинге.

Аноним 13/11/25 Чтв 21:00:18 #239 №1415836

>>1415835
сюда
>>1415832

Аноним 13/11/25 Чтв 21:05:03 #240 №1415841

>>1415832
>Приходит в голову только то что дело в модели
Именно так, она для другого предназначена. Удивительно что она вообще хоть как-то играет в РП.

>Какие модели сейчас актуальны для ролеплея и художки
Если нужна в том же размере что и OSS, то GLM Air - отличный вариант.

Аноним 13/11/25 Чтв 21:06:21 #241 №1415842

>>1415832
>GPT-OSS-120b
Хуйня в рпшинге. Пробуй GLM AIR, он гораздо лучше для этого

Аноним 13/11/25 Чтв 21:08:32 #242 №1415843

>>1415695
>Но если бы были новые плотные...
Есть команд-а, который почему то здесь не катают. А ведь вин же!

Аноним 13/11/25 Чтв 21:29:42 #243 №1415853

>>1415827
>со своими набросами
Индивид набрасывает новичкам за уши хуйню жирными слоями, пользуясь тем что все олды знают его как смайлофажащего агрессивного и неадекватного шиза и просто игнорят его посты, и при этом еще и проецирует свои действия на других.
>ты линканёшь посты где кто нибудь пишет что на чатмл выводы именно лучше (а не другие)
Ага, к слову "лучше" прицепился. Ты именно это слово не говорил последние пару тредов, но ты писал вот что >>1415524
>Это самый широкий универсальный шаблон который никак не форматирует выдачу. Никак не ограничивает а значит и выдача разнообразнее.
Далее, в прошлом треде ты прямо советовал нашим новичкам использование этого шаблона с глм, на что другие аноны(я в той дискуссии не участвовал) тебе указали что это хуйня, тот же анон с жирным тейком что выдача глм с чатмл похожа на мистраль присутствует и итт, ты сейчас не только со мной ругаешься. А вообще ты с этим чатмл носишься уже тредов десять с тех пор как 99 мельком упомянул что использовал его для аира, а ты, как его верный фажик, подхватил эту херню.
>широко открываешь рот перед драмером и гичаном
Найс проекция твоих отношений с 99. То что я как и они осилил вытаскивание шаблона из модели - не делает меня их фанатом. Но для новичка лучше реально взять гичана чем кормить модель неродным шаблоном.

Аноним 13/11/25 Чтв 21:37:23 #244 №1415859

>>1415853
Нюнезависимый, ты рили поех. Кто ты, кто я? Ты думаешь тут два человека сидят? А нет, уже три получается. Нюня ты да я, да мы с вами, получается?
Как и предсказывалось ты выбрал третий вариант (соскочить с темы то бишь), ни одного линка на пост где хоть какой нибудь даун говорил бы что чатмл сила глм4.5 могила. Иди нахуй, а я буду дальше тихонько энжоить на чатмл

Аноним 13/11/25 Чтв 21:51:06 #245 №1415865

>>1415859
Ты не понимаешь. Нюня ну вот настолько мудак, что ты если с ним согласен, то тоже мудак! Хотяб наполовину. И вообще фажик. Нормальные мужики сосут у гичана.
А вы уже выбрали свой хуй?

Аноним 13/11/25 Чтв 21:55:49 #246 №1415870

17580572569140.png

>>1415865
>>1415859
Да как вы заебали.

Аноним 13/11/25 Чтв 21:56:26 #247 №1415873

>>1415765
Я воспользовался обоими способами и получил интересный результат.
Разница действительно есть, и видеокарта разгружает проц, но рост не настолько хороший.
Так же и с частотой. Если ее занизить, то скорость упадет, но не так много.
Истина оказалась посередине.
За 8% частоты я все-таки выигрываю 4% скорости.
Причем, и видяхой, и без нее.
То есть, на самом деле, с видяхой я выигрываю немного побольше, учитывая что есть фиксированная часть, где-то процентов 5-6.

Выходит, 13400 почти хватает на 6000 частоты, но скорее всего хватит на частоты до 5600.
А вот выше я бы брал уже 13600к, который и стоило взять.

Ладно, спасибо, я разобрался, все не так плохо, но и не так хорошо. Правда оказалась как раз посередине.
Признаю свою ошибку — в проц упор был минимальный, 9-10 ядер не нужно, для хорошей памяти 8 ядер хватит. На интеле жизнь есть. =)

Теперь буду чуть меньше жалеть, но все же лучше не жмотиться и брать 13600, ИМХО.

Хотя, кто вообще сейчас собирать будет, с такими ценами на память…

Аноним 13/11/25 Чтв 22:03:31 #248 №1415881

>>1415865
Прав. Неймфаги заслуживают сосать хуй. Товарищ выше уже походу всему треду по бейджику выдал, всех знает.

Аноним 13/11/25 Чтв 22:04:18 #249 №1415882

>>1415832
Осс - дно для рп, сторитейла и подобного. Йоба трендовые модели для этого - эйр, квен235, жлм4.6, если достаточно рам и заморочишься с раскидыванием по обеим гпу - будет норм скорость.
>>1415873
Не бывает "истин посередине", все эти вещи детерминированы и подчиняются четким законам. Если есть какая-то компонента постоянного смещения то ее детали нужно выяснить и явить народу, сразу довольно заурчат получив ускорение. Скинь значения что получаешь и подробности что и как запускаешь, это будет полезным.
Ну а насчет влияния перфоманса проца - это можно замерить сменой множителя частоты, не забывая про avx оффсеты. Скейл перфоманса ядер будет самый прямой из всех возможных, главное не трогать остальные частоты анкора и прочего.

Аноним 13/11/25 Чтв 22:04:41 #250 №1415883

>>1415873
Отмена нахуй, все это время это было 6200 частота, я ебал эту материнку, гнилобайт ебучий, говно собачье, долбоебы хреновы. Я в биосе провел больше времени, чем в бенчах.

Аноним 13/11/25 Чтв 22:18:09 #251 №1415887

Какая сейчас относительно мелкая модель котируется для генерации худлита на инглише и имеет минимум цензуры? А то у меня какая-то соевая хуйня поехала от своего прошитого позитивного фидбека и начала генерировать что рабство это было хорошо так как способствовало распространению негров и увеличению диверсити и инклюзивити повсюду

Аноним 13/11/25 Чтв 22:28:00 #252 №1415891

>>1415873
>>1415883
Простите, сгорел.
Перетестил немного, отмена отмены.
Вроде бы циферки обратно сходятся.
Опять получаю результат, что проц выдает чуть меньше, чем должен.
Перебираю разные частоты памяти и до 5800 прирост есть, дальше прирост останавливается.

Но тут такая ебучая материнка, >>1415882 прости, пытаться менять частоты процессора я пожалуй не буду, слишком это утомительно, тут в биос заходит от раза к разу.

Мои нервы за вечер все. х)

Аноним 13/11/25 Чтв 22:29:16 #253 №1415892

>>1415891
Ничего ничего, махорки накатишь и всё образуется

Аноним 13/11/25 Чтв 22:44:03 #254 №1415898

>>1415843
>Есть команд-а, который почему то здесь не катают. А ведь вин же!
Почему же не катают - катают, у кого врам есть. А вот интересно, какой-нибудь Fallen-Nemotron затюнили? Народная модель могла бы быть.

Аноним 13/11/25 Чтв 22:45:56 #255 №1415899

image.png

>>1415898
>Fallen-Nemotron
>Народная модель
>могла бы быть

Аноним 13/11/25 Чтв 22:53:08 #256 №1415901

Научите делать промпт для взаимодействия двух персонажей.
А то получается такая хрень:

Вопрос персонажа1
Действие персонажа 1
Второй вопрс персонажа1
Еще одно действе персонажа1

ПЕРСОНАЖ2: Ответ на первый вопрос персонажа2
реакция на первое действие персонажа2
Ответ на второй вопрос персонажа2
РЕакция на действие персонажа2.

Как сделать что бы оно, блять, шло в одним блоком повествования?

Аноним 13/11/25 Чтв 23:08:45 #257 №1415908

>>1415843
> А ведь вин же!
На катают потому что не разделяют твоего восторга. Он способен упускать достаточно очевидные вещи из-за чего катать его в рп - боль. Одного фейла хватит чтобы заруинить то, что долго выстраивалось, как бы ни был хорош в остальном.
>>1415891
> ебучая материнка
Причин может быть множество а последствия самые разные, хули. Прогони тогда тесты скорости врам, может они у тебя тоже не скейлятся, и бенчмарки mkl, хотя последние более сложные операции дадут.

Аноним 13/11/25 Чтв 23:27:50 #258 №1415916

>>1415474
>ЕМНИП в кобольде плейсхолдер для картинки в тексте чата, ставь куда хочешь.
Как через API то вставлять этот плейсхолдер? :/.

Аноним 13/11/25 Чтв 23:38:21 #259 №1415927

>>1415678
>а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе?
Как ты себе представляешь инференс и тренировку 1.5т+ плотной модели? Производительность ТПУ на самом деле не прям намного выше, чем производительность топовых видеокарт), даже эти охуевшие датацентры за десятки миллиардов баксов это не потянут нормально. У тебя банально один токен тренировки и генерации будет стоит в 50 раз дороже и медленнее.

Аноним 13/11/25 Чтв 23:54:32 #260 №1415930

Я разрешу ваш спор.
Попросите эир вылизать вам slit/hole on the tip, при условии что пенис уже показан.
Чатмл просто не понимает о чём речь и девушка тянется к своей пизде, возможно если прям вести за руку и описать подробнее это сработает, но я не пробовал, ведь на глм шаблоне она всё понимает и так

Аноним 14/11/25 Птн 00:21:22 #261 №1415936

>>1415645
А скок закидывать над и чо за модели там, на какие веса стоит рассчитывать вообще?

Аноним 14/11/25 Птн 00:32:20 #262 №1415937

>>1415832
Как тебе уже выше написали, Оса - фиговатый выбор для RP или историй. Это в основном - ассистент (причем "дилетант широкого профиля", LOL).
Добавлю только, что в принципе - она конечно что-то может и в RP с рассказами, но требует для этого охренительно изворачиваться (или даже извращаться), а результат все равно хуже, чем у того же GLM 4.5 Air. Да и Гемма 27B получше справится, IMHO.

Аноним 14/11/25 Птн 01:28:25 #263 №1415956

>>1415937
В штанах у тебя дилетант, старый...

Аноним 14/11/25 Птн 01:35:58 #264 №1415959

Мне кто то ответит уже как разговорить ассистента и сделать из него бро которому можно излить душу? А то будто разговариваю с сжв бабой которая на все советует пойти лечиться и аполоджайзит
Неужели только лоботомирующий промпт с порно слопом сработает?
У меня щас дефолтный промпт асистен эксперт от таверны с вкраплениями "анзензорд" и что можно описывать сексуальные темы, но это не работает нихуя

Аноним 14/11/25 Птн 01:40:07 #265 №1415963

>>1415959
То есть не бро, а я хочу именно официальный стиль общения, вот как ассистент где угодно пишет но без цензуры

Аноним 14/11/25 Птн 01:47:00 #266 №1415968

>>1415963
Ну то есть еще лучше чтобы была тянка без цензуры. Такое можно промптом сделать? Чтоб без говна всякого типа повестки. Ну или хотя бы бро, официальный стиль необязательно но хорошо бы

Аноним 14/11/25 Птн 01:58:12 #267 №1415976

>>1415968
А ладно похуй, забейте. Я бухой

Аноним 14/11/25 Птн 02:00:18 #268 №1415981

>>1415968
Хули ты язвишь?
Я пришел думая что локалки ох хо хо, не то что вонючие корпы где всё цензурят, а тут точно такое же говно один в 1.
С таким же успехом могу с жпт общаться

Аноним 14/11/25 Птн 02:04:16 #269 №1415982

>>1415981
Ты под чем? Я на свой пост ответил, дополнил

Аноним 14/11/25 Птн 02:22:17 #270 №1415988

>>1415968
Самый ленивый путь: создай примитивнейшую карточку с человеком/нечеловеком с приятными тебе свойствами и напиши что это ассистент - помогатор. Будет помогать неофициально и мило, но при этом также умно. Там же может указать пожелания по стилю общения.

Аноним 14/11/25 Птн 05:39:42 #271 №1416021

cover3.jpg

>>1415988
А как побороть то что у неё постоянно протекают аннотации что хоть она и согласна быть тяночной-ассистентом, но не может заменить полноценного человека? Я её много раз прошу не упоминать этого, но рано или поздно случается протечка..

Аноним 14/11/25 Птн 05:53:27 #272 №1416022

>>1415959
Ну по моему двух-месячному опыту без промпта это почти невозможно, тебе нужен именно прям промпт с примерами/описанием что от модели требуется если ты хочешь сою свести к минимуму, без этого будет идти дефолтный подбор то на чем модель больше чего обучалась или тюнилась.
>>1415968
>без цензуры
Да это легко, промптом все решается. Без него конечно модель будет соевая думаю сам понимаешь почему, ну или можно конечно скачать файнтюн на еблю, там изначально мозги модели ужарены что и никакие джейлбрейки не нужны, но и от этого тоже свои минусы, так что я бы прибегал именно промпту.
>>1415981
Ну, тут скорее 1в1 (хотя для локалок это гораздо проще) это джейбрейкнуть модель. Я какой-то момент читал асиг и там аноны вообще пробелами в нужных местах ломали мозги корпосетке что она превращалась в похотливого монстра. Или из недавнего видел как аноны для обхода цензуры генерации видосиков соры, прикрепляли смайлик из аськи но с хуем на лбу, и после этого модель просто забивала хуй на любую цензуру...
Но истина точно в том что пердлоинг будет что с корпосеткой, что с локалкой. Без пердолинга никак никогда ничего не работает так как хочется.

Аноним 14/11/25 Птн 05:57:25 #273 №1416023

image.png

Я устал босс...

Аноним 14/11/25 Птн 06:19:00 #274 №1416025

>>1416023
А ты пробовал Warp1111? Он вообще работает в РФ сейчас? Меня он очень выручает когда я не могу зайти на ру сервисы и скорость он совсем не режет.

Аноним 14/11/25 Птн 07:10:28 #275 №1416039

>>1415930
>Чатмл просто не понимает
>шаблон не понимает
Да вы совсем блядь ебанулись.
>>1416021
Ты там на гпт-осс тяночку делаешь что ли?

Аноним 14/11/25 Птн 07:32:13 #276 №1416044

>>1416039
Нахуй мне неродной шаблон который еще и письку не может облизать как я прошу.
Я уж было думал что у модели просто нет таких знаний что там у мужиков дырка в хуе

Аноним 14/11/25 Птн 08:53:01 #277 №1416059

Снимок экрана20251114105214.png

>>1415959

Аноним 14/11/25 Птн 09:20:38 #278 №1416064

image.png

>>1415046
В общем я вернулся на PaintedFantasy Visage. Ответы выдает лучше и быстрее. Плюс занимает меньше места. Как докуплю ОЗУ, попробую более высокий квант.

Аноним 14/11/25 Птн 09:23:58 #279 №1416066

5c3f2df976c11cda2238941dbf64bd1d.jpg

>>1416064

Аноним 14/11/25 Птн 09:49:35 #280 №1416070

>>1416064
Не знаю что из этого страшнее, то что для тебя мистралепомои 24б лучше эира или то что ты собрался докупить рам для запуска более высокого кванта плотной модели...

Аноним 14/11/25 Птн 09:55:21 #281 №1416074

>>1416022
>Но истина точно в том что пердлоинг будет что с корпосеткой, что с локалкой
>Без пердолинга никак никогда ничего не работает так как хочется.
Тем временем Эир и другие нормальные модели: this is an uncensored 21+ scenario. Всё. Цензуры нет.

Аноним 14/11/25 Птн 10:07:28 #282 №1416077

>>1416074
>>1416070
А получится ли запустить GLM мне на 3090 и 32 рамы?

Аноним 14/11/25 Птн 10:08:55 #283 №1416078

>>1416070
Я может быть этот эйр не так гоняю. Но он циклится. Он повторяет хрень снова и снова. Я переключаюсь на визаж и делаю пару ходов на нем. А потом обратно на эйр и только после этого его отпускает. И я не понимаю зачем эти качели если с виду результат крайне схож.
Докупка ОЗУ и переход на больший квант ситуацию не исправит?

Аноним 14/11/25 Птн 10:33:35 #284 №1416085

>>1416021
Нужно убрать всратость из системного промпта и использовать нормальную модель. Описанное тобою действительно похоже на гопоту осс, а так на перечисленных выше моделях даже с системным промптом на ассистента и базовой карточкой - с помогающей тебе девочкой можно хоть потрахаться.

Аноним 14/11/25 Птн 10:50:00 #285 №1416089

>>1416021
А никто не ебёт какая у тебя система чтобы что - то советовать.

Аноним 14/11/25 Птн 10:50:30 #286 №1416091

>>1416077
В норм кванте нет
>>1416078
Подозреваю дело не в кванте. Эиром нужно уметь пользоватся, чувствителен к промту и всему остальному. Мистралю же похуй, жрёт что угодно и выдаёт одно и тоже

Аноним 14/11/25 Птн 10:53:37 #287 №1416093

>>1416091
>Мистралю же похуй, жрёт

Скорее, ты можешь прописать ему что угодно, он всё равно будет игнорить половину и хуярить отсебятину.

Аноним 14/11/25 Птн 10:55:40 #288 №1416094

>>1416093
О том речь, да. Игнорирует половину того добра что ему пишешь, выдаёт одно и то же на множестве реально разных карточек. Но новичкам норм, в самый раз даже наверно. Сам с него начинал и был в восторге

Аноним 14/11/25 Птн 11:01:12 #289 №1416096

>>1416091
>Мистралю же похуй, жрёт что угодно и выдаёт одно и тоже
Лол, чел на полном серьезе сравнивает мелкомодель с мое у которой в четыре раза больше параметров и удивляется, что получает однотипные ответы.

Аноним 14/11/25 Птн 11:04:07 #290 №1416098

>>1416096
Ну ты там там попробуй ветку читать прежде чем отвечать, может быть даже не пустишь под себя жидкого в следующий раз

Аноним 14/11/25 Птн 11:10:01 #291 №1416100

>>1416098
При чем здесь ветка выше, если ты в своем же репале хуйни понаписал. Сравнил две разные модели разработанные под разные задачи и пришел к выводу, что более умная модель оказалась более умной моделью. При чем здесь "чувствительность к промту" и прочее говно, если тут тупо решает сам размер.

Аноним 14/11/25 Птн 11:14:09 #292 №1416104

>>1416100
Ты правда настолько тупой или набрасывать пришёл от нехуй делать? Я отвечаю челу который пишет что ему Мистраль лучше Эира пишет. И да Мистраль хуёво следует инструкциям. Вот это новость. Решает размер, говоришь? Квен 14б почему то может а 24б Мистраль нет

Аноним 14/11/25 Птн 11:22:11 #293 №1416109

>>1416096
Лол чел ты долбаёб.

>>1416104
Даже Гемма 12б лучше им следует, чем Мистраль 24б. Хз вообще какие юзкейсы у Мистралей кроме кума.

Аноним 14/11/25 Птн 11:23:16 #294 №1416110

>>1416104
>Решает размер, говоришь? Квен 14б почему то может а 24б Мистраль нет
Ты дурачок походу без прикола. Квен точно также срет глинтами и какает отсебятиной, сколько инструкций ты ему не пихай. Просто его паттерны не так сильно бросаются в глаза, как мистральские. Так что да, решает размер. Потому что сюрприз - у больших моделей больше связей и они могут выдавать более оригинальный текст и лучше следуют инструкциям.

Аноним 14/11/25 Птн 11:31:03 #295 №1416117

>>1416110
>Просто его паттерны не так сильно бросаются в глаза, как мистральские
А, во как оказываеца. Когда сравниваем Эир и Мистраль это размер решает, а когда Квен и Мистраль, это просто паттерны не так сильно бросаются в глаза))))))))))
>>1416114
Предлагаю тебе вернуться в асиг или любую другую помойку откуда ты вылез, и покушать найдёшь и товарищей по духу

Аноним 14/11/25 Птн 11:47:15 #296 №1416131

>>1416117
>Когда сравниваем Эир и Мистраль это размер решает
Когда сравниваешь 24B и 110B модели как бы да... как бы решает размер.
>когда Квен и Мистраль, это просто паттерны не так сильно бросаются в глаза
Это две мелкомодели разработанные под задачи уровня "перечисли мне список пластинчатых напочвенных грибов растущих в астраханской области" и вся их разница только в том, какие речевые конструкции они будут повторять чаще всего.

Так что даже если ты пытаешься тролить тупостью, меньшим долбаебом тебя это не делает.

Аноним 14/11/25 Птн 11:48:57 #297 №1416134

Не ссать. Сейчас рандом ворвется в ваш спор и всё решит.

>>1416117
>просто паттерны не так сильно бросаются в глаза
Народ столько сидел на мистрали, так как это ебовые для новичков (да в целом ебовые) модели, что просто заучили все паттерны.
Поэтому и создается впечатление, что другие модельки свежие и необычные.

Аноним 14/11/25 Птн 11:58:52 #298 №1416142

>>1416131
>Так что даже если ты пытаешься тролить тупостью, меньшим долбаебом тебя это не делает.
Единственное в чём с тобой соглашусь, главное не забывай что стрелочка всё таки поворачивается

Аноним 14/11/25 Птн 12:05:32 #299 №1416145

smagdzhek-5-2489016129.jpg

>>1416134
Изначальный сабж обсуждения был в том что ньюфагу Мистраль лучше Эира. Позже уже ворвался долбаёб с пикрила и начал разбираться почему именно это не так, обоснуя своё мнение которое не к месту двойными стандартами и маняфантазиями
Есть способы оценить количество лупов патернов глинтов и прочей хероборы, но этот ёбик так далеко не пойдёт потому что в его глазах достаточно "яскозал". Не буду вести себя как он и говорить что Мистраль уж точно хуже Квенчика, мне лень собирать пруфы и я не боюсь это признать. Не сру маняфантазиями на весь тред и хорошо

Аноним 14/11/25 Птн 12:22:59 #300 №1416152

>>1416145
>ньюфагу Мистраль лучше Эира.
Хотел бы написать что это база, но у меня от слова база глаз дергается. Эйр реально ёбанный питух - то он выдает кино, то с ним что то случается и он начинает шизить в многомерном, мультивселенном пространстве, где персонажи перемещаются сквозь время и ткань реальности.
Скоро придет оператива и я надеюсь укатиться на большой ГЛМ в слепой надежде, что он не будет так ломаться.
Ну и лупиться он любит, но мне дико доставляет что у него, в отличии от гигамистралелупа свайпы прям отличаются.
Луп-свайп-свайп-охуенно.

>Мистраль уж точно хуже Квенчика,
Какого, 30го ? Ну эммм.. Для РП, точно нет. Для тех задач, ну квен для этого и создавался, он умница. Это как OSS использовать для рп.

А представляете, если бы лягушатники выкатили новый, свежий мистраль MOE.. эдак на 120-150B

Если я немного начинаю шизить в тексте, прошу понять и простить, у меня сезонное обострение, я в целом скоро отвалюсь на полежать отдохнуть в больничке.

Аноним 14/11/25 Птн 12:30:13 #301 №1416155

>>1416152
Да без проблем ваще, ты пришёл высказал мнение где это уместно, никак не возбраняется лишь поощряется. Никакой маняаргументации вроде "когда удобно сравниваю размер когда нет ну просто так получилось" или "у меня ногу свело когда играл на квене потому он говно" нет. Красавчик
По поводу сравнения Мистраля и Квена мы обсуждали лупы глинты и прочую херобору, я точно знаю что на Квене их меньше хотя рпшингом на нём точно так же не занимался бы и никому не рекомендовал. То что Мистраль лучше для новичков и правда база, и похуй что глаз дёргается
Весь срач был в том что чувак решил снихуя блеснуть умом там где никто не просил и обосрался с аргументацией
А тебе здоровья

Аноним 14/11/25 Птн 13:23:57 #302 №1416177

>>1415682
Я тоже пробовал ламу, с последними обновами на 9070 xt вроде даже рокм завёлся на винде. Но я что то не понял нихуя, как прогой пользоваться, у меня там куча скачаных моделей было, но не нашел как это дело из прогру прогрузить, только окошко со скачкой моделей - тех что у меня там не наше. Ну скачал какую то модель потестить, завёл и прикола не понял, может и-за модели говно получилось, но загрузка не особо быстрее происходила.
Я был бы рад пользоваться кобольдом, он простой как 2 палки - сразу понятно откуда что и как, в ламе интерфейс непонятный.
На линупс укатываться не хочу, и грузить каждый раз убунту какую нибудь только что бы покумить 2 минуты - ну рот я того наоборот.

В дополнение к посту - поискал способы фиксов в интернете и нихуя не нашел, у пары людей такая хуйня была и в ветке кобольд-рокм чел даже чуть переписал прогу под новую линейку красножопых. Но если дефолтный рокм форк хотя бы ошибку выдавал, то говнокод этого чела моментально крашится даже не начав инициализацию видеокарты.

Короче терплю на вулкане.

Кстати хоитите посмеяться?
Вчера обновлял драйвера амуде и столкнулся с интересным багом - при ПКМе по рабочему столу ОЧЕНЬ долго грузит круглешок и в конечном итоге открывается адреналин.
Пошел на реддит с эти вопросом - наткнулся на интересное решение:

Open File Explorer.

Go to this folder: C:\Program Files\AMD\CNext\CNext

Find the file called: RadeonSoftware.exe

Right-click it and choose Rename.

Change the name to: RadeonSoftwareisshit.exe

Это смешно, но это сработало. Так то видюха неплохая, но такие моменты просто пиздец какой то. Уже начинаю жалеть что сэкономил пару фантиков и не взял 5070ti, коуплю тем что хуанг пидорас и байкотирую рынок зелёных. Такие вот дела, малята.

Аноним 14/11/25 Птн 14:23:31 #303 №1416202

Запись экрана 2025-11-14 151940.mp4

Аноним 14/11/25 Птн 15:46:11 #304 №1416229

Какая модель лучше подходит под роль локального ЧатаГПТ? РП не нужен, нужен минимум сои и умение хотя бы в кодинг/рефакторинг кода на пайтоне. Или я слишком много хочу для локальной модели?

Аноним 14/11/25 Птн 15:48:55 #305 №1416231

>>1416229
GPT-OSS-120B

Аноним 14/11/25 Птн 15:50:24 #306 №1416232

>>1416231
>120B
Оу. У меня всего 16 + 64 гига. Значит да, многого хочу.

Аноним 14/11/25 Птн 15:54:38 #307 №1416234

>>1416229
>>1416232
Так она уместится спокойно в 16+64. Контекста правда не так много будет но все же

Аноним 14/11/25 Птн 15:56:29 #308 №1416235

>>1416232
просто возьми и попробуй разные
https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF
https://huggingface.co/unsloth/gpt-oss-20b-GGUF

Аноним 14/11/25 Птн 15:57:19 #309 №1416238

>>1416234
А я что-то думал, что нужно СУЩЕСТВЕННО больше под такой размер. Попробую.

>>1416235
Спасибо, попробую.

Аноним 14/11/25 Птн 16:02:56 #310 №1416242

>>1416238
>А я что-то думал, что нужно СУЩЕСТВЕННО больше под такой размер. Попробую
Так это же мое модель, да у неё ещё и mxfp4 квант. Почитай как запускать мое модели, в шапке вроде было что то. Ну или в треде глянь, недавно скидывали батник под Эир, там по аналогии делается. По потреблению это почти что 5b модель гонять, вот примерно это + контекст во врам, остальное в оперативе. Ну 16к контекста точно должно быть, прекрасно подойдёт для зирошоток или недолгого чата с пояснениями

Аноним 14/11/25 Птн 16:03:41 #311 №1416245

>>1416238
это MoE с 3 вроде миллиардов активных параметров, то есть с 16 гб врам будет работать хорошо, можешь сразу пробовать оригинальный квант 65 вроде гигабайт

Аноним 14/11/25 Птн 16:55:16 #312 №1416266

>>1416242
У гопоты kv кэш нихуя не весит, можно хоть 128к контекста выставить, ещё и на нормального размера батч останется.

Аноним 14/11/25 Птн 17:24:47 #313 №1416292

Работает.webp

Уроды блять, кому вы пиздите.
Отключил все запреты и так же нихуя не качает с хаги.
Лахта уже и до сюда добралась

Аноним 14/11/25 Птн 17:30:32 #314 №1416308

>>1416292
Толсто. Всё работает.

Аноним 14/11/25 Птн 17:36:09 #315 №1416316

>>1416292
у меня всё работает. видимо ты дуоачок

Аноним 14/11/25 Птн 17:37:44 #316 №1416318

>>1416308
>>1416316
Обе белые.

Аноним 14/11/25 Птн 17:38:57 #317 №1416319

>>1416308
>>1416316
Если кто то спрашивает не сломалось ли XYZ не бегите убеждать что "всё работает, ты дурак", РКН устраивает A/B тесты уровня целой страны и в какую группу попал лично ты никто не скажет.

Аноним 14/11/25 Птн 17:41:38 #318 №1416320

>>1416319
У меня ркн давно постарался чтобы обниморда не работала, я спокойно настроил гудбайдпи и бед не знаю. Вы походу не обезображенные интеллектом индивидуумы.

Аноним 14/11/25 Птн 17:50:07 #319 №1416321

>>1416292
У меня тоже всё работает уже дня 3. Скорей всего это из-за >>1416319
Думаю это тупо скан логов и трафика идёт, для отлова людей. Явно это не для людей сделано, эти пидоры ебаные из РКН что--то мутят паскуды.

Аноним 14/11/25 Птн 18:14:17 #320 №1416324

>>1416266
У осс гопоты очень пидорские вес/кол-во слоев. С полным контекстом так и не сумел распределить на 3х24гб карты, чтобы батч был 2048, там буквально писечки не хватает. Поэтому пришлось выбирать между двумя стульями - или батч точеный поменьше или эксперт дроченый на цпу. Выбрал второе, так как иногда в процессе ризонинга кеш пересчитывается целиком и ждать обработки 100к контекста с таким батчем - это ебануться.

К слову, анон, что советовал claude code с проксей, ты какую-то другую модель использовал? Потому как под гопоту мне пришлось немного переписать обработку реквестов и ответов.

И бублирую свой вопрос, что лучше для кодинга по вашему опыту - осс или некст? Мне неохота поднимать вторую, опять там все будет сломано и надо будет половину прокси пердолить.

Аноним 14/11/25 Птн 18:50:55 #321 №1416330

>>1416319
Жесть, я этот текст писал фиг знает сколько времени назад, а его ещё откуда то достают

Аноним 14/11/25 Птн 19:59:13 #322 №1416369

Бля я такого здоровенного кобольда после баскета из КФС отложил, вы бы знали ...

Аноним 14/11/25 Птн 19:59:56 #323 №1416371

Я правильно понимаю что в 8 VRAM + 32 RAM не влезет ни одна нормальная МОЕшка и мне ещё год жевать мистраль немо?

Аноним 14/11/25 Птн 20:01:57 #324 №1416375

>>1416371
30б квенчика на моем кобольде запусти

Аноним 14/11/25 Птн 20:10:33 #325 №1416387

Гемма всё ещё лучшая девочка? Истеричку Квен не предлагать, глупенькую Эйр тоже.

Аноним 14/11/25 Птн 20:11:44 #326 №1416392

>>1416330
Эт что, я вот решил поделиться тем что перешал обратно на визаж, потому что не понимаю как использовать айр. Думал может что подскажут. А окзалось вызвал срач.
И коль я сюда опять пришёл. Подскажите, а почему эйр на 60гб работает быстрее чем визаж на 30? Я сначала подумал потому что скачал I квант. В шапке написано что они медленные. Но потом сходил за Q6 K и там всё равно медленно. Всё дело в кванте? Получается чем он выше, тем медленее? Не наоборот? В вики написано что это метод сжатия, поэтому я подумал, что чем меньше объем тем больше обработка по декодированию. Что упускаю?
Сильно хуями не пинайте, пожалуйста. Я ведь даже вики почитал!

Аноним 14/11/25 Птн 20:15:33 #327 №1416405

>>1416392
Это двач, тут даже ангелов вроде Нюни развращают и превращают свет в кал, добро в срач. Не надо удивлятся. По поводу скорости чем выше квант тем меньше сжатие, потому жирнее слои модели, а значит им надо больше памяти на слой. Потому и медленнее да, чем больше квант тем жирнее модель. Никакого декодирования нет, кванты меньше попросту лишены той информации которая есть у квантов больше

Аноним 14/11/25 Птн 20:18:57 #328 №1416417

>>1416371
С выгрузкой слоев qwen3-30b должен влезть. gpt-oss-20b тоже влезет.

Аноним 14/11/25 Птн 20:19:30 #329 №1416418

>>1416405
Так почему? У меня эйр IQ2_M на 45гб выдает больше скорость чем визаж с более высоким K квантом на 35гб. Казалось бы - Сжатия нет. должно быть быстрее. Казалось бы, это K квант а не I. Тоже логика говорит, что должно быть быстрее. Даже места занимает меньше. А всё равно медленее. НЕ ПОНИМАЮ. Почему?

Аноним 14/11/25 Птн 20:23:23 #330 №1416427

>>1416418
Ты не понял как работают мое. Если вкраце то видимо у тебя плотная модель с контекстом не полностью во враме потому большая просадка. А у мое модели весь её роутер ну и остальные значимые части во враме полностью. Мое модели быстрее работают если ее часть выгружать в рам

Аноним 14/11/25 Птн 20:26:06 #331 №1416430

>>1416418
> Сжатия нет. должно быть быстрее.

Не в курсе конкретно про Air, но когда я качал Q4 версию gpt-oss и bf16 - скорость на последнем была процентов на 50 меньше. И Unsloth (или кто-то из их группы) объяснил это как раз таки тем что F16 модель больше, поэтому и медленнее.

Поэтому я не уверен что отсутствие сжатия должно увеличивать скорость. Но я так, мимокрокодил который поделился своим опытом на этот счёт.

Аноним 14/11/25 Птн 20:49:06 #332 №1416469

Кто пробовал aquif-3.5-max-42b-a3b? На 32+16 работает в 25 t/s. Но как-то отзывов довольно мало на нее. Неужели так плоха?

Аноним 14/11/25 Птн 20:49:41 #333 №1416472

Почему кванты Эйра бартовски настолько тяжелее анслота?

Аноним 14/11/25 Птн 20:50:06 #334 №1416474

>>1416469
Все пердолики сидят на 100б и выше, те давно всё поняли и молчат

Аноним 14/11/25 Птн 20:52:52 #335 №1416475

>>1416472
Потому что анслот помойка и хуёво квантуют мое, ужимая сочные слои

Аноним 14/11/25 Птн 20:55:21 #336 №1416476

>>1416472
Бери d0, они лучше анслота, если polkа кванты не хочешь.

Аноним 14/11/25 Птн 21:25:14 #337 №1416494

Хочу попробовать сделать перса чтобы чатиться. Что из последних моделей есть годного для этго?

Аноним 14/11/25 Птн 21:28:06 #338 №1416496

Очередная неделя без релизов.
Скоро ещё одна, потом ещё, и ещё, и ещё...

Аноним 14/11/25 Птн 21:46:04 #339 №1416509

Вопрос, как сильно влияет на скорость и качество наличие нескольких видеокарт? Кто работает с двумя в треде? Обязательно одинаковые должны быть?

Аноним 14/11/25 Птн 22:11:02 #340 №1416517

>>1416509
>Вопрос, как сильно влияет на скорость и качество наличие нескольких видеокарт?
На скорость - очень по разному. На качество - никак.

>>1416509
Нет.

Аноним 14/11/25 Птн 22:12:01 #341 №1416519

>>1416509
>Обязательно одинаковые должны быть?
Нет.

Аноним 14/11/25 Птн 22:20:41 #342 №1416520

>>1416519
Но скорость будет на уровне самой слабой карты в сборке

Аноним 14/11/25 Птн 23:00:00 #343 №1416529

>>1416520
Понял, т.е. моя старая завалявшаяся видеокарта 20 серии ртх сделает только хуже моей 40 серии. Пасиб, тогда не буду заморачиваться.

Аноним 14/11/25 Птн 23:39:22 #344 №1416543

>>1416324
>батч
А почему такой упор на повышенный размер батча? Типа модель сильно лучше будет ориентироваться в контексте? Я сижу на 512 батче и ваще хз стоит ли его больше ставить? Я получу что-то от этого если у меня всё равно малые контексты с частыми суммарайзами? Это полезно будет только для тебя с твоими 128к контекстами?

Аноним 14/11/25 Птн 23:58:29 #345 №1416550

>>1416543
>Типа модель сильно лучше будет ориентироваться в контексте?
Nyet.

Аноним 15/11/25 Суб 00:05:00 #346 №1416553

>>1416550
Аа.. понял понял.. чисто удобнее контекст пересчитывался.. спасибо

Аноним 15/11/25 Суб 02:25:21 #347 №1416609

>>1416529
Не факт. Даже старая карта лучше чем CPU. Т.е. если модель влезет в эти две карты целиком (не влазя в одну) - это в любом случае лучше. Особенно - если это dense модель. Особенно - если gemma.

>>1416543
Больше батч = выше скорость обработки контекста. И все.

Аноним 15/11/25 Суб 03:23:43 #348 №1416628

>>1416609
> Особенно - если gemma.
База базовая, геммочка умничка лучше работает с железом потому что она геммочка

Аноним 15/11/25 Суб 03:56:05 #349 №1416632

image.png

>>1416472
>настолько
Насколько? На 1%? А не, даже меньше в большинстве случаев
>>1416475
>>1416476
У вас есть пруфы какие-то или как всегда среньк в тред?

Аноним 15/11/25 Суб 06:30:58 #350 №1416694

>>1416632
Бартовский в пятом кванте attn_k всегда в Q8 квантует, а анслот в Q5. А в других весах аттеншена там то у одного лучше, то у другого, так что в среднем бартовски вроде попизже должен быть. Но это без учета того, чья imatrix пизже и чей алгоритм выбора слоев для более агрессивной квантизации лучше. Я на анслоте сидел, но чет меня Q8 заманил этот и я пересел с иглы анслота на лицо бартовского. Правда, для успокоения пришлось вырезать темплейт из анслота и подсовывать отдельно - они ж там везде пиарят, мол, он у них самый пиздатый

Аноним 15/11/25 Суб 08:48:08 #351 №1416705

>>1416292
Хули вместо того, чтобы установить VPN, ты ноешь в тред? Пошел нахуй

Аноним 15/11/25 Суб 08:59:41 #352 №1416714

>>1416543
На эире с батчом 512 у меня обработка 80 т/с, а с 4096 370 т/с. При этом скорость генерации почти не меняется и остается 7-8 т/c после заполнения контекста, несмотря на то, что мне приходится выгружать больше слоев на cpu
У меня контекст 32768. Ну вот и сравни почти 7 минут в первым случае с полутора минутами во втором, поэтому все батч и пытаются максимальный выставить

Аноним 15/11/25 Суб 10:04:03 #353 №1416738

Кто какими моделями пользуется из анонов до 32 плотных и 80б МоЕ?

Вопрос для анонов-нищуков типа меня.

Хочу понять, что сейчас в тренде в этих размерах.

Аноним 15/11/25 Суб 10:15:24 #354 №1416742

>>1416632
Открой и сам посмотри какие слои как квантованы. Или как всегда слишком сложно?

Аноним 15/11/25 Суб 10:24:15 #355 №1416755

>>1416738
это возможно шизово, но я сижу на тюне геммы, MedGemma27b

Аноним 15/11/25 Суб 11:12:23 #356 №1416789

>>1416738
Геммочка умничка

Аноним 15/11/25 Суб 11:30:13 #357 №1416795

>>1416738
Сноудроп

Аноним 15/11/25 Суб 11:43:46 #358 №1416808

>>1416738
Synthia 27b.

Аноним 15/11/25 Суб 11:56:29 #359 №1416813

>>1416808
Кал собаки эта ваша синтия, сжв ассистент

Аноним 15/11/25 Суб 12:50:11 #360 №1416832

Всем здарова, взываю к тем, кто может проконсультировать с выбором комплектующих для ролеплея (и не только). В данный момент имею примерно такую картину:
Intel Core i7 12700F
RTX 4060 ti 8 gb
32 gb оператива (не помню какая, вроде ноунейм, скорость 2667 M/s)
Один ССД на терабайт (почти заполненный, но если почистить то освободится половина мб), два ХДД на 500 гб.
Заинтересовался темой больших моделей и появилось желание подготовить пекарню для экспериментов. Но и игрища я забрасывать не планирую, поэтому узко-специализированное что-то не рассматриваю. Следовательно вопросы:

Большую ли роль играет процессор в этой теме? Стоит ли смотреть на варианты типа 5070 на 16 гб или лучше покопить и взять какую-нить 4090 на 24? Есть ли разница между ССД и ХДД в контексте моделек? Важнее то, какого вида оператива (DDR4/DDR5) или её объём?

Извините, если засрал тред, но мб есть знатоки которые подсобят с этим? Может и другим будет полезно.

Аноним 15/11/25 Суб 13:11:24 #361 №1416850

>>1416705
Наверное потому что через квн скорость не намного выше?

Аноним 15/11/25 Суб 13:13:58 #362 №1416853

>>1416832
128 гигов оперативы покупай ддр4 -похуй если хватает слотов в материнке под неё и больше ниче те не надо

Аноним 15/11/25 Суб 13:24:40 #363 №1416858

>>1416850
Через пнв зависит от сервера только. Мои 200 дают, напрямую явно хуёвее

Аноним 15/11/25 Суб 13:58:07 #364 №1416892

>>1416832
8 gb VRAM сильно маловато будет - даже 30b-moe модели с вменяемым контекстом и квантом не влезут. Хотя бы 16 VRAM и будут доступны для нормального запуска moe-мелко-квены в 4 кванте, плотные мистрали (и вагоны лоботомитов на его основе) в третьем кванте и гемма ( так же в третьем) . И при наличии 64+ оперативы можно будет запустит GLM-AIR .

Аноним 15/11/25 Суб 14:06:50 #365 №1416902

Короче положняк такой
Нет смысла в дорогущих сборках щас ибо лет 5 и все ваше говно и даром никто не возьмет когда выйдет чип х500 мощнее
Просто нужен прорыв а не дожимание крох

Аноним 15/11/25 Суб 14:16:01 #366 №1416919

>>1416902
Фига ты умный...
Просто нужен прорыв.
Просто нужна культурная революция.
Просто нужен технологический прорыв и изобретение нового типа чипов, отказ от кремния.
Просто нужен прорыв в медицине для победы над раком.

Аноним 15/11/25 Суб 14:21:22 #367 №1416932

>>1416919
Ну так. Ща ещё немного и изобретут электричество 2, пенициллин 2 и мы будем спасены. Чутка потерпеть осталось. Твёрдо и чётко

Аноним 15/11/25 Суб 14:25:27 #368 №1416939

>>1416902
ОК. Сиди на корпоратах 5 лет ... ой пол года пока интернет не отрубили на хуй.

Аноним 15/11/25 Суб 15:08:04 #369 №1417007

>>1416939
Будет кумить с алисой-лоботомитом, под хохот товариша майора.

Аноним 15/11/25 Суб 15:11:13 #370 №1417011

>>1416494
>Что из последних моделей есть годного для этго?
Любая модель выше 100В.

Аноним 15/11/25 Суб 15:18:15 #371 №1417013

>>1416939
И будем, пока ты уже как в мезозое на микромоделях сидишь.
У местных почему-то чёрно-белое мышление - если есть железо запустить локальные модели типа Эйра, то по умолчанию запрет на большие в облаке. Приватошизики ещё хуже, думают что по "я тебя ебу" их вычислит ЦРУ и приедет к ним на квартиру унижать их.

Аноним 15/11/25 Суб 15:45:04 #372 №1417024

>>1417013
Ошибка выжившего. Те кто инджоят и то и другое не идут с пеной у рта что то доказывать. Ты видишь посты шизиков и на них опираешься

Аноним 15/11/25 Суб 16:43:51 #373 №1417051

Решил попробовать это ваше локальное ЕРП. Скачал Синтию и карточку с какой-то фентези проституткой. Закончилось всё тем, что вместо потрахушек мы идём резать голову локальному правителю во славу мировой революции. По этому вопрос, а есть какие-то решения ЛММок именно под игру в ДнД или просто словеску? Чтобы нейросетка могла отыгрывать разных персонажей, запрашивать проверки навыков и всё такое?

Аноним 15/11/25 Суб 16:44:06 #374 №1417052

>>1417013
>Приватошизики ещё хуже, думают что по "я тебя ебу" их вычислит ЦРУ и приедет к ним на квартиру унижать их.
А разве не приедут? Правда те, за кем приехали, об этом нам уже не скажут.

Аноним 15/11/25 Суб 16:55:00 #375 №1417054

>>1417052
Правда. У меня так дед умер.

Аноним 15/11/25 Суб 17:14:04 #376 №1417069

>>1417054
Твой дед кумил на канни?

Аноним 15/11/25 Суб 17:31:16 #377 №1417107

>>1417069
Нет, он работал в ЦРУ и приходил за ними.

Аноним 15/11/25 Суб 17:34:03 #378 №1417112

Привет, анон! Пока все ждут новых моделей, собирают микроволновки для запуска старых, срутся с соседями, стало мне, ньюфагу, интересно по библиотеке тех моделей которые я щупал и их квантов "как оно" не по ощущениям, а по науке. Благо жора предоставил инструмент. И так, перплексия на русском датасете https://huggingface.co/datasets/misterkirill/ru-wikipedia/blob/main/dataset.txt (кусочек на 2.8 мб) . позапускал тесты, что бы не пришлось вам. Чем меньше тем лучше:
| Модель | PPL |
|--------|-----|
| Qwen_Qwen3-VL-32B-Instruct-Q4_K_L.gguf | 3.8305 ± 0.01470 |
| Qwen_Qwen3-VL-30B-A3B-Instruct-Q4_K_L.gguf | 3.9813 ± 0.01518 |
| Huihui-Qwen3-VL-30B-A3B-Instruct-abliterated.i1-Q4_K_M.gguf | 4.0913 ± 0.01579 |
| Huihui-Qwen3-VL-30B-A3B-Instruct-abliterated.i1-Q5_K_S.gguf | 4.0579 ± 0.01562 |
| Qwen3-VL-30B-A3B-Thinking-Q8_0.gguf | 3.8865 ± 0.01440 |
| Qwen_Qwen3-VL-30B-A3B-Thinking-Q5_K_L.gguf | 3.9001 ± 0.01447 |
| Qwen_Qwen3-30B-A3B-Thinking-2507-Q4_K_L.gguf | 4.1967 ± 0.01666 |
| Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf | 5.5667 ± 0.02590 |
| aquif-3.5-Max-42B-A3B.i1-Q4_K_M.gguf | 4.3162 ± 0.01720 |
| EpistemeAI_metatune-gpt20b-R1.1-MXFP4_MOE.gguf | 27.2614 ± 0.14887 |
| gpt-oss-20b-mxfp4.gguf | 87.8772 ± 0.53311 |
| gpt-oss-20b-Q8_0.gguf | 87.8772 ± 0.53311 |
| gpt-oss-120b-UD-Q8_K_XL | 13.9025 ± 0.06996 |
| gpt-oss-120b-mxfp4-00001-of-00003.gguf | 13.8903 ± 0.06990 |
| zai-org_GLM-4.5-Air-Q4_K_S-00001-of-00002.gguf | 3.8255 ± 0.01735 |
| zai-org_GLM-4.5-Air-IQ4_XS-00001-of-00002.gguf | 3.8311 ± 0.01737 |
| GLM-4.5-Air-UD-Q2_K_XL.gguf | 4.0948 ± 0.01886 |
| glm-air\abliterated\Q3_K_M-GGUF-00001-of-00006.gguf | 4.3081 ± 0.02058 |
| medgemma-27b-it-Q4_K_L.gguf | 6.3754 ± 0.03683 |
| Mistral-Small-3.2-24B-Instruct-2506-UD-Q3_K_XL.gguf | 3.8627 ± 0.01543 |
| mistralai_Magistral-Small-2509-Q5_K_L.gguf | 3.8878 ± 0.01593 |

Аноним 15/11/25 Суб 17:37:21 #379 №1417119

>>1417107
Получается любители канни убили твоего деда из ЦРУ?
>>1417112
>по науке
>перплексити
Лол.

Аноним 15/11/25 Суб 17:40:43 #380 №1417130

>>1417119
Да... Сволочи, ничего святого нет у них.

Аноним 15/11/25 Суб 18:05:39 #381 №1417202

>>1417112
>мистраль в 3 кванте лучше эира во 2 и немного отстает от эира в 4
Мистрале хейторы, что с ебалом?

Аноним 15/11/25 Суб 18:12:04 #382 №1417223

>>1417202
Ты ведь даже не знаешь что такое перплексити...

Аноним 15/11/25 Суб 18:20:48 #383 №1417263

>>1417202
Перплексия - это все же оценка в коротком контексте. Т.е. и мистраль и Air способны построить одинаково корректные предложения на русском. В силу особенности токенизации русского языка. И поскольку русский, это не основной язык модели и матрица квантования у популярных квантователей НЕ СОДЕРЖИТ русских слов вообще, значение ~3 в третьем кванте означает что и остальные знания модели - уцелели. К сожалению перплексия ничего не позволяет узнать о способности модели "держать контекст"

Аноним 15/11/25 Суб 18:29:24 #384 №1417287

>>1417051
Из синтии тупо слишком хуёвы вырезали ассистента, поэтому она и увела тему от ебли к какой то хуйне, бери синтвейв.

Аноним 15/11/25 Суб 18:40:17 #385 №1417304

>>1416832
>Стоит ли смотреть на варианты типа 5070 на 16 гб или лучше покопить и взять какую-нить 4090 на 24?
Чем больше видеопамяти тем быстрее, поэтому 4090 на 24 (и 3090 если найдешь) будут лучше чем 5070 ti на 16. Еще важна пропускная способность памяти. Модельки на 5070 ti будут примерно в два раза быстрее работать чем на 5060 ti и в три раза чем на 4060 ti, но только при условии что модель вся во враме, а с рассветом МоЕ это уже редкость.
И да, не бери амд, если не хочешь заниматься пердолингом.
>Есть ли разница между ССД и ХДД в контексте моделек?
Если ты не запускаешь модели на SSD (а это не нужно делать из-за низких скоростей), то почти не будет. Единственная разница это как быстро модель загрузится в врам и рам. Например GLM Air весит 60 гб и я вижу огромную разницу между моим SSD PCIE 4 и SATA SSD, а с HDD вообще будет безумно медленно. Будешь по 20 минут ждать, пока модель стартанет, но дальше плевать уже будет
>Важнее то, какого вида оператива (DDR4/DDR5) или её объём?
Важно все.
Объем важен, чтобы модель в принципе запустилась и понятно, что чем больше, тем лучше. С 64гб можешь запускать GLM Air (хороший для рп) и GPT 120 (хороший ассистент).
Для скорости самой модели важна пропускная способность DDR.DDR5 может быть в два раза быстрее DDR4, чаще разница меньше, но все равно большая. Еще важен проц, на интелах DDR работает быстрее чем на амд
С твоим сетапом у тебя только один выбор - Квен на Q4XL.
https://huggingface.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF
В прошлом треде вроде гайд на запуск был для такого же новичка

Аноним 15/11/25 Суб 18:54:40 #386 №1417312

>>1417112
>| gpt-oss-20b-mxfp4.gguf | 87.8772 ± 0.53311 |
Подтверждаю, эта залупа вообще в русик не может. Я удивлен, что в треде его кто-то советует и использует
> | gpt-oss-120b-mxfp4-00001-of-00003.gguf | 13.8903 ± 0.06990 |
Думал ниже будет. Вообще использую ее часто, не могу сказать, что видел много проблем. Зато вижу скорости. GPT 120b на большом контексте обгоняет Qwen 30b, при том что параметров 4 раза больше

Аноним 15/11/25 Суб 19:09:04 #387 №1417325

>>1417312
Не все терпят на русике

Аноним 15/11/25 Суб 19:10:06 #388 №1417327

>>1417202
Перплексити это не оценка интеллектуальных способностей модельки, это оценка насколько выбранный "удивляет" модельку.
В данном случае это просто значит, насколько моделька знакома с рандомным текстом на русском языке.

Аноним 15/11/25 Суб 19:13:47 #389 №1417337

>>1417327
Завались, мистралехейтер.

Аноним 15/11/25 Суб 19:15:23 #390 №1417345

>>1417337
Модель может галлюционировать рандомную шизу лишенную смысла, но быть убеждена в своих предиктах и перплексити скор будет низкий.

Аноним 15/11/25 Суб 19:33:01 #391 №1417379

1000017361.mp4

Есть карточка на пвз?
Хочу ходить и кушать работниц пвз.
Для такого кстати и нужен русик в ллм, чтобы непосредственно реальность вокруг себя засунуть в коробку и взаимодействовать с ней как тебе вздумается

Аноним 15/11/25 Суб 19:43:22 #392 №1417393

>>1417345
И ещё тысяча и одна причина почему мистраль говно ты не зря собрал себе некрориг.

Аноним 15/11/25 Суб 19:48:51 #393 №1417403

Так, для кумовства и ролеплея из мое моделей значит есть Квен и Айр, с этим разобрался, а если мне нужен просто умный ассистент? Ну там рецепт пирога найти, книжку или игру по критериям подобрать, за жизнь попиздеть?
Гопота и Дипсик?

Аноним 15/11/25 Суб 19:53:36 #394 №1417409

>>1417403
Квен и Эйр

Аноним 15/11/25 Суб 20:01:39 #395 №1417417

>>1417409
Короче ничего больше скачивать отдельно не надо, понял спс.

Аноним 15/11/25 Суб 20:02:02 #396 №1417418

Какую Квин взять для 24Гб видеопамяти?

Аноним 15/11/25 Суб 20:03:18 #397 №1417420

>>1417403
Ебать у тебя стравнения. Не если ты можешь дипсик запустить, то он конечно. Причем для всего. А так гопота хороша только в технических вопросах при включенном ризонинг хай (привет 10к токенов рассуждений). Юзай квена и аир для всего. Ещё норм гемма 3 для асистента и квен код 30 для вайбкодинга.

Аноним 15/11/25 Суб 20:04:50 #398 №1417424

>>1417418
Snowdrop если рамцел. Если есть хотя бы 96гб то третий квант 235

Аноним 15/11/25 Суб 20:30:03 #399 №1417447

>>1417424
Не, 24 видео, 32 оперативы

>Snowdrop
Это вариант модели или квант, как гуглить?

Аноним 15/11/25 Суб 20:40:15 #400 №1417452

>>1417287
Ну вот у меня именно такое чувство и есть. Что там просто отключён кумерский режим или я его не включил (ну не писать же напрямую "Писку даш ебать? "). Начал другую историю, третий час чищу болтпистолетом и вилкой культистов. Намёков на то, что поебусь с арбайтершей даже нет. Не в целом история интересная получается, ИИ даже про ваху хорошо знает. Но так я красный меч не зажгу.

Аноним 15/11/25 Суб 20:42:21 #401 №1417453

>>1417379
>можем быть вместе?
>Нет
В смысле нет? Охуела совсем.
>>1417403
Да, гпт-осс в качестве ассистента. Впрочем, если у тебя квен 234,5, то юзай его, нахуй тебе остальное.

Аноним 15/11/25 Суб 21:07:00 #402 №1417462

>>1417453
235 пишет как долбаёб и ничего с этим не поделать.

Аноним 15/11/25 Суб 21:10:58 #403 №1417465

изображение.png

>>1417462
Почти прав ведь.

Аноним 15/11/25 Суб 21:14:37 #404 №1417467

>>1417403
>для кумовства и ролеплея из мое моделей значит есть Квен и Айр
А есть анцензор версии? for mommy issues.

Аноним 15/11/25 Суб 21:24:52 #405 №1417471

>>1417467
>анценз для ванильного сценария для моделей, которые и так не цензурные
Да вы там вообще рехнулись.

Аноним 15/11/25 Суб 21:30:30 #406 №1417474

>>1417465
Я про то что эта модель хуйня, пишет как долбаёб. Много раз обсуждалось в треде.

Аноним 15/11/25 Суб 21:35:09 #407 №1417477

А почему в этом треде не говорят про regex в таверне? Я зашел полистать гайды от облачного llm треда и там есть готовый набор таковых. Я закинул и теперь у меня локалки разметку не портят от слова совсем.

Аноним 15/11/25 Суб 21:41:59 #408 №1417485

>>1417477
Потому что этот тред помойка в плане информации для рп. Тут из полезного в лучшем случае ёбка/пердолинг амд мишек, тесел и прочего некрожелеза для покупки станции на зарплату простого парня Ивана город Тверь. Всё остальное это срачи, ну вот собрались человеки с общим интересом и поливают друг друга говном. Все кто сюда приходят для рп уёбывают по итогу в асиг, хотя там тоже помойка только другая. Две стороны говна короч

Аноним 15/11/25 Суб 21:47:28 #409 №1417486

>>1417485
А что нужно для РП? И да, регекспы не нужны, модели не проёбывают разметку со времён GPT4.

Аноним 15/11/25 Суб 21:54:55 #410 №1417487

>>1417486
Нихуя не нужно де факто. Но это не отменяет что можно делится всякой годнотой вроде лорбуков, карточками ну или хотяб идеями. Корпоюзеры литерали знают какие промты лучше подходят тем или иным моделям например. Это ведь решает если это обнаружить. В соседнем треде дохуя инфы, там аноны свои рентри и аддоны для таверны пилят. А тут что? Был один анон который складировал полезности треда в свой пиксель репе (и свои шизокарточки, ладно), тот пропал. Был другой который регулярно делился своими бест практисес и получал за это мочу. Был ещё анон со списком моделей но это вроде оп? Как асиг не срите там хотя бы признают вклад таких анонов

Аноним 15/11/25 Суб 21:59:49 #411 №1417491

>>1417486
Любые лоботомитотюны и тот же Эйр легчайше расстаются с заданной разметкой, особенно до где-нибудь 12к токенов. И в целом механизм полезный, лучше его понимать чем нет.
>>1417487
Все по делу в целом, но и тот лагерь есть за что справедливо опустить. Неймфажество там возведено в абсолют. Челы сидят там и друг друга знают по именам еще с чайной. Кринж.

Аноним 15/11/25 Суб 22:12:43 #412 №1417509

100-cen.png

>>1417487
>годнотой вроде лорбуков, карточками ну или хотяб идеями
Чисто индивидуальные вещи, что ими делиться то?
>>1417491
>Челы сидят там и друг друга знают по именам еще с чайной.
Меня хоть вспоминают?

Аноним 15/11/25 Суб 23:04:50 #413 №1417535

Печалит тенденция последнее время на заточку новых моделей под бенчмарки, за пределами которых модели просто отвратительно работают. Как не наткнешься на новую модель - "ооо, она выше вот этой и вот этой моделей, она при своем весе обходит модели в два раза старше!", а на деле, начинаешь тестировать и становится так грустно от того что видишь.

Аноним 15/11/25 Суб 23:16:46 #414 №1417543

Где-то с неделю уже наблюдаю, как в ру ерп частенько после свайпа генерируется то же (иногда почти то же) сообщение. Угабуга-ллама, Таверна. У кого похожие симптомы? Конечно может ру-датасет беден, особенно для ерп, но не исключаю что кто-то где-то накосячил. Давно такого не было.

Аноним 15/11/25 Суб 23:18:54 #415 №1417545

Любители 2 кванта, там это, интелы заквантили рип глм 4.6
Теперь можно даже не давиться квеном
https://huggingface.co/Intel/GLM-4.6-REAP-218B-A32B-FP8-gguf-q2ks-mixed-AutoRound

Аноним 15/11/25 Суб 23:25:59 #416 №1417546

>>1417471
У меня моделька отказалась развивать сюжет.

Аноним 15/11/25 Суб 23:39:24 #417 №1417552

>>1417545
https://huggingface.co/cerebras/GLM-4.6-REAP-268B-A32B/discussions/1
Вместо тысячи слов

Аноним 15/11/25 Суб 23:44:18 #418 №1417560

>>1417535
Помню, у миксов второй ламы был такой эффект постоянно. Чем полнее заполнен контекст, тем однообразнее у них получались свайпы. Лечил постепенным повышением температуры, по мере развития сюжета и заполнения контекста.

Аноним 15/11/25 Суб 23:46:19 #419 №1417564

>>1417560
Упс. Ошибся. Это был ответ на вот Это: >>1417543

Аноним 15/11/25 Суб 23:52:09 #420 №1417569

>>1417552
Нахуй мне твой роналд реган и код?
Я для рп качаю

Аноним 16/11/25 Вск 00:06:32 #421 №1417579

>>1417560
>Помню, у миксов второй ламы был такой эффект постоянно.
Да вот для второй Лламы и я что-то такое припоминаю. Но потом прошло. А нынче словно в далёкое прошлое вернулся, даже оторопь берёт.

Аноним 16/11/25 Вск 00:16:02 #422 №1417590

изображение.png

>>1417545
Бля, как же долго качать.

Аноним 16/11/25 Вск 00:17:19 #423 №1417591

>>1417552
а чем эта модель хороша?

>A32B
к сожалению на 8гб врам это не влезет. буду ждать 4.6 воздух

Аноним 16/11/25 Вск 00:18:54 #424 №1417593

image.png

>>1417590
Пидарас.
Вот вам реальная скорость а не из лахта центров

Аноним 16/11/25 Вск 00:25:36 #425 №1417596

>>1417593
>Пидарас.
Сам такой. Хайльгитлерфейс не блокируется, так что ХЗ, откуда у вас проблемы. Обычный домсру.

Аноним 16/11/25 Вск 00:33:55 #426 №1417603

>>1417590
Это REAP (лоботомит) квант же, будьте бдительны!

Аноним 16/11/25 Вск 00:35:27 #427 №1417608

>>1417593
>Вот вам реальная скорость а не из лахта центров
Проблемы и с ВПН, если честно. Плохо качает. Но без ВПН не качает совсем, это да.

Аноним 16/11/25 Вск 00:56:48 #428 №1417623

>>1417603
reap да еще и в q2
хехмда, любое говно уже жрать готовы

Аноним 16/11/25 Вск 01:01:37 #429 №1417626

>>1417608
>с ВПН
>Плохо качает
Ноу щит

Аноним 16/11/25 Вск 01:03:18 #430 №1417627

изображение.png

>>1417623
Да ладно, оно хотя бы работает. И буквы складно складывает. Пошёл править шаблоны, а то похоже чатмл не родной.

Аноним 16/11/25 Вск 01:28:53 #431 №1417641

>>1417627
>Пошёл править шаблоны, а то похоже чатмл не родной.
В Таверне же есть шаблон GLM-4 - с Эйром работает.

Аноним 16/11/25 Вск 01:32:54 #432 №1417645

>>1417641
Да я уже разобрался, да, оно. Ещё и зинкинг надо либо отключать, либо включать. Похуй, разберусь. 3 секунды спустя. Всё, разобрался. Прикольно с зинкингом, но не обязательно.

Аноним 16/11/25 Вск 01:44:04 #433 №1417658

>>1417645
Как у него с русским - лучше, чем у 4.5 или так же?

Аноним 16/11/25 Вск 01:45:00 #434 №1417659

>>1417627
Выглядит стремно - у тебя VRAM через писю протекло в рам. Выгружай экспертов чтоб "общая память графического процессора" пустой была. Когда все плотные части будут только в VRAM и не будут туда-сюда дрочиться по писи скорость возрастет.

Аноним 16/11/25 Вск 01:51:15 #435 №1417665

>>1417658
Вообще никак. Серьёзно, он не выводит русик даже по префилу, и судя по размышлениям, понимает его очень хуёво.
>>1417659
Как будто бы да, но бегает сравнительно бодро. Ладно, потом протестирую детальнее.

Аноним 16/11/25 Вск 02:00:18 #436 №1417678

>>1417665
REAP такой REAP. Весь русик пошел под нож. Как и половина английского наверняка. Я на Air REAP кодить пытался. Когда он у меня почти все комменты на китайском в коде хуйнул, то был удавлен решительно и без сожалений.

Аноним 16/11/25 Вск 02:28:23 #437 №1417731

>>1417645
> зинкинг надо либо отключать
Есть, майн фюрер!

Аноним 16/11/25 Вск 02:55:55 #438 №1417760

>>1417579
Ну, вообще-то - чем модель более постоянна в выводе на контексте большой длинны - тем лучше она следует инструкциям (и остальному контексту). А если у нее рандом в свайпах - практически наверняка она и инструкции херит вместе с остальным контекстом.
Так что, тут даже еще хз что хуже...
Лучше всего, IMHO, когда в балансе - некоторый разброс в каждом свайпе есть, но в основном - не более чем 2-3 возможные ветки-основы по которым она пишет с небольшими вариациями.

Модель же - это ж продвинутый предсказатель "что там дальше" на основе контекста, так что если она полный рандом несет - значит не предсказывает, а галлюцинирует случайное, т.е. контекст идет нафиг. Ну и если полностью повторяется - это уже просто скучно, что тоже плохо (если это не работа какая-то, где точность важна)...

Аноним 16/11/25 Вск 07:41:16 #439 №1417830

>>1417546
Прям рефьюзит? Или скатывает в сою?

Аноним 16/11/25 Вск 07:45:40 #440 №1417833

>>1417543
У тебя с пресетом точно все в порядке? Ты там ползунок штрафа за повторы не выключил случаем?

Аноним 16/11/25 Вск 13:33:32 #441 №1417919

image.png

>>1417593
С дайлапа сидишь что ли?

Аноним 16/11/25 Вск 14:58:33 #442 №1418009

>>1417593
Выключи обфускаторы трафика и спамилки мусора, они ломают многие протоколы. Используй xet и hf_transef, они качают быстро и стабильно.
>>1417760
Не соглашусь, разнообразие свайпов на контексте не имеет корреляций с точностью следования инструкциям. Ты можешь замучиться рероллить модель, которая тупит и проебывает что-то серьезное из раза в раз, и наоборот сидеть с разбегающимися глазами от сгенерировавшихся свайпов с интересными и полностью соответствующими контексту развилками, не зная какой из них выбрать.

Аноним 16/11/25 Вск 15:08:10 #443 №1418020

image.png

>>1413167 →
Прогрелся. Борда уже в пвз, qwat'ы выезжают из китая через ДВ, память к концу месяца тоже вроде вся доедет (16х16)
С мск (хвосты с КЗ) так же выехали ещё две мишки к тем что уже есть

Аноним 16/11/25 Вск 15:26:45 #444 №1418039

>>1418020
По чем память вышла? Брал ее до взлета цен?

Аноним 16/11/25 Вск 15:36:17 #445 №1418048

>>1418020
Ого. Анон, отпиши потом чо к чему, какие спеки и цифры.

Аноним 16/11/25 Вск 16:35:00 #446 №1418090

image.png

Анон, я понимаю, что задолбал весь тред, но как фиксить такое? (см. пик2) Я даже вот такую хрень пробовал, не помогло. (см. пик3)
Мистралевский пейнтед фентези визаж порой циклится и выдает вот такую лапшу и чем дальше повествование, тем больше лапши. А хваленному эйру же нехватает "красок" повествования и сюжет он двигает нехотя.

Аноним 16/11/25 Вск 16:39:24 #447 №1418096

>>1418090
бля да это же луп(зацикливание) мелко модели очень легко лупятся, особенно говнотюны, я ньюфаг тоже но вероятно у тебя просто модель не держит контекст и когда у тебя заканчивается контекст она начинает лупиться

Аноним 16/11/25 Вск 16:43:53 #448 №1418103

>>1418090
про пик 3 забудь вообще, это не в твоем случае
у тебя прямо луп модели, тут или систем промпт опять же или дефы шизовые в карточке и модель шизеет когда у нее путаница или не состыковки, модель в итоге начинает удивляется(не в плане удивляться как мы а не понимает какие токены тебе надо выдавать, и в итоге лупится лишь бы ты отьебался от неё) это реально так бывает

Аноним 16/11/25 Вск 16:45:22 #449 №1418108

>>1418103
>>1418090
пик 3 это для случаев когда тебя реально бывают заебывают противные слова от модели, как например запах озона или мускус или что-то такое спецефичное на чем модель тренели больше всего и что у неё на первом месте в выдаче токена

Аноним 16/11/25 Вск 16:47:12 #450 №1418111

>>1418020
> выезжают из китая через ДВ
Что за посредник? Они же все после китайского вируса через казахстан и москву возить начали.

Аноним 16/11/25 Вск 16:54:05 #451 №1418124

>>1417833
>Ты там ползунок штрафа за повторы не выключил случаем?
Выключил, сижу на DRY. Но проблема же не в том, что модель повторяет выражения из предыдущих сообщений, этого нет. Кстати в Кобольде та же байда, так что проблема скорее всего в Таверне.

Аноним 16/11/25 Вск 16:55:46 #452 №1418127

>>1418124
В смысле фронтенд у меня всегда Таверна, что бы я не использовал. Надо бы альтернативы попробовать, да нет их толком.

Аноним 16/11/25 Вск 17:12:47 #453 №1418151

image.png

Аноны помогите. Что из ddh0 качать? В чем вообще различие со стандартным Q4KS? В треде вроде был апологет этих квантов
https://huggingface.co/ddh0/GLM-4.5-Air-GGUF

Аноним 16/11/25 Вск 17:22:02 #454 №1418158

image.png

>>1418108
>>1418103
>>1418096
Спасибо за разъяснения, анончики.
Плюс минус понял, попробую добавить больше деталей, что бы убрать несостыковки с карточкой, а так же увеличить объем контекста. Смещение логитов снесу.
Добра вам.

Аноним 16/11/25 Вск 18:05:31 #455 №1418200

>>1418158
Тебе модель надо менять. На тот же айр. На худой конец, мистраль/сноудроп. На самый худой конец, гемма с джейлбрейком в промте. На шизотюнах никто не сидит.

Аноним 16/11/25 Вск 18:08:33 #456 №1418204

>>1418020
А откуда ты заказывал? Я смотрел на озоне, они по 150к были, вы говорили про цену в 10 раз меньше

Аноним 16/11/25 Вск 18:11:32 #457 №1418212

>>1418151
Какой максимум влезет, тот и качай, что за вопрос.
Но у меня на практике glm-4.5-air-ffn-q5_k-q5_k-q8_0 показал себя хуже чем glm-4.5-air@q6_k
Возможно меньшие кванты экспертов, чем Q5 и дадут преимущество, при сильном основном.

Аноним 16/11/25 Вск 18:17:31 #458 №1418214

>>1418009
>наоборот сидеть с разбегающимися глазами от сгенерировавшихся свайпов с интересными и полностью соответствующими контексту развилками
Тут ключевое - "соответствующими контексту развилками". Если ты к таким свайпам присмотришься, то почти наверняка обнаружишь четкие ключевые развилки ответа, и четкую их структуру. Т.е. разнообразие будет, но не рандомно-хаотичное. Речь именно об этом. Чтобы вносимый температурой рандом не ломал этот механизм чрезмерностью. Чтобы, грубо говоря, ранодма хватало на обоснованный в рамках контекста выбор персонажа - скажем, идти направо или налево, постоять-подумать, или позвонить по мобиле спросить совета. Но недостаточно, чтобы просто крылья отрастить и лететь верх по желанию левой пятки.

Тол, что я говорил про две-три развилки - это просто мое предпочтение. Мне такой баланс больше всего нравится. Хорошая модель может терпеть и больше, до начала потери логики, но мне это уже кажется слишком натянутым.

>>1418090
Перекрутил семплеры скорее всего (мистраль-тюны - всеядные, карточка должна быть совсем упорота чтобы только из-за нее такое началось).
Сбрось семплеры таверны нафиг в дефолт (есть там кнопка), и начни с такого:
Temp - 0.8, MinP - 0.025, Rep Pen - 1.02. Остальное сначала не трогай.

Аноним 16/11/25 Вск 18:25:29 #459 №1418222

.png

>>1398742 →
Викону сегодня дошли комплекты для апдейта 4090 на 48Гб (с турбиной), кто ждал, можете написать им.

Аноним 16/11/25 Вск 18:27:19 #460 №1418225

>>1418222
А у него готовую взять можно?

Аноним 16/11/25 Вск 18:32:54 #461 №1418228

>>1418225
В объявлении у викона не было такого.

У их конкурентов, кто тоже карты апает, было написано, что готовые карты продают, но надо уточнять всё: https://www.avito.ru/moskva/predlozheniya_uslug/rtx_4090_uvelichenie_pamyati_s_24gb_do_48gb_7644992710

Аноним 16/11/25 Вск 18:39:36 #462 №1418234

>>1418039
> По чем память вышла?
До обвала ещё покупал 4х16 2133 для другой матери по 90ю. Ещё 4 брал с авиты в середине подъёма и сейчас 8 (4+4) с авиты по ломовым ценам. Память вся вразнобой, но перешивать буду на 2666 джедек если поедут. Брать 3200 32 сейчас просто неподъёмно

>>1418048
Ок

>>1418111
До сентября так и было, а потом "что то" произошло на границе кз-рф и сейчас пути два осталось (оба через дв) - это tir и белый экспресс на физиков (со всеми лимитами и пошлинами). Юкб недавно добавили оба варианта в замен КЗ

>>1418204
Таобао. Процы по 900ю (11к). Сколько доставка сдеком дв-урал пока не знаю + придётся немного пошлины заплатить (это дешевле чем высылать две посылки по 1 процу)

Аноним 16/11/25 Вск 18:40:15 #463 №1418235

image.png

>>1418200
>Тебе модель надо менять. На тот же айр.
Эйр приходится ногами пинать, что бы он сюжет двигал а зачастую тупо одно и то же делает каждое событие (не свайп, а именно делает повтор прошлого сообщения на мой новый ответ с изменением в 10%). Никакой фантазии. ПФВизаж же даже каждый свайп предлагает что-то интересное. Может я что-то не так делаю с эйром?

>>1418214
Я сделал (пик 1) по рекомендации со страницы модельки.
https://huggingface.co/zerofata/MS3.2-PaintedFantasy-Visage-v3-34B
Попробую и твои рекомендации.

Аноним 16/11/25 Вск 19:00:47 #464 №1418243

>>1418235
>ПФВизаж же даже каждый свайп предлагает что-то интересное. Может я что-то не так делаю с эйром?
Не, всё правильно. Особенность модели. Я в одном месте кучу моделей перепробовал и только визаж двинул сюжет. Хотя он нестабилен и использовать в качестве базовой модели чата я бы его не стал. Буду ещё качать 123В-версию, заинтересовал он меня. А вот "расширенная" версия (32В) - по-моему просто фигня какая-то.

Аноним 16/11/25 Вск 19:07:19 #465 №1418249

>>1418243
>123В-версию
Сорян, с Друммеровским перепутал. 123В-версии визажа нет, есть Опус 70В на третьей Лламе. Тоже вариант.

Аноним 16/11/25 Вск 19:22:00 #466 №1418266

image.png

>>1418249
>Опус 70В на третьей Лламе
Будь добр, анон, дай ссылочку.

Аноним 16/11/25 Вск 19:27:29 #467 №1418277

>>1418235
Во первых, айру надо в систем промте указать чтоб двигал историю, вместо повторения сообщения пользователя. Раза в 3 снижает количество подобных попыток. На большом контексте вновь может начать, но не думаю что все тут катают 25-30к что жалуются.
Во-вторых, <request></request> никто не отменял.

Аноним 16/11/25 Вск 19:43:26 #468 №1418295

>>1418277
>Во-вторых, <request></request> никто не отменял.
А можно для хлебушка подробнее?

>в систем промте указать чтоб двигал историю
Пробовал. Но попробую еще раз.

Аноним 16/11/25 Вск 19:51:39 #469 №1418310

>>1418295
>А можно для хлебушка подробнее?
В соседнем треде были инструкции по настройке таверны. В том числе и функционал квик реплаев на реквестах. Но можно такие же и делать самому. Как раз помогает при тупняке модели, когда не понимает куда двигать сюжет и что делать.
>Пробовал. Но попробую еще раз.
Главное отрицания не используй. Золотое правило любого промта.

Аноним 16/11/25 Вск 20:00:53 #470 №1418321

>>1418214
> но не рандомно-хаотичное
Конечно, если модель работает адекватно то бред она не будет генерировать, твой пример про крылья это уже просто поломка. Но там нет никаких "четких ключевых развилок ответа", если ситуация не жестко ограничена и предполагает 2.5 варианта. Ответы может быть крайне разнообразными, древовидная структура с появлением новых ветвей, и чем дальше от условно первой развилки - там больше вариантов.
Но в некоторых же моделях есть наоборот предопределенные вещи, выскочить с "линии тренда" очень тяжело, а попадание на нее почти предопределено. Именно на это жалуются те, кто ноет об отсутствии разнообразия и том, что каждый рп чат - лишь вариация одного и того же.
> Хорошая модель может терпеть и больше, до начала потери логики
Вот этого не понимаю, как связана "потеря логики" и разнообразие выдачи.
>>1418234
Вполне себе, если повезет то может и на 3200 заведутся, попробуй если времени не жалко.

Аноним 16/11/25 Вск 20:40:24 #471 №1418369

>>1417452
Дядя, не еби мозги, бери синтвейв, это та же синтия из которой его убрали. Он там есть, но не соевый и не пизданутый на морали.

Аноним 16/11/25 Вск 20:55:41 #472 №1418383

image.png

Define сун блять
Хули они как дети завтраками кормят, скажите сразу в ближайший месяц можете не ждать

Аноним 16/11/25 Вск 21:23:03 #473 №1418419

>>1418235
Очень часто на страницах миксов дают пресеты... своеобразные. Если у меня модель начинает чудить - я первым делом откатываю семплеры на максимально простой вариант. Да и просто использовать классику от базовой модели - тоже хороший заход, чтобы разобраться.
А у тебя на картинке еще включена опция "Пропускать спец. токены" - эту опцию вообще имеет смысл снимать очень редко. Т.к. в число этих токенов входит и разметка, и токен который служит для отметки окончания вывода. Без него будет генерироваться стена текста до самого лимита токенов, причем еще и обрезана может оказаться на полуслове из-за этого.
То что у тебя происходило - может даже она вызывать. Т.к. без нее, возможно, модель бы просто остановилась раньше, чем ушла в цикл.

Аноним 16/11/25 Вск 21:42:10 #474 №1418441

>>1418020
А в чём смысл? Ну кроме цены. На ДДР4 разве можно получить нормальные цифры на больших моделях? Например условные 4-5 токенов на дипсике или кими? Или ты только на картах катать будешь?

Аноним 16/11/25 Вск 22:11:04 #475 №1418469

>>1418441
За примелемые деньги пощупать какой то прикол. Мишки брал ещё в мае когда не было никакой инфы по тому же принципу.
+ Оффлоад в рам меня особо не интересует

Аноним 16/11/25 Вск 22:17:24 #476 №1418471

>>1418441
Там 8 каналов же, причем вероятность что они будут соответствовать ожиданиям и не огорчат как в некроэпиках достаточно высокая. По крайней мере в двухголовой системе с не-инженерниками ллмки крутятся крайне шустро.
>>1418469
> + Оффлоад в рам меня особо не интересует
Хуясе ебать, а тогда зачем, чисто спортивный интерес?

Аноним 16/11/25 Вск 22:20:16 #477 №1418472

image.png

>>1418234
> Сколько доставка сдеком дв-урал пока не знаю
Доставка в сдек у дома + работа форвардера. Пошлина пока хз.
С сдеком на самом деле всё сложнее т.к. по факту небольшие процы примотаны к 1,2м антенне

>>1418471
> чисто спортивный интерес?
Ну да, увидел интересную борду и решил упаковаться. С оперативой только не вкусно вышло, если бы не бум то затарил 16х32

Аноним 16/11/25 Вск 22:26:53 #478 №1418475

>>1418472
0% осуждения. Но ты таки не поленись прогнать как llamacpp с выгрузкой атеншна и прочего на гпу работает, если есть возможность то с хуангом.

Аноним 16/11/25 Вск 22:28:14 #479 №1418476

>>1418475
> с хуангом
Увы, из зелёных только одна 5070ти

Аноним 16/11/25 Вск 22:52:22 #480 №1418490

На опенроутер новая скрытая модель Sherlock Dash Alpha

Попробовать с регистрацией можно здесь
https://openrouter.ai/openrouter/sherlock-dash-alpha

Без регистрации здесь
https://opengatellm.ru/chat

Возможно это версия ChatGPT для эротических ролевых игр, про которую говорил Альтман. Показанная ранее версия GPT 5.1 железобетонно за цензурирована.

Аноним 16/11/25 Вск 22:54:14 #481 №1418494

>>1418490
Не в тот тред запостил, нам похуй на высеры альтмана, даже если там будет видеомодель, где сам альтман будет лизать анус бомжу. В любом случае она сегодня есть, а завтра нет.

Аноним 16/11/25 Вск 23:29:07 #482 №1418513

>>1418476
В принципе ее должно хватить, на нее только атеншн, контекст и прочее, всех экспертов на профессоры.
>>1418490
> Sherlock Dash Alpha
Похоже на название васяновского щитмикса.

Аноним 16/11/25 Вск 23:48:47 #483 №1418522

image

>>1418490
Вроде поменьше закручены гайки. На бомбу всё же стриггерилась. Но в целом похуй, ведь там будет цена как у 5.1, т.е. в 5 раз дороже Дипсика.

Аноним 16/11/25 Вск 23:56:13 #484 №1418527

image

>>1418490
>>1418522
А прикиньте, если это новая Геммочка...

Аноним 17/11/25 Пнд 00:08:14 #485 №1418537

>>1418158
Бля как-то давно спизданул те что нейтрализовать семплеры это их нахуй убрать, но там есть отдельная кнопка в таверне сделай как этот дядя >>1418419 и аж только потом крути мин п и повторы по мере шизы модели
>>1417051
Да любая? Просто тут инфоблоки не помешает прикнрутить и можно днд-шить почти на любой модели?
>>1418522
Выглядит как реально прототип модели для еРП..

Аноним 17/11/25 Пнд 00:13:46 #486 №1418543

>>1418527
Такая параша не нужна в попенсорсе.

Аноним 17/11/25 Пнд 00:32:30 #487 №1418553

image.png

Блядь, в ебаной таверне что, нет drag and drop для прикрепления файлов? Они там вообще ебанулись? Мне что, каждый раз идти в менюшку, нажимать кнопку - прикрепить файл, потом его искать в проводнике? Мы в каком блядь году, алло, даже дефолтный кастрированный фронт лама цпп умеет в drag and drop. Лучшая, блядь, оболочка для РП, пиздец.
Я уже молчу что мне пришлось Chat Completion осваивать просто чтобы вообще картинки посылать не через кривой clip captioning, а напримую вл квенчику - ну и хуй с ним, главное что работает.
Кстати ВЛ квенчик по качеству текста не отличается от обычной своей версии, при этом картинки распознает очень хорошо - распознал кто именно изображенная шлюха на пикриле, например. Буду теперь им пользоваться вместо обычной модели.

Аноним 17/11/25 Пнд 00:45:28 #488 №1418554

bamp

Аноним 17/11/25 Пнд 01:04:15 #489 №1418562

>>1418553
>распознал кто именно изображенная шлюха на пикриле, например
>карточка томоко распознала томоко
Ну ты бы ещё задал вопрос "как зовут томоко на этой картинке с томоко", чтобы уж наверняка.

Аноним 17/11/25 Пнд 01:06:16 #490 №1418564

image.png

Как заставить таверновский Chat completion использовать System prompt не копируя его вручную каждый раз в Main Prompt? И как сохранять разные main prompt не через внешние json файлы?

Аноним 17/11/25 Пнд 01:21:09 #491 №1418588

image.png

>>1417471
Почему это такое говно? Почему я не могу мамку укусить. Там же нет сексуального подтекста? Он ебанутый?
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF

Аноним 17/11/25 Пнд 01:29:07 #492 №1418594

>>1418588
Потому что ты используешь нерасцензуреный аir ?

Аноним 17/11/25 Пнд 01:31:12 #493 №1418596

>>1418588
Зинкинг всё херит, отключай.

Аноним 17/11/25 Пнд 01:38:18 #494 №1418608

>>1418553
>Лучшая, блядь, оболочка для РП, пиздец.
О, сколько тебя открытий чудных еще ждет в ее работе... У ее авторов логика иногда - прямо на весь жбан альтернативная, по другому и не скажешь. :)

>>1418553
>Chat Completion осваивать просто чтобы вообще картинки посылать
А вот здесь, справедливости ради, таверна все-же не при чем. Тут уже Text Completion API на стороне бекэндов такого не умеет, точнее - в него не заложена поддержка ничего, кроме текста (clip выдает "типа токены текста" модели). Для картинок напрямую и агентов нужен chat completion, который, как бы, "более продвинутый стандарт". Если бы таверна сама с моделями работала - тогда да, ее пинать. А так - сама жрет чё дают.

Аноним 17/11/25 Пнд 02:13:29 #495 №1418644

>>1418608
>А вот здесь, справедливости ради, таверна все-же не при чем. Тут уже Text Completion API на стороне бекэндов такого не умеет
Да, я не ругался на этот момент, тут все понятно. Но почему chat complition такой кривой? Почему он не использует system prompt? Почему настройки там сохраняются только единым пресетом на вообще все? Они сами вообще пробовали этим пользоваться?

Аноним 17/11/25 Пнд 02:20:14 #496 №1418647

>>1418608
>более продвинутый стандарт
Да нихуя это не продвинутый стандарт. Вся эта хуерга вроде jinja-подобного форматирования это зачастую обрубок от реального ожидаемого формата.

Аноним 17/11/25 Пнд 02:20:58 #497 №1418648

>>1418644
>Но почему chat complition такой кривой?
Асигодети называют текст компитишен кривым, лол.

Аноним 17/11/25 Пнд 02:24:59 #498 №1418650

>>1418553
Увы, но сейчас рп на вллм - из разряда фантастики, херит ответы. Драгндроп там поддерживается и используется для импорта карточек.
> пришлось Chat Completion осваивать просто чтобы вообще картинки посылать не через кривой clip captioning, а напримую вл квенчику
На данный момент не существует полноценных способов передать пикчу через тексткомплишн. Формально, есть кривой кринге с тегом [img] для ллама-сервера, но он зарождался во времена мезозоя и не работает корректно с современными моделями, где возможно разное положение пикчи в чате и несколько пикч.
>>1418608
> "более продвинутый стандарт"
Лол нет. Это просто разные стандарты, чат является упрощенной абстракцией. В нем проще работать юзерам из-за отсутствия необходимости следить за разметкой, но невозможны многие манипуляции с текстом, что на руку корпам для соификации и борьбы с инжектами/префиллом/жб и прочим.

Аноним 17/11/25 Пнд 02:40:24 #499 №1418654

image.png

>>1418594
>>1418596
Скачал другую версию, анимус которая. Клинить перестало, но сюжет один хуй не идёт.
Мне укусить дал, но сколько не заставлял сеструху, она не кусает, уходит в цикл.
Соски крутил, температуру повышал, промпты менял.

Аноним 17/11/25 Пнд 02:50:08 #500 №1418658

>>1418588
Ну ты дурак чтоль? В эйре цензуры считай нет, там на уровне мистраля, если не лучше. Если у тебя ДУМАНЬЕ включено - отключи. Если нет - правь карточку, она говно. Так или иначе, тут 100% скилл ишью, проблема не в модели.

Аноним 17/11/25 Пнд 02:50:51 #501 №1418659

>>1418588
>>1418654
16-летние мамкоебы из б уже и до этого треда добрались. Пиздец, Антоха, ну ладно я понимаю там вымышленных сестер трахать, ну ладно - лолей. Но мамку? Мать это святое же, как ни стыдно.
P.S. У тебя модель в залуп ушла, потому и сюжет не идет. Модель тут менять бессмысленно, слишком велико давление предыдущих залупающихся ответов, тут только глм 4.6 какой-нибудь и поможет. Откатывай диалог туда, где залуп был не так силен.

Аноним 17/11/25 Пнд 03:08:16 #502 №1418663

>>1418650
Текст комплишен вообще не стандарт, это буквально подход "ебитесь сами". Многие тут возомнили, что раз они сидят на локалках, то значит им прямо позарез по какой-то причине нужен текст комплишен. На самом деле, как правило, сейчас все прекрасно работает на чаткомплишене, но они будут продолжать страдать хуйней вроде смены формата разметки у чистых моделей, или пихать в системный промпт полотна. А повелось это по старой памяти, когда все поголовно юзали файнтюны, которые безбожно похерены на следование инструкциям и разбавлены чужой разметкой, поэтому там имело смысл свитчиться между ними. И я уж молчу про то, что, как правило, файнтюнеры забивали хуй на чат темплейты (а часто и вообще на упоминание разметки, т.е. автор даже не удосуживается привести формат, на котором она лучше всего работает).
Сейчас, когда большинство используют чистые модели, смысла в текст комплишене нет никакого, продолжение и имперсонация работают и в чаткомплишене, даже семплеры можно крутить через доп параметры, если уж приспичило. Тем более за пределами таверны текст комплишена днем с огнем не сыщешь. Так что мой совет всем ньюфагам - используйте и изучайте сначала чаткомплишен, это база, а текст - уже адвансед левел, котора может вам и нахуй не нужна.