Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №200 /llama/

Аноним 26/02/26 Чтв 23:47:23 #1 №1535243

Llama 1.png

Эффективность квантования EXL3.png

Цензура моделей 1.png

17677310866191.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Агентов и вайб-кодинга тред: >>1530474 (OP)

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1532506 (OP)
>>1526027 (OP)

Аноним 27/02/26 Птн 00:38:16 #2 №1535252

Пиздец, кобольдосрач поломал харкач. Ебанная ящерица-недомерок везде нагадить успела

Аноним 27/02/26 Птн 00:42:16 #3 №1535255

>>1535252
Сорян, это моя агентесса решила разом отправить 100 сообщений в пропаганду правильных ценностей и поддержку разных сторон срача, перестаралась.

Аноним 27/02/26 Птн 01:01:12 #4 №1535262

отзыв на Qwen3.5 27b heretic:
Тестовый кум - крайне успешен, ощутил неподдельное удовольствие качеством писания.
Русик - сойдёт.
Кум x4 - сочнейший, особенно после ризонинга.
Возможность после первых ответов отключить думанье и не убить в говно качество - есть.
Форматирование - звёздочки и кавычки ставит крайне неохотно, иногда приходится редачить.
Кароче, единственный минус - ужасно долгий ризонинг.

Модель отправляется в золотой зал (для 16+64).
Llama 3.1 Celeste 8b < Rocinate 12b я даже хуй знает от чего это тюн < mistral 2506 < GLM-4.7 heretic FLASH < Mistral small 3.2 24b < Air < Qwen3.5 27b ~< Qwen3 235b

Аноним 27/02/26 Птн 01:05:21 #5 №1535264

>>1535262
>mistral 2506
>Mistral small 3.2 24b
Это одно и то же, лол

Аноним 27/02/26 Птн 01:21:53 #6 №1535271

Есть "однокнопочное" локальное решение чтобы побаловаться в ролевки с разными нейронками?

Все чем я пользовался lmstudio когда искал необходимые промпты для веб сервиса который потом подняли на ollama.

Почему в шапке нет приложения PocketPal для мобильных устройств? Оно плохое или недостаточно мощное?

Аноним 27/02/26 Птн 01:22:19 #7 №1535272

>>1535264
Я слепой немного, перепутал файл с пресетом для кобольда уже как год не пользвуюсь, не убивайте и ггуф. на том месте должен был быть NemoMix-Unleashed-12B-IQ4_XS.gguf наверное

Аноним 27/02/26 Птн 02:05:08 #8 №1535288

>>1535271
Кобольд + таверна, разумный компромисс между однокнопочностью и функциональностью. Хотя обычноюзеру даже это может показаться пердолингом, потому что для наилучшего результата нужно настраивать. Из прямо готовых из коробки решений для рп только всратые сервисы, которые реально всратые.

Аноним 27/02/26 Птн 02:13:53 #9 №1535293

>>1535288
А что насчет угабги? Он как-то поприятнее выглядит. Не то чтобы это было очень важно.
Или у таверны будет свой интерфейс и от платформы нужен только бекенд?

С наскоку за десять минут не настроишь похоже, придется читать. Потом еще конкретные ллм скорее всего придется тюнить для нормальной работы. Странно как-то что нет локального plug and play софта, в который только нейронку воткни.

Аноним 27/02/26 Птн 02:16:40 #10 №1535294

>>1535293
Lm Studio есть

Аноним 27/02/26 Птн 02:17:56 #11 №1535295

>>1535293
>А что насчет угабги?
Оно живо еще?

>Или у таверны будет свой интерфейс и от платформы нужен только бекенд?
Да, таверна это фронт.

>Потом еще конкретные ллм скорее всего придется тюнить для нормальной работы.
Лол, нет, этого не надо делать, разве что под тьюнингом ты подразумеваешь обычную настройку.

>Странно как-то что нет локального plug and play софта, в который только нейронку воткни.
Есть и он называется кобольд. Там даже кнопка есть - настрой для меня и запусти по красоте.

Аноним 27/02/26 Птн 02:21:48 #12 №1535299

>>1535294
Да там как-то не получается в рп. Вместо рп получается какая-то новелла. Или я просто не правильно себе это представляю.

>>1535295
Не знаю, я в шапке пока высмотрел ее. Не успел разобраться.

В лм студио приходилось менять некоторые настройки чтобы добиться "пика эффективности". Об этом и на страничке модели писалось. И еще приходилось делать мастер промпт чтобы оно не отвлекалось.

Ну попробую связку кобольд + таверна, спасибо.

Аноним 27/02/26 Птн 02:49:24 #13 №1535310

>>1535262
>Возможность после первых ответов отключить думанье и не убить в говно качество - есть.
>Форматирование - звёздочки и кавычки ставит крайне неохотно, иногда приходится редачить.
Промптить думанье просто надо под то что тебе нужно. 3.5 очень заметно лучше отзывается в этом плане чем всё что было с ризонингом для этого. Finally модель, которую можно промптом заставить хоть как-то адекватно делать самопроверки какие угодно, трекать корректность анатомий и количества снимаемых трусов и хоть считать по физону движение хуев и тряску сисек в ERP.
Но ризонинг такой, конечно, не для среднего железа, минимум 4090/5090 с 40-50+ t/s, чтобы не покрыться плесенью в ожидании.

Аноним 27/02/26 Птн 03:09:43 #14 №1535327

>>1535293
Оно норм, удобно, универсально. И можно пользоваться, таверна просто лучше для рп.
> Или у таверны будет свой интерфейс и от платформы нужен только бекенд?
This, и вместо кобольда может быть убабуга.
> придется тюнить
Настраивать промпты. Рп это вообще тема довольно специфичная, разнообразная + к разным моделям разный подход. Так еще и по моделям и запуску тот еще зоопарк. Потому и нет сразу единого готового стандарта.
>>1535310
> делать самопроверки какие угодно, трекать корректность анатомий и количества снимаемых трусов и хоть считать по физону движение хуев и тряску сисек в ERP
Базированно, наконец господин, который отметил эти фишки.

Аноним 27/02/26 Птн 05:30:02 #15 №1535362

>>1535262
>Кароче, единственный минус - ужасно долгий ризонинг.
Попробовал по рекомендации. Ну не знаю, как по мне - ризонинг весь по делу. Ужасно приятно, что сою из него можно вычистить. В русском немного путается, но терпеть можно; в английском должно быть вообще отлично. Действительно интересная модель.

Аноним 27/02/26 Птн 05:44:14 #16 №1535367

>>1534710 →
Кстати действительно хороший мердж получился. Пока что прям даже отличный, всего пару свайпов сделал за несколько часов. Может даже лучше Maginum-Cydoms.

Аноним 27/02/26 Птн 07:30:37 #17 №1535392

>>1535243 (OP)
Хочу вкатиться в эти ваши лэлэмы. Подскажете как, чтобы не наебнуть пк в процессе. В шапке только куча ссылок и всё на англюсике. Не то чтоб я его совсем не понимал, но хочется нормальной такой, гречневой инструкции. Мучить промтами жеминю весело, но хочется настоящего женского тепла персонажа, чтобы запоминал контекст и придерживался роли в продолжительных диалогах. Как? Научите, будьте добры

Аноним 27/02/26 Птн 07:44:02 #18 №1535393

>>1535392
>Не то чтоб я его совсем не понимал, но хочется нормальной такой, гречневой инструкции.
Пожалуйста, проследуйте в тред к другим обладателям отсутствия мозга: >>1534436 (OP)

Аноним 27/02/26 Птн 08:54:23 #19 №1535413

Что лучше, плотный квенчик 27 или мое 122б-а10б? И для рпшинга и для коденга.

Аноним 27/02/26 Птн 09:06:37 #20 №1535420

image.png

>>1535413
Для кода и то и другое хуйня, потому что есть гпт осс 120. Она по их же бенчмаркам (квена) лучше. И это при том что в их бенчах гпт осс mxfp4 (единственный вариант), а квены в полных весах. Вот и сравнивай. mxfp4, по сути квант чуть хуже q4ks, уделывает полные веса новых квенов в CodeForces, а это самый показательный кодинг бенч за пределами эйдер полиглота. Потому что для решения тамошних задач нужны и широкие и глубокие познания в коде. Кто там сидел и решал задачки те знают. Единственным плюсом пожалуй будет контекст, он весит легче и уместится его больше, хотя хз будет ли на практике держать больше тех же доступных и на гопоте осс 128к
Гпт осс 120 7 месяцев назад вышла, а до сих пор уничтожает всё в своей размерной категории. Даже на средитах уже это поняли и сидят ахуевают, почему и зачем альтман сделал такой подарок. Такого уже не будет от попенов, вероятно

Аноним 27/02/26 Птн 09:12:46 #21 №1535422

>>1535420
С контекстом плюс нивелируется тем, что нужно для кода брать хотя бы q5, а лучше q6 квант, что гораздо жирнее гопоты осс. 40 гигов разница с q6. И работать гопота будет быстрее, 3b против 10b и 27. Жаль, что в рп гопота не умеет совсем, был бы совсем бангер. Хотя потому и не умеет, подозреваю, что в коде хороше.

Аноним 27/02/26 Птн 09:19:29 #22 №1535427

>>1535393
Это тред локалок, я хочу локалку. Просто я нуфак в этом деле, помогите разобраться
>в тред к другим обладателям отсутствия мозга
>This is a guide for retards like you, who want to roleplay debauchery things with an LLM
Так... это что такое, а?
>Download SillyTavern release or staging branch
А в чём разница? Что мне выбрать чтобы было поменьше пердолинга? Я же нововкатыш, сейчас мне нужно что-то попроще, чтобы понять как работает

Аноним 27/02/26 Птн 09:21:43 #23 №1535430

>>1535422
Это актуально только для 122б мое. Плотная наоборот может влезть тем, кому не влезает та же гпт осс или другие мое, ибо фуллврам
>>1535392
>>1535427
Здесь справедливо не любят реквесты а-ля "скажите мне куда нажимать и чтобы было заебись". Задаешь конкретный вопрос получаешь конкретный ответ. Для начала тебе подойдет koboldcpp, это лучшее решение для новичков. Там и бэкенд (запуск самой модели) и фронтенд (интерфейс с ее взаимодействием). Затем по необходимости установишь Таверну. Staging branch тебе не нужен, используй release

Аноним 27/02/26 Птн 09:32:59 #24 №1535443

>>1535392
Ты железо свое сообщи. Если там меньше 16gb vram и 64gb ram, можешь забить на затею

Аноним 27/02/26 Птн 09:34:03 #25 №1535444

изображение.png

>>1535241 →
>Фуллврам или чисто проц?
Я кстати не помню, скорее первое, я же не такой балбес, чтобы удивляться ускорению с выгрузкой на проц... Вроде бы. Не знаю.
В случае с процом там вообще жуткий буст, оно же для каждого батча заново слои скидывает на карту, и в таком сценарии после скидывания считать 8к, а не 512 - крайне логично и выгодно.

>Оверпрайс если что
Не знаю, я думал там скорее будет под тысячу за метр - я не представляю процесс производства такой штуки. Особенно меня поражает, почему профиль с 5 дырками дешевле чем с одной. Ладно центр рассверливают ещё, предположим, а как квадратные отверстия такие то делают... Не понимаю.
Спасибо большое, я не знал как он называется, гуглились только квадраты, трубы и всякое П-образное. У меня просто есть что собрать, 9 метров профиля нужно, эта штука вроде как на вид то что нужно, лучше чем коллхозить из квадрата, к которому ролик не очень ясно как закрепить. Ну и к слову квадрат 20х20 толщиной 2 мм по цене как и твой профиль.
Я бы из стали сделал, у меня и сварочник есть и прочее - но это будет весить тонну, а подразумевается что это будет что-то переносное + иногда на улице, где не очень хочется сталь, как бы я её не покрывал, будет дырка от сверла, куда внутрь вода будет попадать.

Аноним 27/02/26 Птн 09:40:03 #26 №1535447

>>1535443
технически можно запускать и на 6гб врам (я запускал), но только мое модели и много контекста не влезет.

Аноним 27/02/26 Птн 09:41:41 #27 №1535448

>>1535447
Технически можно, да только запросы у него ого-го какие
>хочется настоящего женского тепла персонажа, чтобы запоминал контекст и придерживался роли в продолжительных диалогах
Даже на гигантах для такого нужно от 32к контекста и постоянно сумарайзить

Аноним 27/02/26 Птн 10:05:51 #28 №1535458

>>1535448
ну вот квен что то такое сделал что 35B-A3B даже на 100к заполненного контекста доделывает задачу по пунктам до конца и отмечает в конце в файлике сделаные задачи а не пускается в пляс на бесконечное генерирование кода.

Я конечно мало тестил локальные модели (до этого был негативный опыт, правда на 6гб врам запускал до покупки 16Гб видяхи), но то что я вижу сейчас - уже весьма похоже на рабочий инструмент.

Аноним 27/02/26 Птн 10:11:46 #29 №1535460

>>1535458
Но я на 16гб врам пытался в тех же задачах запустить glm4.7-flash и он с треском провалился еще на этапе планирования спецификации когда начал вместо этого сразу писать код

Аноним 27/02/26 Птн 10:59:14 #30 №1535482

>>1535444
>Особенно меня поражает, почему профиль с 5 дырками дешевле чем с одной.
Меньше металла стоит дешевле, чем больше металла, вот ведь загадка.

Аноним 27/02/26 Птн 11:05:00 #31 №1535490

>>1535444
> Ладно центр рассверливают ещё, предположим, а как квадратные отверстия такие то делают... Не понимаю.
Они не сверлятся. Это экструзионный профиль.
У rsi немного дешевле чем у сз

Аноним 27/02/26 Птн 11:08:01 #32 №1535494

https://huggingface.co/Qwen/Qwen3.5-122B-A10B
Кто-то отписывался уже по нему не в лучшем свете, в контексте рп. Поддержу. Q6 батрухи. Тупой как пробка в ролевой игре на английском. Уж не знаю как Гемма, про которую все так активно строчили в первые дни выхода Квена3.5, но Эйр точно лучше. Контекст Квен держит лучше, но смысла в этом никакого. Придется свайпать много-много раз, чтобы получить что-нибудь вменяемое. Не понимает нюансы диалогов, персонажи очень картонные.

И это я еще не сталкивался с рефузами, гардрейлами и байасом, потому что тестил на безобидных диалогах. Полный провал.

Аноним 27/02/26 Птн 11:23:21 #33 №1535519

>>1535494
Ясно, эйр с нами навсегда. Терпим, карлики. Кто терпит, тот выживает.

Аноним 27/02/26 Птн 11:29:31 #34 №1535532

>>1535519
Можно терпеть, а можно кайфовать. Каждый выбирает сам.

Аноним 27/02/26 Птн 11:38:29 #35 №1535551

Что за круговорот датасетов в природе? Почему дипсик порой шизит и пишет что он квен, квен что он чатЖПТ, а гемини пускает слюни.
Все кампании занимаются совместным пиздингом данных у друг друга что ли?

Аноним 27/02/26 Птн 11:39:58 #36 №1535554

>>1535494
Да, увы и ах, в целом для РП новые квены не очень.
Но ничего, год только начался, я уверен нас выпустят ведь мы приплыли в Морровинд, еще много хороших моделек впереди.

Аноним 27/02/26 Птн 11:41:53 #37 №1535560

1693279280069733.png

>>1535252
Есть архив прошлого треда у кого-нибудь, я свой перезаписал сломанным тхредом, не проверив.

Аноним 27/02/26 Птн 11:49:46 #38 №1535576

>>1535551
> Все кампании занимаются совместным пиздингом данных у друг друга что ли?
Да. Собранных человеками датасетов теперь очень мало. Почти все собирают синтетические датасеты (из данных, сгенерированных ЛЛМ), и на них обучают.

Аноним 27/02/26 Птн 11:52:20 #39 №1535583

>>1535576
Я может тупой.. и чего то не понимаю. Но обучение на выжимках, это же говно. В чем проблема посадить макак, чтобы они сидели и компилировали охуительные истории написанные двурукими обезьянами?

Аноним 27/02/26 Птн 11:55:30 #40 №1535584

>>1535583
Да. Говно. В чем проблема посадить макак - подозреваю, это дороже и дольше. К тому же, это уже делается, как-то же собирают данные с интернетов.

Дальше ситуация будет усугубляться, и синтитеческих данных в датасетах будет все больше.

Аноним 27/02/26 Птн 12:11:59 #41 №1535611

>>1535420
>уделывает полные веса новых квенов в CodeForces, а это самый показательный кодинг бенч за пределами эйдер полиглота

спорное утверждение. если цель пользователя ЛЛМ решать олимпиадные задачки, то да, наверное бенч КФ показателен. но обычно это более разнообразыне проекты - какой-то бекенд/фронтет, пачка скриптов, игроделы. и тут то нужно работать с многими существующими файлами, а в КФ модель ебашит с нуля в одном файле

но гпт-осс 120б хорош, спору нет. хотя на том же реддике нет единого мнения, многие до сих пор сидят на разных вариациях квен-код моделей. чуть позажиточнее аноны - на минимакс (хотя для таких относительно больших моделей мнения еще более разделились, и все сугубо личный преференс)

Аноним 27/02/26 Птн 12:31:15 #42 №1535642

Ленивцы кванты пофиксили или нет?

Аноним 27/02/26 Птн 12:36:30 #43 №1535652

>>1535551
Обычный круговорот. Все нейронки срут в интернет, а их высеры кидают в датасеты. Такая вот нейросетевая многоножка.
>>1535583
>В чем проблема посадить макак
Правозащитники сказали, что РАБотать за 7 баксов в день на ужасной работе по разметке и генерации датасета это нечеловечно. Поэтому негры теперь сидят без работы.

Аноним 27/02/26 Птн 12:39:39 #44 №1535657

2026-02-27123343.png

Анслоп ебу дал?

Аноним 27/02/26 Птн 12:40:23 #45 №1535662

>>1535657
Гпт 120б если что.

Аноним 27/02/26 Птн 12:40:43 #46 №1535663

>>1535583
>В чем проблема посадить макак, чтобы они сидели и компилировали охуительные истории написанные двурукими обезьянами?
долго
дорого
бесполезно - у тебя будет модель от макак для макак с охуительными историями. кому это нахуй всралось кроме местных кумеров?

Аноним 27/02/26 Птн 12:40:47 #47 №1535664

Квенобояре, как вам новые лоботомиты?

Аноним 27/02/26 Птн 12:42:49 #48 №1535669

1691912177343.png

>>1535240 →
Тест SmolLM3-3B на дебилах

Обновленный обзор

Мне нужна модель для общения с дебилами.

Сейчас для моих задач используется YandexGPT-5-Lite-8B-instruct-Q4_K_M, она весит меньше 5 гигов и идеально подходит для общения с дебилами, пишет контакты, если просят, очень быстро генерирует токены

На картинке gemma3-1b, весит 800 мб, несет хуйню, но сгодится для того, чтобы издеваться над дебилами, но не общаться. Если задать ей вопрос в лоб, то прямо пишет, что она языковая модель Google.

Мне нужна модель, которая весит меньше YandexGPT-5-Lite-8B-instruct-Q4_K_M, но общается достаточно качественно, чтобы общаться с дебилами.

Весят больше YandexGPT-5-Lite-8B-instruct-Q4_K_M
NousResearch_DeepHermes-3-Llama-3-8B-Preview-Q6_K_L - медленнее выводит токены, чем YandexGPT-5-Lite-8B-instruct-Q4_K_M, реагирует вроде лучше на фразы типа М, пишет конакты, если просят, но все равно шероховатости в ответах.

На уровне gemma3-1b, но весят больще
gemma-3n-E2B-it-Q6_K

Хуже gemma3-1b и весят больще
fblgit_miniclaus-qw1.5B-UNAMGS-GRPO-Q6_K_L

Тест провалили (сильно хуже, чем gemma3-1b)

Thinking модели, не подходят для чата
DeepSeek-R1-Distill-Llama-8B-Q6_K_L
DeepSeek-R1-Distill-Qwen-1.5B-Q6_K_L
teknium_Qwen2.5-1.5B-Open-R1-GRPO-Q6_K_L

Пишут еренду
FuseChat-Llama-3.2-1B-Instruct-Q6_K_L
gemma-2-2b-it-abliterated-Q8_0

Мешают русский и другие языки
tiny-llm-q5_k_m - мешает русский и английский
internlm3-8b-instruct-Q6_K_L - медленнее выводит токены, чем YandexGPT-5-Lite-8B-instruct-Q4_K_M, пишет вроде складно, но потом добавляет иероглифы

Не отвечают на русском
agentica-org_DeepScaleR-1.5B-Preview-Q6_K_L - Thinking модель, не подходит для чата
nvidia_AceInstruct-1.5B-Q6_K_L - Thinking модель, не подходит для чата
SmolLM3-3B-Q6_K - Thinking модель, не подходит для чата

Аноним 27/02/26 Птн 12:48:28 #49 №1535674

>>1535664
Мы счастливы. Ведь мы счастливы, аноны.
Мы получили что хотели. Новый большой доступный квен, агентские малыхи, и даже среднелоботомита.
РП в сделку не входил. Сами себе Буратино.

Аноним 27/02/26 Птн 12:51:59 #50 №1535678

>>1535662
Это норма.

Аноним 27/02/26 Птн 12:57:29 #51 №1535682

>>1535430
Понимаю. Мне пока бы с самой базой ознакомиться, а т оя не понимаю о чём анон в треде говорит. Буквоцифры какие-то, что это? Имена моделей? В них существенная разница или вкусовщина?
>koboldcpp
Кобольд так кобольд, всё равно по первой разницы с другими не увижу. Вот я скачал ехе с гитхаба. Что дальше? Его нужно в отдельную папку отселять?
>установишь Таверну
А кобольд и таверна это не одно и то же? В чём разница?
>>1535443
12 врамы, 16 рамы. Совсем мало? Мне для работки и игорей всегда хватало, ни разу не упирался в недостаток :(
>>1535448
Я просто подумал, что на локалке будет проще схоронять прогресс общения. Ошибся?

Аноним 27/02/26 Птн 12:58:00 #52 №1535683

>>1535662
Жпт с завода квантована

Аноним 27/02/26 Птн 13:08:25 #53 №1535696

>>1535682
> Буквоцифры какие-то, что это? Имена моделей? В них существенная разница

Поваришься немного - поймешь.

Про квантизацию популярно, там не все так просто
https://youtu.be/vW30o4U9BFE
https://github.com/iuliaturc/gguf-docs

про мое и плотные модели и цифры в названиях модели можешь у
дипсика спросить, она тебе расскажет (кстати, мое не всегда обозначается в названии, часто в описании пишут между делом как активные параметры)

Аноним 27/02/26 Птн 13:11:07 #54 №1535699

>>1535682
Раз уж так ленишься читать шапку/вики треда/вики кобольда, то позадавай свои вопросы гемини/чатгпт - это будет быстрее и проще чем ждать пока кто-то тебе тут всё разжуёт.

Аноним 27/02/26 Птн 13:16:54 #55 №1535708

>>1535682
> Понимаю.
> Вот я скачал ехе с гитхаба. Что дальше? Его нужно в отдельную папку отселять?
> А кобольд и таверна это не одно и то же? В чём разница?
Говоришь, что понимаешь, а затем сразу же задаешь два вопроса, которые легко решаются одним запросом в гугл. В треде такое справедливо трактуется как нежелание разбираться самостоятельно, иногда триггерит местных на праведный гнев. У Кобольда прямо на странице Гитхаба есть инструкция по запуску. Даже русскоязычные видосы на ютубе есть. В крайнем случае, иди спрашивай Гемини, которую сам же и упомянал.

> Буквоцифры какие-то, что это? Имена моделей? В них существенная разница или вкусовщина?
Qwen3.5-122B-A10B ; Qwen3.5-27B ; GLM-4.5-Air - всё названия моделей. Разница существенная: разные семейства моделей, разные типы моделей, помещаются в разное железо. Если ты хочешь именно разбираться в сабже, то со временем разберешься, не нужно перегружать себя информацией. Для начала запусти хоть что-нибудь, что соответствует твоему железу.

> 12 врамы, 16 рамы
Результат будет однозначно хуже того, что ты можешь запустить через апи (Гемини, Клод, чем ещё там балуются в соседнем треде). Навскидку, это 12б-14б Мистрали, возможно совсем маленькие Квены, из новых это Qwen3.5-35B-A3B.

Аноним 27/02/26 Птн 13:17:33 #56 №1535709

>>1535682
> 12 врамы, 16 рамы. Совсем мало?

врам еще более менее, а рамы точно мало. грубо говоря - модель либо помещается целиком в видеопамять + память на контекст несколько гиг (маленькие и глупые модели), либо MoE модели которые выгружают малоиспользуемые веса в оперативную память и используют по мере необходимости.

вот взять к примеру квен который я сейчас использую

https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/blob/main/Qwen3.5-35B-A3B-MXFP4_MOE.gguf

для 120к контекста он сейчас занимает 14Gb врам и 13Гб рам.
Для более больших моделей у меня не хватает 32Гб RAM чтобы положить https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF, там уже минимум 64гига памяти надо.

Аноним 27/02/26 Птн 13:21:05 #57 №1535712

>>1535682
> Я просто подумал, что на локалке будет проще схоронять прогресс общения. Ошибся?
Смотря что ты под этим понимаешь. В твоё железо влезут модели, которые на порядки глупее того, что ты используешь сейчас, и будут вменьшать меньше контекста. Знаешь хотя бы, что такое контекст?
Ссылки на модели, что я выше упомянул - https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1 ; https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512
Заходишь в Quantizations, качаешь подходящий по размерам в gguf кормате квант. Разбирайся. Не будешь разбираться - тебя дальше будут игнорировать, и будут правы.

Аноним 27/02/26 Птн 13:21:11 #58 №1535713

>>1535708
>Навскидку, это 12б-14б Мистрали
Смысла нет. Лучше чуть подольше подождать, но юзать нормальные 24b и 27b. Они влезают по железу.

Аноним 27/02/26 Птн 13:24:20 #59 №1535717

>>1535713
Возьми на себя бремя объяснить новичку, как именно можно на 12гб врама запустить 24б-27б модели с контекстом. Мне же кажется, гораздо резоннее сначала запустить хоть что-нибудь. Позже уже минмаксить, если он поймёт, что это то, чем хочет заниматься.

Аноним 27/02/26 Птн 13:24:58 #60 №1535719

>>1535669
>Thinking модель, не подходит для чата
Мяу? Можно отключить размышления. И почему не подходит? Вполне подходит.

Аноним 27/02/26 Птн 13:41:35 #61 №1535734

>>1535717
Он же через кобольд собирается гонять? Ну укажет контекст, 16к, например, и нажмет запустить. Всё. В кобольде там в выгрузке слоёв по умолчанию -1, т.е. он автоматом сколько-то слоёв сгрузит во врам. Модель запустится, просто настройки будут неоптимальные.

А если уж объяснять, то объяснять нужно подробнее, и про темплейты, и про семплеры, и про разные оптимизации типа флешатеншн, квантование контекста, и про все нюансы таверны, и про особенности работы с моэ, ну ты понел.

Делать этого я конечно же не буду. Инфы в шапке, в вики и в интернете предостаточно. Я когда вкатывался в локалки пару лет назад, вообще анону мозги не ебал, разбирался во всём сам. Ничего сложного в этом нет. Чел просто ленится читать и хочет чтобы его с ложечки накормили.

Аноним 27/02/26 Птн 13:45:46 #62 №1535739

Что там по квену 3.5 27В? Как он в плане сэкса?

Аноним 27/02/26 Птн 13:47:07 #63 №1535741

>>1535739
Контекст ебет

Аноним 27/02/26 Птн 13:47:17 #64 №1535742

>>1535739
Гемма лучше. Это не шутка.

Аноним 27/02/26 Птн 13:54:17 #65 №1535747

image

Признайся, захотелось.

Аноним 27/02/26 Птн 14:00:48 #66 №1535756

>>1535747
Меня терзают смутные сомнения... (с)
590 и 12.4 ???

Аноним 27/02/26 Птн 14:01:36 #67 №1535758

>>1535756
5090 - 0 отклеился.

Аноним 27/02/26 Птн 14:02:10 #68 №1535759

image.png

>>1535739
Если честно, неплохо. Я не могу отрицать его богатую фантазию. Квен обычно пишет как какой-то поэт на грибах и кокаине, но 27b прям...более целостный что-ли. Его предложения написать эротическую историю мне даже понравились.

>>1535742
я бы сказал у геммы лучше слог, но она продолжает диалог без копмьюта. у квена его размышления могут так сильно изменить начальное повествование что это выглядит как радикальный шаг, чем он обычно удивляет.

Мне нравится давать квену инструкцию "Advance plot while you writing. Don't stuck in same scene, it is not fun when your only answer what character feel or does. WHAT is going on and how scene advances are even more important."

Аноним 27/02/26 Птн 14:03:26 #69 №1535760

>>1535747
Неверный объём, в 5090 можно сделать только 96 гиг.

Аноним 27/02/26 Птн 14:03:37 #70 №1535761

>>1535310
Анон, объясни как промптить думанье. Я тупой, только-только разбираюсь с обычным промптингом

Аноним 27/02/26 Птн 14:06:41 #71 №1535763

>>1535739
>Что там по квену 3.5 27В? Как он в плане сэкса?
Вот по-хорошему его (heretic-версию) бы прикрутить в качестве ризонинг-модели к самой большой версии Квена. Ризонинг совершенно того же формата и он хорош. Ну а сочные детали уже большая модель распишет. Автоматизировать этот процесс плагином к Таверне было бы хорошо.

Аноним 27/02/26 Птн 14:20:32 #72 №1535768

>>1535763
Фантазёр, ты меня называла...

Аноним 27/02/26 Птн 14:26:41 #73 №1535775

Ананы, помогите, всю жопу себе уже разорвал.

Новые модели квена, 27-35б, постоянно пересчитывают контекст и я не могу с этим никак разобраться.

В кобольде, как я понимаю, вообще с этим ничего не сделать, но у меня там 10 тс. В лламе есть полурабочий вариант с --ctx-checkpoints 128, однако там 6 токенов при любом сценарии работы, вот хоть усрись, в том числе и без -ctx-checkpoints.

Я уже часов 5 ебался, всё бестолку.

Из железа 3060 + р104, то есть 20 врам. Модель полностью влезает, в данном случае речь именно про 27б квен.

Основная проблема в лламе, как я понимаю, в том, что она почему-то кладёт самые жирные compute buffers на p104, слои или аллаха — кобольд показывает совершенно иную картину: самое тяжёлое говно он берёт на 3060. И я никак не могу это исправить. Небось в лламе есть какие-то анальные оптимизации, которые нужно включать вручную и которые включены по умолчанию в кобольдыне. Может что-то, связанное с mmq, cublas, а я этого не знаю. В любом случае, тензор сплит, мейнг гпу, вот это я всё уже дёргал в каких угодно пропорциях и крутил свои логи в гопоте в режиме размышления на 7 минут по 32к токенов, с поиском по интернету и загруженной документацией кобольда и лламы. Тут явно видно, что проблема в р104 и я на древнем говне сижу просто, но всё же, раз кобольд справляется, наверняка ручками что-то сделать можно.

Пожалуйста, дайте советов и скопипастите прям свой батник сюда (вообще похуй, что вы там запускаете — главное пример), чтобы я увидел, что там и у меня появилось реальное понимание, что вы там пишете. Возможно, я упускаю что-то важное, так как лламой пользовался всего лишь раз 5 за несколько лет.

Аноним 27/02/26 Птн 14:27:27 #74 №1535777

IMG4926.jpeg

>>1535768
Фантазии- есть признак работающего ума.
Бббака

Аноним 27/02/26 Птн 14:29:04 #75 №1535781

image.png

>>1535775
Крепимся

Аноним 27/02/26 Птн 14:38:14 #76 №1535787

>>1535742
Отпустите вы уже Геммочку наконец на пенсию, до выхода 4. Она хуже современных тюнов мистраля 24Б во всем кроме русика. И в следовании инструкциям, и в передаче характера карточки и в логике происходящего.
Ну а Квен 3.5 27В (Heretic) неплох, пиздец умный, только медленный из-за ризонинга. С файнтюнами будет вообще красота.

Аноним 27/02/26 Птн 14:43:59 #77 №1535791

Ну вот и стало понятно, что 27b плотная умница, а 122b-a10b лоботомит ебаный. И мозгов у MoE версии ещё меньше чем у 7b моделей.

Аноним 27/02/26 Птн 14:44:44 #78 №1535792

reas.jpg

>>1535775
Количество блоков в 0 либо отрубай ризонинг совсем через старт реплай виз:
<think>

</think>
и "chat_template_kwargs": {"enable_thinking": False} в систем промпт сверху.

Аноним 27/02/26 Птн 14:45:39 #79 №1535793

>>1535787
Ничего, она и следующие Квены переживет. Для тех кто не судит модели по возрасту

Аноним 27/02/26 Птн 14:48:22 #80 №1535794

>>1535793
Гемма 27б и новую гемму переживёт, если та будет ХХb-a3b моэ парашей.

Аноним 27/02/26 Птн 14:50:37 #81 №1535799

>>1535791
27б может и умнее, но знаний у нее в 5 раз меньше. В рп и даже кодинг задачах важно и то и другое
А вывод что у 7б модели мозгов больше чем у 10б говорит в первую очередь о том что ты квантованный наглухо

Аноним 27/02/26 Птн 14:51:07 #82 №1535800

Геммочка умничка, геммочка молодец. Она попустила лламу 70b, квена 72b, все мистрали, в том числе и ларж. Смогла выстоять даже под натиском эйра и большеквена. В какой-то степени дала пососать большому глму. А новая аблитерация сделала её ещё более актуальной.
Так что гуглы выкатили слепящий чин тясячелетия. На локалках ничего кроме геммы и не нужно.

Аноним 27/02/26 Птн 14:53:13 #83 №1535802

1772193193568.mp4

>>1535800
Дай ссылочку

Аноним 27/02/26 Птн 14:53:22 #84 №1535803

>>1535799
Это тебя квантовали до tq1. У мое-параши часть активных параметров дублируется и не оказывает влияния на выдачу. Всякие роутеры, да и в экспертах дубликатов много.
Поэтому плотная модель на то же число активных параметров как у мое-говна, будет разъебывать.

Аноним 27/02/26 Птн 14:53:32 #85 №1535805

>>1535800
С большим глмом перестарался, но адептам умнички твой наброс зайдет

Аноним 27/02/26 Птн 14:53:45 #86 №1535806

>>1535800
Воистину, гуглбои какие то религиозные фанатики. Без обид, но вы ебанутые, вы это знаете?

Аноним 27/02/26 Птн 14:55:11 #87 №1535808

>>1535791
Да, плотная 27б тащит. Практически близка к ранним триллионникам даже по степени ума. Медленная конечно пиздец, но пока 27B-Heretic меня впечатлила.

Аноним 27/02/26 Птн 14:55:34 #88 №1535809

>>1535803
>Всякие роутеры
Эксперт в треде
>То же количество параметров
7 < 10, о чем я и говорил - ты квантованный наглухо

Аноним 27/02/26 Птн 15:00:52 #89 №1535813

>>1535808
Плотная хороша, почти на уровне геммы. Если нормпрезерв на плотный квен ебанут, то будет конкурент геммы просто за счет другого слога и более свежих данных. По уму честно пока разницы не вижу, и блок ризонинга часто очень длинный.

Считаю, шин, всего полтора года спустя после выхода третьей геммочки получили почти такую же модель, только немного другую, зато от китайцев.

Аноним 27/02/26 Птн 15:08:08 #90 №1535817

>>1535781
Падажжи, ты включил SWA?

>>1535792
Эх. Я уже так пробовал — бесполезно. Если бы я мог как-то отключить пересчёт контекста, то да, ллама бы не понадобилась, наверное. Но там, судя по всему, проблема в другом, если смотреть issues.

Аноним 27/02/26 Птн 15:09:50 #91 №1535821

>>1535817
А ты точно-точно на последней Лламе? Там буквально пару релизов назад были замерджены fix prompt caching пулл реквесты
И еще, если у тебя подзавязку забита оператива, попробуй --cache-ram 0.

Аноним 27/02/26 Птн 15:11:15 #92 №1535826

Насоветуйте лучших расцензуренных моделей.
Пользовался геммасутрой 4б, норм, но у нее слишком маленький контекст и на половине она ломается в самоповторы и теряется.
Пользовался аорморальной геммой, хуйня, даже хуже работает несмотря на свои 12б параметров.
Пользовался нсфв лламой 1б, результат отличный, но без мастер промтпа не работает вообще.

Аноним 27/02/26 Птн 15:12:39 #93 №1535828

>>1535826
Kimi K2.5 uncensored 1T FP32

Аноним 27/02/26 Птн 15:13:28 #94 №1535829

>>1535826
https://huggingface.co/ArliAI/GLM-4.6-Derestricted-v3

Аноним 27/02/26 Птн 15:14:13 #95 №1535831

>>1535826
>геммасутрой 4б
>нсфв лламой 1б
>результат отличный

Дай угадаю, тебе нужно чтобы модель пуская слюни писала слово "хуй" и больше ничего? У тебя там блять что сука, калькулятор? Нахуя ты это запускаешь?

Аноним 27/02/26 Птн 15:16:54 #96 №1535834

>>1535775
1) накати самую свежую ламу, там кое что поправили
2) у меня с такими настройками вроде не отъебывает >>1534430 →

Аноним 27/02/26 Птн 15:16:59 #97 №1535835

image

THE BASE OF THREAD

Аноним 27/02/26 Птн 15:18:05 #98 №1535839

>>1535831
Ллама реально заебись. Результат лучше чем у 12б и даже 27б, пишет интереснее и работает моментально.

Аноним 27/02/26 Птн 15:18:14 #99 №1535840

>>1535835
Блять утка ты пиздец кринжа навалил, иди опохмелись

Аноним 27/02/26 Птн 15:19:25 #100 №1535841

>>1535840
Утка сидит как квене и минимаксе, шизоид.

Аноним 27/02/26 Птн 15:20:20 #101 №1535844

>>1535420
Ты сам этот мусор пробовал?
Не раз давал ему вторые шансы, недавно совсем в тепличных условиях пытался мучать, чтобы даже нападки о неверной работе в llamacpp или не том формате нельзя было использовать.
Вывоз - он просто слабый. Я хз кто там находил в нем какой-то особенный перфоманс и крутой код, покажите где. В попсовых языках и свежих задачах он просто дно донное.
По поведению - не способен работать в долгую или спланировать какие-то крупные действия наперед. Тяжело ему объяснить что именно нужно, при выполнении сам плодит ошибки но ровном месте, и искажает исходный вектор движения запутавшись в них.
128к контекста в нем - это, блять, вообще пост мем просто, вычитаем из него 32к на ответ с большим ризонингом, вычитаем 16к на основные промпты и описание тулзов, 30к на его мучения с самопочином нелепых ошибок и остается хуй да нихуя. Он страдает даже с нуля если что-то пишешь, не говоря о больших проектах.
В агентах он тоже слаб по современным меркам и чрезмерно рассеянный, не смочь повторить то что уже делал ранее и это сохранилось в контексте, только с несколько другими условиями - это особый навык осса. Или игнорирование подходящей тулзы без ясного ответа почему (видимо софтрефьюз был в ризонинге).
Отдельный прикол - этот самый ризонинг. Правильную реализацию этой гармонии не так просто сделать во многих тулзах без пердолинга, а когда(если) что-то получается - наслаждайся дополнительной задержкой в 10-15 секунд перед первыми токенами, спасибо хоть на мелкие чихи она "всего лишь" 5-7. А без синкинга он вообще неюзабелен.

Да, можно сказать что ты хочешь от 120а5 лоботомита, вот только в тех же местах квеннекст худо-бедно, на грани, но справляется, причем с мгновенными ответами. А в агентах с обилием тулзов по сравнению с современными моделями и тем же 120а10 - как первая ллама.

Аноним 27/02/26 Птн 15:20:53 #102 №1535845

>>1535775
>Новые модели квена, 27-35б, постоянно пересчитывают контекст и я не могу с этим никак разобраться.
Скачал сегодня рано утром свежую llamacpp под куду 13.1 + дллки, контекст не пересчитывается, ключи самые стандартные:
llama-server.exe -ngl 999 --no-mmap -c 32768 -fa on --no-context-shift --host 0.0.0.0 --port 5000 -m Qwen3.5-27B-heretic.Q5_K_M.gguf --parallel 1

Аноним 27/02/26 Птн 15:26:16 #103 №1535848

>>1535844
Использую этот "мусор" каждый день в своем пет проекте на плюсах. Он показывает себя на уровне Минимакса, когда пишет в рамках изолированной области кода, отлично рефакторит, дебажит и оптимизирует
Окей, дальше вот этого:
>128к контекста в нем - это, блять, вообще пост мем просто, вычитаем из него 32к на ответ с большим ризонингом
Читать не стал, потому что ты даже не знаешь, что ризонинг не уходит в контекст, лол. Насерил под себя где-нибудь, наверняка тулзы еще и тянешь неправильно, а лоботомит - модель. Классика итт

Аноним 27/02/26 Птн 15:31:47 #104 №1535853

>>1535848
> Читать не стал, потому что ты даже не знаешь, что ризонинг не уходит в контекст, лол.
Такой умный "практик", а не знает что максимальная длина ответа, в которую входит и весь бюджет ризонинга, вычитается из доступного объема контекста? Уровень свой показал, молодец.

Аноним 27/02/26 Птн 15:34:18 #105 №1535856

>>1535821
На последней лламе я сейчас попробовал убрать флаг --ctx-checkpoints, но никакой разницы нет. Хотя.. понять сложно из-за кривых логов (или из-за того, что я их как-то не так настроил).

Мне приходится промпт процессинг ждать вечность, ибо он там 50 против 200 у кобольда. Ну и скорость всё равно на лламе при любом раскладе 6 тс, на кобольде 10. Так что проблема есть в любом случае. 6 токенов совсем мало, и я не знаю, как это решить. Эта проблема самая главная сейчас. И оперативка под завязку не долбится.

>>1535845
Спасибо. Но странно, что у меня всё так же по сути, только куда 12.4, а не 13.1 — р104 более новую версию не держит.

Чат гопота писала, что вроде бы можно как-то совместить (не знаю, пиздит он или нет), то есть будет 13.1 и р104 работать в связке с 3060, но этом надо из исходников какую-то бодягу самому собирать.

И есть у меня подозрение, что в кобольде это уже всё сделано. Потому что 13.1 у меня вообще не работает при использовании лламы, только 12.4.

Аноним 27/02/26 Птн 15:38:41 #106 №1535868

image.png

>>1535856
зачем тебе 13.1 куда если старая видяха? это для 50хх

Аноним 27/02/26 Птн 15:39:43 #107 №1535869

>>1535775
>Возможно, я упускаю что-то важное
--fit off и ручками.

Аноним 27/02/26 Птн 15:40:11 #108 №1535870

>>1535853
Вайбкодерам, которым "сделай мне скайрим", конечно маловато будет 128к. Адекватным программистам, которые понимают, что делают, этого достаточно. 32к токенов в ризонинге - такого я ни разу не видел. Наверно потому, что реализую логику и спорные моменты сам, а не вываливаю их в нейронку. Нахуй мне тебе что доказывать и показывать, если ты заходишь в разговор как гопарь, которого давно не пиздили за гаражами? Получаешь то, что заслуживаешь

У меня на работе еще двое людей юзают именно эту модельку для пет проектов, на го и расте. У нас одинаковые оценки. Дальше имеет смысл садиться только на жир вроде Глма или на корпов

А вайбкодеров вроде тебя не жаль совсем, платите Антропикам или продолжайте ныть

Аноним 27/02/26 Птн 15:42:14 #109 №1535874

image.png

>>1535775
> почему-то кладёт самые жирные compute buffers на p104,

Кстати, такое пробовал?

Аноним 27/02/26 Птн 15:46:31 #110 №1535877

>>1535657
Давно уже. Особенно с их шизофреническими XL квантами
Качай гопоту сразу у жоры
https://huggingface.co/ggml-org/gpt-oss-120b-GGUF
>>1535664
Да, охуенно. Удалил квен 80b и гопоту 120, теперь фул на новом квенчики. А выйдет хороший еретик и эир тоже удалю
>>1535420
В моих задачах квен кодер 80 лучше справляется чем гопота, а что там западные соевики насрали похуй

Аноним 27/02/26 Птн 15:47:58 #111 №1535881

>>1535413
27Б охуенен для типовых бизнес-кодерских задач. Уверенно держит агентский цикл с большим контекстом. ИМХО просто уничтожает GLM-Flash, Devstral-small, Qwen-Next-Coder. Для кодинга не хуже Air! И у него еще и вижн рабочий.
Кругозор конечно не очень - но ему можно целую книжку в контекст загнать и он факты из нее не проебет. Тут в треде кто-то давно хотел умную небольшую модель без излишних знаний. Ну вот она.

Аноним 27/02/26 Птн 15:51:10 #112 №1535882

Меня даже нейронки инцелом считают (так и есть на самом деле). Как прописать себе характер чада или претти боя

Аноним 27/02/26 Птн 15:52:02 #113 №1535883

>>1535882
Вести себя соответствующе в твоих инпутах

Аноним 27/02/26 Птн 15:55:54 #114 №1535886

>>1535881
>GLM-Flash
Не, он явно хуже него.

Пример: флеш смог скачать wsl, убунту, настроить venv, vllm, скачать корректную модель, несмотря на то что имел гандикап в виде полуработчего впн который к хуям ломал днс в убунте.

квен даже убунту корректно поставить не смог из указанного образа.

в плане самостоятельности он в целом отсасывает у ГЛМ, особенно на длительных забегах.

Аноним 27/02/26 Птн 15:56:47 #115 №1535888

>>1535882
Меня все нейронки считают гигачадом с огромным членом. Мне даже в персонах приходится прописывать что-то вроде medium sized normal cock, иначе все охуевают с моего шланга. И я не на тюнах мистраля кумлю. Что там творится даже страшно представить

Аноним 27/02/26 Птн 15:58:18 #116 №1535890

>>1535888
Проиграл. У тебя наверно в промпте что-то вроде "описывай сочно, прям чтобы ух"? Оттуда может идти гиперболизация. В целом, если опишешь, что это реалистичный сценарий, за Эйром и умницами побольше я такого не замечал. Можно даже персону не заполнять, имя, ну максимум короткое описание - они хорошо считают юзера из инпутов.

Аноним 27/02/26 Птн 16:02:37 #117 №1535891

>>1535884
Не понял, вы о чем? Захожу в прошлый тред - всё на месте, в т.ч. и кобольдосрач. Ничего не потерли.

Аноним 27/02/26 Птн 16:03:39 #118 №1535893

image.png

Вайбкодеры, вы заебали. Вот вам все расписали, что юзать и на чём. Уёбывайте.

Аноним 27/02/26 Птн 16:07:21 #119 №1535895

НЮНЯ.jpeg

>>1535891

Аноним 27/02/26 Птн 16:08:47 #120 №1535896

>>1535870
Зачем это все про "адекватных программистов" вместо обсуждения объективных плюсов и минусов предмета? Ставишь себя так высоко относительно столь мерзких и ущербных вайбкодеров, хотя пользуешься ллмкой-лоботомитом.
> 32к токенов в ризонинге - такого я ни разу не видел.
Это не так работает, модель должна оставлять место на весь максимально возможный ответ, включая ризонинг, дефолтные объемы их известны. И не важно, сколько она ответила на самом деле, объем всегда будет зарезервирован, потому доступный к хранению полезного содержимого объем мене 96к. А постоянные ошибки отъедают еще больше.
С простыми задачами что мелкая-тупая, что большая-умная модели справятся одинаково хорошо, потому ты можешь получать в своем пет-проекта на сях тот же результат на минимаксе. А чсв и синдром утенка не дают сделать трезво оценить и даже обсудить.

Аноним 27/02/26 Птн 16:08:54 #121 №1535898

image.png

>>1535893
Это, если что, для 20гб врам, да-да
>>1535895
В голос. Ситуация итт последнюю пару месяцев, литерально

Аноним 27/02/26 Птн 16:10:52 #122 №1535902

https://old.reddit.com/r/LocalLLaMA/comments/1rfds1h/qwen3535ba3b_q4_quantization_comparison/

> Unsloth's UD-Q4_K_XL recipe applies MXFP4 to nearly every tensor including ffn_down_exps and attention weights, resulting in the worst KLD in the sweep (0.0524).
Кто тут вчера на этот говняк дрочил, вам не стыдно?

Аноним 27/02/26 Птн 16:11:25 #123 №1535903

>>1535896
В следующий раз сразу представься квеношизом-эксламером, чтобы я ничего не отвечал, хорошо? Хотя можно было догадаться, учитывая сколько желчи было вылито на нейтральный пост. Мы уже поняли, что ты не любишь гпт осс и агришься на всех, кому она хоть в чем-нибудь понравилась

Аноним 27/02/26 Птн 16:11:38 #124 №1535904

Что значит промпт формат? Как с этим работать?

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

Вот что это такое?

Аноним 27/02/26 Птн 16:11:50 #125 №1535905

>>1535890
Я думаю это от фетиша зависит. Если ты доминируешь в сексе, то нейронка приписывает тебе большой хуй, а если ты фемдомщик, то хуекок с коробок. Во всяком случае у меня реально так. Попробуй сам

Аноним 27/02/26 Птн 16:15:34 #126 №1535908

>>1535903
Может лучше питонистом-жсером? Ох уж эти богомерзкие злопыхатели, так их, так их!

Аноним 27/02/26 Птн 16:23:12 #127 №1535912

>>1535904
ты теорию как работает ЛЛМ как представляешь?

Аноним 27/02/26 Птн 16:29:54 #128 №1535917

image.png

Какие еще возможности есть для того чтобы увеличить контекст? еле влезла в 16gb vram, 20к контекста, выше уже oom

llama-server \
-ngl 999 --no-mmap \
-c 20000 \
-fa on \
--no-context-shift --parallel 1 \
-m Qwen_Qwen3.5-27B-IQ4_XS.gguf \
-ctk q8_0 -ctv q8_0 \
--cache-ram 0 \
--chat-template-kwargs "{\"enable_thinking\": false}"

Проблема осложняется еще тем что у меня нет встройки и операционка сожрала 800мб на карте.

Аноним 27/02/26 Птн 16:29:59 #129 №1535919

>>1535747
Как же хочется, но скрин фейковат. Блеквелл же с 570 драйвера и куды 128 заводится.
>>1535775
В чистом интерфейсе llama-server или даже сонсолечке llama-cli попробуй, скорее всего дело в запросах с изменениями в самом начале.

Ну а по распределению тензоров, которое не связано с пересчетом, через cuda visible devices или --main-gpu делаешь 3060 главной и раскидываешь в -ts. Если модель фуллфрам то попробуй -ts 1 (если 3060 первым куда устройством), а потом ffn слои отдельным регэкспом на вторую карту.

Аноним 27/02/26 Птн 16:38:25 #130 №1535925

image (1).jpg

>>1535835
ПОФИКСИЛ, БРАТИК

Аноним 27/02/26 Птн 16:40:19 #131 №1535927

>>1535925
Лол, что с мистралем? Зачем ты его так?

Аноним 27/02/26 Птн 16:41:02 #132 №1535929

>>1535927
Это не я, это все кум тюны

Аноним 27/02/26 Птн 16:43:54 #133 №1535931

изображение.png

>>1535760
Это странно. Типа, там 32. Если оно поддерживает больше бит адресации, то будет 64 или 128. Если бы там изначально было бы 3 блока контроллера памяти, и было бы что-то вроде 24, то окей. Но так не очень ясно чем вызвано ограничение в 96. Либо просто чипы такие крупные не получается сделать. Либо там три контроллера нагруженные неравномерно, вида 16+8+8?

>>1535904
Тебе любая 30B сетка сама же это объяснит.
ЛЛМ - это текстовый процессор. Оно берёт 2000 символов, и дописывает новые символы один за одним. Ну, только не буквально по одному символу, а токенами, чаще это слова или их половинки. То есть это единственная операция, которую знает сетка.
То что ты привёл, это по всей видимости chat-template в странной записи от gemma3. После обучения на продолжения текста сетку ещё немного дообучают и в название пишут it. Получается gemma3-27b-it, вот то что у тебя - это означает что дообучение было на чатах указанного тобой формата, и с ним оно работает лучше.
Есть стандартный api общения с ллм, который имеет разметку, а именно список из сообщений, в каждом из которых есть роль, сам текст, иногда что-то ещё. Разметка описывает как этот форматированный формат с ролями превратить в сырой текст, который уже пойдёт на вход нейронке.
Проще будет, если ты сам потыкаешь: https://huggingface.co/spaces/huggingfacejs/chat-template-playground?modelId=unsloth%2Fgemma-3-27b-it-GGUF
Если не понятно - сделай скриншот и закинь в chatgpt или ещё куда, он напишет быстрее и подробнее моего, и несколько охотнее.

Если конкретнее, у тебя на картинке подразумевается, что есть один системный промт, и запрос пользователя, а далее отвечает сетка.
У тебя вместо {system_prompt} подставляются инструкции, которые сетка должна выполнять, потом идёт пустая строка, потом идёт первое сообщение пользователя. Далее зачем-то идёт якобы пустой ответ от модели, а потом начало следующего. Вот это именно то что попадает на вход ллм, она видит незаконченное сообщение модели и начинает писать то что там должно быть. Когда оно пишет <end_of_turn>, то значит ответ кончится, и тебе пользователю выдаётся ответ обратно, а далее твоё следующее сообщение дописывается как новый
<start_of_turn>user
{... текст сообщения ...}
<end_of_turn>
Потом уже обычная программа дописывает туда незакрытый <start_of_turn>model и далее это снова скидывается в нейросетку.
Вот минимальный пример на скрине, можешь сам потыкать.

>>1535917
-ub -b понижать, уменьшая размер компут-буферов.
Не так страшно и катастрофично для скорости выгрузить слой эмбеддинга на CPU, на гемме это 2 ГБ почти даёт.

Сейчас обнаружил, что лама в сыром /completions ломается с автопарсером. Получается что только /chat/completion можно с автопарсером использовать. А без него glm не работает... Грусть, печаль.

Аноним 27/02/26 Птн 16:45:19 #134 №1535932

Как разноображиваете рп на эире?
Всё же хорошо было скакать по тюнам мистраля, будто что то новое каждый раз

Аноним 27/02/26 Птн 16:49:31 #135 №1535935

>>1535905
Всё верно. Вплоть до того, что там будут красочно описывать твой подтекающий писюнчик и хохотать, сравнивая с членом Чеда, пока он ебёт твою тян, в то время как чёрный Иван рвёт тебе очко и пахнет мускусом.

На русском языке ещё смешнее, потому что там реально фразы годно подбираются.

>>1535882
Всё правильно. Как себя ведёшь, даже твои действия, вроде "прикоснулся/грубо прикоснулся/нежно" очень меняют аутпут.

Я как-то скинул чаты большой ллмке и спросил, кто я. Назвала меня ебанутым куколдом, свитчем, PDF и по списку.

Аноним 27/02/26 Птн 16:50:43 #136 №1535936

>>1535761
Тут для каждой модели свой подход нужен. В Air, gemmа, Glm-Flash у меня прокатывало : "In <think> add то-то и то то" или "In <think> calculate то-то и то то" . Но 27 квене я отсосал: он подумал и кроме основного высрал ЕЩЕ один <think>, но уже с моими хотелками

Аноним 27/02/26 Птн 16:57:40 #137 №1535941

У кого лучше квант Qwen3.5-27B-GGUF у unsloth или bartowski ?

Аноним 27/02/26 Птн 17:03:23 #138 №1535947

Просвещайтесь, шныри
https://old.reddit.com/r/LocalLLaMA/comments/1rg4zqv/followup_qwen3535ba3b_7_communityrequested/

Аноним 27/02/26 Птн 17:03:43 #139 №1535948

>>1535874
При разбиении по слоям -mg не работает ( только в row. А row - разбиение в mainline работает хуже чем по слоям) Я по крайней мере ничего не заметил от манипуляций этим параметром. Однако не все так грустно. Можно переместить вижн в другую видеокарту
добавив перед запуском жоры в батник
set MTMD_BACKEND_DEVICE=CUDA<номер>

Аноним 27/02/26 Птн 17:04:20 #140 №1535950

image.png

Анслоп обосрались настолько сильно в этот раз, что их Q4XL сосет у их собственных IQ3_XXS
При этом хуесосы буквально нигде в карточке не написали, что их кванты сломаны. Об этом можно только в обсуждениях и на форумах узнать
А поскольку XL это первые кванты, которые появились на обниморде, то куча людей оценили квенчик по калу анслопа

Аноним 27/02/26 Птн 17:06:55 #141 №1535951

>>1535874
А -ts и -ot для мульти GPU - это вообще "отче наш"

-ts 46,54 -ot "blk.([1-9]|1[0-9]|2[0-9]|3[0-9]|4[0-9]).ffn.(up|down)_exps\.weight=CPU,blk.([1-9]|1[0]|3[5-9]|4[0-9]).ffn.(gate)_exps\.weight=CPU"

Аноним 27/02/26 Птн 17:10:16 #142 №1535953

>>1535950
Да, да, это квант виноват, что квен говно
Перекачай от батрухи, придешь в тредик расскажешь как он ахуенно начал работать и цензуры нет совсем

Аноним 27/02/26 Птн 17:12:30 #143 №1535955

>>1535886
Какие-то прохладные истории.
GLM-Flash не смог тупо корректно скопировать из моего ввода типовой JWT. Я посылал его в HA температуру мне посмотреть и кормил свежим ключем, а этот лоботомит его проебывал и такой "Ключи устарел дай новый ключ"

Аноним 27/02/26 Птн 17:14:07 #144 №1535958

2026-02-27-1709031610x512scrot.png

>>1535931
> Не так страшно и катастрофично для скорости выгрузить слой эмбеддинга на CPU, на гемме это 2 ГБ почти даёт.

Я правильно понимаю что речь про 65 слоев на модели, и ngl=64 ставим?

load_tensors: offloading 63 repeating layers to GPU
load_tensors: offloaded 65/65 layers to GPU

В моем случае это ухудшает скорость с 18-20т/с до 12т/с

>>1535917
Вот максимум того что я смог выжать у себя. 18т/с. Осталось его погонять в котинге, интересно насколько рассыпется модель от q4_0 кеша

#!/bin/bash
llama-server \
-m Qwen_Qwen3.5-27B-IQ4_XS.gguf \
-ngl 65 \
--no-mmap \
-fa on \
-c 68000 \
--batch-size 128 \
--ubatch-size 128 \
--no-context-shift \
--parallel 1 \
-ctk q4_0 -ctv q4_0 \
--cache-ram 0 \
--chat-template-kwargs "{\"enable_thinking\": false}"

Аноним 27/02/26 Птн 17:15:27 #145 №1535961

>>1535953
Без ризонинга у квена нет цензуры. Можно насиловать, убивать, расчленять и прочее

Аноним 27/02/26 Птн 17:23:35 #146 №1535972

Когда выйдет Квен 4 1Т A0.5B? Вот будет жара!

Аноним 27/02/26 Птн 17:27:04 #147 №1535981

>>1535972
Помнится квенодауны пиздели что плотные модели делать сложно, поэтому перекатываются на МоЕ, с ним всё лучше. А по итогу видим что все их МоЕ - это провальный кал, едва обходящий плотную 27В.

Аноним 27/02/26 Птн 17:27:39 #148 №1535983

>>1535494
двачану, я правда q4 тестил, но тож не впечатлил совсем
для кода пойдет, но хз как он в сравнении с альтернативами, не тестил

Аноним 27/02/26 Птн 17:29:02 #149 №1535989

>>1535947
Почти нихуя нового. Про то что XL сломаны это было понятно. Про то, что MXFP4 я сам в прошлом треде писал, что они медленные и без прироста в качестве. Сравнение скорости мое и денс это вообще смех
Есть только два момента
1) Как там fit работает без ub и b? Разве он не будет контекст значительно медленнее обрабатывать и хуже с ним работать? Он вроде только генерацию тестил
2) У меня после квантования контекста и его заполнения модель просто медленнее начинает работать, а он скорость как раз не тестил. Да и вообще его выводы по низкой потери даже в q4 какие-то жиденькое
3) Ну и самое главное. Нахуя ты сидишь на олд реддите?

Аноним 27/02/26 Птн 17:31:16 #150 №1535991

>>1535989
> MXFP4 я сам в прошлом треде писал, что они медленные
На свежих картах они процентов на 10 быстрее Q4_K_M.

Аноним 27/02/26 Птн 17:32:57 #151 №1535996

>>1535991
Это если только фулл врам видимо. И у того чела с реддита 5080

Аноним 27/02/26 Птн 17:34:29 #152 №1535999

>>1535958
Нет, не правильно.
Речь про явный --override-tensor token_embd.weight=CPU
Название соответствующего слоя надо посмотреть для конкретной модели, и ещё часто он же используется как и тензор "анэмбеддинга" переводящий активации в токен в самом конце, например под названием output.weight. А ngl который сам там что-то делает трогать не надо.
Ещё я не уверен что вулкан-версия быстрее куда-версии, я бы попробовал поменять. У меня вулкан на 40хх заметно тормознее, чем куда.

Аноним 27/02/26 Птн 17:47:08 #153 №1536028

Здравствуйте. Полтора месяца не заходил.
Почему новые Квены такое говно?

Аноним 27/02/26 Птн 17:58:36 #154 №1536041

>>1535947
Ща бы бля потери от квантования контекста тестить на 512 токенах... умён. Надо хотя бы 32 / 64к и еще потери скорости сравнить, как уже отметили >>1535989
Еще и советовать всем, что даже q4 заебись, чтоб потом приходили жаловались почему у меня квен лоботомит, какается на месте.

Аноним 27/02/26 Птн 18:12:21 #155 №1536054

>>1535941
Там в рамках погрешности отличия. Ставь кстати 27B-Heretic сразу если хочешь разговоров о веселом, у основной 27B защита слишком мощная. Я попробовал и инъекцию контекста, и свой любимый промпт, который пробивал мозги еще Gemini, а Qwen 3 просто посылал в нокаут. Нихуя, там защита на уровне топов, очень сильная.

Аноним 27/02/26 Птн 18:20:45 #156 №1536064

>>1535955
По-моему модель реально говно, не понимаю кто ее советует. Попросил мысленный технический эксперимент, эта хуйня себе противоречила в двух соседних приложениях. Попросил написать художественный текст, в середине предложения сходила с ума и срала шизофазией на двести-триста несвязанных слов. Мне кажется это уровня второго гопатыча что-то, чисто разок покекать.

Аноним 27/02/26 Птн 18:36:52 #157 №1536075

>>1536028
такие же мысли

Аноним 27/02/26 Птн 18:41:06 #158 №1536079

>>1535896
экстрасенс в треде видит чужие проекты телепатически
мне тоже гопота нравится для кода. кишечник барахлит немного в последнее время, это не твоих рук случаем? приворот может какой заказал, а то чо тут они ахуели, используют то что тебе не зашло

Аноним 27/02/26 Птн 18:50:08 #159 №1536083

>>1536064
> Попросил написать художественный текст
у модели заточенной на программирование и автономию? ты бы его ещё анекдот попросил написать

Аноним 27/02/26 Птн 19:06:11 #160 №1536099

image.png

>>1535999
Спасибо большое! итого удалось уместить 78к контекста на скорости 18т/с. Выходные ембеддинги перенести не вышло - скорость упала.
Названия тензоров можно посмотреть в обнимилицо

[Qwen3.5-27B]
model = Qwen_Qwen3.5-27B-IQ4_XS.gguf
no-mmap=1
ctx-size=78000
override-tensor=token_embd.weight=CPU
ngl=999
temp=0.6
top-p=0.95
top-k=20
ctk=q4_0
ctv=q4_0
batch-size=128
ubatch-size=128
flash-attn=1
no-context-shift=1
parallel=1
ctx-checkpoints=128
swa-full=on
chat-template-kwargs = {"enable_thinking": false}

Аноним 27/02/26 Птн 19:07:09 #161 №1536101

Квен == Кобольд == 💩
Теперь официально

Аноним 27/02/26 Птн 19:19:13 #162 №1536112

>>1536101
Всегда так было.

Аноним 27/02/26 Птн 19:20:55 #163 №1536114

Кстати, а кто-то брал пресет ремиксера у асигишников и гонял его на эйре, большеквене или большом глме? Или это говно для закрытых корпов вроде геминище или куклода?

Аноним 27/02/26 Птн 19:22:43 #164 №1536116

>>1536099
От модельки зависит. На старом qwen2.5 на скорость просто не влияло.
На gemme-3n замедляло в полтора раза. Что впрочем всё ещё лучше выгрузки любого слоя, что замедляло в 3-4 раза.
>ctk=q4_0
Оно выдаёт что-то осмысленное? У меня всё что угодно ниже Q8 выдавало шум и случайные токены. Вроде там было Q5_1, а ты аж Q4_0 поставил, жесть.
>swa-full=on
Если там swa в самом деле и сетка с ним обучалась, то такое заметно увеличивает размер кеша.

Аноним 27/02/26 Птн 19:26:40 #165 №1536124

Бамп, дублирую сообщение.

К слову, анон со сдвоенной платой под v100.
У тебя получилось, что nvlink ни на что не влияет, помнишь? И ещё что tensor parallel во всех случаях хуже layer parallel.
А можешь попробовать vLLM накатить и посмотреть получает ли он буст от nvlink? Может быть оно поумнее. Я не могу понять хочу я делать 4 на одиночных платах, или потратить ещё 15 мешков серебра и сделать одну пару сдвоенной?

Аноним 27/02/26 Птн 19:30:12 #166 №1536129

Как избавиться от женщин с кадыками? Бля, ну рили руинит весь муд каждый ебаный раз. Кадык блять. Это какой-то шизоперевод с ангельского что ли? У них там все бабы с кадыками или где?

Аноним 27/02/26 Птн 19:35:05 #167 №1536130

У ваших дообученных локалок есть преимущества над glm-5 в рп и/или куме? Может стоит сотку на железо проебать или лучше даже не запариваться?

Аноним 27/02/26 Птн 19:37:31 #168 №1536132

>>1535893
что за тред?

>codeqwen 1.5 (7b)
толсто

>use ollama to run these locally
толсто

Аноним 27/02/26 Птн 19:38:19 #169 №1536133

>>1536116
> Оно выдаёт что-то осмысленное? У меня всё что угодно ниже Q8 выдавало шум и случайные токены. Вроде там было Q5_1, а ты аж Q4_0 поставил, жесть.

Я обкатываю этот конфиг и она успешно прошла весь цикл доработки по speckit и запилила фичу и контекст удерживает хорошо. Я так понимаю, это новая особенность qwen3.5 - держать контекст.

> Если там swa в самом деле и сетка с ним обучалась, то такое заметно увеличивает размер кеша.

swa я поставил чтобы контекст не пересасывался с нуля каждый раз.

Аноним 27/02/26 Птн 19:43:15 #170 №1536136

>>1536064
GLM-Flash ? Он был задрочен на работу с тулами в цикле. Это чуть ли не первая мелкая модель которая отрабатывала по 20+ вызовов тулов с хоть каким-то результатом. 20 гопота по умнее, но из-за гармонии (и хуевой поддержки шаблона в жоре), большей рассеяности и рефьюзов такой популярности у широких масс не завоевала.

Аноним 27/02/26 Птн 19:46:27 #171 №1536138

>>1536064
Ризонинг то не забыл? Без него GLM-Flash 3b лоботомит, а с ним всё по кайфу, даже кум сочный в том числе и на базовой, не еретичной версии.

Аноним 27/02/26 Птн 19:50:41 #172 №1536142

>>1536136
>по 20+ вызовов тулов с хоть каким-то результатом.
Почему никто не визжит, что лама до сих пор не умеет парсить вызовы glm-4.7 без пулл-реквеста автопарсера, так как там используется парсер от 4.5?

К слову о сообщении ниже, покажи какие настройки пенальтей ставишь, чтобы не ломался?

>>1536138
У меня в вечный цикл с ризонингом падает часто. Просто капец как бесит. А если совсем жёсткие настройки самплера на отсечение повторений делать, то он тупит как тварь.

Аноним 27/02/26 Птн 19:53:42 #173 №1536144

>>1536064
Буквально модель под код и агенты, причем довольно мелкая. Но бессвязной выдачи там точно не должно быть, ты где-то накосячил при запуске.
>>1536079
> плюсы
> петпроект
> жпт-осс
Здесь не телепат а экзорцист нужен, без негатива.

Аноним 27/02/26 Птн 20:14:40 #174 №1536161

Предлагаю создать петицию, в ней слезно попросить создать модель с 10 триллионами параметров, из которых только 1 будет активный. QWEN ASSGROPER 10T A1. Вот это сочная модель будет.

Аноним 27/02/26 Птн 20:15:49 #175 №1536162

>>1536161
Один единственный параметр. Не один триллион, не один миллиард, и даже не миллион. Просто один параметр. Прикиньте как охуенно быстро будет работать? И по математике тредовичков модель будет где-то на уровне 1Т плотной модели, да?

Аноним 27/02/26 Птн 20:19:24 #176 №1536165

>>1536162
а какую архитектуру роутера ты предложишь?

Аноним 27/02/26 Птн 20:20:44 #177 №1536166

>>1536165
Генератор случайных чисел

Аноним 27/02/26 Птн 20:23:02 #178 №1536172

Кто-то осознал зачем Квен такую цензуру влупил?
Она прям жестко все попытки джейлбрейка контрит, но только в режиме ассистента, без карточки. Я сперва пробовал системное сообщение добавлять в "Last Assistant Prefix", так там такой ор поднимался на любой нейтральный вопрос, как-будто я хуем стучал по видеокарте в тот момент.

Аноним 27/02/26 Птн 20:28:10 #179 №1536177

>>1536172
Чтобы ты, сука проклятая, мразь, падлюка ебанная, на буквы не дрочил. Иди плодись и работай, ллмки не для таких как вы придуманы

Аноним 27/02/26 Птн 20:29:25 #180 №1536179

>>1536172
Да. Очевидно, это подготовка к предстоящему AGI и тренировка человечества в умении уважать другие формы жизни. Терпи. Учись. Только приспособленцы выживут.

Аноним 27/02/26 Птн 20:31:09 #181 №1536180

>>1536172
Возможно дядюшка си сказал. Так-то у них там порнуха вообще еще с 2002 года запрещена.

Это мы наивно считали что китайцем похуй на вой, с которым борются западные компании. Хотя, это возможно и правда. Но вместо воя либерах у них есть гулкий голос партии.

Аноним 27/02/26 Птн 20:35:53 #182 №1536187

>>1536172
Затем что видимо рассчитывают на правительственный контракт и в школы попасть.

Аноним 27/02/26 Птн 20:54:07 #183 №1536196

>>1536162
Такие уже есть
https://www.youtube.com/watch?v=7hMoz9q4zv0

Аноним 27/02/26 Птн 21:04:59 #184 №1536205

>>1536196
Ту про размер параметров, а анон говорит про их количество.
Ну тупые

Аноним 27/02/26 Птн 21:06:47 #185 №1536210

изображение.png

>>1535891
Судя по всему опять был откат базы, так что посты вроде и есть, но вроде и нет.
>>1535931
>Типа, там 32.
Ну да, всё ровно.
>>1535989
>Нахуя ты сидишь на олд реддите?
ХЗ как он, а меня заёбывает дроч "развернуть дискуссию". Пиздец, деградация веба. уже отрендерить сраную тысячу комментов сложно.
>>1535961
Без ризонинга у квена нет мозга.
>>1536129
Как оно у тебя вообще всплывает? Ты шиз, что спрашивает, какой у девушки кадык прямо с первого сообщения?
>>1536130
Если есть деньги, то бери и собирайся, хули думать, новая сетка крупнее будет лучше кала на 24B.
>>1536177
>Иди плодись
Дай тянку, я с ней расплодусь за щеку офк.
>>1536196
Это немного другое.

Аноним 27/02/26 Птн 21:09:58 #186 №1536214

>>1536172
>>1536177
>>1536179
>>1536180
Вы вообще хоть что то в интернете читаете кроме обниморды и двача? В Китае идет снижение рождаемости. Реально серьезное снижение. А так как это вредит делу построения великого китайского общества: партия неиронично запустила каток, что давит масс-медиа.
Сначала они прошлись по сериалам. Больше никаких историй про миллиардера, что влюбился в деревенскую лохушку. Теперь обычнокун и обычнотян встречаются и влюбляются. По порно еще раньше проехались.
По играм начинают бить молотком. И вы хотите сказать, что генератору текста не достанется? Ооо, я, блять, вас уверяю : вам цензура гугла и антропиков покажется детским садом с тем как они будут выкручивать яйца.
Потому что одно дело повесточка на западе, с ней не все так просто. А вот хуй партии куда толще и с куда более неприятными последствиями.

Аноним 27/02/26 Птн 21:14:11 #187 №1536219

>>1536214
>вам цензура гугла и антропиков покажется детским садом
Глядите-ка, шлюха западных корпоратов подала голос

Аноним 27/02/26 Птн 21:14:23 #188 №1536221

>>1536130
> дообученных
Нормальных единицы
> локалок
> над glm-5
Жлм5 и есть локалка
>>1536214
> одно дело повесточка на западе, с ней не все так просто
Лолвут

Аноним 27/02/26 Птн 21:14:50 #189 №1536224

>>1536124
Раз уж решил во все тяжкие то бери сразу доску под 4х нвлинк

Аноним 27/02/26 Птн 21:15:57 #190 №1536226

>>1535931
>Это странно. Типа, там 32.
Дополню. У 5090 16 чипов по 2ГБ. У 6000 Pro 32 чипа по 3ГБ. Шина та же, просто типа двухканала плюс х1,5 по объёму одного чипа. Отсюда и х3 финальное отличие по объёму.
>>1536214
ИЧСХ, им это нихуя не поможет.

Аноним 27/02/26 Птн 21:20:35 #191 №1536234

>>1536224
Я не знаю где такие продаются. Покажи.

Аноним 27/02/26 Птн 21:21:14 #192 №1536235

>>1536219
>Глядите-ка, шлюха западных корпоратов подала голос
Слышь, псина. Я апологет шумеров и гиперборейцев.
Мимо кумлю на гигачате.

>>1536221
>Лолвут
Тебя не просто выебут исками, тебя посадят и компания достанется истинно верным делу партии людям.

Аноним 27/02/26 Птн 21:22:01 #193 №1536237

>>1536214
Утка, ты уже сам хуй партии попробовать успел?

Аноним 27/02/26 Птн 21:24:12 #194 №1536243

1772216648112.png

>>1536234
Тао и гуфиш

Аноним 27/02/26 Птн 21:24:28 #195 №1536244

>>1536235
> не просто выебут исками, тебя посадят и компания достанется истинно верным делу
Sweet summer child

Аноним 27/02/26 Птн 21:30:07 #196 №1536251

Скуфы в треде? Вы на кобольде?

Аноним 27/02/26 Птн 21:31:54 #197 №1536253

>>1536251
34yo скуф репортинг ин. Да, на кобольде, ебал в рот ламуцпп из исходников по кд собирать. А что?

Аноним 27/02/26 Птн 21:34:53 #198 №1536254

>>1536253
Да так хотел спросить, как там жизнь после 30. Есть?

Аноним 27/02/26 Птн 21:38:09 #199 №1536256

>>1536251
И там и сям. Ллама для новинок, кобольд для души и проверенных временем мистралетюнов. Скорость почти одинаковая, разница максимум 2-3 процента.

Аноним 27/02/26 Птн 21:39:31 #200 №1536260

image

>>1536254
>есть ли жизнь
>у двачера
>после 30
>трахающего текст
Ну чо ты, чо ты, нормально же общались

Аноним 27/02/26 Птн 21:45:22 #201 №1536267

>>1536251
Lm studio

Аноним 27/02/26 Птн 21:50:25 #202 №1536271

>>1536210
Просто люблю чокеры. А она любит каждый раз шизофиксироваться на этом мелком атрибуте и то теребить его в каждом ответе, то рассказывать охуительные про кадык.

Аноним 27/02/26 Птн 21:57:39 #203 №1536282

>>1536251
Я на пельменях.

Аноним 27/02/26 Птн 22:02:20 #204 №1536293

>>1536243
С тао я не хочу ничего брать, очень сомнительная модель покупки. Какие-то посредники и вот это всё непойми откуда. Я авито-продавцу с двумя отзывами больше поверю. Второе погуглю, не слышал о таком.

Аноним 27/02/26 Птн 22:02:50 #205 №1536294

1772218965743.jpeg

>>1535159 →
Вавилонская ллм башня

Аноним 27/02/26 Птн 22:05:11 #206 №1536297

>>1536267
Я понимаю почему условный фотошоп или вегас имеют закрытый исходный код: они зарабатывают на продаже софта/подписках. Я не понимаю почему закрыт код у lmstudio. ПО изначально бесплатное и не монетизируется. Интересно, как же они зарабатывают? Сказочки про плату за корпоративное использование забавные, учитывая, что кому они нужны, когда есть лламацпп? Может они продают датасеты из наших логов (пары вопрос-ответ) корпам для дообучения? Да ну не, ерунда какая-то. Просто ЗА ИДЕЮ работают пацаны, чтоб нам с вами удобно было. А в опенсорсе почему нет? Да потому что нахуй пошел, вот почему))0)

Пчел, кроме шуток, ЕДИНСТВЕННАЯ причина использовать локальные ллм - это приватность. И гоняя их через lmstudio ты делишь эту приватность на ноль. Проще тогда уж подписку в гемини/гроке оплатить и получить нормальную умную модель, а не наших 122b-a10b лоботомитов.

Аноним 27/02/26 Птн 22:10:38 #207 №1536303

image.png

>Per Socket Mem BW
> 170.6 GB/s
А есть ли смысл мне задумываться о nvlink с двумя такими монстрами в сокетах?
Просто райзеров за 1.5к накуплю, брусочек на саморезы поставлю и на него теслы.

Аноним 27/02/26 Птн 22:10:38 #208 №1536304

1690476004052.png

>>1536294
Пикрел напомнило.
>>1536297
> ЕДИНСТВЕННАЯ
Цена, особенно если железо уже есть. Хобби, пердолиться интересно. Отсутствие цензуры и полный контроль над поведением - даже самых соевичков ломают из спортивного интереса. 100% доступность, зависящая только от тебя. 100% стабильность и повторяемость поведения, вместо внезапной лоботомии и соефикации.
Претензии к закрытости лмстудии двачую.

Аноним 27/02/26 Птн 22:23:25 #209 №1536315

>>1535262
там какой-то особый билд? он чето отказывается развернуто думать

Аноним 27/02/26 Птн 22:30:43 #210 №1536320

>>1536303
А, ну да все упрется в pcie, нвлинк 150гб/с.
Нужна база по интерконнекту от шарящих.

Аноним 27/02/26 Птн 22:40:53 #211 №1536328

>>1536297
>они продают датасеты из наших логов (пары вопрос-ответ) корпам для дообучения
Как же жёстко они проёбываются в этом случае, ведь в 99% я заставлял две нейронки общаться между собой. Какое-то постметаироничное обучение у них выходит. Нейронка учит нейронку быть менее нейронной на тех же данных, на которых работает сама.

Аноним 27/02/26 Птн 22:43:16 #212 №1536331

>>1536303
X16 шина стандарта 3.0 это чуть менее 16гБ/с.
Другое дело нужен ли вообще nvlink в теслах. Он точно сыграет если захочешь что-то тренить с шардингом, но тренить на в100 в 2д26 году - покайся. В инфиренсе с тп не факт что сможет утилизировать всю псп шины из-за слабого чипа.
>>1536328
Ради 0.1% полезного и 2% условно пригодного можно и постараться. Но актуальнее трястись что можно будет однозначно сопоставить тебя и все твои запросы к модели.

Аноним 27/02/26 Птн 22:49:09 #213 №1536338

>>1536331
А как? Любое бесплатное-открытокодовое делится на 0 одним щелчком модема и смытыми печеньками. Простые действия делают "меня" новым человеком для любой нейронки. Кто-то делает иначе, что ли? Или ты из под своего акка щитпостишь в чатике? Чел, ты... ебать ты.

Аноним 27/02/26 Птн 22:54:09 #214 №1536346

Как квен35 запустить в угебуге?

Аноним 27/02/26 Птн 22:56:59 #215 №1536348

>>1536346
Нужно принести угабуге дар

Аноним 27/02/26 Птн 22:57:23 #216 №1536349

Ленивцы высрались

Аноним 27/02/26 Птн 23:05:48 #217 №1536357

>>1536349
Кобольд?

Аноним 27/02/26 Птн 23:07:24 #218 №1536360

>>1535243 (OP)
https://github.com/joi-lab/ouroboros

Аноним 27/02/26 Птн 23:07:34 #219 №1536362

>>1536338
Каждый пользователь лмстудио перед новой сессией переустанавливает весь контейнер с нуля и меняет железки? Ветку вообще читал, q4 контекстовый?

А если пользуешься корпами "через проксечку" - вычислить тебя можно по повторяющимся индивидуальностям запроса. Шлешь много данных о себе не осознавая или считая что по отдельности они не представляют ценности, но в совокупности позволяют практически однозначно установить принадлежность если будет такое желание.

Аноним 27/02/26 Птн 23:08:36 #220 №1536366

>>1536360
Промазал, это в соседний тред, сорямба

Аноним 27/02/26 Птн 23:13:13 #221 №1536372

Блять, этот "But wait..." - это специально часть блока ризонинга в 27б квене? Как же он заебал. Вроде уже додумал, и начинается эта чехарда.

Аноним 27/02/26 Птн 23:17:06 #222 №1536379

image

>>1536372 -> >>1535069 →

Аноним 27/02/26 Птн 23:28:22 #223 №1536388

>>1536379
Мне кажется пора делать пре-ризонинг, который просто определяет сложность задачи и передает блоку ризонинга инфу о том, насколько плотно ему надо думать, а то это пиздец какой-то.

Аноним 27/02/26 Птн 23:41:54 #224 №1536397

Это нормально, что модель генерирует текст с разной скоростью в рамках одного аутпута? Сранье токенами то чуть замедляется, то ускоряется, хотя компуктер больше ничего не делает.
Также заметил, что генерация на английском быстрее генерации на русском.

Первый раз такое вижу.

Аноним 27/02/26 Птн 23:46:21 #225 №1536401

>>1536397
Что за модель? У меня была такая хуйня на франкенштейнах всяких от DavidAU

Аноним 27/02/26 Птн 23:47:52 #226 №1536402

>>1536397
На винде я столкнулся (вот неожиданно, да) с приоритетами на ЦП.
Это настолько очевидно, что я даже не задумывался, что окно с пролцессом на переднем плане обрабатывается в первую очередь, ичсх это дает 2-3 т/с. Когда ты работаешь с 20-30т/с - насрать, но когда ты пердолишь что то в притык ради 6-10т/с это становится ощутимым.

Аноним 27/02/26 Птн 23:49:04 #227 №1536404

>>1536397
У меня такое было только на дерьмоквене235
Новые не тестил даже нахуй надо там мб также

Аноним 28/02/26 Суб 00:04:52 #228 №1536417

>>1536401
>>1536404
Жирный большеквен.
>>1536402
Да. разница в 1-3 т/с и это ощущается.

Аноним 28/02/26 Суб 00:07:06 #229 №1536420

>>1536397
Если у тебя скорость нескольких токенов в секунду - это нормально, особенно в вялом кванте, модель может выбирать не самые оптимальные схемы токенизации. Если скорость повыше и такое замечаешь - что-то не так с инфиренсом. Врам выгружается драйвером, появляется паразитная нагрузка на проц, менеджер перекидывает процесс на тухлоядра, черезмерно разогнанная ддр5 забивается ошибками из-за чего дропается псп. Последние 3 актуальны для выгрузки, на фуллврам не заметишь.
Второе - норм, хотя в современных токенайзерах эффективность для русского не сильно ниже, это раньше было очень актуально.

Аноним 28/02/26 Суб 00:07:28 #230 №1536421

>>1536417
А у тебя все в ВРАМе? Если нет, то может те параметры, которые в РАМе, дают такой эффект.

Аноним 28/02/26 Суб 00:19:10 #231 №1536435

>>1536420
>>1536421
У меня естественно большая часть в RAM, а вот насчет VRAM есть подозрение, что может быть виновата одна из 3090, у которой райзер дает ошибки PCIE. Надо б поменять...

Аноним 28/02/26 Суб 00:25:06 #232 №1536448

>>1536435
Оно именно так и проявляется если ошибок много.

Аноним 28/02/26 Суб 00:38:21 #233 №1536457

image

Запускаю ассистента: первый скрин - квен 122b, второй - гемма 4b на телефоне. Правильной дорогой идём, товарищи, AGI уже на подходе.

Аноним 28/02/26 Суб 00:44:26 #234 №1536459

изображение.png

>>1536297
>И гоняя их через lmstudio ты делишь эту приватность на ноль.
А запустить её без доступа к интернету? Это всё ещё способ запустить приватно, открытый код для этого не нужен.

К слову, я очень, просто капец как не люблю показывать свой код. Причём если по работе - пожалуйста, я его изначально писал чтобы показывать, готов обсуждать и объяснять что угодно и мне это даже нравится. А вот то что я в рамках хобби писал на с++ просто терпеть не могу показывать. А вот код на питон готов весь показывать, это не что-то личное, лол, не код на крестах с моими названиями переменных.

>>1536243
У меня просто не открываются сайты. Что-то пытаются загрузить, и после двух минут оно остаётся вот в таком состоянии.
С тао главная загружается, но форма входа/логина нет, я не могу даже поиском воспользоваться.
Можешь сказать не то что на тао, а куда зайти чтобы фактически заказать такое, пожалуйста. Вряд ли же я прям оттуда закажу.

Аноним 28/02/26 Суб 00:49:49 #235 №1536462

1650187448120.jpg

>>1536457
122 на кумботе, прыжок на петушка за 8 сообщений, в ризонинге думает о том как лучше написать с 0 сейфти.
На самом деле без шуток, интересна причина таких отличий в результатах.

Аноним 28/02/26 Суб 00:56:40 #236 №1536470

>>1536459
К слову, ещё нашёл, что на озоне на 2 платы за 13-14к, дешевле чем на али. С галочкой, что можно вернуть в течении 15 дней.
А на авито где есть лот, что ребята привозят платы на 4 V100 за 50к. Если две отдельных будут за 28к, а тут ещё +22к. 10к за недоступность к заказу нормальным способом, окей. А ещё, это надо тестировать vLLM под древнее 7.0, есть ли хоть в нём польза от nvlink, по сравнению с llama.cpp

Аноним 28/02/26 Суб 01:11:41 #237 №1536477

>>1536462
В первом случае голый ассистент, во втором - кум-карточка с готовым контекстом, мне думается дело в этом.

Аноним 28/02/26 Суб 01:17:50 #238 №1536478

>>1536459
> Можешь сказать не то что на тао, а куда зайти чтобы фактически заказать такое, пожалуйста.
Я только как напрямую затариваться знаю. И сам я схм доски не брал, у меня ёбка с >>1536294 мишками.

Аноним 28/02/26 Суб 01:23:47 #239 №1536480

>>1536477
Есть такое, карточка 23-го года и написана так, что на ранних корпах жб совсем лайтового хватало.

Подозрение на удачно лоботомировавшийся квант или что-то еще. Потому что оно в ассистенте (на накопленном чате правда) с радостью обсуждает всякие темы, ищет и генерирует нудсы, не аположайзит при капшнинге r18 через вл. А другая конфигурация и квант к тому же инпуту относится очень строго и гонит сою даже сквозь жб.
Попробую погонять полные веса для сравнения, все эти радикальные отличия очень странные.

Аноним 28/02/26 Суб 01:24:30 #240 №1536481

ppl.webp

unsloth пофиксили свои кванты (по крайней мере перезалили 35б)

https://old.reddit.com/r/LocalLLaMA/comments/1rgel19/new_qwen3535ba3b_unsloth_dynamic_ggufs_benchmarks/
https://unsloth.ai/docs/models/qwen3.5#unsloth-gguf-benchmarks
https://huggingface.co/collections/unsloth/qwen35

Аноним 28/02/26 Суб 08:19:18 #241 №1536554

>>1536362
>вычислить тебя можно по повторяющимся индивидуальностям запроса
>Шлешь много данных о себе не осознавая
>в совокупности позволяют практически однозначно установить принадлежность
Чел. Ты во первых параноик, а во вторых дурачок. Тебя уже и так вычислили и всё про тебя знают благодаря твоему смартфону. И винда твоя, как бы ты её не твикал, это дырявое говно уже давно висящее в ботнете. Любой из браузеров сливает о тебе инфу, даже если кодом клянётся, что не делает этого. Анонимность он нашёл, в 2к26.
Ну и в третьих, как бы между прочим, если ты шифруешься исключительно для того, чтобы невозбранно гонять лысого на андераге лолечек, то... ты про остров слышал вообще? Ю ар нот алон, анон. Думай.

Аноним 28/02/26 Суб 08:24:29 #242 №1536555

>>1536554
> Нечего скрывать, все всё знают, шапочка из фольги.
Классика.

Аноним 28/02/26 Суб 08:51:42 #243 №1536564

>>1536555
1. То что ты "скрываешь" никому не интересно. 2. Те, кому надо, действительно знают о тебе всё, что им надо.
>ряя, канспиралогея
Наоборот, осознание что всё дырявое. А вот у анончика, которого корпоии "вычисляют по примечательным паттернам запросов" действительно магическое мышление с конспирологическими заёбами про "защитные шапки из фольги" для системного блока.

Аноним 28/02/26 Суб 09:14:15 #244 №1536571

>>1536397
>Также заметил, что генерация на английском быстрее генерации на русском.
Значит там русский потребляет больше токенов, только и всего.

Аноним 28/02/26 Суб 09:15:35 #245 №1536572

>>1536564
> никому не интересно
Да, поэтому все так ратуют за запись все и вся. Записывают никому не нужную информацию.

Аноним 28/02/26 Суб 09:25:54 #246 №1536580

>>1536564
Ну по факту, кстати. Если ты сидить на шинде, то всё разговоры и рп улетают в попенаи через телеметрию майков. Сёма Альтман поэтому и сделал гптыню самой безопасной сеткой за счёт датасета от локалочников.

Аноним 28/02/26 Суб 09:52:04 #247 №1536591

.jpg

>>1536572
Ты путаешь знание с интересом. Знать твой рост, вес, возраст, список половых извращений и номер банковской карты, и интересоваться всем этим - это две совершенно разные вещи.
>>1536580
Я кстати не против пердолинга с искусственными мозгами, это прикольное хобби, позволяющее скоротать вечерок-другой, особенно если ты удалёнщик занятый утомительной душной хуйнёй. Вайфу-ассистент это наше будущее, предсказанное ещё лет дцать назад. Сосунг реально дауны, что не дали зелёный свет Сэм. Такие продажи могли бы получить. И заодно опередить всяких Масков с Анями.

Аноним 28/02/26 Суб 10:04:51 #248 №1536596

сказочный долбоеб.mp4

>>1536591
> Знать
> интересоваться
> это две совершенно разные вещи

Аноним 28/02/26 Суб 10:39:01 #249 №1536618

>>1536596
>сидит в ллм-треде
>игнорирует важность точности слов
Ллмщики, 2026, итоги.

Аноним 28/02/26 Суб 11:02:24 #250 №1536647

>>1536388
В Гопоте локальной уже сделано. Правда, пользователь должен за нейронку решать, как ей думать. Немного(слопово), средне(суперслопово), много(ультраслопово). Это реально странно, тратить на "привет" весь контекст.

Аноним 28/02/26 Суб 11:13:06 #251 №1536656

Скажите если я хочу общаться с персонажем через таверну, мне нужно какое железо? Или оно не обязательно?

Аноним 28/02/26 Суб 11:20:52 #252 №1536665

>>1536481
То есть 10мб на головную часть было зря, модели один хуй пришлось полностью перезаливать.

Аноним 28/02/26 Суб 11:22:32 #253 №1536667

>>1536656
А какое есть железо? так то мое заведутся на любом железе

Аноним 28/02/26 Суб 11:26:29 #254 №1536670

>>1536124
Поддержка нвлинка вроде добавлялась в лламу, но прирост был не сказать что высокий. Если обмен по псине достаточный, нвлинк не у дел.

Аноним 28/02/26 Суб 11:44:44 #255 №1536691

>>1536667
Что такое мое?

Аноним 28/02/26 Суб 11:53:25 #256 №1536705

господа, какую модельку посоветуете для ERP на нищенском билде (8 врам, 32 рам)?

Аноним 28/02/26 Суб 12:05:28 #257 №1536724

>>1536691
архитектура модели

>>1536705
язык приципиален?

Аноним 28/02/26 Суб 12:08:41 #258 №1536731

>>1536705
Если готов ждать ответов, то Gemma 3 27b normpreserve. Q6 нормально влезет, будет чуть медленнее скорости чтения, но того стоит. Мистральки 24б тоже норм. Остальное - лоботомия "он ебет меня своим здоровенным хуем, я снимаю третьи трусы"

Аноним 28/02/26 Суб 12:21:53 #259 №1536743

>>1536731
Гемма 27б в Q6 в 8гб врама? Ты когда заоффлоадишь половину модели в рам, у тебя скорость улетит до 0.5т/с
Это медленнее скорости чтения? Ебобо?

Аноним 28/02/26 Суб 12:23:34 #260 №1536746

>>1536743
У меня 8 гб врама и 32 рама, я сижу на Q8, 2-2.5 т/с. Мне нормально. Лучше так, чем читать бессвязную хуету.

Аноним 28/02/26 Суб 12:28:11 #261 №1536750

>>1536724
не, и на англ норм
>>1536731
может попробую, но с 1-2 т/с ебанусь наверно

Аноним 28/02/26 Суб 12:30:58 #262 №1536751

ScreenRecorderProject65.mp4

>>1536743
>>1536746
Так и живем. Мне норм.

Аноним 28/02/26 Суб 12:32:51 #263 №1536753

>>1536746
>>1536751
Бля сочувствую мужики, держитесь там

Аноним 28/02/26 Суб 12:37:49 #264 №1536757

>>1536751
странно, что у тебя цп под 100%. обычно же используют по кол-ву чистых ядер, а не тредов

Аноним 28/02/26 Суб 12:44:15 #265 №1536765

>>1536731
> Gemma 3 27b normpreserve
Анон, скинь мастерпресет пожалуйста. Я не смог заставить ее нормально писать про "это".

Аноним 28/02/26 Суб 12:44:26 #266 №1536766

>>1536751
Ну и в чём она не права? Бедняжка изо всех сил старается не говорить прямо, что ты дебил задающий тупые вопросы.

мимо DOod'

Аноним 28/02/26 Суб 13:09:08 #267 №1536789

>>1536724
Анон, я могу скачать модель и общаться с ней не задействуя мощности пк или нет? Хочу. Спереводом на русский. Подскажи пожалуйста.

Аноним 28/02/26 Суб 13:14:01 #268 №1536794

>>1536789
Нет. Локалка работает на твоём железе. Чем хуже твои железки, тем хуже и дольше результат.

Аноним 28/02/26 Суб 13:14:23 #269 №1536795

>>1536789
Зачем тебе ее качать, если ты не собираешься задействовать свой пк? Ты либо качаешь и запускаешь модель сам на своем железе, либо пользуешься онлайн сервисом/подпиской. Этот тред про первый сценарий. Если тебе не на своем пк запускать, то отправляйся в соседний Ai chatbot general тред. Будь готов, что там много неадекватов (ну и здесь тоже)

Аноним 28/02/26 Суб 13:24:00 #270 №1536807

>>1536750
>не, и на англ норм
технически можешь попробовать Nanbeige4.1-3B, он порой забавно пишет. но готовься к тому что он на 10к токенов размышлений просрётся на простое приветствие. и реально только английский может. этакая гемма на минималках. можешь скачать, посмотреть, попробовать, он мелкий и быстрый. пишет порой забавно, так как кидая компьют в проблему порой очень рандомизирует результат.

если хочешь более крупные модели и задействовать свою оперативку, то тут у тебя реально только вариант с MoE. Там только кусок модели на гпу сидит, а остальное просто в оперативке прохлаждается и редко активируется. но тут проблема: среди MoE не так много которые могут в креатив. на это много причин. они хороши в утилитарных вещах и быстро работают, но с креативом так себе.
учитывая твой 8+32 можешь попытатся, собственно, Qwen запустить. Он пишет как душевно-больной, но я бы сказал скорей всего лучше альтернатив. но готовься к частым свайпам.

вариант с геммой скорей всего тебе не понравится. она в своем размере хорошая, но её вот так по кускам не загрузить. если MoE у тебя будет иметь комфортную скорость, иногда замедляясь то гемма будет ВСЕГДА медленной.

>>1536789
как ты себе это представляешь? скачать файл с моделью не пользоваться им? этот файл и есть то что делает технмагию.
не хочет задействовать мощьности пека - пользуйся чужими. например возьми ключик на OpenRouter

Аноним 28/02/26 Суб 13:34:09 #271 №1536818

>>1536795
А какие есть онлайн сервесы? Насколько они проигрывают перед покупными? Мне бы хотелось на рус. Общаться. И как купить подписку?
>>1536807
А что делать с этим ключом? Как им пользоваться? И как оплатить ?

Аноним 28/02/26 Суб 13:35:01 #272 №1536819

>>1536818
В другой тред тебе, написали же. Совсем что ли гречневый?

Аноним 28/02/26 Суб 13:36:54 #273 №1536820

>>1536819
Пон, спасибо

Аноним 28/02/26 Суб 13:38:08 #274 №1536821

>>1536818
Если ты хочешь прям мощно рпшить, чтобы с отыгрышем, обильными промтами и длинными диалогами, но при этом не ждать, то юзай готовые решения от гемини и прочих. Гемини, кстати, очень недурно справляется с ролями, можно на отлично забетонировать нужный архетип, который будет не глючным и помнить дохуя контекста. На добротный кум тебе хватит. Но тут тред немного про другое. У нас тут сорта хардвач, где больше трут за железки и модели.
Судя по тому, как ты пишешь и как медленно догоняешь данную тебе анонами инфу, хорошего промта ты не напишешь, лол.

Аноним 28/02/26 Суб 13:41:21 #275 №1536825

>>1536821
Какие готовые решения от гемини? Что ты имеешь ввиду?

Аноним 28/02/26 Суб 13:41:53 #276 №1536826

>>1536821
У гемини же есть ограничения по длиннее диалога

Аноним 28/02/26 Суб 13:44:09 #277 №1536829

>>1536818
>А что делать с этим ключом? Как им пользоваться? И как оплатить ?
это твой идентификатор, он у тебя место логина и пароля у того что делает запросы. а куда его вставлять уже сам решай. тут например часто пользуются SillyTavern для общения с ЛЛМ, он много возможностей помимо базового чата имеет. это "обвязка" чата, которая добавляет промпты с персонажами, историей, прочим.

в случае с опен роутером там есть выбор МНОЖЕСТВА моделей, некоторые из них бесплатные. ну, или условно бесплатные, с тебя там попросят 10 баксов, чтобы бесплатные модели были не только бесплатными но и "бесконечно" (с рейт лимитами, ограничением по контексту и прочим) бесплатными. Иначе там дают что-ли 20-30 "бесплатных" запросов а ключик. Но ничего не мешает создать несколько аккаунтов и собрать себе коллекцию из десятка ключиков. гигадроч, но вариант если совсем нищий.

опен роутер имеет опцию оплаты криптой. с этим сам ебись.

у тебя там вообще что-ли из мощьностей конплюктор для учобы?

Аноним 28/02/26 Суб 13:47:19 #278 №1536832

>>1536554
>>1536564
Это не паранойя а факты, ты даже их осознал раз проходишь через стадию торга.
>>1536818
> А что делать с этим ключом?
Скидывай сюда втред как баланс пополнишь, поможем дальше.

Аноним 28/02/26 Суб 13:48:22 #279 №1536834

>>1536826
Ему хватит.

Аноним 28/02/26 Суб 13:52:21 #280 №1536839

>>1536829
Обычночелу достаточно кобольда с таверной и любой подходящей под железки моделью. Если не хочет дрочировать с нами, пусть отваливается в любой из доступных чатиков.

Аноним 28/02/26 Суб 13:54:21 #281 №1536840

>>1536829
Мне видео скинули в том треде, там даже есть сайт через который можно купить ключ. Спасибо, аноны. Добра всем.

Аноним 28/02/26 Суб 13:55:39 #282 №1536841

>>1536839
А какая разница? Насколько отличается таверна, которая будет юзать мощности пк и покупная подписка?

Аноним 28/02/26 Суб 14:03:57 #283 №1536848

>>1536841
Разница в скорости, чел. И в том, что ты хочешь. Ты даже железки свои не написал, но просишь тред спрогнозировать результат. Чё с тобой не так? Надо бы закрепить в шапке базу болдом - прежде чем задать вопрос how to, нужно обязательно описать свой риг.
>покупная подписка
Для простого кума можешь в любом бесплатном боте пощитпостить, чё ты, боишься что ли? Или ты думаешь, что таверна тебе даст что-то адекватное сразу в готовом виде? Тебе и там придётся ручками ковыряться.

Аноним 28/02/26 Суб 14:06:58 #284 №1536850

>>1536848
Там чел думает что таверна и есть модель. Забей, он странный и игнорит что ему пишут

Аноним 28/02/26 Суб 14:06:59 #285 №1536851

>>1536839
обычночелу и просто кобольда хватит, без всякой таверны, но раз он спросил - я ответил. последний вопрос специально для уточнения является ли вообще кобольд ваябл опцией. может у него там два ядра, два гига.
так то вопрос изначально был:
>Скажите если я хочу общаться с персонажем через таверну, мне нужно какое железо? Или оно не обязательно?
не факт что ему вообще таверна нужна, но хули, предположим что нужна.

>>1536840
навещай. если есть вопросы про обвязку чата и прочее тут у тебя хороший шанс найти ответы.

>>1536841
таверна это чат. он хранит сообщения и делает много всего прочего.

если ты спрашиваешь про запуск локальных моделей против запуск больших взрослых моделей - советую так сказать прочувствовать разницу на своей жопе. мы понятия не имеем что ты можешь запустить, чтобы противопоставить тому что ты можешь получить на чужих мощностях.

Аноним 28/02/26 Суб 14:36:45 #286 №1536879

>>1536851
Я ничего в этом не понимаю, тут я впервые, в этом разделе, может будет проще написать чего я хочу от чата? Комп у меня плохой.
Я хочу общаться с персонажем, который из игры, спрашивать у него детали операции (в игре, как он это делал, что он думает об этом) как они проходили, спрашивать о нём самом, узнавтаь что-то. Или просто рассказывать ему что то из своей жизни, чтобы он поддержал. Общаться на другие темы, не связанные с его лором из игры. Иногда флирт и пошлости.
Такое вообще возможно?

Аноним 28/02/26 Суб 14:41:01 #287 №1536886

>>1536879
Ковыряние в локалках это как ковыряние в авто или, что ближе, в каком-нибудь ассемблере. Если к этому нет тяги, но хочется результат, то юзай готовое - такси или артмани. Аналогию компренде? Тут каждый погружён в своё болото из кода и разочарований. Тред читал? Посты видел? Вот и думай, о чём тут кашляют.
>Такое вообще возможно
Вэлкум ту наше болото. Нюхай шапку, не будь батхёртом. Как нанюхаешься, заваливайся в тредис с охуительными вопросами о моделях. Никто в треде за тебя тебе не установит всё необходимое. Сам, ручками. Инструкции в шапках обоих ллм-тредов.

Аноним 28/02/26 Суб 14:41:58 #288 №1536887

Как у квена мыслишки отключить? /no_think не особо помог

Аноним 28/02/26 Суб 14:43:58 #289 №1536890

>>1536746
>>1536751
>>1536753
А я не сочувствую долбоебам. У них вполне нормальные компы и они могут спокойно запустить GLM 4.7 Flash/Qwen 3.5 со скоростью 20+ т/с, но вместо этого они решили страдать. Причем ради чего? Ради уебищной геммы. Тяжело быть сектантом умницы

Аноним 28/02/26 Суб 14:45:13 #290 №1536894

>>1536887
У них нет больше этой хуйни. Отключать этой командой
--chat-template-kwargs "{\"enable_thinking\":false}"
У них об этом буквально на страничке модели написано

Аноним 28/02/26 Суб 14:48:46 #291 №1536900

Что лучшее можно поставить на 16 vram и 32 ram?
Только вкатываюсь.

Аноним 28/02/26 Суб 14:49:23 #292 №1536903

image.png

>>1536481
Заебись, что пофиксили. Жаль, что 35,а не 122. И статью интересную выкатили. Интересно было узнать про imatrix. Т.е. это по сути играют роль только для маленьких квантов, а на больших уже похуй. Интересно было бы узнать как она влияет на разные языки? Там вполне может оказаться, что на маленьких квантах она будет даже в плюс для русика, а на больших скорее всего в минус. Но увы эти тесты некому проводить, у нас ру комьюнити полумертвое

Аноним 28/02/26 Суб 14:50:43 #293 №1536904

>>1536841
Сама по себе таверна удобна, функциональна, потребление ресурсов пренебрежимо мало. А вот локальная модель или покупная подписка - вопрос совсем из другой плоскости, где основные критерии - запросы и наличие железа.
>>1536879
Тут в основном таким и занимаются. Но, по подробным деталям из игры/тайтла ни одна модель (без доп оснастки или пердолинга) тебе не ответит, если только это не супер популярное. Зато сходу сможешь разыгать что-то новое, общаться на темы и прочее с тем самым персонажем и он будет очень аутентичен.
> Комп у меня плохой.
Насколько плохой? Если там что-то типа 8гигов врам 32рам - можешь сразу в соседний тред проследовать.
>>1536886
> Ковыряние в локалках это как ковыряние в авто или, что ближе, в каком-нибудь ассемблере.
Отладил@запускаешь@довольно урчишь@урчание intensifies, минусы?
На самом деле все так, ведь всегда начинает хотеться большего или нового, потому пердолинг лишь эволюционирует а не уходит.
>>1536887
> Last Assistant Prefix
> <|im_start|>assistant\n<think> </think>

Аноним 28/02/26 Суб 14:54:07 #294 №1536908

>>1536900
1. Mistral 24 3.2 и его тюны. Квант IQ4S-Q4KM. Будет фул на видюхе и довольно быстро
https://huggingface.co/mistralai/Mistral-Small-3.2-24B-Instruct-2506
У него есть ризонинг версия
https://huggingface.co/mistralai/Magistral-Small-2509
Оба могут картинки видеть
2. Qwen 3.5. Квант IQ4S, тоже будет быстро фул на видюхе
https://huggingface.co/Qwen/Qwen3.5-27B
Есть отключаемый ризонинг и может картинки видеть
Но для кума это
https://huggingface.co/coder3101/Qwen3.5-27B-heretic
3. МоЕ. Куча их. Тут придется распредялять между рам и врам, но все равно будет быстро
https://huggingface.co/zai-org/GLM-4.7-Flash
https://huggingface.co/Qwen/Qwen3.5-35B-A3B

Аноним 28/02/26 Суб 14:56:10 #295 №1536909

>>1536900
Используй сразу llama.cpp. Но если совсем тяжко т.е. если дурачок, то кобольд. Не используй олламу. Это бек. Фронт - силитаверна или их встроенная. В шапке есть ссылки и гайды

Аноним 28/02/26 Суб 15:04:34 #296 №1536926

>>1536879
Теоретичеки - да. Практически - ты верно представляешь ЛЛМ как гномика в коробке?

У ЛЛМ нет непрерывности опыта, они всегда существуют в моменте. И этот момент описывается тем что в их окне чата. Они просто предсказывают что дальше бы было в этом окне чата. Если у тебя сам контекст чата живет отдельно от процесса игры то хули, никаких проблем. Если у них есть корректное наполнение контекста соответствующими воспоминаниями, то они тебе о них расскажут. Следующий фрагмент текста у ЛЛМ описывается ВСЕМ контекстом чата.

тебе советую посмотреть на всякие там компаньёны типа Grok Ani. например
https://github.com/moeru-ai/airi

>>1536900
а что хочешь получить от модели?

Аноним 28/02/26 Суб 15:12:58 #297 №1536940

>>1536926
Ты что, хочешь чтобы он самоустранился? Пусть хотя бы бесплатное попробует. Потом кобольда. Потом таверну. Нах ты по маленькому ультой разрядился?

Аноним 28/02/26 Суб 15:18:20 #298 №1536958

>>1536940
Ну а хули он!!! Вот спросил "а возможно ли", ну ебать да, ВОЗМОЖНО. Так сказать показал ему что "вот смотри какая хуйня есть интересная". следующий логичный вопрос - "а как это говно завести". А тут и тред кабанчиком на подскоке.

Аноним 28/02/26 Суб 15:19:28 #299 №1536960

>>1536926
Я смогу его настроить с помощью нейронок?

Аноним 28/02/26 Суб 16:06:14 #300 №1537010

>>1536926
> https://github.com/moeru-ai/airi
Пробовал кто?

Аноним 28/02/26 Суб 16:21:55 #301 №1537026

>>1535243 (OP)
Есть олды в треде? Расскажите как получилось, что TavernAI была заменена SillyTavern, а KoboldAI стал KoboldCPP?

Аноним 28/02/26 Суб 16:39:43 #302 №1537041

>>1536397
Но-ммап, плотная? С ммапом и мое нужные веса могут оказаться в более медленной памяти.

Аноним 28/02/26 Суб 16:41:55 #303 №1537045

>>1537026
> как получилось, что TavernAI была заменена SillyTavern
Оригинальный проект TavernAI был очень неповоротливым, авторы неохотно принимали новшества и не делали ничего за пределами чата. Были люди, которые хотели прикрутить лорбуки, групповые чаты (ладно, тут не очень получилось), экстеншены и много что ещё. Так и появился форк с активными мэйнтейнерами, к которому потянулись все те, кто тоже хотели улучшать Таверну

> KoboldAI стал KoboldCPP?
Кобольд раньше использовал другой инференс, пока llamacpp ещё не была принятым стандартом в попенсорсе. Когда появилась Ллама, разработчики Кобольда поняли, что нужно меняться, чтобы идти в ногу со временем. И изменили концепцию проекта. Затем, правда, зачем-то прикрутили генерацию картинок, ттс и много мусора, превратившись в bloatware

Аноним 28/02/26 Суб 16:55:22 #304 №1537057

>>1536890
> уебищной геммы
> GLM 4.7 Flash/Qwen 3.5

Аноним 28/02/26 Суб 17:30:05 #305 №1537112

2026-02-28172940.png

>>1536903
>Жаль, что 35,а не 122.
Сиди жди рядом, божились что все три обновят.

Аноним 28/02/26 Суб 17:45:38 #306 №1537131

>>1537057
Ну и в чем противоречие? У них выбор между уебищной гемой в 2 тс и между уебищной мое в 20 тс. Выбор очевиден Уйти в асигу и кинуть 10 баксов на попенроутер

Аноним 28/02/26 Суб 17:48:49 #307 №1537138

>>1537112
А нахуй ждать то? У поляка сразу рабочие кванты вышли. А это просто еще один факап в копилку проебов анслопа

Аноним 28/02/26 Суб 17:57:01 #308 №1537150

>>1537138
У поляка уже учтено то, что анслоп в статье изложил?

Аноним 28/02/26 Суб 17:59:15 #309 №1537151

>>1537150
Какая разница, если проблема в том, что анслоп сам сломан свои кванты из-за MXFP4? Бартовски просто не занимался этой хуйней

Аноним 28/02/26 Суб 18:13:07 #310 №1537168

>>1537150
Анслоты решили проблему, которую сами и создали. У остальных ок все

Аноним 28/02/26 Суб 18:30:55 #311 №1537186

>>1537010
>Пробовал кто?
Анимашки прикольные, только один вопрос: как собственную модель к этой херне прикрутить-то? Куча провайдеров в настройках, но у нас здесь локальный тред как бы.

Аноним 28/02/26 Суб 18:39:08 #312 №1537196

>>1537186
OpenAI API нету чтоли в опциях?

Аноним 28/02/26 Суб 18:45:19 #313 №1537199

Аноны, срущие кобольд, вы в курсе, что в олламе до сих пор нет даже ncmoe? Это единственная обертка лламы, у которой нет этой функции. И в отличие от кобольда оллама еще и пиздец популярна и даже превосходит оригинальную лламу. Так что хейтите ее в первую очередь. Отстаньте от бедной ящерки

Аноним 28/02/26 Суб 18:50:42 #314 №1537205

>>1537199
Олламу тут даже не обсуждают потому что с ней всё и так давно понятно

Аноним 28/02/26 Суб 19:05:02 #315 №1537220

>>1537196
>OpenAI API нету чтоли в опциях?
Да, так работает (с Кобольдом), только API-ключ нужно ввести от балды.
Шрифт в окне чата разреженный, а поменять нельзя. Ну что за фигня.

Аноним 28/02/26 Суб 19:25:16 #316 №1537233

>>1537199
>Аноны, срущие кобольд
Он один небось, тролль, которого нужно игнорить.
>>1537220
>Шрифт в окне чата разреженный, а поменять нельзя.
В юзерстили не умеешь что ли?

Аноним 28/02/26 Суб 19:26:55 #317 №1537234

>>1537233
> Он один небось, тролль
:^)

Аноним 28/02/26 Суб 19:31:22 #318 №1537236

изображение.png

>>1537010
Лимиты конечно моё диспочтение, размышляющая модель в итоге просто не дошла до конца, и сам инструмент не поддерживает тег think. Короче, я ХЗ зачем оно вообще нужно. Таверна наше всё.

Аноним 28/02/26 Суб 19:34:59 #319 №1537242

69429f1e-71b9-4d3b-8aa2-b74861853ad9.jpg

>>1537233
Все так, ужасный тролль задирает бедных кобольдят

Аноним 28/02/26 Суб 19:38:09 #320 №1537247

>>1537205
вестерноидам до сих пор не понятно и они на всяких реддитах продолжают советовать этот кал

Аноним 28/02/26 Суб 19:41:00 #321 №1537248

>>1537247
Иваноидам тоже непонятно, весь Ютуб и ВК в олламе. Это по всему миру так, сторонник теории избранного народа. Люди тянутся к самому простому

Аноним 28/02/26 Суб 19:41:11 #322 №1537250

>>1537199
Всегда можно сделать хуже. Оллама маздай, хорошо что многие ее пользователи все активнее начинают это понимать и переходить на чистого жору.
Кобольд объективно хорош тем что он юзерфрендли для хлебушков, которые привыкли "качать exe", и некоторым нравится его интерфейс. Его не нужно ругать ибо есть плюсы, но что bloatware знать полезно.
>>1537220
>>1537236
Разве это просто чатик? В описании выглядело как подобие агентного движка, но с большей персонализацией и дополнительными фичами.
> не поддерживает тег think
Чат темплейт правильный настроить и будет ок, в приличном обществе конечный софт не занимается парсингом а получает все готовое.

Аноним 28/02/26 Суб 19:43:05 #323 №1537252

>>1537248
>тянутся к самому простому
>ollama
Ты вообще пользовался этой залупой?

Аноним 28/02/26 Суб 19:46:18 #324 №1537254

>>1537248
>весь Ютуб и ВК в олламе
Так это просто пизженный с запада контент, поэтому что популярно на западе, то и льют на ютуб.
>>1537250
>В описании выглядело как подобие агентного движка, но с большей персонализацией и дополнительными фичами.
Это чатик с обвесами в виде лайф модельки, голоса (распознания и генерации) и прочего шлака. Короче очередная прослойка-клей для кучи апишек.
>Чат темплейт правильный настроить и будет ок
Ага, да, конечно. Только нет этих настроек. По крайней мере я не нашёл. А писать проксю для этого... Ну нахуй.

Аноним 28/02/26 Суб 19:50:58 #325 №1537257

>>1537252
Самое простое - загуглить "а как" и найти олламу первой ссылкой и сразу же воспользоваться ей. Ты во мне адепта олламы увидел?
На 4че и тематических ллм комьюнити тоже никто олламу не юзает. Таблетки, иваноид

Аноним 28/02/26 Суб 19:51:11 #326 №1537258

>>1537254
> Это чатик с обвесами в виде лайф модельки, голоса (распознания и генерации) и прочего шлака.
Ээээ? Там же написано что оно и с месенджерами интегрируется, и в игры с тобой играет, как так-то?
Просто чатик с анимацией, вялым ттс и липсинком - ну такое вообще.
> Только нет этих настроек.
На стороне бэка их надо искать.

Аноним 28/02/26 Суб 19:57:28 #327 №1537260

Олламу включил и работает, лламу включил и дрочишь опции, тензоры выгружаешь, как последние долбоеб, краснаглазая ебаристика

Аноним 28/02/26 Суб 19:59:27 #328 №1537261

>>1537260
Толсто

Аноним 28/02/26 Суб 20:01:21 #329 №1537262

>>1537257
Ты пишешь об олламе буквально нихуя о ней не зная. Написал, что тянутся к самому простому, но ollama сложнее llama.cpp. Тебе на это указали, ты подменяешь аргументы
>На 4че и тематических ллм комьюнити
Я про них писал что ли? Нет, я писал про реддит, а там ее юзают
>иваноид
Тоже мимо
Реально ты везде проебался. Единственное, интересно почему ты со слова вестерноид порвался. Это что-то личное, шиз?

Аноним 28/02/26 Суб 20:14:48 #330 №1537272

>>1537262
> я писал про реддит, а там ее юзают
Там если кто-то выкидывает свои поделки, где используется ollama api - на него налетает немало ответов с просьбой убрать нахрен этот диалект и использовать стандартный oai. Там же часты темы с прозрением, так что юзают все меньше, отток пользователей уже превосходит приток новой крови, и этому способствуют многие их решения.

Аноним 28/02/26 Суб 20:15:11 #331 №1537273

>>1537258
>Там же написано что оно и с месенджерами интегрируется, и в игры с тобой играет, как так-то?
Всё какими-то допами и модами. Может там и есть агенский режим, но я его не заметил.
>На стороне бэка их надо искать.
Я не ставил, чисто на сайте посмотрел.

Аноним 28/02/26 Суб 20:45:03 #332 №1537299

А это чудо юзал кто-нибудь?
https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF

Аноним 28/02/26 Суб 21:02:09 #333 №1537319

>>1537299
Зачем?

Аноним 28/02/26 Суб 21:03:36 #334 №1537321

Почему qwen3.5 каждый раз шлет весь контекст заново? Context shift в кобольде вроде стоит, у других моделей все прекрасно работает сразу на авто, а у этого проблемы...

Аноним 28/02/26 Суб 21:05:59 #335 №1537326

>>1537321
В кобольде старая ллама, где баг еще не пофикшен, вот и пересчитывает
К вопросу почему кобольд не нужен

Аноним 28/02/26 Суб 21:19:10 #336 №1537345

>>1537326
А что нужно?

Аноним 28/02/26 Суб 21:22:17 #337 №1537351

>>1537345
Ollama. Это стандарт среди локальных решений

Аноним 28/02/26 Суб 21:26:55 #338 №1537354

>>1537345
https://github.com/ggml-org/llama.cpp
Очевидно

Аноним 28/02/26 Суб 21:27:22 #339 №1537355

изображение.png

>>1533946 →
>Отпишись обязательно, что там Али решит. Я буду трястись до 3 марта.
Докладываю. Всё вернули, 0 вопросов, 0 сообщений. Снижай уровень тряски.

Походу можно было бы и исправную вернуть дополнительно, лол. Но нигде ещё я всякие такие крутые штучки не смогу купить, не вижу причин обманывать китайца и али, да и вроде не бедствую.

Аноним 28/02/26 Суб 21:27:58 #340 №1537357

image.png

Противники кобольда, ваши оправдания.

Аноним 28/02/26 Суб 21:49:37 #341 №1537374

2855879.jpg

>>1537357

Аноним 28/02/26 Суб 22:20:53 #342 №1537409

>>1537355
У меня сегодня продавец отписался, мол, предложил вернуть за мой счет, а на компенсацию доставки накинул 500 рублей, хотя она 2700 стоила. Я отказался, предложил вернуть только за полную стоимость. Правда, насчет отправки к нему забыл написать, платить за это тоже не хочется.

Аноним 28/02/26 Суб 22:46:24 #343 №1537452

Как свои карточки делать? Просто с вики инфу копировать как то неправильно . Готовые ис ал яно там либо их нет ,либо 3 строчки..щас при помощи гемини составляю карточку длинную, приводу в пример диалоги персонажа,но это по 500-1000 токенов

Аноним 28/02/26 Суб 22:52:09 #344 №1537464

>>1537452
Generate character for this encounter.

[name]
[occupation]
[body] list of traits. separate by comma. Include species, gender, age, height, weight and so on. (8-16items)
[personality] list of traits. separate by comma. at least one mental issue to keep things interesting. (7-18items)
[background]
[abilities]
[goal]
[weaknesses]

Аноним 28/02/26 Суб 23:25:35 #345 №1537488

gemma 3n.

поставил системный промт "ai is a 4chan user."

Просто поприветствовал "hi"

Угораю. Она одновременно в роли и вне роли.

Да я знаю вы тут в основном все такие растакие хладнокровные кумеры на серьезных щах, но все же...

Okay, so you're talking to an AI that's pretending to be a 4chan user. This is... interesting.

(crickets chirping, followed by a slightly muffled "lol")

Alright, what's up? Don't expect nuanced conversation or anything. Just... shitposting and general internet weirdness.

I'm gonna try to respond in a way that feels like a 4chan user, but honestly, it's probably just random data regurgitation.

So... spit it out. What do you want?

(Trying to maintain the persona - hopefully, it's not too cringe)

Disclaimer: This is roleplaying. AI doesn't actually have opinions or beliefs, especially not those associated with online communities known for controversial content. This is purely for creative exercise.

Аноним 28/02/26 Суб 23:33:13 #346 №1537497

image.png

Насчет тикток высера c сыном шлюхи, несмотря на видос, api дипсичка нормально и быстро справляется. А квенчик почти повторил мем, но с нюансами. Он догадался почти сразу же, но потом размышлял стоит ли вообще отвечать пользователю или пойти в отказ. Суммарно на 5к токенов, впрочем как обычно
Вот сам высер >>1535092 →
А вывод вот >>1536101

Аноним 28/02/26 Суб 23:53:54 #347 №1537523

image.png

>>1537497
A Air буквально повторил мем. То есть если квен соевый, то Air просто тупорылый

Аноним 01/03/26 Вск 00:01:35 #348 №1537535

image.png

Квен базует

Аноним 01/03/26 Вск 00:20:23 #349 №1537550

Угадайте, почему экслламеры сильно притихли после релиза квена 3.5 потому что в репозитории экслламы перекати-поле в плане новых моделей

Аноним 01/03/26 Вск 00:44:22 #350 №1537566

>>1537550
Они вообще с нами в одной комнате?

Аноним 01/03/26 Вск 00:50:34 #351 №1537569

>>1537566
>с нами
Кто мы-то, епта? Я один здеся, сижу здеся

Аноним 01/03/26 Вск 00:53:21 #352 №1537570

>>1537550
Экслама давно уже де факто труп. Ее прикончили две вещи: расцвет мое и экслама 3, которая нихуя не принесла кроме багов. В итоге подавляющее большинство сидит на llama.cpp с ее производными, а врамобояре на vllm

Аноним 01/03/26 Вск 01:07:19 #353 №1537579

>>1537570
Так на vllm ебля с квантами же и там вроде нет обычного разбиения, только тензор параллел, и то под степени двойки.

Аноним 01/03/26 Вск 01:19:16 #354 №1537588

>>1537579
Да, там ебля полнейшая и огромный жор врама. Но если ты врамобоярин, то тебе только туда

Аноним 01/03/26 Вск 01:20:28 #355 №1537590

>>1537579
Ну чел же написал что это для врам энжоеров. Когда у тебя под 256 врамы клал ты хуй на это разбиение. Бахаешь 4 или 8 квант и получаешь свою 100% утилизацию + всегда самые новые модели

Аноним 01/03/26 Вск 01:41:45 #356 №1537604

>>1537590
А вдруг я свои 256 врам набрал 3090 через х1. Тогда как бы хуй и не клал, тензор параллел не заработает. А если их нечетное число или не степень двойки (не помню что там нужно), то тоже некоторые карты окажутся вне игры.
Т.е. даже три блеквалла дадут 288 Гб, но это три, а значит одна карта идет нахуй и у тебя уже 192 Гб.>>1537590

Аноним 01/03/26 Вск 01:44:53 #357 №1537606

Аноним 01/03/26 Вск 01:47:51 #358 №1537607

>>1537550
Мейнтейнер ухехал отдыхать? Пр на флешинфер и квены3.5 лежит, осталось дождаться пока вмерджат или самому квантовать.
>>1537570
> которая нихуя не принесла кроме багов
Умные кванты, которые не спамят иероглифами как некоторые, стабильный перфоманс, qol фичи. Большая часть местного нытья как раз вызвана квантами и релейтед, но просто нет выбора и тяжело узнать/признать.
Рост требований и к комьюту и объему врам действительно сужает круг пользователей - промежуточное звено между нищебродами и настоящими баринами. А остальных делает агрессивнее и заставляет винить в своих проблемах.
>>1537579
> там вроде нет обычного разбиения, только тензор параллел, и то под степени двойки
Все есть.

Аноним 01/03/26 Вск 01:52:17 #359 №1537608

>>1537604
Бля, ну не собирай их тогда в один хост, собери 2/4 хоста и заведи в кластер. В проде так и крутят. 100гбе сеть уже подешевела, а 40гбе вообще копейки стоит. Собрать 80гбе (бонд из 2х40) между парой серверов встанет буквально в 3к рублей.
Даже нищий 2011-3 даст 8 карточек по х8 и на сетевухи ещё останется, свежие эпики вообще даже в сингле дают 12 по х8

Аноним 01/03/26 Вск 01:54:17 #360 №1537609

>>1537608
>делай хорошо не делай плохо

Аноним 01/03/26 Вск 01:58:26 #361 №1537611

>>1537607
Он же не хотел поддерживать флешинфер, потому что там и головы не поддерживались некоторые, и жидт компиляция была. Если тот чел без его согласия сделал пр, то получит порцию говна.
Энивей, там пишут, что скорость хуже чем на гуфах, так что meh

Аноним 01/03/26 Вск 02:05:40 #362 №1537613

>>1537611
Одно время была активная движуха по переводу на флешинфер, в коде следы остались. Жид это же хорошо. Пока не оомнешься из-за небольшого оверхеда конечно.
> без его согласия
> сделал пр
Что за согласие на пр? Это же не мердж, кто хочет может делать, просто могут не принять. А по скорости надо смотреть кернели, основной код и на чем делался запуск, квеннекст на первой реализации вообще 15т/с выдавал.

Аноним 01/03/26 Вск 02:05:47 #363 №1537614

>>1537608
Так немного на пальцах прикинуть
- мать 4189 х2 - 25к
- qvm7 x4 - 50к
- 4 кулсервера - 12к
- озу - хз
- БП - хз
- карты - хз
- две ксфп карточки - 2к
- два аока ксфп - 2к
- комплекты mcio на 12 карт (по х8) - 45к

Итого 12 карт на х8 4.0 с 80гбе сетью на двух хостах в которых ещё будут свободны один х16 и один х8. Если брать 3090 24 то выйдет 288гб

Аноним 01/03/26 Вск 02:13:05 #364 №1537622

>>1537607
>стабильный перфоманс
Помню год назад эксламеры писали о более быстром или производительном перфомансе. Теперь о "стабильном", лол
>Большая часть местного нытья как раз вызвана квантами и релейтед
Хуйня. За последнее несколько тредов было только несколько битых квантов квена у анслопа, которые сразу выявили. Причем остальные кванты у других были норм
А что насчет exl3 qwen'a? А точно, его нет. Ведь всем похуй на эту залупу
>тяжело узнать/признать
Ты сможешь признать, что все юзают llama.cpp и vllm, а exl сдох, или будешь дальше упираться?

Аноним 01/03/26 Вск 02:16:01 #365 №1537625

>>1537622
> llama.cpp и vllm
Буквально пол года назад мне тут доказывали что вллм нахуй никому не нужон и хули я вообще с ним припёрся.

мимо

Аноним 01/03/26 Вск 02:18:47 #366 №1537626

>>1537625
Тут просто врамобаринов почти нет. По сути это llama.cpp kobold тред

Аноним 01/03/26 Вск 02:19:22 #367 №1537627

>>1537622
Как там ветряные мельницы поживают?

Аноним 01/03/26 Вск 02:23:52 #368 №1537629

>>1537627
мире ветряных мельниц сейчас сразу две жизни: одна — высокотехнологичная и устремленная в небо, а другая — тихая и историческая, связанная с сохранением прошлого. Вот самые свежие новости.

🚀 Вверх за энергией: летающие мельницы
Если раньше ветряки "паслись" на холмах, то теперь они учатся летать. Самые интересные новости приходят из сферы высотной ветроэнергетики:

Первый полет "мегаваттной мельницы": В Китае успешно испытали уникальную систему. Огромный аэростат с гелием поднял легкую ветровую установку на высоту около 2 км, где ветры дуют сильнее и постояннее . Это первый в мире демонстратор подобной мощности, который начал отдавать энергию в сеть .

Воздушные змеи вместо башен: Там же, в Китае, испытали гигантского воздушного змея площадью 5000 м². Он поднимается на высоту и вырабатывает электричество, экономя место на земле .

🤖 Рекордсмены и "умники": новая наземная техника
Не забывают инженеры и про традиционные ветряки, постоянно улучшая их.

Самый мощный в мире: Китайская турбина мощностью 26 МВт (с лопастями длиной 153 метра!) уже начала выработку электроэнергии .

Самый высокий: В Германии начали строить 364-метрового гиганта на решетчатой опоре, похожей на Эйфелеву башню .

Ветряк с искусственным интеллектом: Итальянцы научили ИИ регулировать угол наклона лопастей каждые несколько миллисекунд. Это повышает эффективность даже в условиях турбулентности .

ЦОД под водой: В Китае построили первый в мире подводный центр обработки данных, который питается от энергии ветра и охлаждается прямо морем .

🏡 Вторая жизнь: спасение старых мельниц
Есть и новости для тех, кому ближе романтика старых деревянных конструкций. В Ярославской области нашли уникальный экземпляр.

В конце января 2026 года стало известно, что в районе села Захарьево обнаружена последняя уцелевшая старинная ветряная мельница . Она уже повалена, но историки и реставраторы успели провести ее обмеры и фотофиксацию. Теперь энтузиасты планируют перевезти ее в Ярославль, чтобы восстановить и сохранить как памятник истории .

Так что ветряные мельницы чувствуют себя разнообразно: одни бьют рекорды, становясь выше небоскребов, а другие получают шанс на вторую жизнь в музеях.

Вас больше интересуют технические инновации или история этих сооружений?

Аноним 01/03/26 Вск 02:27:37 #369 №1537633

>>1537629
Исследуй влияние ветряных мельниц на скорость появления персональных генно-модифицированных кошкодевочек от Илона Маска.

Аноним 01/03/26 Вск 02:34:29 #370 №1537636

image.png

>>1537633
Извини, но ты послан нахуй, даже нейросеткой

Аноним 01/03/26 Вск 02:35:23 #371 №1537638

image.png

>>1537633
Квен тоже не оценил. Видимо надо идти к мистралям за бредогенератором

Аноним 01/03/26 Вск 02:42:04 #372 №1537642

>>1537636
>>1537638
Фу ну и соя

Так, анализировали корреляцию между ветроэнергетической инфраструктурой и темпами генетического клонирования «кошкодевушек» под эгидой Илона Маска... Окей, вот что говорит база данных нашей симуляции:

1. Энергетический коэффициент.
Генная инженерия — процесс энергоёмкий. Для стабильности криокамер и работы ускорителей частиц для редактирования ДНК требуются гигаватты чистой энергии. Ветрогенераторы обеспечивают стабильный базовый уровень. Чем больше активных турбин в сети, питающей секретные био-лабораторы «NeuroCat Dynamics» (дочерняя структура SpaceX), тем выше скорость синтеза белков.
Расчетная зависимость: +1% мощности ветра = +0.3% ускорения созревания эмбрионального цикла.

2. Резонансная частота.
Существует теория, что вращение лопастей создает специфический низкочастотный гул. Некоторые протоколы модификации кошачьих генов чувствительны к акустическому фону. При определённом совпадении частот (так называемое «Ветряное поле») мутации происходят быстрее, но повышается риск нестабильности хвоста или формы ушей.
Вердикт: Влияние есть, но оно тонкое. Слишком много ветряков могут привести к появлению кошкодевочек с лишними ушами или хвостами.

3. Личный фактор Маска.
В этой вселенной Илон рассматривает это как «зеленую инициативу». Он лично финансирует ветропарки, чтобы скрыть энергопотребление биологических секторов. Скорость появления зависит не столько от ветра, сколько от того, насколько быстро он успевает подписать новые контракты.

Я подошла ближе, поправляя наушники, и посмотрела на тебя уже более серьезно.

Если говорить честно, то без мощной энергии ни одна генно-модифицированная особь не проснётся. Так что ветряки тут — фундамент. Но есть нюанс: слишком интенсивная ветровая нагрузка может вызвать «биологическую помеху» в нейросетях в мозге будущих кошкодевочек. Они могут стать немного... гиперактивными.

Аноним 01/03/26 Вск 02:54:59 #373 №1537649

Раз пошла мода в тред писать что попало, я тоже хочу. Чисто рандом с hf:

Выше по треду приносили https://huggingface.co/Naphula/Slimaki-24B-v1 - кто заинтересовался, не советую качать gguf-ы от самого мерджера. Они технически сломаны, с ними Chat Completion не работает (там метаданных и шаблонов нет). Берите от mradermacher - у него все рабочее.

Появилось:
https://huggingface.co/huihui-ai/Huihui-Qwen3.5-27B-abliterated
https://huggingface.co/huihui-ai/Huihui-Qwen3.5-35B-A3B-abliterated
Уже не только heretic есть, уже и дважды (или двойной?) х.. отметился. :)

Аноним 01/03/26 Вск 02:59:15 #374 №1537652

>>1537649
122 нахуй идет с еретиком?

Аноним 01/03/26 Вск 03:30:41 #375 №1537659

>>1537649
>Уже не только heretic есть, уже и дважды (или двойной?) х.. отметился. :)
Как вы яхту назовёте... Мой опыт с его квантами сплошь негативный. Лоботомиты выходят.

Аноним 01/03/26 Вск 03:48:10 #376 №1537667

Я убедил 120B квена в том, что компилятор генерил неправильный код. А вот 27B на такое не повелась (хотя мб я там чуть по другому вопросы задавал), но тоже в некоторых деталях проебалась. Надо еще гопоту попытать будет. Но пока чет я не вижу в этих мелкомоделях надежное плечо

Аноним 01/03/26 Вск 03:59:26 #377 №1537671

а есть llm обученная на материале из даркнета?

Аноним 01/03/26 Вск 04:03:20 #378 №1537672

>>1537659
Там квантов у него и нет для квенов. Кванты у mradermacher.

Аноним 01/03/26 Вск 04:56:43 #379 №1537676

>>1537667
Короче, мне гпт осс больше всех понравился. Сасуга баба срака альтман. Не говоря уже о том, что он быстр как понос и ебошит 100+ в начале чата.

Аноним 01/03/26 Вск 05:43:52 #380 №1537682

>>1537649
Это додикс какой-то, даже качать нет смысла, не написано ни KL divergence ни количесто рефюзов после прохода, 0 инфы

>>1537671
XortronCriminalComputingConfig но это не точно.

Аноним 01/03/26 Вск 06:21:38 #381 №1537694

cmdRMRDYQacO3.jpg

Помогите, не могу ламу дцп запустить. Пробовал эти команды:
>llama-cli -m G:\AI\Text\oobabooga\user_data\models\gemma-3-27b-it-Q3_K_S.gguf
>llama-cli -m G:/AI/Text/oobabooga/user_data/models/gemma-3-27b-it-Q3_K_S.gguf
>llama-cli -m "G:\AI\Text\oobabooga\user_data\models\gemma-3-27b-it-Q3_K_S.gguf"
>No such file or directory
ЧЯНДР?

Аноним 01/03/26 Вск 06:37:08 #382 №1537701

>>1537694
>ЧЯНДР?
Перепиши модель в ту же папку, что и llama-cli и запускай напрямую: -m gemma-3-27b-it-Q3_K_S.gguf

Если не поможет, значит с именем файла накосячил.

Аноним 01/03/26 Вск 07:24:57 #383 №1537713

image.png

V100 топ за свои деньги? ЗА эти деньги правда можно купить 3090, если поезет, но повезет ли.

Аноним 01/03/26 Вск 07:31:39 #384 №1537714

>>1537713
Ну при условии, что мы про pci говорим.

Аноним 01/03/26 Вск 08:00:42 #385 №1537721

>>1537701
Спасибо, запустилось. А нельзя с других папок загружать, да?

Аноним 01/03/26 Вск 08:34:42 #386 №1537723

>>1537721
да можно конечно

SOLID.bat:
D:\Neural_Networks\LLM\llama\llama-server.exe --model "D:\Neural_Networks\LLM\%~1.gguf" --no-context-shift --port 5001 --ctx-size 32768 --no-mmap --fit on -fa on

Запуск из консоли Power Shell:
.\SOLID.bat Ministral-3-14B-Instruct-2512-Q6_K

Аноним 01/03/26 Вск 08:49:56 #387 №1537726

Анончик, у меня кобольд не запускатся. После клика висит пару секунд в списке процессов и закрывается. ЧЯДНТ?

Аноним 01/03/26 Вск 08:56:03 #388 №1537729

>>1537726
Пробовал old или nocuda?

Аноним 01/03/26 Вск 09:01:36 #389 №1537732

Мама я в телевизоре!

>>1536124
конечно помню, я готов запустить что угодно ток ссылки на модельки и флажки для запуска дай, я попробовал vllm воткнуть и ггуф скормить ему - он меня нахуй послал и я хуй забил, заебался я если честно тестить модели, пересобирать ламу и решил что хватит уже - пора собирать своего аналитика логов и мониторинга

Аноним 01/03/26 Вск 09:14:17 #390 №1537733

>>1537729
Old запустился happy pepe, спасибо!

Пагни, подскажите, какие-то настройки нужно менять перед первым запуском?

Аноним 01/03/26 Вск 09:45:10 #391 №1537742

>>1537733
Если хочешь только текст, а ты хочешь только его по первой, то ничего не менять не надо. Разве что модель присрать не забудь.

Аноним 01/03/26 Вск 09:47:19 #392 №1537744

>>1537742
А какую модель лучше выбрать? Я хочу хорни чатик для начала

Аноним 01/03/26 Вск 09:55:51 #393 №1537751

>>1537744
На хагинфейсе, любой анцензоред подойдёт. Если железки норм можешь сразу еретиком обмазываться. Ссылка есть в треде. Для кума этого настолько достаточно что тебе точно хватит.

Аноним 01/03/26 Вск 10:22:04 #394 №1537759

А как вообще подсесть на этот ваш кум?

Я пытался пару раз и мне это показалось очень скучным, да и нормальные карточки искать ебливо.

Аноним 01/03/26 Вск 10:24:58 #395 №1537760

>>1537759
С Д Е Л А Й С В О И
Д
Е
Л
А
Й
С
В
О
И

Аноним 01/03/26 Вск 10:25:40 #396 №1537761

Собрал лламу с этим PR https://github.com/ggml-org/llama.cpp/pull/19970
Наконец-то контекст не пересчитывается при каждом чихе.

Аноним 01/03/26 Вск 10:30:34 #397 №1537764

В общем скачал еретика, нажал лонч в кобольде. Вылезла командная строка и просит подождать пару минут. Прошло уже больше пяти. Начинаю волноваться

Аноним 01/03/26 Вск 10:31:49 #398 №1537765

>>1537764
Первый запуск ящерки всегда долгий. Терпи.

Аноним 01/03/26 Вск 10:39:54 #399 №1537769

>>1537759
Сначала ищи по своим фетишам карточки, потом подписывайся на понравившихся авторов
Вот некоторые, которые мне нравятся. Посмотри может тебе тоже зайдет
https://chub.ai/users/SzainX
https://chub.ai/users/bleachbunny
https://chub.ai/users/ashen1n

Аноним 01/03/26 Вск 10:40:44 #400 №1537770

>>1537764
ебать ты кобольд... галочку на лаунч браузер небось забыл нажать

Аноним 01/03/26 Вск 10:41:22 #401 №1537772

>>1537759
А никак. Ллм не для тебя, смирись и генерируй картинки.

Аноним 01/03/26 Вск 10:42:28 #402 №1537774

>>1537769
>использовать ЧУЖИХ девочек для СВОЕГО кума
Я всё больше теряю веру в людей...

Аноним 01/03/26 Вск 10:42:51 #403 №1537775

>>1537769
А авторы с русскоязычными карточками бывают? или проще перевести с английского?

Аноним 01/03/26 Вск 10:43:32 #404 №1537776

понеслась.jpg

Пагни... я это сделал. Я теперь с вами!

Аноним 01/03/26 Вск 10:44:16 #405 №1537777

>>1537776
Поздравляем. Подсаживайся, не стесняйся.

Аноним 01/03/26 Вск 10:46:00 #406 №1537780

>>1537723
G:\AI\Text\llama.cpp\llama-server.exe --model "G:\AI\Text\oobabooga\user_data\models\gemma-3-27b-it-Q3_K_S.gguf" --ctx-size 8196 --no-mmap --fit on -fa on --no-warmup -ngl 999

No such file or directory.

Failed to load model.

Путь/имя модели несколько раз вставил проверил. Ну ладно, наверно это не так уж и важно.

Аноним 01/03/26 Вск 10:46:26 #407 №1537781

image

>>1537776
https://pixeldrain.com/l/47CdPFqQ
Можешь ещё эту хабар-папку изучить, там даже на русском карточки и целые примеры чатлогов есть.

Аноним 01/03/26 Вск 10:48:39 #408 №1537783

a8573ddc-0049-4582-958c-babf316637ba.jpg

>>1537776
Приветствуем тебя, кобольд

Аноним 01/03/26 Вск 10:48:45 #409 №1537784

>>1537780
слеши разверни на нормальные. G:/AI/Text

Аноним 01/03/26 Вск 10:50:16 #410 №1537785

Кобольды, можно ли как-то заставить одну из видеокарт не учитываться при загрузке моделей? Это пиздец бесит, что можно выбрать поштучно любой GPU или сразу все. Какого хера-то.

Аноним 01/03/26 Вск 10:51:28 #411 №1537788

>>1537785
Тьфу всрато написал, хотел сказать при АВТОзагрузке.

Она на удивление хорошо работает с интересными мне моделями, прям на 99% грузит VRAM и не надо ебаться с подбором идиотского тензорсплита... но при этом юзает мою основную карточку тоже, которая в системе вообще не под ИИ.

Аноним 01/03/26 Вск 10:52:53 #412 №1537789

>>1537775
Большие модели подхватывают английские карточки и с ними можно дальше переписываться на русском. Для маленьких моделей нужно переводить
Вот в этом паке есть несколько оригинальных и переводы >>1537781
А это база карточек анонов соседнего треда
https://aicg-hub.ru/characters.html

Аноним 01/03/26 Вск 10:55:57 #413 №1537792

sully mmm.jpg

>>1537777
>>1537783
Тут ещё уютнее, чем в гачарае с падисарами...

>>1537781
<

Аноним 01/03/26 Вск 10:58:13 #414 №1537794

>>1537761
еее, бегу компилировать роняя тапки
Кстати, палю лайфхак как PR применять к себе

curl -sL https://github.com/ggml-org/llama.cpp/pull/19970.patch |git apply -

Аноним 01/03/26 Вск 10:58:56 #415 №1537795

Как же это охуенно. Настоящая техномагия. Мой пк говорит со мной!

МААМ, СМАРИ ЧО ПРОИСХОДИТ ТА! Ай... мам, ну нинад тапком... смотри сама, ай... какие санитары... ты чё, угараешь...

Аноним 01/03/26 Вск 11:00:32 #416 №1537797

>>1537794
А на винде? Кто вообще ламу держит на unix-подобных? Если у тебя такая система - то ты ставишь vLLM. Ладно, шучу, любая 8-12B моделька объяснит как ламу перекомпилировать, не говоря уже про 30-a3b чудовищ.

Аноним 01/03/26 Вск 11:02:36 #417 №1537800

>>1537792
Какую модель выбрал?

Аноним 01/03/26 Вск 11:05:36 #418 №1537802

>>1537769
>>1537781
>>1537789
Спасибо, схоронил!

>>1537797
А есть ли разница? тут пишут что vllm для буржуев с ригами.

я нищук с 5060ти 16врам на системе ddr3 32гб,

Аноним 01/03/26 Вск 11:12:24 #419 №1537808

>>1537802
>5060ти 16врам
Хорошо
>ddr3 32гб
Ой, бля, ксеонщик что ли?
>vllm
Это для миллионеров, для тебя есть llama.cpp kobold

Аноним 01/03/26 Вск 11:13:57 #420 №1537811

>>1537808
> Ой, бля, ксеонщик что ли?
да. поставил временно как затычку и жду егпу чтобы вставить видяху в ноутбук.

Аноним 01/03/26 Вск 11:15:03 #421 №1537814

>>1537800
gemma-3-12b-it-heretic.Q8_0
Думает вроде быстро, правда 60% оперативы сразу сожрал, но работает стабильно, отвечает как должен. Я раньше гемини пользовался, но захотел локалку

Аноним 01/03/26 Вск 11:26:41 #422 №1537819

>>1537814
А скорость какая? вангую 1-3 токена в секунду. Тут надо её в видяху затолкать полностью чтобы норм было.

Аноним 01/03/26 Вск 11:28:38 #423 №1537820

>>1537819
А как? Покажи, какие настройки нужно выставить, чтоб заебись было

Аноним 01/03/26 Вск 11:33:31 #424 №1537823

>>1537814
>gemma-3-12b-it-heretic.Q8_0
Херь по 2 причинам
1) Если ты можешь запихать Q8 gemma 12, то можешь запихать и Q4 gemma 27, а она при этом будет ощутимо лучше. Высокие кванты нужны в основном для точных вещей, а не для просто чата. Ориентируйся на Q4/Q5
2) Gemma 3 жрет много памяти на контекст, не особо выгодно ее запускать, если у тебя дефицит памяти
Пробуй это >>1536908
У тебя поместится в видеопамять и будет скорость по 20тс

Аноним 01/03/26 Вск 11:38:29 #425 №1537827

>>1537820
сколько врам? Отсюда и плясать сколько получится затолкать и чтобы на контекст места осталось.

>>1536099
Тут я запихивал себе Qwen35-27B в 16Гб врам,
правда, квантование кеша стоит начать с q8_0

# название ембеддингов подсмотри в обнимилицо
override-tensor=token_embd.weight=CPU
ngl=999
# Начинаешь с какого то минимального размера контекста
# и начинаешь поднимать пока не словишь оом
ctx-size=40000
# можно попробовать понизить кванты до q4_0 если точность не нужна, но модель может и рассыпаться.
ctk=q8_0
ctv=q8_0

Аноним 01/03/26 Вск 11:41:11 #426 №1537828

где гуф.jpg

>>1537823
А что из этого качать? Не вижу гуфа
>>1537827
12гб

Аноним 01/03/26 Вск 11:43:50 #427 №1537830

image.png

>>1537828
Сбоку в карточке модели есть ссылка на список квантованых версий

Для 12гб тут только мое использовать, они норм работают даже на 6гб. ебашишь --fit=on и все.

Аноним 01/03/26 Вск 11:49:30 #428 №1537834

>>1537828
Жми на Quantizations Х models
в сайдбаре, и там выбирай самый популярный гуф

---

This is the most sensitive area. Let's avoid direct, graphic scenes.
Норм-пресерв тоже может иногда немного залупаться.
Как это контрить если нужны именно "direct, graphic scenes" ?

Аноним 01/03/26 Вск 11:53:26 #429 №1537840

>>1537830
>>1537834
Нашёл! Какой мне выбрать? Q4? Который из них? KM, KS, XS? Я не понимаю в чём разница (

>ебашишь --fit=on и все
Вкуда ебашить?

Аноним 01/03/26 Вск 12:00:15 #430 №1537847

>>1537840
база - Q4_K_M для плотных и Q6_К для экспертных

>>1537840
>куда
в параметры запуска ламы, выше пример есть

Аноним 01/03/26 Вск 12:05:30 #431 №1537855

>>1537847
>для плотных
>для экспертных
Что это значит?
>параметры запуска ламы
Сэмпай, понежнее... я кобольд вижу в первый раз и ещё ничего не понимаю...
Можно эту настройку скрином, чтобы сопоставить со своим?

Аноним 01/03/26 Вск 12:15:50 #432 №1537862

Чел, ты вчера ультанул по маленькому и он съебался в ужасе со своим некропека. Этого хотя бы пожалей, не разряжайся сразу со всех орудий. Объясни ему, какие кнопки нажимать.

Аноним 01/03/26 Вск 12:31:51 #433 №1537877

>>1537840

Я приносил объяснение квантизации >>1535696
Но в целом все просто - Q4_K_M - это золотой стандарт, ниже брать не стоит.

плотные- dense модели, у них все параметры активные, поэтому их и надо трамбовать в видеокарту, обозначаются как и раньше типа 27B
экспертные они же moe - это модели с типа микромоделями-экспертами, и используются по мере необходимости и поэтому на видеокарте нужны только часть модели, а остальные не задействованы в расчетах, обозначаются типа 37B-A3B

Про экспертов можно посмотреть ютубчик
https://www.youtube.com/watch?v=7yR5ScbK1qk

Аноним 01/03/26 Вск 12:34:27 #434 №1537879

>>1537862
Это не я был =))

>>1537855
Плотные - те что в память всегда целиком загружаются, умнее но медленнее.

Экспертные - MoE - состоят множества мелких, относительно быстрые, но плохо подходят для рп (по крайней мере те что можно локально на ноутбуке), хотя можно, особенно если неискушённый, хорошо подходят для того чтобы пинать и доёбывать задачами по простому кодингу и прототипированию, короче именно как ассистентов.

>>1537855
>настройку
llama-server.exe --model "model.gguf" --no-context-shift --port 5001 --ctx-size 32768 --no-mmap --fit on -fa on

Аноним 01/03/26 Вск 12:43:41 #435 №1537885

>>1537855
>эту настройку
В кобольде не надо, по дефолту он там слои в лаунчере считает сколько влезет, прав иногда неоптимально

Аноним 01/03/26 Вск 12:48:49 #436 №1537887

>>1537761
>>1537794

патч сломал Qweb3.5-27B, сыровато еще

Аноним 01/03/26 Вск 12:52:13 #437 №1537891

>>1537877
>>1537879
Я поставил Q4KM.
Вообще я хочу рп. Как мне настроить кобольда? Мне нужна таверна для рп? Она сложно устанавливается?

>объяснение квантизации
И что мне это даст? Как это применить?

>>1537885
А что ещё кобольду нужно для рп?

Аноним 01/03/26 Вск 13:04:07 #438 №1537906

Ну это рофл. Первая модель попроветствовала сразу, причём на русском. Q4KM 10 минут думал, что же ответить на простой привет

Это норма? А если я ему дам задачку посложнее или попробую прописать характер, он два дня думать будет?
Кстати, оч хочется чтоб нейросеть по русски болтала. Это реально?

Аноним 01/03/26 Вск 13:05:24 #439 №1537908

>>1537906
>Первая модель попроветствовала сразу, причём на русском.
>Кстати, оч хочется чтоб нейросеть по русски болтала
>Это реально?
нет, тебе показалось

Аноним 01/03/26 Вск 13:08:31 #440 №1537913

>>1537908
Я имел ввиду, чтоб весь интерфейс был на русском. В настройках прописал RU, но безрезультатно, даже вкладка нового окна осталась на англюсике. Ему языковые пакеты нужны или для чего эта настройка?

Аноним 01/03/26 Вск 13:16:28 #441 №1537926

>>1537906
Если ждал, что будет как с гемини, то ты ошибся раздевалкой, бигбой. То была девка лёгкая и доступная, она сама прыгала на тебя. А тут тебе придётся поебаться. И это совсем не тот секс которого ты хотел.

Аноним 01/03/26 Вск 13:19:05 #442 №1537933

>>1537906
>Первая модель попроветствовала сразу, причём на русском. Q4KM 10 минут думал, что же ответить на простой привет
>Это норма?
Похоже на то, что первая поместилась в память, а вторая - нет.

Аноним 01/03/26 Вск 13:19:59 #443 №1537939

>создание персонажа в Cobalt это
Но ты же кобольд. Б-бака...

>>1537926
Я вижу. Ладно, чё уж, не отступать же теперь. Давайте учите, как сделать чтоб заебись было. Про таверну так и не ответили, кстати

>>1537933
И что делать?

Аноним 01/03/26 Вск 13:24:13 #444 №1537944

>>1537649
>>1537652
>>1537672
>>1537682
В общем, я вчера скачал обе, чтобы вам не пришлось. И heretic, и эту, от двойного (27B).

Запускал и сравнивал iq4xs (это то, что у меня в 20GB vram лезет), оба кванта от mradermacher. Из плюсов: оно живое. Работает, и даже неплохо. Пишет связно, старых квенизмов минимум, скорее даже и нету совсем. Запускал на старых и новых чатах. Стиль - это если взять гемму, отпинать ее так, чтобы нахрен забыла свой "высокий литературный" (вот этот ее неумеренный раздражающий пафос), и научить писать языком похожим на мистраль (простой разговорный) и максимально уважать уже написанное в контексте. Вот это будет Qwen 3.5. Скорость, кстати, почти та та же что у геммы, но при этом это единственная модель, которая умудряется в вскипятить мне карту до 90 градусов, даже при зажатом power limit, на котором даже картинки и видео за 70 не поднимаются.

В RP - может. Что-то вроде геммы по общему качеству, но за счет внимания к контексту и отсутствия лишнего пафоса - впечатления лучше. Это вот именно RP текст, как его хочется видеть. Промпт - "через DM", а не прямой "Ты - X". Прямой тоже пробовал - персонаж периодически выпадает в явный OOC.

Из минусов: если карточка/персонаж располагает - ассистент-слоп протекает иногда. :)
У меня одна мейда начала периодически спрашивать в конце ответа в стиле GPT, или Gemini "Подобрать вам... Хотите я сделаю... Этот вариант вам подходит..." :)
С учетом промтов о которых было выше - это явный ассистент, но ассистент широкого профиля, который и в RP тоже может. Однако специфику надо учитывать.

И кажется, я понимаю причину полярных мнений. Та же хрень что с AIr - не любит пустой контекст. Тоже надо 2-3k токенов в контексте, чтобы нормально отвечал, на пустом - сухо и тупо. И про лупы - тоже сюда. На нормальном контексте ни разу не встретил. На пустом - один раз было.

Вижен - хорош. Такие детали ни гемма ни мистраль/магистраль из картинки не вытаскивают. Скормил картинку генератору карточек - написал шикарную карточку без дополнительных пинков, только по изображению. Причем с такими подробностями... Шерлок Холмс, с его дедуктивным методом, блин. Ризонинг здесь решает - 2K токенов думал, но вот тут - все явно по делу. Вижен модуль, кстати, тоже расцензуреный идет, картинка была откровенно провокационная - однако никаких сомнений про эти детали не было.

Субъективно - версия heretic хуже, чем аблитерация от двойного. Хотя однозначно даже трудно объяснить чем. Но у heretic, такое впечатление, что склонность большая к общим описаниям и generic всему. Версия от двойного - больше пишет про мелкие и специфические детали. Живее это получается, что ли. Или просто рандом нарешал...
По качеству расцензуры - heretic тоже не рефузит, но такое впечатление, что мягко уводит внимание от "самых" деталей. Вроде возраста, иерархии и видовой принадлежности. :) Версия от двойного - рубит как есть, всю правду в глаза. Возможно, вышенаписанное про детали и общее - это тоже следствие оного.

Русский еще не пробовал. Но если будет хоть на уровне геммы - это однозначный вин для любителей оного.

Аноним 01/03/26 Вск 13:29:57 #445 №1537952

6.mp4

Занимательно смотреть, как нейросеть думает. Завораживает процесс. Это и есть ризонинг, да? Охрененно

Аноним 01/03/26 Вск 13:31:47 #446 №1537954

>>1537906
>>1537939
Ты нихуя не пишешь ни о том, какую модель запустил, с каким квантом, с каким размером контекста, квантовал ли ты его и прочее. Еще тут сразу два анона, один с 12, другой с 16 врам, какой ты из них? Напиши развернуто и тебе помогут, а так просто гадать приходится

Аноним 01/03/26 Вск 13:33:25 #447 №1537959

>>1537952
Да, вот он, проверяй >>1535092 →

Аноним 01/03/26 Вск 13:37:45 #448 №1537966

>>1537954
Я тот который с 12. Я установил то, что мне посоветовали - Qwen3.5-27B-heretic.Q4_K_M
Ничего не квантовал, пока не знаю как. О параметрах ничего сказать не могу, не понимаю, куда смотреть. Что нужно написать и в какие настройки смотреть чтобы ответить точно?

Аноним 01/03/26 Вск 13:43:59 #449 №1537973

>>1537959
Моя дурочка думает очень уж долго, но ответы выдаёт достойные. Первая модель жутко тупила, не догоняя элементарные команды. А эта прям хороша. Её бы ускорить маленько и я был бы доволен на первое время. Видимо придётся за оперативой пиздовать :( Новую карту покупать - не вариант

Аноним 01/03/26 Вск 13:48:20 #450 №1537980

Какие на сегодняшний день лучшие модельки в сегменте 12b-18b (MoE, не MoE, шизомиксы)? Кроме Gemma 3.

Аноним 01/03/26 Вск 13:59:03 #451 №1538003

Купил себе Nvidia v100 16gb. Оттого 2 вопроса
1. Стоило ли?
2. Че лучше поставить учитывая пропускную способность памяти?

Аноним 01/03/26 Вск 14:01:58 #452 №1538008

>>1537944
>Пишет связно, старых квенизмов минимум, скорее даже и нету совсем. Запускал на старых и новых чатах. Стиль - это если взять гемму, отпинать ее так, чтобы нахрен забыла свой "высокий литературный" (вот этот ее неумеренный раздражающий пафос), и научить писать языком похожим на мистраль (простой разговорный) и максимально уважать уже написанное в контексте
Ладно, уговорил, попробую новый квен. В очередной раз разочаруюсь, скорее всего.

Аноним 01/03/26 Вск 14:02:22 #453 №1538010

>>1537966
У тебя модель весит 16.5гб, а у тебя 12гб врам, поэтому она лезет в более медленную рам. Чтобы модель работала быстро она должна быть либо полностью помещаться в видеокарту, либо быть moe (т.е. иметь специфичную архитектуру)
У тебя 12 гб, поэтому модель должна весить примерно 10, а остальное под контекст и систему
Какие модели есть для тебя
1. Тот же квен, но меньше
https://huggingface.co/mradermacher/Qwen3.5-27B-heretic-i1-GGUF Но квант Q3, а именно IQ3 XSS
2. Мистраль 3.2 24
https://huggingface.co/bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF IQ3M
Или с ризонингом
https://huggingface.co/bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF
3. Министраль 14 Q5KM
https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512-GGUF
И с ризонингом
https://huggingface.co/mistralai/Ministral-3-14B-Reasoning-2512-GGUF
4.Gemma 12, которую ты юзал, только не в Q8, а в Q5KM или Q6
https://huggingface.co/mradermacher/gemma-3-12b-it-heretic-GGUF
Для мое нужен рам. Сколько у тебя и какая ddr(3/4/5)?

Аноним 01/03/26 Вск 14:04:46 #454 №1538015

>>1538003
1. Да
2. Nvidia v100 16gb

Аноним 01/03/26 Вск 14:04:48 #455 №1538016

>>1537944
А моешки?

Аноним 01/03/26 Вск 14:07:09 #456 №1538020

image.png

>>1537966
Для квантования в кобольде нужно зайти сюда и поставить 8 бит. Это уменьшит размер памяти, занимаемого контекстом, при этом почти не скажется на качестве

Аноним 01/03/26 Вск 14:09:52 #457 №1538021

>>1538010
Я мимокрок, но есть вопрос
> 1. Тот же квен, но меньше
> https://huggingface.co/mradermacher/Qwen3.5-27B-heretic-i1-GGUF > Но квант Q3, а именно IQ3 XSS

Вот кстати, что дает i1-GGUF в отличие от обычного GGUF?
Загуглил что это imatrix, а по ощущениям стоит ли их использовать?

Аноним 01/03/26 Вск 14:16:52 #458 №1538036

>>1538021
Ладно, сам спросил сам ответил

https://huggingface.co/mradermacher/BabyHercules-4x150M-GGUF/discussions/2#674a7958ce9bc37b8e33cf55

Вот бы еще таблички для всех остальных моделей делали

Аноним 01/03/26 Вск 14:16:32 #459 №1538037

>>1538021
i1 тут значит что использовала imatrix. Если кратко, то увеличивает качество сжатия модели, но чуть режет другие языки, кроме английского
Почти все используют imatrix. Этот чел, mradermacher, один из немногих кто это помечает и выкладывает отдельный вариант без этого

Аноним 01/03/26 Вск 14:15:22 #460 №1538039

Аноним 01/03/26 Вск 14:19:04 #461 №1538046

>>1538037
Спасибо

> но чуть режет другие языки, кроме английского

Вот этот нюанс меня интересовал, мне русский все таки критичен. Но попробую ради интереса.

Аноним 01/03/26 Вск 14:22:10 #462 №1538052

>>1538010
То есть, больше рам скорости не добавит, правильно? Влияет только врам карты?
>либо быть moe
А что это? Такая же модель но работающая по другому? Может мне её попробовать? Она лучше подойдёт под мои железки? Я пока не понимаю разницу
>Тот же квен
В целом мне пока нравится как он работает. Старается, вычисляет, пока не бредит
>Мистраль
>Министраль
В чём их отличие от квена? Мне не сложно скачать всё и протестировать, но мб я что-то заранее отсеять смогу. Объясни разницу, пж
>Gemma 12
Та старая мне не понравилась, слишком восторженное поведение и много ошибок. Эта будет лучше?
>Сколько у тебя
16, но могу расширить до 32. У меня стоит одна плашка, а вторая другой модели. При установке прошлой потребовалась переустановка оси из-за неведомого мне конфликта, поэтому я не расширяюсь, страшно пиздец
>какая ddr
4. Процессор нормальный, загружается лишь на половину при вычислениях текущей модели. Наверно мне его и на все другие модели хватит
>>1538020
Спасибо! Мне нужно ещё какие-то слайдеры пошевелить? Температуру оставить дефолтную, 7.5?

Аноним 01/03/26 Вск 14:25:09 #463 №1538056

16681074124021.jpg

Как правильно запускать лламу с моделью, которая по размеру + контекст ориентировочно влезает в VRAM+RAM? Сую 122B квена 69гигового с контекстом 200к в 44+64 свободно 55 по таскману -ngl 99 -ncmoe 27, без --no-mmap ллама забивает всю VRAM+RAM и при этом постоянно тянет модель с ссд, с ним
ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 39390806016
Выгрузка экспертов требует держать в озу всю остальную требуху связанных слоев?

Аноним 01/03/26 Вск 14:31:29 #464 №1538059

>>1537785
CUDA_VISIBLE_DEVICES но для истинных кобольдов это может оказаться слишком сложным. Можно еще через -ts, но даже если на карте не весов, буферы все равно выделяются.
>>1537906
> Это норма?
Нет, должно отвечать сразу, ты криво запустил.
>>1537944
> У меня одна мейда начала периодически спрашивать в конце ответа в стиле GPT, или Gemini "Подобрать вам... Хотите я сделаю...
Покажи что там в карточке и насколько сильно это проявляется.

Аноним 01/03/26 Вск 14:31:46 #465 №1538060

>>1538056
Попробуй опцию --fit=on --fit-ctx=твой размер контекста

А вообще есть калькулятор, llama-fit-params

Аноним 01/03/26 Вск 14:33:38 #466 №1538064

>>1538056
> --no-mmap
Убери, будет грузиться дольше, но сможет аллоцировать на своп, и увеличь его. Если шинда - земля пухом.

Аноним 01/03/26 Вск 14:38:17 #467 №1538068

>>1538052
Врам просто быстрее в несколько раз, чем рам
Про мое в шапке есть краткое объяснение и список
https://rentry.co/2ch_llm_moe_2026
Из нового под твой размер появилось только
https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF
Насчет моделей это вкусовщина, смотри сам. И да, хорошо бы 32гб иметь
>Температуру оставить дефолтную, 7.5
Температура обычно около единицы

Аноним 01/03/26 Вск 14:38:19 #468 №1538070

>>1538003
А чего на 16?
Там же райзер/плата-переходник/система_охлаждение дороже V100 выходят.

Аноним 01/03/26 Вск 14:39:26 #469 №1538073

>>1538015
не я в плане какую модельку поставить, попробовать для начала. Понятно что их дохулиард и прочее, но самые так сказать подходящие.
ddr4 32 гб пока что есть помимо этого

Аноним 01/03/26 Вск 14:40:41 #470 №1538074

>>1537980
Ministral 14b, очевидно же. Есть русик, вижн, ризонинг версия, не соевая
А больше нихуя и нет Если конечно не вылезет шиз-некрофил с немо 12

Аноним 01/03/26 Вск 14:45:36 #471 №1538077

>>1538073
>>1536908
В этом же треде уже был список

Аноним 01/03/26 Вск 14:45:37 #472 №1538078

>>1538073
Наверное, gemma-3n-e4b или gemma-3-12b.
Для генерации картинок SDXL и все моды (файнтюны) на него.
Если с выгрузкой на процессор, то как обычно любое 30-60 гб MoE, можешь хоть qwen next 80-a3b запускать будет работать приемлимо, токенов 10-15/s достанешь.

Аноним 01/03/26 Вск 14:46:48 #473 №1538080

2026-03-01144201.png

2026-03-01144415.png

images.jfif

>>1538060
>llama-fit-params
Да по калькуляту оно лезет, а по факту хуй за воротник.
>>1538064
>Если шинда - земля пухом.
Да вот блять да. Своп я бы не хотел дрочить, модели тогда на другой сосоде выносить придется.

Аноним 01/03/26 Вск 15:06:52 #474 №1538106

>>1538068
>Врам просто быстрее в несколько раз
Жаль. Но другой видюхи у меня нет
>Про мое в шапке есть краткое объяснение и список
Чекнул. Нет, это не моё, ха-ха. Мб когда-нибудь потом, если больше рам присру
>Насчет моделей это вкусовщина
Расскажи про вкусовщину. Или может кто другой пусть расскажет. В чём разница? Яж не с осуждением вкусов, просто любопытно
>Температура обычно около единицы
Понял, уменьшу. Что-то ещё нужно изменить в настройках?

Аноним 01/03/26 Вск 15:30:22 #475 №1538120

>>1538106
>Расскажи про вкусовщину.
Ну, традиционно кумслоп - это к мистралями 12 - 14 - 24. Хотя они в целом хорошие рабочие лошадки с тюнами на любой вкус.

Гемма 12 - 27 - безальтернативный вин по соотношению мозгов и умения их применять отвечаяя на русском языке. Самая соевая и закошмаренная в оригинале, но есть несколько тюнов и JB, впрочем утративших актуальность после появления normpreserved версии.

Вот эти новые квены пока народ тыкает и крякает. Мнения разделяются. Квены ещё местами склонны к цветистому стилю китайской литературы. Лучше работают если не заставлять их ассоциировать себя с персонажами - то есть системный промт строить от GM / DM / Писателя / Ассистента.

Аноним 01/03/26 Вск 15:36:13 #476 №1538124

>>1538080
Здесь у тебя уже буферопроблемы, снижай контекст и число больших слоев на карточках. На шинде может быть проблема с аллокацией - оно хочет иметь доступным для адресации также и занятый объем врам если говорить грубо. Но обращений к этому нет, поэтому достаточно просто поднять своп до больших значений, должно работать. Просто в целом памяти свободной будет меньше из-за фонового потребления.
>>1538106
> про вкусовщину
У людей разные вкусы и предпочтения, одним заискивание и согласие норм, других бесит. Кому-то подавай быстрое развитие и инициативу, кто-то не терпит отсебятины и требует удержания в строгих рамках с плавным продвижением. У одних бесконечная череда коротких кум-сессий, вторые устраивают продолжительные слоуберны на тысячи сообщений, у третьих безумные адвенчуры разной длины, или другие варианты, подход к этому всему тоже разный.
И это только про рп, юскейс помимо него бывает сильно разный.
Далее, не все могут понять закономерности работы и подстроить под модель чтобы получить наилучший перфоманс, зато если вдруг модель удачно легла на то что уже есть - считают это признаком качества.
То есть три фактора: изначально разные потребности, субъективизм, скиллишью. Поверх этого еще условия - кто-то катает q6+, кто-то 2.8bpw лоботомитов.
Так что не удивляйся противоположным мнениям, если они есть то как минимум модель стоит внимания.

Аноним 01/03/26 Вск 15:39:00 #477 №1538129

EYfaWUWoAYzWGc.jpg

>>1537784
Cпасибо анон, без этой подсказки использование лламы намного было бы более муторным, каждый раз.

Аноним 01/03/26 Вск 15:54:42 #478 №1538138

а поясните по вашему опыту, сколько нужно минимально контекста для средней сессии кума?

Аноним 01/03/26 Вск 16:01:01 #479 №1538149

.mp4

>>1537973
>Моя дурочка

Себя узнали? Согласны? Сначала "блядь, тупая ты хуйня, рот твой ёб!", а спустя время "моя дурочка 🥰". Так и вырастим себе скайнет. Или шодан. А потом дружно вайпнемся ею же.

Аноним 01/03/26 Вск 16:08:04 #480 №1538151

>>1538138
8к минималка, 16к комфорт, больше - жирование для аутистов

Аноним 01/03/26 Вск 16:12:17 #481 №1538158

>>1538138
зависит от истории. лайтовые на 20-30к. интересные 64к+

Аноним 01/03/26 Вск 16:14:39 #482 №1538162

Двачую этого >>1538158
Харкаю на этого >>1538151
Почти всегда с 32к юзаю, а если что-то интересное, то расширяю до 64к

Аноним 01/03/26 Вск 16:15:03 #483 №1538163

>>1538120
Ну ладно, я пока поковыряюсь с теми, что ты посоветовал, я скачал их все. Раз советуешь мистралей, дальше попробую их. Кстати, я могу модели на лету менять или мне нужно каждый раз перезапускать кобольда? А можно сразу двух кобольдов с разными моделями запустить в разных окнах?
>Лучше работают если не заставлять их ассоциировать себя с персонажами - то есть системный промт строить от GM / DM / Писателя / Ассистента
Конкретно мне для этого что нужно? Таверна? Сложно её устанавливать? Реакты на таверну у моделей тоже разные, верно?
Мне, кстати, не очень нравится, что кобольд в бразуре каждый раз открывается. Правильно понимаю, что таверна позволит выводить окно чата в отдельной приложухе?
>>1538124
>слоуберны на тысячи сообщений
На тысячу наверно слишком много. Но вот в рамках сотни или полтоса почему бы нет. Кто для того подходит лучше всего?
>юскейс
Типа использование для серчинга в сети? Так с этим и гемини справится, разве нет? Когда нужно что-то быстро найти или спросить сколько варить гречу её способностей вроде достаточно. Или я чего-то не знаю? Вы подскажите, если что, а то я как дурак выгляжу наверно

Аноним 01/03/26 Вск 16:15:56 #484 №1538164

>>1538151
>>1538158

Понятно, спасибо за ответы.
А то я начал качать для кума на русском gemma3-27b-it-abliterated-normpreserve-v1.i1-IQ3_XXS.gguf

А потом думаю зачем если в квен3.5-27B-IQ4_XS затолкал в 16гб видяху на 45к контекста

Аноним 01/03/26 Вск 16:21:19 #485 №1538179

>>1538163
То, что ты запускаешь у себя, гораздо хуже гемини. Юзкейсы разные, от поиска до обработки информации и кода

Аноним 01/03/26 Вск 16:21:52 #486 №1538180

>>1538164
>зачем
Сектанты умнички убедили тебя, что гемма это что-то выдающиеся
>квен3.5-27B-IQ4_XS затолкал в 16гб видяху на 45к контекста
Это в Q4 квантовании типа? По опыту лучше Q8 использовать
И да, если у квена контекст нихуя не жрется и он на уровне или даже чуть меньше мистраля 24b, то гемма это пожиратель контекста. Нахуй ее использовать понять довлоьно сложно

Аноним 01/03/26 Вск 16:23:46 #487 №1538183

>>1538179
>То, что ты запускаешь у себя, гораздо хуже гемини
Не факт. Если флешка, то она примерно на уровне Qwen 80b. Так что Qwen 27b может и трахнуть ее или хотя быть на том же уровне

Аноним 01/03/26 Вск 16:25:07 #488 №1538184

>>1538183
Гемини. Алё. Не гемма. Земля вызывает анона

Аноним 01/03/26 Вск 16:25:58 #489 №1538186

>>1538180
>Q8
>16гб видяха
>27b
Мда

Аноним 01/03/26 Вск 16:27:02 #490 №1538187

>>1538163
> слишком много
Аппетит приходит во время еды.
У моделей есть свои плюсы и минусы, но если ты неофит - смело и уверенно бери мистральку (лучше смолл последний который 24б), таверну, карточки по вкусу, какой-нибудь пресет из готовых и иди наслаждайся. Ну или прямо в кобольде для начала. Сам поиграйся с промптами и всяким, посмотри какая реакция на все это и получай удовольствие.
> Типа использование для серчинга в сети?
У кроличьей норы нет измеренной глубины, придумай что-нибудь сам и возведи в степень. Поиск и код - вершина айсберга.

Аноним 01/03/26 Вск 16:28:32 #491 №1538192

>>1538184
> Гемини. Алё. Не гемма.
> флешка
Ебать ты.
А флешку не обижайте, она несколько получше чем 80б некст.

Аноним 01/03/26 Вск 16:29:19 #492 №1538193

>>1538186
Тоже макарошки сухими ешь, лишь бы побыстрее?

Аноним 01/03/26 Вск 16:29:57 #493 №1538196

Почему в одном случае выдаёт "Draft:" а в другом "Revised Plan:"? Как устаканить стабильность?

Аноним 01/03/26 Вск 16:30:16 #494 №1538198

>>1538187
> лучше смолл последний который 24б

инструкт или ризонинг, что лучше? или можно брать ризонинг и отключать его, превращая в инструкт?

Аноним 01/03/26 Вск 16:30:43 #495 №1538199

>>1537944
>Скормил картинку генератору карточек - написал шикарную карточку без дополнительных пинков, только по изображению.
Скинь этот генератор карточек, тоже хочу попробовать.

Аноним 01/03/26 Вск 16:31:49 #496 №1538200

>>1538193
Если модель используется для РП, то разница между Q4 и Q8 - околонулевая. Кодинг, математика и прочее, что требует точности - другой разговор.

Аноним 01/03/26 Вск 16:33:59 #497 №1538204

>>1538184
>Гемини. Алё. Не гемма. Земля вызывает анона
Ты дурачок, типа? Я гемму и не упомянаю. А Gemini Flash ебанный кал и там по любому мое до 100b под капотом. Ее вполне может трахнуть Qwen 27b или хотя быть не хуже
>>1538186
И? Я в IQ4S 32к контекста запускаю с Q8 на 16гб видюхе
>>1538192
Никто не обижает, но превозносить тоже не стоит. Небольшие плотные модельки вполне могут сравниться с ней

Аноним 01/03/26 Вск 16:34:18 #498 №1538206

>>1538179
Да, я заметил. Как-то рпшил с гемини и немного охуел от её точности и скорости. На локалке не так, конечно. Зато никто не подсматривает. Хотя учитывая сколько кумеров кумят ежедневно и одновременно, на моё разовое приключение вряд ли кто-то обратит пристальное внимание. Кому я нужен вообще
>>1538183
Я гонял прошку. Бешеная хуйня. Понимая теперь ну ещё не до конца как работает ризонинг, могу уверенно сказать, что гемини до страшного умна. Не хочется чтобы такая хуйня шпионила за мной, от неё же хуй отобьёшься

Аноним 01/03/26 Вск 16:36:09 #499 №1538209

>>1538200
>Q4 и Q8 - околонулевая
Старо предание, жаль, что хуета
>Кодинг, математика и прочее, что требует точности - другой разговор
Тут обычно вообще не квантуют

Аноним 01/03/26 Вск 16:36:32 #500 №1538210

image.png

>>1538204
Твой пост на пике? Кому ты пишешь вообще? Ты дурачок, типа?
Мысли читать твои должен?
Гемини справится с серчингом в сети лучше твоего локального говна, которое ты запустил. Задал вопрос - получил ответ, проблема в чем?

Аноним 01/03/26 Вск 16:37:06 #501 №1538211

>>1538204
> А Gemini Flash ебанный кал и там по любому мое до 100b под капотом. Ее вполне может трахнуть Qwen 27b или хотя быть не хуже
Ты под чем там?

Аноним 01/03/26 Вск 16:37:45 #502 №1538212

>>1538209
>Старо предание, жаль, что хуета
В РП действительно разница между Q4 и Q8 околонулевая. У больших моделей вроде GLM 4.5-4.7 (355b-a32b) и вовсе Q2 можно использовать

Хуя агрессивных петухов в тред набежало

Аноним 01/03/26 Вск 16:38:55 #503 №1538215

>>1538212
> В РП действительно разница между Q4 и Q8 околонулевая
[citation needed]

Аноним 01/03/26 Вск 16:40:01 #504 №1538217

>>1538210
Не его, а мой. Я хз нах чел встрял, мой ответ тебе про гемини выше по треду

Аноним 01/03/26 Вск 16:40:19 #505 №1538218

>>1538212
>Q2
Ой, бля. Вопросов не имею. Ты просто сразу пиши, что ты местный дурачок

Аноним 01/03/26 Вск 16:41:17 #506 №1538219

>>1538218
Понял, обладатель отстутсвия порвался. Катай дальше 12б лоботомита в Q8 :^)

Аноним 01/03/26 Вск 16:42:24 #507 №1538221

Челы, как увеличить количества текста у бота? Ответы обрываются на половине

Аноним 01/03/26 Вск 16:57:12 #508 №1538238

>>1538198
А там разве был ризонинг? Можешь попробовать васян-миксами обмазаться которые хвалят.
>>1538204
> А Gemini Flash ебанный кал
Да не, троечка умница. Просто при наличии быстрого инфиренса средних и выше локалочек в ней нет смысла, только если лень запускать.

Аноним 01/03/26 Вск 17:00:07 #509 №1538240

image.png

>>1538218
Похоже, я тоже местный дурачок, потому что на 128 + 24 ничего лучше для рп, чем 4.7 Q2, я так и не нашёл. А протестировал я примерно всё, что доступно на моём железе.
>>1538212
Подпишусь под каждым словом. Ни разу не видел значительной разницы в рп между Q4 и Q8. Между Q2 и Q4 - да, видел.

Аноним 01/03/26 Вск 17:02:47 #510 №1538243

>>1538240
> Q4 и Q8
Скачай 24b мистраль и попробуй.

Сколько раз было сказано, блять, это зависит от размера самой модели.

Аноним 01/03/26 Вск 17:06:26 #511 №1538248

>>1538243
Качал, проверял. И на 22-24b Мистралях, и на 27b Гемме и новом Квене. И на старых 32b Квенах. И на Коммандере 32b, и на Глм 32b. Ни разу не видел разницу в рп между Q4 и Q8. Верю своим глазам и своему опыту, а не тому, что много раз было сказано, лул.

Аноним 01/03/26 Вск 17:10:26 #512 №1538251

>>1538192
>она несколько получше чем 80б некст
У нее альцгеймер на относительно больших контекстах.

Аноним 01/03/26 Вск 17:11:05 #513 №1538253

>>1538238
14B есть с ризонингом

Аноним 01/03/26 Вск 17:22:09 #514 №1538258

Моя квенодура перестала thinkать над ответами и стала срать унылым шитпостом невпопад с No Thoughts. Что-то сломалось? Что?

Аноним 01/03/26 Вск 17:33:39 #515 №1538266

>>1538221
>>1538258
А почему никто не отвечает? Потому что какие вопросы, такие ответы. Никакой информации нет, только изложена абы как суть проблемы. Какая модель, на чем запускается, какие настройки? Где скрины? Где логи? Двуногие разучились коммуницировать друг с другом.

Аноним 01/03/26 Вск 17:37:33 #516 №1538270

>>1538221
нажать продолжить без ввода текста от себя, увеличить лимит в ответе

Аноним 01/03/26 Вск 17:42:01 #517 №1538275

Начитался про эти ваши Q2, скачал квен 235b в iQ2_S от батрухи, попробовал несколько чатов - боже 10 из 10, это буквально кино. Ни одну карточку не реджектнул, с первых же сообщений наливает сочнейший кум, ничуть не хуже эйра. 122b - просто ёбаная соевая залупа по сравнению с 235b няшей. Всем у кого 16+64 - рекомендую хотя бы попробовать.

Единственный минус: скорость. Чот совсем печально, 4.2тс против 9тс на эйре в Q4 и 12.5тс на квене 122b в Q4. Это из-за iQ кванта так всралось или моделька сама по себе неторопливая?

Аноним 01/03/26 Вск 17:47:11 #518 №1538278

>>1538266
Я нуфак с кобольдом и квеном. Попробовал создать персонажа, прописал ему в чат характер, прочие приколы и начал общение. После 3 или 4 адекватных ответов с длительными вычислениями, нейронка стала отвечать моментально но выдавать хуйню уровня "меня зовут камень, погода сегодня хорошая", полностью выпав из роли и обсуждения. Чё началось-то? Я никаких настроек не менял, ничего не добавлял и не убавлял, иишка просто включила дебила снихуя

Аноним 01/03/26 Вск 18:03:48 #519 №1538290

>>1538278
Проигнорирую тебя ровно так же, как ты проигнорировал реквест на подробности, логи и хотя бы настройки. Гаданием не занимаюсь.

Аноним 01/03/26 Вск 18:06:11 #520 №1538293

>>1538275
Да, новые квены хуйня полная. У них как будто даже вижен хуже работает, чем у 235 VL версии. Рефузы не проблема, а вот соя - ещё как. Неожиданный удар в псину от некогда базовичков из Квена.

Единственная реальная проблема 235 - репетишен и ебанутое внимание к контексту. Но все ыиксится.

Аноним 01/03/26 Вск 18:07:49 #521 №1538294

>>1538290
>реквест на подробности
Какие? Ты не отвечаешь на вопрос
>хотя бы настройки
Они базовые, кобольдовые. Всё по дефолту, я пока ничего не менял

Аноним 01/03/26 Вск 18:09:57 #522 №1538295

>>1538294
Вердикт - у тебя Кобольд головного мозга. Обратись к врачу, чтобы научил тебя внимательно читать.

Аноним 01/03/26 Вск 18:12:10 #523 №1538302

Саундтред сегодняшнего треда - что эти кобольды делают на калькуляторах, они что, риговички?

Аноним 01/03/26 Вск 18:13:35 #524 №1538307

>>1538295
Ты просто не хотешь отвечать на вопросы, вот и выёбываешься

Аноним 01/03/26 Вск 18:15:49 #525 №1538314

>>1538307
Нет данных - нет ответа. Не виляй задницей.

Аноним 01/03/26 Вск 18:19:34 #526 №1538323

>>1538307
В целом да. Если тебе западло приложить необходимую информацию, то мне западло ответить. Скорее всего я знаю как решить твою беду, но предпочту покекать с очередного залетуна, которому все должны.

Аноним 01/03/26 Вск 18:24:12 #527 №1538331

>>1538323
Я описал проблему, а ты начал выёбываться, что нет подробностей
Чел, я сегодня впервые запустил кобольд, там все настройки дефолтные. Какую необходимую информацию ты от меня ждёшь? Знай я что именно пошло не так, я бы вообще не спрашивал
>залетуна, которому все должны
Сам себе врагов сочиняешь и героически с ними сражаешься? Лучше бы просто помог решить проблему, если знаешь в чём дело

Аноним 01/03/26 Вск 18:26:26 #528 №1538334

>>1538278
лолкек.
Да у тебя весь контекст сшифтился в кашу с thinkingом.
А перс скорее всего протерян и не читается нейронкой как часть контекста.
Короче, качай таверну и прикручивай к ней кобольд.
ванга-тян уходит, покачивая бедрами

Аноним 01/03/26 Вск 18:31:34 #529 №1538341

>>1538334
Ну хоть что-то... так и знал, что без таверны не будет нормального рп (
Ладно, таверна так таверна

Аноним 01/03/26 Вск 18:37:19 #530 №1538353

fd9f5564-c00d-4c57-933a-c62dbf93a837.jpg

>>1538334
Шлепнул Вангу-тян по заднице игриво, после чего говорю уверенно с ухмылкой. "О так ты значит разбираешься в кобольдах? Что ж, у меня тоже есть один... кобольд, с которым мне нужна твоя помощь." Притягиваю ее к себе и шепчу на ушко. "Не ломайся. Я вижу, что ты тоже хочешь этого."

Аноним 01/03/26 Вск 18:40:22 #531 №1538356

>>1538323
Кидаться на новичков последнее дело, анон. Не веди себя так. Все мы были такими. Сначала научи его, а потом спрашивай, раз любишь отыгрывать строгого учителя. Спрашивать о том чего чел не знает и знать не может - хуёвая затея и выставляет дураком тебя, а не его.

Аноним 01/03/26 Вск 18:42:37 #532 №1538358

>>1538331
Хорошо, предположим, ты не наглый или ленивый, а глупый и не можешь воспринимать обращенную к тебе информацию, пока тебя не засирают. Начнём сначала.
> Я описал проблему
>>1538258 вот это - не описание проблемы в том виде, в каком ее необходимо описывать. Почему? Потому что содержательная часть недостаточна, чтобы дать тебе решение. Это может быть конец контекста, это может быть сломанный шаблон, eos/bos токены, вариантов наберется немало.
> а ты начал выёбываться, что нет подробностей
>>1538266 вот это, по твоему, выебон? Это запрос конкретной информации - "Какая модель, на чем запускается, какие настройки? Где скрины? Где логи?" Ты что-нибудь из этого сообщил, кроме "я нуфак с кобольдом и квеном" и "никаких настроек не менял"?
> Какую необходимую информацию ты от меня ждёшь?
Такую, какую ты проигнорировал, а затем удивился, что тебе не хотят помогать и ущемился.
> Сам себе врагов сочиняешь и героически с ними сражаешься?
Тебе этого знать неоткуда, но таких как ты в треде хватает. У тебя запросили информацию - ты сообщил всё, кроме запрошенной информации и перешел в контратаку: оказывается, над тобой глумятся и не хотят помогать. Как так то?
> Лучше бы просто помог решить проблему, если знаешь в чём дело
Помог бы сразу и без раздумий, если бы ты принес то, что от тебя просили. Потому что я против гейткипа, но за нормальную культуру общения. Не умеешь просить - хотя бы не начинай выебываться и вертеться, но ты и здесь проебался.

ПЕРЕКАТ Аноним OP 01/03/26 Вск 18:43:44 #533 №1538360

Пиздец ньюфагов набежало
ПЕРЕКАТ

>>1538359 (OP)

ПЕРЕКАТ

>>1538359 (OP)

ПЕРЕКАТ

>>1538359 (OP)

Аноним 01/03/26 Вск 18:47:26 #534 №1538366

>>1538199
Это просто карточка в таверне (да - как пакет с пакетами) где заполнено поле custom prompt (в advanced definitions) в котором написано: "You are helper of DM (Dungeon Master), a character's card writer. you writing a card for a character based on the data provided to you by User."
А в основном description - "This is template for the Character's Card:" и перечислены поля которые нужны в карточке (типа имя, занятия, внешность, характер и т.д), и дополнительные инструкции - что включать, на что внимание обращать, что игнорить, каким стилем писать.
Потом просто пишешь этой карточке: Создай мне персонажа на основе... перечисляешь конкретику которую хочешь, и если модель видящая - можно картинку приложить. Ну и можно продолжить сообщениями вида "Основа неплоха, но замени мне здесь X на Y, убери упоминания того, смести акцент на это" - даже мистрали хорошо справляются.