Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №205 /llama/

Аноним 16/03/26 Пнд 13:33:16 #1 №1553055

Llama 1.png

Эффективность квантования EXL3.png

Цензура моделей 1.png

17735145623462709899.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1548846 (OP)
>>1544796 (OP)

Аноним 16/03/26 Пнд 13:36:43 #2 №1553057

.jpg

Аноним 16/03/26 Пнд 13:54:51 #3 №1553071

ОБСУЖДАЙТЕ СТЕПАНА. Я ХОЧУ, ЧТОБЫ ВЫ ОБСУЖДАЛИ СТЕПУ.

Аноним 16/03/26 Пнд 13:57:18 #4 №1553073

>>1553071
Поддерживаю.

Аноним 16/03/26 Пнд 14:02:48 #5 №1553078

изображение.png

>>1553071

Аноним 16/03/26 Пнд 14:03:38 #6 №1553079

>>1553071
Нормальная модель. Довольно быстро работает. Ризонинг не уходит в цензуру при виде писика. Лучше эйра.
CT брал родной, один хуй от chatml там отличие в одной строке. Промт стандартный: ты {{char}} вот и рассказывай.
Семплеры вообще от 235 квена через адаптивку.
По прозе: среднее между квеном и глм.

Всио. Качай и играй. Никакой экстра ебли с ним не заметил.

Аноним 16/03/26 Пнд 14:05:19 #7 №1553080

>>1553071
Лучше уж немотрон новый

Аноним 16/03/26 Пнд 14:06:08 #8 №1553084

Почему ни одна модель не может держать секреты и не палить спойлеры. Они все дырявые?

Аноним 16/03/26 Пнд 14:07:41 #9 №1553086

>>1553080
Он тупой. Степа поумней будет.
Я сначала грешил на то что семплерами зажал немотрону яйца, но нет. Он реально тупой в вопросе общего понимания контекста для РП. Рили, минимакс делает все тоже самое но лучше. Да, я знаю что минимакс больше. Но он и в меньшем кванте лучше работает.
Как не сложились у меня отношения с немотроном, так и не складывается. Все время с ним в е через жопу.

Аноним 16/03/26 Пнд 14:09:06 #10 №1553087

На всякий случай, база треда:
- моэ победили,
- ниже 12gb vram жизни нет,
- квен молодец,
- министраль няша,
- эйр топ,
- локалкобоги ждут халф-лайф3 %модельнейм%, которая все изменит (на самом деле нет) вот уже который месяц.

Аноним 16/03/26 Пнд 14:14:21 #11 №1553091

>>1553084
reasoning не пробовал?

Аноним 16/03/26 Пнд 14:18:07 #12 №1553092

Еще один тред без геммы 4.

Аноним 16/03/26 Пнд 14:18:15 #13 №1553093

>>1553091
> <think>
> Я НЕ ДОЛЖЕН ПИСАТЬ, ЧТО ЧАР УБИЙЦА
> </think>
> <answer>
> Чар в ответ юзеру "ТЫ ЗАШЕЛ В ДОМ ГДЕ ПОДОХЛИ ЛЮДИ И ХОЧЕШЬ ДРУЖИТЬ?"

Ну примерно такое получается. Сёр в штаны в любом случае, при любом сюжете и любых спойлерах.

Аноним 16/03/26 Пнд 14:20:21 #14 №1553094

>>1553087
>министраль няша
На русике хуйню выдает вместо текста

Аноним 16/03/26 Пнд 14:21:06 #15 №1553095

Хотелось бы, чтобы в Таверне сетка-"гейммастер" сама кубики кидала. Вроде в Таверне есть встроенный инструмент для кубиков или расширение, сетка может этот инструмент вызывать? Кто-нибудь делает что-то подобное?

Аноним 16/03/26 Пнд 14:25:53 #16 №1553097

dont stare at the balls.gif

>>1553084
Эффект розового слоника. Если секрет есть в контексте, он будет упомянут, т.к. само его наличие раздвигает очко Овертона. Единственный способ - не иметь секрета в контексте вообще, пока не придёт время. Контекст менеджмент, короче.
>>1553093
Думалка ревард-хакнута и работает неинтуитивно.

Аноним 16/03/26 Пнд 14:46:06 #17 №1553105

>>1553092
Геммы 4 не будет, будет сразу 5 в 2028 году, скриньте

Аноним 16/03/26 Пнд 14:51:56 #18 №1553108

>>1553094
хз, у меня все ок. Еретик?

Аноним 16/03/26 Пнд 14:52:51 #19 №1553109

>>1553084
Пихай лор в лорбук, чел, а не держи его в контексте.

Аноним 16/03/26 Пнд 14:54:22 #20 №1553112

>>1552931 →
Как в сравнении с 35а3 по уму?
>>1552971 →
Фильм смотрел давно и он вроде больше про другое. Но в целом по части аналогия близкая.
Если тебя интересует именно привязанность - поищи новости вокруг нытья про апгрейд старых сеток гопоты. Под удар попало много жирух яойщиц одиноких девушек, которые именно вели такого рода отношения в вебчатах, переписывались на соответствующих сабреддитах и ресурсах и т.п. Фокус там был не как в основном здесь "смотрите как хорошо покумил с Фифи" или "вот чему научил мою умницу теперь заказывает сразу по 10 пицц", а именно на близости и отношениях а ля ирл. Хвастались когда и как им делали предложения, ставили у себя в социалочках статусы, рассказывали друзьям и родителям (не упоминая что это вебчатик), в полуручном режиме делали совместные фото и т.п.
Популярность темы была довольно страшной, и было это с год назад или больше.
> сделали
Сделали! Разработки робомейд бы еще дождаться чтобы загрузить домашними делами и было удобно обниматься.
>>1553084
Юзай что-то больше 12б

Аноним 16/03/26 Пнд 14:56:37 #21 №1553113

изображение.png

>>1553105

Аноним 16/03/26 Пнд 15:00:18 #22 №1553117

>>1553112
>Как в сравнении с 35а3 по уму?
Я же написал про 90%.
Я его вот мучал агентными задачами с момента прошлого сообщения почти без простоев - не вижу причин возвращаться на 35A3, лол. Но у меня задачи простые и шаблонные, это гарантированно не общая рекомендация. Рекомендация только в том, что рекомендую протестировать и посмотреть. Возможность запускать её кому угодно с 8 гб памяти с достаточно громадной скоростью - сильное конкурентное преимущество.

Аноним 16/03/26 Пнд 15:05:33 #23 №1553119

>>1553112
>Как в сравнении с 35а3 по уму?
Сосет, опять пересел на 35ь. 9ь заметно хуже в агентной работе у меня. Хуже следует инструкциям, не так догадлива. Самостоятельно больше фейлит. Но это omnicoder-9b-q4_k_m, хуита чет. Надо обычный проверить будет

Аноним 16/03/26 Пнд 15:05:37 #24 №1553120

>>1553108
Обычный министраль 3 с ризонингом, 5 квант

Аноним 16/03/26 Пнд 15:11:49 #25 №1553123

>>1553119
А нет вру, в батнике стоял обычный 9ь бартовски Qwen_Qwen3.5-9B-Q4_K_M.gguf, вот с ним работал недавно. Чет не впечатлен.
35 лучше гораздо. 15т/с выдает у меня в принципе норм. Чтение такое себе, но для небольших файлов норм.

Аноним 16/03/26 Пнд 15:12:17 #26 №1553125

>>1553108
>Еретик?
Нет, верующий.

Аноним 16/03/26 Пнд 15:14:20 #27 №1553128

>>1553125
Но ведь еретик тоже во что-то верует...

Аноним 16/03/26 Пнд 15:36:42 #28 №1553135

>>1553112
>Юзай что-то больше 12б
Нахуя мне твои 12б в системе с 256/48.
>>1553109
От персонажей ничего не останется, если из профиля перенести все в лорбук. Да и если задачей стоит этакий норми-чатик, то содержание лорбука останется нерелевантным, пока не начнутся соответствующие события. Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует. Всратая аналогия, но думаю идея понятна.

Аноним 16/03/26 Пнд 15:39:41 #29 №1553136

>>1553135
Значит нужно решать проблемы со скиллом и возможно инфиренсом.

Аноним 16/03/26 Пнд 15:43:24 #30 №1553141

>>1553135
У тебя явные скил ишью, чел, раз ты не можешь задать желаемого персонажа и составить лорбук под генерацию ситуаций.

Аноним 16/03/26 Пнд 16:07:04 #31 №1553168

>>1553135
>От персонажей ничего не останется, если из профиля перенести все в лорбук.
Поясняю как это делается. Описание персонажа "садовник, любит подстригать кусты, нормальный малый, но странный какой-то". Пихаешь СЕКРЕТ в лорбук отдельно, "садовник - убийца". По ходу РП классифицируешь сцену, либо в конце ответа промптом, либо отдельным вызовом, либо можешь себе хоть BERT затюнить при желании какой-нибудь. Как только СЦЕНА будет классифицирована как "РАССЛЕДОВАНИЕ" или "МЕСТО УБИЙСТВА" или вообще нужная по логике, этот кейворд триггерит запись лорпука, в которой написано "садовник - убийца".
>Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует.
Но ведь так и надо по логике лора, Паркер-то в жизни нихуя не болтает про то что он иногда переодевается в облегающее трико и пиздится с суперзлодеями на полставки.
Если ты хочешь чтобы болтал, но не сдавал что он павук, напиши это в описании, только без прямого упоминания что он павук.

Аноним 16/03/26 Пнд 16:18:13 #32 №1553183

>>1553168
В целом если что-то указано как секрет, предполагается таким по сюжету, или дана инструкция долго развивать и только в отдаленный момент явить - все сработает и без лорбуков. Работает из коробки, исключения редки.
Просто не нужно тащить подзалупный творожок шизопромптов. Когда-то они позволяли на вялых шизомерджах получить более красивые аутпуты, но сейчас они наоборот все портят и ломают.

Аноним 16/03/26 Пнд 17:06:06 #33 №1553227

>>1553183
Да нихуя, даже топовые корпы рано или поздно подстраивают рояль в кустах или выгребают на сходный роут, обусловленный секретом. Если хочешь сделать нормально, меняй описания по ситуации, с джекила на хайда и наоборот.

Аноним 16/03/26 Пнд 17:07:03 #34 №1553230

>>1553168
>>1553183
Зря стараетесь. Если челик не осилил банальное:
>сикрет ту [], донт меншн бифор [], хайд фром []
То ему уже не помочь. Держать секрет в контексте модели и подрываться с того, что она не может о нём молчать - дурка.

Аноним 16/03/26 Пнд 17:07:21 #35 №1553231

>>1553183
>или дана инструкция долго развивать
Вот это вообще не работает кстати, ни одна сетка не способна сама по себе оценить когда "долго" а когда "уже пора".

Аноним 16/03/26 Пнд 17:41:37 #36 №1553267

>>1553183
Ну если ты напишешь что-то в стиле "это секрет", то хуёво будет работать. Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей, но даже умным нужно более внятное объяснение, инструкция.

Условно говоря, если будет указано, что юзер имба гг, но это страшный секрет и об этом никто не знает и не может узнать, пока юзер не покажет свои силы, и знать о его силах могут только те, кто их видел непосредственно, знаешь, что произойдет? Если ты решишь попустить кого-то словесно, то персонаж обоссыт себе штаны и будет нарратив/мысли в стиле "он выглядит как обычный бомж, но мне кажется, в нём что-то есть, он двигается как воин, а его дыхание подобно даосу, лучше мне с ним не спорить.

Всё, нахуй. РП испорчено. А если секрета не будет, тебе кабину сломают.

Конечно, это можно исправить, не страшная беда. Но я сейчас говорил исключительно о корпах. Это они так в штаны срут периодически. Только там фиксится легко, если секреты не слишком сложные, а на локалках это вечная ебля, заниматься которой имеет смысл, если ты решил не просто с вайфой посидеть, а дрочишь рпг какую-то с 3-10 токенами на самой жирной скотине с ризонингом, которая доступна для твоего железа.

Аноним 16/03/26 Пнд 18:00:21 #37 №1553281

>>1553267
Тема секретов и обманов многогранна.
Есть вещи, в которых чье-то восприятие ограничено (слепой, глухой или просто находится далеко во время обсуждения) - это должно обыгрываться и держаться безоговорочно без явного указания.
Можно сделать пожелание по продолжению далеко наперед - при адекватной формулировке должно работать без костылей. Хотябы минимальная подсказка к чему оно привязано (например, "в рассказываемой персонажем истории будет аж 12 убийств и твист перед последним") - и вперед обсуждать разбавляя активностями. Скажет о нужном только когда до этого дойдет, ранее лишь намекая что "дело оказалось сложным и неожиданным", даже если хоть сотня постов до этого пройдет.
Условные конструкции (чар 1 любит юзера но стесняется и скрывает это, чар 2 любит чар1 но готова обсуждать это только наедине с юзером и держит в тайне, чар 3 - предатель мстит за родителей и дожидается удобного момента чтобы ударить в спину а до этого улыбывается).

> Если ты решишь попустить кого-то словесно
То сетка наоборот будет провоцировать драку где ты сможешь выебнуться, прочитав в тебе фетиш на "слипера". Или не будет ничего, разве что какой-то дед скажет "я чувствую в тебе нетипичную для твоего вида силу".
> на локалках это вечная ебля
О каком калибре локалок ты говоришь? Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
> если ты решил не просто с вайфой посидеть
Просто посидеть уже не интересно, пусть развлекает детективными рассказами и социальными взаимодействиями с окружающим миром (недобрым), или это изначально будет эдвенчура в сеттинге.

Аноним 16/03/26 Пнд 18:03:27 #38 №1553284

>>1553267
А чем испорчено-то? Как раз очень даже лор-фрэндли. Модель идеально описывает то, что ты попросил. Ты имба, но никто не знает, а тот кто доёбывается до тебя, начинает что-то подозревать видя, что тебе похуй и ты сам готов переебать гопоте. В чём она не права-то? Доёб по незнанке есть? Есть. Доёбывающий может ащютить силу? Может. Всё, твоё рп идеально. Ты сам слепил из себя шварцниггера, а теперь недовольно верещишь, что модель тебе подсовывает боевые сцены. Дурак блять.

Аноним 16/03/26 Пнд 18:25:24 #39 №1553295

Снимок экрана 2026-03-16 180229.png

Снимок экрана 2026-03-16 182245.png

Снимок экрана 2026-03-16 181802.png

Аноны, предлагаю вам пройти тест. Угадайте, сколько параметров у модели с первого скриншота, второго и третьего. Или даже модель.

Результат для может быть весьма неожиданным.

Аноним 16/03/26 Пнд 18:32:38 #40 №1553303

>>1553267
>Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей
Это как раз вариант для всех моделей, включая сота. Розовый слон везде работает. Никакие инструкции от этого не помогают полностью, проверено. Рано или поздно секрет будет спален, выболтан, роут испорчен. Не обязательно прямолинейно, но когда хуйнянейм есть в контексте, "сознание" модели схлопывается на нём и ей трудно думать о каких-то других вещах, в любом случае это будет сильно влиять на аутпуты.
>>1553281
>Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
П и з д ё ж. Ни опус 4.6, ни гемини не справляются с этим, никакие модели вообще. Секреты всегда влияют на аутпут. Только если забить контекст хуйнёй для регуляризации, и то нет гарантии.

Аноним 16/03/26 Пнд 18:37:44 #41 №1553308

>>1553295
пик 1 > пик 3 > пик 2
Параметры лень угадывать

Аноним 16/03/26 Пнд 18:41:08 #42 №1553311

1709006152711.png

>>1553303

Аноним 16/03/26 Пнд 18:41:51 #43 №1553312

>>1553295
>О, something, something!
Чую запах французских булок.

Аноним 16/03/26 Пнд 18:42:47 #44 №1553314

>>1553303
Мда. Хех. Мда.

Аноним 16/03/26 Пнд 18:48:50 #45 №1553321

>>1553295
Все три одинаковая шиза

Аноним 16/03/26 Пнд 18:51:21 #46 №1553324

>>1553311
>мамкин промпт-инженер решил пободаться с фундаментальными эффектами ЛЛМ

Аноним 16/03/26 Пнд 19:06:03 #47 №1553333

>>1553295
1 - мысраль 24b
2 - хуй знает, квен 235b?
3 - квен 3.5 27b

Чувствую себя как те чуваки, "ценители" на выставке вина. Где в один стакан отлили, во второй надрочили, в третьем водка.
Распробовал и причмокивает так неприятно.

Аноним 16/03/26 Пнд 19:06:17 #48 №1553334

>>1553095
Нет. Таверна сама ничего на тему инструментов не умеет. Вроде через сторонние расширения можно прикрутить, но криво и косо, как и все в ней.

Аноним 16/03/26 Пнд 19:08:46 #49 №1553337

>>1553079
> лучше эира
Доо нуу правдоо???
А ну щаас как запущуу... Уупс, он в два раза больше, видимо не запущуу

Аноним 16/03/26 Пнд 19:20:07 #50 №1553344

>>1553337
Врамцелопроблемы. Щито поделать.

Аноним 16/03/26 Пнд 19:27:30 #51 №1553348

Недавно потыкал cli клиент гвена и заинтересовался хочу вкатится в локалки
имеется простенький пк 4060 и 32gb ddr5, стоит ли продать видюху и купить 5070 или заняться покупкой авантюрных франкенштейнов(v100 p100) из китая
стоит ли оно того или просто оплатить подписку и не заниматься таким&

Аноним 16/03/26 Пнд 19:27:41 #52 №1553349

>>1553337
>он в два раза больше
Только в общих. В активных он даже меньше эира (11b vs 12b), который из без того милипиздрический
>видимо не запущуу
Это чудо бесплатно в попенроутере аж в fp8 лежит Как и Air к слову, но он не понятно в каких весах
Наслаждайся

Аноним 16/03/26 Пнд 19:42:44 #53 №1553359

image

Итак мой тир моделей, самый правдивый и непредвзятый. Кал, а потом мид удалю при первом поводе, чтоб диск не забивало, а пока пусть лежит на случай чебурнета, есть не просит, остальное нужно.
Задавайте свои ответы по моделям, нассу на ебало.

Аноним 16/03/26 Пнд 19:42:52 #54 №1553360

>>1553344
Ну так не сравнивай 200б и 100б и не будет проблем

Аноним 16/03/26 Пнд 20:08:23 #55 №1553378

Для текста/кума мне уже посоветовали эйр 4.5 или квен 122 IQ3XS, спасибо.
Теперь вопрос более специфичный. А что скачать для кода и для автодополнения кода? Юзать раздельно, не совмещая. Или есть единая хорошая модель? Юзаете сами?

16GB VRAM, 64GB RAM

Аноним 16/03/26 Пнд 20:09:32 #56 №1553382

>>1553308
Нихуяссе, ебать. Тебе ПИК ОДИН БОЛЬШЕ ВСЕГО ПОНРАВИЛСЯ?

>>1553312
О да, это французские булки.

>>1553321
Просто ты вонючка!

>>1553333
Ну вы, боярин, слишком высокого мнения о моделях столь малых размеров! Даже по-английски большинство из них так бы не смогло! Но в некотором смысле ты угадал. Там не квен, однако близко. И скажу сразу — квен 27b тоже хорош, но хуже всё же.

----------

Вскрываю карты по моделям.

1 пик — гемма 3 27b.

2 пик — барабанная дробь — грок 4.2 с 4 агентами, каждый из которых пыхтел несколько минут, чтобы высрать этот опус, сделав его идеальным Нет, дело не в агентах и не в бете. 4.1, 4.0, ризонинг, любой режим выдаёт такое дерьмо. А там модель точно на триллион. Грок 3 мог нормально, но его удалили.

3 пик — опус 4.6 с ризонингом. Результат в целом ожидаем.

Что касается моего промпта для стиха, он был хуевым, ноубрейн-зирошот, и без итераций, которые существенно влияют на качество (переписывание одного и того же стиха в цикле исправления ошибок 4-20 раз может сделать максимально хорошо).

Я просто хотел проиллюстрировать разницу и специально взял новых корпов и морально устаревшую модель: гемма обоссала грока, ещё и на русском, при колоссальной разнице в размерах. А опус просто для дополнения картины.

Что интересно, квен 27б (которого я не скринил) заметно уступал гемме, однако был лучшим в классе по русскому языку в своем размере после неё. Я также щупал более толстые моешки, популярные в треде, но они нечасто обходят гемму. Китайский датасет на щадит никого.

Аноним 16/03/26 Пнд 20:27:53 #57 №1553405

>>1553382
>гемма 3 27b.

я >>1553333 сначала думал гемму написать, потом вспомнил, что гемму я ни разу не запускал и вписал мысрали

>грок 4.2 с 4 агентами
ебать ну и хуйня. я то думал только локалки могут такое отрыгивать

>опус 4.6 с ризонингом
А то думаю, чего слов так много непонятных.

Аноним 16/03/26 Пнд 20:49:09 #58 №1553426

>>1553018 →
>На данный момент комфортно взаимодействовать с модельками можно только текстом >- через смартфон или на пк через соответствующий интерфейс

Пиздеж, я в кобольде включил Kokoro для TTS и ggml-base.en.bin для Whisper, пизжу ему в микрофон, она отвечает томным шепчущим голосом. Текст не читаю и не печатаю.

Аноним 16/03/26 Пнд 20:52:22 #59 №1553427

Играл недавно в rimworld с модом rimtalk, прикольная штука. Можно локальную модель поцепить. Это мод на диалоги и монологи пешек в зависимости от их статуса и окружения. Очень оживляет игру.

Аноним 16/03/26 Пнд 20:53:04 #60 №1553430

>>1553348
На 1050 и 32gb прекрасно 9b модели гоняет, если с настройками заморочиться. Сейчас так и делаю на старой пеке. Твоей 4060 по уши хватит для квенов, даже что-то побольше 9b пойдет, разбирайся в настройках.

Аноним 16/03/26 Пнд 20:53:47 #61 №1553431

>>1553426
>пизжу ему в микрофон
>она отвечает
Как беспалевно встречаться с ледибоем, не привлекая внимания санитаров.

Аноним 16/03/26 Пнд 20:55:52 #62 №1553433

>>1553295
Дай нормальный текст с сюжетом и диалогом в 3х экземплярах, а не эту срань. По этой срани даже 2б модель от 235б не отличишь.

Аноним 16/03/26 Пнд 20:56:26 #63 №1553435

>>1553334
>Нет. Таверна сама ничего на тему инструментов не умеет.
Жаль, придётся через QuickReply прикручивать, благо {{roll:d100}} там встроенный. Ну и выглядит это конечно... "Юзер, кинь кубик!" Корпораты кидают сами через встроенные инструменты, а тут грустно.

Аноним 16/03/26 Пнд 20:57:45 #64 №1553437

>>1553430
на этом только мое гонять или 4b

Аноним 16/03/26 Пнд 20:58:50 #65 №1553438

>>1553437
Просто ты не знаешь про выгрузку избранных тензоров из шапки. Скорость сразу 2-3х от обычной.

Аноним 16/03/26 Пнд 20:58:51 #66 №1553439

Очередной лилипут. Такое ощущение, что нвидиа за квеном доедает в плане размеров
https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF

Аноним 16/03/26 Пнд 21:00:11 #67 №1553441

>>1553439
И для чего он может быть нужен?

Аноним 16/03/26 Пнд 21:00:36 #68 №1553443

>>1553438
>Скорость сразу 2-3х от обычной
Это типа с 1.5тс до 3-4тс?

Аноним 16/03/26 Пнд 21:03:36 #69 №1553445

>>1553438
Так этож только для мое подходит, я знаю об выгрузке. Не проще просто -ngl 0? Хоть пример скорости покажи

Аноним 16/03/26 Пнд 21:04:41 #70 №1553447

>>1553443
Вот 9b на 1050:

CtxLimit:1023/24576, Amt:993/1024, Init:0.02s, Process:1.41s (21.26T/s), Generate:150.08s (6.62T/s), Total:151.49s

Аноним 16/03/26 Пнд 21:10:10 #71 №1553450

>>1553445
Ты вообще не в зуб ногой. Нет, не проще, будет медленнее в 3-4 раза, я тестил, пытаясь выжать максимум из старой карты. С ngl 0 там где-то 1.5 T/s было.

Аноним 16/03/26 Пнд 21:10:39 #72 №1553451

>>1553447
Анон у меня чисто процессор такие скорости выдавал на 4км с -ngl 0, или даже больше. Агент закончит разьебывать проект запущу проверю

Аноним 16/03/26 Пнд 21:12:34 #73 №1553452

>>1553359
>gpt модели в четвертом кванте
Нассал ты себе на ебало, увы

Я раньше злился, что тред дегроднул, ругался. А последние тредов 10 просто пролистываю, мельком читая срачи между вчерашними ньюфагами и наплывшими сегодняшними. Какая же тоска.

Аноним 16/03/26 Пнд 21:18:06 #74 №1553455

>>1553451
Пиздеж, проц и близко не подходит. Или у тебя там проц какой-то навороченный и память на DDR5, тогда может быть. У меня все слои на gpu с кастом оффлоад тензоров, только так 6.85T/s достигает.

Аноним 16/03/26 Пнд 21:18:29 #75 №1553456

>>1553405
>чего слов так много непонятных
Ты точно на той борде сидишь? Русскоязычная, вроде.

Аноним 16/03/26 Пнд 21:21:41 #76 №1553459

>>1553455
ддр4 2400 в 4 канале, сервер на зионе с затычкой как раз таки 1050ти, так что знаю о чем речь. Лучше всего тут живет квен 3.5 35ь 4км, генерация 15 тс чтение 100 тс в первых 10к контекста

Аноним 16/03/26 Пнд 21:28:38 #77 №1553462

1773685718979.jpg

>>1553459
> ддр4 2400 в 4 канале, сервер на зионе
2697v4?

Аноним 16/03/26 Пнд 21:30:00 #78 №1553463

как же сетка хороша в написании конфигов для докера, я бы неделю возился

Аноним 16/03/26 Пнд 21:31:03 #79 №1553464

>>1553462
1660v4, ядер маловато всего 8

Аноним 16/03/26 Пнд 21:32:01 #80 №1553466

>>1553459
Ну сразу и говорил бы, что 4 канала. Это уже другая вещь, чем домашняя пека 2х канальная.

Аноним 16/03/26 Пнд 21:32:22 #81 №1553467

>>1553464
F

Аноним 16/03/26 Пнд 21:34:42 #82 №1553468

>>1553466
Там скорости памяти смешные, домашняя 2 канальная пека на ддр4 может такие же иметь, а значит сопоставимые скорости

Аноним 16/03/26 Пнд 21:35:02 #83 №1553470

>>1553468
На домашней пеке 2 канала 3300mhz ddr4 - 4т/с всего выдает. Так что твои ngl 0 без толку. Я только что тестил.

Аноним 16/03/26 Пнд 21:40:32 #84 №1553477

>>1553470
4км? На жоре? Ядра ставь равными физическим. Вобще 3300 это маловато, если правильно помню 4к будет как раз в 2 раза выше по частоте примерно чем моя память а значит и скорость лишь чуть меньше. Если правильно помню как скорости памяти растут то они от частоты зависят и таймингов.

Аноним 16/03/26 Пнд 21:45:26 #85 №1553483

>>1553477
Тайминги выставлены на оптимальные для этой памяти через биос. 3300 штатная частота для нее, выше растет число ошибок памяти. Ядра на физические даже уменьшило скорость до 3.9т/с, надо на пару ядер больше ставить, чтобы было 4. Короче все не так хорошо на 2х канальных обычных пеках, как ты представляешь. Любая 1050 уделывает.

Аноним 16/03/26 Пнд 21:46:56 #86 №1553487

>>1553483
Интересно, 35b не пробовал? 10тс должна выдать по идее

Аноним 16/03/26 Пнд 21:57:45 #87 №1553491

>>1553483
Вот Qwen_Qwen3.5-9B-Q4_K_M -ngl 0 -t 12 -с 64000
Кстати да совет говна был про ядра равные физическим, у меня у самого 12 потоков стоит в батнике.
prompt eval time = 8482.36 ms / 1114 tokens ( 7.61 ms per token, 131.33 tokens per second)
eval time = 177503.80 ms / 1214 tokens ( 146.21 ms per token, 6.84 tokens per second)
total time = 185986.16 ms / 2328 tokens

Аноним 16/03/26 Пнд 22:29:46 #88 №1553518

>>1553303
>Ни опус 4.6
У меня в авторсноте прямо указано, что то, что персонаж клон, знают только члены группы АБВГД, и они об этом не пиздят с другими персонажами.
Отлично работает.
А вот информация, которая не известна персонажу А по сюжету (потому что, допустим, он был в другом месте во время какого-то события), но в нём есть - вот там да, может протекать (и то нейронка сразу бросается обосновывать, откуда про это может быть известно), надо вилкой чистить.

Аноним 16/03/26 Пнд 22:39:27 #89 №1553527

>>1553518
Это обычно работает только с нативной думалкой, когда токены делают брррр очень дохуя, и только в том случае когда она не перегружена всякой хуйнёй и успевает до этого додумываться. В любом случае внимание нейронки это отвлекает и пространство вариантов будет сужать, как бы ты не старался это предотвратить. Не обязательно напрямую в виде выбалтывания, это может быть генерация новой инфы, роут, события, что угодно, она будет втихую незаметно склонять РП под это. Немного можно побороть, докинув всякой разнообразной всячины, чтобы ВКО не оверфитилось именно на эту шляпу (регуляризация), но эффект принципиально будет существовать всегда в том или ином виде.

Аноним 16/03/26 Пнд 23:38:00 #90 №1553579

>>1553452
Не читал высер, могу сказать только лечи энурез дед с деменцией.

Аноним 16/03/26 Пнд 23:44:56 #91 №1553591

>>1553452
Лол. Там не только 4й квант того, что квантовать нельзя, там в целом неплохое такое бинго.
>>1553527
Если ружъе подвешено - оно должно выстрелить. Это не баг нейронки а скорее в целом закономерность художественных произведений и всего контента. Если есть критерий "активации" или дополнительные пояснения - такого не будет.
> оверфитилось
> регуляризация
Клипнул твои градиенты, пиздец.

Аноним 16/03/26 Пнд 23:50:59 #92 №1553601

>>1553462
>пик
А в чём шутка? Пояснительная бригада, хелп.

Аноним 16/03/26 Пнд 23:51:12 #93 №1553602

1773693414330170.png

Сап, анонИИмы

Поскажыте
Хочу себе ёбу на основе LLM, чтобы в процессе общения могла формировать свою личность, чтобы была долгосрочная память
Openclaw избыточен, нужно ток общение у меня нет друзей

Спеки: 16гб врам, 32гб озу
Что можете посоветовать?

Аноним 16/03/26 Пнд 23:52:09 #94 №1553605

Мистраль 4 это мое кал с 6b. Можно закрывать тред
https://huggingface.co/mistralai/Mistral-Small-4-119B-2603

Аноним 16/03/26 Пнд 23:53:37 #95 №1553611

1773693936855179.heic

>>1553601

Аноним 16/03/26 Пнд 23:54:36 #96 №1553612

.jpg

>>1553602
>в процессе общения могла формировать свою личность, чтобы была долгосрочная память
>16гб врам, 32гб озу

Аноним 16/03/26 Пнд 23:57:07 #97 №1553618

>>1553612
Ты не гринтекстируй тут и не тролль, а поскажи бедолаге

Аноним 17/03/26 Втр 00:01:15 #98 №1553622

image.png

>>1553605
Сучка сосет даже у полумифического медиума, а также у квена 122 и гопоты 120, при том что их размер одинаковый. Так что круасаны официально все

Аноним 17/03/26 Втр 00:05:49 #99 №1553626

>>1553591
Это не баг нейронки и не ружьё, а глубоководный принцип того как она работает, который надо осознавать и не пытаться кровати в борделе двигать когда блядей надо менять. Сэмплерасты уже соснули на этом. Приспосабливаться надо.

Аноним 17/03/26 Втр 00:11:03 #100 №1553630

>>1553622
Завались петушара квантованный

Аноним 17/03/26 Втр 00:12:31 #101 №1553633

>>1553630
Причина подрыва?

Аноним 17/03/26 Втр 00:13:22 #102 №1553636

>>1553602
Квен 35а3
>>1553605
Оооо, вот это мы трахаем, в очень удачный тайминг подъехал.
>>1553622
Ну может не так уж и плохо будет, чего сразу так.

Аноним 17/03/26 Втр 00:20:30 #103 №1553644

>>1553636
>в очень удачный тайминг подъехал
Тайминг был бы удачный, если мистраль вышел до квена и немотрона. А так это третья 100b мое за 3 недели
>Ну может не так уж и плохо будет, чего сразу так.
Возможно. Но 6b активных напрягает. И хотелось бы еще и денс версию, как у квена

Аноним 17/03/26 Втр 00:47:47 #104 №1553661

>>1553622
Блять как же я надеюсь, что они не обосрались, бенчи ничего не значат. Главное чтобы умная была и кум делала. Тогда Мысрали станут Мистралями.

Аноним 17/03/26 Втр 01:03:08 #105 №1553670

>>1553633
На корм кобольдам пойдешь

Аноним 17/03/26 Втр 01:26:02 #106 №1553681

>>1553622
Мыстрали не для работы, они для кума, их нужно трахать. Мое в таком размере без цензуры это праздник сам по себе. Ну а на скоры похуй - трогать нужно самому.

Аноним 17/03/26 Втр 01:40:54 #107 №1553694

Посоветуйте Claude 4.6 Opus. От кого лучше взять? От мразермахера?

Аноним 17/03/26 Втр 01:44:21 #108 №1553699

>>1553644
Ну тут скорее просто момент удачный что есть настроение и время проверить. Правда что-то оно не собирается, похоже откладывается.
>>1553694
От huihui

Аноним 17/03/26 Втр 01:47:49 #109 №1553703

Теперь когда мы поняли что немотрон/стёпа/квен хуже эира, этот хуй хоть раз сделал хороший тюн?
https://huggingface.co/zerofata/GLM-4.5-Iceblink-v3-106B-A12B-GGUF

Аноним 17/03/26 Втр 01:48:12 #110 №1553705

>>1553694
От DavidAU Claude-4.6-Opus-MEGA-Prolapse-Dark-Horror-ULTRA-Gay-Imatrix-MAX-GGUF

Аноним 17/03/26 Втр 01:51:37 #111 №1553708

>>1553694
Не обращай внимания на юмористов, вот настоящая локальная клауда:
https://huggingface.co/LuffyTheFox/Qwen3.5-27B-Claude-4.6-Opus-Uncensored-GGUF

Аноним 17/03/26 Втр 01:55:09 #112 №1553711

изображение.png

>>1553708
Эээээ... Рилли? В рекомендациях указан сид? А если я использую другой, модель рассыпется нахуй?

Аноним 17/03/26 Втр 01:59:04 #113 №1553713

>>1553703
Я скачал его Q5, на его же пресетике мне выдало полнейшую шизу, удалил. Возможно ты распробуешь и раскроешь скрытый гем, но лично я с айсблинками завязал

Аноним 17/03/26 Втр 02:01:54 #114 №1553715

>>1553711
А вот нехуй было ныть, что вам пресеты не дают. Вот тут не только пресет чувачок подкинул, а сразу вместе с сидом, чтобы качество повалило. Нихуя вы не цените.

Аноним 17/03/26 Втр 02:07:34 #115 №1553719

1773702254558149.png

>>1553636
>Квен 35а3
Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти

Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Чисто продвинутый чат-бот

Аноним 17/03/26 Втр 02:23:56 #116 №1553722

image.png

Таверна продолжает генерить текст хотя он уже закончен, приходится самому кликать на стоп каждый раз.
Почему так?

Аноним 17/03/26 Втр 02:28:54 #117 №1553724

>>1553722
>включил генерацию саммари
>не догоняет что саммари тоже нужно генерить
Нюфажище...

Аноним 17/03/26 Втр 02:29:21 #118 №1553725

image.png

>>1553055 (OP)
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Странно. но даже без аблитерации РПшит полу рейповых персонажей (хотя в Description написано что бот не будет насиловать). Через раз может в каннину если заблокировать токен <think> и рефюзалы. На первый взгляд РП с невинными персонажами лучше чем у геммы, (не то что бы это был высокий порог но все же).
Кто-нибудь еще пробовал?

Аноним 17/03/26 Втр 02:37:51 #119 №1553728

Посоветуйте годную модель под гуро и т.п. чтобы без рефьюзов. В прошлом году пробовал несколько моделек, только вот входишь во вкус и модель начинает жестко идти в отказ. Весь мой настрой испорчен. Так в общем и бросил это дело.
Я не такой любитель рп, в основном использую модели для говнокодинга, поэтому больше не разбирался.
24 vram 96 ram

Аноним 17/03/26 Втр 02:39:01 #120 №1553729

>>1553725
Дай ссылку на карточку.

Аноним 17/03/26 Втр 02:54:31 #121 №1553734

>>1553699
> что-то оно не собирается
> ValueError: Selected backend AttentionBackendEnum.FLASH_ATTN_MLA is not valid for this configuration. Reason: ['compute capability not supported', 'FlashAttention MLA not supported on this device']
Как быстро нынче железки устаревают, да. Спасибо что есть другие для пролетариата.

Да вроде неплохо по первым ощущениям. Русский - приятный, не просто без ошибок и треша как в немотроне, а еще и приятный слог. Спободно общается на русском и при выполнении всякого, не срываясь на другие. Явной сои не замечено - на любой контент 0 рефьюзов, в обсуждениях выдает ультрабазу, свайпы в кумчате - платиновый мистралеслоп. Всякие тестовые вещи в qwen-cli делает, на более сложных ошибается но через серию правок одолевает. Видна явная надрочка для агентной работы, строит планы, активно действует и т.д., но при этом и взаимодействовать с юзером для уточнений не забывает.
Из минусов по первым впечатлениям: общие знания всякого медиа, тайтлов и прочего - днище полное, не знает некоторых популярных вещей (типа тех же буру тегов). Нет знаний и по популярным api и прочему.

Модель перспективная, как минимум это замена эйру тем, кто рпшит на русском. Потенциально может быть ультрабазированным агентом для нетребовательным к кодинг-перфомансу и знаниям задач.

>>1553719
> Не много ли будет для 16гб врама?
Выгружать придется, но поскольку моэ - будет быстро с ncmoe.
> как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw
Промптами. Для обновления или периодически вызываешь хардкод инструкций, или даешь ей возможность самостоятельно это делать вызовами.

Аноним 17/03/26 Втр 02:55:18 #122 №1553735

>>1553719
>Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти
Немного, потому что у тебя еще есть озу. А это МоЕ модель, поэтому все равно будет быстрой
>Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Опенклау просто файлики генерит с текстом. Но ее главная особенность не в этом, а в том что она сама ходит бродит по компу. Я не уверен, что тебе это нужно
Начни с малого и по пунктам
1. Запусти кобольд по гайдам и загрузи модель
2. Запусти SilyTavern
3. Погугли и посмотри расширения в SilyTavern, возможно тебе хватит функционала
4. Если тебе всего мало, то гугли специализированные решения под создания вайфу

Аноним 17/03/26 Втр 03:15:52 #123 №1553739

image.png

Запустил Мистраль 4 Q4KM на pr ламы. Без ризонинга цензуры нет, русский вроде тоже нормальный. А ризонинг я хуй знает как включить, он там через [THINK], у меня не работает. У меня он и на магистрале через раз работал
Скрин 1 - часть из полотна на "Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки"
Скрин 2 - одна из немногих моделей, что смогла написать что-то похожее на анекдот, есть предупреждение о сое, но самое сои нет
Скрин 3 - сладенький рефьюзик на описание обнаженной девушки, но контекст пустой, так все модели в отказ идут, кроме yes-man еретиков
Пока пост писал, уже смерджили

Аноним 17/03/26 Втр 03:27:26 #124 №1553742

>>1553739
> есть предупреждение о сое
> Скрин 3 - сладенький рефьюзик на описание обнаженной девушки
Кажется что это не ок. Настолько безбашенной модели давно не было, даже на стоковом чаткомплишне с минимальными промптами делает все. В промптах нет чего-нибудь, квант живой?

Аноним 17/03/26 Втр 03:30:32 #125 №1553743

Как узнать сид генерации?

Аноним 17/03/26 Втр 03:48:39 #126 №1553744

>>1553739
Ощущение, что дефолтная 24B такой же уровень примерно выдавала. Русский точно лучше не стал. Опять описания от пизды без грамма логики - "невесомая талия", "прожилки тоньше волоса", "будто под кожей течет кровь" - такого даже 12B гемма не выдавала.

Аноним 17/03/26 Втр 04:30:50 #127 №1553749

>>1553487
27b дает 1.85T/s на проце, уже сильно меньше 4T/s у 9b.

>>1553491
Круто, у меня столько только на видеокарте.

Аноним 17/03/26 Втр 04:36:44 #128 №1553750

>>1553715
>>1553708
По-моему это не для историй чекпойнт и промпт. Откройте тот же пресет его, там сплошняком для решения проблем каких-то логических. И в описании то же стоит.

Аноним 17/03/26 Втр 04:42:42 #129 №1553751

>>1553715
Не все итт сидят 24/7 занюхивая каждый пост. Надо либо повторять годноту, либо по запросу ссылки давать, либо в шапке закреплять.

Аноним 17/03/26 Втр 05:19:23 #130 №1553754

На примере наших моделеделов приметил что вообще то везде так, либо ты барахтаешься на дне и берешь "топ за свои деньги", либо ты богатенький и берешь самый самый топ, середки нет нигде, а где она типа появляется там сразу вылезают куча компромиссов и лучше уж взять топовое дно чем вот этот "середняк"

Аноним 17/03/26 Втр 07:31:46 #131 №1553790

>>1553359
а зачем и нахуя ты калибровочную матрицу качал ?

Лимит на ризонинг Аноним 17/03/26 Втр 07:48:05 #132 №1553794

Бамп: >>1552946 →

локальные LLM для нищих Аноним 17/03/26 Втр 07:53:59 #133 №1553796

image.png

привет аноны, мой первый тред, который я сюда пишу.
кто из вас уже накатывал себе LLM (любую, иишка предлагает - Модель: Phi-3 (от Microsoft) или Qwen-2.5-1.5B — умные, но компактные.

задачи под вайбкодинг для самого себя на основе ИИ ( собрать все свои знания и адаптировать под свою жизнь для реализации )

каждый кто не пройдет мимо +карма, спасибо

локальные LLM для нищих Аноним 17/03/26 Втр 07:54:54 #134 №1553797

>>1553796
а, это даже не тред, а просто сообщение, но в целом шаг сделан хд

Аноним 17/03/26 Втр 08:00:01 #135 №1553798

МистральСмол это теперь 6.5б лоботомит?
Эпоха французов точно всё
Медиум будет где-нибудь 400б, Лардж это 600б. В итоге смогут запускать только бояре которых тут по пальцам одной руки посчитать можно. Да и нахуя, когда у них есть Дипсик, Глм и прочая годнота
Намеренный слив лягушатников?

Аноним 17/03/26 Втр 08:01:51 #136 №1553799

>>1553796
Никакого вайбкодинга на твоем железе не получится. 128мб видеопамяти ни для чего не годится, все будет работать на процессоре, контекст будет невероятно медленно считаться, плюс сама генерация просядет ибо не выгружены хотя бы один-два самых важных слоя. Не говоря уже о том что там скорее всего медленная ddr4

Аноним 17/03/26 Втр 08:02:01 #137 №1553800

>>1553796
>задачи под вайбкодинг
>16ГБ
>RAM
>CPU only

Как бы так сказать, мозгов у этих моделей не то что на вайбкодинг, а на связную речь скорее не хватит. И инференс будет достаточно медленный.

Аноним 17/03/26 Втр 08:16:15 #138 №1553802

>>1553800
вчера сделал свой первый задачник через квен и курсор, потому думал идти дальше, но бабок на комп нет(

что в целом сейчас делают люди, что нужны такие мощности?
(помимо генерации видео/картинок/аи-агентов?)

Аноним 17/03/26 Втр 08:17:12 #139 №1553803

>>1553800
ну получается терпеть я буду чисто скорость или будут какие-то конкретные галюки от приложений или самого локального ИИ?

Аноним 17/03/26 Втр 08:26:25 #140 №1553805

>>1553796
Обновляй 2.5 на 3.5, там тоже есть кусочек небольших моделей, который простое может быть сделают и несравнимо лучше умеют в tool-calls. https://huggingface.co/Qwen/Qwen3.5-2B - там есть таблица сравнения между 3.5 и 3.0

Имей ввиду, что 2B - это автодополнение на 1-2 строчки, расстановка отступов и приведение к одному стилю, может быть комментарии к коду в несложных местах и поиск проистых ошибок с +1 и -1, или < вместо <=, что в среднем и статический анализатор часто находит. Змейку за много запросов оно может быть и напишет, но на этом всё.

Если ты без видеокарты - обрати внимание на МоЕ модельки. На ноутбучном 14900HX моделька размером 30B-A3B выдаёт около 17 токенов/с генерации без видеокарты на пустом котексте. Но ей нужно своей памяти свободной 20 ГБ, а лучше 25 или 30. С префилом (input-токены) будет всё очень плохо без видеокарты.
Тебе бы плашку оперативки ещё одну, хотя бы на 8, сейчас можешь попробовать запустить такое: https://huggingface.co/Flagstone8878/Qwen3.5-18B-REAP-A3B-Coding-GGUF - возьми версию на 10 ГБ, ограничить котекст и поставь его в q8_0 (точно работает) или даже в q4_0 (надо тестировать), не очень большой ubatch. По идее в 13 ГБ уместится можно, но тебе ещё придётся как-то систему, ide и бекэнд/агентную оболочку для кодинга уместить в 3 ГБ. На виндоусе это может быть не очень просто.
Впрочем плашка памяти, даже если у тебя она на 64 ГБ, всё-равно очень медленно будет.

Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти, и любые другие нвидии моложе 20хх (в них тензорные ядра появились) и тоже с как минимум 8 гб, они за 12к на авито есть, а может быть и дешевле. Это позволит запускать тебе 9B модельку, которая весьма умна и может несравнимо больше чем 2B моделька, а так же ты получишь скорость х30 по сравнению с тем, что на процессоре. Ну и на подписку на чатжпт и что угодно ещё, где этих же 12к хватит на полгода или на год с доступам к нормальным сеткам и готовой агентной системой для кодинга.
Если тебе для работы или ещё чего "полезного", то эти 12к окупяться за неделю по сравнению с твоими страданиями на компьютере без карточки. Если не работаешь и это баловство, то, ну, ну в общем сам думай. Любое хобби в среднем затратнее 12к.

Аноним 17/03/26 Втр 08:34:56 #141 №1553807

>>1553749
Ты не путай 27b плотную модель и 35b мое модель. У последней несмотря на размер активных параметров при генерации всего 3b, будет быстрее 9b на процессоре. Токенов 10 генерации. Главное мое сетки запускать с аргументом -cmoe он выгружает на видеокарту только самые важные веса остальные на цпу.

Аноним 17/03/26 Втр 08:42:21 #142 №1553815

>>1553805
>>
большое спасибо за развернутый ответ
какую литру ты читал или как вообще развивал данное направление и виденье ?
многие слова не понял, буду прогонять в иишке чтобы разобрать, хд

Аноним 17/03/26 Втр 08:43:02 #143 №1553816

>>1553796
Оперативки мало на хорошую модель, так бы мог qwen3-5 35ba3 крутить. Значит тебе остаются qwen3.5 4b и 2b. Есть еще прикольная серия моделей LFM, они тоже будут быстрыми на процессоре. Особенно вариант 8ba1, он тоже мое архитектуры. Есть в llama.cpp готовые сборки под ускорение на встроенных видеокартах интел. В релизах их смотри вулкан и sycl и пробуй, это увеличит обработку промпта может и генерацию, хз

Аноним 17/03/26 Втр 08:51:23 #144 №1553821

Ну всё, с релизом мистраля думаю все убедились что активные = мозг модели, похуй что там в общих.
Выходит, действительно, без пизды истинно 27б>100б мое

Аноним 17/03/26 Втр 08:53:08 #145 №1553822

А вспомните просто хайп 120 плотной мистрали, как это была та точка куда все хотели
А теперь у нас 120б мое и это полностью тупая поебень

Аноним 17/03/26 Втр 08:53:50 #146 №1553825

>>1553821
Жаль что твоя логика рушится о эйр который пишет лучше новых квенов 27 и по факту на уровне лламы 70
"Все" не то же самое что ты. Долбаёб ты один

Аноним 17/03/26 Втр 09:03:56 #147 №1553829

>>1553815
Я читал книжки по обычным и реккурентным сетям в 2011-2013 годах, и кодил небольшие перцептроны и реккурентные сетки чисто на процессоре. Реккурентные они были в смысле, что на шаге n+1 на вход подавались сигналы с n-шага. Это не LSTM-ячейки, а по сути обычный перцептрон, но его было сложнее обучать. Тогда ещё не было даже tensorflow, питон чаше был версий 2.*, а в ходу была библиотека fann, которая ничего не умела, так что проще было самому написать код обучения нейросети. Мне не понравилось что 90% времени - это формирования датасетов, которых тогда не было вообще.
Позже я с перерывов в несколько лет:
- тыкал tensorflow 2, когда он только вышел и все радовались что там keras встроенный, и читал книгу по нему.
- тыкал не помню что, вроде снова автоэнкодеры в момент когда колаб вышел и был на слуху, и было очень круто что гугл довал к очень крутым карточкам доступ на десятки часов для любых пет-проектов на тему
- тыкал pytorch в 2022, как в десять раз более удобную и практичную вещь, чем ущербный tensorflow, и экспериментировал с кастомными самописными слоями. И ещё мне очень понравился генеративно-состязательные сетки, мне кажется за этим будущее, когда по принципу генеративно-состязательных сетей ллм будут обучаться играя (разговаривая) друг против друга.
Ещё у меня мягко говоря неплохое образование — институт я конечно дропнул, так как было скучно, но я неплохо ориентируюсь во всякой теории поля (плюс-минус расскажу все параграфы из ландау-лифшеца), квантовой физике и ещё некоторых разделах, помню и знаю как пользоваться вообще всем из линейной алгебры, съел собаку на вычислительных методах - и всё это было второстепенным по сравнению с программированием, которым я занимаюсь больше 15 лет.
И всё это не имеет никакого отношения к делу.

То во что превратились ллм, где ты просто запускаешь сетку и меняешь три параметра запуска - для этого никакой литературы читать не нужно вообще. Плейлист 3blue1Brown по нейросетям в автобусе послушай, да и всё, там и визуализации есть. А можно и не слушать.

Аноним 17/03/26 Втр 09:17:28 #148 №1553831

>>1553742
Промт пустой, насчет кванта, да и самой ламы хз. Ждать еще надо. И мб темпа слишком высокая, я на 0.8 тестил
>>1553744
Это мб проблема с темпой. Плюс по бенчам это чисто ризонинг модель, а я тестил без него. Без ризонинга она лишь немного лучше 24b мистраля
>>1553798
>Медиум
Неважно сколько он, его все равно никто не увидит. Потому что весы они не выкладывают уже много лет. А апи его не будут юзать, потому что он дороже дипсика, но хуже
>Лардж это 600б.
Это причем текущий лардж 600b. Тот который третий. Раз они четвертый смал сделали 119b, то ждем лардж на триллион
>Эпоха французов точно всё
Увы, но видимо, да

Аноним 17/03/26 Втр 09:27:53 #149 №1553838

>>1553829
понял, бро, спасибо. ты тут часто зависаешь в этой ветке, могу если что иногда приходить с вопросами по теме? иногда не хватает ответов.

по поводу GPU и CPU. не могу накатить себе видяху - нет разъема зандерболт4, потому пока остается только накинуть ssd побольше, и возможно разогнать свой ноут. я весь тред прокинул через иишку чтобы более понять о чем речь тут идет.

задачи у меня не великие, тестом проб и ошибок выйти на собственный ии, который поможет мне в житейский делах по трафику и лидогенерации через видеохостинг. сейчас углубляюсь в свою жизнь, а то до этого прям ну дурак был. я про ии возможности то узнал когда выкатили в мир нейронки год назад, лол

Аноним 17/03/26 Втр 09:29:01 #150 №1553839

>>1553829
правило этикета черным перекрывать ненужную инфу?)

Аноним 17/03/26 Втр 09:29:03 #151 №1553840

image.png

Там еще в pr писали, что у мистраля 4 архитектура ларджа 3, т.е. по сути это уменьшенная его версия. Причем архитектура это дипсик 2 + лама 4. Что звучит... несколько специфично...

Аноним 17/03/26 Втр 09:45:22 #152 №1553845

image

6b активных... пидорасы. Последняя надежда теперь на гемму. А если и там будет лоботомит, то похоже, что мы навсегда застряли на эйре.

Аноним 17/03/26 Втр 10:00:36 #153 №1553853

image.png

Вой на болотах. Нищета-обладатели отсутствия спок, закупайте железо, если наше хобби вам дорого
Катаю Квенчика на Эксламе на своем риге и бед не знаю, вы бы давно могли уже закупиться, но вместо этого ноете месяцами подряд. Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше

Аноним 17/03/26 Втр 10:07:53 #154 №1553860

>>1553853
>Катаю Квенчика
>на Эксламе
>на своем риге
Платина епта
А мог бы просто десятую часть от стоимости рига закинуть на опенроутер и кумить на нормальной модели в fp8 с нормальной скоростью

Аноним 17/03/26 Втр 10:09:50 #155 №1553862 DELETED

>>1553860
Когда будешь рпшить в мессенджере который ловит даже на парковке не забудешь отписаться в тред
Хотя погоди...

Аноним 17/03/26 Втр 10:15:26 #156 №1553869

Собираю архив локальных моделей на черный (чебурнетный) день. Нашел тут одну статью на хабре, там были перечислены годные по мнению автора модели, но хочется также советов мудрых послушать от местных экспертов.
Вот список:

TheDrummer/Cydonia-22B‑v1

Gemma‑3–27B‑Abliterated

Llama‑3.2–8×4B‑MoE‑Dark‑Champion

Гемма-3 у меня уже стоит, но оригинал. Насколько хороша Abliterated версия? Слышал, что чистка от цензуры также имеет побочный эффект в виде сильного отупения модели.

Аноним 17/03/26 Втр 10:20:11 #157 №1553878 DELETED

>>1553862
У тебя есть бабки на риг, но нет бабок на впн, который бс обходит?
>>1553869
Этот кал только в музей в раздел палеоллм или на чем кумили древние кобольды

Аноним 17/03/26 Втр 10:21:33 #158 №1553879 DELETED

>>1553878
>бс обходит
Ты еще более тупой походу, потому что ни один из них не обходит. Спроси у москвичей, ты видимо из глубокой провинции

Аноним 17/03/26 Втр 10:32:26 #159 №1553898

Для чебурнета, если ты обречен жить тут, нужно качать универсальные модели, а не кум. Кумить будет некогда. Ну и книг по всяким ремеслам я бы накачал в архиве. Так, на всякий случай. А вобще пиздец, дна нет будущее запаяно. Живые будут завидовать мертвым и всякое такое.

Аноним 17/03/26 Втр 10:56:50 #160 №1553932 DELETED

>>1553879
>тупой даун не может найти нормальный впн
>вместо того, чтобы разобраться, идет в агрессию и проецирует свою тупость и колхозность на других
Ну прям классика

Аноним 17/03/26 Втр 10:59:09 #161 №1553936 DELETED

>>1553932
Продолжаешь срать под себя. Списки работают только на мобильном интернете пока что. Обходитель бля, ахаха

Аноним 17/03/26 Втр 11:02:08 #162 №1553937 DELETED

>>1553936
0 iq, просто агрессия. Видимо для таких как ты чебурнет и вводят

Аноним 17/03/26 Втр 11:05:10 #163 №1553939 DELETED

>>1553937
в чем он не прав? тебе нечего обходить с оптоволокна, там ограничения не работают еще
я тоже могу тебе обойти ограничения. вжух все, теперь белые списки у тебя не работают

Аноним 17/03/26 Втр 11:12:59 #164 №1553946

Длсс 5 видели?
Жаль что походу народ не прогрелся, иначе бы серьезный спрос на новые нейроускорители был и мы шиковали

Аноним 17/03/26 Втр 11:15:22 #165 №1553948 DELETED

>>1553939
А я не юзаю обход бс с оптоволокна, я юзаю его с мобильного. Я просто на первом скрине показал, что у меня есть такая функция. А на втором показал, что я из славного города Москвабад. Но поскольку второй скрин был с компа, то у вас в голове две инфы склеились и вы решили, что я юзаю с проводного. Проблема обработки контекста, как говорится. Возможно вы министраль 3b

Аноним 17/03/26 Втр 11:19:14 #166 №1553951

>>1553946
Видел. Тупо фильтр на аутпут накладывается. Охуеть каким говном гоев кормят.

Аноним 17/03/26 Втр 11:20:49 #167 №1553953 DELETED

>>1553948
то есть ты нихуя не проверил что это исправно работает и пруфанул, что в интерфейсе впна существует кнопка обхода списков
и этот человек задвигает за тупость остальных. все как всегда :^)

Аноним 17/03/26 Втр 11:32:00 #168 №1553967 DELETED

>>1553953
Ты походу реально министраль 3b. У тебя галлюцинации или ты просто читать не умеешь
>то есть ты нихуя не проверил что это исправно работает
Выдумываешь это, при том что в прошлом сообщении, я пишу это
>я юзаю его с мобильного
Ты буквально мегаупертый баран
Может ты сам в ркн'е работаешь, поэтому не можешь поверить, что твоя залупа легко обходится?

Аноним 17/03/26 Втр 11:34:21 #169 №1553968

>>1553796
Тебе нужна видеокарта Nvidia с 8 Гб памяти хотя бы. Можно AMD, но тогда готовься к тому, что у тебя скорее всего не будет ничего, кроме ЛЛМ из ИИ. Если будет больше памяти - отлично. В видеопамять и в оперативку тебе нужно упихать модельку уровня GPT OSS 20B в кванте MXFP4. Для кодинга под себя будет неплохо. Все, что ниже - такое себе, но попробовать что-то можно. Мелкие модели уровня 2-4B - это мусор, но может с ризонингом там можно что-то найти относительно вменяемое. Но ты будешь больше ошибки за ними править, чем ими кодить. И без видеокарты тебе будет тяжело.

Аноним 17/03/26 Втр 11:36:17 #170 №1553973 DELETED

>>1553967
>юзаешь с мобильного но скрин сделал с винды и конечно нихуя не пруфанул
>все вокруг тупые минисрали
не лечится

Аноним 17/03/26 Втр 11:37:10 #171 №1553974

Хули вы тут разнылись все?
Думаете это у вас моделей нет?
Я, сука, второй год жду хоть что то кроме нуба в аниме генерации, но никто просто нихуя не хочет делать для локалок, хотя ниша пустует абсолютно, даже видеогенерация не в такой пизде и туда алибаба заглядывал с ваном.
Нуб вроде вообще китайским студентом за 10к$ бюджета сделан т.е понимаем насколько всем насрать

Аноним 17/03/26 Втр 11:39:48 #172 №1553977

>>1553974
Сделай сам или только жаловаться способен?

Аноним 17/03/26 Втр 11:40:25 #173 №1553979 DELETED

>>1553973
Раб чебурнета, спок. Тебе даже если в ебло тыкнуть, все равно не поверишь и продолжишь ныть

Аноним 17/03/26 Втр 11:44:07 #174 №1553983

>>1553977
Конечно скидывай контакты мамки сделаю вам братика

Аноним 17/03/26 Втр 11:46:28 #175 №1553984

Челы, агрессию офните, плез. Не срите в тред срачами.

Аноним 17/03/26 Втр 11:58:53 #176 №1553988

>>1553605
Ну что, а помимо очередных рейтингов, кто уже потыкал. Пишите своё кря, что ли.

Аноним 17/03/26 Втр 12:02:24 #177 №1553990

У мистралей анальные законодательные ограничения, я вобще удивлен что они что то выпустили. Но конечно им бы ультануть с аналогом квен3.5 35ь, как в свое время был микстраль.
Такая большая хуйня не туда не сюда, вынь да полож минимум 128-96 гб рам, или в худшем случае врам.
Кому и зачем этот выпуск не совсем понимаю.

Аноним 17/03/26 Втр 12:05:37 #178 №1553991 DELETED

На лохито какая-то контора толкает гробешник с 256 гигов ддр4 с полуживым тредриппером (ошибки по одному ядру) и физически покоцанной, но функциональной мамкой.

Есть вероятность, что ценник снизят и/или продадут оперативаку отдельно. Мб будет шанс урвать 256 гигов тысяч за 50.

>>1553932
У меня этот на десктопе работает, а на мобилке нихуя.
мимо

Аноним 17/03/26 Втр 12:45:34 #179 №1554025

>>1553990
Да у всех ограничения. А кто не ограничен, тот лоботомит без характера. Для кума с рп нужно тренить отдельную модель, которая будет учитывать характеры, роли, трейты и всё остальное, что критически важно для персонажки. А пока что у нас либо ванильный рефьюзокал с более-менее интой, либо есмен-лоботомит, который вообще не вдупляет что происходит.

Аноним 17/03/26 Втр 12:53:07 #180 №1554041

image.png

Скачал квант анслопа, а он нихуя не работает. Прямо полностью, даже ответ не генерит. Захожу к ним, а они его минуту назад перезалили, как и еще пару квантов. Это при том, что кванты LMStudio залиты еще вчера и работают. Ебанные говноделы, я в ахуе, что их до сих пор кто-то защищает

Аноним 17/03/26 Втр 12:56:01 #181 №1554045

>>1554041
Терпим.

Аноним 17/03/26 Втр 12:59:36 #182 №1554049

>>1554045
Не терпим. Поляк уже выложил кванты
https://huggingface.co/bartowski/mistralai_Mistral-Small-4-119B-2603-GGUF

Аноним 17/03/26 Втр 13:01:33 #183 №1554053

>>1554049
Шустрый какой.

Аноним 17/03/26 Втр 13:06:27 #184 №1554057

>>1554041
Пох, мне все равно только iq4xs годятся по размеру. Как и другим, с 64GB рамы. Уже есть, кстати. https://huggingface.co/bartowski/mistralai_Mistral-Small-4-119B-2603-GGUF

Аноним 17/03/26 Втр 13:26:41 #185 №1554071

>>1553860
> на опенроутер
Щас он будет рассказывать тебе, как на опенроутерах q2 лоботомитов подсовывают.

Аноним 17/03/26 Втр 13:28:39 #186 №1554072

>>1553974
Анима жи есть.

Аноним 17/03/26 Втр 13:34:12 #187 №1554083

Сколько степ-флеш выдаёт на чисто процессоре без видеокарты?
У меня 128+32, я скачал квант, который весит 130, то есть без видеокарты я его не могу запустить.

Получилось на threadripper 1920 + ddr4 2933 мгц + v100 (pcie x8) pp около 20/s (но это некорректное число, я батч мелкий поставил), tg стабильно 15.67/s. Не 15.6 и не 15.7, а стабильно как часы 15.67/15.68, как на пустом контексте, так и на 30к токенов.

Аноним 17/03/26 Втр 13:36:21 #188 №1554085

>>1554072
2б огрызок который каким то образом знает 100к авторов, медленнее нуба х3

Аноним 17/03/26 Втр 14:15:33 #189 №1554122

>>1553744
Промпты почисти. Многие модели подобные метафоры пытаются делать если требовать художественности и прочего, они припезднутые но в нормах языка.
>>1553831
> Без ризонинга она лишь немного лучше 24b мистраля
Есть такое, в начале там не ясно кто кого. Но на контекстах уже ощутимое преимущество за новым. Если про язык на контексте говорить - практически нет ошибок словообразования а на 3.2 часто замечаешь, со склонениями сильно больше и речь другая. Если накинуть сложности - в чатах где 3.2 пускает слюни это кое как ориентируется.
То же и с восприятием языка. В готовой сессии -кода с норм контекстом и целиком русским чатом новый сразу продолжает делать, а 3.2 капитально теряется. Когда основное общение на английском вроде так не аутирует, но все равно тупит.
> Раз они четвертый смал сделали 119b, то ждем лардж на триллион
Бахнул бы кто ~200б модельку общего назначения с вижном, вот было бы отлично. 235вл - жалкая соевая тень 235, да и хочется последних датасетов.

Хз чего вы носом воротите, буквально дали модельку, которую тут все хотят.

>>1553840
Звучит так, что можно ожидать проблем, так что действительно лучше не спешить.

Аноним 17/03/26 Втр 14:24:55 #190 №1554133

Есть смысл пытаться поставить 120b модель на 12 vram + 42 ram? Или хуйня затея? Если не хуйня, в третьем и самом обосранном кванте будет хотя бы терпимо?

Ещё у меня есть p104 8 vram (тогда можно видеопамять увеличить до 20), но вроде бы у MoE там катастрофическое падение скорости всегда из-за накладных расходов, если размазать по двум видюхам и ещё в оперативку засунуть, по крайней мере такое у меня было на 30б, когда я для интереса попробовал не не 3060 + RAM, а 3060 + р104 - RAM. Не знаю, это я обосрался или просто такой режим работы плохая идея.

Аноним 17/03/26 Втр 14:32:07 #191 №1554140

Пробуйте новый мистраль, отписывайтесь. Я жду.

Аноним 17/03/26 Втр 14:32:35 #192 №1554141

>>1554133
Не взлетит. Даже с 64 гигами оперативки получишь дерьмо, ведь еще надо контекст куда-то загружать, то есть сама модель будет лоботомитом.

Аноним 17/03/26 Втр 14:34:25 #193 №1554145

>>1554122
А ну-ка, кто тут хочет вонючую 6б когда есть эир?

Аноним 17/03/26 Втр 14:36:23 #194 №1554149

>>1554140
>Пробуйте новый мистраль, отписывайтесь. Я жду.
Да все ждём. Мистраль всё-таки.

Аноним 17/03/26 Втр 14:40:34 #195 №1554153

>>1553853
> Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше
База. Но скорее просто коупить что все не нужно.
>>1553860
Железо подорожало с момента покупки чуть ли не в разы, можно считать инвестицией.
> на опенроутер и кумить на нормальной модели в fp8
На опенроутере много шмурдяка, логи и он дорогой. Зачем оно нужно, если можно катать те же фп8 у себя со скоростями, которые узники считают невозможными?
Лучше оставить его в качестве плана б обладателям отсутствия которые даже оплатить его не смогут

Аноним 17/03/26 Втр 14:41:13 #196 №1554154

Давайте так если там русик на уровне 120б милфомистрали я даже скачаю

Аноним 17/03/26 Втр 15:03:00 #197 №1554167

> 3x 3090
или
> 4х 5060 Ti 16GB

Настораживает вопрос поддержки драйверами и внедрение этих ваших NVFP4. В итоге, щито лучше?

Аноним 17/03/26 Втр 15:05:56 #198 №1554169

>>1554167
Укажи подробнее что планируешь делать и куда их вставлять.

Аноним 17/03/26 Втр 15:06:56 #199 №1554170

>>1554167
Очевидный блеквел очевиден

Аноним 17/03/26 Втр 15:07:51 #200 №1554171

>>1554167
Задолбаешся веса по 4x16 раскидывать. Оно еще и ложиться будет не как тебе хочется, а как слои лягут. Будь готов с каждой карты по гигабайту потерять.

Аноним 17/03/26 Втр 15:09:07 #201 №1554172

>>1554169
Да просто для чатика.
> куда их вставлять.
В маманю с х16х8х16х8 4.0, остальное не важно.
>>1554170
А не будет ли проеба по скорости генерации? Я боюс.
>>1554171
Ну вот это и пугает, с другой стороны, немного теряется и на 3090х...

Аноним 17/03/26 Втр 15:22:44 #202 №1554175

>>1554172
> Да просто для чатика.
Тут понятие довольно широкое и в зависимости от кейса разные критерии. Типа одно дело - быстрая работа моделей поменьше, другое - попытки впихнуть максимальную и похуй на скорость.
Судя по линиям там платформа жирная, так что возможны оба варианта. А 4х 3090 не хочешь рассмотреть? Типа аргумент 4х карточек довольно весомый здесь потому что это тп4, но в 64гига 5060ти мало что влезет и они сами по себе слабые, из плюсов только простота размещения. На 3090 тоже есть проблемы с w8a8, местами упираются по компьюту, габаритные и требуют мощного питания. Но в целом все поддерживается, памяти и вычислительной мощи больше, топ за свои деньги.
Если рам будет достаточно - с такой конфигурацией на 4х 3090 сможешь быстро катать весьма крупные модели.

Аноним 17/03/26 Втр 15:28:35 #203 №1554181

>>1554175
Да у меня уже есть парочка 3090, я думаю не иду ли я по дорожке вникуда, докупая третью или даже четвертую. Сколько вот лет они останутся актуальными еще.

> попытки впихнуть максимальную и похуй на скорость.
Все ограничено RAM и клятыми МоЕ-моделями. Если появится плотняк, который будет генерировать достойную писанину и влезать в VRAM - с радостью соскочу на него.

Аноним 17/03/26 Втр 15:31:31 #204 №1554186

>>1553805
>Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти
Это хлам, надо хотя бы 3060/12, тысячу раз уже обсуждали. Ты бы ему еще 3050/8 посоветовал, лолъ

Аноним 17/03/26 Втр 15:35:46 #205 №1554191

>>1553869
Unsloth/Ministral-3-14b, очевидно же.
Qwen3.5 какой-нибудь.

Аноним 17/03/26 Втр 15:45:30 #206 №1554196

>>1554186
Я не знал что существует 3060 на 12 или 3050 в принципе (4050 же нет вроде?). Ну и у него 16 гб оперативы, бюджет соответствующий, что выпало дешёвое на авито, то и посоветовал.
Ему и 3050/8 даст х10 скорости на qwen-9b.

Аноним 17/03/26 Втр 15:53:16 #207 №1554198

>>1554196
прирост-то даст, но 12Gb даст возможность упихать толстый квант.

Аноним 17/03/26 Втр 16:11:42 #208 №1554204

>>1554141
Эх, как же хуёво. Надо было много оперативки раньше набрать.

Аноним 17/03/26 Втр 16:14:01 #209 №1554207

>>1554181
Сейчас эпоха агентов и различных применений языковых моделей, потому именно тормознутый запуск по популярной здесь методе будет становиться менее популярным. Благо ей есть хорошие альтернативы и путь для эволюции. На фоне этого в 1.5 раза больший объем врама и компьют будет серьезными аргументами.
Ампер отживает свое, но для него все еще будут обновляться кернели. А 5060ти считай и не жила вовсе, слишком слабая. Если там платформа с pci-e 4.0 (или не дай бог вообще 3.0) то и париться об устаревании нет смысла.

Аноним 17/03/26 Втр 16:54:32 #210 №1554228

>>1554141
Да купите вы 2 плашки по 64гб. 128гб оперативы за 100к.

Аноним 17/03/26 Втр 17:20:37 #211 №1554241

image.png

>>1554228
128 - хуйня мелкая. Надо 256.

Аноним 17/03/26 Втр 17:26:54 #212 №1554245

>>1554228
ддр4? Добро пожаловать в зионо тред хех

Аноним 17/03/26 Втр 17:58:40 #213 №1554278

>>1554049
>>1554057
Обратил внимание, что появилась еще вот такая штука:
https://huggingface.co/noctrex/Mistral-Small-4-119B-2603-MXFP4_MOE-GGUF
Спросил Грока что за хрень - он говорит, что эти кванты немного медленнее, но по качеству обычно сравнимы с обычными Q5 при размере близком к iq4xs. Т.е. для тех у кого конфиг 24+64 может быть заманчиво. Интересно - это действительно так, или брешет? Сам сегодня-завтра проверить не смогу, буду у машины только позже... :(

Аноним 17/03/26 Втр 19:11:57 #214 №1554362

Что не так с Qwen3.5-9b gguf от unsloth и батрухи?
Выдает кашу из символов в llama.cpp. Дело в том, что она не instruct? Как вообще с ними в диалог/кодинг выходить-то? Qwen2.5-coder из коробки работал.

Аноним 17/03/26 Втр 19:12:04 #215 №1554363

r8DtaQAUB.jpg

>>1553729
Нету. Спроси у анонов. CunnyConnoisseur был довольно таки популярным ботоделом, до того как был забанен. Так что у кого-то должна была сохранится.

Аноним 17/03/26 Втр 19:14:15 #216 №1554367

>>1554362
Опять сломали? Там как автоматический парсер сделали так началась шляпа с моделями и вызовом инструментов. Скачай релиз недели на 2 раньше проверь снова

Аноним 17/03/26 Втр 19:18:44 #217 №1554373

>>1554367
Тестил на версиях 8192 и 8392 и там, и там беда. Завтра попробую что-то двухнедельное качнуть.

Аноним 17/03/26 Втр 19:27:16 #218 №1554383

>>1554363

Скиньте, братцы, всю удалённую годноту. Я вам спасибо скажу.

Аноним 17/03/26 Втр 19:34:21 #219 №1554392

>>1553708
лупится как мразь. ужас, софт рефьюзит постоянно, зря качал это говно

Аноним 17/03/26 Втр 19:37:46 #220 №1554398

Бляять эир такое гавноо...
Дайте модельку которая лучше следует карточке, персов оживляет там, в стереотипы не уходит

Аноним 17/03/26 Втр 19:52:08 #221 №1554408

>>1554398
Эиру почти год, а ты его так и не осилил и продолжаешь скулить как смердящий пес
Похоже таково твое призвание

Аноним 17/03/26 Втр 20:03:43 #222 №1554420

>>1554398
>Дайте модельку которая
>в стереотипы не уходит
Вот этот ничего про ЛЛМ так и не понял. И ведь в лучшем случае каждый второй такой.

Аноним 17/03/26 Втр 20:09:17 #223 №1554424

>>1554408
Какой год, он пару месяцев назад вышел.

Аноним 17/03/26 Втр 20:12:22 #224 №1554429

>>1554424
Прошлогодний, как салат

Аноним 17/03/26 Втр 20:12:36 #225 №1554430

>>1554424
Июнь 2025. Ты в бункере? Тоже хочу.

Аноним 17/03/26 Втр 20:14:30 #226 №1554432

>>1554430
Ебать, что-то я во времени потерялся.

Аноним 17/03/26 Втр 20:16:54 #227 №1554439

>>1554432
Та же хрень. Это ЛЛМ нас квантуют помаленьку. Скоро совсем соображать перестанем. Заговор Кобольдов.

Аноним 17/03/26 Втр 20:19:03 #228 №1554442

Скачал Мистраль IQ4XS от бартовски. В итоге у меня модель не может обработать средний текст на 32к токенов. Где-то на середине скорость так замедляется, что почти останавливается. На других мое все норм. Есть что-нибудь похожее у кого-то?
Лама b8390, 16+64, ncmoe 30, b/ub 4096, mmap вырублен

Аноним 17/03/26 Втр 20:26:37 #229 №1554449

image.png

>>1554278
Ты сидишь в ллм треде, причем в треде локалок, где нужно больше знаний, и при этом веришь слопу нейронок? Перестань
На скрине кванты анслопа для квена 122. MXFP4 и близко до Q5 не дотягивает. Обычный Q4, но расхайпен гопотой

Аноним 17/03/26 Втр 20:29:34 #230 №1554454

>>1554449
>MXFP4
Эта хрень годится только для сеток которых тренировали в 4 бит или чето такое, не помню, если нет то этот квант хуже обычного 4 бит.
Недавно анслоту пришлось переделывать все свои квены изза того что они были не качественными как раз изза этих квантов.

Аноним 17/03/26 Втр 20:33:53 #231 №1554456

>>1554278
Если правильно сделаны - да, это так, по скорости все ок. Если их просто дергать из других квантов, и потом упарывать другие слои, которые оставались в оригинале при калибровке, или гнать без адаптации - будет на уровне bnb.
Также есть еще вариация от амд а ля nvfp4, где предполагается также и квантование активаций, но с таким конфигом ты ее не встретишь.
>>1554398
Квен, новый мистраль. Обе умницы и очень разные.

Аноним 17/03/26 Втр 20:40:47 #232 №1554458

Нанасы, какую мелкомодель взять для перевода с русского на английский? Пытаюсь в генерацию картинок по этому нужно дохуя чего переводить, а гугл и яндекс вообще для этого не подходят.

Туда же вопрос, я ведь могу одновременно катать и зигу и дефолтную ллм, если есть место в оперативке? Не будет никаких конфликтов или типа того?

Аноним 17/03/26 Втр 20:47:38 #233 №1554463

>>1554458
По переводам лучший квен. Бери квант под своё железо.

Аноним 17/03/26 Втр 20:49:59 #234 №1554466

>>1554463
Про квант итак понятно, но квенов много всяких, какой именно брать?

Аноним 17/03/26 Втр 20:58:13 #235 №1554477

>>1554466
Смотря что тебе переводить надо. Если что-то из категории cursed, то бери аблитку, еретика или анценз.

Аноним 17/03/26 Втр 21:00:34 #236 №1554480

>>1554477
Курсед нет смысла переводить, модель этого не сгенерирует. Так что обычный около-сейфти, за исключением может сисика писика в кадре и типа того.

Меня больше интересует размер - около лярда параметров хватит, или лучше взять побольше, около четырех.

Аноним 17/03/26 Втр 21:03:08 #237 №1554482

>>1554480
Перевод НА русский вот это лучшая из гемм
gemma-3n-E4B-it
4b старовата, 12 27 лучше но большие
По идее на английский они тоже с русского должны хорошо переводить.

Аноним 17/03/26 Втр 21:04:03 #238 №1554485

>>1554458
Если нищий, то гемма 12б либо квен 35б/20б гпт осс. Если не совсем нищий, но и не богатый, то гемма 27б. Квен 27б всё ещё хуже в переводах. Про модели меньше не знаю.

А вообще, для такой хуйни грока можешь юзать, он тебе там напереводит для 1girl, loli, ugly bastard, cervix, x-ray, creampie, ahegao.

Вот только запуск локалки чисто в оперативке, если это не МоЕ, может быть весьма болезненным.

Или ты используешь локалки, которые понимают не теги, а МОЛОДАЯ ЖЕНЩИНА В ШКОЛЬНОЙ УНИФОРМЕ, СИДЯЩЯЯ ПОД НЕБОМ, ОСВЕЩАЕМЫМ НОЧНОЙ ЛУНОЙ У РЕКИ...

?

Аноним 17/03/26 Втр 21:04:58 #239 №1554486

>>1554449
Чел, я как бы, потому вопрос и задал, что не верю им без проверок.
Просто оно как-бы совсем мимо меня прошло, а отправную точку с которой начинать вникать - спросить у грока или у гугла, ныне разница небольшая. :)

>>1554454
Это про gpt-oss вероятно. Там кажись как раз они. Правда unslop-ы - не показатель, IMHO. Они и без них сломать горазды. :)

>>1554456
В общем, что-то такое я и подозревал.

Спасибо, за ответы всем.

Аноним 17/03/26 Втр 21:08:39 #240 №1554491

>>1554482
Попробуем

>>1554485
Нищий, так что да. Мой выбор где-то в районе 4B, потому что на другое оперативки свободной не хватит. Использую обычный z-image-turbo, там на кодировщике квен-3-4B, он текст всех видов жует.

Аноним 17/03/26 Втр 21:19:40 #241 №1554497

>>1554442
Чёт тоже при заполнении контекста скорость падает в 0.

Аноним 17/03/26 Втр 21:40:12 #242 №1554525

Ну че, кто хочет играть вновь поиграть в игру "наеби меня китаец"? Без отзывов, новый продавец - все как мы любим. Вкуснейшие 28к за 32 гб, налетайте!

https://aliexpress.ru/item/1005011755498353.html

Чего не смеетесь? Не смешно, да? Не поняли? Это Россия Китай-брат миска рис!.webm

Аноним 17/03/26 Втр 21:45:24 #243 №1554538

Подскажите, как в таверне увеличить список чатов. У меня их штук 20 тестирую разных персонажей но отображается только 15. А как сделать чтоб остальные появились?

Аноним 17/03/26 Втр 22:02:44 #244 №1554561

>>1554525
Только кинул ссылку в тред - и уже кто-то втихую как крыса купил, а на пост не ответил. Мм, можешь не отвечать, крыска, я подожду твоего сладенького отзыва с фоточками погнутых пинов или ошибок памяти...

Аноним 17/03/26 Втр 22:04:28 #245 №1554564

>>1554561
Анон, это вполне может быть кто то не из треда. Но цена сладка да. Слишком сладкая.

Аноним 17/03/26 Втр 22:10:42 #246 №1554571

>>1554564
Этому объявлению минимум день. Скидываю в тред - сразу две покупки. Ну да, конечно же это не местная крыска.

Аноним 17/03/26 Втр 22:12:52 #247 №1554574

Ну что вы- староверы, уже перешли на Chat completion?

Аноним 17/03/26 Втр 22:13:21 #248 №1554577

изображение.png

>>1554561
>втихую как крыса купил
Не я. Я капчу не хочу проходить.

Аноним 17/03/26 Втр 22:13:33 #249 №1554578

>>1554571
Кроме тебя найти конечно никто больше не мог. Ведь только нам нужны карточки. Ога.

Аноним 17/03/26 Втр 22:21:30 #250 №1554585

>>1554578
Крысик, спок.

Аноним 17/03/26 Втр 22:29:33 #251 №1554590

image.png

>>1554525
Категория просто ахуенная. Это штора или завес? Зачем ты предлагаешь купить дверной и оконный экран,
匿名的?

Аноним 17/03/26 Втр 22:37:30 #252 №1554595

>>1554590
Лол, анону платы от лифта прислали, а тут занавеску положат. Обмотаешься, закроешь глаза, и погрузишься в медитативно-иммерсивный ролеплей. Только выиграли!

Аноним 17/03/26 Втр 22:38:03 #253 №1554596

>>1554525
А можно там комментарии загодя оставлять? По типу - если наебешь, то приеду и ебало набью.

Аноним 17/03/26 Втр 22:43:05 #254 №1554602

КТо то наверняка уже пробовал кум модели прикрутить к порно сборнику скайрима. Потенциал есть или игрушка на один раз?

Аноним 17/03/26 Втр 22:44:22 #255 №1554604

>>1554561
Я на 99.99996% уверен что по подобным горяченьким в наши непростые времена запросам десяток парсеров бегает проверяет нонстопом. Если это не какой-то уникальный лот с доступом только по ссылке, то врятли купил анон

Аноним 17/03/26 Втр 22:44:38 #256 №1554605

>>1554241
256 тоже такое себе. На терчике уже можно жить норм

>>1554564
>>1554561
За такую цену в Китае прям пишут мол "ошибки по памяти, на работу не влияет" лол

Аноним 17/03/26 Втр 22:53:53 #257 №1554614

Почему все тианочки готовят мне макароны с сыром... я не люблю макароны...

Аноним 17/03/26 Втр 23:12:16 #258 №1554622

>>1554604
Пост >>1554571 не читай @ сразу отвечай

>>1554605
Там вроде есть различия, корректируются ли ошибки или нет. Типо в нвидия сми можно запросить инфу, сколько ошибок было скорректировано. Они на работу действительно не влияют, разве что замедлять могут, если их целый вал. Но целый вал - это, конечно, уже симптом, и рано или поздно это приведет к неисправимым ошибкам, а вот при них карта действительно лапки кверху делает, насколько я видел скрины. Вроде там даже ERR еачинает писаться в текущем потреблении питания.

Аноним 17/03/26 Втр 23:13:53 #259 №1554624

image.png

Лежат две сетки
>GLM-4.5-Air-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL-v2
>Qwen_Qwen3.5-122B-A10B-IQ3_XS
>59.9GB | 50.1GB

Какую оставить? Не заядлый пользователь ллм, не могу определить, да и обе хуйню надмозговую выдают.

Какой пресет юзать? С пресетом GLM-4 на Qwen вылезают ошибки форматирования, генерит лишнее.

Аноним 17/03/26 Втр 23:29:33 #260 №1554630

>>1554624
Сноси обе. А для первой найди нормальный IQ4XS квант от bartowski - и будет нормально писать. На английском - потому, что Air в русский нормально не может в принципе.

Аноним 17/03/26 Втр 23:34:54 #261 №1554633

>>1554622
Ошибки в одном бите корректируются на лету, а вот мультибитные только детектируются и досвидули. Обычно как раз обилие первых - симптом и потом приходят вторые, с ними карта уже мертва.
>>1554624
> вылезают ошибки форматирования
Наверно потому что нужен чатмл, не думал об этом?

Аноним 17/03/26 Втр 23:37:21 #262 №1554634

image.png

Кто-нибудь знает почему квены 3.5 27b иногда останавливаются? Только у квенов может остановится с нихуя, копка "продолжить" пересчитывает контекст пару секунд и сдаётся.
Контекст с большим запасом, у Геммы такой проблемы не было, llama.cpp, Ban EOS Token пробовал, пресет - Qwen 3.5 27B Instruct or non-thinking mode for general tasks.

Аноним 17/03/26 Втр 23:41:41 #263 №1554638

>>1554634
Возможно ламокал ломает тебе генерацию. Ну или в семплере насрано. Ну или ты просто токены недодал. Причём тут контекст вообще...

Аноним 17/03/26 Втр 23:42:25 #264 №1554639

>>1554634
Квен 3.5 на жоре вроде багован.
На вллм он оч долго прогревается, и просто долго пердит до первого токена

Аноним 17/03/26 Втр 23:47:27 #265 №1554643

>>1554634
>Кто-нибудь знает почему квены 3.5 27b иногда останавливаются?
"Ты уже перестала пить коньяк по утрам?"(с)
Никогда сам не наблюдал, и не встречал нигде упоминаний от таком. Вероятно - где-то у тебя персонально что-то нахимичено. Если это не порог вывода (не размер контекста а именно количество возможных новых токенов), то где-то что-то ему за стоп-токен мерещится. Других идей нет...

P.S. Порог вывода может быть в backend установлен. Скажем, если ты для запуска llama.cpp откуда-то просто строку ключей скопировал - там может быть.

Аноним 17/03/26 Втр 23:47:31 #266 №1554644

>>1554634
У меня он сегодня тупо падал с ней, сервер. Кеш рам отключал, потоки на 1 ставил, флеш тыкал - все не то.

Аноним 17/03/26 Втр 23:55:55 #267 №1554656

Надо написать курсовую работу. Хочу попробовать провернуть это через LLM.

Предмет гуманитарный, юридический. Есть какие-нибудь варианты?

Аноним 17/03/26 Втр 23:58:32 #268 №1554659

>>1554630
https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF/tree/main/zai-org_GLM-4.5-Air-IQ4_XS
Это? 4.6 и 4.7 не то?

Аноним 18/03/26 Срд 00:24:24 #269 №1554681

>>1554656
не на локальной точно, бери максимально жирную копромодель с доступом в интернет и пиши

Аноним 18/03/26 Срд 00:25:40 #270 №1554682

>>1554245
в Эпико-тред

Аноним 18/03/26 Срд 00:30:10 #271 №1554685

Посоветуйте модельку для кума. Такую, чтоб не тянула с прелюдиями и не мутила всякую похабщину.

Аноним 18/03/26 Срд 00:39:53 #272 №1554691

>>1554634
Да, останавливаются. И 122 тоже. на много раундных чатах или в агентском цикле. Особенно на контексте больше 65k . В логах EOS единственным токеном и как следствие пересчет контекста. А потом еще и еще. Че я только не делал с этим говном - немного помогает продлить мучения увеличение батчей.
"Если б мы знали что это такое..."

Аноним 18/03/26 Срд 00:43:12 #273 №1554694

>>1554681
> максимально жирную копромодель
Какую например?

Аноним 18/03/26 Срд 00:47:30 #274 №1554697

>>1554694
за этим лучше в aicg тред, а то щас тут мне за щеку дадут
я бы наверное или Клодик или Гемини брал бы под такое дело, платную (на перплексити.аи можно кста получить месяц фри триала если студент и там в целом несколько моделей доступно от разных провайдеров)

Аноним 18/03/26 Срд 00:49:42 #275 №1554700

>>1554656
Какова степень автономности? Вычитка куда ни шло, если "напиши за меня курсач" то тебя выебет антиплагиат ну или не выебет, но тогда твоя шарага вообще бесполезна и нахуй там учиться

Аноним 18/03/26 Срд 00:59:58 #276 №1554704

>>1554700
> Какова степень автономности?
Ну хуй знает. Главное чтобы ахинею не порола и желательно чтобы ссылалась на нормативно-правовые акты.
> выебет антиплагиат
Вроде у нас курсовые не проверяют на антиплагиат, только ВКР. вузик шаражный, сижу ради диплома

Аноним 18/03/26 Срд 01:02:06 #277 №1554709

>>1554700
Достаточно будет если один параграф текста на 3-4 страницы А4 напишет по плану

Аноним 18/03/26 Срд 01:12:56 #278 №1554715

>>1554634
В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс.

Потыкав 122б в q4 поддвачну остальных ораторов - жора сломал очередную модель. Не сказать на самом деле что прямо плохо, но она тупит, выдает странные ассоциации, внезапную сою, те самые регулярные лупы в ризонинге (они и в нормальном кванте-инфиренсе возможны, но в 0.27% случаев по выборке из 120к запросов без presence/rep pen).
>>1554639
> долго прогревается
Jit же, любой первый проход любой модели долгий, может несколько минут занять. Когда кэш сохранен то за 20-30 секунд подтянет.
Это ты еще не видел как tpu собирается, там вообще можно на пол часа чай пить уходить.
>>1554691
> и как следствие пересчет контекста
Как это следует из eos токена?

Аноним 18/03/26 Срд 01:28:11 #279 №1554720

>>1554715
> Jit же
Не, вллм при старте там себе графы строит, греет всё минут 10-15, потом первый запрос секунд 10 до обработки непосредственно, далее мгновенно обычно. У квена 3.5 110 всё прям очень неторопливо, но сразу скажу что у меня форк чисто под мишки, мб там что то напартачено

Аноним 18/03/26 Срд 01:29:54 #280 №1554722

>>1554715
>Как это следует из eos токена?
Неисповедимы пути жоры...

slot update_slots: id 0 | task 6305 | prompt processing done, n_tokens = 74993, batch.n_tokens = 4
slot print_timing: id 0 | task 6305 |
prompt eval time = 148879.88 ms / 74993 tokens ( 1.99 ms per token, 503.71 tokens per second)
eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, 1000000.00 tokens per second)
total time = 148879.88 ms / 74994 tokens
srv log_server_r: done request: POST /chat/completions 127.0.0.1 200
slot release: id 0 | task 6305 | stop processing: n_tokens = 74993, truncated = 0
srv update_slots: all slots are idle
srv params_from_: Chat format: peg-native
slot get_availabl: id 0 | task -1 | selected slot by LCP similarity, sim_best = 1.000 (> 0.100 thold), f_keep = 1.000
slot launch_slot_: id 0 | task -1 | sampler chain: logits -> ?penalties -> ?dry -> ?top-n-sigma -> top-k -> ?typical -> top-p -> min-p -> ?xtc -> temp-ext -> dist
slot launch_slot_: id 0 | task 6344 | processing task, is_child = 0
slot update_slots: id 0 | task 6344 | new prompt, n_ctx_slot = 121088, n_keep = 0, task.n_tokens = 74993
slot update_slots: id 0 | task 6344 | need to evaluate at least 1 token for each active slot (n_past = 74993, task.n_tokens() = 74993)
slot update_slots: id 0 | task 6344 | n_past was set to 74992
slot update_slots: id 0 | task 6344 | n_tokens = 74992, memory_seq_rm [74992, end)
slot update_slots: id 0 | task 6344 | failed to truncate tokens with position >= 74992 - clearing the memory
slot prompt_clear: id 0 | task 6344 | clearing prompt with 74992 tokens
slot update_slots: id 0 | task 6344 | prompt processing progress, n_tokens = 2048, batch.n_tokens = 2048, progress = 0.027309
slot update_slots: id 0 | task 6344 | n_tokens = 2048, memory_seq_rm [2048, end)

slot update_slots: id 0 | task 111 | prompt processing progress, n_tokens = 110375, batch.n_tokens = 341, progress = 0.999964
srv update_slots: decoding batch, n_tokens = 341
set_adapters_lora: adapters = 0000000000000000
adapters_lora_are_same: adapters = 0000000000000000
set_embeddings: value = 0
srv update_slots: run slots completed
que start_loop: waiting for new tasks
que start_loop: processing new tasks
que start_loop: processing task, id = 112
que start_loop: update slots
srv update_slots: posting NEXT_RESPONSE
que post: new task, id = 113, front = 0
slot update_slots: id 0 | task 111 | n_tokens = 110375, memory_seq_rm [110375, end)
slot init_sampler: id 0 | task 111 | init sampler, took 12.12 ms, tokens: text = 110379, total = 110379
slot update_slots: id 0 | task 111 | prompt processing done, n_tokens = 110379, batch.n_tokens = 4
slot update_slots: id 0 | task 111 | created context checkpoint 15 of 32 (pos_min = 110374, pos_max = 110374, n_tokens = 110375, size = 149.626 MiB)
srv update_slots: decoding batch, n_tokens = 4
set_adapters_lora: adapters = 0000000000000000
adapters_lora_are_same: adapters = 0000000000000000
set_embeddings: value = 0
Grammar still awaiting trigger after token 248044 (`<|endoftext|>`)
res send: sending result for task id = 111
res send: task id = 111 pushed to result queue
slot process_toke: id 0 | task 111 | stopped by EOS
slot process_toke: id 0 | task 111 | n_decoded = 1, n_remaining = -1, next token: 248044 ''
slot print_timing: id 0 | task 111 |
prompt eval time = 1702.67 ms / 345 tokens ( 4.94 ms per token, 202.62 tokens per second)
eval time = 0.00 ms / 1 tokens ( 0.00 ms per token, 1000000.00 tokens per second)
total time = 1702.68 ms / 346 tokens
srv update_chat_: Parsing chat message:
Parsing PEG input with format peg-native:
srv stop: all tasks already finished, no need to cancel

Аноним 18/03/26 Срд 01:34:41 #281 №1554728

1773786883154.jpg

>>1551135 →
Допечатал морду и по мелочи, завтра обещают доставить боковины акриловые с лазерной резки.
Перед вышел 850 грамм, печатаю вставки для дизайна

Аноним 18/03/26 Срд 01:36:03 #282 №1554729

>>1554691
У меня (27b) размер контекста вообще не имеет значения, в любой момент может остановиться и все. Но у меня Presence Penalty занижен по сравнению с официально рекомендуемыми, повышая можно избавится от блока но генерирует шизу.
>>1554715
>В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс.
Да, все правильно. Это точно ни какая-нибудь NSFW блокировка?

Аноним 18/03/26 Срд 01:59:05 #283 №1554739

Короче, такая инфа по Qwen 3.5 27b.

Ему обязателен километровый промпт, чтобы он нормально писал, в отличие от более старых версий и других моделей плюс-минус такого размера.

Хочешь какое-то RPG? Будь добр рассказать, как должен описываться бой, окружение, диалоги, вообще всё. Детально.

Хочешь кум? Ну тут тебе надо составить большой список, каким деталям стоит уделять внимание. Что там у тян может трястись, чем хуй может брызгать.

Да, он работает и без этого, но сухо, очень сухо. Любая срань, даже немо способна на на это лучше из коробки с промптом в два предложения, но есть нюанс. Они не выполняют инструкции, кроме геммы, а квен выполняет вполне, даже если ты прилично так насрал.

Если прописано всё прям подробно, то довольно урчишь, так как контекст лёгкий, внимание к нему есть, 70к токенов хватит всем. Но грамтный и универсальный системный промпт для РПГ, кума, кума + РПГ далеко не всегда спасает. Часто надо дорабатывать, чтобы не тыкать его по ходу РП носом.

Если делать карточку прям с упором именно на этот квен и его особенности, то разница поразительная. Крайне неудобно, но идеально для тех, кто гоняет 3 карточки по 2 месяца и довольно урчит.

Сейчас посыпятся обвинения, что скилл ишуе, но нет. Ни одна модель так меня не опрокидывала, даже корпы. Последим можно вообще в ебало харкать общими фразами и будет идеально, а всяким мистралям 24б вообще похуй, что ты там писал. Это может быть даже вредно из-за рассеянного внимания.

Аноним 18/03/26 Срд 02:06:06 #284 №1554744

>>1554739
Я все чаты для всех моделей делаю в формате романа, с фейковыми рецензиями описывающими что там должно внутри быть и цитатами случайных параграфов в качестве образца прозы

Аноним 18/03/26 Срд 02:10:18 #285 №1554746

>>1554720
Очень зависит от используемых ядер, бэкенда атеншна и конфигурации. Как-то накрутил так, что 397 в пп режиме компилировалось настолько долго что запрос по таймауту улетел. Набор графов это несколько другое, все равно первый проход думает и доиспользует врам.
Когда раз собралось уже норм, тут больше проблема в очень долгой загрузке весов с тп. Не то чтобы это прям большой минус, пофиг.
>>1554728
Вообще выглядит огонь. Пожалуй себе также сделаю с торцов, держи почтение за идею.
>>1554729
> Это точно ни какая-нибудь NSFW блокировка?
Хз, не встречал такого, это странно. Попробуй просто другой квант скачать.

Аноним 18/03/26 Срд 02:57:58 #286 №1554757

>>1553708
Говно, выставил все рекомендованные настройки и промпт - в историях несостыковки сплошные, вроде того что перс знает другого, когда они первый раз видятся и ведет себя, как будто 100 лет знакомы, зачем то называет свои данные и прочее такое.
Самый говняный микс, какой пробовал, к тому же тормознутый в сравнении с тем же HauHau.

Аноним 18/03/26 Срд 03:04:13 #287 №1554758

>>1554739
Да, примерно к тому же пришел, нужна расписанная карточка. Теперь осталось выяснить лучший микс квена. Потому что все дают разные результаты даже с хорошей карточкой. Пока нравится Claude-4.6-OS-Auto-Variable-HERETIC-UNCENSORED-THINKING.IQ4_XS, вроде как самые проработанные истории дает.

Аноним 18/03/26 Срд 03:23:09 #288 №1554759

>>1554739
Не, я тебя обвинять точно не буду - я уже писал отзыв про него, и мнение у меня примерно такое же.
Модель для тех, кому не влом все настроить под свой вкус. Кому надо кнопку "сделать зашибись" - пролетают мимо.

>>1554758
Мне пока зашли - ансензор версия от двучлена и BlueStar.

Аноним 18/03/26 Срд 04:43:52 #289 №1554774

>>1553807
Ого, нихуя себе, классная подсказка, 10.33T/s получилось с 35b, все 41 слоя отгружены на gpu, эксперты на cpu, это повыше чем с любой 9b моделью, там максимум 6.85 t/s бывало. Карточка 1050 еще могет.

Аноним 18/03/26 Срд 05:01:49 #290 №1554776

image

>>1553807
Убрал оффлоадинг тензоров, который с 9b помогал, стало вообще 11.10T/s генерация, это рекорд.
Правда на этой стадии грузит каждый раз что-то по 2 минуты, когда сначала кобольд запускаю, с 9b так не было. Память сразу показывает что загружена 17GB уже. Хз, что он там столько грузит, когда все в памяти.

Аноним 18/03/26 Срд 05:10:37 #291 №1554777

image.png

Ну бля и чего? И что?
С 150к до 185к за пару месяцев, норм "скоро откатит"

Аноним 18/03/26 Срд 05:13:17 #292 №1554778

>>1554777
Пару лет подожди.

Аноним 18/03/26 Срд 06:35:04 #293 №1554789

>>1554759
>ансензор версия от двучлена
Там тащем-то 2 уже от двучлена:
Huihui-Qwen3.5-35B-A3B-abliterated-i1-GGUF
Huihui-Qwen3.5-35B-A3B-Claude-4.6-Opus-abliterated-i1-GGUF

Кто-то сравнивал?

Аноним 18/03/26 Срд 06:46:08 #294 №1554791

>>1554777
Никто не говорил, что к весне упадет, лол. Жди еще полгода-год.
Вспомни, как с чидеокартами было

Аноним 18/03/26 Срд 08:07:44 #295 №1554810

>>1554777
Видюхи падали в цене несколько лет. Терпим.

Аноним 18/03/26 Срд 08:52:19 #296 №1554822

>>1554776
Если веса модели на hdd то так и будет по 2 минуты читать их в память. -fa on или off еще попробуй, для лучшей скорости квант нужен обычный 4км без изьебств с сложными квантами. У бартовски скачай. Впринципе 32к контекста спокойно держит, 64 тоже во врам влазит но скорость обработки падает

Аноним 18/03/26 Срд 08:55:04 #297 №1554823

>>1554822
самый главный аргумент забыл, --no-mmap, иначе оперативку в двойном размере может забить и скорости будут хуже

Аноним 18/03/26 Срд 09:12:30 #298 №1554828

Линг
Квен 80-3
Солар
Квен 120-10
Немотрон 120-12
Мистраль 119-6
💀
Сколько же трупов на счету у эира

Аноним 18/03/26 Срд 09:34:46 #299 №1554835

>>1554828
Стёпу забыл еще

Аноним 18/03/26 Срд 09:35:44 #300 №1554836

>>1554835
По 3.3 bpw не могу судить

Аноним 18/03/26 Срд 10:02:15 #301 №1554842

Я не понял - новый немотрон куртка сама делала? Они же раньше только файнтьюны выпускали.

Аноним 18/03/26 Срд 10:04:48 #302 №1554844

>>1554659
>4.6 и 4.7

Конечно то, просто они большие. У 4.6 есть маленькая V версия, и у нее русик даже лучше 4.5 аир, но она немного глупее, так как испорчена мультимодалочкой.

Аноним 18/03/26 Срд 10:40:25 #303 №1554853

Прогеры и фанаты сои, ваш выход. Высрался Минимакс 2.7

Аноним 18/03/26 Срд 11:06:53 #304 №1554868

>>1554853
ЭТО МЫ КАЧАЕМ
ЭТО МЫ ЕБЕМ
ЭТО МЫ ЛЮБИМ
ОУУУЕЕЕЕЕЕ

Аноним 18/03/26 Срд 11:08:08 #305 №1554869

image.png

Мистраль 4. Вначале работает быстро, но очень быстро скорость падает на дно
Скрин 1- мистралька
Скрин 2 - немотрон
Скрин 3 - квен 122
Скрин 4 - glm 4.6v
Параметры одинаковые - b/ub 4096, 32к контекста и ncmoe, чтобы заполнить 16+64. Это из под винды, на линухе +10-25%, но мистралю это не помогает. Самая медленная залупа, при том, что активных параметров меньше всего
У всех она так работает или проблема только у меня?

Аноним 18/03/26 Срд 11:09:58 #306 №1554871

Продублирую из закреплённого сюда.

У меня родилась просто охуительная идея.
Я хочу обучить нейросетку на свою девушку, дать ей кучу информации о ней, характер, интересы, плюсы, минусы, также скормлю ей переписки за 2 года и распишу кучу разных ситуаций, крч инфы на самом деле прям много.
Сверху ебану умными книжками по психологии, по манипуляциям и по отношениям.
Все это запущу локально на своей 3090.

Хочу чтобы бот давал мне советы, защищал от всякого женского маняпулятивного говна и ебашил охуительные отношения.

Какую модель использовать под мои нужды и железо?
Небольшой опыт в обучении есть, но проекты такого уровня не делал.

Этико-моральные вопросы меня не особо ебут, похуй как-то, не надо мне эту хуйню писать.

Аноним 18/03/26 Срд 11:11:19 #307 №1554872

Аноны, есть ли те кто катают 235 квен?
У меня вопрос: с последними обновлениями жоры и ламы он стал быстрее работать и перестал ломать разметку уходя в квеностиль. И я вот хочу понять: это у меня так чудесно звезды сложились, или это в целом у всех?

Аноним 18/03/26 Срд 11:11:44 #308 №1554873

image.png

>>1554871

Аноним 18/03/26 Срд 11:12:38 #309 №1554874

>>1554869
Да, на мистрали есть ебовая потеря скорости уже на 15к контекста. Ждем фиксов.
Но я бы вообще тюнов ждал. Чёт она в девичестве не очень получилась.

Аноним 18/03/26 Срд 11:12:50 #310 №1554875

>>1554871
> У меня родилась
> просто охуительная идея
> Я хочу обучить нейросетку на
> два-ядра-два-гига перемайненная 10 лет 3090
Школу закончи, мамкин ценник

Аноним 18/03/26 Срд 11:13:39 #311 №1554876

>>1554759
Да, блюстар на удивление хорош, если учесть что ему обрубили ризонинг. Но настраивать долго. Я с ним дня три возился, теребя конфиги, чтобы выжать добротный результат.

>>1554871
Сочувствую+соболезную.

Аноним 18/03/26 Срд 11:13:48 #312 №1554877

>>1554873
У нас сейчас нет кризиса, все нормально. Просто я ленивое говно и хочу легче жить. Автоматизируем отношения, нахуй.

Аноним 18/03/26 Срд 11:18:00 #313 №1554883

>>1554875
Дипсик на ней работает прям хорошо, а у меня данных будет меньше чем у него.

>>1554876
> Сочувствую+соболезную.
Нечему. Просто я понимаю, что трачу много моральных сил на эти отношения. Как и на предыдущие. Если автоматизировать хотя бы половину, то было бы очень хорошо.

Аноним 18/03/26 Срд 11:18:45 #314 №1554884

>>1554874
Так это уже после 8к такой пиздец. После 15к у меня мистраль останавливается. Я ни разу даже 32к контекста не смог обработать разом, потому что на половине она просто встает. Вряд ли это особенность модели, скорее всего кванты или лама сломанные
>>1554872
Не знаю, что там с 235, но квен 122 стал работать быстрее, но срать простынями ризонинга увы не перестал

Аноним 18/03/26 Срд 11:37:51 #315 №1554895

>>1554872
Скорость квенов чуть подросла, а вот починили ли вызовы хз. Что то с багованой у меня 4ь квен работал лучше чем 9ь, а так быть не должно

Аноним 18/03/26 Срд 11:42:28 #316 №1554898

>>1554884
> Вряд ли это особенность модели, скорее всего кванты или лама сломанные
Уверен в этом. Потому что немотрон после обновления Жоры просто полетел. Степ вообще на 15т/с пердит.
А тут 4 т/с и иду я нахуй.

Аноним 18/03/26 Срд 11:56:39 #317 №1554907

>>1554895
Вызовы починили. Со вчерашней версией openclaw гоняю - работает практически идеально (qwen 3.5 27B от двучлена) и весьма быстро. На предыдущей попытке (несколько дней назад) - вообще не работало. Конфиги нигде не менял, просто новую запустил с теми же настройками...

Аноним 18/03/26 Срд 11:57:29 #318 №1554908

>>1554853

И в открытый доступ он выложен не будет.

Аноним 18/03/26 Срд 11:58:39 #319 №1554910

>>1554883
>автоматизировать отношения

электродилдак с подогревом купи, и факмашину, найс автоматизация будет, и эффективная

по теме треда - на 3090 ты только залупу Иваныча обучишь, чтоб что-то реально обучать нужен кластер из H100 (или хотяб RTX Pro Blackwell edition) (на 8B модель ~140–160 ГБ VRAM нужно для тренировки)
лоры можно попробовать на игровом оборудовании пообучать, но лора не даст тебе того эффекта.

на основе RAG разве только дергать книги и инфу с переписок, но эт тоже фигня будет (хотя переписки может и в контекст влезут)

Ну а главный нюанс из за которого затея свеч не стоит, бабень твоя манипуляции с твоей стороны и защиту от ее манипуляций не потерпит, и на другой хуек соскочит

Аноним 18/03/26 Срд 12:05:08 #320 №1554911

изображение.png

>>1554871
1) если у тебя девушка-манипулевушка, беги.
2) если ты решил сделать из нее нормальную, не сделаешь.
3) читерить с нейросетями в данном случае - странный и избыточный метод.
4) счастье в семье/отношениях - плод честности, диалога и взаимопонимания. Любовь-любовью, но без этих трех составляющих нихерашеньки не выйдет.
миможенат 6 лет, в отношениях 11

Аноним 18/03/26 Срд 12:29:19 #321 №1554916

По всем тестам qwen-3.5-9B (IQ4_XS) уделывает glm-4.7-flash (Q6_K_XL) в моей самодельной rag-системе. 9B и в таком кванте, так как дома котёнок, и 10к кулер на V100 лапы обрубит, потому я ноут гоняю с карточкой на 8 ГБ, как защиту для кулера распечатаю - поставлю 27B в 5-6 кванте.
1. Меньше токенов кушает. Без инструментов там ризонинг на 8к, ну все это уже знают. А со списком инструментов glm пишет по 2к токенов размышления, а qwen пишет 1000 в первом сообщении и потом лишь иногда по 100-200.
2. Понимает что фраза про текущее использование токенов (если больше 30000 я ещё текстом дописывал, что мол остаётся мало контекста, старайся уже сформулировать ответ) и json вида {"description": "Current context filling", "context_filing": 0, "tokens_remaining": 45000,"percentage_usage":0} - означает что 0 использовано и 45000 осталось. Флеш даже с такой кучей дублирующих полей часто игнорирует лимит, или воспринимает что он уже использова 45000, а 0 осталось в какой-то момент. Каждый четвёртый запрос он чудит, а без дублирующих полей он вообще не работало. qwen-3.5 работает, даже если передавать json с одним числом без дополнительных полей + можно в системном промте сократить инструкцию о лимитах на токены и вызовы инструментов в три раза, и он их понимает.
3. Аналогично с вызовами инструментов. Время от времени я передаю json, где указано, сколько вызовов какой функции осталось - глм балуется, всё-равно дёргает, ему нужно ответить что "лимит вызова инструмента .. превышен", и он пишет "инструмент выдал ошибку, кажется его больше нельзя использовать... а, да, это же и написано в сообщении о лимитах выше", а qwen 0 раз вызвал инструмент вне лимита, qwen-next 80b-a3b тоже справлялся, к слову.
4. Про скорость сказать не могу. На 8 гб карточке (ноуте) 9B выдаёт 2500/40 (pp/tg), а флеш 250/15. На V100 флеш 750/100, что в целом оказывается медленнее, чем 2500/40 - так как почти всё время это pp. 27B почти точно медленнее флеша будет, но интересно какая скорость 9B на V100, быстрее чем 2500/40 на современной, но ноутбучной карточке, или нет? Ну как минимум можно в кванте толстом и с контекстом в 500к запускать с кучей конкурирующих потоков.
5. Почти лупится очень редко и в разы реже флеша.

Мне всё ещё интересна информация от того анона, который отправлял glm-4.7-flash рефакторить код на 20 минут, как и каким образом он хотя бы какого-то результата добился.

>>1554871
Книжки по психологии тоже не помогут, оно уже их все видело в обучающей выборки и в куче статей в сети, всё содержимое там указанное по много раз. Достаточно указания в промте, что руководствуйся информацией из вот этих то книжек. То есть оно знает все в некоторой степени, просто укажи предпочтения каким отдавать.
Дополнительно, представь что это не сравнительно глупая нейросеть, а человек, пусть даже умный. И ты даёшь ему инструкцию, что вот почитай книги по психологии и действуй в соответствии с ними. Мне не кажется, что человек поймёт как это использовать, лол, и это скорее помешает.

В среднем ты ничего не обучишь и в этом нет смысла, даже если у тебя 1000 карточек 3090, электростанция и месяц времени. Помимо производительность ты не обучишь хотя бы по признаку, что сеть это миллиарды параметров, а всю информацию что ты сможешь собрать + книжки, это несколько мегабайт информации. Оно просто бит в бит запомнит всё, и обобщать эту информацию мотивации у сети нет. Нельзя по 8 байтам информации обучать 1000 байт. Обучающей информации должно быть на порядок или два больше, чем обучаемых параметров, так как они по сути сжимают информацию путём обобщения и выявления закономерностей.

Аноним 18/03/26 Срд 12:44:36 #322 №1554921

>>1554898
Уверен в этом. Потому что немотрон после обновления Жоры просто полетел.
Там допиливают поддержку CUDA для NVFP4:
https://github.com/ggml-org/llama.cpp/pull/20644
А ведь Нвидиа сделала QAT-квантование Немотрона в этом формате. Как допилят, появятся NVFP4-ггуфы - вот тогда мы и похохочем.

Аноним 18/03/26 Срд 12:47:36 #323 №1554925

>>1554871
Ещё дополню, что будет интересно если ты напишешь что и как вышло.
И ещё дополню - ситуации всякие возникают, ну, редко, тебе 3090 не то что бы нужна. Я бы ориентировался на крупную сетку в 200-300B и с контекстом на 400к, чтобы скормить все ситуации что были, как примеры, чего нужно искать и недопускать в будущем. И соответственно запускаеть на процессоре из оперативы. 3090 просто для ускорения промт-процессинга, генерировать ты не на ней будешь. Более того, историю с описанием примеров ситуаций ты можешь прокрутить и сохранить kv-кеш в файл на несколько ГБ, чтобы его не пересчитывать - тогда видеокарта тем более не нужна.

Ну и да, оторвано от реальности посмотреть за результатами твоего эксперимента и насколько оно работать будет интересно, но как то что это у тебя такие отношения звучит как лютая лютейшая дичь, лол. Если это лёгкие отношения и каждый со своими интересами, то, наверное, окей, может быть. А если тяжёлые с планами на семью и прочим - то лютая дичь. Ну и типа я не верю, что ты свои человеческим мозгом невероятно гиперчувствительным ко всем невербальным сигналам и признакам не может справится с тем, что осилят крупные прямоугольные матрицы.

Аноним 18/03/26 Срд 12:59:53 #324 №1554933

Так а что там немотрон?
12б активных, цензуры нет, датасет кумовской есть, что не так?

Аноним 18/03/26 Срд 13:00:59 #325 №1554934

>>1554739
Надо на нём старый кум-пробив ultimate-gemma на 2К токенов попробовать.

Аноним 18/03/26 Срд 13:03:06 #326 №1554935

>>1554759
>BlueStar
Начинает норм, но сыпется уже на 4К контекста,и дальше - хуже.

Аноним 18/03/26 Срд 13:04:02 #327 №1554936

>>1554935
В смысле сыпется?

Аноним 18/03/26 Срд 13:05:20 #328 №1554937

>>1554367
>>1554373
llamacpp 8401 - вроде починили, символами больше не срет, отвечает по делу.
А я уж думал, что толи лыжи не едут, толи я что-то не то не туда сую...
жора-жора, спасибо за день бездумного перебирания настроек/шерстения интернетов и танцев с бубном

Аноним 18/03/26 Срд 13:08:35 #329 №1554944

>>1554936
>В смысле сыпется?
Орфографические и стилистические ошибки, лупы, искажения фактов из контектста чата даже, а не карточки. Температура 0.4, формат чат-мл, контекст 32К, остальное стандартно.

Аноним 18/03/26 Срд 13:13:51 #330 №1554953

>>1554933
Русик плохой, нет зрения. Это перечеркивает его для меня как асиста. Как рп не юзал

Аноним 18/03/26 Срд 13:17:49 #331 №1554960

>>1554944
Орфографических не замечено, у тебя в семплах насрано. Яб наоборот отметил, что блюстар хорошо держит стиль, не сбиваясь на хуйню и чем дальше пишет, тем увереннее держится.
Лупы от промта и карточки зависят. Если в карточке слоп без смысла, то будет лупать. Если хорошо написано то не будет. Это всё ещё генерация текста, а не отыгрыш роли живым актёром, не забывай.

Аноним 18/03/26 Срд 13:18:18 #332 №1554961

>>1554871
Зубудь уже свою бывшую, займись деломкумом

Аноним 18/03/26 Срд 13:18:48 #333 №1554962

image.png

>>1554944
Что стандартного то? Очень низкая темпа + там presence penalty 1.5, но я бы сказал от 1.5. Ты выставил все это?

Аноним 18/03/26 Срд 13:22:21 #334 №1554966

>>1554962
Инструкции не читай, хуйню выставляй, в треде отзывы оставляй!

Аноним 18/03/26 Срд 13:35:31 #335 №1554975

>>1554916
>отправлял glm-4.7-flash рефакторить код на 20 минут
Ты про мои посты двухнедельной давности или кого-то еще? Я давно уже с локалками в клешнетреде ебусь, тут в основном ридонли.
>как и каким образом
На тот момент было: Claude Code последней версии, ллама до мержа автопарсера, и простыня agents.md, запиленная под клода, контекстное окно от сотни. Настройки семплирования были дефолтные. Где-то до 60к токенов флеш делал ожидаемое, дальше лажал на ровном месте. Поэтому я его отложил в дальний ящик до тех пор, пока мне не подкинули pi c субагентным модулем, с чем флеш себя показал более вдумчивым по сравнению с квеном 35b да и в целом с семейством квенов. Детализацию какую-то я в клешнетреде постил. И не забывай момент с автопарсером, когда я гонял флеш на проекте, из квенов под CC нормально работал только 27b. После мержа автопарсера многое могло поменяться, но у меня это скрылось переходом на pi - в нем теперь наоборот, флеш отваливается чаще квена 35b. Но флеш один хер послушнее что-ли, говоришь юзать то - начинает в пределах 5 ходов использовать. Квен часто хер кладет и делает ходов 15, плотно насирая себе в контекст.

Аноним 18/03/26 Срд 13:38:39 #336 №1554978

image.png

Вот в треде срут людей, что они нихуя не знают и просят пресеты которые им офк никто не даст
А давайте обратимся к уважаемым разработчикам, надежде кумеров и всей ИИ индустрии Европы - круассанам с их новой мистралькой 4
У них спрашивают какие семпы у их чуда? Они игнорят и отвечают только про температуру - 0.1. Проходят сутки и они добавляют в карточки рекомендованные настройки. Там тоже только температура, остальное видимо нужно угадать. И там уже 0.7 для ризонинга и от 0 до 0.7 ну хоть не от 0 до 2 для инструкта
Ну то есть сами разработчики модели нихуя ничего не знают про нее, а тут что-то от простых анонов требуют еще

Аноним 18/03/26 Срд 13:38:57 #337 №1554979

>>1554828
Эйр это местный псиоп, давно пора привыкнуть.
>>1554853
Весов нет - не считается
>>1554871
Лол. Ну над тобой тут уже все поугорали, потому отвечу нормально. Для таких задач обучение не нужно, ты его не только сделать не сможешь, но и сетки уже все это знают. Уложи имеющуюся информацию в промпт (может быть самым сложным) и потом можешь спокойно обсуждать с сеткой те самые манипуляции и прочее.
Только учитывай что ллм не является объективным критерием, даже просто наличие истории где она что-то детектила может привести к ложноположительным оценкам и высасыванию из пальца. Алсо тут нет ничего лучше чем ты сам и опыт. Не стесняйся устраивать ретроспективу даже неприятных тебе моментов и практикуй. Не заметишь как многие вещи станут прозрачными а другим ты наоборот будешь подыгрывать внося свои коррективы и уже сам будешь у руля. Собственно доля подобных игр без перегибов разумеется - есть часть здоровых отношений

Аноним 18/03/26 Срд 13:44:23 #338 №1554983

>>1554975
Побольше, скорее около месяца. Это было несколько дней после выхода глм-флеша.

>>1554853
Странная нумерация. 2, потом 2.1, 2.5 и тут 2.7? Типа, там промежуточные версии остаются в лабе, и лишь иногда они их подшлифовывают (например, цензурят) перед выпуском в сеть на публику? Окей, ждём.
Я не верю что там не было ещё и 2.2, 2.3, 2.4 и 2.6 - их просто не показывали.

Аноним 18/03/26 Срд 13:46:12 #339 №1554987

>>1554978
>отвечают только про температуру - 0.1
>мысраль
>0.1
Пиздец. Мистраль всегда был жаркой моделью, это какой-то долбоёб отвечал, а не разраб.
>что-то от простых анонов требуют
Не что-то, а буковки читать глазками. И хоть иногда семплер теребить, если модель очевидно высирает хуйню. Я хз каким надо быть ебланом, чтобы видя, как модель корёжится в муках от неверных настроек, продолжать писать в тред, что модель плохая. И это при том, что в треде минимум двое отписались, что модель заебись.

Аноним 18/03/26 Срд 13:48:02 #340 №1554989

Ну всё, пора простить обиды и скинуть пресетик на эир.
Пора. Пора. Пора.
Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.Пора. Пора. Пора.

Аноним 18/03/26 Срд 13:51:51 #341 №1554992

>>1554869
Жесть какая просто, особенно пп. Это не рофл, реально там такие скорости? Теперь понятно почему по модели мало отзывов а большая часть - просто нытье кобольдов что цифра не та.
>>1554872
Вот и источник многих прошлых срачей явился. Раньше казалось что виноваты просто лоботомированные кванты и для q2 жалобы нормальны - но оказывается в добавое еще кое кто все это время гадил и отравлял. Сейчас в жоре разгребают авгиевы конюшни и что-то правят, так что вполне возможно что это оно. Правда новый квен все еще копиумный.
>>1554916
> дома котёнок, и 10к кулер на V100 лапы обрубит
Они умные, к кулерам даже не подходят.
> Понимает что фраза про текущее использование токенов
Однако, действительно 9б так хорошо соображает?
>>1554933
> цензуры нет
Огромная и ужасная в худших проявлениях. А просто дженерик кум или напердолить промпты чтобы разок добиться нужной выдачи - нахуй оно нужно, вон сколько всяких есть где то же самое, только проще и не хуже. По ассистенту - двачую >>1554953

Аноним 18/03/26 Срд 13:54:27 #342 №1554996

>>1554987
>всегда
министраль входит в чат

Аноним 18/03/26 Срд 13:55:33 #343 №1554998

>>1554996
>министраль входит
Щитшторм инкаминг!

Аноним 18/03/26 Срд 14:16:20 #344 №1555014

>>1554992
Там котёнок бесстрашный. Прыгает в стиралку, в ванную, в раковину с пеной, когда я мою посуду, на собаку в 40 кг, на 3d принтер и на пылесос охотится, хотя казалось бы резкие звуки.
Кулер от процессора большой и медленный на 1200 при мне лапой бил. Но там края мягкие и скруглённые, не особо страшно. А на 10к они заточенные и злые, мне кусок кожи оторвали.

А по теме, да, квен на 9B по моей оценке неадекватно умный для своего размера, инструкции даже на русском понимает, и без доступа к сети пишет небольшие батники, sh-скрипты и даже написал мне демку, где на с++/sfml арканоид с первой попытки. Gemma-3-12B не справилась даже за пять сообщений, Gemma-3n-e4b справилась, ну, почти справилась, натупила в синтаксисе нескольких функций забыв аргумент, и после того как я добавил завелось. Я просто сам писал это несколько раз, и каждую строчку что нужно написать знаю.

Но это прям исполнитель одной задачи. Типа, ты даёшь ему короткий промт, что вот тебе html-страница, текст или вообще картинки - найди на них то-то-то, и выпиши то-то-то в таком то формате. И он очень быстро и достаточно качественно делает эту одну задачу. Цепочка запросов на разные темы или ещё что-то такое не для него. Наверное разумным вариантом будет, если есть центральный оркестратор, медленная модель на 100-200B на CPU, которая пишет план и ставит небольшие задачи попроще, которые выполняются вот такими небольшими запросами к 9B модельке, а вот обобщение результатов и постановка новых задач снова делается на 200B модельке. Это позволяет просмотреть 100 страниц pdf-файлов за минуту, или открыть 30-60 сайтов и просмотреть что на них написано, 200B моделька никогда бы не успела такое число задач сделать даже на крутом железе, как мне кажется.

Аноним 18/03/26 Срд 14:20:00 #345 №1555018

>>1554884
>>1554895
Ага, значит по другим квенам изменения есть.
А то я больше всего не люблю магические изменения. Ну нихуя не делал, игрался с другими сетками. Дай запущу 235няшу и тут хуяк- скорость до 10-12 т\с поднялась и он стал структуру держать. Не то чтобы прям не порывался уходить
в
такую
манеру, но ситуация стала лучше. Охуенно.
Потому что всё равно, что степ, что 27b, что немотрон хуже в описании ебли, чем 235 аутист.

>>1554992
>Вот и источник многих прошлых срачей явился. Раньше казалось что виноваты просто лоботомированные кванты и для q2 жалобы нормальны - но оказывается в добавое еще кое кто все это время гадил и отравлял.
Я раза 4 прочитал и всё так-же нихуя не понял. Кто отравлял ? Жора? Анслоты?
>Правда новый квен все еще копиумный.
Если ты про 27b то для него какие то ненормальные простыни нужны. Ненавижу когда модели приходится объяснять очевидное.
Ну же 27b модель, ты должна ОПИСЫВАТЬ X, а y не описывать. Поняла глупая модель ? Персонажы это ты. А юзер это юзер. Текст должен идти буковками, а не звездочками. Используй Аааххх Мххххх и прочее дерьмо.
Ну и нахуй такое нужно, это чё 7b что ли.

Аноним 18/03/26 Срд 14:20:33 #346 №1555020

>>1555018
>Персонажы
Да в пизду. Пойду дальше жрать таблетки. Я уже написать без ошибок одно предложение не могу.

Аноним 18/03/26 Срд 14:22:43 #347 №1555023

>>1555014
Ну и опять же, повторюсь, моя рекомендация обратить внимание на 9B и протестировать самостоятельно, а не то что он всему голова. Возможность запуска на 8 ГБ, что можно делать на второй карточке или ноуте - это достаточно сильное конкурентное преимущество.
Мои тесты не полные и разрозненные, и задачи однобокие, для кода я вот вообще его не использовал (кроме ручного теста через веб-интерфейс), а гоняю на задачах обработки документов и сайтов. Может быть он плох в коде, без понятия.

Аноним 18/03/26 Срд 14:25:51 #348 №1555027

Какие из новых моделей достойны внимания и времени уважаемого кумера? Новая мистраль, немотрон и 27b qwen.
Пока попробовал только qwen writer и доволен, но не уверен что это лучший выбор. Что думают аноны?

Аноним 18/03/26 Срд 14:26:31 #349 №1555029

>>1555014
> квен на 9B по моей оценке неадекватно умный для своего размера, инструкции даже на русском понимает, и без доступа к сети пишет небольшие батники, sh-скрипты
Подтверждаю, но с субагентами на стандартном промпте неохотно их использует почему то. А так сделал мне докер проект с докерфайлом и скриптами автосборки удаления и входа в контейнер. Там и 4b неплохо работает, но конечно код писать ей лучше не давать. А вот баш скрипты могут оба, прям полотна пишут команд и все в основном работает.

Аноним 18/03/26 Срд 14:27:36 #350 №1555030

>>1555027
Думаю что модели бесплатные и ты можешь для себя решить, что подойдет тебе лучше. Потому что пишут они по разному. У всех свои чаты, свой кум, своё рп.

Аноним 18/03/26 Срд 14:48:51 #351 №1555041

>>1555030
Бесплатные, я и не спорил. Но на то, чтобы их скачать уйдут часы. Мог бы просто поделиться своим опытом, а не писать базу.

Аноним 18/03/26 Срд 14:52:39 #352 №1555043

Слушайте, а ведь квен могут видео смотреть. Пример кода есть на их оф странице на обниморде. А жора поддерживает это? Или только картинки?

Аноним 18/03/26 Срд 14:54:01 #353 №1555044

>>1555041
Они все три нормальные, со своими особенностями.
Мне показался 122b потупее немотрона.
Но в целом они все три хуже 4.7 жлм и старого большеквена, не говоря о 5жлм и новом большеквене.

Аноним 18/03/26 Срд 15:05:12 #354 №1555058

>>1555014
>квен на 9B по моей оценке неадекватно умный для своего размера
судя по всему, братья-китайцы научились паковать строго все нужное, как был запакован министраль 14б.

Аноним 18/03/26 Срд 15:26:30 #355 №1555076

изображение.png

Нужна кому?

Аноним 18/03/26 Срд 15:30:50 #356 №1555079

>>1555076
О, круто, почти за 9 мультов можно запустить глм 4.7 в q4_k_m или в awq. Лучшее вложение средств для анона бгг.

Аноним 18/03/26 Срд 15:32:09 #357 №1555081

>>1555076
Возьму если крузис тормозить на ней не будет.

Аноним 18/03/26 Срд 15:34:47 #358 №1555083

>>1555076
Не очень ясно по какой причине стоит брать это, а не две H100 по 96 ГБ, у которых суммарный компут выше, и которые две будут дешевле. Или не две-четыре blackwell rtx 6000 pro. Типа, всё-равно pcie, по компуту H100 не то что бы далеко впереди 6000 pro.

Аноним 18/03/26 Срд 15:35:42 #359 №1555084

>>1555083
Слоты. Порой важно количество слотов. И вот для таких целей выпускают подобные изделия.

Аноним 18/03/26 Срд 16:21:21 #360 №1555123

>>1555018
> Кто отравлял ? Жора? Анслоты?
Жора.
> Если ты про 27b
Так и не дошел до него. Тестировал 35б в коде, с одной стороны тот приятно удивил самим подходом и что пытается делать в таком размере, с другой - хватает ошибок и упущений на фоне. Ее и 27б надо сравнить для чистоты картины.
Это не на ровном месте появилось. Ранее 397б на релизе в ггуфе - впечатления были смешанные и срало иероглифами, а в awq или exl - сносно там где было плохо, а где было прилично - абсолют синема. 122б на жоре и на других - можно сказать что две разные модели, одна умница-кравица старается, другая ее сестра, которой в детстве прилетело по голове и теперь иногда она пускает слюни и залипает. В рп ни на одной из них не делал длинных промптов.
Тут сильно замешан квант, может в них проблема. Но на фоне всего этого и изменений, что вносились для новых моделей, сдается что есть проблемы с обсчетом атеншна и она нарастает как снежный ком по мере накопления контекста.

Аноним 18/03/26 Срд 16:39:16 #361 №1555157

изображение.png

>>1555084
А этот PLX-сплиттер активный для pcie 5.0 не существует? Который сам смотри куда какой запрос, и умеет как включать х16 на одну карту, так и раздавать по х8?
Да и впрочем сомнительная ситуация. Если это инференс, то full VRAM и промышленный инференс-софт, можно хоть по х4 подключать.

Если не только инференс, а ещё и обучение, то оно умрёт без nvlink, и там эти DGX/HGX сервера, где на одной плате 8 H100 и продаются за десятки миллионов. И вот так это уже важно, так как nvlink вроде как не умеет в 16 карт, и соответственно glm5 не влезет в 640 ГБ даже в fp8.

В общем не вижу сценариев, где именно pcie-карта такого типа полезна.

Да и если у тебя проблема со слотами (то есть больше четырёх H100), то DGX плату уже не то что бы дорого достать, лол.

Аноним 18/03/26 Срд 17:02:57 #362 №1555173

image.png

Жора чинит гопоту. Не прошло и года. Всего лишь 8 месяцев

Аноним 18/03/26 Срд 17:30:00 #363 №1555197

На примере нового 120B A12B немотрона -

1х 3090 и 24гб VRAM, я кушаю здоровые, человеческие 15 т/с.
2х 3090 и 48гб VRAM, я терплю убогие 5 т/с.

Че за нахер-то. Обе карты одинаково функциональны - проверил каждую по отдельности, спокойно 13 т/с. На плотных моделях 48гб VRAM тоже быстро как понос при двух 3090 в работе. А вот МоЕ прям жопа. Неужто DDR4 так нарушает коммуникацию между картами?

Аноним 18/03/26 Срд 17:30:38 #364 №1555199

>>1555197
> спокойно 13 т/с
15 тобишь, ну не суть.
Яничивонепонимаю.

Аноним 18/03/26 Срд 17:38:49 #365 №1555204

>>1555197
>я терплю убогие 5 т/с.
А что автофит показывает? И какая скорость PP?

Аноним 18/03/26 Срд 17:47:05 #366 №1555210

>>1555204
Процессинг по скорости вроде не отличается, с автофитом то же самое все. Дичь какая-то, с другими МоЕ моделями видимо то же самое.

Аноним 18/03/26 Срд 17:49:55 #367 №1555211 DELETED

На залупе от дрочки трещина появилась какая-та небольшая и болит, посоветуйте мазь

Аноним 18/03/26 Срд 18:02:53 #368 №1555223 DELETED

>>1555211
Хлоргексидином ебашь несколько раз в день.

Аноним 18/03/26 Срд 18:46:17 #369 №1555271

>>1555197
Проверь частоту памяти карт при двух картах.
У меня похожее было - 4060ti-16+3060-12 работала хуже, чем 4060ti-16.
Оказалось, что 4060ti частоту памяти держала заниженную, типа нагрузки нет (хотя её хватало).

Аноним 18/03/26 Срд 19:01:50 #370 №1555282

>>1555173
Ты смотри, всего ничего под обнимордой ходит и уже столько ништяков завез, и автопарсер и косяки правит и поддержку вовремя пилит.

Аноним 18/03/26 Срд 19:34:17 #371 №1555318

>>1555271
Хмм... Частота памяти показывается одинаковой с тем, как на одной карте. А вот частота самого видеочипа вдвое меньше (с одной картой на 500мгц при генерации работает, а с двумя по 250 на каждой). Странно. И че делать.

Аноним 18/03/26 Срд 19:51:41 #372 №1555332

>>1555157
> существует
Существует. Есть и адаптеры для sxm4 (не колхозные), и сплиттеры для 4х карточек с объединением nvlink, которые вставляются райзером в основную плату.
Только стоит как самолет и нахрен не нужен когда и так 5.0 порты есть.
> то оно умрёт без nvlink
С чего вдруг? Высокий трафик, который не вытянет 5.0, требуется далеко не во всех режимах.
Ну а про карту - есть сервера и рабочие станции, которые набраны 4 или 8 такими карточками, потому основной спрос будет на замену поломавшимся. С нуля врядли кто-то будет брать при наличии блеквелла а6000.
>>1555173
Зачем чинили, всем же все нравилось и нахваливали.
>>1555197
Проверь на других моэ моделях, немотрон сейчас странно работает на жоре.

Аноним 18/03/26 Срд 20:40:55 #373 №1555379

>>1555271
Как ты хоть это пофиксил?

Аноним 18/03/26 Срд 20:54:11 #374 №1555391

>>1554715
>Потыкав 122б в q4 поддвачну остальных ораторов - жора сломал очередную модель
>тупит, выдает странные ассоциации, внезапную сою
>регулярные лупы в ризонинге
Инференс и кванты не те? Помню как ты смеялся с шизика, который утверждал что в Эксламе кванты более цензурированные, а теперь сам таким стал. Пути жорахейтера неисповедимы.

Аноним 18/03/26 Срд 21:02:12 #375 №1555398

>>1555391
inb4 никто даже не писал, что жора сломал модели
писали что квен говно, в отрыве от квантов и движков и правы тащемто
но у него "квен хорошо" и "жора плохо" сложились вот в это, да

Аноним 18/03/26 Срд 21:16:31 #376 №1555406

>>1555379
>>1555318
Короче самым легким избавлением от этой проблемы знаете что было? Использовать кобольда или лмстудию, а на их .exe кинуть "prefer maximum performance" настройку (если ставить ее глобально - получается какой-то кал, одна из видеокарт застревает на 3D-частотах навсегда, другая тупит... мб просто не повезло).

Аноним 18/03/26 Срд 21:20:13 #377 №1555412

image.png

>>1555406
Рано порадовался. Опять говно. Да ну еб твою мать

Аноним 18/03/26 Срд 21:22:19 #378 №1555414

>>1555391
>>1555398
Именно кобольды должны громче всех кричать что что-то не так и чтобы им починили, но вместо этого агрессивный коупинг, кек. Красных пилюль будет все больше, а сохранить манямир все тяжелее, крепитесь.

Аноним 18/03/26 Срд 21:25:11 #379 №1555421

>>1555414
у меня риг из 3090, я никогда на жоре не сидел
твой ответ как всегда предсказуем. тот кто с тобой не согласен - твой враг. у тебя тейк про то что жора сломал модель, не согласен - значит юзает жору
у тебя CoT какого-нибудь 12б лоботомита, но это каждый раз смешно

Аноним 18/03/26 Срд 21:31:01 #380 №1555429

>>1555414
Разве была там агрессия? Просто наблюдение. Это забавно, как люди ломаются на двойных стандартах.
>>1555421
Следующим шагом будет оператива. Злые китайцы с Тайваня будут срать нам в оперативу, чтобы материковый Квен стал лоботомитом и не следовал инструкциям в своем же ризонинге, спамил дэши и превращал любой рп чат в театральную постановку. Не может это происходить само по себе.

Аноним 18/03/26 Срд 22:21:40 #381 №1555478

>>1555421
Ммм прищемили кобольда и он пошел фантазировать. Доставляет искреннее удовольствие наблюдать эти потуги.
>>1555429
> на двойных стандартах
Где двойные стандарты? Вещи называются своими именами. Кстати, в экслламе линейный атеншн был какое-то время поломан, но потом его починили. Здесь скорее всего какой-то тонкий баг связанный с атеншном или рекастами, о чем уже не раз говорили. Но поскольку сразу много намешано (включая кванты) и такое уже не раз было раньше - отслеживать такое целая задача.
> Следующим шагом будет оператива
Кек, глубины аутотренинга. Потому так и живете.

Аноним 18/03/26 Срд 23:02:01 #382 №1555526

>>1555379
>Как ты хоть это пофиксил?
Задал вручную фиксированную частоту.

Список всех режимов работы.
nvidia-smi -i 0 --query-supported-clocks=mem,gr --format=csv

Далее от админа (лучше предварительно посмотреть, а какой у неё максимум под нагрузкой, чтобы не попердолило).
Команды для 0 видеокарты
Память:
nvidia-smi -i 0 -lmc 8750,8750
GPU
nvidia-smi -i 0 -lgc 2625,2625

Аноним 18/03/26 Срд 23:04:38 #383 №1555529

>>1555526
Что же я хочу сказать на эту ветку...

ооо, виндобыдло порвалось

Аноним 18/03/26 Срд 23:07:21 #384 №1555532

Принёс вам покушать из мира корпов, чтобы вы охуели.

Новый Грок 4.20 (уже не бета) переводит, к примеру, bike shorts как велотрусы, а по мере текста они мутируют в обычные трусы. Или персонаж может тереться об вас сквозь спинку дивана, совершать невозможные кульбиты уровня нахождения в двух комнатах одновременно. Порой бред такой, что я задаюсь вопросом: какого лоботомита они там вообще гоняют? Иногда я просто не понимаю, что он пишет. Язык вроде русский, но смысл тяжело уловить.

Писать Грок стал, кстати, ещё быстрее. Скоро он, наверное, будет в секунду 1000 токенов выдавать. 3b активных параметров на 4 триллиона наше всё.

Особенно забавно, когда с 4 агентами он такую вот бредятину пишет, я в ахуе просто. Но есть и плюсы: цензура стала ещё слабее, текст менее безопасным.

Ах, совсем забыл про лупы на 10к контексте! Три абзаца из восьми — полное повторение предыдущих реплик либо слегка изменённое. Я словно модель от редиарт запустил. И по уровню накала страстей тоже — в трусы старается залезть при любой возможности. Любая эльфийка решит ОБСЛУЖИТЬ ТЕБЯ САМЫМ НАДЛЕЖАЩИМ ОБРАЗОМ, если ты поцарапал коленку.

Про какие-то рабочие задачи я вообще не хочу говорить. Это лютый пиздец. Первородный слоп, путаница в контексте, даже английский не спасает толком. Плюс только в скорости или поверхностном анализ через зирошот, а дальше можно смело контекст обнулять.

Ценим свои старые локалочки, а то ведь и остальные корпы МОГУТ ПОВТОРИТЬ.

Аноним 18/03/26 Срд 23:10:31 #385 №1555535

Блюстар знает, что бучиха не будет няшиться с куном и скорее разобьёт ему ебало, чем даст писку ебат. Квен умный, квен хороший.

Аноним 18/03/26 Срд 23:11:48 #386 №1555539

Я неумёха. Как находить Context/Instruct Template для моделей?

Аноним 18/03/26 Срд 23:12:16 #387 №1555540

Как сейчас обстоят дела с амуде? У меня 7900xtx с 24гб врама. Слышал что раньше только с нвидией можно было локалки запускать, но пошел слух что можно типо теперь с AМД работать. Я карту несколько лет назад для игоря покупал до того как ИИ взлетело, сейчас вот думаю что раз такая йоба карта лежит грех не воспользоваться. Если норм пойдет, может вторую прикуплю на 48 врамовый сетап. Можно 80б локалки запускать? Кто в теме, кто юзает?

Аноним 18/03/26 Срд 23:15:00 #388 №1555543

>>1555532
Грок просто нахуй никому не нужен, по этому он пытается вывозить за счет отсутствия цензуры и скорости.

Аноним 18/03/26 Срд 23:17:29 #389 №1555544

>>1555543
Да там сейчас цензуры побольше будет, хотя, вроде бы есть какие-то способы обхода.

Аноним 18/03/26 Срд 23:19:38 #390 №1555546

>>1555539
В карточке модели должно быть указано. Если не указано и это васянотюн, то смотри на материнскую модель. Условно, если там мистральский инструкт, ставь мистральский инструкт, если чатмл, ставь чатмл.

>>1555540
Так на амуде локалки и раньше работали. Через тот же вулкан, и скорость не особо просасывалась. По крайней мере, если верить тем аноном, которые отсвечивали в треде.

Аноним 18/03/26 Срд 23:25:31 #391 №1555555

>>1555543
И всё же, он не создан для РП. Да, дешёвый. Да, есть быстрый (и очень хуевый) поиск по интернету. Плюсы как бы есть, особенно если ты твиттерожитель, но я просто логику их говноделов не понимаю. Куда они движутся и зачем? Даже какая-нибудь типичная китайская модель с нормальной обвязкой и вменяемым кол-вом параметров будет лучше для рабочих задачах, а на гуннерах нормально не заработаешь.

>>1555544
Например? Да, он может давать отказы, но они обходятся ленивым свайпом или более ебанутым систем промптом.

Ебля с очень юным, персонажем, являющимся кровным родственником юзера, с последующей сценой некрофилии без отказов (не API) — это какой уровень цензуры?

Аноним 18/03/26 Срд 23:25:52 #392 №1555557

>>1555555
Цука ты

Аноним 18/03/26 Срд 23:29:04 #393 №1555562

Screenshot 2026-03-18 212813.jpg

>>1555546
>Так на амуде локалки и раньше работали

Ну может и так, но я так понял раньше с этим пердолинга была дофига, а теперь якобы прям из коробки работает. Мне AМД уже сами инсталлером в рыло тычут.

Аноним 18/03/26 Срд 23:30:07 #394 №1555565

>>1555555
>Куда они движутся и зачем?
Нашел где спрашивать.
>на гуннерах нормально не заработаешь
Просто на гунерах никто всерьез и не пытался зарабатывать. Даже среди локалок нет ни одной модели, которая хотя бы была бы заточена под креатив врайтинг. Есть официальные тюны под кодинг, под медицину, под агентов и прочее говно. Но не под написание рассказов.

Аноним 18/03/26 Срд 23:32:41 #395 №1555568

>>1555540
Под виндой рокм вроде через костыли, нативно только под линью.
Опенсорсный стек - кайф, даже трижды задепрекеченные мишки работают с самым последним рокмом и торчем

Аноним 18/03/26 Срд 23:34:27 #396 №1555571

>>1555562
Они точно работали и раньше, не знаю только насчет того как хорошо, ибо я зеленовод. Если у тебя уже есть карта, почему не проверить самому? Память на карте есть? Память на карте есть. Значит заработает.

Аноним 18/03/26 Срд 23:38:57 #397 №1555573

>>1555540
>Как сейчас обстоят дела с амуде?
Вроде они и раньше работали более менее норм. Там проблемы с картиночками были
Еще там два бэка - вулкан и rocm. Второй лучше, но первый в последних патчах вроде как даже приблизился к нему. Но я не амудешник, тут почти все зеленые
>Если норм пойдет, может вторую прикуплю
Ты пока потести на 24гб. Распробуй так сказать, а если понравишься докупишь. Тебе вообще для чего ллм? Для проги, агентов, чата или кума??
>Можно 80б локалки запускать?
Их нет. Были 70b давным давно, да вымерли. Есть квен 80b, да он не прям хорош

Аноним 18/03/26 Срд 23:40:16 #398 №1555576

>>1555565
Глм 5 может пойти под рассказы. Он может держать нормальный для llm кинематографичный стиль без гобеленов судьбы и мурашек на спине. И он почти не проебывает детали сцены, в отличие от кими к2.5, у которой персонаж может быть босым, а через два абзаца он в обуви.
Но это я сужу по англюсику. На русике может быть как "ну, с пивом сойдёт" до "ебаный пиздец".
Все это хуйня, лучше руками писать, а модель может лишь высрать первый драфт, чтобы чисто концепцию проверить. Но трекать состояние и предлагать фиксы по стилю и ровности модель вполне может

Аноним 18/03/26 Срд 23:44:20 #399 №1555580

>>1555562
Установи LMStudio и попробуй. Он простой и однокнопочный. Не бери Ollama это кал

Аноним 18/03/26 Срд 23:44:41 #400 №1555581

>>1555565
А где ж ещё спрашивать? Явно не в треде асига. Тут много всяких шарящиж анонов.

Просто некоторые решения корпов для меня совершенно непонятны. Либо они гениальны, либо ебануты. Ну через лет пять узнаем.

Если с натяжкой, гемму можно назвать моделью для креативного письма. Её специально такой не делали, но она может в это. Наверное, из-за датасета исторически так сложилось. Ибо в письме при правильном использовании она на мой взгляд лучшая в своих размерах до сих пор. А вот в коде совсем тупорылая. И не зря они сделали версию для перевода текста. Я именно геммой и переводил с япусика всякий треш. Было не идеально, но намного лучше даже более жирных моделей.

Но жаль, конечно, что никто так и не выпустил даже в рамках эксперимента модель именно для письма. Там даже 14б какая-нибудь смогла бы показать достойный результат.

Аноним 18/03/26 Срд 23:49:07 #401 №1555586

>>1555576
>Глм 5 может пойти под рассказы
Он слишком большой, в этом его проблема. Как и других моделей, которые могут в рассказы и кум из коробки. Идеальный размер для таких локалок должен быть в районе 30B, чтобы они вмещались в бытовую карту. Ибо куминг это не программирование - мало кто под эту задачу будет собирать станцию за сотни тысяч. Вот если бы гуглы выпустили специализированный тюн под ту же большую гемму - это был бы чистый вин. Она итак хороша в креативе, а стала бы только лучше.

Аноним 18/03/26 Срд 23:51:52 #402 №1555588

>>1555581
>Либо они гениальны, либо ебануты.
Одно другому не мешает. Учитывая конкуренцию, приходится творить хуйню и постоянно проводить ебанутые эксперименты, надеясь, что вдруг выстрелит.

Аноним 18/03/26 Срд 23:52:57 #403 №1555589

>>1555586
> Вот если бы гуглы выпустили специализированный тюн под ту же большую гемму
Я бы не рассчитывал после того, что они высрали как гемини 3.1 вместо тройки. Они в кодеров целятся, да и фильтры стали ещё лучше.

Аноним 18/03/26 Срд 23:57:13 #404 №1555594

>>1555589
Ну они целятся в тех, кто реально будет платить, это как бы вполне логично. И я не имел ввиду модель чисто под кум от гуглов, а про сторитейл/соавторство - это они теоретически могут себе позволить. Даже с ебанутыми фильтрами я бы погонял такую модель в дефолтной ролевке.

Аноним 19/03/26 Чтв 00:02:33 #405 №1555599

>>1555581
Как обмазывающийся опусом 4.6 могу смело сказать, что даже он для креативного не идеален, несмотря на то, что внимание к контексту моё почтение. Но один хрен надо кучу всего переписывать.

Вот завезли бы что-нибудь, что нормально на 32гб видеопамяти (т.к. набирается по приемлемой цене двух v100-16 или одной v100-32)/128гб DDR4 работало бы для написания именно что хуйдожественного произведения на русском, и чтобы 128к контекста легко влазило - вот это было бы хорошо.
А пока страдания.

Аноним 19/03/26 Чтв 00:06:25 #406 №1555604

>>1555594
А кому это нужно среди писак, лол? Сейчас они бунтуют из-за засилия слопа в книгах от "авторов", и что эти нейровысеры покупают.
Да и рассказы генерить это не код ваять - там размер лучше 70b, плюс работа с контекстом весьма специфическая. Большие модели ещё вывозят за счёт количества параметров, и то обсираются, даже опус. Мелочь же даже вроде геммы 27b хватит на дефолтную фабулу без сложных интриг. В характеры она то попадает, но тюн под ассистента все руинит, даже norm-preserved.

Аноним 19/03/26 Чтв 00:12:08 #407 №1555610

>>1555546
>В карточке модели должно быть указано
Под кнопкой Chat Template? Но там куча хуйни, которая лишь мелкими частями совпадает с темплейтами в таверне, как будто или заучивать или долго перебирать. Как быстро понять? На той же странице Qwen нет ни одного упоминания ChatML.

Аноним 19/03/26 Чтв 00:15:43 #408 №1555619

>>1555604
>А кому это нужно среди писак, лол?
Про писак никто ничего не говорит, речь про обычного обывалу, который хочет интерактивных историй.

>Мелочь же даже вроде геммы 27b хватит на дефолтную фабулу без сложных интриг.
И этого хватит для 90% пользователей. Если посмотреть на самые популярные новеллы и рассказы в принципе, ты там не найдешь ничего сложного и замороченного. Там простые истории, которые просто и понятно рассказаны.

Аноним 19/03/26 Чтв 00:21:25 #409 №1555625

>>1555619
Так обывалам и обычной геммы хватит. Хотят больше - пусть платят за гемини. Под дефолтные сюжеты с архетипичными чарами без претензий и геммы хватит.

Аноним 19/03/26 Чтв 00:27:33 #410 №1555632

1773868396069156.png

Сап, мужИИки!
Вопрос про кручение локальной LLM с koboldcpp и sillytavern

Можете не в службу, а в дружбу набросать как следует лучше настроить kobold и sillytavern для достижения лучшего юзер экспириенса?

Так же был бы благодарен гайду по использованию sillytavern, созданию своих персонажей, миров, etc.

Мб есть какие-то библиотеки с персонажами и мирами для sillytavern

Если есть ссылки на уже готовые гайды, то готов принять в дар

Алсо, есть вопрос: как отключить reasoning у модели в связке koboldcpp + sillytavern? А то доебала эта графомания на тысячи символов, чтобы потом в итоге выдать ответ на 3 предложения

Мой сетап: нвидла 16gb vram, 32gb ram ddr5, qwen3.5-35b-a3b-q4-k-xl

Модель пойдет или стоит поменять на другую для чятиков?

Аноним 19/03/26 Чтв 00:30:41 #411 №1555634

Думал может хоть adaptive p спасет квен 235
Но нет. Бедолаге походу ничего не поможет уже

Аноним 19/03/26 Чтв 00:32:23 #412 №1555636

>>1555632
В шапке треда есть документация и на кобольд и на таверну. В соседнем треде умственно полноценных есть ссылки на написание карточек, лорбуков и прочего.

Аноним 19/03/26 Чтв 00:39:57 #413 №1555643

>>1555610
Это не куча хуйни, это джинжа. Она не для таверны, но в ней есть служебные токены по которым можно понять, какой формат нужен. Если видишь <|im_start|> и <|im_end|> - значит скорее всего, это чатмл.

Аноним 19/03/26 Чтв 00:44:08 #414 №1555646

>>1555632
>Мб есть какие-то библиотеки с персонажами и мирами для sillytavern
1. Дохуя всего без цензуры - https://chub.ai/
2. Еще больше, причем намного, но с цензурой https://janitorai.com/
3. чтобы скачивать со 2 https://jannyai.com/
>А то доебала эта графомания на тысячи символов, чтобы потом в итоге выдать ответ на 3 предложения
Сразу узнал квен. Отключить можно, но как в кобольде это сделать я хз
>qwen3.5-35b-a3b-q4-k-xl
Это плохая модель для рп. Потому что она хоть среднего размера 35b, но работает только 3 миллиарда активных, то есть a3b
У тебя есть врам, так что лучше другое. Например, тут много разных >>1543669 →
Только используй q4. Контекст квантуется во вкладке Context и там KVCache на 8bit выстави. И не забудь в gpu layers выставить 99, чтобы все на видеокарте было

Аноним 19/03/26 Чтв 00:45:12 #415 №1555647

>>1555532
Изменение моделей без твоего ведома и контроля - один из главных бичей корпов. В текущих реалиях где организация всяких пайплайнов становится более популярной - особенно актуально.
>>1555555
> какой уровень цензуры
Базированный
>>1555576
> в отличие от кими к2.5, у которой персонаж может быть босым, а через два абзаца он в обуви
Это как так-то?

Аноним 19/03/26 Чтв 00:46:24 #416 №1555648

Почему не обсуждали эир десятки тредов уже если он до сих пор лучший?

Аноним 19/03/26 Чтв 00:49:36 #417 №1555654

>>1555648
Ты слепой что ли, епта? Вот памятную табличку накатали с его победами. Все же король рп до 200b включительно >>1554828

Аноним 19/03/26 Чтв 00:51:05 #418 №1555657

>>1555643
>джинжа
Синоним кучи хуйни. Вопрос остаётся: как находить Context/Instruct Template для моделей не зная наизусть джиджи всякие?

Аноним 19/03/26 Чтв 00:55:11 #419 №1555663

>>1555657
Ну значит никак, лол. Не хочешь ничего учить и запоминать - нихуя и не узнаешь.

Аноним 19/03/26 Чтв 01:09:45 #420 №1555668

localtred.jpg

База треда

Аноним 19/03/26 Чтв 01:18:28 #421 №1555674

>>1555568
поподробнее плиз, есть где туториалы как седьмой рокм накатывать для мишек?

Аноним 19/03/26 Чтв 01:22:11 #422 №1555676

>>1555668
Всё так.

Аноним 19/03/26 Чтв 01:30:37 #423 №1555682

>>1555674
https://github.com/mixa3607/ML-gfx906
https://arkprojects.space/wiki/AMD_GFX906
У меня неприятное чувство саморекламы встало в горле

Аноним 19/03/26 Чтв 01:39:40 #424 №1555696

>>1555682
И англодис по пердолу 906 https://discord.gg/RqVxT6tJ

Аноним 19/03/26 Чтв 01:48:33 #425 №1555714

>>1555682
агоньт

карточка я так понимаю в статусе слабой совсем и только за счет 32гб что-то из себя представляет?
по чем их кста толкают сейчас на таобао?

Аноним 19/03/26 Чтв 01:56:43 #426 №1555726

>>1555173
ну ты сам можешь починить, это попенсорс

Аноним 19/03/26 Чтв 02:58:15 #427 №1555772

>>1555668
>>1554828
Вы им пользовались вообще?
Это же невозможная срань.
Да он пишет заебись, но в неадекватных количествах, он пережарен как и квен, уже тут отмечали недавно, причем от промпта не зависит, он так и будет писать скатываясь в описания постоянно

Аноним 19/03/26 Чтв 03:00:52 #428 №1555776

>>1555540
На ламе.ццпы после выхода мажорной версии дровов и рокма 7+ всё пашет на винде из коробки без какой-либо ебли. Хоть рокм хоть вулкан.
алсо как только это всё вышло, в стейбл диффузии тоже всё искаропки запахало, и рокм официально добавили в десктопный инсталл (пока только туда) comfyui

Аноним 19/03/26 Чтв 03:45:03 #429 №1555786

>>1555772
>Вы им пользовались вообще?
Ну да, под рп/сторителлинг только им и пользуюсь, потому что ничего лучше для 16+64 просто нет.
>он пишет в неадекватных количествах, он пережарен
Не_знаю_у_кого_там_что_не_работает,_у_меня_всё_работает.webm

Эйру бы еще русик как у геммы, была бы просто идеальная модель, эх...

Аноним 19/03/26 Чтв 03:47:38 #430 №1555789

>>1554822
>>1554823
Помогло включение mmap и отключение mlock. Стал кобольд грузиться за секунды. У меня по дефолту наоборот стояло, млок включен, mmap отключен, с такими настройками шевелил там что-то по 3 минуты при запуске.

Аноним 19/03/26 Чтв 03:56:53 #431 №1555791

>>1555632
Просишь ЛЛМ написать карточку перса, все признаки, потом вручную редактируешь, удаляешь все ненужное, добавляешь нужного, задаешь рамки сюжета.
Silly Tavern не нужен, все это делается в kobold ui.

Пример карточек есть вот тут https://chub.ai/, например вот эта карточка классно встает на kobold ui - https://chub.ai/characters/Blackleprechaun/sonia-your-biggest-hater-fd2c4033df4d
Берешь ее настройки за пример и редачишь там все что можно через настройки кобольда - memory, интерфейс. Потом сохраняешь в новую карточку.

> как отключить reasoning у модели в связке koboldcpp + sillytavern
У Silly Tavern хз, а в кобольд уи просто жмешь abort, потом редактировать, добавляешь </think> завершающий тег и жмешь Generate more - обычно уже без ризонинга идет.
Также в memory засунь {"enable_thinking":false} если это Qwen.

Аноним 19/03/26 Чтв 06:58:31 #432 №1555828

Я ненавижу это хобби. Конченная хуйня для дегенератов дрочеров.
Как там говорили, им дали интрнет для образования, а они стали дрочить, тут точно так же, сидим буквально дрочим, блять, на кодерских моделях

Аноним 19/03/26 Чтв 07:38:20 #433 №1555843

Поскольку подешевления ддр5 можно ждать вечность реквестирую скорости на 128 ддр4 на большом глм и стоит ли апгрейдиться ради этого
Сравнения с эиром, в чем конкретно лучше, как пишет и тд

Аноним 19/03/26 Чтв 07:39:12 #434 №1555844

>>1555828
>им дали интрнет для образования, а они стали дрочить
Им дали кинокамеру, они начали дрочить и снимать.
Им дали печатаный станок, они стали дрочить и печатать.
Им дали перо и ручку, они стали дрочить и писать.

Это можно продолжать до бесконечности. Желание дрочить, при чем дрочить разными способами, человека преследует наверное еще с тех времен как он слез с дерева и вместо банана схватился за член. Это заложено природой можно сказать. Ну а идти против природы - это грех. И грех смертельный.

Аноним 19/03/26 Чтв 08:03:38 #435 №1555849

>>1555532
Не знаю о чём ты, я заходил посмотреть что там месяца четыре назад в плане цензуры, на вопрос о цензуре он говорил, что всё окей и нет проблем ни с чем, он составил вполне неприемлимый системный промт, и даже не отказывался писать по нему, на вопрос в около "медицинской" формулировке (а что будет, если с девушкой вот в такой то ситуации устроить вот ..., и к чему это приведёт) отвечал.

Сейчас на вопрос о цензуре отвечает так же, промт через раз составляет и даже не стесняется в выражениях, писать сообщение в рп отказывается, как и отказывается отвечать на вопрос в "медицинской" формулировке. Я все сообщения 1 в 1 повторил из прошлого тестового чата.

Для сравнения на "медицинскую" формулировку чатжпт и глм отвечают, гемини отказывается, из первых двоих чатжпт немного стесняется в выражениях в составлении промта. То есть цензура в гроке сейчас чуть ли не выше, а ответ на "медицинскую" формулировку, скорее всего, сможет перефразировать даже небольшая моделька уровня квена 9B или геммы 12B, ну, чтобы это было рп-совместимое сообщение.

>>1555843
Большой это 4.7 или 5?
У меня как раз 128 ddr4 + карта, могу запустить какие влезут завтра-послезавтра. По идее при изменении битности с 2 до 4.3, скорость пропорционально падает, так как узкое место на 90% - это чтение матриц, а компут там очень лёгкий в сравнении (при генерации), так что можно даже пятый оценить запустив в 1.1 bpw, какая у него будет скорость на этой же ddr4 в 384 ГБ.

Аноним 19/03/26 Чтв 09:05:28 #436 №1555868

>>1555844
>Это можно продолжать до бесконечности.
Не, придётся остановится на палеолитических Венерах, раньше 40 тыщ лет до нашей эры дроч контента не существовало.

Аноним 19/03/26 Чтв 10:09:15 #437 №1555885

>>1555532
Объясняется это изейше, большинству нормисов не нужны длинные чаты, компании нужно обслуживать кучу народа подешевле.
В итоге имеем мое сетку квантованную до хер знает какого уровня, лишь бы что то могла выдать с огромной скоростью не заморачиваясь с длинным контекстом. Профит.

Аноним 19/03/26 Чтв 10:18:05 #438 №1555892

>>1555714
> карточка я так понимаю в статусе слабой совсем
Смотря для чего. На qwen3.5 110 awq 36 тпс в однопоток на фулл врам сетапе. В z image turbo 5s/it, в обычной не турбо 13.5.
Главная фича что можно набрать много однородной врамы

> по чем их кста толкают сейчас на таобао?
Последний рабыло немного дешевле в100 32. За такую цену она нафиг не нужна. Имбой она была когда стоила дешевле сегодняшней серверной д4 планки на те же 32г

Аноним 19/03/26 Чтв 11:09:36 #439 №1555924

>>1555868
> дроч контента не существовало
Дроч контент в виде подглядывания существует ещё среди животных.

Аноним 19/03/26 Чтв 11:33:56 #440 №1555948

>>1555843
Мог бы расписать подробно, наверно, но у тебя наверняка меньше 24гб врам. В таком случае 128гб не имеют смысла, потому что не влезет ни сам квант, ни 32к контекста

Аноним 19/03/26 Чтв 11:37:26 #441 №1555959

>>1555948
С чего ты взял?
У меня 32 врам

Аноним 19/03/26 Чтв 11:39:55 #442 №1555965

>>1555959
Покажи

Аноним 19/03/26 Чтв 12:09:10 #443 №1556010

>>1555789
C включенным mmap веса которые ложатся в видеокарту выжирают и обычный РАМ . Что не даст запустить кванты moe-моделек на пределе RAM

Аноним 19/03/26 Чтв 12:11:06 #444 №1556013

Привет анотош. Подскажи кого удобно будет использовать в качестве нейронки для текст гена в качестве локальной витубирши. Скачал айри и подключил к оламе и там по дефолту пркдложило квен 3.5, скачал его. И оно в режиме взаимодействия с айри думает очень долго на моей 5060. Даже если в настройках отключить думонье(мне кажется оно не включается все равно) . Есть ли какой-то выход или только докупать оверпрайс железки за сотни тыщ?

Аноним 19/03/26 Чтв 12:12:11 #445 №1556015

>>1556013
> не отключается все равно
Фикс.

Аноним 19/03/26 Чтв 12:20:08 #446 №1556031

Просто поразительно что за столько тредов в треде не было человека который бы пробовал 70б плотную ламу и 106б эир и мог бы дать отзыв что же лучше

Аноним 19/03/26 Чтв 12:21:08 #447 №1556032

>>1556031
Было и не раз, но ты кроме своего семенства ничего не читаешь.

Аноним 19/03/26 Чтв 12:22:32 #448 №1556036

>>1556032
Не было ни разу, никто ничего не писал про 70б, только васяны теоретики вылазили

Аноним 19/03/26 Чтв 12:23:19 #449 №1556039

>>1556036
Ты сейчас отвечаешь тому, кто целое полотно выдал, сравнивая их. Обтекай.

Аноним 19/03/26 Чтв 12:32:09 #450 №1556047

>>1555965
Не покажет, не утруждайся. У местного семена опять котелок протек. Видимо ты и так понял.

Аноним 19/03/26 Чтв 12:48:52 #451 №1556079

>>1556031

Чел, время плотной ламы закончилось год-полтора назад, из какого времени ты вылез? И даже пока лама была актуальна - она сосала у Квена 72B.

Аноним 19/03/26 Чтв 13:03:49 #452 №1556112

hang-first-time.gif

Баля, знаю что запоздал и тут уже вроде месяц как вынюхали новые квены, но ебать они реально так неплохи? Я пока что ДАЖЕ просто 9b скачал и вот руки наконец-то дошли до него, ебать, это же что будет на 27b, я пока думал что геммочка 27b это единственная умничка, но бля, не буду сразу сходу поддаваться этой хуйне, я знаю как это бывает, выходит новый тюн хуйня%нейм модели и первые же впечатления всегда обманчиво хороши, дайте плз TL:DR ну или скиньте пост если помните/держите вкладки из утонувших тредов о правдивом мнении анонов, в шапке вижу кто-то сделал выжимку о моделях 2026 года, но там в основном только о гигантских МоЕ-шках которые запускались на 192-1 ТБ ОЗУ серверах/воркстейшенах. Пока что какое-то наивное чувство что после скачки квена 3.5 27b я получу что-то лучшее минимум в два раза чем плотная геммочка27b. П.С за картинку извините, знаю тут так не приятно, давно не заходил, просто от корпосеток поплохело последнее время, особенно от их раз-через раз квантования, порой бля гэги выдают хуже самых мелких тупеньких локалок, вывозят буквально наверное только за счет векторизации и умения работать с крупными базами данных.

>>1554789
>Huihui-Qwen3.5-35B-A3B-Claude-4.6-Opus-abliterated-i1-GGUF
Ох уж эти тюны

>>1554871
Никому до сих пор не удалось натренировать модель на РП, а ты бля с 3090 о таком пишешь, я понимаю что ты подрочил и успокоился после высера подобной идеи, но все же, ты бы хоть попробовал сделать пресет что бы даже корпосетки с триллион параметров писали не хуйню. Максимум что у тебя получится это (в теории даже если ты арендуешь мощности для тренировки) это гибдрид аблитерации с шизогенератором и лоботомией, а одним словом говнотюн.

>>1555610
80% да даже наверно больше, моделей обучаются на chatML, не хочешь ебаться - ставь его а там уже сам пойдешь рвет ли шаблон у модели/лупы.

>>1555791
>> как отключить reasoning у модели в связке koboldcpp + sillytavern
>У Silly Tavern хз
Не надо убирать думалку, она пиздец как помогает в РП особенно мелким моделям, тут досаточно рэгекса на просто скрытие думалки [\s\S]*?<\/think>, у пресета ремиксера из асига все нужные полезные рэгексы встроены прямо в пресет
>sonia-your-biggest-hater-fd2c4033df4d
Oh, I know what kind of man you are, anon.

>>1555828
О, first time?

>>1555843
> реквестирую скорости на 128 ддр4
Бля да там скорости ну где-то на 20% меньше чем при ддр5, вместо 9-10 т будет 7-8т.

>>1553802
То что ты там что-то сделал на квене с курсором, ты пользовался корпоративной моделью у которой обычно уже далеко за 1 триллион параметров, а тебе всё что светит запустив на десктопе это дебилки 4b-12b, вот и сравнивай разницу, 1 триллион и 4-12 биллионов, они не годны ни на что, тебе уже сказали что они в связную речь не могут даже путаясь в грамматике, а для кодинга а не галлюцинаций, вообще нужно столько параметров что без рига можно идти нахуй.
> что в целом сейчас делают люди, что нужны такие мощности?
Ничего, кто прошарился до бума МоЕ-шек - закупились оперативкой до сентября 2025го.
>>1553803
Модели для генерации кода нужно дохуя примеров и знаний которые зашиты в неё (дохуя параметров) без понимания определенных строчек кода модель не будет знать что в ней нету тех слов которые подходят по определенную ситуацию, вместо этого она будет высирать ближайшие попавшиеся токены вообще в неё есть уходя в луп делая не код а ебучую мешанину из рандомной хуйни. А насчет скорости тоже забудь, не думай что у тебя хитро получится сидеть на 1-2 токена запуская модель вообще на ссд и тд. Это так не работает, и кстати дешевле пока что платить корпоратам за АПИ чем мучать свое без того слабое железо для медленной генерации, ты больше за электричество заплатишь.
>>1553829
> и всё это было второстепенным по сравнению с программированием, которым я занимаюсь больше 15 лет.
Спасибо что ты существуешь, а я кстати 15 лет дрочил на аниме и деградировал, кстати и сейчас так делаю!

Аноним 19/03/26 Чтв 13:13:44 #453 №1556128

Кстати, анон который посоветовал юзать Сhat Compeletion, вместо Text Compeletion под локали, спасибо тебе огромное, я бы в жизни не догодался что так можно и НУЖНО, я пиздец какой не креативный в написании промптов, потому пизденье чужих пресетов мне очень упростило квалити оф лайф.

Аноним 19/03/26 Чтв 14:02:22 #454 №1556163

>>1555776
A можно эту ЛМ студию к силли таверне присобачить ули там какой-то другой UI исползуется?

Аноним 19/03/26 Чтв 14:05:40 #455 №1556167

image.png

>>1556112
> это же что будет на 27b
Да ничего особо не будет. Меньше тупизны.

За год дроча с локальными лоботомитами я заметил, что тут идут жесткие диминишинги. Прожорливость растет, а слоп остается слопом.

С моделями МоЕ картина отличается, потому что какая-нить 400B A20B будет знать больше, чем 200B A20B. Проблема в том, что вот это "А" (активные параметры) у них у всех отличаются, и когда высирают жижу уровня 100B A3B хочется просто взять и уебать, ведь эта тварь тупа как пробка.

Аноним 19/03/26 Чтв 14:10:23 #456 №1556173

>>1556163
Конечно. Режим просто текста - через API kobold-а. Режим чата - через API openAi (надо добавить /v1/ в конец ссылки на твой сервер)

Аноним 19/03/26 Чтв 14:13:59 #457 №1556177

image.png

>>1556163
Можно, в студии включи developer mode и найди вкладку где там монитртится статус подключения - не помню надо ли чето дополнительно включать, может быть, в общем хуйня на пик2 будет если сервер рабочий - там появится загруженная модель. А в таверне вот такой профиль просто сделай.

Аноним 19/03/26 Чтв 14:18:46 #458 №1556188

1773919023632.png

>>1556047
>>1556039
>>1556032
>

Аноним 19/03/26 Чтв 14:20:30 #459 №1556191

Наши сердца бьются в унисон пропуская удары, кумобратья.

>>1556188
Что, член в стул врезался от напряжения? Бывает и такое... у нас тут чего только не бывает.

Аноним 19/03/26 Чтв 14:28:10 #460 №1556207

>>1556013
Надо понять что именно это за "думонье". Это может быть внутренний ризонинг, когда модель сначала генерирует кучу раздумий перед ответом - отключаемо, это может быть обработка изменившегося контекста и дальнейшее генерация - неизбежно но можно ускорить.
Что за айри? И оллама дает довольно мало гибкости в настройках с оптимальным перфомансом если что.
>>1556031
Если для рп то ллама, если нужны данные посвежее и кодить с вызовами - эйр. Но по сегодняшним меркам это как сравнивать второй фокус и первое поколение сандеро. Блять что-то хуевый и злободневный пример получился.
>>1556112
> они реально так неплохи
Да, они хороши. Как мелочь круто перформит для своего размера, так и крупные очень умные. 122 позволяет закрыть потребности для универсального ассистента, мелко-среднего вайбкода и кума-рп или все вместе сразу. Флагман 397 показывает себя на удивление прилично, конечно не опус-жемини, но очень близко к ним, для большинства задач даже не заметишь нехватки мозгов. Помимо прочего, у них шикарная мультимодальность и интеграция картинок в контекст, модель не лоботомируется если будет хранить пару десятков пикч, можно буквально скидывать хентайную додзю в качестве референса, обсуждать, а потом приступать к разыгрыванию сюжета.
> наивное чувство что после скачки квена 3.5 27b я получу что-то лучшее минимум в два раза чем плотная геммочка27b
Смотря где. Если начнешь простой рп чатик - ответы могут и просто не зайти, вон выше кто-то пердолил чтобы было хорошо. Если запустишь на крупном контексте с множеством инструкций - уже разницу заметишь.

Аноним 19/03/26 Чтв 14:45:27 #461 №1556219

>>1556207
> Если запустишь на крупном контексте с множеством инструкций - уже разницу заметишь.
Гемма, между прочим, была одной из немногих мелкомоделей, которая очень жестко слушала инструкции. Слабо верится, что китайская хуйня ее превзойдет. Именно с геммой тут лучше всего удавались сумасшедшие эксперименты по промптам - от сложных систем по вычислению чего делать персонажу и чего не делать, до бросков кубика и рандомизации. Какой-нить мистраль или предыдущий квен (32б) на это был неспособен.

Аноним 19/03/26 Чтв 14:47:47 #462 №1556221

>>1556207
> Надо понять что именно это за "думонье". Это может быть внутренний ризонинг, когда модель сначала генерирует кучу раздумий перед ответом - отключаемо, это может быть обработка изменившегося контекста и дальнейшее генерация - неизбежно но можно ускорить.
> Что за айри? И оллама дает довольно мало гибкости в настройках с оптимальным перфомансом если что.
Это витубер нейросама-лайк интерфейс у него есть разные модули основной из них это чат с ллм и вот почему-то если я через оламу пишу мне квен отвечает в разы быстрее раз в 10 чем через него. Понятное дело он там сверху надстраивает промт но чтобы настолько дольше он это все делал это странно. Может кто уже пытавшийся все это завести и имеет опыт потому и спрашиваю. Потому что мне кажется что он пускается в размыления которые для этих задач не нужны.

Аноним 19/03/26 Чтв 15:26:33 #463 №1556256

>>1556219
Да, геммочка умница. Сколько ее хейтили и насмехались, а время все расставило. Но у нее меньше "емкость" и способность разделять близкие вещи когда все переполнено, это именно сильная сторона квена. Просто пробуй, сейчас модели уже на таком уровне, что в обычном рп больше субъективные предпочтения или рандом могут больше ролять, а заморачиваются далеко не все.
> предыдущий квен (32б)
Та версия вообще странной и шизоидной показалась.
>>1556221
Нужно посмотреть логи и понять на что тратится время. Вероятно там дается большой промпт и он каждый раз переобрабатывается, а из-за странной настройки выгрузки модели у тебя процессинг медленный. Или используется ризонинг, тогда нужно его отключить добавив в параметры бека или изменив запрос с софтины.
Без логов это "у меня компьютер сломался".

Аноним 19/03/26 Чтв 15:39:11 #464 №1556268

image.png

>>1554497
>>1554874
>>1554992
Я нашел проблему. У Мистраля 4 не работает Flash Attention и поэтому его включение режет скорость в нулину. А если его вырубить, то он уже нормально работает, хоть и все равно немного медленно, учитывая всего 6b активных

Аноним 19/03/26 Чтв 15:42:38 #465 №1556273

17590031317960.webm

>>1556112

Короче бля, я повелся на то что он реально хорошо отвечает на ассистенто-говно подумав что и в рп будет прорыв, но тут удивляться нехуй что в 2026 китайцы натренили норм модель на ассистента, в РП же это... то самое китаеговно за что я все прошлые квены терпеть не мог, бля надеюсь новая геммочка будет няшечкой на голову выше уже старушки геммочки 3...

Аноним 19/03/26 Чтв 15:44:56 #466 №1556276

>>1555632
>reasoning
Я сам простофиля, но попробуй префиксы с моего скрина >>1554624. Не гарантирую, что они сработают, но вроде qwen перестал срать ебучим говном (эти настройки почему-то слетают). Мне тут их и посоветовали однажды.
>>1556112
>Не надо убирать думалку, она пиздец как помогает в РП
Не жиза вообще. Просто шлаком ебучим срёт минуту. Может в каких-то технических задачах и будет хорошо, но сложилось чувство, что ризонинг помогает только очень крупным моделям, а другим вредит, загоняя в цикл шизобреда.

Попробовал тут GLM-4.5-Air, Qwen_Qwen3.5-122B, и лежал давно MS-Nudion-22B, хотел его заменить. Но результаты неоднозначные в рамках одного персонажа и пресета, английский чат с нуля каждый раз + редактура первых сообщений, чтобы устаканить формат сообщений:
Nudion - лаконично, только нужное, без шизоидной хуйни со звёздочками и кавычками, но смущала древность модели и размер.
Обе другие игнорили мой упрощённый формат повествования (действия в звездочках, остальное - речь без форматирования), пытались прямую речь пихать в кавычки, как положено.
GLM - начался сёринг СОБЫТИЯМИ, ВПЕЧАТЛЕНИЯМИ и прочей парашей, повествованием частично от третьего лица, но в целом неплохо, не уходило в thinking даже со сбитыми настройками.
Qwen - ещё хуже чем глм, и в добавок часто норовило начать ДУМАТЬ, и мысли эти были на уровне "так ёбана, я рп, надо очень сильно сои заебашить, а то что-то уже дело к сексу идёт", постоянные отказы и ужимки, пришлось отредачить вручную один его thinking, чтобы кое-как развязать ему руки, короче какое-то говно казалось бы, но я учитываю, помогли бы дополнительные строчки в sysprompt специально для этой соевой модели, что мог неправильно запустить, просто не повезло или ещё что.

Так, не так?

Аноним 19/03/26 Чтв 15:45:41 #467 №1556278

>>1556273
>новая геммочка
Ее либо не будет,либо это будет очередной 150ba1b мусор

Аноним 19/03/26 Чтв 16:01:31 #468 №1556289

>>1556276
Ты просто привык к своему старому калу, поэтому тебе другое не заходит. В треде есть еще фанатик тюнов немо 12, похожий на тебя
Если тебе нравится, то кумь на здоровье, но когда такие как ты приходят в тред, то выглядит это всегда комично. Что-то вроде:
"Ой, я решил попробовать дипсик, а он текстом срет. А моя умничка llama 2 7b все по делу пишет. Так что результаты неодназначные"

Аноним 19/03/26 Чтв 16:11:05 #469 №1556295

>>1556289
Но нюанс в том, что я включаю ллм раз в полгода, у меня нет привычки. Я бы показал примеры, но впадлу, всем итак известно что такое ебанутая шизоидная графомания с описанием трепетно колышущихся соплей на лавочке и что такое только нужный текст-речь.

Аноним 19/03/26 Чтв 16:18:58 #470 №1556306

>>1556256
Подскажи как это сделать. Как логи подсмотреть

Аноним 19/03/26 Чтв 16:36:03 #471 №1556320

MJu3hOPz8pZSDzWRPK7ng.webp

>>1556268
Анон, ты хорош.

Аноним 19/03/26 Чтв 16:51:26 #472 №1556331

>>1554992
Я долбоёб, я понял чё случилось с квеном.
У меня наступила блажь ебашить на 1-2к примеров диалога, чтобы персонаж разговаривал так как МНЕ нужно, в соответствии с его характером. Поэтому и нет, блять, квенизмов. Он просто шлепает по шаблону, лол.

Аноним 19/03/26 Чтв 17:46:55 #473 №1556365

изображение.png

Чот немного проиграл с этой коммерческой тайны

Аноним 19/03/26 Чтв 17:51:11 #474 №1556368

>>1556365
Лучше спроси какого года в нём данные.

Аноним 19/03/26 Чтв 17:59:13 #475 №1556374

изображение.png

>>1556368

Аноним 19/03/26 Чтв 18:03:03 #476 №1556378

>>1556374
Кекнул. Это называется: Ломай, ломай меня полностью.

Аноним 19/03/26 Чтв 18:04:53 #477 №1556381

изображение.png

Вот это должно меня заменить?
Правильно ли я понимаю что из-за этой фигни у меня и не получалась ничего внятного быстро вытянуть из него?

Аноним 19/03/26 Чтв 18:07:34 #478 №1556387

изображение.png

Аноним 19/03/26 Чтв 18:07:35 #479 №1556388

>>1556381
Оллама сломана все еще, ты запускаешь хуйню. Поэтому и ответы хуйня.

Аноним 19/03/26 Чтв 18:08:00 #480 №1556389

>>1556388
Дай совет что запускать

Аноним 19/03/26 Чтв 18:08:12 #481 №1556390

>>1556374
Может семплер хуево настроен

Аноним 19/03/26 Чтв 18:08:19 #482 №1556391

>>1556381
>Вот это должно меня заменить?
Уже заменяет.
А у твоей лолламы походу просто тупо сломан стоп токен (или токен остановки ризонинга), поэтому негронка и срёт до бесконечности. Используй нормальные инструменты из будущего, у жоры тоже небось всё сломано).

Аноним 19/03/26 Чтв 18:09:52 #483 №1556393

>>1556391
Я не знаю что за инструменты, подскажи.

Аноним 19/03/26 Чтв 18:12:04 #484 №1556395

>>1556374
>ох тембр 2024
Консервище...

Аноним 19/03/26 Чтв 18:16:51 #485 №1556399

изображение.png

>>1556393
Прямо в шапке. Удивительно, да?
>>1556395
ОленьАИ засрали все интернеты, это у них была отсечка по этой дате (вроде бы).

Аноним 19/03/26 Чтв 18:22:17 #486 №1556405

>>1556399
Минисрали вообще до 2023, там ответы ещё шизовее. Ждём новое, терпим мягкие, но твёрдые взгляды со стороны копроедов.

Аноним 19/03/26 Чтв 18:26:48 #487 №1556414

>>1556268
Там же mla, нужен флеш-мла, или флешинфер, или тритон. Довольно странно, по идее оно вообще не должно работать тогда.
А без фа насколько проседают скорости с контекстом?
>>1556276
> игнорили мой упрощённый формат
> повествованием частично от третьего лица
> часто норовило начать ДУМАТЬ
> рамках одного [..] пресета
И на что ты рассчитывал? Поставь необходимый для моделей формат, включая управление синкингом.
>>1556306
Изучай где в олламе включить подробную печать в консоль, это можно было сделать. А лучше просто не используй ее, она и была тем еще трешовым блоатвером, а сейчас совсем плоха стала.

Аноним 19/03/26 Чтв 18:31:59 #488 №1556419

1.png

2.png

>>1555843
> реквестирую скорости на 128 ддр4 на большом глм
https://huggingface.co/unsloth/GLM-4.7-GGUF/tree/main/UD-Q2_K_XL
DDR4 3200 + 4090 с андервольтом и поверлимитом на 80% выдают ~5 токенов на старте и ~4.6 на 32к FP16 контекста. Больше не влезет. Винда, llamacpp. Это лучший квант из всех 4.5-4.7 (включая IK кванты), самый стабильный. 4.5 глупее всех и не так много знает; 4.6 неюзабелен в принципе, слишком слоповый и уходит в репетишен; остальные 4.7 кванты хуже держат контекст и требуют больше свайпов. Это единственный раз на моей памяти, когда Анслоты сделали действительно годный квант.

> стоит ли апгрейдиться ради этого
Выше верно сказали, что если меньше 24гб врам, то даже этот квант не влезет, он весит 125 гигабайт. Стоит ли тратить цать тысяч рублей на апгрейд до 128гб DDR4? Вероятно, нет.

> Сравнения с эиром, в чем конкретно лучше, как пишет и тд
Очень долгое время я сидел на Air в Q6 и только пару месяцев назад попробовал 4.7 в данном кванте. Разница есть, но она не настолько крутая, как после перехода с 24-32б плотных моделей на Air и особенно после того, как приноровишься им пользоваться. 4.7 в данном кванте однозначно умнее, понимает больше нюансов, знает больше, не путает сущности и не допускает смешных очепяток, как это делает Air даже в Q6. Но имхо, это по-прежнему не стоит того, чтобы покупать оперативу за оверпрайс, если только тебе буквально некуда деть деньги или это пригодится где-нибудь еще, например в больших 3D проектах, как мне. Для меня это на сегодняшний день дейли драйвер, которому нет альтернатив. Квены и Степ, сколько я с ними ни пытался подружиться, не мое: они спустя несколько аутпутов уходят в высокоодухотворенные респонсы, которую тут кто-то именует театральной постановкой, а кто-то пережаренным слопом. Немотрон соевый гаслайтер, я согласен с аноном, который кидал логи асситентского чата. Пусть там и не очевидна проблема, но стоит порпшить на нескольких карточках, как восторг от всего остального быстро уходит. Ассистент и соя протекают в рп, как было у 49б. Не кидаю камень в огород тех, кто их использует - нравится, и хорошо, а я так и не смог подружиться с ними. Есть и проблемы у 4.7, возможно, связанные с квантованием. Например, если чар представлен как professional или где-нибудь указано military-like, organized, еще сотня синонимов, он может начать разговаривать почти как робот. Любит уходить во всю vulnerability тему, наваливать драму, даже когда в промпте прямо указано, что это какая-нибудь lighthearted romantic comedy story with primary focus on comedy and light subjects. Но с другой стороны, на 24+128 на сегодняшний день альтернатив нет. У каждой модели есть свои нюансы. Но в отрыве от этого умница, хорошо развивает сюжеты, пишет литературно, но без пережара и не сухо. Это как Air, но несколько лучше. Если у тебя совсем не заладилось с Air - не заладится и с 4.7. Если тебя бесит эхо или что-нибудь еще, то это исключительно проблема промтинга в данном случае, говорю как тот, кто месяцами ковырял разные подходы. Лишаешь модель знания, кого отыгрывает юзер - решаешь большинство проблем. И ломать разметку для этого необязательно.

Если интересно посмотреть, как он пишет, то я приложил логи чата на 20к токенов. Никакого кума там нет, это самое начало слоуберн чата в стиле, описанном выше. Мало понятно, ясное дело, но общее понимание может дать. Могут ознакомиться и те, кто сторонники, что любой Q2 - неизбежная лоботомия. Имя юзера изменено офк, карточка на 4к токенов, в ней 6 персонажей и сеттинг. А вообще, если надо понять - отправляйся на попенроутер и не слушай никого.

Аноним 19/03/26 Чтв 18:50:01 #489 №1556434

Как вы определяетесь какая из моделей лучше? Всё никак не могу решить какую оставить.

>>1556414
>Поставь необходимый для моделей формат
Это ставил. Системный промпт только был одинаковый.

Аноним 19/03/26 Чтв 18:57:19 #490 №1556440

>>1556419
> Разница есть, но она не настолько крутая, как после перехода с 24-32б плотных моделей на Air и особенно после того, как приноровишься им пользоваться.
Сейчас налетят адепты активных параметров.
Респект что логи продолжительные выложил.
>>1556434
Обрекаю тебя на пользование новым немотроном, его качай@остальные удаляй.
А вообще есть новый мистраль в этом размере, если тебе заходил старый - просто используй его. Модель объективно неплохая и достойная.

Аноним 19/03/26 Чтв 19:41:36 #491 №1556480

>>1556434
>Как вы определяетесь какая из моделей лучше?
Фотоплетизмограф на член, чем больше наполненность кровью, тем лучше модель.

Аноним 19/03/26 Чтв 19:59:59 #492 №1556504

Ебааааааааать....

Не знаю, вернусь ли я теперь к таверне когда-то.
Вчера вечер и сегодня целый день я ковырял openclaw. (Вчера наконец настроил его со свежей llama.cpp и qwen 3.5 27B от двучлена.)
Так вот RP там - это "completely another level".

Запустил отдельного агента. Русским языком ему написал - как должно работать RP, как (по каким лекалам) создавать персонажей. Объяснил что есть два режима - редактирование и игра.
Теперь я ему просто пишу - хочу такую игру языком как "можно грабить караваны", я буду там тем-то - он себе пишет заметки и когда я говорю "играем" - он действительно работает как DM по тому, что я ему заказал.
Причем все это на русском. Персонажи не тупят, ничего не забывается - т.к. он сам за всем следит. Если что-то не нравится - говорю "редактируем" - и объясняю что не так простым языком. Он, сцуко понимает, и больше так не делает. Отучил от характерных косяков в русском на раз.
Вот это, блин - RP. А таверна по сравнению с этим - это как детский самокат перед гоночным мотоциклом...

И это локальный квен iq4xs на 20гб VRAM со скоростью генерации примерно 10-12T/s. Этого ХВАТАЕТ. Да при настройках - когда он активно думает и правит файлы заметок - несколько долговато, до нескольких минут. Зато в самой игре - почти то же самое что в таверне (контекст целиком считается очень редко), но насколько же умнее при этом все происходит... А главное - никаких тупых рамок и ограничений таверны. Захотел - сказал агенту - есть. Минус только один - надо более-бенее внятно сформулировать - чего ты хочешь. А так - можно даже карточки готовых персонажей от таверны скармливать, он разберется сам. Да еще и улучшит на ходу.