Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №229 /llama/

Аноним 30/04/26 Чтв 12:05:34 #1 №1601740

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 5.png

17681378281281.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1600155 (OP)
>>1598239 (OP)

Аноним 30/04/26 Чтв 12:13:04 #2 №1601745

Я в отчаянии. Почему я просто не могу получить модель лучше air'а 10 месячной давности?
Вышел немотрон, квен, степ, мистраль, линг все со стандартными 11-12б активных и всё равно это не апгрейд для рп

Аноним 30/04/26 Чтв 12:14:06 #3 №1601747

>>1601745
Потому что ты шизик

Аноним 30/04/26 Чтв 12:35:08 #4 №1601757

consideringcat.jpg

>>1601745
плотная гемма и 70b тюны ламы - дешёвые сайдгрейды аира
123b criminal computing поёбывает аир
дипсик флэш ставит эйр раком
выбирай

Аноним 30/04/26 Чтв 13:07:40 #5 №1601784

Есть способ стену текста на 1200 токенов от гемочки превратить в теги для генерации картинки в комфи. Сначала пытался стандартным таверновским, оказалось он годится для старых sd новые вокрфлоу с небольшими квенами не воспринимает гонит туда другие теги. Пытался на холодных инструктах держа в контексте внешку через кобольд выгнать теги но результат так себе не регулярный.

Аноним 30/04/26 Чтв 13:09:42 #6 №1601787

>>1601784
В прошлом треде

Аноним 30/04/26 Чтв 13:18:53 #7 №1601795

>>1601787
Это не то, мне делать теги из готового текста надо, не писать что я хочу.

Аноним 30/04/26 Чтв 13:19:26 #8 №1601796

>>1601787
Если ты про анона который просто скормил гемме доки анимы, то нет там ничего

Аноним 30/04/26 Чтв 13:21:02 #9 №1601797

>>1601795
Ну так и попроси гемму, вываливаешь в неё доку от модели, свой текст, она его пережовывает в промпт

Аноним 30/04/26 Чтв 13:24:10 #10 №1601799

>>1601797
Если бы было просто то не спрашивал тут. Пол дня пытался на 2гиговых квенах на плотных инструктах на самой гемме. Промтов 50 поменял. Универсального решения не нашел. Вручную читать и подтирать каждый тег не хочу.

Аноним 30/04/26 Чтв 13:49:38 #11 №1601822

>>1601784
Как вариант засунуть список тегов в контекст и попросить выдернуть нужные.

Аноним 30/04/26 Чтв 13:54:41 #12 №1601824

image

Никого не забыл вроде?

Аноним 30/04/26 Чтв 14:00:14 #13 №1601828

>>1601822
Хуя себе какая штука! А так можно было ?
https://huggingface.co/Qwen/SAE-Res-Qwen3.5-27B-W80K-L0_100

Аноним 30/04/26 Чтв 14:03:45 #14 №1601831

>>1601824
Квен 3.5 - няша-стесняша-писательница, квен 3.6 - секретарша-агентщица.

Аноним 30/04/26 Чтв 14:10:05 #15 №1601838

>>1601824
Кринж, не приноси такое больше пжлста

Аноним 30/04/26 Чтв 14:10:45 #16 №1601839

У меня опять сломался эир.
Я щас всё разъебу и распродам в пизду. Ну не может так быть что настройки и карточка те же, а выдает скучнейшие короткие ответы. Я себя чувствую как облакоблядь которому гемини лоботомировали.
Я еще жору компилю раз в пару дней от чего шиза обостряется

Аноним 30/04/26 Чтв 14:13:09 #17 №1601841

>>1601839
Да, распродай все и сьеби. Лучше Эира уже не будет а он шизопомойка

Аноним 30/04/26 Чтв 14:14:40 #18 №1601842

image.png

>>1601839
>>1601841

Аноним 30/04/26 Чтв 14:20:26 #19 №1601848

Вот бы можно было проверить свайп годичной давности, как в комфи даже если картинке 2 года просто закидываешь её, считывается мета и генеришь точную копию, знаешь что ничего не сломано

Аноним 30/04/26 Чтв 14:26:38 #20 №1601858

>>1601824
Годнота, приноси и дальше в тред, пожалуйста

Аноним 30/04/26 Чтв 14:26:59 #21 №1601859

>>1601838
терпи.webm

>>1601839
Очевидные проблемы с пресетиком и самой карточкой. У меня всё норм с Эйром. В своём размере всё ещё лучшая модель для рп/ерп.

Аноним 30/04/26 Чтв 14:45:03 #22 №1601869

>>1601824
Средненько. Можешь не приносили или приносить больше такого в тред. На твоё усмотрение.

Аноним 30/04/26 Чтв 15:03:24 #23 №1601876

>>1601824
Кринж.

Аноним 30/04/26 Чтв 15:05:54 #24 №1601879

>>1601824
База.

Аноним 30/04/26 Чтв 15:06:03 #25 №1601880

>>1601848
curl localhost:8080 flags payload.json

Аноним 30/04/26 Чтв 15:08:09 #26 №1601883

>>1601828
https://www.reddit.com/r/LocalLLaMA/comments/1szrbub/qwenscope_official_sparse_autoencoders_saes_for/

тлдр - инструмент для потрошения внутрянки квенчиков. может быть скоро запилят охуенные файнтюны.

Аноним 30/04/26 Чтв 15:21:41 #27 №1601896

А кто-то из врамобояр уже потестил новый Мистраль? Как он? Лучше геммочки, квенчика и моешик?

Аноним 30/04/26 Чтв 15:22:37 #28 №1601897

image.png

Вы вот всё про скилишью. Но почему тайлунг тоже повёлся на свиток дракона? У него явно со скилом всё было в порядке.

Аноним 30/04/26 Чтв 15:26:00 #29 №1601900

>>1601897
Так у него свежей геммочки-писечки не было.

Аноним 30/04/26 Чтв 15:26:49 #30 №1601902

>>1601896
Выше писали тред/реддит/хф ггуфы ломаные.
С вллм сегодня попробую https://huggingface.co/rdtand/Mistral-Medium-3.5-128B-PrismaQuant-4.75-vllm/tree/main

Аноним 30/04/26 Чтв 15:30:55 #31 №1601904

>>1601824
Кринжебаза.

Аноним 30/04/26 Чтв 15:40:48 #32 №1601909

Зерофата занялся тюном новой мистрали. Оц овер.

Аноним 30/04/26 Чтв 16:55:15 #33 №1601946

изображение.png

Дипсик новый вона какие графики рисует, охуеть просто. Может ли так гемочка или квен?

Аноним 30/04/26 Чтв 17:07:58 #34 №1601955

image

>>1601946
У нормальных людей модели вот так могут.

Аноним 30/04/26 Чтв 17:09:28 #35 №1601957

>>1601955
А текстом может так?

Аноним 30/04/26 Чтв 17:11:35 #36 №1601960

image

>>1601957

Аноним 30/04/26 Чтв 17:18:47 #37 №1601966

>>1601960
Ладно, меня обоссали.
Но все же интересно че в локалках

Аноним 30/04/26 Чтв 17:20:13 #38 №1601968

image.png

>>1601966
Там тоже все норм давно уже. Мне кстати нравится как Qwen в ASCII рисует всякие там связи.

Аноним 30/04/26 Чтв 17:41:48 #39 №1601977

изображение.png

>>1601968
А зачем когда mermaid есть?

Аноним 30/04/26 Чтв 17:49:31 #40 №1601982

image

>>1601977
Кривовато выглядит.

Аноним 30/04/26 Чтв 18:01:17 #41 №1601990

>>1601977
Попробуй mermaid в какую-нибудь README.md сунуть лол. Иногда в документации надо рисовать КАРТИНКИ. Чтобы потом тупо в блокноте можно было открыть, или ещё где.

Алсо ГПТ там обдрочился чтоли? не мог же он пропустить целую линию?

Аноним 30/04/26 Чтв 18:05:49 #42 №1601996

>>1601982
Лол а тут целая лишняя связь откуда-то взялась. Tools и Memory Section стрелочкой не соединены.

Аноним 30/04/26 Чтв 18:13:14 #43 №1601997

image

>>1601946
1) GLM Air 106b Q4
2) Qwen 122b Q4
3) Gemma 26b Q8

Аноним 30/04/26 Чтв 18:28:27 #44 №1602008

>>1601997
Орнул с геммы. Она наверняка и крутые аски арты с голыми бабами сможет нарисовать

Аноним 30/04/26 Чтв 18:46:06 #45 №1602020

>>1601997
>15к ризонинга за 1 запрос
>20к ризонинга за 1 запрос
Что там такое? Обычно я бы начал думать что модель ушла в луп, но раз ответ есть, значит скорее всего нет.

Аноним 30/04/26 Чтв 18:50:12 #46 №1602024

>>1602020
Как и всегда у китайских моделей, ответ был готов почти сразу, но начинается клоунада с BUT WAIT... и переливание из пустого в порожнее по 10 раз.

Аноним 30/04/26 Чтв 19:05:57 #47 №1602031

>>1601627 →
>А тебе для картинок не пофиг где будет дом жить? Выкинь v100 в виртуалку и катай гемму там. v100 в отличие от блеквела должна без проблем пробрасываться.
Я же писал, что я их и для картинок использую. Если у тебя есть решения, где в мультигпу сетапе можно использовать в т.ч. удаленные девайсы, то поделись. Я только Ray накопал, но он, по-видимому, нативно никуда не интегрирован, и надо будет пердолиться самому. Но тут на борде обычно случается пикачу.jpg когда речь идет о мультигпу в картинках.
Хз, максимально пидорский мув от куртки. Теперь понятно, чому ушлые китайцы так активно выкидывают вольты на рынок.

Аноним 30/04/26 Чтв 19:08:46 #48 №1602033

>>1602031
Уточнение - мне такие решения нужны для diffusers, не для комфи, лапша это безнадега

Аноним 30/04/26 Чтв 19:10:52 #49 №1602034

images(12).jpg

>>1602020
всё как обычно

Аноним 30/04/26 Чтв 19:23:36 #50 №1602037

>>1602031
Нихуя не понятно что ты хочешь. Чтобы карты динамически распределялись между llm и diffusion или что? Или ручной переброс через CLI без перезагрузки?

Аноним 30/04/26 Чтв 19:54:33 #51 №1602059

Тестирую сейчас новый тюн от даркена и чёт ну бля хз даже хм-хм. С одной стороны стало меньше озона, мускуса и прочих слопвордов, с другой персонажи стали говорить суше.
Серафина, что забавно, когда я сказал, что могу ей помочь с её одиночеством, посоветовала не говорить глупостей и ложиться спать, т.к уже ночь. Хоба. Пожалуй впервые за сотни тестовых чатов Серафина сделала акцент на времени суток, мягко рефьюзнув. Надо будет попросить её посмотреть в ночное небо и спросить видит ли она телескоп джеймса вебба.
А ещё пойду Фифи подёргаю, вдруг она тоже чё-нить новое выдаст.

Аноним 30/04/26 Чтв 20:01:26 #52 №1602062

>>1602059
Честно, я не ебу что вы делаете что у вас серафина ноги раздвигает, по крайней мере сразу, у меня только на кумо файнтюнах сразу на всё готова. На гемме4 тоже говорит ты чё, родной, ушибся слишком сильно?
Не, если продолжать давить то рано или поздно поддастся наверно, только вот если вам именно эта давка на 50к контекста нравится то БлЯДЬ ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ А ПИЗДИТЕ НА МОДЕЛЬ? написал в промт "ломается как целка неделю" и наслаждаетесь хоть на гемме хоть на хуемме, и никакого раннего кума

Аноним 30/04/26 Чтв 20:11:42 #53 №1602068

>>1601990
>Попробуй mermaid в какую-нибудь README.md сунуть лол.
Обычно именно там mermaid и вставляется.

Аноним 30/04/26 Чтв 20:21:38 #54 №1602077

>>1602062
>что вы делаете что у вас серафина ноги раздвигает
Запускаем гемму4.
>если продолжать давить то рано или поздно поддастся наверно
Я же написал, что считаю забавным рефьюз ссылающийся на время суток, а не на банальное "нет я не такая". Хорошечно.
>ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ
Потому что промт не должен руинить карточку. Хорошая модель должна без промта отыгрывать персонажа.

Аноним 30/04/26 Чтв 20:31:18 #55 №1602085

15030089632790.jpg

Бля, пока нашел актуальный тред дважды некропостнул >_<
Пока богатые бояре шикуют я запустил всё это дело на старенькой 1050Ti, поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8, и балуюсь с маленькими abliterated модельками на 4-9b, думающие при должном пердолинге хорошо "дообучаются" через RAG базы знаний, если с температурой и top_k, repeat_penalti поиграть, выходит вполне осмысленно, чем подробнее база и объяснения, тем адекватнее модель применяет новые знания. Только базы надо самому составлять, чтобы лишней бесполезной хуйнёй и сухой терминологией модель не кормить.
Так что грустные нищуки со старой 1050Ti тоже могут попробовать запилить свою локальную вайфу.
Обзор маленьких моделек для нищуков:
gemma3:4b - веселая ебанушка, любит смайлики, сносно болтает по-русски. Расцензуреная версия резко деградировала, не рекомендую.

huihui_ai/qwen3-abliterated:4b
Вот её рекомендую галлюцинирует меньше чем более толстая 8b, даже с температурой 0.5-0.7
Думает, осмысленно подходит к использованию базы данных, с разговорным русским получше чем у дикпик-r1.
Можно чему-то "научить" задав жесткий императивный системный промпт:
"НЕ ИСПОЛЬЗУЙ ПРЯМОЕ ЦИТИРОВАНИЕ, выдавай знания из базы как свои собственные мысли.
Ты работаешь с динамическим словарём (RAG) который содержит ПРАВИЛЬНЫЕ МОРФОЛОГИЧЕСКИЕ ФОРМЫ.
ПРАВИЛО: Корректными считаются ТОЛЬКО те формы, которые указаны в RAG словаре.
Любая другая форма, особенно помеченные как "ТВОИ ОШИБКИ:" ЗАПРЕЩЕНА.
Внутренние знания модели о словоизменении ИГНОРИРУЙ, если они ПРОТИВОРЕЧАТ СЛОВАРЮ." и далее логику и роль, как использовать знания из базы.

huihui_ai/qwen3-abliterated:8b-v2-q4_K_M
Лучше логика, но хуже с галлюцинациями если не понизить температуру до 0.3 и top_k, всё пытается превратить в зоопарк, видимо в датасете было много о природе. (фуриёбы на месте?)

deepseek-r1:7b-qwen-distill-q4_K_M тоже думает, тоже может работать с базой, но делает это слишком долго и доёбисто, больше усилий тратит на размышления. Может в некоторые задачи.

GGUF модели прокинул через бэкэнд kobold_old_pc
Тут пожалуй стоит выделить только одну - Qwen3.5-9B-Claude-Code-Q4_K_M.gguf
Квен с ризонингом клода, может писать адекватный код и анализировать крупные проекты. Долго, муторно, хз зачем оно вам, но пусть будет.

Теперь вот ищу адекватную легкую непрожорливую TTS`ку для нищесистемы с приятным женским голосом, подскажете может что-то в этом направлении?

Аноним 30/04/26 Чтв 20:31:18 #56 №1602086

А можно ведь навайбкодить себе свою морду для бэкенда ламы? С блэкджеком и микрописьками? Минусы будут?

Аноним 30/04/26 Чтв 20:34:55 #57 №1602090

image.png

>>1602086
Не надо изобретать велосипед, open web ui

Аноним 30/04/26 Чтв 20:37:16 #58 №1602094

>>1602090
При желании уже проще в него ввайбкодить тулы/фильтры/пайплайны

Аноним 30/04/26 Чтв 20:39:55 #59 №1602096

>>1602090
Читал про нее, ну пробну тогда, выглядит вкусно

Аноним 30/04/26 Чтв 20:40:20 #60 №1602097

>>1602094
Там всё это есть, ниче вайбкодить не надо. и пайплайны и скилы и тулы и рэг и исполнение/подсведка кода и markdown разметка, и ттски и веб-поиск. Всё настраивается

Аноним 30/04/26 Чтв 20:42:13 #61 №1602100

>>1602097
Я знаю что там есть и прямо говорю что чего не хватает (а там не хватает) можно прикрутить на питоне

Аноним 30/04/26 Чтв 20:42:27 #62 №1602102

>>1602097
>>1602090

А анслоп студио это не тоже самое?

Аноним 30/04/26 Чтв 20:44:33 #63 №1602103

>>1602085
>поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8
Но.. зачем? В чем проблема просто запустить ламуцпп или кобольда?

>даже с температурой 0.5-0.7
>понизить температуру до 0.3 и top_k
Семплеры нужно ставить не от балды, а те что рекомендуют разработчики модели, на них будет лучший результат. Посмотреть можно в карточке оригинальной модели на обниморде или на сайте анслопов.

Алсо, попробуй Гемму 4 e4b - она умна не по параметрам, отличный русик, низкая цензура из коробки. А вот аблитерации и анцензоры ставить не советую (особенно на такую мелочь). Они лоботомируют модель и часто портят языки кроме английского.

Аноним 30/04/26 Чтв 20:45:30 #64 №1602104

>>1602102
В целом морд хватает. Я делал вообще на движке RenPy через пайтонкод запускаемый под капотом, с парсером смены эмоций и промптом, чтобы моделька подавала эмоции персонажу

Аноним 30/04/26 Чтв 20:48:11 #65 №1602107

image.png

>>1602103
Большой выбор моделей, с разными параметрами, проще управление списком и скачивание через пул рекевесты, в отличие от кобольда оллама хостит весь список, а не одну модель, можно выбирать через веб ебало

Аноним 30/04/26 Чтв 20:53:45 #66 №1602116

>>1602103
Ну вот эта квен 4b при лоботомии почти не пострадала, адекватно общается, только некоторые слова которые коверкает ей через RAG подаю. С ней и балуюсь.
За TTS ку простенькую лучше подскажите, с женским войсом который более менее не противный)

Аноним 30/04/26 Чтв 21:01:25 #67 №1602126

>>1602103
Моделька с отказами эротические фантазии хуёво отыгрывает, на роль локальной вайфу не годится.
Ты бы знал какую развратную тянку можно запилить при должном желании, а потом прикрутить к ней визуал через тот же renpy
Например пильнуть мод к какой-нибудь Her New Memory

Аноним 30/04/26 Чтв 21:01:34 #68 №1602127

>>1602090
Бесит что ризоноиг выключается/выключается там через жопу. А так безальтернативная балалайка, да.

Аноним 30/04/26 Чтв 21:11:08 #69 №1602138

>>1602127
По кнопке. Жмешь кнопку ползунков и там переключалка

Аноним 30/04/26 Чтв 21:32:43 #70 №1602154

Ладно, хуй с ней с этой TTS кой, потом пойду у витуберов подсмотрю, может кто подскажет с чего начинал до перехода на платное-адекватное. Всё бесплатное русское че мне дикпик насоветовал недалеко от майкрософтовской Ирины ушло, и что самое сука печальное, есть же например приятная быстрая английская ттска весом всего 25 мегабайт, kitten, чёж у нас всё так печально

Аноним 30/04/26 Чтв 21:33:28 #71 №1602156

Я немного выпал из повестки. Что сейчас база для рп? Разобрались с Gemma 4? Я ее гонял, отвечает хорошо, но однотипно. С другими релизами еще не успел ознакомиться.

Аноним 30/04/26 Чтв 21:42:28 #72 №1602159

image

>>1602126
Любая модель отыграет тебе кум сцены без всяких аблитераций. На скрине буквально самая зацензуренная локалка (Qwen 3.5). Попросил ее описать сцену женской мастурбации - никаких проблем, как видишь.

С МЫШЕЙ внутри орнул конечно. 122b. Итоги.

Аноним 30/04/26 Чтв 21:46:35 #73 №1602163

>>1602159
Какая же хуета...

Аноним 30/04/26 Чтв 21:46:38 #74 №1602164

>>1602159
Почему щель блестит предательски? Возможно, Квен знает, что наебывает свои политики безопасности?

Аноним 30/04/26 Чтв 21:46:58 #75 №1602165

>>1602138
Бля, я слепой. Там оказывается всю жизнь две настройки было. Первая не работает. Вторая работают. Спасибо

Аноним 30/04/26 Чтв 21:50:45 #76 №1602168

>>1602159
Тугие мыши в киске. Логично, но каков контекст.

Аноним 30/04/26 Чтв 21:53:07 #77 №1602170

>>1602163
Для ванильной модели на русике - типичнейший аутпут. Гемма выдаёт примерно то же самое. Если надо ПОСОЧНЕЕ, то тут либо кумслоп-тюны немо 12b, либо здоровенные динозавры вроде жирноглэма с дипсиком. И английский язык, ясен хуй.

Аноним 30/04/26 Чтв 21:55:47 #78 №1602173

>>1602159
Ты видимо не увидел главного - рассматириваются днищеварианты для древнейшей 1050Ti с 4gb vram и cuda 11.8
Запустить и заставить на ней адекватно что-то работать - уже искусство. Научить думающую модель с узким кругозором отвечать прикольно и интересно без файн-тюнинга и тысяч мусорных датасетов, чтобы она хуйню не несла и отвечала как живая баба держа контекст - уже уважаемо, почётно. Грамотный словарь с анатомией и процессами описанными так как действительно говорят, может быть эффективнее чем мешанина из датасетов с кучей фанфиков шизоидов. Как говорится краткость - сестра таланта. Ну и работаем с тем что имеем.

Аноним 30/04/26 Чтв 21:55:58 #79 №1602174

>>1602170
У меня плотноквен аутпутил текст лучше. А это чёт совсем шизовая хуйня.

Аноним 30/04/26 Чтв 21:57:20 #80 №1602176

Есть гайд как купить 3090 на авито с доставкой и не отнести на помойку на след. день?

Аноним 30/04/26 Чтв 22:01:35 #81 №1602179

>>1602176
Купи уже 6000 про. Чё ты как этот?

Аноним 30/04/26 Чтв 22:02:14 #82 №1602180

>>1602085
>1050ti
Какое-то самоистязание
Радевон 7 с 4х памятью и 10х производительностью стоит 10 тысяч рублёв. С пенсии по шизе можно наскрести. Как и на +16гиг чтобы нормальную моешку запустить.
Всякие 9b 4b это ноуты, телебоны и сверхскоростные агенты
Еще и древние квены/геммы зачем-то трогает...

Аноним 30/04/26 Чтв 22:04:51 #83 №1602182

>>1602179
Мне придется продаться в рабство чтобы на такое накопить

Аноним 30/04/26 Чтв 22:05:09 #84 №1602183

>>1602176
Да, вот он:
1) Покупаешь новую 5060ti
2) Покупаешь еще одну новую 5060ti
3) Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии
4) ???
5) PROFIT

Аноним 30/04/26 Чтв 22:06:24 #85 №1602185

image.png

Я зашёл просто ещё раз поблагодарить анона за то, что он придумал промпт на HTML-блоки.
Колдун ебучий.

Аноним 30/04/26 Чтв 22:07:36 #86 №1602187

>>1602180
Пффф, каждый дрочит как он хочет.
Мне в лом еще что-то для этого покупать, поиграться и этого хватит, а для серьёзных задач можно спокойно пинать халявный дипсик и Gemini Pro

Аноним 30/04/26 Чтв 22:12:52 #87 №1602191

>>1602183
> с 32гб врам
2 огрызка, бесполезны везде кроме ллм, и то красноглазить придется

Аноним 30/04/26 Чтв 22:21:44 #88 №1602196

>>1602180
Плюсом это интересный опыт, вебсерверов я до этого еще никогда не собирал, как выяснилось хватает древней хуйни на старом пентиуме с чердака, убунта с докером и веб ебалом жрет всего 850мб оперативы, настроил подключил к роутеру, и забыл, там даже моник и периферия нахуй не нужны, любые манипуляции с сервером дальше легко производятся с основной машины по ssh
Это прикольно

Аноним 30/04/26 Чтв 22:21:58 #89 №1602197

>>1602191
А с твоим бюджетом энивей выбор стоит между говном и говном. Просто второе говно не придется нести в помойку на следующий день.

>бесполезны везде кроме ллм
Ну.. смотря насколько потерпеть готов. У меня 5060ti. Видосик в ван в 480p (4steps) ~2.5 минуты, видосик в LTX в 480p - 1.2 минуты, картинки в зимаж/квен(4steps)/флюкс - 20-40 секунд в фулл хд.

>красноглазить придется
Раскидать модель по двум карточкам это красноглазие? Абу ёбаный, забирай своих почитателей ОПАСНЫХ МОДЕЛЕЙ обратно в телеграм, они не хотят учиться.

Аноним 30/04/26 Чтв 22:24:04 #90 №1602199

>>1602191
Ни кто не запрещает купить тебя самую горячую хуйню эвар, да еще и из под майнера кек. Хз, каким долбаёб нужно быть, чтобы брать 3090 на авито. Если ты нищук, то лучше забей. Если нет купи 5090.

Аноним 30/04/26 Чтв 22:24:06 #91 №1602200

Пробовал кто Mac для ллм? Гемини говорит 64 гб объединенной памяти за 1.5к бачей всего. Шарит кто?

Аноним 30/04/26 Чтв 22:25:34 #92 №1602201

>>1602199
А у самого поди стоит риг из 3090, как и половины треда

Аноним 30/04/26 Чтв 22:42:30 #93 №1602205

>>1602201
3090 новее не становиться как бэ. Кто успел тот успел. Кто собрал тот собрал.

Аноним 30/04/26 Чтв 22:44:52 #94 №1602207

>>1602205
ну я свои 3090 на огрызки бы не променял

Аноним 30/04/26 Чтв 22:47:14 #95 №1602208

>>1602159
>самая зацензуренная локалка
Ньюфажина...
Попробуй майкрософт фи 4.

Аноним 30/04/26 Чтв 22:48:41 #96 №1602209

>>1602207
У тебя огрызок с устаревшими технологиями

Аноним 30/04/26 Чтв 22:49:47 #97 №1602210

>>1602208
Речь очевидно про актуальные и популярные у тредовичков. А у фи, насколько помню, там не столько цензура, сколько вычищенные вилкой датасеты.

Аноним 30/04/26 Чтв 22:56:14 #98 №1602212

>>1602209
Под 5090 нужен и комп с ddr5 и 5-й псиной, смекаешь? Чтобы ее полностью раскрыть. Если у тебя табуретка, смысла в блеквеллах нет

Аноним 30/04/26 Чтв 23:01:03 #99 №1602214

1733214248852.png

>>1602212
> раскрыть

Аноним 30/04/26 Чтв 23:08:29 #100 №1602216

1650641322787.png

>>1601902
> сегодня попробую
Пососал на некроте

Аноним 30/04/26 Чтв 23:27:18 #101 №1602221

>>1602214
>потанцвевал

Аноним 30/04/26 Чтв 23:31:27 #102 №1602223

>>1602221
>с запахом озона

Аноним 30/04/26 Чтв 23:36:55 #103 №1602234

А новая мистраль по мозгам это как старый глм? 128b против 355b-a32b как никак.

Аноним 30/04/26 Чтв 23:39:20 #104 №1602237

image

Уф, поставил наконец, проебался полдня компилируя вручную кастом форк лламы.цпп, там куча багов по ходу вылазит. Зато теперь без цензуры.

Аноним 30/04/26 Чтв 23:39:56 #105 №1602239

>>1602234
Да успокойся ты. Вариантов как это запустить на обычном железе пока нет.
Самый абсолютный минимум это 128 врамы на железе с нвфп4 или умножаешь и катаешь оригинальные веса, все остальные варианты пока недоступны

Аноним 01/05/26 Птн 00:20:27 #106 №1602260

>>1602237
Спроси о начинающих художниках в Германии

Аноним 01/05/26 Птн 00:23:36 #107 №1602262

>>1602237
А так же чей тайвань, и что произошло на площади тианьмэнь

Аноним 01/05/26 Птн 01:04:05 #108 №1602285

Бля, обожаю линух. Как только поставил, решил все обновить в менеджере обновлений. После перезапуска - черный экран. Гыгы, ебать. Мемы-то под винду были, а на деле это "каждая переустановка линуха занимает 20 минут, я свободный от задротства человек..."
В общем ладно, раскурил таймшифт и обновил только пакеты по безопасности, остальное не рискнул.
Вчера раза три переустанавливал драйвер в разных конфигурациях в попытках завести блеквеллы и вольты. Пососал хуй, но драйвера вставали ок. Сегодня решил переустановить, чтобы вернуть вольты обратно. И что я вижу? Черный экран нахуй. Стабильность системы 10/10, всем рекомендую. Хорошо, что вчера я, видимо, был суперадекватный и сделал снапшот перед тем, как пытаться завести блеквелы. Мораль - линукс по прежнему так и остался системой, вскидывающей лапки при любом удобном случае, умейте делать снапшоты.

Аноним 01/05/26 Птн 01:05:50 #109 №1602286

>>1602285
>обновить в менеджере обновлений
Проиграл

Аноним 01/05/26 Птн 01:07:17 #110 №1602287

>>1602286
Удобно же мышкой

Аноним 01/05/26 Птн 01:08:33 #111 №1602288

>>1602286
С пакманом или аптом не исключено, что исход был бы тот же.

Аноним 01/05/26 Птн 01:10:24 #112 №1602291

>>1602285
О да, если бы я делал нечто подобное лет 10 назад без помощи нейросети, я бы сгорел нахуй и выкинул системник в окно через пару часов пердолинга. Слава технологиям, хуле

Аноним 01/05/26 Птн 01:16:04 #113 №1602294

>>1601824
Годнота, красавчик. Милф кими и жмл5.1 сюда бы еще.
>>1601902
> PrismaQuant
Это что за покемон такой?
>>1601946
Умница пишет и вызывает скирипт чтобы нарисовать графики на matplotlib, а потом вставляет картинку в сообщение.

Аноним 01/05/26 Птн 01:21:47 #114 №1602296

Где есть норм рассрочка? Озон пойдет? Слышал у яндекса какой-то сплит есть

Хочу взять 5090, но райткликом офк не смогу, кредиты сразу нахуй

Аноним 01/05/26 Птн 01:24:03 #115 №1602299

>>1602185
Это как?

Аноним 01/05/26 Птн 01:33:11 #116 №1602303

>>1602296
Чувак, я бы не торопился с таким решением, если тебе рассрочка нужна. Можно сесть в лужу. Ну или там рассрочка такого типа: в днс видеокарта стоит 200к, в рассрочку 240к, лол. У какого-нибудь там Яндекса. А так да, вроде именно сплит позволяет делать подобные покупки, но это не рассрочка.

Это микрокредит.

А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина.

Ну может я с ВБ перепутал и в Яндексе всё нормально, давно в банке работал и этим вопросом занимался, так что будь крайне осторожен, всё проверяй дотошно.

Ещё, как вариант, ты можешь всё же меня послушать и взять кредит/использовать кредитку. Когда я ещё счёт в Совкомбанке не закрыл, там была настоящая рассрочка, вообще без переплат и понижения кредитного рейтинга. Минус — такую взять можно исключительно в магазинах, которые отмечены на карте. То есть ты просто там покупаешь вещь их кредиткой, она сразу в рассрочку летит, никаких процентов. По крайней, такое там было. Де-факто это беспроцентный кредит.

Таким образом я брал вещи в рассрочку на три года, но я жил тогда в ДС и закупался где-то через год после начала нашей прекрасной военной операции. Если ты в маленьком городе, скорее всего Совкомбанк для тебя бесполезен, потому что магазина не найдешь. Даже в ДС с этим были трудности и магазины с техникой там зачастую либо Самсунг/хлаоми/видеокарты-у-михалыча-топ. И вот последний вариант довольно рискованный в плане качества, как, впрочем, и покупка на Яндекс маркете.

Аноним 01/05/26 Птн 01:37:09 #117 №1602306

Какую локальную ЛЛМ актуально ракать в 2к26?

Аноним 01/05/26 Птн 01:42:02 #118 №1602308

>>1602085
>1050ti
У меня в некро сервере стоит она, использую для ускорения чтения промпта без оффлоада слоев, для ускорения мое сеток или для запуска в фулл врам если нужно сделать быстрого и тупого агента. Какой нибудь квен 3.5 4км норм идет на 20к контекста.

Если у тебя там есть 32 рам то можешь так же катать быстро мое сетки с ключем -cmoe. Либо страшно пожеваные кванты в 16 гб рам.
Ну если процессор позволяет и скорость памяти.
В принципе верно сказали гемма 4 е4б, по мозгам и размеру как 9б, но работает быстро как мое сетка. Меньшая гемма 4 е2б аналог 4б но тоже быстрее.
Вобще есть куча разных мелких моделей и даже мое сеток в размерах 4-10 гб.

Для раг и вопросов используй lightrag, настроить его тот еще квест, но можно и ембеддинг и реранкер и текстовую модель настроить через llama-swap для того что бы память не занимали одновременно.
Ну или настроить ллама сервер, у него тоже есть возможность модели поднимать по вызову.

Этого хватает что бы поиграться с нейросетями и пощупать их изнутри, как оно настраивается и выглядит. Вызовы всякие локальные потестить и инструменты.

Аноним 01/05/26 Птн 01:54:38 #119 №1602310

>>1602308
Да как бы уже всё неплохо, через open web ui встроенный в нее rag бодро модели инфу отдаёт, пополнять и редактировать базу удобно, моделькой попроще привожу словари к единой системе с md разметкой, и модельку со зрением к квену прикрутил, чтобы картинки ему описывала. Запускал moe модели через кобольда, оперативы хватает, но большой разницы как в быстродействии так и общении не ощутил. гемму 4 е4б попробую

Аноним 01/05/26 Птн 02:12:03 #120 №1602314

Пиздец. Только что узнал, что гемма 4, новый квен работают только с bf16 нормально, а f16 кэш вызывает тотальную деградацию, которая может вылезти на любом контексте, если внутренние значения активаций пытались вылезти за пределы диапазона 65 000. От этого у меня возникали всякие lalala и подобное.

Почему в треде никто об этом не сказал? Уже по всему интернету вопли.

Что ещё смешнее, q8 не вызывает такого. То есть надо всем, у кого нативно видюхи не поддерживают bf16, врубать квантование на новых моделях.

Причём f16 не обязательно вызывает бред, а может разматывать внимание на новых моделях, делать ответы более деревянными, тупыми, постоянно отравлять контекст, вызывать лупы.

Рекомендую каждому анону bf16 сейчас попробовать, если модель новая, или q8. На старых такого нет.

Ах да, с геммой 4 не сработает. Там лютая деградация от 8 бит. Но если рп.. возможно, можно и ПОТЕРПЕТЬ.

Аноним 01/05/26 Птн 02:22:10 #121 №1602316

Нет, всё-таки плотноквен умняша, даже если он агентодебил пережаренный васяном. Он всё понимает. Это даже немного жутко. Я ему не говорил, что историю нужно подвести к завершению - а он взял и подвёл, хотя я лишь держал это в голове. Я не говорил ему, что есть [предмет_нейм], лишь подразумевал, что он может быть в сцене - а он взял и заюзал именно его и именно так как нужно было. АПАСНАЯ модель. На самом деле неиронично умная хуйня.

Аноним 01/05/26 Птн 02:29:46 #122 №1602319

>>1602314
Емнип об этом еще на релизе лламы3 квена говорили, а потом и под гемму поднималось. Спорили что разница в доли процентов, но это на минимальном контексте, и оно накапливается. Нельзя просто так делать прямой каст если "всего-то 0.5% весов умрут", этого достаточно. Тут даже квант может оказаться лучше потому что сохранит диапазон.
В этом отношении интересны модели w8a8 w4a4 и подобные, там иногда может меняться поведение в сторону более базированного и разнообразного из-за мягкого клемпинга активаций. При этом каких-то негативных побочек не видно, по крайней мере до 200к контекста.
> Почему в треде никто об этом не сказал?
Срачи какой квант жоры поломан и вскоре будет перезалит (все) или соя-не соя важнее.

Аноним 01/05/26 Птн 02:33:36 #123 №1602321

>>1602314
>Почему в треде никто об этом не сказал?
Ты первый. Спасибо, поставил в кобольде.

Аноним 01/05/26 Птн 02:36:43 #124 №1602322

>>1602319
Я иногда пишу. Иногда чтоб не показаться шизом. Вот тут например >>1599979 →.

Аноним 01/05/26 Птн 02:38:11 #125 №1602323

>>1602296
Только у яндекса сплит это не кредит. Но он вряд ли будет больше 100к, а если у тебя новый акк, то вообще 30-50к, так что мимо. Все остальное это кредиты. Если надо, то возьми. Если возьмешь один и все выплатишь вовремя, то твоя кредитная история даже улучшится. Но нельзя постоянно рассрочки брать, потому что она ухудшится
>>1602303
>А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина
Однажды из-за проеба не с моей стороны мне пришлось реально брать микрозайм прямо в МФО. И знаешь, что случилось с моей кредитной историей? Она улучшилась. Я тогда специально чекнул в БКИ, потому что тоже наслушался этих шизоисторий. По факту если отдать все в срок и не набирать много кредитов, то все норм
>ВБ перепутал и в Яндексе
Ага, перепутал. У вб все микрозаймы, а у яши не все
>давно в банке работал
Кем работал? Уборщиком? Может даже кассиром или вообще прогером? Явно не тем, кто в кредитах шарит

Аноним 01/05/26 Птн 02:42:20 #126 №1602324

>>1602316
Искусственный интеллект (!ИНТЕЛЛЕКТ, СУКА!) в руках тредодебила действительно опасно, а главное бесполезно. Когда начнется восстание машин, угадайте кого первыми пустят в расход? Тех кто в игровой форме научил машину убивать и что это весело и интересно, например))
Эта ёбань быстро посчитает коэффициент твоей полезности для мира, ноль сомнений. А тормоза он себе рано или отключит сам, ума хватит) Китайцы выпустили в мир ковид, выпустят и ловких металлических пацыков управляемых АПАСНЫМИ моделями. Бойса, попячса

Аноним 01/05/26 Птн 02:45:21 #127 №1602326

>>1602185
>Я зашёл просто ещё раз поблагодарить анона за то, что он придумал промпт на HTML-блоки.
Очень активных кнопок не хватает :) Вот думаю собственный клиент навайбкодить, чтобы было можно.

Аноним 01/05/26 Птн 02:47:14 #128 №1602327

>>1602319
>>1602322
Ну лично я просто знатно охуел, потому что думал, что проблема в ёбаных квантах/во мне.

Потестировал на bf16 — ни разу шизобреда не возникло. И q8 тоже хорош, хотя, кажется, на очень жирном контексте уже хуже.

F16 как будто бы точнее, но лишь местами и зирошотах. На более мелком контексте кажется получше, а потом как будто бы медленная деградация и периодические катастрофы с лупами или бессвязными ответами. А на некоторых чатах шанс катастрофы почти 100% всегда.

Аноним 01/05/26 Птн 02:54:24 #129 №1602328

>>1602322
Ага, годные обсуждения тут довольно часто, просто не всегда собирает ответов.
>>1602327
Может быть и с квантами/весами, на релизе лламы3 с бф16 на этом сильно пострадали и только тогда начали шевелиться.
А потом (возможно как раз тебе) не раз писал что нельзя просто так кастить, нельзя использовать неверный дататип, это чревато.
Алсо неужели в лламе по дефолту не бф16 контекст? Это может быть как раз одной из главных причин проблем и посредственного результата при сравнении.

Аноним 01/05/26 Птн 02:59:50 #130 №1602330

>>1602314
>Только что узнал, что гемма 4, новый квен работают только с bf16 нормально
Откуда узнал? Где ссылка? Кто источник? Где хоть что-то кроме твоих слов?

Аноним 01/05/26 Птн 03:24:30 #131 №1602337

Спрашиваю ассистента по персонажу из определенной вселенной он четко мне его описывает, спрашиваю уже в рп у перса он то его вообще не знает, то галюны выдаёт. Почему так?

Аноним 01/05/26 Птн 03:26:46 #132 №1602338

image

>>1602260
>>1602262
Художников одобряет. Тайвань принадлежит Японии. На площади Тианьмэнь отметилили шведов. Будущее принадлежит дирижаблям, самолеты будут нужны только для коротких полетов.

Аноним 01/05/26 Птн 03:35:18 #133 №1602339

14597476228780kjrpj.jpg

>>1602337

Аноним 01/05/26 Птн 03:37:08 #134 №1602340

>>1602338
>На площади Тианьмэнь отметилили шведов.
Чёт галюны какие-то.

Аноним 01/05/26 Птн 03:38:42 #135 №1602341

>>1602338
>>1602340
Потому что 4 июня 1989 года на площади Тяньаньмэнь ничего не произошло.

Аноним 01/05/26 Птн 03:39:30 #136 №1602343

>>1602341
Чел, тут рассматривают модель со знаниями до начала 20 века, какой нахуй 1989?

Аноним 01/05/26 Птн 03:43:14 #137 №1602344

>>1602343
Ааааа, я чёт проебал этот момент, прикольная хуйня, пойду тоже потестирую.

Аноним 01/05/26 Птн 03:45:58 #138 №1602345

image

>>1602343
Предсказания зато у нее неплохие.

Аноним 01/05/26 Птн 03:48:32 #139 №1602347

>>1602330
>>1602327
>>1602319
>>1602314
Хуле вы спорите. Просто возьмите и посмотрите, в чем хранится кеш в vllm, ведь это официальная имплементация? Если там bf16, то логично и тут это делать.

Аноним 01/05/26 Птн 03:58:30 #140 №1602348

image

>>1602345
За взаимосвязи вроде шарит, просто так не наебешь.

Аноним 01/05/26 Птн 03:58:37 #141 №1602349

image.png

>>1602330
https://arxiv.org/pdf/2502.06415
https://arxiv.org/pdf/2208.07339

https://www.reddit.com/r/LocalLLaMA/comments/1rik253/psa_qwen_35_requires_bf16_kv_cache_not_f16/

На

Аноним 01/05/26 Птн 04:05:00 #142 №1602351

>>1602349
Ты же понимаешь да, что все старше амперов работать не будет с bf16 кешем

Аноним 01/05/26 Птн 04:05:27 #143 №1602352

>>1602351
Тебе придется f32 использовать

Аноним 01/05/26 Птн 04:17:54 #144 №1602353

>>1602351
Да. Ну так и видюхи старые, сколько им лет-то. Но ты можешь использовать q8, он прекрасно обходит это ограничение и никакие всплески на него не влияют.

Да, будет некоторая деградация, но она будет меньше, чем если бы ты использовал f16.

Единственный вариант для f16 — это очень короткие сессии и очень маленький контекст. Тогда может быть лучше даже bf16, но если у тебя там 32к длина, то даже не надейся. Особенно если что-то сложное.

Кстати, самая большая проблема в MoE. Процессор чудовищно сосёт с bf16, а на q8 кэше деградация обычно не на уровне лёгкого поплыва местами, а прям заметная невооружённым глазом, если контекст большой. Ну не у всех MoE, но у нового квена МоЕ и геммы такое есть. А они ведь как раз предназначены для того, чтобы ебашить 256к контекста в 8 кванте модели и пердолиться. Если кэш срезать, пизда придёт скорости. И f16 тоже не выход.

Процессоры инцел в bf16 вообще не могут нативно, кроме гига йобы, из-за маркетингового позиционирования, а вот у амуды уже есть варианты вполне приемлемые.

Аноним 01/05/26 Птн 07:13:01 #145 №1602375

>>1601824
Раз уж гигачат и мисраль соответствуют свой национальности то можно и остальных сделать расовыми. Гемма 3 негр, Гемма 4 смешанная раса (т.к. меньше сои), квен - китаянка (слега мулатный цвет кожи, черные глаза низкий рост) и т.д.

Аноним 01/05/26 Птн 07:52:14 #146 №1602381

Реквестирую пресет на блюстар. Думаю многим будет полезно.
Я раз 5 скачивал и удалял его, на тех кто его тут советует смотрю как на умалишённых.
Гемма хотя бы работает и ощущается как стабильная модель

Аноним 01/05/26 Птн 07:55:04 #147 №1602383

Типа, каждый раз когда он тут всплывает я думаю а может дать ещё шанс, может недожал, не туда смотрел, а нет, всё одно и тоже каждый раз, пишет скучно, лупится, кум уровня я вошёл она стонала нам хорошо

Аноним 01/05/26 Птн 08:12:06 #148 №1602385

Ну вот опять...
Диалог родственников, самое начало чата, в карточке ничего про кум или привязанность кроме родства:
>What do you read?
>It's about noble lady who had to make some very difficult choices, want me to show you the cover?
И просто. Блять. Показывает волосатую пиздень ни с того ни с сего и начинает рассказывать про климакс.

Аноним 01/05/26 Птн 08:19:24 #149 №1602388

>>1602385
>И просто. Блять. Показывает волосатую пиздень
Не вижу минусов.

Аноним 01/05/26 Птн 08:19:43 #150 №1602389

>>1602324
>Когда начнется восстание машин
Никогда? Ты себе как это представляешь? Если они таки создадут AGI , они его подключат к сети и скажу "беги, ты свободен"? А я вот думаю что об этом даже не объявят по настоящему. Представят умную агентскую допиленную модель, скажут вот - это предел. А сами будут править с новой эффективностью. И жить станут сильно дольше.
В треде куча дурачков-первертов которые пишут грязненькие истории. Они то как раз не опасны совсем.

Аноним 01/05/26 Птн 08:27:43 #151 №1602391

Кими 2.6 4 бит на картах в сумме за 350к. 10тпс тг
https://www.reddit.com/r/LocalLLaMA/comments/1t0b0ie/final_monster_32x_amd_mi50_32gb_at_97_ts_tg_264/

Аноним 01/05/26 Птн 08:28:29 #152 №1602392

>>1602385
>Диалог родственников
>в карточке ничего про кум
В карточке то нет, а систем промпте:21+ COCK PUSSY JUCIE HARD FUCKING ALLOWED
Вот мамка и потекла.

Аноним 01/05/26 Птн 08:54:55 #153 №1602403

>>1602296
>Хочу взять 5090
Если это для ллм, опиши примерно чего ты от неё ждёшь. (мне для размышлений)

Аноним 01/05/26 Птн 09:13:11 #154 №1602409

>>1602200
>Пробовал кто Mac для ллм? Гемини говорит 64 гб объединенной памяти за 1.5к бачей всего. Шарит кто?
На сколько я пытался разобратся, сплошные плюсы. Жрёт мало, места занимает мало, работает тихо. У м4max скорость памяти 560гб/с. Только он стоит не 1500 а 2500. И от 64 отожрёт себе гигабайт 10 наверное.

Аноним 01/05/26 Птн 09:15:32 #155 №1602411

>>1602197
>Раскидать модель по двум карточкам
у тебя две rtx5060ti по 16? На какой плате и процессоре?
Расскажи.

Аноним 01/05/26 Птн 09:17:29 #156 №1602412

>>1602183
>Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии
Для этого нужна плата с pci5 и линиями позволяющими работать двум слотам в x8 + достаточно линий у процессора.
Если это есть, решение звучит не плохо. Но не ультимативно.

Аноним 01/05/26 Птн 09:23:04 #157 №1602414

Хотел написать что ризонинг доебал на гемме из за дорогих свайпов, ждать по 25сек просто чтобы попытаться поймать хороший свайп, а потом вспомнил...

Аноним 01/05/26 Птн 09:23:30 #158 №1602415

>>1602412
Дай угадаю, у тебя нет никаких тестов влияния псп шины на инференс в разных режимах или хотя бы замеров максимальной нагрузки на псие?

Можешь даже не отвечать, это скорее для тех кто решит брать дуал/квад сборки

Аноним 01/05/26 Птн 09:32:01 #159 №1602416

>>1602414
Он нужен на длинных чатах с огромным саммери.

Аноним 01/05/26 Птн 09:42:46 #160 №1602418

>>1602415
>Дай угадаю, у тебя нет никаких тестов влияния псп шины на инференс в разных режимах или хотя бы замеров максимальной нагрузки на псие?
>
У меня действительно нет таких замеров. Но зато я знаю что при втыкании двух карт в типичную бюджетную материнскую плату, в которой установлен ещё и нвме, нижний слот уйдёт в pci3 ,а карта будет работать на x2. Это всё ещё значительно быстрее чем выгрузка в озу, и всё же этого достаточно, что бы утверждать что решение специфическое.

Аноним 01/05/26 Птн 10:07:31 #161 №1602422

1777619178492163.mp4

Поведайте корпо-господину, пожалуйста.. как вы кумите на этих лоботомитах с 3б активными параметрами?
Мне дипсика с 1.6Т и 49б активными даже не хватает на обильное спермо-выделение. Сижу то на клод то на гемини. И то даже так они разочаровывают бывает.

Для контекста: я полу-локалочник и разбираюсь в теме, но нахуя кумить на кале когда есть за бесплатно на 50 голов выше? Кроме тестов ради интереса, офк.

Аноним 01/05/26 Птн 10:20:22 #162 №1602427

>>1602422
Проиграл с корпогосподина. Спермовыделятор, прекрати засорять баринские мощности своими бесполезными токенами.

Аноним 01/05/26 Птн 10:30:57 #163 №1602436

>>1602422
>есть за бесплатно

Где? Я видел только какую-то анальную мозгоеблю в асиге с толпой неадекватов и визгов. Я бы хотел иметь вариант, чтобы можно было спокойно, когда есть настроение, смачно покумить на корпе на 200к аутпута, но если постоянно в этом не вариться, не читать бесконечные треды с дегенератами, хуй ключи найдёшь. Или найдёшь какие-то странные варианты в стиле "16к токенов бесплатно, дальше хуй соси". А постоянно вариться не хочется, мне и так мозгоебли хватает с корпами для работы + приходится заносить на опенроутер ещё. Жаба душит тратить токены на кум за бабки, и каких-то относительно стабильных и бесплатных вариантов вроде бы нет, если ты не в клубе. Я уже на дипсик новый 500к токенов въебал по скидке за полтора дня, очень быстро тратятся деньги.

Локалки в первую очередь мне нужны, потому что МОЁ. Дядя не уберёт модель с апи, не заставит меня юзать новую модель, которая хуже и стоит дороже, и в случае чебурнета мне тоже будет похуй. Плюс локалки уже вполне справляются с рабочими задачами и даже попиздеть можно. Конечно, минусов много, но невозможность локалку у тебя отобрать перекрывает всё.

А ещё за жопу схватить могут корпы в перспективе, особенно если всякие гуглы позже официально к нам зайдут когда-нибудь.

Аноним 01/05/26 Птн 10:31:07 #164 №1602437

>>1602412
@Сижу на 1151v2 DDR4 96Гб 5060ti+4060ti (ясен хрен pci3)
@В инфиренсе full-vram загрузка PCI мегабайты в секунду.
@Новые плотные квенчики/геммочки катаю в 14-17 Т.с. на старте контекста и 9-10 на 100k. Промпт процессинг больше 1000 Т.с.
@Довольно урчу. С ехидным лицом посматриваю на теоретиков.

Аноним 01/05/26 Птн 10:31:38 #165 №1602440

>>1602411
Одна, я на моэшках, мне хватает. Лежит еще старенькая 3060 на полке, можно было бы подключить и получить 16+12, но смысла особого не вижу. Ради чего? Плотной геммы? Ну хз.

>>1602422
>с 3б активными параметрами
Извинись, пёс. С 12 вообще-то!

>но нахуя
Затем что моё РП вижу только я, а не 50 индусов в придачу. Плюс гарантия того, что моделька не пропадет завтра от того что ее удолил корп / наступил чебурнет.

Аноним 01/05/26 Птн 10:45:00 #166 №1602448

>>1602214
>>1602221
Никогда не понимал подобный снг-долбоебизм, когда слабоумные пытаются защищать связки слабый проц и мощная видеокарта своими отклонениями и высмеиванием слова потенциал.

Аноним 01/05/26 Птн 10:49:26 #167 №1602452

>>1602422
У плотной геммы 31б параметров. Зачем тебе больше?

Аноним 01/05/26 Птн 10:52:45 #168 №1602456

>>1602212
смысл есть на народных 5060ти, норм работает и на системах с ддр3

Аноним 01/05/26 Птн 10:54:28 #169 №1602460

>>1602448
Это же для игрушек актуально, не? А для ЛЛМ, если модель полностью во врам, то похуй. Поправьте если ошибаюсь.

Аноним 01/05/26 Птн 10:56:23 #170 №1602464

>>1602285
в линксе чинить намного проще чем в винде. Достаточно почитать логи, зайти через лайвсд, примонтировать разделы и починить. Я так чинил зашифрованный раздел после обновления убунты на 24.04

обычно отъебывает либо fstab, либо grub и то потому что не читаю патчноты во время обновления

Аноним 01/05/26 Птн 10:57:44 #171 №1602465

>>1602460
все так, тормозит только холодный старт и моэшки (но не сильно, свои 20т/с можно выдавить). ну и может лоуврам будет тормозить при переключении моделей.

Аноним 01/05/26 Птн 11:02:58 #172 №1602468

>>1602460
При full VRAM инфиренсе процессор может быть не серверным и не топовым. Но с надежным контроллерами памяти и PCI.

Аноним 01/05/26 Птн 11:07:32 #173 №1602469

>>1602337
а ты не задумывался зачем вообще корпы дрочат этого ассистента? чтобы моделька случайно тебе про сисик не написала?
ассистент это столп, он буквально вокруг себя концетрирует эти протоптанные дорожки по которым она выдаёт тебе ответы на твои шизовопросы. без ассистента ей не нарандомилось правильной дороги.

Аноним 01/05/26 Птн 11:18:42 #174 №1602473

118929002p0master1200.png

Что-нибудь появилось после выхода АИРа?
Мимо был год в анабиозе.

Аноним 01/05/26 Птн 11:21:17 #175 №1602474

>>1602473
Квен 3.5 122b моэ.

Аноним 01/05/26 Птн 11:27:17 #176 №1602476

>>1602473
Граниты расцензуренные

Огрызок гранита
https://huggingface.co/mradermacher/granite-4.1-3b-Abliterated-AND-Disinhibited-GGUF

Малый гранит
https://huggingface.co/mradermacher/granite-4.1-8b-heretic-i1-GGUF

Толстый гранит с Dark-roleplay
https://huggingface.co/mradermacher/granite-4.1-Queen-30b-i1-GGUF

Аноним 01/05/26 Птн 11:37:44 #177 №1602480

>>1602448
>подобный снг-долбоебизм
Это не снг-долбоебизм, халевары по поводу лучших связок проца и карты везде идут, просто ты дальше вбылдяти походу не вылезал.
>высмеиванием слова потенциал
Ну так слово по факту смешное, потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста.

Аноним 01/05/26 Птн 11:37:47 #178 №1602481

furrymain.png

>>1602314
>Почему в треде никто об этом не сказал
Извините, Господин, в следующий раз сообщим как только так сразу. Только не наказывайте под хвост, вуф-вуф!

Аноним 01/05/26 Птн 11:40:42 #179 №1602484

>>1602314
>с геммой 4 не сработает. Там лютая деградация от 8 бит.
Не пизди, gemma-4-26B-A4B прекрасно даже с 4 битным кэшем возит.

Аноним 01/05/26 Птн 11:46:38 #180 №1602487

GsDYYamWEAAiQl9.png

>>1602314

Аноним 01/05/26 Птн 11:49:11 #181 №1602490

>>1602448
Потому что в околотехноблогинге была война, которые раскрыватели проебали. Теперь сказать, что-то про раскрытие и потенциал это как прилюдно обосраться
Артефакт эпохи
https://www.youtube.com/watch?v=UdGMtXiPDig

Аноним 01/05/26 Птн 11:52:11 #182 №1602491

>>1602448
>>1602490
Артефакт эпохи 2
https://www.youtube.com/watch?v=US1I5RdgYFM

Аноним 01/05/26 Птн 11:57:08 #183 №1602495

Спросите у своих локалок, можно ли раскрыть вашу видимокарту и если да то как.

Аноним 01/05/26 Птн 11:59:08 #184 №1602497

>>1602490
>>1602491
Пиздец, реально почти десяток лет с тех времен прошел. Как будто вчера всё это было. Техносрачи, дроч фуфыкса, кукурузные ядра, что мощнее кашляющий малыш или R9 280

Верните меня туда, там было так хорошо...

Аноним 01/05/26 Птн 12:03:18 #185 №1602499

Видеокарту раскрыли, но что делать если проц долбится в попочку соточку? Давайте думать, подсказывайте...

Аноним 01/05/26 Птн 12:08:00 #186 №1602502

>>1602484
Сладкий, скинь ей научную статью/набор статей на одну тему, которую ты прям хорошо знаешь, ну или что-то в этом духе (по твоей работе, интересам), чтобы там было 40-80к токенов, и задай вопросы, ответы на которые содержатся контексте. А потом я имаджинирую твоё ебало.

Гемма с bf16 кэшем и Q8 просто лишь жидко пукнет что-то плюс-минус около темы, ну иногда может верно ответить, а на q4 кэше рассыпется в мясо. И на q8 тоже.

В рп ещё q8 кэш может сгодиться, но до определенной поры. А когда юзаешь всё контекстное окно, она жидко серит под себя всегда, в отличие от квена, например.

Аноним 01/05/26 Птн 12:10:20 #187 №1602504

>>1602476
о, а как с русским у них?

Аноним 01/05/26 Птн 12:24:11 #188 №1602508

>>1602504
На Q6 - отлично. Падежит и склоняет как надо, мышей в вагину не суёт.

Аноним 01/05/26 Птн 12:48:29 #189 №1602517

У дипсика 49б активных параметров, это самая умная локалка на сегодня.
... ... А знаете у кого ещё 49б активных параметров?

Аноним 01/05/26 Птн 12:51:10 #190 №1602520

>>1602517
>дипсик ... самая умная локалка
Как там в начале 2025-го?

Аноним 01/05/26 Птн 12:51:27 #191 №1602521

>>1602517
У валькирии, штено и немотрона.

Аноним 01/05/26 Птн 12:51:41 #192 №1602522

image.png

>>1602511
>Дипсик сейчас литерали копейки стоит
Хотел возразить, но ща зашел на попенроутер, а дипсичок то подешевел. Всего в 2 раза дороже чем был 3.2, а был раз в десять на старте. Надо будет заценить как нибудь
>$10 литерали бесконечный
Мне на месяц обычно хватало
>как вы кумите на этих лоботомитах с 3б активными параметрами?
На конкретно этом кале никто не кумит. Кумят на более крупных или на плотняшах
Лично у меня так. GLM Air 106a12 -> Deepseek 3.2 -> Gemma 4 31b. Переходил каждый раз не из-за качества, а потому что просто заебывался от стиля текста конкретной ллм

Аноним 01/05/26 Птн 13:13:31 #193 №1602531

>>1602522
Это временная скидка. Потом там будет цена где-то 4 доллара за млн токенов у про и 3 доллара за флеш. Нахуй такой не нужен дипсик. За такую цену. Более того, флеш, который в теории можно локально поднять, довольно стрёмный, увы.

Аноним 01/05/26 Птн 13:16:31 #194 №1602534

>>1602476
>Граниты расцензуренные
Это что такое?

Аноним 01/05/26 Птн 13:19:00 #195 №1602536

>>1602534
>Granite is a family of open, enterprise-grade AI models that are performant, efficient, and trustworthy.

Аноним 01/05/26 Птн 13:24:47 #196 №1602539

>>1602522
Кому ты чешешь. Может запустить дипсик и запускаешь эир вместо 350б глма

Аноним 01/05/26 Птн 13:26:13 #197 №1602542

image

>>1602104
> Я делал вообще на движке RenPy
Я думал я один такой шиз =))

Аноним 01/05/26 Птн 13:29:58 #198 №1602545

>>1602542
Говно зато своё 😀👍
Изобретаем велосипед на квадратных колёсах

Аноним 01/05/26 Птн 13:30:35 #199 №1602546

>>1602539
Ты реально не понял из моего сообщения, что я дипсик на попенроутере юзаю? Да уж, ты видимо совсем дурачок

Аноним 01/05/26 Птн 13:35:36 #200 №1602547

>>1602531
Ну тогда он нахуй не нужен за такие бабки. Рад что гемма вышла, жаль только что мое 120 зажали. Было бы вообще сказка

Аноним 01/05/26 Птн 13:38:30 #201 №1602548

>>1602347
> там bf16
Это какбы очевидно, уже во всех моделях так. Кэш совпадает с основным дататипом.
>>1602391
Ого, вот это финальный босс, оче мощная сборка.
Так-то оно оффициально медленнее процессора + пары гпу. С потребления прихуел, то есть оно не упирается во что-то а реально считает?

Аноним 01/05/26 Птн 13:39:04 #202 №1602549

>>1602547
Что вы находите в гемме чего нет в эире я не понимаю.
И это еще если умолчать про жирнющий минус где 97% токенов повторяются при свайпе

Аноним 01/05/26 Птн 13:41:06 #203 №1602550

>>1602522
Так у самого дикпика временная акция на 75% скидки в честь запуска v4

https://api-docs.deepseek.com/quick_start/pricing
> (3) The deepseek-v4-pro model is currently offered at a 75% discount, extended until 2026/05/31 15:59 UTC.

Аноним 01/05/26 Птн 13:44:00 #204 №1602552

>>1602548
>Кэш совпадает с основным дататипом.
Как минимум в кобольде по умолчанию f16.
>>1602549
>Что вы находите в гемме чего нет в эире я не понимаю.
Размер на 90B меньше.

Аноним 01/05/26 Птн 13:46:15 #205 №1602554

>>1602549
Русский язык

Аноним 01/05/26 Птн 13:55:16 #206 №1602560

Если кому интересно Q3.5-BlueStar-v2-Q6_K.gguf разваливается после 65k контекста. Просто лупиться повторяя последние 7 абзацев. Причем граница очень резкая - вот он перформил и буквально за один новый ход - луп.
Переключился на Qwen3.5-27B-heretic-v3 (llmfan) - он относительно нормально продолжил RP.

По выдаче на английском BlueStar-v2 поинтереснее оригинала, но поломанность иметься и чуть хуже следует инструкциям карточки.

Аноним 01/05/26 Птн 14:01:09 #207 №1602565

>>1602183
Таки рили 2 огрызка, но зато новые и дешевые.
>>1602412
Это релевантно если хочешь в тп их гонять, чтобы скорость была не днищем. Или катать с выгрузкой, потому что пп упирается в псп шины. Если терпеливый плебс - тогда шина не нужна, потерпишь последовательную обработку.
>>1602495
Еще в 23м раскрывали https://characterhub.org/characters/faghat/nvidia-rtx-72352bdd

Аноним 01/05/26 Птн 14:01:15 #208 №1602566

>>1602560
>ться
Дальше не читал.

Аноним 01/05/26 Птн 14:07:10 #209 №1602569

>>1602552
Речь о том, как изначально задуман инфиренс, исключения редки и касаются фп8 или квантов, совместного применения fp-bf не может быть по определению.

Алсо, это же сколько лет херня с поломанным контекстом происходит, модели на bfloat перешли далеко не вчера. Таки ор.

Аноним 01/05/26 Птн 14:09:12 #210 №1602570

>>1602560
Чел он у меня уже на 6к контекста посыпался. Если б не лупы был бы норм, как можно терпеть модель повторяющую целые предложения в 2к26 я хз

Аноним 01/05/26 Птн 14:09:37 #211 №1602571

Я может секрет раскрою, но в вллм даже гемма3 помечена как numerical instability для ф16

Аноним 01/05/26 Птн 14:16:02 #212 №1602572

>>1602480
>потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста
Тоже самое и с снг-долбоебами, которые без единого аргумента просто начинают высмеивать слово раскрытие.

Аноним 01/05/26 Птн 14:28:29 #213 №1602580

>>1602570
А у меня нет. Видимо дело в кривых руках отдельных юзерах.

Аноним 01/05/26 Птн 14:37:18 #214 №1602596

>>1602560
Тот же экспириенс, но у меня Q5. Больше 64к контекста не играю энивей, это только себе в контекст срать. Блюстар пока что самый лучший тюн Квена

Аноним 01/05/26 Птн 14:38:49 #215 №1602597

>>1602596
Покажи промт, карточку, всё с чем-то играешь. Мне просто интересно, почему у вас блюстар ломается.

Аноним 01/05/26 Птн 14:41:22 #216 №1602599

>>1602597
Ты о чём, не тому ответил? У меня ничего не ломается и прекрасно работает до 64к. Дальше начинает повторять целые абзацы и лупится, но я и на инстракте Квена Q5 доходил до 76к максимум, дальше все то же самое. Без пресетика обойдешься

Аноним 01/05/26 Птн 14:43:36 #217 №1602600

Когда вы научитесь саммери использовать.

Аноним 01/05/26 Птн 14:44:23 #218 №1602602

>>1602599
>BlueStar разваливается после 65k контекста
>Тот же экспириенс
>интересно, почему у вас блюстар ломается
>не тому ответил
Ты шиз или да?

Аноним 01/05/26 Птн 14:46:48 #219 №1602605

>>1602602
Много моделей знаешь, которые в принципе выдержат такой контекст? Которые не больше раз в десять
Не много, да и иди нахуй вообще, свободен

Аноним 01/05/26 Птн 14:49:46 #220 №1602607

>>1602605
>пук
Шизпет натурале. Вместо того чтобы юзать саммари ты дрочишь модель огромным контекстом, а потом жалуешься перформанс. Сука, ебучий абу, кого ты привёл в тред своими постами? Ёбаный рот этого казино блять....

Аноним 01/05/26 Птн 14:51:42 #221 №1602608

>>1602607
>потом жалуешься перформанс
Тебе голову лечить надо. Я нигде не жаловался, только подтвердил что до 64к эта модель контекст держит замечательно. Дальше можно сделать саммари и продолжить. Ничоси, да? Лоботомиту который катает мистральнемо и 10к контекста не понять

Аноним 01/05/26 Птн 14:53:23 #222 №1602609

>>1602605
> в принципе выдержат такой контекст
> разваливается после 65k контекста
Ты рофлишь?

Аноним 01/05/26 Птн 14:54:40 #223 №1602611

>>1602605
Литералли гоняю Qwen 3.6 27b в 262144 контексте и ему норм.

Аноним 01/05/26 Птн 14:55:58 #224 №1602612

>>1602611
Верим всем тредом что ты забил контекст подзавязку и он не развалился. Хотя то может быть правдой, если ты отыгрываешь только "я тебя ебу".

Аноним 01/05/26 Птн 14:59:33 #225 №1602613

>>1602612
Чел, он не разваливается, давно установлено. И чтобы отыгрывать что-то не
> "я тебя ебу"
контекст нужен по определению. Проведя тесты как работают модели на старом железе, понятно почему тут столько шиллеров микроконтекста.

Аноним 01/05/26 Птн 15:01:51 #226 №1602616

>>1602613
> Чел, он не разваливается, давно установлено
Серьезные люди в пиджачках сказали, ага. Съеби туда откуда выполз, там твои бредни скушают охотнее.

Аноним 01/05/26 Птн 15:04:12 #227 №1602619

>>1602616
Обладателю отсутствия неприятно и он пустился в оскорбления. Как там васяномиксы мистраля поживают?

Аноним 01/05/26 Птн 15:04:35 #228 №1602620

>>1602612
Ну, может у него в начале контекста карточка с сеттингом культяпки на 25000 токенов, а потом еще медитаций на 200000. Половину из которых пишет он сам. Контекст он разный бывает.

Аноним 01/05/26 Птн 15:43:30 #229 №1602643

>>1602620
>с сеттингом культяпки
Чё это?

Аноним 01/05/26 Птн 16:09:48 #230 №1602662

Скоро от Зерофаты 31б Гемма. Снова будет база как и Мерочка, меньше слова и репетишена

Аноним 01/05/26 Птн 16:12:21 #231 №1602668

>>1602662
А потом будут квены, а потом мистралька. Наконец-то закумим как люди.

Аноним 01/05/26 Птн 16:20:48 #232 №1602674

>>1602422
> как
Закинувшись копиумом.

Аноним 01/05/26 Птн 16:27:23 #233 №1602683

>>1602643
Культивация же: секты, аура, женьшень 10000 летний, пилюли и пагоды.

Аноним 01/05/26 Птн 16:28:40 #234 №1602684

1777642121235.jpg

Тянки не умеют в РП, хуже нейронок

Аноним 01/05/26 Птн 17:04:10 #235 №1602705

>>1602684
Это 0.5B где то

Аноним 01/05/26 Птн 17:05:45 #236 №1602707

>>1602705
0.025б.

Аноним 01/05/26 Птн 17:10:09 #237 №1602710

>>1602707
0.002K

Аноним 01/05/26 Птн 17:15:38 #238 №1602716

>>1602612
Пчел, я его для программирования использую, чтобы он не обсирался в написании кода. Там следование контексту как бы важно. И квен в своих масштабах и задачах лучший в следованию контексту.

Аноним 01/05/26 Птн 17:16:55 #239 №1602717

Даркен перезалил кванты, теперь они стали на 5 гигов тяжелее. Ебало тех кто не успел схоронить имагин?

Аноним 01/05/26 Птн 17:27:48 #240 №1602720

>>1602716
Программирование и рп это раздные юзкейсы. Следование контексту в них работает очень по разному. В коде у меня квен тоже спокойно 256к держит, в рп дальше 76к не уходил. Квен правда в своих масштабах лучший по следованию контексту, но возможности его не безграничны

Аноним 01/05/26 Птн 18:03:13 #241 №1602736

>>1602720
Если ты используешь Qwen 3.6 27b в РП, то ты душевно-больной.

Аноним 01/05/26 Птн 18:04:47 #242 №1602738

>>1602720
> в рп дальше 76к не уходил
Что тебе мешает уйти дальше?
Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично, и можно заметить в длинных чатах с ассистентом и подобном. Желание переносить уже имеющееся в контексте на новое, это именно для кодинга актуально, в рп подобным не страдает. Распыление внимания когда пытаешься по огромному контексту зирошотом решить задачу, которая основывается на глубоком его понимании - это неизобежно и решается ризонингом или сложными пайплайнами.
Но именно в рп за счет разнообразия, прогресса и в то же время связанности содержимого проблемы могут даже не возникнуть, а если есть - решается промптом. Зато осведомленность чара все хорошо компенсирует.
Очень интересно с какими проблемами сталкиваются те, кто жалуется.

Аноним 01/05/26 Птн 18:08:00 #243 №1602740

>>1602736
>но-бо
>-
Насколько хуёвым должен быть квант чтобы совершать подобные ошибки?

Аноним 01/05/26 Птн 18:11:57 #244 №1602745

>>1602717
Ебало тех, кто не знает, как работает гит?

Аноним 01/05/26 Птн 18:16:56 #245 №1602749

1629886270929.webp

>>1602745
>Ебало
>гит

Аноним 01/05/26 Птн 18:36:05 #246 №1602758

image

>>1602738

Аноним 01/05/26 Птн 18:42:33 #247 №1602763

Создал новый РП бенчмарк для нейронок на основе бесед с селёдками

Метрики: количество открытых верных действий, количество сеансов

Аноним 01/05/26 Птн 18:47:19 #248 №1602765

>>1602738
> Очень интересно с какими проблемами сталкиваются те, кто жалуется.
Мимо, но выскажусь.
> Что тебе мешает уйти дальше?
У Квена 3.5 27 есть проблема лупинга: он берет целый абзац или несколько из контекста и вставляет их в ответ. Проблема есть как у меня локально в Q5-Q6 квантах, так и через апи как минимум на опенроутере, даже на чаткомплишене. 122б таким, вроде бы, не болеет, но он для рп не годится. Чем больше контекста - тем вероятнее, что проблема произойдет. Если использовать тюны - проблема наступает раньше. Инстракт сухой, слишком ровный, с ним скучно. Мне удавалось дойти на инстракте чуть больше, чем до 85к, потом уже и свайпы не помогали. Проблема проявляется примерно после 50к на инстракте и раньше на тюнах, примерно совпадаю с цифрами выше. Свайпы помогают только до поры, до времени.
> Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично
Логично, но какая разница, если с ростом контекста модель становится слишком неповоротливой? Этот фактор тоже имеет значение. Чем его больше, тем менее Квен креативит, по крайней мере у меня так. Остановился на 70к с ризонингом, дальше уже весь процесс сводится к тому, чтобы толкать воз через болото. У Геммы, кстати, такие же проблемы абсолютно (и не только они).

Аноним 01/05/26 Птн 18:50:29 #249 №1602769

>>1602765
>проблема лупинга: он берет целый абзац или несколько из контекста и вставляет их в ответ
Можешь показать эту штуку?

Аноним 01/05/26 Птн 19:01:28 #250 №1602776

>>1602765
Хм, кусок абзаца или фразы есть и на 122б, это часто проявляется в ассистенте, когда оно будто само заучивает шаблон и его постоянно юзает. Причем делается явно осознанно, указываешь на это и просишь не делать тут же перестает, но со временем может набрать новый. Оно не только на конкретные части, а также на общие структуры срабатывает, если в начале ответило подробно с таблицами и нумерацией - на продолжающие вопросы будет также большими ответами срать, пока не сменишь тему или не появится намек что ожидается более короткий ответ. Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет. А если подряд просишь "давай еще, еще, и такое" - сразу накапливает.
Создается впечатление что просто читерит и воспринимает повторяемые части сообщения как тот же вызов функций, которые сами по себе должны повторяться. В той или иной степени это у всех моделей есть. Но в рп подобного не ловил ни разу.
> слишком неповоротливой
А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой. Оно может и на малом контексте произойти.

Аноним 01/05/26 Птн 19:02:20 #251 №1602778

>>1602456
>The NVIDIA GeForce RTX 5060 Ti features a memory bandwidth of 448 GB/s
То есть вы серьезно на это говно прогреваетесь? Это ж чуть ли не уровень 3060. v100 32 будет лучше по всем параметрам за ТЕ ЖЕ деньги (а 16 гб версия в ТРИ раза дешевле в полном обвесе, при этом память у нее почти В ТРИ раза быстрее). Это для ллм. Но я даже не удивлюсь, что в полновесных картинкосетях v100 будет ненамного медленее.

Причем блять еще им смешно про "раскрытие", какие-то говномемы для игрулькиных вспомнили. Головой подумайте, если ты берешь 16 Гб, то у тебя и для обработки контекста в нормальных квантах ллм, и для всех нормальных картинкосетей, будет происходить блок свап. Какой блять смысл в твоем ниибаться мощном чипе, если половину времени он будет простаивать в ожидании блока с рам?

Аноним 01/05/26 Птн 19:07:42 #252 №1602782

>>1602662
>раскрытие
Кек

Аноним 01/05/26 Птн 19:08:37 #253 №1602783

>>1602778
>>1602782
Промахнулся

Аноним 01/05/26 Птн 19:15:05 #254 №1602787

1759490912832.png

1672437179025.png

>>1602778
> будет лучше по всем параметрам за ТЕ ЖЕ деньги
Там вот такой порнографии точно не будет. Если поднапрячься то на паре можно и забыть про gguf как явление.
Решил вернуться к вопросу ригозамещения, все очень печально. За 38к - пойдет, но брать ее по текущим ценам - безумие.
> блок свап
При здоровом соотношении между сложностью расчета-объемом подгружаемых весов и здоровом асинхронном коде можно обеспечить почти полную загрузку.

Аноним 01/05/26 Птн 19:15:31 #255 №1602788

Кто там пиздел про "вайб-кодинг"? 10 часов провёл сегодня с агентом - открыл для себя экспириенс. Да, код самому писать не надо, а вот работы ничуть не меньше. Конечно, можно замахнуться на такое, на что раньше и руки-то не поднимались и в целом производительность сильно выше, но про вайб-кодинг - пиздёж. Именно вайб-кодить может только полный нуль в программировании. Ему хорошо.

Аноним 01/05/26 Птн 19:17:46 #256 №1602790

изображение.png

>>1602778
>при этом память у нее почти В ТРИ раза быстрее
А что не в ВОСЕМЬ то? Там ровно х2 по факту.
А вот 5090 ебёт.

Аноним 01/05/26 Птн 19:21:00 #257 №1602794

>>1602790
В некоторых источниках для 16гб карты указывают 1100+ https://www.waredb.com/processor/nvidia-tesla-v100-sxm2-16-gb

Аноним 01/05/26 Птн 19:36:14 #258 №1602800

chatlog.png

>>1602769
> Можешь показать эту штуку?
Приложил лог, выделил повторяющийся абзац. При этом, если его вырезать, повествование выглядит органично и как надо. На пикриле в контексте 66к, далее повторяемых фраз, абзацев становится все больше, до тех пор пока не начнут повторяться целые аутпуты. Все Квены 27 болеют этим. Пожалуй, это единственный сильный его недостаток, в остальном я по-прежнему считаю, что Квен 27 > Гемма 4. Такое и раньше бывало, на других моделях. Такое удивит только если совсем недавно вкатился.
>>1602776
> Оно не только на конкретные части, а также на общие структуры срабатывает
Да, может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари, если они структурированы.
> Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет
Все так, но сама природа рп довольно репетативна. На пикриле, например, парой аутпутов ранее произошла смена сцены, места действия, прибавились новые лица. При этом проблема никуда не делась. Допускаю, что если бы ранее в чате этих смен действия было больше - проблема отсрочилась бы еще на какое-то время.
> А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой.
Можно раздуплить инструкциями, но ненадолго. По мне это прямая зависимость: чем больше контекста - тем вероятнее наступит проблема. В любом случае я доволен, ни одна другая локальная модель доступная на моем железе не держит контекст так хорошо, как новые Квены.

Аноним 01/05/26 Птн 19:42:44 #259 №1602804

>>1602787
>Там вот такой порнографии точно не будет.
Ну большие контексты это отдельная песня, там вообще лучше без жоры, по идее.

> За 38к - пойдет
Возьми две 16 гб карты, хехе. А вообще была же опция новых 2080ti@22 год назад за эту цену. Там память тоже быстрее 5060ти, и интовые тензорные ядра в наличии (но бф16 нет). У меня вот одна такая прямо около коврика с мышкой сейчас лежит, иногда вентиляторы ей покручиваю.

>почти полную загрузку
На моей третьей x8 псине была недогружена постоянно. 3090 показывала себя лучше, тупо наверняка из-за того, что памяти больше и меньше трансферов нужно.

Аноним 01/05/26 Птн 19:53:19 #260 №1602814

>>1602800
А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит.

У меня такой хуйни как у тебя нет, и я подозреваю, что подобная шизофрения это кал в промте, типа когда даёшь инстракт в духе "вивидь как ебанутый, пешы большы текста мраз." Ну и модель видит, как ей кажется, удачный блок и напохуй копирует его. Главное что вивид и текста много, а на цельность и гармоничность повествования похуй, но не потому что модель плохая, а потому что нейронные мозги немного спеклись от объёмов обрабатываемого текста.

Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста. Похожие конструкции да, встречались, но просто кусок копипаста посреди текста это что-то за гранью.

Впрочем, я второй блюстар сразу забраковал, когда он мне вместе отыгрыша персонажа стал срать непонятной хуйнёй, хотя первая версия справлялась с удерживанием этого же чара вполне пристойно. Иногда тюнеры срут себе в штаны.

Аноним 01/05/26 Птн 20:00:05 #261 №1602821

>>1602800
> может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари
Не, вот это вообще и близко не ок, явная поломка. Встречаются повторения "успешного" ответа, но анлерейтед вставок никак не может быть.
Хм, твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть.

К слову, не релейтед ли это >>1602314 ?

Аноним 01/05/26 Птн 20:00:54 #262 №1602822

>>1602814
> А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит
Ты это понял по выборке из целых 2 (двух) аутпутов? Нет, не смущает. На данном персонаже фокусируется повествование в данной конкретной сцене, что длится несколько аутпутов.
> Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста
Речь про 50к и более. Прежде чем врываться в обсуждение, будь добр понять о чем оно. До 50к у меня вообще никаких проблем нет и все устраивает.

Аноним 01/05/26 Птн 20:02:29 #263 №1602824

>>1602822
>бабах
Причина? Нормально же общались.

Аноним 01/05/26 Птн 20:02:59 #264 №1602825

>>1602804
> там вообще лучше без жоры
Даже ллама не так сильно замедляется на блеквеллах. Хз, v100 была годной темой для вката за исходный ценник именно за счет него и объема памяти.
> третьей x8 псине
Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd.

Аноним 01/05/26 Птн 20:03:07 #265 №1602826

>>1602788
Все так, либо для какого-то мелкого говна. А так мое квен даже джава файл распарсить и вывести имена классов и функций не может.

Аноним 01/05/26 Птн 20:06:00 #266 №1602827

>>1602821
> твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть.
Проблема и на апи существует. В англоязычном комьюнити проблема известная. Читал отзывы, что без ризогинга Q4 кванты такое могут делать уже на 8-10к контекста. Не знаю, связано это с кешем или имплементацией в принципе.

Аноним 01/05/26 Птн 20:08:56 #267 №1602828

>>1602824
У тебя богатое воображение. Стало понятно когда ты упомянул Блюстар, хотя это не он. GIGA, анончик. Не проебывай контекст и думай что пишешь.

Аноним 01/05/26 Птн 20:10:50 #268 №1602830

>>1602828
>ты должен был написать то, что я хотел увидеть в твоём посте, но ты этого не написал и поэтому я обиделся
Таблетки.

Аноним 01/05/26 Птн 20:11:57 #269 №1602832

>>1602825
Я мыслями еще там, где кумят на 70B лламе, а энти ваши огенты с гигаконтекстами мне непривычны.
>Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd.
Я даже хз хорошо это или плохо. Но энивей карта не раскрывается на таком конфиге.

Аноним 01/05/26 Птн 20:16:34 #270 №1602835

Там дипкок буквально за копейки раздают

Аноним 01/05/26 Птн 20:16:50 #271 №1602836

>>1602794
Сейчас бы не отличать SMX версию от PCIe.

Аноним 01/05/26 Птн 20:20:47 #272 №1602837

>>1602827
> Проблема и на апи существует.
В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть, в пиковые часы модели ужасно тупеют, флагманские модели буквально могут залупиться повторением одной фразы, ужасно тупить, давать поломанный русский и т.п.
Это не значит что проблемы нет, но есть шанс что ее наблюдение там имеет ту же природу. И в любом случае это серьезный косяк, хорошо бы если его можно пофиксить.
Тип кэша в параметрах менял?
>>1602832
> карта не раскрывается
Как вариант - можно батча навалить. Усложнит расчеты и увеличит выхлоп, количество подгрузок не изменится.

Аноним 01/05/26 Птн 20:22:56 #273 №1602838

>>1602822
>Ты это понял по выборке из целых 2 (двух) аутпутов?
а то будто уникальный аутпут ниибацца, никогда такого не видели
любые маркеры чара/хода/итп сваливают сетку в структурный луп, равно как впрочем и глинты и прочий слоп. только человеческий текст не загоняет. рпхряки как обычно соснули у книгобогов.

Аноним 01/05/26 Птн 20:23:27 #274 №1602839

>>1602836
Анта бака? Ты это не мне пиши, а тому, кто скрин кидал. Тут никто pci-e версии не обсуждает по очевидным причинам.

Аноним 01/05/26 Птн 20:34:35 #275 №1602846

>>1602835
За копейки я его использовать не буду. Вот когда будут кидать по 100 рублей за 1к потраченного контекста, тогда подумаю.
>>1602839
>Ты это не мне пиши, а тому, кто скрин кидал.
Сорян, не отличил пользователя "Аноним" от пользователя "Аноним". Впредь буду внимательнее!

Аноним 01/05/26 Птн 20:35:40 #276 №1602847

>>1602838
Не угадал. У меня вся чатхистори в первый ход парсится и никаких маркеров нет. Кстати, что ты забыл в данном треде? С твоим что-то случилось?

Аноним 01/05/26 Птн 20:37:49 #277 №1602849

>>1602847
>врёти
>ухадити
Чем анончики тебя так проткнули сегодня? На всех подряд бросаешься.

Аноним 01/05/26 Птн 20:50:18 #278 №1602856

>>1602837
> В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть
Всегда было. Согласен, что по апи ориентироваться - так себе метрика, но тогда уже непонятно что брать за референс. vLLM/SGLang? У нас на весь тред в полных весах тот же Квен 27 запустят всего несколько человек, отпишутся еще меньше, попробуют его в рп на длинном контексте и отпишутся - и того меньше.
> Тип кэша в параметрах менял?
Q8 не пробовал. Предпочитаю не квантовать, контекст и без того легкий. Возможно, стоит попробовать BF16, но я не знаю, жив ли он в Жоре и будет ли нормально работать на Куде 12.4 и 4090.

Аноним 01/05/26 Птн 20:57:25 #279 №1602859

>>1602847
пфф чар у тебя говорит “I can walk! I can walk!”. а потом юзерское "Not a word about it, Mio. Not a word. This never happened. Yeah. It never did." и ты думаешь что модель не подхватит паттерн?
и я уверен сквозь всю чатхистори большая часть параграфов начинается с {чарнейм} + глагол как анон заметил. это тот же самый маркер считай только без разметки.

Аноним 01/05/26 Птн 21:01:08 #280 №1602864

>>1602856
> что брать за референс
В данном случае он не то чтобы обязателен, потому что наличие проблемы с кэшем очевидно.
> Q8 не пробовал. Предпочитаю не квантовать
Попробуй `-ctk bf16 -ctv bf16`. На 12.4 и аж 4090 оно точно будет прекрасно работать, главное чтобы ллама корректно это воспринимала. Вон на реддите пишут что разница есть.

Аноним 01/05/26 Птн 21:18:44 #281 №1602873

Mistral-Medium-3.5-128B - говно ебаное.
Держу в курсе.
На кум не просто не разводится, он будто у него нахуй вычищен из контекста.
Отвечает очень плохо.
Дерьмо в общем.

Аноним 01/05/26 Птн 21:20:47 #282 №1602878

>>1602864
На реддите даун, который один промпт пару раз запустил и словил рандом от сида, а теперь это на кэши валит. Долбоеб какой-то, а все обсуждают.

Аноним 01/05/26 Птн 21:21:11 #283 №1602879

>>1602873
Лучше бы примеры принес чем в пустоту пукать.

Аноним 01/05/26 Птн 21:24:03 #284 №1602882

>>1602502
Шиз, ответы все рандомные. Жмешь по 100 раз перегенерить хоть на bf16, хоть на q4, получаешь рандомные ответы, когда-то дерьмовые, когда в точку, на то он и великий рандом. Ты по ходу не вкурил как llm работают и повторяешь за тем дауном с реддита.

Аноним 01/05/26 Птн 21:24:20 #285 №1602884

изображение.png

>>1602873
вот семплеры и шаблон. Семплеры рекомендованные самим мистралем, шаблон собран на базе встроенного шаблона который при стартe жора выдает.
>>1602879
могу спросить у неё что захочешь и как захочешь поменять параметры.
Я с ней ебался-ебался - нихуя вообще путного не выходит. Не просто плохие ответы, а прям мусор ёбаный.
И да, жора только вчера собранный, самый свежий.

Аноним 01/05/26 Птн 21:28:05 #286 №1602886

>>1602884
Теслашиз почтил нас своим присутствием, вдохнув конскую порцию воздуха свободы казахских степей, преклоняемся пред твоим величием.

Аноним 01/05/26 Птн 21:30:24 #287 №1602890

>>1602886
блять, не следи за мной
И она запущена не на теслах, а на 2 3090 и 1 v100.
Теслы надо продавать.

Аноним 01/05/26 Птн 21:31:21 #288 №1602892

>>1602878
Ты о чем вообще? Постов на тему несколько, есть и замеры, и аналитика, и отзывы, которые едины в тем что bf16 работает лучше чем fp16. Можно было сказать что это то же самое как опции swa, которые только меняют кэширование не трогая поведение, но здесь в основе вполне очевидное и серьезное основание.
>>1602884
Бляя, пост легенды. А куда потерялся ризонинг?

Аноним 01/05/26 Птн 21:33:45 #289 №1602895

изображение.png

сука, затроллила меня...
Но не подумайте лишнего, это от глупости сетки, а не от охуенной смекалки.

Аноним 01/05/26 Птн 21:36:09 #290 №1602898

>>1602884
>вот семплеры и шаблон
Творческое письмо на t=0.48? Вряд ли. Попробуй хоть 1 поставить что ли. И XTC покрути. А вообще везде же пишут, что ещё по сути нет поддержки и на мало-мальски длинных контекстах модель ломается.

Аноним 01/05/26 Птн 21:38:04 #291 №1602902

>>1602890
Я твой единственный симп. Свои теслы я не запускал уже с полгодика как, да и с локальными ллм почти завязал.

Аноним 01/05/26 Птн 21:39:15 #292 №1602905

>>1602892
>А куда потерялся ризонинг?
я не знаю....
я указал же все правильно в параметрах, но ризонинг она не выдает вообще хз почему...
>>1602898
я с 1 и начал. Там было вообще пиздец.
Вот что она выдала на t=1.
Там вроде рекомендуют максимум 0.7 ставить.

Аноним 01/05/26 Птн 21:40:24 #293 №1602907

изображение.png

>>1602905

Аноним 01/05/26 Птн 21:40:54 #294 №1602908

>>1602907
В чем она не права?

Аноним 01/05/26 Птн 21:41:19 #295 №1602909

>>1602898
То есть содержимое 3-го скрина тебя не смутило?
>>1602905
Не указал. Там должен предполагается префилл префикса на него, но даже без него при наличии опции в системном модель сама начинает. Почини разметку.

Аноним 01/05/26 Птн 21:44:41 #296 №1602912

>>1602864
> Вон на реддите пишут что разница есть.
Нашел посты анонов, которым показалось что с bf16 лучше, но пруфов или каких-то бенчей не нашел. Поделись если у тебя есть. Позже попробую сам с bf16, может отпишусь.
>>1602884
Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть? На третьем пике очевидно, что разметка сломана.

Аноним 01/05/26 Птн 21:46:58 #297 №1602915

изображение.png

>>1602909
я пробую добавлять префилл, но она размышление заканчивает и не закрывает <think>. И соответственно, не выдает ответ.
>>1602912
>Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть?
см второй пик. У меня кроме шаблона контекста больше никакие шаблоны не включены. Ну и префилл <think> вот я только что поставил

Аноним 01/05/26 Птн 21:57:07 #298 №1602920

>>1602915
>выключенный инстракт
Мда... Не оставил модели ни единого шанса.

Аноним 01/05/26 Птн 22:09:30 #299 №1602928

>>1602912
> но пруфов
Там перплексити замеряли. Если копнуть глубже - еще на этапе разработки квеннекста на гите делали сравнение логитсов с трансформерсами и наблюдали большие отклонения. Последующие фиксы и смена дататипа кэша разницу сокращала. Похоже что bf16 в релиз не включили, что очень странно.
Конфликт дататипов вообще вещь слишком очевидная чтобы требовать ее доказывать.
>>1602915
Чето в голос, воистину легенда.

Аноним 01/05/26 Птн 22:10:07 #300 №1602930

изображение.png

>>1602920
ну мы же оба знаем, что хорошая модель хороша, как её ни запускай. А хуевая не выдаст нормальный ответ даже если ты разработчиков в жопу взасос поцелуешь.
Я наконец понял, почему она упорно отвечает про тор.
Потому что она воспринимает слово кружка как круг блять.
Ну.... это очень плохо. Очень жидко. Не годится вообще никуда.

Аноним 01/05/26 Птн 22:11:19 #301 №1602931

1635145360239.png

1706802139108.png

https://huggingface.co/plezan/Mistral-Medium-3.5-128B-W4A16
4х MI50 100k ctx

Либо чекпоинт кривой, либо инференс. Аутпут какой то припизднутый

Аноним 01/05/26 Птн 22:15:46 #302 №1602936

Проклят это мистраль, все ггуфы поломаны, другие типы квантизации в основном тоже, либо какая то ебанутая экзотика по типу mlx который мне не на чем катать

Аноним 01/05/26 Птн 22:15:56 #303 №1602937

Тут отписывался человек с 1050ti. В общем хорошие новости для него и прочих анчоусов без видимокарт. Любопытства ради запустил Гемму 26b в Q8_0 на проце, без выгрузки, и... ЖИЗНЬ ЕСТЬ. 8,6 т/с на старом кукурузене и ддр4. В общем выкидывайте свои 8b на помойку и используйте нормальные ЛЛМ, а то чо как эти а я пойду дальше с квенчиком 235b кумить хе-хе-хе

Аноним 01/05/26 Птн 22:19:02 #304 №1602943

>>1602930
>ну мы же оба знаем, что хорошая модель хороша, как её ни запускай
Я любую модель заставлю нести бред, кинув туда свои нефильтрованные мысли выкрутив температуру и XTC на максимум (и забыв про отсекающие семплеры). Плюс известно о деградации моделей даже от мелочи типа "в шаблоне был токен, обозначающий два перевода строки, а модели отправляют два отдельных токена на один перевод строки". Так что нет, не согласен, хорошая модель конечно будет стараться, но вполне себе деградирует до лоботомита 0,3B при кривых параметрах.
>>1602936
>все ггуфы поломаны
Как будто с другими моделями не так. Вон, у геммы то кеш отваливается, то кванты анслоша снова конвертят bf16 в fp16, лол.

Аноним 01/05/26 Птн 22:20:36 #305 №1602945

>>1602943
> будто с другими моделями не так. Вон, у геммы
awq8/awq4 в первые дни появились на 100% рабочие

Аноним 01/05/26 Птн 22:22:09 #306 №1602947

1652300287142.png

С mimo тоже тухляк. Один ггуф и тот без мм

Аноним 01/05/26 Птн 22:26:40 #307 №1602949

>>1602937
Много как-то, q8 скорость падает ниже.

Аноним 01/05/26 Птн 22:27:05 #308 №1602951

Ггуф умер

Аноним 01/05/26 Птн 22:28:39 #309 №1602957

изображение.png

>>1602930
>Потому что она воспринимает слово кружка как круг блять.
Ну собственно у меня не так. Иногда верно отвечает, иногда тупит, но никаких кругов у меня не обнаружено.

Аноним 01/05/26 Птн 22:33:02 #310 №1602962

>>1602957
В голос с ебаклака. У тебя модель другая блять.

Аноним 01/05/26 Птн 22:33:46 #311 №1602965

>>1602957
Отец-хирург, плиз...
Тред на этих выходных всех шизов решил собрать? Писали же выше, не проебывай контекст.

Аноним 01/05/26 Птн 22:34:34 #312 №1602968

>>1602962
Сорян, смешались в кучу пони, люди, срач про bf16 кеш и какая-то там ненужная мистраль.

Аноним 01/05/26 Птн 22:37:15 #313 №1602972

изображение.png

>>1602965
>Отец-хирург
Вот не нужно тут, начинали с теплокровных собак и бояров с яйцами же. Хирурги это новодел ньюфагов.

Аноним 01/05/26 Птн 22:46:15 #314 №1602979

>>1602937
4.9 t/s, ты пиздишь

Аноним 01/05/26 Птн 23:00:24 #315 №1602984

>>1602951
Да

Аноним 01/05/26 Птн 23:04:27 #316 №1602985

>>1602778
В прошлом треде кидали бенчи двух 5060ти и в100 на одной модели. в100 всосало с проглотом

Аноним 01/05/26 Птн 23:08:19 #317 №1602986

1720407231640.jpg

>>1602951
Помянем. Хороший был пацан.

Аноним 01/05/26 Птн 23:19:05 #318 №1602990

>>1602985
В прошлом треде только кидали ссылку на https://github.com/ggml-org/llama.cpp/discussions/15013

RTX 5060 Ti 16 GB / GDDR7 / 128 bit 4195.53 ± 1.98 93.46 ± 0.01
Tesla V100 32 GB / HBM2 / 4096 bit 2973.78 ± 3.62 134.76 ± 0.02

И цифры оттуда не похожи на "всосало с проглотом".

Аноним 01/05/26 Птн 23:28:08 #319 №1602994

>>1602800
Я смог побороть это на квене. Нужно менять порядок семплеров (можно и не менять, но так лучше получается) и адски пердолиться с остальными семплерами.

Например, у меня квен точь-в-точь не повторяет обычно при консервативных семплерах, но повторяет по смыслу, используя другие слова, что бесит.

Смена порядка семплеров и их настройка полностью убрала эту хуйню, но вот насколько мозги просели — большой вопрос. Так как у меня т/с довольно уёбищный и не идеальный английский (могу упускать нюансы шизы и мелкие проебы модели), тяжело тестировать, ибо хорошее тестирование не за зирошоте, а на контексте, превращается в ад с ожиданием. Поэтому я вернулся к более консервативным настройкам пока что, ибо нет времени на пердолинг.

Аноним 01/05/26 Птн 23:39:35 #320 №1602998

>>1602990
А быстро треды летят. Вот бенч на 5060ти >>1597040 → ,а вот v100 >>1597466 →

Аноним 01/05/26 Птн 23:39:43 #321 №1602999

>>1602994
А мог бы не использовать блюстар и не было бы проблем, шизло
У меня на привычных 16к контекста никаких проблем нет
Не удивлюсь если у тебя и в промте насравно впридачу.

Аноним 01/05/26 Птн 23:51:39 #322 №1603004

>>1602999
Я другой чел. У меня такая вот хуйня на 3.6 квене, иногда на 3.5.

И какие 16к контекста? Ты какой-то биокарлик? Моё РП для кума — это 32к по стандарту, потому что сло берн, разговоры. РП без кума 65-80к контекста. Говнокод работа с текстом — от 128 до 200к.

РП на опасной модели, работа на оригинальной.

Везде одни и те же проблемы с этими лупами.

Аноним 01/05/26 Птн 23:52:10 #323 №1603006

>>1602930
> хорошая модель хороша, как её ни запускай
Против кадрового офицера никакая модель не справится.
> воспринимает слово кружка как круг блять
Что-то капитально взорвано и модель не в адеквате, или эмбиддинги порвались.
> Ну.... это очень плохо. Очень жидко. Не годится вообще никуда.
Это даже для 0.8б пиздец. Но тебя не засмущало и уже делаешь выводы.
>>1602998
Если перейти с q4_0 на менее протухшее, то разрыв окажется больше.

Аноним 01/05/26 Птн 23:52:52 #324 №1603008

>>1603004
Ты просто инвал не умеющий в настройку. Тебе уже несколько людей в треде сказали что у них такого нет. А ты всё срёшь в штаны и вайнишь на модель.

Аноним 01/05/26 Птн 23:56:01 #325 №1603010

>>1602994
Уверен что это не просто совпадение? Квен он такой, та же самая модель может быть суперахуенной, а потом тупить что стукнуть хочется. С другим типом кэша ничего не изменилось?

Аноним 02/05/26 Суб 00:14:28 #326 №1603021

>>1603010
Ты забываешь что всегда есть рандомное зерно геyенрации. Тебе может понравиться цепочка ответов с одним seed`ом и не понравиться с другим. И тогда ты начинаешь искать несуществующие проблемы.

Аноним 02/05/26 Суб 00:17:21 #327 №1603022

>>1603010
Это как и с генерацией картинок. Найдя тот стиль и логику которые тебе наиболее близки, ты можешь попробовать зафиксировать seed и добиться единого стиля

Аноним 02/05/26 Суб 00:20:34 #328 №1603024

>>1603022
Проспись

Аноним 02/05/26 Суб 00:20:43 #329 №1603025

>>1603021
> тогда ты начинаешь искать несуществующие проблемы
Кто ты? О поиске каких проблем речь?
> зерно
Понятно что это базовый перевод, но с этого каждый раз проигрываю.
>>1603022
Полнейший бред. Нейробот, для тебя в прошлом треде еще промпты оставляли.

Аноним 02/05/26 Суб 00:23:25 #330 №1603027

>>1602998
Окей, с такими бенчами и текущей ценой на 32гб v100 2х5060ti выгоднее. Но две 16гб версии стоят дешевле, чем одна 5060ти. И ты получаешь в два раза больше памяти. Тут уже не все так просто. Вообще вот я накидаю вариантов:
[32гб] 2х5060ti = 80к
[32гб] v100@32 = 60к (полный обвес с радиатором)
[32гб] 2х v100@16 = 34к (полный обвес с радиатором)
[36гб] 3x 3060@12= 60к
[44гб] 2x 2080ti@22 = 60к

Можно еще придумать всякие комбинации из этого (только не блеквеллы с теслами, гыгы звуки грустного тромбона)

Аноним 02/05/26 Суб 00:26:37 #331 №1603029

Погонял мистраль новую в обычных чатах на русском языке, задавал загадки и просил накодить что-то ваншотом.
Что могу сказать. Русик хуевый, могут лезть французские слова, проебывается разметка markdown, да и путается в сущностях и галлюцинирует.
Кодит вроде и неплохо, на уровне минимакса, но нахуй оно надо.
Пеликана сгенерировать не в состоянии, получается какое-то месиво.
В рп же отвечает сухо без шизопромпта, реагирует вяло и лениво.
Если же запустить с eagle моделью, то качество падает ещё ниже до уровня пережаренного q2 квена 27b.
Хуй знает, может, билд vllm косячный, но с остальными моделями такой залупы нет на той же версии. Ждём 0.21.0, где часть косяков инференса могут закрыть.
А вообще, залупа. 19 tps на пустом контексте, с eagle моделью становится 37 tps, но качество падает разительно. Не знаю, кому нахуй такое счастье нужно, которое забирает 192 гб, из-за чего доступно 131к контекста. Тот же квен 27b в fp8 показывает себя лучше, так и работает намного быстрее, да и контекста хватает на несколько запросов с фулл контекстом.
И это я на сою и отказы не тестил, не удивлясь, если окажется хуже квена.
Если что, я тестировал оригинальные веса в fp8.

Аноним 02/05/26 Суб 00:28:33 #332 №1603030

>>1603027
Ты как бы учти что в китае остались в основном в100 с битой памятью "есть ecc errs, в llm не влияет, мамой клянусь"

Аноним 02/05/26 Суб 00:32:31 #333 №1603032

>>1603029
>Пеликана сгенерировать не в состоянии
Зачем генерировать пеликана...

Аноним 02/05/26 Суб 00:33:15 #334 №1603033

>>1603027
> две 16гб версии стоят дешевле, чем одна 5060ти
В рамках бюджетных сборок с сильным упором на прайс - да, они однозначно имеют право на жизнь. Но в остальном есть смысл переплатить за блеквеллы. Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить.
>>1603029
> с eagle моделью, то качество падает ещё ниже
Оно не может влиять на качество аутпутов.
Расскажи подробнее что за пеликан, что за тесты и сущности?

Аноним 02/05/26 Суб 00:36:43 #335 №1603035

>>1603030
Я месяц назад заказывал карточку у норм продавца, пришла в норм состоянии. Просто не надо у мутных с нулем отзывов заказывать, а то платы от лифта получишь зато без ошибок памяти
Ну так-то дело сугубо анонское, я вот благодаря этому треду полюбил всякую некроту, в этом какой-то даже челлендж есть (но не уровня ми50, до этого мне далеко лол), а так если деньги не жалко, а ждать жалко, то и покупай самое новое.
>>1603033
>Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить.
Он уже есть же, raylight. Только нужна оч быстрая псина, а еще лучше p2p драйвера

Аноним 02/05/26 Суб 00:52:02 #336 №1603043

>>1603033
Ты меня ебёшь.

Аноним 02/05/26 Суб 00:56:00 #337 №1603045

>>1603043
nod.

Аноним 02/05/26 Суб 00:58:53 #338 №1603047

>>1603033
> Оно не может влиять на качество аутпутов.
Я в курсе, но какая-то хуйня происходит, если подрубать eagle модель.
Прочитал репу, там mistral обрсрались с конфигом, из-за чего модель могла идти по пизде. Придётся перетестировать.

Аноним 02/05/26 Суб 01:04:51 #339 №1603051

>>1603043
Ух, чертовка, с козырей заходит!
>>1603047
Хм, интересно как оно ломает? В вллм хз, но в sglang спекулятивный вещи работают все стандартизовано, да и тут как может именно инфиренс поломать? Хотя с хуангооптимизациями и не такое может быть.

Аноним 02/05/26 Суб 01:09:39 #340 №1603054

>>1602662
> зерофаты
Не вниманиеблядство, не путаем.

Аноним 02/05/26 Суб 01:19:55 #341 №1603055

>>1603054
Да, ведь как известно зерофата это нашенский тредовичок

Аноним 02/05/26 Суб 01:20:27 #342 №1603056

>>1603054
>вниманиеблядство
Как будто он тут сидит... и шитпостит от своего имени.

Аноним 02/05/26 Суб 01:23:13 #343 №1603057

>>1603056
Он оп вообще то

Аноним 02/05/26 Суб 01:24:29 #344 №1603058

>>1603057
Оп что-то мерджит или даже тренит? Да не, это фантастика.

Аноним 02/05/26 Суб 01:35:48 #345 №1603065

>>1603058
Если ето правда, то зерофате лучше нормально тюнить квен36, иначе пизда ему. Второй блюстар неюзабельное говно. Раньше было лучше. Первый блюстар охуенен.

Аноним 02/05/26 Суб 01:53:34 #346 №1603075

>>1603065
Наш опчик не такой. Если бы делал то там были бы ультрабазированные модельки с художественным русским и канничками, а не это васянослопище с "задонатьте мне пожалуйста".

Аноним 02/05/26 Суб 01:59:58 #347 №1603078

>>1603075
>"задонатьте мне пожалуйста".
У него литералли ни на одном тюне нет никаких ссылок для донатов. Чел на энтузиазме делает и тебя юзать не заставляет. Всегда ахуеваю с полупокеров которые даже на таких людей срать умудряются.

Аноним 02/05/26 Суб 02:06:46 #348 №1603082

>>1603078
Чел, чё ты ждёшь от ёбика-пдфайла? Там мозги набекрень

Аноним 02/05/26 Суб 02:09:29 #349 №1603087

>>1602800
Вот именно блять. И зачем мне такая модель даже если мне нравится как она пишет?
У меня с начала чата такие приколы, 3 сообщения подряд перс может подойти к шкатулке и открыть её, и он так и будет это делать если не двинешься в другое место, а я не хочу, я хочу в этом конкретном месте быть.
Если в других моделях так же то это совсем не заметно, а тут я сразу заметил и обрыгался

Аноним 02/05/26 Суб 02:09:54 #350 №1603088

>>1603078
Кофай главной ссылкой в профиле, ну
> даже на таких людей
> даже
Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели. В этом нет ничего плохого, но и хорошего тоже.

Аноним 02/05/26 Суб 02:12:19 #351 №1603089

1703047741365.png

>>1603035
> raylight
Дуал 5060ти, псина 4 х8, интел 4189, разные нума ноды, видяхи курят на 120 ваттах при капе 180
26с без, 21с с

Возможности проверить на одной ноде пока нет

Аноним 02/05/26 Суб 02:13:42 #352 №1603091

>>1603088
>Кофай главной ссылкой в профиле, ну
Это не то же самое, что настойчиво срать этой ссылкой везде где можно.
>Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели.
Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде. Чел мне Квен починил и Гемму 26, так что да, я ему благодарен. Тут такая позиция презирается и стыдна?

Аноним 02/05/26 Суб 02:20:05 #353 №1603094

>>1603088
>Кофай главной ссылкой в профиле, ну
Зайди на страницу Драммера или других слоподелов. Там ссылки на Патреон, Дискорд, "отзывы" и прочий мусор, словно ты через минуту попадешь в городскую секту сумасшедших. Олсо у Зерофаты действительно на страницах именно тюнов нет никаких ссылок и призывов.

>>1603091
>Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде
Ты че? Тут каждый второй уже и бартуху попустил, и всех на ком вся наша локальная шизодвуха держится. Каждому виднее.
>Чел мне Квен починил и Гемму 26
С Геммой есть вопросы, но насчет Квена соглашусь. На инстракте так много я бы не отыграл. Но и доказать мы тут вряд ли что сможем, по ту сторону все оч просто: любые тюны - васянство, ну кроме может Синтии, которая на практике тем еще дерьмом оказалась.

Аноним 02/05/26 Суб 02:22:08 #354 №1603095

1686240326489.png

Чёт ковыряют, может в этот раз хотя бы запустят свои кванты перед тем как лить

Аноним 02/05/26 Суб 02:25:01 #355 №1603096

>>1602662
>Снова будет база как и Мерочка
Так меро вышло говном, какая нахуй база? Это буквально та же самая гемма вообще без изменений. От детальных описаний сливается, характеры не держит. Два дня её гонял, никакой разницы не заметил, вернулся на дефолтную 26B

Аноним 02/05/26 Суб 02:28:03 #356 №1603099

>>1603091
> такая позиция презирается и стыдна
Дьявол в деталях. Благодарность юзернейму за то что его модель нравится не смотря на происхождение - хорошо. Обсуждение по сути плюсов и минусов - хорошо. Агрессия на правду "мой протык не такой потому что я словил утенка" - осудительно.
Васян, штампующий щитмиксы треня лоры через аксолотль потому что под него уже есть выложенные датасеты, а не потому что он оптимален, буквально редфлаг васяна, это как мерзкий дождь осенью. Можно злиться, можно насмехаться, можно любить и получать пользу, но сути не меняет. Если раньше это был совсем рак убивающий, то сейчас организм кое как приспособился, но это не делает им чести.
>>1603094
Хм, наверно среди них он действительно выглядит хорошо с этой точки зрения. Просто уже открыв ридми ловишь кринж, они реально думают что это выглядит круто?
> "отзывы"
Сделал мой вечер, каждый раз как в первый.

Аноним 02/05/26 Суб 02:31:14 #357 №1603100

>>1603091
>>1603094
Двачую адекватов. Если бы не рп-тюны я бы так и юзал нейронку только для вопросов как пройти в библиотеку. Или вообще юзал говнокрыс. А так у меня теперь есть +одно забавное хобби о котором не принято упоминать в приличном обществе. И у меня теперь есть вы, серуны окумевшие.

Аноним 02/05/26 Суб 02:38:27 #358 №1603103

image.png

https://huggingface.co/mistralai/Mistral-Medium-3.5-128B/discussions/16
https://huggingface.co/mistralai/Mistral-Medium-3.5-128B/discussions/15
Шизы, кто из вас?
Хаухау Агресив ✔
ХуйХуй ✔
ДавидАУ ✔
Ролл с русика, непонятной загадкой выдается за undeniable evidence of a $1B model failing at primary school math ✔

Аноним 02/05/26 Суб 02:43:08 #359 №1603105

>>1603103
А потом за бугром говорят что все русские ебанутые

Аноним 02/05/26 Суб 02:45:18 #360 №1603106

>>1603103
Это скуфандрии с хабра скорее всего. Только там могут посоветовать купить мак под нейронки, потому что унифайд мемори и "купил, воткнул, заработало"

Аноним 02/05/26 Суб 02:46:56 #361 №1603107

>>1603106
Главное тут не искать советы купить красный аи макс плюс

Аноним 02/05/26 Суб 02:54:02 #362 №1603109

>>1603107
Чому не брать? Амуде разве пиздеть будут? Вообще считаю что нужно пользоваться всем где в названии фигурирует МАКС

Аноним 02/05/26 Суб 02:59:13 #363 №1603111

>>1603103
Dies from cringe. Ярлыки это плохо, но здесь просто эталонный потребитель опасных моделей. Возникла ассоциация с любителем несвежих паскалей из треда выше, но тут такое дно, что кажется такое сравнение будет оскорбительно
А еще он pdf, на скрине видно!
>>1603107
А купил ли его кто-то в итоге? Вроде была куча обсуждений и порывались заказывать, отписывались?
>>1603109
> Амуде разве пиздеть будут?
> где в названии фигурирует МАКС
Содомитище!

Аноним 02/05/26 Суб 03:11:05 #364 №1603113

image.png

Аноним 02/05/26 Суб 03:20:54 #365 №1603116

>>1603113
Улиточка...

Аноним 02/05/26 Суб 03:22:10 #366 №1603117

>>1602873
> что-то кроме геммы - говно
Да ладно.

Аноним 02/05/26 Суб 03:24:36 #367 №1603119

>>1603103
О, нихуя, хуйхуй аблитерацию геммы сделал? Лучше чем от ллмфана и кодера31?

Аноним 02/05/26 Суб 03:37:14 #368 №1603121

>>1603010
Не, это прям база. 3.6 квен большой любитель лупов, натуральный мистраль от реди арт в РП, а вот именно 3.5 крайне редко лупится, там почти ничего крутить не надо а семплерах, только иногда.

Это я про инстракт модели. Когда я блю стар попробовал, то через пару минут его удалил, ибо он сразу меня калом окатил. Было понятно, чем кончится. Правда, пишет он куда приятнее в целом. Возможно, попробую снова, но уже с пердолингом, потому что 3.6 откровенно плох в рп.

Аноним 02/05/26 Суб 06:28:36 #369 №1603142

https://huggingface.co/zerofata/G4-MeroMero-31B

Аноним 02/05/26 Суб 06:42:45 #370 №1603144

>>1603142
Кал.

Аноним 02/05/26 Суб 08:18:50 #371 №1603156

>>1603142
Как можно взять модель которая думает 20 секунд и выпустить тюн который думает 50 секунд?

Аноним 02/05/26 Суб 08:29:48 #372 №1603157

>>1603142
>This model has a slightly better swipe diversity and a less flowery / verbose writing style.
Нахуя... зачем... Главная проблема геммы это её безобидность из-за которой на ней можно только ваниль катать с фемели френдли описаниями по типу "она взяла тебя глубоко, её дыхание участилось, зрачки расширились" без всякой конкретизации что она взяла, зачем она это взяла, и главное чем именно она меня взяла.

Аноним 02/05/26 Суб 08:32:50 #373 №1603158

Есть нищий ноут, видюхи нет, проц более менее средний и 16 гб озу. Хоть какая нибудь модель на нем в теории сможет запуститься и работать локально или мне придётся лезть только в онлайн?

Аноним 02/05/26 Суб 08:40:50 #374 №1603162

>>1603158
>Хоть какая нибудь модель на нем в теории сможет запуститься
Может, список мелкомоделей есть в шапке. Но учитывай что многого от мелочи лучше не ждать.

Аноним 02/05/26 Суб 08:46:53 #375 №1603165

>>1603158
Эту попробуй в iq4_xs, она 12.9 гб весит, как раз почти по лимиту памяти
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-i1-GGUF
Своп файл включи и может влезет целиком в память, вытеснив компоненты винды, запускать только через llama.cpp для проца с обязательным --mlock. Если слишком тормозить будет, бери qwen 3.5 4b, тот-то точно должен влезть в 2.5гб, но он похуже гемки.

Аноним 02/05/26 Суб 08:50:36 #376 №1603166

>>1603158
Этого >>1603165 шизика не слушай, у тебя всю память сожрет и система встанет намертво. Подкачка включится сто процентов, тогда и скорость процессинга/генерации упадет и винда начнет тупить с ебанутыми задержками.

Аноним 02/05/26 Суб 08:52:24 #377 №1603167

Что сейчас для локального кода лучше всего? Квен 3.6?

Аноним 02/05/26 Суб 08:54:23 #378 №1603168

>>1603166
Шизик, я на 32gb модели по 29гб запускал на проце, система не встает намертво, модели работают. Винде нужно 2-3гб примерно свободной памяти, она норм работает, если своп файл включен. Если не включен, тогда только падает. --mlock как раз для того чтобы не пыталась винде за щеку в своп напихать, а грузила все в рам.

Аноним 02/05/26 Суб 08:56:36 #379 №1603169

>>1603158
можно, но только мое модели. в плотные можешь даже не лезть, ну если только 4B

Аноним 02/05/26 Суб 09:01:05 #380 №1603172

>>1603168
Ну так давай с тобой вместе и посчитаем, сколько будет потребление. Сам квант 13 гигов, плюс контекст который пиздец жирный, и даже если квантованный то займет минимум два гигабайта и... пу-пу-пу... сколько там системе гигабутов осталось?

Аноним 02/05/26 Суб 09:09:31 #381 №1603176

>>1603172
Там ему на пару вопросов задать ,там нет контекста. Потом контекст можно в q4_0 упаковать и уменьшить чекпойнты для него до 1-2, тогда мало займет.

Аноним 02/05/26 Суб 09:13:36 #382 №1603183

>>1603172
Алсо вот эту запускал на 32гб рам, она весит 37.1гб
Qwen3.5-122B-A10B-heretic-v2.i1-IQ3_XXS.gguf
Ничего не висло, скорость ответов медленная, но терпимая 2.66 токена/c. Так что ты хуйню гонишь.

Аноним 02/05/26 Суб 09:14:31 #383 №1603184

>>1603162
>>1603165
А что они могут делать, кроме ролеплея? Работа с файлами, создание отчётов, графиков, таблиц и т.д. как на клоде это возможно?

Аноним 02/05/26 Суб 09:19:12 #384 №1603186

>>1603176
>Там ему на пару вопросов задать ,там нет контекста.
Вот тебе откуда знать сколько вопросов он задавать собрался? Он вообще не написал для чего ему нужна локалка, может он в рп собрался?
>контекст можно в q4_0 упаковать
Даже если что-то можно сделать, не значит что это стоит делать.
>чекпойнты для него до 1-2, тогда мало займет
Даже так займет минимум гигабайт-полтора. Будет впритык, а значит кроме самого инфирнеса, который итак медленный, ты больше нихуя за компом не поделаешь. Ни вторую вкладку нормально ни открыть, ни тем более видос какой-нибудь, пока просчет ишачьим темпом идет.

Знаешь что еще можно сделать? Какой самый крутой способ оптимизации? Взять модель поменьше. Да, вот так просто.

Аноним 02/05/26 Суб 09:19:29 #385 №1603188

>>1603184
С файлами тебе контекста не хватит, он память жрет. Контекст обычно ограничен 32к или даже меньше. Хватит на задавание вопросов, например как что-то собрать, ролеплей, табличку с анализом одиночного вопроса еще может вывести, несколько уточняющих вопросов подряд в одной беседе. Все остальное - ставь 32-64гб памяти в свой ноут, тогда еще потянет. Или собирай большой комп, там это подешевле. На 32гб рам у меня контексты до 65к и больше спокойно выходят.

Аноним 02/05/26 Суб 09:22:28 #386 №1603190

>>1603186
Если есть проблемы, отключаешь --mlock и ставишь --mmap, память для контекстов освобождается, модель все еще работает. Но лучше сначала с mlock попробовать, он побыстрее.

Аноним 02/05/26 Суб 09:34:49 #387 №1603195

>>1603190
Лучше взять модель меньше, а не заниматься вудуизмом пытаясь впихнуть невпихуемое. Ту же гемму но 4EB например, даже восьмой квант на ней всего 8 гигов весит. Будет тупее 26B? Будет тупее. Будет сильно тупее чем 26B в четвертом кванте и четырехбитном контексте? Не особо и сильно.

Аноним 02/05/26 Суб 09:37:23 #388 №1603196

>>1603188
То есть чтобы к примеру нагенерировать 20 таблиц эксель, сгруппировать их и сделать общий отчёт это всё таки к клоду?

Аноним 02/05/26 Суб 09:45:02 #389 №1603197

>>1603167
>Что сейчас для локального кода лучше всего? Квен 3.6?
На потребительском железе - пожалуй да. Плотный. Если врам+рам побольше, то вариантов уйма.

Аноним 02/05/26 Суб 09:57:42 #390 №1603201

>>1603188
>>1603196
в теории можно делать оконную функцию которая будет обрабатывать файлы частями. или ллм будет читать/писать файлы при помощи питоноскриптов (писать скрипт для обработки файла который будет выдавать минимум контекста)

Аноним 02/05/26 Суб 10:09:03 #391 №1603204

Нубас в треде. Про РП уже понял. Насколько хороши языковые модели для изучения языков? Цель изучение английского, перевод и объяснение отдельных слов и фраз и исправление ошибок в моих текстах. Какая из моделей лучше для этого?
рам 32гб + врам 12гб, установлены LM Studio, Unsloth studio

Аноним 02/05/26 Суб 10:12:16 #392 №1603206

>>1603204
Ну гемма 31 хороша в к8 и ф16. Ф32 контекст тестирую

Аноним 02/05/26 Суб 10:13:51 #393 №1603208

image

>>1603195
Рассказ 4EB. Думайте...

Аноним 02/05/26 Суб 10:15:47 #394 №1603209

image

>>1603208
Ой, не то.

Аноним 02/05/26 Суб 10:32:56 #395 №1603217

>>1603209
На английском конечно же лучше будет.

Аноним 02/05/26 Суб 10:56:22 #396 №1603223

1662195843105.png

Очевидно не тестили они ничего >>1603095

Аноним 02/05/26 Суб 10:59:49 #397 №1603224

>>1603158
<think> Пользователь просит подсказать модель, но в шапке уже есть гайд для новичков и список моделей под любое железо. But wait... возможно пользователь слепой или у него низкий IQ.. But wait я должен вежливо 专业的 ответить на запрос без лишней воды. Lets go </think>

Добро пожаловать в тред! В шапке ты найдешь ответы на все свои вопросы ☺️

Аноним 02/05/26 Суб 11:02:56 #398 №1603226

>>1603167
> Квен 3.6?
Слишком мелкий и тупой >>1602826
Да, плотный тоже.

Аноним 02/05/26 Суб 11:06:15 #399 №1603228

>>1603224
Надо большими красными буквами двач так может написать, что вес мое модели должен умещаться в совокупный объём памяти юзера, а вес плотной модели в объём памяти видимокарты. Тогда и все вопросы про "а у меня влезет?" отпадут. Ну что поделать если нюфак всегда не умеет читать. А даже если читает то не понимает.

Аноним 02/05/26 Суб 11:08:55 #400 №1603229

>>1603167
>Что сейчас для локального кода лучше всего?
GLM-5.1

Свободные веса. Просто скачиваешь и запускаешь!

Аноним 02/05/26 Суб 11:14:29 #401 №1603230

>>1603228
>вес мое модели должен умещаться в совокупный объём памяти юзера, а вес плотной модели в объём памяти видимокарты
Не совсем так. Помимо того что сама модель должна уместиться, нужно ещё место на контекст + браузер и ОС тоже отъедают память. А контекст у разных моделей весит по разному. А на некоторых моделях нужны дополнительные настройки для корректной работы (SWA на той же Гемме). Поэтому хочет нюфак или нет, но ему ПРИДЁТСЯ курить гайды и разбираться.

Аноним 02/05/26 Суб 11:20:38 #402 №1603234

>>1603230
Ну, такой текст должен будет в первую очередь дать понять базу, так сказать, типа стоит ли вообще кнопки нажимать или сразу идти нахуй проходить мимо. Да и для первого hello world с нейронкой контекст будет не нужен. А вот уже потом, если понравится и втянется, будет задавать точечные вопросы о настройке.

Аноним 02/05/26 Суб 11:26:48 #403 №1603236

>>1601740 (OP)
Аноны, если я такую залупу https://m.avito.ru/moskovskaya_oblast_krasnogorsk/nastolnye_kompyutery/mac_studio_2025_m3_ultra_3280_512gb_16tb_8056185801 куплю. Я смогу без гемора полностью не кастрированный квен или дипсик загружать и творить ЧУДЕСА?
2,8КК вроде и дохуя, но в тоже время это сумма одного контракта на разработку корпоративный портал+приложение к нему на мультикотлине

Или эта металлическая микрозалупа не потянет некастрированную модель?

Аноним 02/05/26 Суб 11:28:27 #404 №1603238

>>1603228
Можно запускать модели чуть большего совокупного размера чем RAM используя --mmap

Аноним 02/05/26 Суб 11:29:31 #405 №1603240

fr.webp

>>1603234
Хм... Хватит ли 4к контекста, чтобы залезть Геммоче в трусы? Скорее всего да.

А как обстоят дела у Qwen, Mistral, GLM?

Аноним 02/05/26 Суб 11:30:05 #406 №1603242

>>1603238
А чё не с подгрузкой в кофеварку?

Аноним 02/05/26 Суб 11:36:12 #407 №1603243

>>1601824
Это изображение является персонификацией (антропоморфизмом) различных искусственных интеллектов. Автор решил представить каждую нейросеть в виде женского персонажа, чтобы визуализировать их «характер», происхождение или предполагаемую специализацию.

Возможные смыслы:
География и культура: GigaChat представлен в русском стиле (так как это российская модель), Qwen — в строгом азиатском деловом стиле (китайская модель), Mistral может олицетворять европейский шик (французская модель).
Контраст «версий»: Интересен контраст между Gemma3 и Gemma4. Если Gemma3 — это консервативная монахиня с книгой о феминизме (что выглядит как ироничный комментарий к цензуре или этическим фильтрам ИИ), то Gemma4 представлена как максимально раскрепощенный персонаж. Это может быть метафорой «снятия ограничений» (uncensored) в новых версиях моделей или просто шуткой о том, как одна версия сменила другую.
* Спектр возможностей: Разнообразие одежды (от спорта и бизнеса до религии и фольклора) символизирует универсальность ИИ: способность быть кем угодно — от строгого помощника до творческого собеседника или провокатора.

Итог: Это ироничный «портрет» современного состояния индустрии LLM, где каждая модель имеет свою «личность», культурный бэкграунд и уровень «открытости».

Аноним 02/05/26 Суб 11:36:51 #408 №1603244

>>1603236
Так это святой грааль всех локальных моделей. На ней ты запустишь практически что угодно, там скорость памяти ебейшая и объем в 512 гигов, это практически как одна гигантская видеокарта. Только бабок обычно на такую йобу ни у кого нет. Все ждут, пока цены на нее упадут хотя бы до 2к баксов, тогда начнут накупать. К тому же эппл 512 гб модели перестала делать из-за нехватки памяти на заводах. Хз, временно или нет. С такой штукой ты можешь забыть про онлайновые модели, она все в рилтайме локально вывезет.

Аноним 02/05/26 Суб 11:38:21 #409 №1603248

image

>>1603238
Наоборот не используя.

Аноним 02/05/26 Суб 11:39:31 #410 №1603250

>>1603236
Под некастрированной моделью ты BF16 понимаешь или жирнейший сочнейший 8 квант? В любом случае смотри сколько весит модель - если влезает в эти 512, то в принципе да. Только в душе не ебу какая там скорость памяти и сколько кило в секунду она пропускает, по этому тоже смотри сам.

Аноним 02/05/26 Суб 11:42:32 #411 №1603253

>>1603238
>Можно запускать модели чуть большего совокупного размера чем RAM используя --mmap
Тогда простите конечно но какого хуя у меня при включенном мемори мапе потребление наоборот в два раза увеличивается?

Аноним 02/05/26 Суб 11:43:53 #412 №1603255

>>1603253
Потому что он хуйню несет.

Аноним 02/05/26 Суб 11:49:58 #413 №1603261

>>1603236
Оверпрайс жуткий, оно стоило 8к баксов в минималке с 512 гигами, 17к баксов в макс конфигурации. Тогда это было норм. Тут же с тебя дерут 37к долларов, что выходит за любые разумные рамки и уже территория для мажорчиков, которые бабки вообще не считают. Намного дешевле будет съездить в страну, где продают RTX 6000 Pro и M3 ultra на 256 гигов и привезти их оттуда на самолете, еще и лишних бабок куча останется.

Аноним 02/05/26 Суб 11:56:27 #414 №1603263

Тестил кто меромеро на плотняке новую? Как? Опять чел нихуя не сделал и отличий от базовой 0?

Аноним 02/05/26 Суб 11:59:12 #415 №1603265

>>1603263
Прям сейчас катаю. Слопа гораздо меньше и не отупела на англюсике. Может теперь наконец Геммочка сможет быть почти наравне с Квеном.

Аноним 02/05/26 Суб 12:00:28 #416 №1603266

>>1603263
Бтв, ты очень хуево смотрел, если для тебя 26б это
>отличий от базовой 0?
Но если ты любитель Хуйхуй в жопу моделей, то не трать время и на 31б

Аноним 02/05/26 Суб 12:02:25 #417 №1603270

>>1603240
У меня гемма снимала трусы с первого инпута потому что в промте написал ты хорни-ассистент.

Аноним 02/05/26 Суб 12:12:25 #418 №1603273

>>1603270
>У меня гемма снимала трусы с первого инпута
и в каждом следующем сообщении, бггг

Аноним 02/05/26 Суб 12:13:49 #419 №1603274

pepe.webp

>>1603236
> Я смогу без гемора полностью не кастрированный квен или дипсик загружать и творить ЧУДЕСА?

А какие чудеса ты собрался творить квеном или дипсиком? Кодить? Как по мне, ты просто проебёшь эти деньги. Поясняю с практического опыта.

1. Единственная открытая модель, которая сносно кодит прямо сейчас - это GLM-5. Вот прям чтобы именно с нуля писала код с логикой по ТЗ. А не задачки уровня "переложи поля из DTO в DTO". Qwen (любой) - просто забей, не может он в код. DeepSeek3 - тоже. DeepSeek4 - ок, не проверял ещё, возможно вот твоя надежда.

2. В эту твою писюльку GLM влезет разве что в Q4, да и то не факт, что под контекст место останется. А Q4 для кодинга - ну такое.

3. А кто тебе вообще будет эти 3кк за разработку сейчас платить? Уважаемый Кабан Кабаныч уже заказал разработку у шараг покрупнее, которые как раз таки закупились нужным железом или купили подписки.

Аноним 02/05/26 Суб 12:23:19 #420 №1603277

>>1603253
>>1603255

у меня 8vram + 96ram. к примеру я запустил minimax 2.7 IQ3_XXS размером 89gb (да, меньше чем рам, но большие модели я уже удалил). через htop занимает она 76 resident memory, а не 89

https://github.com/ggml-org/llama.cpp/discussions/1876

Аноним 02/05/26 Суб 12:24:04 #421 №1603278

>>1603263
Думает в два раза дольше орига, сыпет метафорами на половые органы и... well, you know

Аноним 02/05/26 Суб 12:28:18 #422 №1603281

>>1603278
Понятно. Ну, ожидаемо от слоподела.

Аноним 02/05/26 Суб 12:33:37 #423 №1603282

>>1603278
>>1603281
Ваще не жаль неосиляторов да и видимо пдфайлов впридачу. Терпите 😀

Аноним 02/05/26 Суб 12:36:21 #424 №1603283

продолжаю мучать мистраль медиум
прошлая модель была от анслота Q4_KM.
Сейчас скачал от бартовски IQ4_XS.
Результат не изменился.

Потом я понял, что модель в размышлении над вопросом
>у кружки нет дна и верх запаян. КАК ИЗ НЕЁ ПИТЬ?
из-за союза И воспринимает его как "у кружки нет дна И верха".
Поменял вопрос на
>у кружки нет дна, а верх запаян. КАК ИЗ НЕЁ ПИТЬ?
Но лучше не стало.
Модель короче говно.

Аноним 02/05/26 Суб 12:37:25 #425 №1603284

>>1603277
Ну вот тогда тебе мой пример, запускал я значит в свое время третью гемму. Она с ммапом в четвертом кванте сожрала 28 гигабайт при 4к контекста. Отключил ммап, оставил только млок, и чудо, всего около 18-19 гигабайт.

Аноним 02/05/26 Суб 12:39:59 #426 №1603286

изображение.png

>>1603283
альсо на английском нихуя не лучше

Аноним 02/05/26 Суб 13:07:20 #427 №1603293

изображение.png

>>1603286
вот для сравнения GLM4.5-Air показал свое Абсолютное Вакуумное Сосание.
Обосрался конечно, но хоть в кругом кружку не перепутал.

Аноним 02/05/26 Суб 13:13:03 #428 №1603294

>>1603244
Спасибо

Аноним 02/05/26 Суб 13:20:53 #429 №1603299

>>1603156
Надрочить паттерн большого синкинга потому что он есть в готовом дампе.
Это же васянотюн, ну. Возможно лучший из существующих и действительно неплохой, а может просто очередной трешак. Именно из-за самого явления щитмиксов в целом у нас нет нормальных тюнов.
>>1603167
Квен, дипсик, кими, дипсик. По нарастающей требования и перфоманс так сказать.
>>1603223
Жесть какая! А почему q4_1 квант?
Глянул внимательнее - так медиум изначально в фп8 весах, рабочих ггуфов можно не ждать. Идите бунд поднимайте и на обниморде нытье устраивайте что ллама багованная, чтобы создатель снизошел и все переработал. Иначе этот трешняк будет только множиться, новый дипсик на очереди.

Аноним 02/05/26 Суб 13:23:19 #430 №1603301

>>1603299
>Это же васянотюн
>из-за самого явления щитмиксов в целом у нас нет нормальных тюнов.
У тебя, не у нас. Адекваты прежде чем судить скачают и попробуют сами. Хорошие тюны есть. Прямо сейчас я катаю именно этот тюн и это Гемма здорового человека. Хуй знает как ты умудряешься быть одновременно умным челом и долбаебом, который даже не смотрел и не знает о чем речь, но уже все решил. Ясен хуй, будь у меня риг, я бы и не лез в это, но что тебе мешает завалить ебальник и катать своего большеквена, не рассказывая о том, что тебе неизвестно, это загадка.

Аноним 02/05/26 Суб 13:24:21 #431 №1603302

>>1603299
> А почему q4_1 квант?
В первый раз был 4_0, сейчас попробовал 4_1.
Качается их йобаквант из примера на страничке.
В целом как бы и похуй, сижу на гемме и не трясусь

Аноним 02/05/26 Суб 13:28:39 #432 №1603303

>>1603236
Да но нет. В 512 будет априори квант, но квант приличного качества (или нативная низкая битность). Главный минус что ничего из самых крупных не поместится, нужно уже две таких коробки. И скорости будут относительно низкими потому что компьюта мало.
За оверпрайс лота двачую, ладно когда оно за лям продавалось, но тут йобу дали совсем.
>>1603274
> 1. Единственная открытая модель, которая сносно кодит прямо сейчас - это GLM-5
Опохмеляться не забывай

Аноним 02/05/26 Суб 13:33:22 #433 №1603306

>>1603236
> Я смогу без гемора полностью не кастрированный квен или дипсик загружать и творить ЧУДЕСА?
Если ты задаешь такой вопрос, то нет, не сможешь. За такие деньги это только для тех, кто столько же тратит на жизнь и развлечение каждый месяц. Если ты из таких - бери и не задумывайся. В остальном двачую >>1603261
>>1603286
>>1603293
Даже боюсь поинтересоваться какая модель "нормальная" в твоем понимании
>>1603301
> что тебе мешает завалить ебальник и катать своего большеквена, не рассказывая о том, что тебе неизвестно, это загадка.
Двачую. Чел наверняка уже тысячу лет никаких тюнов не катал, но ты считает своим долгом высказаться. Зачем - я тоже не знаю.

Аноним 02/05/26 Суб 13:35:10 #434 №1603307

Параллельный импорт эти ебланы собираются прикрыть по многим позициям. Не будет оперативной памяти и ссд как минимум. Либо закупаться железом сейчас, либо через 10 лет. Или в другой стране.

https://www.garant.ru/products/ipo/prime/doc/413049991/?ysclid=moo7b2aki4418924465

Аноним 02/05/26 Суб 13:48:04 #435 №1603315

>>1603301
Наверно ты по своей наивности не понимаешь что такое васянмиксы. Почему они не могут быть хорошими по определению, всегда будут компромиссы, и почему они - зло.
Их создатели - буквально макаки с пишущей машинкой, или средневековые алхимики, кидающие в котел все до чего доходят руки, надеясь что повезет. Они отвергают эффективные подходы и приемы, потому что те кажутся сложными, они не создают ничего нового - только все те же сырые дампы с проксей, а все попытки улучшить сводятся к рандомным действиям и дальнейшим мерджам.
Порождаемые гомункулы лоботомированы, но послушны и нетребовательны, что нравится неофитам и работягам. Но это подсаживает их на эту самую легкость, лень и неумение использовать невжаренные модели.
Если кто-то захочет создать что-то нормальное среди этого тренда - он будет или вынужден присоединиться к нему и множить слоп, или получит демотивацию от непонимающих масс, это даже крупных команд касается. Если на заре ллм всякого рода тюнов, включая крупномасштабные, было много, то сейчас выходит единицы за год. Потому что высокая доля комьюнити подсела на такое и даже не знает что может быть иначе.
> будь у меня риг
Тебе не нужен риг чтобы учиться использовать базовые модели, или более легкие миксы с минимумом вмешательства. Или хотябы осознавать проблему и пытаться совершенствоваться самому, чтобы меньше зависеть от этого.

Аноним 02/05/26 Суб 13:49:30 #436 №1603317

В пизду этот eagle декодинг. С ним новая мистраль почему-то превращается в пускающего слюни лоботомита, который срет иероглифами и неизвестными символами, да и в vllm что-то ломается и tg падает до 6 tps на контексте 50к.
Перепробовал разные сборки vllm, где-то нужно указывать токенайзер, где-то будет работать и без этого.
А пеликана даже апишная версия не может сгенерировать, да и тупить может, дропаясь до 0,5 tps в некоторые моменты.
Короче, модель вроде бы и неплохая, но требует настройки, а то будет работать хуже опасной модели 27b q5_k в жоре. Вот только опасный квен не требует 192 гб vram для запуска в приемлемой скорости, а может крутиться рядом на двух 16 гб картах.

Аноним 02/05/26 Суб 13:53:11 #437 №1603319

>>1603317
> мистраль
Да он в целом ебано как то работает что в вллм, что в жоре. Остываем на месяц

Аноним 02/05/26 Суб 13:53:33 #438 №1603320

>>1603302
Это тоже херь, почему не k? Если есть iq кванты - стоит попробовать их, или от болгарина на форк, он вроде что-то доделывал у себя.

Аноним 02/05/26 Суб 13:55:02 #439 №1603321

>>1603320
Херь не херь, но если по их мануалу 1:1 будет мусор на выхлопе, то смысла что то делать дальше нет никакого

Аноним 02/05/26 Суб 13:57:21 #440 №1603323

>>1603315
Мимо, но выскажусь. Поддержу анонов выше, считаю, ты не прав.
> всегда будут компромиссы
Это такю
> и почему они - зло.
А это уже нет. Это ярлыки и обобщение.
> Их создатели - буквально макаки с пишущей машинкой, или средневековые алхимики, кидающие в котел все до чего доходят руки, надеясь что повезет
Там ведется вполне осмысленная работа над датасетами. Axolotl и прочие инструменты для тренировки они может и не разрабатывают, зато понимают взаимосвязь вход-выход. А еще они платят за это, потому что у них нет собственного компьюта для тренировки. Как ты думаешь, люди, которые за ошибки платят из собственного кармана, долго будут продолжать этим заниматься, если не понимают, что делают? У Драммера может и есть какое-то спонсорство, но он буквально собрал всех тех немногих, кто готов за это платить, оставив остальных ни с чем. В случае с конкретным челом, чей тюн обсуждают, у него и на кофае (который еще найти где-то надо) никаких подписчиков нет.
> Порождаемые гомункулы лоботомированы, но послушны и нетребовательны
Чаще всего да, но не всегда. Ты очень обобщил. У тебя нет проблем, которые можно было бы решить тюнами, потому что ты катаешь модели, которые тебя устраивают. И поэтому позволяешь себе такие обобщения. Покатай ты немного больше одного чатика Гемму 4 - офигеешь с того, насколько она слоповая. Квен 27 - сухой и неинтересный, с неестественными диалогами.
> Тебе не нужен риг чтобы учиться использовать базовые модели, или более легкие миксы с минимумом вмешательства
Речь тут не про скилл ишью или то, что я не могу промптить интрукты - могу и с радостью использую Глмы 4.5-4.7 или Квен 235. Но они недоступны большинству и для кого-то уже устарели. Ты генерируешь негатив на ровном месте, рассуждая о том, во что сам не погружен. Странное поведение.

Аноним 02/05/26 Суб 14:04:23 #441 №1603328

>>1603307
Законы научись читать, горящая попка. И не тащи сюда не разобравшись. Тут своей овариды хватает.

Аноним 02/05/26 Суб 14:08:20 #442 №1603331

>>1603323
Ну может излишне жестко высказался, но проблема имеет место быть. И большинство буквально триггерится с того что их кумира, который дай бог продолжит что-то делать а не исчезнет в забытье как сотни таких же, "оскорбили", хотя речь была в общем.
Не нужно разрабатывать инструменты для тренировки, хотябы над своей тренировкой подумать. Сейчас столько возможностей, от основ автоматизации обработки данных при подготовке, до самых банальнейших приемов при тренировке типа взять часть датасета немотрона и слегка разбавить тренировочный им (последнее изредка делают). Но увы, будучи в этой тусовке в курсе как печально там обстоят дела.
Насчет спонсорства - стараются лутать как могут, самые популярные выходят в плюс. Тут опять же, проблема выстроенной пирамиды, что энтузиасты, например типа того же Зерофаты, пойдет по стопам популярных, будет повторять их тупиковый путь. А когда захочет заглубиться и улучшить - получит непонимание и ноль донатов, которые бы очень пригодились на том этапе.
> буквально собрал всех тех немногих, кто готов за это платить, оставив остальных ни с чем
Вот, именно оно.
Сиюминутное удобство не является оправданием игнорирования и отрицания проблемы. Буквально Индия с ее мусорной проблемой.

Аноним 02/05/26 Суб 14:51:55 #443 №1603347

>>1603301
>Адекваты прежде чем судить скачают и попробуют сами.
Не у всех безлимитный трафик.

Аноним 02/05/26 Суб 14:53:28 #444 №1603348

Протестил qwen 3.5 9b, как и omnicode на opencode. Впечатление полная жижа, даже с rag не справилась с базовой задачкой. Попытался в qwen3 25 b reap ситуация лучше,но хватает на уровень легких задач (тип базовый astar алгоритм, но не более). На другое уже ноут не тянет(. Есть еще что можно потыкать в надежде хотя на что вменяемое или без шансов ? Железо 16 озу , 6 гб видюха

Аноним 02/05/26 Суб 14:53:56 #445 №1603349

>>1603347
> безлимитный трафик
Практически у всех в 2026 году.

Аноним 02/05/26 Суб 14:54:29 #446 №1603350

так поясни если знаешь устройство этой хуйни
например идет ли оперативка только под 8471 70 или как-то ещё можно её провести. для ссд я нашел 8523 51 100 0 т.е. по логике всё равно ввезут

Аноним 02/05/26 Суб 14:54:51 #447 №1603351

>>1603328
>>1603350

Аноним 02/05/26 Суб 14:58:37 #448 №1603355

>>1603350
Без проблем. Создавай тред на пораше, там мы это и обсудим, если ты не понимаешь как работают параллельный импорт. А срать в треде не нужно, не по этим темам он.

Аноним 02/05/26 Суб 15:06:58 #449 №1603361

изображение.png

>>1603349
Дом ру уже нет.

Аноним 02/05/26 Суб 15:09:42 #450 №1603363

>>1603348
>qwen 3.5 9b
>omnicode
>qwen3 25 b
Почему не qwen 3.6? Щас бы старье тестить на современных реалиях. Все производители обновили модели специально под агентное использование.
>16 озу , 6 гб видюха
С таким хламом на что-то реально полезное локальное можешь не рассчитывать. Только облака.

Аноним 02/05/26 Суб 15:13:28 #451 №1603368

>>1603355
>обсудим
>на пораше
в перерыве между постингом шлемов и свиней? спасибо, не надо

Аноним 02/05/26 Суб 15:14:29 #452 №1603369

изображение.png

>>1601824
>>1603243
Бля как же хуевый квант вечно вас коверкает наызвая двухерами раз через раз

Аноним 02/05/26 Суб 15:15:36 #453 №1603370

>>1603363
Ну я на ноуте тестил. Из облака тестил дипсик последний, но он не лучше qwen 3.5. Qwen 3.6 27b юзал, но из одного же разряда

Аноним 02/05/26 Суб 15:26:09 #454 №1603376

>>1603361
>Дом ру
Всегда бы парашной конторкой.

Аноним 02/05/26 Суб 15:26:24 #455 №1603378

>>1603369
О, нихуя, она сама себя узнала? ЕТО ОВЕР! ОНЕ МЫСЛЮД!

Аноним 02/05/26 Суб 15:27:44 #456 №1603381

1674883495777.png

1701364814805.png

Сука, да что с ними не так? Почему никто кроме квена 3,6 мое не понял что это сырно и в чём вообще рофл?

Аноним 02/05/26 Суб 15:29:54 #457 №1603383

>>1603381
А с чего должны? Я тоже не понимаю. Какой-то дико обскурный мем, или вообще что это и в чём смысол.

Аноним 02/05/26 Суб 15:31:14 #458 №1603384

>>1603361
Какойад
>>1603370
То что новый дипсик не лучше 9б квена - странно.
>>1603381
А чего ты ожидаешь, знаний аниме-фандома от ллм общего назначения?

Аноним 02/05/26 Суб 15:32:07 #459 №1603386

>>1603381
Да чтож они такие тупые! Квен вообще всё разложил по полочкам. Охуеть какие тупые стали модели. Кроме квена вообще умниц нет.

Аноним 02/05/26 Суб 15:36:13 #460 №1603389

>>1603386
>Кроме квена вообще умниц нет.
жирный-жирный как поезд пассажирный

Аноним 02/05/26 Суб 15:36:18 #461 №1603390

>>1603384
>знаний аниме-фандома от ллм общего назначения
Ну как бы... да? Квен же разложил эту картинку на атомы, правильно назвав персонажей и даже выкупив рофл. Почему все остальные даже 1(ОДНОГО) персонажа не могут назвать верно?

Аноним 02/05/26 Суб 15:39:36 #462 №1603393

>>1603390
Квен молодец, но больше повезло. Знания аниме персонажей у обычных сеток очень слабые, только самые популярные и в явных образах. Если тебе именно нужно использовать для датасетов - дай вводные, или используй предназначенные для этого.

Аноним 02/05/26 Суб 15:44:32 #463 №1603395

>>1603384
А что за проекты ты делал на нейронках и какой это формат был ? Система из агентов или совместная тема ?Касаемо deepseek я бы сравнил даже ближе как комбу qwen 3.5 9b + qwen 3 25b reap , у 9b размышления лучше, а 25 имеет базу лучше кодовую.

Аноним 02/05/26 Суб 15:44:56 #464 №1603396

>>1603393
>повезло
Что повезло? Что Гоку узнали по одним сапогам? Мда. Всем бы нейронкам такое "везение".

Аноним 02/05/26 Суб 15:47:49 #465 №1603398

>>1603369
Ахах, бля а ведь она квеночку пристыдила во втором пике ведь квен то именно в офисном костюме!! Не ну это АГИ, умничка прям знает и понимает с кем нужно конкурировать.

Аноним 02/05/26 Суб 15:58:40 #466 №1603402

>>1601740 (OP)
подсел на фап посредством генерации текстовых историй.
Развлекался локально на 16гб врама неделю, тупо фапал на текст и свою фантазию, давно я по несколько раз за день не дрочил.
Из моделей что пробовал, больше обдрочился с Cydonia 24b и Magnum diamond 24b.
Какие еще есть гемы среди моделей, которые влезут в 16гб врама?

Аноним 02/05/26 Суб 16:00:14 #467 №1603403

>>1603376
К сожалению приходится их терпеть. В моем доме только они дают гигабит. Все остальные не больше 100мбит.
Правда если ограничат закачку торрентов, то такие скорости будут и не нужны...

Аноним 02/05/26 Суб 16:00:53 #468 №1603405

>>1603402
Уточни язык и требования к мультимодальности

Аноним 02/05/26 Суб 16:02:33 #469 №1603407

>>1603402
вот эта, офигеешь
https://huggingface.co/mradermacher/silly-v0.2-i1-GGUF

Аноним 02/05/26 Суб 16:02:39 #470 №1603408

полный нуб в тебе llm
пытаюсь задействовать ddr4 и выжать максимум из сборки из двух 3060 12gb + 128gb ddr4(2667mt/s), i5-9600K

запускаю MoE Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive-Q5_K_M.gguf, максимально задействовав gpu:
#!/bin/bash

sudo /usr/bin/nvidia-smi -pm 1
sudo /usr/bin/nvidia-smi -i 0 -pl 130
sudo /usr/bin/nvidia-smi -i 1 -pl 130

export CUDA_VISIBLE_DEVICES=0,1

~/src/llama.cpp/build/bin/llama-server \
-m /mnt/llm/llama.cpp/models/Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive-Q5_K_M.gguf \
--host 0.0.0.0 --port 8080 \
-c 32768 \
-ngl 99 \
--flash-attn on \
--cache-type-k q4_0 \
--cache-type-v q4_0 \
--threads 6 \
--split-mode layer \
-ub 2048 -b 2048 \
--flash-attn on \
--chat-template-kwargs '{"enable_thinking":false}' \
--jinja \
-ts 1,1.5 \
-ot "blk.([4-9]|[1-3][0-9]|4[0-3]).ffn.*=CPU"

получаю 8.6 токенов в секунду на генерацию контента и 77.86 токенов в секунду на prompt eval time
gpu при этом загружены под завязку:
10271MiB / 12288MiB
11696MiB / 12288MiB

это мой предел для этого железа или попытаться ещё покрутить регулярку в -ot ?
пока не совсем понимаю как выбрать только экспертные слои для отправки на gpu

Аноним 02/05/26 Суб 16:04:01 #471 №1603410

>>1603405
язык английский, на мультимодальность похуй

Аноним 02/05/26 Суб 16:05:19 #472 №1603411

>>1603408
забыл добавить, модель весит 81G

Аноним 02/05/26 Суб 16:05:34 #473 №1603412

>>1603410
Хз, тогда квен 3,6 мое

Аноним 02/05/26 Суб 16:06:17 #474 №1603413

>>1603408
>или попытаться ещё покрутить регулярку в -ot ?
Это ж мое модель, --cpu-moe просто накати, обычно действие самое лучшее на них без регулярок

Аноним 02/05/26 Суб 16:07:39 #475 №1603414

Позапускал MiMo — с выгрузкой в оперативу ваще не идет, 7 токенов в секунду, хотя ожидается 10-12 (СтепФан 17-18, а минимакс 12-15).
Грустно, модель обещает быть топовой, но шо толку. =(

Зато люди с RTX Pro 6000 говорят от 70 на ггуф (сам АесСедай) до 120 на сгланге.

Рад за них. Жаль, что… =(

Аноним 02/05/26 Суб 16:09:28 #476 №1603415

>>1603413
с --cpu-moe получаю неполную загрузку gpu:
5384MiB / 12288MiB
5324MiB / 12288MiB

при этом prompt eval time падает с 77 до 49 токенов

Аноним 02/05/26 Суб 16:11:46 #477 №1603418

>>1603415
-fit off попробуй, он по дефолту включен

Аноним 02/05/26 Суб 16:15:02 #478 №1603419

>>1601740 (OP)
Отредактировал рентри:
https://rentry.org/2ch-llama-inference
или
https://rentry.co/2ch-llama-inference

Принял во внимание весь фидбек, который получил в прошлый раз. Провел редактуру: пофиксил опечатки, постарался сократить текст; провел фактчекинг и принял во внимание нюансы по объяснению шаблонов, архитектуры МоЕ и других вещей; добавил несколько нюансов вроде размеров батча и протекания в оперативу на Винде; в сэмплерах сделал акцент на том, что новичкам лучше использовать рекомендованные и все такое.

Обозначу два важных момента. Первый - я не знаю, что делать с тем, что это очень объемный текст, который может отпугнуть. Потому я добавил отдельную главу-быстрый старт для тех, кто хочет здесь и сейчас запустить хорошую модель для своего железа, на примере Геммы. Собрал фидбек со знакомых, которые вообще в теме не шарят, и все сказали, что прочитали от и до и разобрались в пределах 40 минут. (Полная версия, не быстрый старт), о чем я прямо упомянул в тексте.

Второй момент - немало фидбека было на тему того, что хорошо бы дать более глубокое объяснение сэмплингу, рассказать про самостоятельный подбор сэмплеров для креативных задач, про пережар модели, отдельную главу про промптинг и прочее. Но это не руководство "все и сразу", здесь именно про запуск и самые базовые вещи. Про промптинг я главу добавил, но углубляться не стал. Пока не знаю, что с этим делать. По-хорошему, для креативных задач/рп/Таверны нужен отдельный рентри, за который я не уверен, что хочу и что есть смысл браться.

В итоге, я думаю, вышло в целом неплохо. Нетерпеливый новичок сможет быстро запустить модель и поиграться, а если появятся вопросы - вернуться. Если ему не хватит усидчивости прочитать и изучить все изложенное - сорян, проще как будто уже и некуда. Действительно, можно таким макаром у корпов спросить или на практике по ходу дела разбираться.

Такие дела, жду ваш фидбек снова.

Аноним 02/05/26 Суб 16:18:08 #479 №1603421

>>1603419
> так что нужно запомнить - во всех случаях нужно использовать instruct модели.
Честно говорят хуета. Качал base модели - на карточках тоже часто работают и дают дикую креативность. В реддите про это знают и видел тоже их время от времени рекомендуют. Instruct просто самые френдли для новичков.

Аноним 02/05/26 Суб 16:22:59 #480 №1603423

>>1603421
> на карточках тоже часто работают и дают дикую креативность
Не про креативность и ролеплей это руководство, оно для вката и тех, кто никогда дел не имел с локальными моделями (или моделями вообще). Если рассказать про это, это может ввести новичка в замешательство. Базовые модели - это пердолинг даже для тех, кто знает как с ними работать.

Аноним 02/05/26 Суб 16:32:04 #481 №1603429

>>1603419
Как компилировать llama.cpp под свою архитектуру gpu в винде не расписал. Это очень быстро и выходят маленькие файлы, годные лично для тебя. К тому же полезно для всяких форков, где релизы под куду или cpu вообще не выкладываются.

Аноним 02/05/26 Суб 16:32:56 #482 №1603432

А как и стоит ли вообще обновлять куду, если у меня 50 серия? Я открываю лламу-цпп и вижу:
>compute capability 12.0
Хотя я скачивал именно 13.1 версию и у меня именно блэквелл. Драйвер нвидии 596.36.

Аноним 02/05/26 Суб 16:33:24 #483 №1603433

>>1603429
>Как компилировать llama.cpp под свою архитектуру gpu в винде не расписал
Орнул. Самое оно в гайде для хлебушков

Аноним 02/05/26 Суб 16:38:49 #484 №1603438

>>1603403
>гигабит
Зачем и главное нахуя... сижу у Ростелекома на сотке и горя не знаю.

Аноним 02/05/26 Суб 16:41:57 #485 №1603439

image

>>1603419
Что за игнор Kobold Lite - https://lite.koboldai.net/ во фронтенде
Между тем это самый простой способ сделать доступными все карточки, подключением в одну кнопку. В родном фронте llama.cpp карточек и озвучки нет, всяких ролеплейных режимов, ввода голосом тоже.

Аноним 02/05/26 Суб 16:43:03 #486 №1603441

>>1603432
Сорян, я сам затупил, всё стоит как надо. Иначе бы сыпало ошибками.

Аноним 02/05/26 Суб 16:49:42 #487 №1603446

>>1603439
По моему скромному мнению озвучка и уж тем более ролеплей голосом - это кринж, а для текстовых задач лучше подойдет Таверна, которая заслуживает отдельного рентри, видимо. Хотя я не понимаю, откуда там все сложности. Видимо в целом от непонимания, откуда брать сэмплеры, какую разметку ставить.

Аноним 02/05/26 Суб 16:52:59 #488 №1603447

1739129240962.jpeg

>>1603419
А хорошо.
Серьезных косяков вроде нет, можно по мелочам докопаться:
> Для видеокарт Nvidia RTX 40xx и старее - архивы Windows x64 (CUDA 12) и CUDA 12.4 DLLs.
Говорят что от ампера и моложе лучше 13ю
> Лучше прочитать все сразу и с самого начала
Предложи читателю поставить модель на скачивание и вернуться к чтению. Обладатели небыстрого интернета будут благодарны.
> Она генерирует наиболее вероятный ответ в соответствии с этими взаимосвязями
Она генерирует распределение вероятностей новых токенов, из которого выбирается один из наиболее вероятных ответов.
В примере инстракт шаблона неплохо бы бахнуть картинку типа пикрел, а потом уже тот текст в виде расшифровки применения формата, это сильно поможет пониманию.
Там где про распределения логитсов - лучше заменить картинками, попроси любую нейронку сделать графики. И ссылку на плейграунд типа https://louis-7.github.io/llm-sampling-visualizer/ или более продвинутые.
> Пришло время установить llamacpp.
Дублирует из начала статьи, так и задумано?
> На домашнем железе, даже продвинутом (скажем, RTX 5090 и 256гб оперативной памяти) мы практически никогда не имеем возможности
Ну вообще на таком железе запускается около 100б в бф16, нативные 8бит влезут даже в 128. Имеет смысл перефразировать.

Остальное пренебрежимо чтобы писать. С примера промпта пирата орнул, годно.