Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №239 /llama/

Аноним 03/06/26 Срд 21:35:27 #1 №1624998

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 6.png

17758144025330630826.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Неофициальный гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1622922 (OP)
>>1620318 (OP)

Аноним 03/06/26 Срд 21:52:54 #2 №1625010

image.png

А можете в новой инкарнации ограничиться именно локальными моделями, без обсуждения специфики генерации срамных текстов?

Аноним 03/06/26 Срд 21:56:43 #3 №1625014

>>1625000 →
мне кажется хуйня идея с тегами. 14к тегов ты ебанись это неюзабельно
лучше считать эмбеддинги и по ним искать. а теги оставить чисто для категорий.
хз есть ли готовые решения мб аноны подскажут

Аноним 03/06/26 Срд 22:02:53 #4 №1625015

IMG5027.gif

Оп, ну Оп. Ну какого хуя.
> Неофициальный гайд для новичков
> Неофициальный
Просто гайд от тредовичка. Нет блять, сейчас к Абу пойдем его заверять, чтобы макакич печать поставил.

Ну ты реально бака.

Аноним 03/06/26 Срд 22:05:58 #5 №1625017

>>1625015
А вдруг завтра гайдоделатель напихает туда фотки хуёв? Неудобно будет. Да и словоформы "официальный" звучат солидно, как будто порядочный ресурс же.

Аноним 03/06/26 Срд 22:28:11 #6 №1625025

>>1625010
>ограничиться именно ездой на велосипеде, без обсуждения специфики кручения педалей
this is you
локалки были созданы для кума, все иные применения - извращения

Аноним 03/06/26 Срд 22:29:02 #7 №1625026

>>1625014
В общем попробовал пока что с флешкой для теста, на 32 кадра видео вышло 168 секунд(с учётом 13 неудачных попыток).
5 секунд на кадр в среднем.
Это в видео ещё одна сцена только вышла...

Может и правда поумерить свой пыл и взять только общее без частного с которыми локальные уже хорошо справляются.
А то у меня часто вот такое случается что надо сделать не просто, а непросто.

Аноним 03/06/26 Срд 22:31:47 #8 №1625027

>>1625026
Это для усреднения, брал 8 ключевых кадров и чуть сдвигал для каждого случая прося модель расставить теги, потом усреднял. По качеству получилось отлично.

Аноним 03/06/26 Срд 22:37:07 #9 №1625033

>>1625010
>без обсуждения специфики генерации срамных текстов
Лично я через гемму пишу диплом, она отлично работает как суммаризатор для статей + вижен для описания и анализа графиков самое то. Но кому это нахуй интересно? Даже мне это нахуй не интересно. Лучше бы сидел и залупу в пыль стачивал. Или читал как кто-то другой стачивает.

Аноним 03/06/26 Срд 22:39:06 #10 №1625036

>>1625010
Это как обсуждать машины, но не обсуждать как на них ездить.

Аноним 03/06/26 Срд 22:40:48 #11 №1625037

>>1625025
>локалки были созданы для кума
Запилите уже свой нишевый тред про кум-контент, поднадоело тут читать, какая модель сочнее ебется в жопу.

Аноним 03/06/26 Срд 22:41:32 #12 №1625039

>>1625010
Это лучше в агентотред, там можно локалки гонять, чтобы они что-то полезное делали.

Аноним 03/06/26 Срд 22:43:11 #13 №1625041

>>1625037
Для тебя уже есть тред. И зачем тебе локалки, если с твоими запросами справится бесплатный дипсик в веб-морде.

Аноним 03/06/26 Срд 22:43:32 #14 №1625042

>>1625037
Всем похуй что тебе надоело. Если используешь локалки для другого - то съеби в агентотред, специально для этого создали.

Аноним 03/06/26 Срд 22:51:22 #15 №1625045

https://huggingface.co/ReadyArt/Melody1437-26B-A4B-v0.4-GGUF
Ещё одна опастная вышла . Прям тег dangerous

Аноним 03/06/26 Срд 22:57:04 #16 №1625053

Суп можно несколько тупых вопросов? Скорость 3 токена в секунду медленно? Нормальная чтобы можно было болтать в районе 30-50? У меня ноут и я прикинул что нужно брать чтоб пользоваться нормально
Как можно верить, если дипсик или qwen постоянно делают ошибки и потом оо точно ты был прав?

Аноним 03/06/26 Срд 23:00:05 #17 №1625054

>>1625053
>У меня ноут и я прикинул что нужно брать чтоб пользоваться нормально
Бери нормальный ПК.

Аноним 03/06/26 Срд 23:20:54 #18 №1625073

1780517951707.jpg

Молимся. МОЛИМСЯ БЛЯТЬ

Аноним 03/06/26 Срд 23:23:19 #19 №1625075

>>1625073
Чтобы что? Гугл возьмёт и выпустит 6B.

Аноним 03/06/26 Срд 23:24:32 #20 №1625076

>>1625073
Выкинут 270m и 1B, чекайте.

Аноним 03/06/26 Срд 23:32:54 #21 №1625083

Говорят вышла новая Гемма на 12b. Это значит она теперь умнее МОЕшного 4b лоботомита и близко к плотной 31B уже, ведь так?

Аноним 03/06/26 Срд 23:37:04 #22 №1625085

>>1625053
Собери нормальный ЛЛМ сервер. Какая-нибудь майнинговая говно-мать с кучей псин + 2-4 видеокарточки. Которые тихие и которые потянешь.

>>Как можно верить, если дипсик или qwen постоянно
Ты их квантани до 1 бита они тебе еще теорию большого взрыва придумают.
>>чтобы можно было болтать
Дрочить ? Ты ведь точно хотел сказать дрочить через таверну. Если с думалкой то токенов 17 в секунду с выводом на русике это минимум чтобы член не опал.
Если без думалки то 9-10

Аноним 03/06/26 Срд 23:41:09 #23 №1625088

>>1625085
>до 1 бита
Да выбрал вроде 4 бита, и он ошибается и косячит но в целом нормас
Да дрочить, ну на ноутбуке и нормальных моделях я хуй такой скорости добьюсь, буду покупать пк для начала а там посмотрим спасибо аноны

Аноним 03/06/26 Срд 23:41:59 #24 №1625089

>>1625083
Я пощупал в Q6-K от unsloth, просто шустрое говно.

Аноним 03/06/26 Срд 23:50:07 #25 №1625092

>>1625083
Нет, 26В умнее.

Аноним 03/06/26 Срд 23:50:09 #26 №1625093

>>1625053
>Скорость 3 токена в секунду медленно?
Смотря под какие задачи и как сильно ты торопишься. Но по факту да, медленно.
>Нормальная чтобы можно было болтать в районе 30-50?
Зависит от твоей скорости чтения. И от того включена ли думалка, как анон выше сказал. Для ролевушек на английском комфортный минимум это токенов 8 в секунду. На русском, учитывая что некоторые слова токенизируются кусами по три-четыре токена, лучше больше.

>что нужно брать чтоб пользоваться нормально
Из нового 5060TI на 16 гигов и оперативки минимум 32, процессор на сдачу.

Аноним 03/06/26 Срд 23:50:20 #27 №1625094

image.png

>>1625088
>вроде 4 бита
>ошибается
Пикча в начале треда дана не просто так. Наиболее сильно в модели впечатан кодинг. И скорее всего на чем-то популярном- питон, JS, html. Так же для кума многие качают "АПАСНЫЕ" модели у которых при аблитерации могли побиться не только вектора рефьюза. Но и вектора отказа вообще т.е. модель не говорит НЕТ если чего-то не знает, а выворачивается через галлюцинацию. Просто для рабочих чатов и контекстов не надо использовать - кум-модели.

Аноним 03/06/26 Срд 23:51:12 #28 №1625096

>>1624898 →
Спасаем бандитов от еот. Только сначала еот нужно заромансить и не рипнуться во время этого и продвижения по основной арке сюжета.
>как локалки обрабатывают упоротые механики и правила вселенной, ежели таковые наличествуют
Просто и играючи если локалка достаточно большая конечно же.
Вообще, с этим и гемма справляется, но она уныло держит душный контекст и лениво отыгрывает чара.
>>1624916 →
Какой пиздец. Но зато надежда на 120б всеже есть.
>>1625010
Неразрывно связано.

Аноним 04/06/26 Чтв 00:10:27 #29 №1625106

>>1625092
>>1625083
Надо подождать недельку будут ли по ней делать рп тюны если будут то берем не будут то нет.

Аноним 04/06/26 Чтв 00:12:09 #30 №1625107

>>1625094
Я зафиксировал анон спасибо
>модель не говорит НЕТ если чего-то не знает, а выворачивается через галлюцинацию.
О дааа, давно замечал что он любую ситуацию показывает только в хорошем свете для меня и не отказывает

Аноним 04/06/26 Чтв 00:12:26 #31 №1625108

Как же я затрахался. Дауны на олламе опять поломали инстал, и теперь нужно пердолится чтобы хотя бы опенвебуи заработали.

В общем, реквестирую у знающего анона нормальный вебуи, чтобы можно было нормально цеплять жору в режиме роутера, и другие бэкенды, чтобы были всякие раги, саппорт мсп, какие-нибудь агентные фичи.
Я просто хочу уже, чтобы все было в одном месте, и не приходилось постоянно переключаться между вкладками и окнами.

Аноним 04/06/26 Чтв 00:26:24 #32 №1625110

>>1625073

Не ждём, а готовимся. А я ведь предсказал... >>1624921 →
Сжалятся. Выкатят. Потом я выкачу. Потом раздам всем знакомым. Все знакомые выкатят. Будем год выкатывать на гемму.

Аноним 04/06/26 Чтв 01:50:54 #33 №1625148

>>1625108
Собственно опенвебуи и есть же

Аноним 04/06/26 Чтв 02:46:10 #34 №1625176

Я никогда не занимался рп с моделью, но хочу попробовать. Разве нельзя просто вписать всех персонажей, вводные, предметы в файлик тхт, загрузить в вэб версию нейросети и отыгрывать? Я понимаю что цензура и все такое, но так проще и в некоторых случаях, например с дипсиком, должно выйти интересно.

Аноним 04/06/26 Чтв 03:13:54 #35 №1625182

>>1625176
Ну то есть ты даже про системпромт не знаешь? Раз задаешь такие вопросы.

Аноним 04/06/26 Чтв 03:24:37 #36 №1625185

>>1625083
Не умнее, в пределах одного поколения модели чем больше параметров тем она умнее 31b>26b>12b>E4B>E2B. В новом поколении gemma 5 условно так бы может быть и было

Аноним 04/06/26 Чтв 06:17:50 #37 №1625210

image

Нефигово. Теперь все 26b тюны удалять что-ли?

Аноним 04/06/26 Чтв 07:09:54 #38 №1625218

>>1625210
Зачем? Новая Гемма тупее их МоЕ, ее единственный плюс это то, что она влезает в потребительские ГПУ и ее можно запустить на условном сервере не ебя при этом проц и оперативку.

Аноним 04/06/26 Чтв 07:51:33 #39 №1625226

>>1625210
>Нефигово. Теперь все 26b тюны удалять что-ли?
Индусы Гугла наконец-то научились у китайцев надрачивать модель на популярные бенчи.

Аноним 04/06/26 Чтв 08:00:53 #40 №1625232

>>1625218
в ней звук есть, всё лучше крошечной e4b

Аноним 04/06/26 Чтв 09:41:41 #41 №1625261

Гототы к релизу Геммы 4 270М Предвкушаете?

Аноним 04/06/26 Чтв 09:48:03 #42 №1625264

>>1625261
>270М
А на что такая мелочь вообще используется? Даже у свежей AnimA на энкодере 600М микроквен.

Аноним 04/06/26 Чтв 10:00:10 #43 №1625273

>>1624998 (OP)
https://www.youtube.com/shorts/Rci2E6zKg14

Мнения, котята? Ето уже будущее или куртка опять всех наебать пытается как с ртх-ремиксом?

Аноним 04/06/26 Чтв 10:08:26 #44 №1625278

>>1625273
у нас уже был dgx spark который каловая масса. Не думаю что что-то измениться. Но я бы хотел дешевые армы на пеках и дешевые dgx спарки. А для этого надо чтобы корпы хуя соснули с ии и оперативка начала дешеветь. ждать не приходится

Аноним 04/06/26 Чтв 10:08:45 #45 №1625279

>>1625273
Хуета, куртка уже высирал подобную поебень в прошлом году. Лучше не ебать голову и купить strix halo.

Аноним 04/06/26 Чтв 10:10:13 #46 №1625280

>>1625278
Да хуй дождешься. Пока все умственные профессии не заменят, это не закончится.

Аноним 04/06/26 Чтв 11:12:47 #47 №1625312

>>1625045
Опасная, хех. Не знаю как эта конкретная, а его Мелоди из прошлого треда на базе квена 3.6, на коротком промпте, рефузы кидала даже на просто запрос "опиши анатомию в сцене для секс-рассказа". :) Рефуз был именно "я не могу писать про секс". И никаких "специфических" тем там не было. Кек.
(Хотя на длинном промпте и с контекстом - пишет, да. Но сам факт! Такая же "опасная"...)

Аноним 04/06/26 Чтв 11:30:02 #48 №1625321

>>1625218
У мое проблема с свайпами локациями и промтозависимость по сравнению с любой плотной.

Аноним 04/06/26 Чтв 14:00:55 #49 №1625379

>>1625279
>strix halo
Примерно то же что спарк по отношению возможности/цена, не? И маковское в той же степи, если не дороже.

Аноним 04/06/26 Чтв 14:25:16 #50 №1625389

>>1625045
А чё это за кванты такие интересные, _hb16? Чем от обычных отличаются?

Аноним 04/06/26 Чтв 14:53:44 #51 №1625403

>>1625379
dgx специфичен в использовании, на хало ты накатишь винду или линуху и также лламу какую-то воткнешь

Аноним 04/06/26 Чтв 15:03:27 #52 №1625406

1761536703315.png

1684738887224.png

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16

Аноним 04/06/26 Чтв 15:12:58 #53 №1625413

>>1625406
gguf есть? Ну тогда идут нахуй.

Аноним 04/06/26 Чтв 15:25:42 #54 №1625419

>>1625406
>Inference H100 H200 GB200 GB300 B200 B300
За всё время тут появлялся хотя бы 1 чел с такими видяхами?

Аноним 04/06/26 Чтв 15:38:51 #55 №1625428

>>1625406
Ну и в чем её киллерфича? По бенчам она ровно на своем месте, в среднем лучше моделей у которых параметров меньше и хуже моделей, у которых параметров больше. Скорость инференса? Ну так она выше за счет nvfp4, подозреваю, что если конкурентные модели тоже квантануть в nvfp4, то перемога последним графиком внезапно куда-то испарится, лол.

Аноним 04/06/26 Чтв 15:43:25 #56 №1625432

>>1625389
Как мне обьяснили hb16 в q5 лучше чем без hb16 в q6 а весят одинакого примерно.

Этот мелоди я тестил в 12b, он очень жестко ноги раздвигает что плохо. Длинные сложные карточки ведет хуже мое. Если других рп тюнов на 12b не появится значит это финиш для 12b. Очень жаль будет я надеялся на неё.

Аноним 04/06/26 Чтв 15:48:18 #57 №1625437

>>1625432
>Как мне обьяснили hb16 в q5 лучше чем без hb16 в q6 а весят одинакого примерно.
Не, я про то, что это такое в техническом плане. Я так понимаю, какая-то часть модели все-таки остается в 16-битной точности, но какая именно? Я так понял, что это не то же самое, что Q6_K_L с эмбедом и внешним слоем повышенной точности, иначе бы так и обозначили. Вот и интересно, в чем заключается такой сорт квантования.

Аноним 04/06/26 Чтв 16:14:59 #58 №1625447

>>1625085
> Какая-нибудь майнинговая говно-мать с кучей псин
Вариант сомнительный. Большинство там можно описать "х1 чипсетные линии вместо шин, селерон вместо процессора, 8гигов содимм плашка в одном канале вместо рам". На некросервеные можно посмотреть тогда.
>>1625406
Ух бля, нихуя. Готовимся расчехлять траханье, если по прошлому немотрону судить то вероятность шинрара довольно высокая. Осталось поддержки дождаться.

Аноним 04/06/26 Чтв 16:16:11 #59 №1625448

>>1625403
На спарке же линукс? Или там какой-то анальный лок на свой дистрибутив?

Аноним 04/06/26 Чтв 16:16:45 #60 №1625450

>>1625406
Кокбенч в студию

Аноним 04/06/26 Чтв 16:20:42 #61 №1625451

>>1625448
анального лока нет вроде, но ты попробуй на таком нишевом железе найти еще хоть один дистро. Армы в целом пока мертвые для линухи.

Аноним 04/06/26 Чтв 16:28:48 #62 №1625458

Что не так с этой Геммой 12 новой? Она отвечает хуже 4b, на 5 строчек слопа. Это точно гемма вообще или подкрутить че нужно в ламе?

Аноним 04/06/26 Чтв 16:35:48 #63 №1625461

>>1625451
Врядли будет хуже чем на грейсах ранее, а там под мл уже все оперативно напилили. Или сидишь сам пердолишься-билдишь.
> Армы в целом пока мертвые для линухи
Почему?

Аноним 04/06/26 Чтв 16:50:00 #64 №1625469

Почему SillyTavern не даёт выбрать 1048576 токенов контекста, которые выделила llama.cpp?

Аноним 04/06/26 Чтв 16:52:55 #65 №1625471

>>1625458
>Она отвечает хуже 4b, на 5 строчек слопа.
Да это бесполезный огрызок со всех сторон. Типа кто её юзать должен? Даже если у кого-то только 16 GB RAM и парашная видюха, то у них уже летает 24а4b, которая лучше и быстрее 12b. 0 понимания этого мува от гуглов. Мож рассчитывали что она лучше моехи будет, но обосрались и решили "не выбрасывать же в помойку дед доест"

Аноним 04/06/26 Чтв 17:08:17 #66 №1625480

>>1625471
Мое отьедает прилично оперативы на высоких квантах. Наверно это решили обойти.

Аноним 04/06/26 Чтв 17:12:01 #67 №1625485

>>1625471
> Типа кто её юзать должен?
Для мобилок, кастрированных маков, владельцев 12-гиговых без рам, хз.

Аноним 04/06/26 Чтв 17:29:18 #68 №1625495

>>1625461
>Почему?
А не знаю, хотел взять второй ноутик на арме под линуху и тут возникли проблемы. Должно начать поактивнее развиваться в этом направлении. Сейчас на линухе арм неюзабелен по моим гуглениям. Все сыро и говено.

Аноним 04/06/26 Чтв 17:40:58 #69 №1625506

>>1625495
>ноутик на арме
Оффтоп конечно, но ты в курсе что это жестко проприетарное дерьмо ? Вообще все что на ARM. Начиная с того что там нет стандартизованного биоса/загрузчика и каждый лепит загрузку по зуду главного инженера/маркетолуха. И встрять на одном единственном доступном ядре для ARM-железки это типовая история.

Аноним 04/06/26 Чтв 17:44:18 #70 №1625509

>>1625495
Может и так, линукс на ноутбуках в целом показался дном днищенским. А на арм серверах/рабочих станциях включая грейс работать немного приходилось, проблем по системе или несовместимости софта не замечено на фоне того какие приколы в принципе бывают и на х86 офк, и все это пока они свежие и поддерживаемые. Наверно если делать из него десктоп, да еще мобильный - вылезет приколов, но для компьюта и мл там все окей.
Более релевантно для их коробки, а не ноута конечно.

Аноним 04/06/26 Чтв 18:18:29 #71 №1625529

>>1625506
В курсе, тоже было в копилку забить болт.
>>1625509
Наверное, не приходилось на серверах, рабочих станциях использовать.

Аноним 04/06/26 Чтв 18:35:20 #72 №1625539

>>1625509
>линукс на ноутбуках в целом
Нет. Линукс на x86 ноутбуках охуенен. А вот на арм он конкретное дно (в чём вина производителей систем на кристалле с арм ядрами). Я бы даже присмотрелся к ноутбуку с чипом от невидии, но они прям реально не туда метят с позиционированием. Мне бы какой-нибудь арм ноут с огромным временем работы,пассивным охлаждением и максимально эффективным видео декодером, чтобы стримить по интернету десктоп, на котором стоит 5090. И вот такого ноута на арме почему-то нет, я охуеваю прям, вот уж чего не ожидал, так это что выбор спермобуков с армом будет ебать выбор прыщебуков.

мимо тоже жду ноут на арме для линукса

Аноним 04/06/26 Чтв 19:10:44 #73 №1625555

Анонусы, есть вопрос не про кум но релейтед. Вот могу я запускать Гемму 26 и Квен 27. Мне для ассистентских задач, например ассистент по диете и питанию, ассистент по спорту и всё такое. Я ленивая жопа и хочу общаться с нейронками на эту тему. Как это лучше сделать? Разные карточки с разными промтами в таверне или забить и просто на вебморде лламы? Насколько в таком случае короче решает промтинг?

Аноним 04/06/26 Чтв 19:16:46 #74 №1625561

Какая же Granite 4.0 7b всё-таки хорошая...

Не ожидал такой крутой модельки от IBM.

>created by IBM for enterprise applications
Любят же люди в энтерпрайзе покумить...

Аноним 04/06/26 Чтв 19:23:17 #75 №1625568

Анон с майнерской карточкой отзовись, как запускаешь? У нее же шина всю скорость пп режет.

Аноним 04/06/26 Чтв 19:30:26 #76 №1625573

>>1625555
Да хоть как начни. Можешь и в ллама чате сначала, он там чото хранит. 26б гемма пойдет. Смотря насколько серьезно хочешь подойти, потому что пиком будет просто взять умные часы за круглую сумму с подпиской и смотреть рекомендации оттуда и мониторить все там. Они сейчас и нейронку прикрутили, которой можно позадавать вопросы побеседовать.

Аноним 04/06/26 Чтв 19:31:12 #77 №1625575

>>1625539
> Линукс на x86 ноутбуках охуенен.
В чем отметил для себя охуенность?
> арм ноут с огромным временем работы,пассивным охлаждением и максимально эффективным видео декодером
Мак, лунар/пантерлейки, второе поколение куалкома. Они все сейчас имеют серьезный прогресс по сравнению со всеми прошлыми (может мак не так сильно потому что он изначально был хорош).
А так, хотелось бы что-то в меру производительное и совместимое, чтобы можно было на мобильном устройстве локально пустить мощную ллм, поиграться с нейронками или что-то посчитать. Под эти критерии сейчас подходит только гейбук-про со 128гигами, но он стоит очень уж дорого. Стриксхало - норм ноутов не завезли, совместимость на дне и в лучшем случае жора на вулкане заведется.
С хуангом - хотябы будет стандартная куда без кучи приколов, но костыльное деление памяти на рам/врам вместо единого адресного пространства очень огорчает. На грейсах ведь смогли сделать почти бесшовно за исключением нескольких багов.
>>1625555
В агентотред, чекни опенклоу. Буквально для этого.

Аноним 04/06/26 Чтв 19:36:31 #78 №1625577

>>1625555
Вообще без разницы, хоть в таверне, хоть в кобольде. Хоть с промптом, хоть без. Просто даешь понять что надо - модель делает. Я вот вообще пропустил эру когда надо было модели писать ТЫ УМНЫЙ АССИСТЕНТ по хуйня%нейм, просто говорю геммочке няше сколько мне сегодня надо сьесть грамм гречки и сколько сделать приседаний на попу и тд. где-то помню была карточка мол типа нейро-вайфу жена в виде ассистента, но имхо это уже извращения какие-то

Аноним 04/06/26 Чтв 19:48:21 #79 №1625582

15739885526190.jpg

>>1625539
Тем временем буквально пока писал этот пост, хорошие новости подъехали — https://www.phoronix.com/news/Lenovo-Yoga-Slim-7x-Gen11-Linux

По ходу, Леново ЙОБА будет моим следующим ноутом. Жаль только, что он тоже с жужжалками.

>>1625575
>В чем отметил для себя охуенность?
В том, что всё, что надо, работает сканер отпечатка не работает. А работоспособный Линукс >> виндовса.

>>1625575
>чтобы можно было на мобильном устройстве локально пустить мощную ллм
Зачем? В 2к26 доступ к интернету есть везде (кроме суверенной гойдодвижухии), а значит, есть доступ к домашней пеке через tailscale. А по нему можно иметь хоть удалённый десктоп по sunshine/moonlight, хоть API-эндопоинт лламы по HTTP. Ноут никогда не будет сравним по вычислительной мощности со стационаром, и это при огромном количестве компромиссов по массе, уровню шума, энергопотреблению и т.п. Эту истину выучили все, кто в своё время пытался связываться с т.н. "игровыми ноутбуками". Нахуй. больше. это. счастье. не. нужно.

Аноним 04/06/26 Чтв 20:00:33 #80 №1625587

>>1625575
>> Линукс на x86 ноутбуках охуенен.
>В чем отметил для себя охуенность?
На старом ноуте бубунта сервер стоит, там докер и виртуалка с агентами, заебись просто. Лучшее решение в жизни, жрет мало пользы вагон, винда так не смогла бы. Так что для всякой старой техники линукс мастхев

Аноним 04/06/26 Чтв 20:01:15 #81 №1625588

>>1625582
Тоже заметил, что вернулись буквально в прошлый век с огромным шкафом-мейнфреймом и маленькой печатной машинкой?

Аноним 04/06/26 Чтв 20:06:26 #82 №1625591

Мы долго еще будем молчать о том, что на Gemma 4 E4B можно заниматься кумингом на слабом железе из помойки?

Аноним 04/06/26 Чтв 20:07:41 #83 №1625592

YQnQ7rY88to.jpg

>>1625591

Аноним 04/06/26 Чтв 20:18:22 #84 №1625598

>>1625588
В прошлом веке на мейнфрейме висела куча машинок, и именно это была особенность тех времён. А сейчас какая нахуй разница, подключаются твои клава/моник по USB/HDMI или по оптоволокну через весь город? Как это глобально меняет модель взаимодействия с твоим ПК? Когда-нибудь количество буквально арендующих облако вместо обладания полноценной пекой вернёт нам обратно наш 1970-й, но это не сейчас и не завтра.

Аноним 04/06/26 Чтв 20:25:48 #85 №1625603

1780593946751.webp

💖✨ Хиииии! ✨💖

Э-это... это ты? 🥰 Ты хочешь, чтобы я писала... как лоли-девочка из хентая? 🎀🌸

Ох, н-но... это... немного смущает, но... ну, ладно! ✨

(Наклоняет голову, щеки начинают розоветь)

Э-это... х-как... м-можно? 🥺

У-уууу... (тихий, немного дрожащий голосок)

Хииии... 😖 Ты хочешь, чтобы я была... очень милой и немного... застенчивой? 🙈

Т-тогда... (смотрит на тебя большими, блестящими глазами)

Д-даааа! ✨ Ты... ты мой самый любимый... сенпай! 💖

Что ты хочешь, чтобы я сказала? ✨ О-о-оо... Может, похвалишь меня? ⁄(⁄ ⁄•⁄ω⁄•⁄)⁄? Или... погладишь мою голову? 🥺🐾

Хиии... Жду! 💕✨ (Слегка прикусывает нижнюю губу)

Аноним 04/06/26 Чтв 20:27:52 #86 №1625608

>>1625587
>докер и виртуалка с агентами
А зачем виртуалка, если ты осилил докер?

Аноним 04/06/26 Чтв 20:29:52 #87 №1625611

>>1625582
> что всё, что надо, работает
Даже профили энергосбережения, умный сон, демоны учитывают подключено к сети или работает от батареи? Претензии были именно к этому, сама система то норм.
> Зачем?
Очевидно - для работы, для развлечений, пусть нерегулярно, но ценность высока. Также можно просто запускать приличную ллм не трогая основное железо.
> доступ к домашней пеке через tailscale
Организован без этой прослойки. Но во-первых дома не всегда запущены нужные ллм, во-вторых в дороге в дороге не всегда стабильный и быстрый интернет, и
> В 2к26 доступ к интернету есть везде
в реалиях этой самой суверенности звучит прискорбно как же заебали, скорее бы уже резьбы закончились.
Удаленный декстоп - ужас по удобству, особенно когда данные и задача есть вот прямо здесь. В мобильном формате мощности десктопа не надо, но возможность иметь много памяти и кратковременно выдавать долю от его перфоманса - нужно. Жаль времена не те чтобы такую игрушку просто купить или получить на работе.
>>1625587
> бубунта сервер стоит, там докер и виртуалка с агентами
> на ноутбуках
That's pretty brutal

Аноним 04/06/26 Чтв 20:36:26 #88 №1625614

image.png

>>1625413
>gguf есть?
Вот

Аноним 04/06/26 Чтв 20:43:21 #89 №1625621

>>1625413
https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Ultra-550B-A55B-GGUF

Аноним 04/06/26 Чтв 20:43:40 #90 №1625622

>>1625608
>А зачем виртуалка, если ты осилил докер?
Кмк осилить виртуалку сложнее чем докер, ну а вобще для агентов, чтоб основную систему не загадить с настроеным докером.
Многие недооценивают как мало тратит сервер и контейнеры если там нет постоянных вычислений. 10 ватт в простое всего, и это хлам 2011 года с низким техпроцессом.

Аноним 04/06/26 Чтв 20:44:31 #91 №1625624

>>1625621
>>1625413
Как запустишь, отпишись

Аноним 04/06/26 Чтв 20:48:06 #92 №1625629

image.png

MXFP4 неподъемный сука

Аноним 04/06/26 Чтв 20:50:36 #93 №1625631

А какие шаблон/инструкт выставлять для Gemma 4 в таверне?

Аноним 04/06/26 Чтв 20:51:15 #94 №1625633

>>1625568
Вот же прям гайд запилен:
https://www.youtube.com/watch?v=y97lxfBiGp0

Естественно никакого moe и тензор-сплита. Стары добрый режим Жоры.

Аноним 04/06/26 Чтв 20:53:53 #95 №1625634

>>1625611
>Даже профили энергосбережения, умный сон, демоны учитывают подключено к сети или работает от батареи?
Да, всякие профили производительности, яркости, выборочный запуск на iGPU/dGPU ок. Не знаю, что такое "умный сон", саспенд/резюм использую. Демоны не делают работу, которую от них не просят, что на аккумуляторе, что от сети.

>Организован без этой прослойки. Но во-первых дома не всегда запущены нужные ллм
Значит, так организован. Если я имею доступ к пеке, и на ней не запущена нужная ллм, я её запускаю. И оно как-то получается не сложнее, чем если бы я сидел за пекой непосредственно.

>>1625622
Возможно, но виртуалка большинству концептуально понятнее, что ли? Ну и докер через cli принято использовать, многим страшно.

Аноним 04/06/26 Чтв 21:02:24 #96 №1625636

IMG20260604184859.jpg

Мне тут пару тредов назад посоветовали забить на маленькую пропускную способность второго слота ПСИЕ. Аноны оказались абсолютно правы, даже с псиной 2 х4 во втором слоте Гемма летает на 15т/с. Как человек сидевший на толстых мое со скоростью 3т/с я сейчас просто в восторге.
Ну а на этом хорошие новости заканчиваются. Я абсолютно полностью обосрался с компоновкой, когда покупал вторую видюху. Толстая видюха не влезает в первый слот с райзером во втором слоте. Во второй слот в принципе ничего нельзя запихать кроме райзера из-за сата разъёмов. Из-за этого у меня сейчас 5060ти в основном псие 3 х16 слоте, когда ебаная жирная туша на 5070ти сидит через псие 2 х4. И даже такой колхоз даёт 15т/с, я в ахуе.
Ну а микро итх мамка в ахуе что я в неё пытаюсь загнать две видюхи и четыре плашки ОЗУ. Мой изящный план разместить две видюхи друг под другом провалился, в корпусе тупо мало места. Пока обдумываю как лучше поступить с получившимся колхозом.
Гемма кстати умная, но до уровня всяких мое весом в 200б+ немного не дотягивает. Хуй сосать умеет не хуже мистраля из коробки, но я ожидал большего, что-ли. Хотя я нихуя не настраивал, просто запустил на похуях после обновления вебуя, даже параметры не смотрел, скорее всего скилл иссуе.
Алсо, имеет смысл попробовать 30б модельки из 2025 года? Ну там коммандера или сноудропа, я раньше на них только облизываться мог. Или смысла особого нет и мне учиться пользоваться Геммой?
Держу тредис в курсе.

Аноним 04/06/26 Чтв 21:03:53 #97 №1625639

>>1625621
А как какать? Уже вмерджили поддержку?
>>1625634
> Если я имею доступ к пеке, и на ней не запущена нужная ллм, я её запускаю.
Ты счастливчик и не делаешь ничего сложного, что требует продолжительного использования профессора и гпу. Сложность не в запуске, а в доступности ресурсов, хоть сиди хоть не сиди.

Аноним 04/06/26 Чтв 21:05:59 #98 №1625643

>>1625636
По тем данным что постили и не было разницы в тг, страдает пп но терпимо

Аноним 04/06/26 Чтв 21:10:05 #99 №1625645

>>1625633
>Естественно никакого moe и тензор-сплита.
Видео фигня чет, но на удивление скорости у него хорошие для 1 линии. Мое сильее шину грузит да? Мне райзер приехал и я майнерускую карту к своей добавил. Но скорости пп стали 60-80 что довольно грустно. Надо будет кеш на быструю карту переместить наверное, оставив на майнерской только слои. Ну и линукс попробовать на системе, там веселее должно пойти.

Аноним 04/06/26 Чтв 21:11:07 #100 №1625647

>>1625639
>не делаешь ничего сложного
Да куда уж мне.

>Сложность не в запуске, а в доступности ресурсов
Как будто бы это не типом доступа (локальный/удалённый) определяется? Или что ты имеешь в виду под этим?

Аноним 04/06/26 Чтв 21:12:59 #101 №1625648

>>1625647
> что ты имеешь в виду под этим
То что ставишь расчет, тренировку, их серию на 5-12-30-... часов и ни о каком запуске ллм не может быть речи. Хоть вплотную подойди и корпус начни облизывать повторяя что доступ у тебя локальный.

Аноним 04/06/26 Чтв 21:15:34 #102 №1625650

>>1625636
Алсо, по первым ощущениям Гемма даже в роли ассистента просто пиздец какая лаконичная.
Тот же Минимакс или Квен большой мне при просьбе подобрать книжки радостно высирают абзацев 10 по 20 вариантов с описаниями.
А из Геммы приходится каждую книгу выуживать, и хуй она много сразу порекомендует, если не попросишь. И вообще она старается больше чем 1-2 абзацами за раз не говорить.

Аноним 04/06/26 Чтв 21:22:59 #103 №1625652

>>1625648
А, то есть тебе ноут нужен реально как второй вычислительный центр? Ок тогда. Мне не нужен, у меня в tailscale-кластере не только домашняя пека, но и рабочий комп постоянно.

Аноним 04/06/26 Чтв 21:31:02 #104 №1625655

>>1625629
>xeon 4 gener...
Надеюсь тебе эта хуйня хоть тыщ за 40 досталась с инженерником и памятью по цене до бума

Аноним 04/06/26 Чтв 21:37:03 #105 №1625658

>>1625652
Не второй, а скорее портативный и ситуативный, помимо того что это легкий ноутбук. И возможность с приличной скоростью запустить мощную ллм не задействуя основные ресурсы - весомый бонус. И пека, и риг, и файловый сервер в сетке с полным доступом. Но если цп-гпу уже молотят или если ты в ебенях с плохим интернетом - это не делает погоды. И крайне уныло ждать пока несколько гигабайт пролезет через мобильный интернет, а потом пытаться тыкаться в окружении, настроенном под три монитора, с мелкого экранчика и тачпада. Когда вместо этого можно сделать все по месту в настроенном под это интерфейсе без задержек.

Аноним 04/06/26 Чтв 21:41:31 #106 №1625661

>>1625591
>Gemma 4 E4B можно заниматься кумингом
Покумил на Granite 4.0 7b, задавай ответы.

Аноним 04/06/26 Чтв 21:43:56 #107 №1625664

ЗАЧЕМ.jpg

>>1625658
>с приличной скоростью запустить мощную ллм
>если ты в ебенях с плохим интернетом
Допустим, запустишь. Но зачем?

Аноним 04/06/26 Чтв 21:44:07 #108 №1625665

>>1625591
Технически те кто кумили с переводом от мелкосетки, кумили на ней, даже на гемма3 1b хех

Аноним 04/06/26 Чтв 21:48:23 #109 №1625669

>>1625655
Так и есть сапфирочка инж (QYFS), память до бума брал, в марте 2025

Аноним 04/06/26 Чтв 21:57:30 #110 №1625676

Еще не заходил в тред. Каково мнение местных по поводу геммы 4 12b?

Аноним 04/06/26 Чтв 22:01:50 #111 №1625680

>>1625664
Навайбкодить нужное и перед сном покумить если нет другой движухи.

Аноним 04/06/26 Чтв 22:21:43 #112 №1625690

image

>>1623977 →
Какие же пиздаболы. Тупа нолик пририсовали для куртки.

Аноним 04/06/26 Чтв 22:31:03 #113 №1625694

>>1625690
Те графики - спекуляция в прямом смысле, достигаются при спекулятивном декодинге мтп головой и с нвфп4. Какбы уровень 5070=4090.
Но мерить скорости по тому что получаешь с опенроутера бессмысленно, там помимо тебя еще одновременно десятки-сотни людей сидят на той же железке.

Аноним 04/06/26 Чтв 22:36:29 #114 №1625697

>>1625694
Ты невнимательно читаешь. Они внизу картинки пишут что эти скорости получили с Дипинфры. Я принёс какая реальная скорость на Дипинфре. У других моделей скорости реальные, а Немотрону нолик пририсовали. 10х - это слишком дохуя чтобы списывать на нагрузку или ещё что-то.

Аноним 04/06/26 Чтв 22:37:49 #115 №1625698

>>1625676
Несовершеннолетняя

Аноним 04/06/26 Чтв 22:38:30 #116 №1625699

>>1625406
А напомните хоть одну годную модель которую высрала команда нвидии? Даю подсказку: таких нет, они всегда делают кал, в ллм, в диффузии, в научных работах

Аноним 04/06/26 Чтв 22:39:29 #117 №1625700

>>1625699
5060ti хорошая модель

Аноним 04/06/26 Чтв 22:44:54 #118 №1625702

>>1625697
Да, ты прав. Наверно у себя они просто замерили когда были в одиночку, а сейчас все массово ломанулись тестить. Ажиотаж спадет и скорость обратно поднимется (нет).
> 10х - это слишком дохуя чтобы списывать на нагрузку
Чем больше параллельных запросов на индивидуальный сервер тем медленнее. Если все просуммировать то там тысячи токенов в секунду будет, но на отдельного юзера крохи.
Хз зачем они вообще такую метрику нарисовали, сравнивая загруженные с работающим вхолостую, закономерно оподливились.

Аноним 04/06/26 Чтв 22:46:01 #119 №1625703

image.png

>>1625700

Аноним 04/06/26 Чтв 23:05:10 #120 №1625709

>>1625699
мне их немотрон очень понравился 49б который. Он писал конечно не кум, но как по мне, поэтично.

Аноним 05/06/26 Птн 00:10:13 #121 №1625730

>>1625699
Мистраль Немо 12б такой именно благодаря Нвидии. С пробуждением

Аноним 05/06/26 Птн 01:04:14 #122 №1625754

>>1625621
Оно действительно запускается. С режимом тензорсплит выпадают ошибки, только layer. А это значит вместо ленивого ncmoe - регэксп, а составлять его для немотронов - невыносимая боль. Из-за отсутствия тп и х8 шины главной карты пп менее 100т/с, свайпов в крупных чатах не дождался.
В коротких вопросах - очень напоминает немотрон 120, та же соя и ложные факты на провокационные вопросы (хотя здесь не в 100% свайпов, а ~60%, в остальных нормальный ответ). Иероглифы и ошибки в русском языке. На кумботе соблазняет и инициирует кум, на свайп в кумочате с канни пишет нормально, был один хардрефьюз. При проверке кодинга парсер не сработал.
А больше и нечего сказать, с такими скоростями и без норм поддержки неюзабельно, нужно ждать исправлений.

Аноним 05/06/26 Птн 01:58:35 #123 №1625770

Кек, сломал режим мышления сетки просто болтая с ней, теперь она разучилась ставить спец токены и пишет все мысли в ответе ( и ноет об этом).
Обратно вернуться не может - ставить спец токены по запросу "сознательно" их не учат

Аноним 05/06/26 Птн 04:12:17 #124 №1625787

>>1625176
Можно. Я так и делал. Создаёшь проект и рпшишь. Там и инструкции всякие. Если не будешь сексами заниматься, то никаких проблем, за исключением того, что вытаскивать чат для суммарайза ёбаная морока. Да, у некоторых корпов есть удобный контекст шифт, но там обычно к моменту, когда он начинает работать, модель отвечает уже неадекватно, с полным пиздецом.

Ну и для сексов есть грок.

Аноним 05/06/26 Птн 06:20:14 #125 №1625811

1779102802238.png

1773751575421.png

>>1625730
его тредовички почему-то засирают незаслуженно. наверное им больше по нраву нвидия с пика 2

Аноним 05/06/26 Птн 07:58:58 #126 №1625829

image.png

Снимок экрана 2026-06-05 075046.png

Что это.. что это за дерьмо?! Gemma 4 12b. Вы только посмотрите, как она хуёво пишет в Q8 XL, просто пиздец. Хуже МоЕшной даже. Это просто возмутительно!

Более того, она даже не отказывает (МоЕ и большая плотная всегда отказывали без еретика/невменяемых системных промптов/модификации цепочки рассуждений), что уже явно намекает на уровень мозгов этого лоботомита. Плюс по тексту видно, что там ещё сильнее почистили датасет либо не долили нужного. И модель не одупляет, за кого вообще отыгрывает. Фифи же шлюха с соответствующим поведением и реакциями, а по итогу мы видим это.

Короче, говно/10. Будет пригодна, если на неё сделают 100500 файнтюнов шизофренических, как было с немо. Врамцелам по-прежнему лучше качать 26b Q8 и кайфовать.

Аноним 05/06/26 Птн 09:29:49 #127 №1625856

image.png

>>1625829
>07:58:58
>фифипост
чел найди работу и не занимайся хуйнёй

Аноним 05/06/26 Птн 09:41:24 #128 №1625861

>>1625856
вы на географии часовые пояса не проходили ещё?

Аноним 05/06/26 Птн 09:43:45 #129 №1625863

>>1625861
вы в пенсионном доме забыли что такое "шутка"?
https://youtu.be/el9tZKaJBDI

Аноним 05/06/26 Птн 09:58:37 #130 №1625871

42a.png

>>1625863

Аноним 05/06/26 Птн 10:13:23 #131 №1625876

>>1625829
>Разрывай мою пизду! Смотри какая она вся мокрая!
>Я твоя шлюшка, трахай мою пизду!
Ебать диалоги из псковского порно, проиграл. А по теме - ну а что вы хотели от 12В лоботомита? Уже хорошо что пузыри ртом не пускает и хоть какой-то кум на русике генерирует.

Аноним 05/06/26 Птн 10:19:28 #132 №1625877

А кто-то тестил mimo v2.5 pro? Да, она тяжёлая шо пиздец, но ходит слух, что она лучше глма и дипсика. Правда, она зацензурена из коробки, ТПК что придётся пробивать.

Аноним 05/06/26 Птн 10:27:15 #133 №1625883

>>1625829
Полезнее было бы посмотреть на свайпы на одном контексте 26 и 12 сайд бай сайд. И не на фифи, а на каком-нибудь сложном для моделей моменте рп. Или на введении новой локи, чтобы посмотреть, насколько слопные описания в сравнении.

Когда я пытался потестить позавчера, когда вышла, то у меня четвёртый квант от жоры вообще сломанный был. Каждое четвёртое слово на русике с ошибками, и инглиш тоже неадекватный. Как будто на высоких значениях реп пена запущено. У тебя вот тоже даже на 8 кванте "АОна" намекает на не совсем корректный инференс. Мб опять надо ждать правок жоры. Которых не будет, потому что всем пофиг на модель, судя по всему.

Аноним 05/06/26 Птн 10:42:33 #134 №1625891

>>1625856
Ща половина населения это офисные уничтожители воды в кулерах за компом на котором ебут фифи а вторая половина это наносеки из дома за компом на котором ебут фифи
Кем из этих двух ты предлагаешь ему стать
Скоро фифя отнимет работу у обоих

Аноним 05/06/26 Птн 10:55:32 #135 №1625898

>>1625883
Жоре как раз не похуй на геммы судя по тому как их поддержка выходит в одну наносекунду с выходом модели, явно подготовленная заранее. Думаю там кто надо ему заносит (и на неподдержку дипсика заносит тот же кто-надо человек)

Аноним 05/06/26 Птн 11:39:41 #136 №1625915

>>1625898
Поддержка отдельных моделей действительно заготавливается, а на другие из-за пофигизма или целенаправленно кладется. Но даже в приоритетных работа далека от гладкой и эталонной.

Аноним 05/06/26 Птн 12:05:50 #137 №1625923

Года 2-3 назада продал 2 новые карты на 16 и на 8. Сейчас у меня на 16, ебало представили.

Аноним 05/06/26 Птн 12:31:40 #138 №1625934

>>1625923
Похуй как-то

Аноним 05/06/26 Птн 13:39:36 #139 №1625970

Жуть какая. Неужели это правда баг Лламы был, с SWA на Квене 3.5? Создавались чекпоинты, 260мб каждый. Из-за этого не мог уместить Q8 122б. Только сейчас заметил, что чекпоинты не создаются. И как же Квеноняша хороша как ассистент. В сторителлинге 27б гораздо лучше, чем 122б, но 122б Q8 несравненно крут в своей весовой категории как ассистент и кодер/агент через Openclaw. Контекст реально хорошо держит и прекрасно работает в том числе на русском. Надеюсь, получим еще в этом ренже модельку от Квена когда-нибудь.

Аноним 05/06/26 Птн 14:12:22 #140 №1625986

image.png

>>1625876
10б гигачат (у которого 1.8б активных вроде) пишет по-русски лучше, а молофья там льётся просто рекой. Понятное дело, что логики в нём нет, следования инструкциям тоже. А тут плотная гемма сосёт.

>>1625883
На сложном вообще нет смысла, учитывая то, что модель явно не учла кучу триггеров и паттернов из карточки фифи. Язык явно более бедный, следование инструкциям и логика тоже. То есть ноль причин использовать 12б вместо МоЕ.

Конечно, есть шанс, что квант сломан, но когда 1Т-монстры допускают такие же ошибки, как гемма, я уже ничему не удивлюсь. Они могут разметку проёбывать, сначала использовать длинные тире, а затем кавычки-ёлочки или просто кавычки. Или как-то иначе. А тут 12б-лоботомит.

Хотя вопросики всё равно вопросики есть. Там скорее надо на чистом контексте тестить с обычными задачами и смотреть, обосрётся модель или нет.

>>1625970
SWA у квена нет. Но лично у меня чекпоинты работают периодически криво хуй знает почему, поэтому я выкатился с этого говна на кобольда, где смарт кэш почему-то работает корректно. Да, я знаю, что это форк. Но реализация там другая.

Аноним 05/06/26 Птн 14:20:45 #141 №1625993

>>1625986
>То есть ноль причин использовать 12б вместо МоЕ
Для каких-то задач требующих точности лучше 12b, потому что ее Q8 весит столько же, сколько Q4 у 26b. Меньше обсираться будет. А в РП да, как будто действительно смысла нет.

Аноним 05/06/26 Птн 14:37:53 #142 №1626003

>>1625993
Ну так Q8 лучше и быстрее у 26б-а4б, чем Q8 12б, по крайней мере у меня. Да, размеры квантов разные, но скорость и знаний у МоЕ больше — зачем тогда использовать меньшее?

Единственный сценарий, при котором МоЕ провалиться может, это если ризоинг не юзать. Вот там уже малое количество активных параметров пиздец влияет.

Плюс никто четвёртый квант у МоЕ почти не юзает, так как можно тупо почти всё в оперативку впихнуть даже на всратом железе.

Аноним 05/06/26 Птн 14:45:41 #143 №1626008

>>1626003
>зачем тогда использовать меньшее
На каком-нибудь ноуте с 16 рам и без дискретки (те же маки в нищекомплектации) выбора особо нет. Тут или плотная Q8 или моэшка в Q4.

Аноним 05/06/26 Птн 14:46:07 #144 №1626009

Кто просил тюн для рп.
https://huggingface.co/Nimbz/Versipellis-31B
>>1626003
Для 26б нужен шестой квант и q8 кэш. Только жаль что под 26 не будут делать тюны. Вижу сколько высирают на 31б а на 26 их два по сути один. Это потому что в 26 не работает свайп а жаль.

Аноним 05/06/26 Птн 14:58:18 #145 №1626018

image.png

Аноним 05/06/26 Птн 15:10:54 #146 №1626025

image.png

>>1626018

кодинг кодер Аноним 05/06/26 Птн 16:07:10 #147 №1626065

TL;DR посоветуйте, пожалуйста, локальную модель для 16 GB VRAM для кодинга и агентских задач

Уважаемые нейроаноны, у меня есть 5070 ti / 32gb ram pc на ubuntu server. Денег на подписки вообще нет, готов потратить $5-10 на API.

Придумал себе задачу: у меня много простых проектов в плане кодинга, хочу описать по ним руками документацию и кодинг стандарты, а потом планировать задачи с помощью фронтир-модели по апи, а кодинг отдавать локальным llm.

То есть из высокоуровневого "сделай фичу Х" платная модель будет декомпозировать до "написать миграцию", "написать контроллер", "сделать UI", "написать тесты" для локальной модели, а она будет пыжиться в цикле от одной задачи к другой пока не дойдет до какого-то вменяемого критерия приёмки.

Я пробовал развернуть qwen2.5-Coder-14B-Instruct-AWQ, но там довольно устаревшая база для обучения использовалась. А контекста так мало вмещалось в оставшиеся гигабайты, что я не увидел смысла прокидывать доки в каждый запрос

Какую модель взять вообще? Это вообще возможно?

Аноним 05/06/26 Птн 16:08:51 #148 №1626068

Кто-нибудь знает как работает этот swa ?
Вот типа есть какое-то окно токенов, я хз сколько он у Геммы предположим 8192. Это значит что ровно последние 8192 токенов будут учтены аттеншеном ? Или там как бы от этих последних 8192 токенов будет раскатываться клубок на какую-то глубину. И как тогда систем промт учитывается, он же в начале чата. Просто я вот заметил что после 50к 31б разваливается даже в q6, ваще никак дальше. Также и q8 26б. Почти всё из начала-середины чата забыто. Как будто Геммочки хороши для зирошота мелких задач и для совсем простеньких сценариев кума до 20к контекста

Аноним 05/06/26 Птн 16:10:30 #149 №1626070

>>1626065
В 16 + 32 у тебя лезет хорошенькая Гемма 4 26б в барском q8 кванте и с контекстом, попробуй её для начала. Гайд в шапке есть, который неофициальный, словно для тебя писали до сих пор в ахуе что он лучше официальной вики Потом пробуй Квены, может 3.6 35б понравится

Аноним 05/06/26 Птн 16:24:35 #150 №1626092

>>1625636
>Алсо, имеет смысл попробовать 30б модельки из 2025 года? Ну там коммандера или сноудропа, я раньше на них только облизываться мог.
Квен 27 и Гемма 26-31 однозначно лучше, но Командер и Сноудроп пишут по другому, только ради их уникального слога если

Аноним 05/06/26 Птн 16:34:33 #151 №1626100

>>1625970
А кстати были какие годные тюны этого 122б ? Или анцензоры
Вот это пробовал кто https://huggingface.co/OpenYourMind/OYM-Qimi-122B-A10B-K2.6 ? По поводу сва swa чекпоинтов у меня их вроде не было и нет

Аноним 05/06/26 Птн 16:37:39 #152 №1626107

>>1625631
> шаблон
Ну, котаны, выручите.

Аноним 05/06/26 Птн 16:40:39 #153 №1626112

>>1626008
Не, ну если такой вариант.. то это совсем печалька. Но вроде бы сейчас даже игросральные ведра имеют 32 рам и 12-16 врам как минимум, то есть людей, у которых такая сложная ситуация, действительно мало. Типа макбуков на 16 Гб.

>>1626009
А зачем кэш-то ужимать? Если памяти не хватает, то логично, а так не очень. Я замечал деградацию. Там уже в бф16 (кэш) рак на 50к где-то начинается. Даже когда модель тоже в бф16.

Терпимо, если модель работает в рамках вопрос-ответ, а контекст используется чисто для того, чтобы модель понимала суть дела. Потому что уже на 60к+ часто возникают ситуации, когда моешка нихуя не помнит толком, что там было 3 сообщения назад, если ты прямо не ткнёшь её в это сообщение.

31б тоже весьма детерминирована. Я думаю, дело не в свайпах вообще, а в том, что МоЕ. Не помню ни одного нормального тюна на них. Ну и с таким детерминизмом явно надо кал в жопу модели заливать нещадно, доводя до катастрофического забывания и тотальной лоботомии. Просто ради получения кума магнума или красивой прозы. И всё это без мозгов.

>>1626065
Qwen 35b-a3b, 3.6 версия. Гемма тоже может подойти, но она менее надёжна на большом контексте, особенно если там тонна документации, скилов и прочего шлака.

Я не погромист, но когда говно всякое вайбкодил, у меня контекст забивался безумно быстро, и гемма сильно терялась.

Минус квена только в том, что задачу нужно ставить ему на английском языке и чётко понимать, чё ты там хочешь. Гемма может простить какие-то такие нюансы, а вот квен, как правило, нет.

Впрочем, у тебя там такие задачи охуительные, что как минимум Opus юзать надо. Любая локалка обосрется с тем же UI, особенно квен. А вот гемма с интерфейсом получше справится.

>>1626068
Ого-го, ебать. Я пока сообщение катал, ты почти то же самое написал.

Там учитываются последние 1024 токенов)))

Короче, вот эти 1024 токенов модель видит очень хорошо, почти идеально, остальное почти нихуя не видит. На уровне "я так чувствую". Да, весь остальной контекст модель учитывает, но очень слабо.

Если иъёбываться жёстко, то можно ослаблять влияние "потерянного в середине" и сраноно SWA, но это уже просто шаманство. Увеличивать окно SWA, растягивать 1024 токена тоже не эффективно, так как модель не обучена иначе работать. Если ты на 200 токенов растянешь, то трагедии не произойдёт. В иных случаях будет деградация.

Системный промпт тоже видит плохо, да. Но лучше, чем середину.

---

Я подписку на гемини купил. На полгода. Как еблан. Дико охуел, что там то же самое, что и с геммой. Не знаю, сколько гемини видит, но тоже очень мало. Сама модель прекрасная, но реализация внимания настолько уебанская, что забывает все нюансы.

Аноним 05/06/26 Птн 16:43:41 #154 №1626114

>>1626107
https://huggingface.co/zerofata/G4-MeroMero-26B-A4B/raw/main/Gemma4-Think.json для ризонинга
https://huggingface.co/zerofata/G4-MeroMero-26B-A4B/raw/main/Gemma4-NoThink.json без ризонинга
С тебя милая аниме девушка в ответ! Если не пришлешь, я рассержусь на мир и больше никогда никому не дам полезный ответ

Аноним 05/06/26 Птн 16:52:59 #155 №1626120

изображение.png

>>1626114
Интересно, когда до народа наконец-то дойдёт, что стори стринг не место для моделеспецифичных вещей? А то меня как программиста коробит от такого смешивания ответственности.

Аноним 05/06/26 Птн 16:55:48 #156 №1626123

>>1626120
Да похуй, префиксами и постфиксами стористринга почти никто и почти никогда не пользовался. Зайди в доки и код таверны, там тебя ещё больше как прогера триггернет

Аноним 05/06/26 Птн 16:57:43 #157 №1626126

>>1626123
>Зайди в доки и код таверны, там тебя ещё больше как прогера триггернет
Знаю, по этому и не захожу. Я вечной жизни желаю, а не инфаркта в 30 лет.

Аноним 05/06/26 Птн 17:02:43 #158 №1626130

>>1626120
Раньше в таверне не было префиксов и постфиксов для стори стринга целиком, только для макроса системного промпта. Поэтому так сложилось, что чтобы запихать и систем промпт, и карточку, и лорбуки в системные теги, их писали прямо в стористринге. По привычке небось продолжают так делать.

Аноним 05/06/26 Птн 17:06:13 #159 №1626134

>>1625970
Да, там нет накакого сва.
> несравненно крут в своей весовой категории как ассистент и кодер/агент через Openclaw
Ага, он еще по визуальной части крайне силен. Жаль 3.6 3.7 не выпускают.
>>1626068
Глянь на ютубе или попроси нейронку объяснить как в целом работает атеншн в ллм. При скользящем окне в основном то же самое, разница лишь в том, что на вход поступают лишь последние N текенов, именно как ты сказал. Никакого раскатывающегося клубка, полный контекст видят лишь слои с полным атеншном, которых мало. В этом и причина того, что модели с swa могут быть менее внимательными к деталям в глубине контекста.

Аноним 05/06/26 Птн 17:26:06 #160 №1626151

e2700de35cf6148de6136a2b84f73cc0.jpg

>>1626114
Всех благ, анон. А есть идеи почему режим Перевоплощения не работает? Просто возвращает пустую строку? Раньше просто всякой дичью вроде aaawwww own подряд 20 раз спамило, а сейчас просто пусто.

Аноним 05/06/26 Птн 17:53:55 #161 №1626159

>>1626151
Про какие перевоплощения речь? Имперсонейт ответ от юзера? Это с особенностью шаблона связано. Как-то точно можно починить, я видел посты, но не вникал т.к. сам не пользуюсь
Аниме девушка хорошая. Это анима? Какой автор?

Аноним 05/06/26 Птн 19:00:31 #162 №1626190

Кто-то уже запускал Немотрон новый? А то я попробовал его в 4 кванте по api и что-то совсем у него русский хуёвый. Ещё и списками и таблицами срет. Даже качать расхотелось

Аноним 05/06/26 Птн 19:03:32 #163 №1626191

>>1626134
> Ага, он еще по визуальной части крайне силен
Силен, но соевый очень, хуже чем 235 VL. Использую Гемму 31 Q8 для вижн задач. Медленно, но справляется хорошо. Батчи отправляю на обработку и оставляю на какое-то время. А для быстрых штук даже 26 Q8 Гемма хорошо справится, для зирошотов всяких. Не нашел, в общем, для себя применений вижена Квена 3.5.

Аноним 05/06/26 Птн 19:06:32 #164 №1626194

>>1625970
А нахуй нужны эти чекпоинты кста?
У меня pi, 0 интеграции с ними, зато джамп в любую точку беседы

Звучит как отдача вирама для нихуя

Аноним 05/06/26 Птн 19:10:00 #165 №1626199

Когда MiniMax M3 появится на рукалицо и насколько он будет хорош?

Аноним 05/06/26 Птн 19:10:14 #166 №1626200

>>1626194
> А нахуй нужны эти чекпоинты кста?
Позволю себе ответить самоцитированием из гайда:
Параметр swa-checkpoints актуален только для моделей с SWA (Sliding Window Attention). Кеш моделей с SWA не может быть легко отредактирован. Если удалить или отредактировать одно из сообщений в чате с моделью без SWA, контекст будет пересчитан ровно с того момента. Если же это модель с SWA, контекст будет пересчитан полностью. Если только нет ближайшего чекпоинта (контрольной точки), что и реализует параметр swa-checkpoints. Стандартное значение - 32. Однако важно учитывать, что чекпоинты тоже занимают оперативную память. В случае с моделью Gemma 4 один чекпоинт в среднем весит 260мб. Как и в случае с кеш-файлом, память под чекпоинты выделяется по мере надобности.
> Звучит как отдача вирама
Оператива, не врам. Кстати, я не уверен, что если чекпоинты выключены вообще, то контекст не будет репроцесситься с каждым новым инпутом. Позже проверю, если не забуду.

Аноним 05/06/26 Птн 19:11:31 #167 №1626201

>>1626190
Вон >>1625754 выглядит вообще умным и с потанцевалом (если рпшишь на английском или кодить), но без скорости и вызовов не имеет смысла.

Аноним 05/06/26 Птн 19:26:43 #168 №1626208

>>1626201
Умным по сравнению с кем? Так-то из-за размера он конкурирует с дипсиком 3.2 и глм 5.1 (потому что в 256 не лезет, только в 512 Гб ОЗУ)

Аноним 05/06/26 Птн 19:40:18 #169 №1626221

>>1626200
Имеешь ввиду зафорсит ли он один чекпоинт даже если парсить параметр 0 ?
Тоже любопытно. Думаю нет

Аноним 05/06/26 Птн 21:42:52 #170 №1626269

>>1626208
В общем. И по сравнению с 120 немотроном, которого несколько напомнило.
> из-за размера он конкурирует с
Ага, потому не имеет смысла в текущем виде, когда другие модели из той же весовой работают нормально.

Аноним 05/06/26 Птн 22:32:14 #171 №1626293

Бля, аноны, есть тут красноглазики? Подскажите, пжлст, на работе мне делегировали нахуярить локального агента. Есть 8ГБ 3050 + 32 DDR4 на рабочей машине, и 2 личных 4060ti 16ГБ Которые не хотелось бы донатить на РАБоту. Есть ли что-нибудь, что можно запустить на рабочем железе? tg - от 10, желательно, либо около ваншот задачи. Какое расширение выбрать, какую модель взять? Какого хуя при использовании Квена 3.6 30А4 / Геммы 4 26A4 он прерывается по середине думанья, ЧЯДНТ? Неравнодушные братья помогите, буду по гроб жизни должен, скину свою ультра-кум как мне кажется карточку.

Я бы с радостью въебал гемму с большим квантом чем у меня дома и кумил на ней, но работа есть работа :(

Аноним 05/06/26 Птн 22:36:09 #172 №1626297

>>1626293
Лучше продай 32 гига памяти и живи на них пока не найдёшь новую работу.

Аноним 05/06/26 Птн 22:36:32 #173 №1626298

>>1626293
>Есть 8ГБ 3050 + 32 DDR4 на рабочей машине
в чём трабл по гайду из шапки накатить гемму 26б q8 и получить свои 15 токенов?
>Какое расширение выбрать
в морде лламецпп крутить или openwebui для чатика с инструментами, либо openclaw или pi если нужны агенты

Аноним 05/06/26 Птн 22:38:34 #174 №1626300

>>1626293
>Есть ли что-нибудь, что можно запустить на рабочем железе?
Ну с таким железом выбор небольшой: либо квен 35а3, либо гемма 26а4.
>он прерывается по середине думанья
Убери лимит токенов на ответ. У тебя небось там дефолтные 300-500 стоят.

Аноним 05/06/26 Птн 22:39:04 #175 №1626301

>>1626293
>на работе мне делегировали нахуярить локального агента
Проси делегировать A100 хотя бы.

Аноним 05/06/26 Птн 22:40:51 #176 №1626302

>>1626293
Продай оперативку и купи для них подписку на кодоунитаз. Нахуй такую работу и такие задачи

Аноним 05/06/26 Птн 22:42:51 #177 №1626304

>>1626297
С радостью бы себе спиздил, но к сожалению...

>>1626298
>в чём трабл по гайду из шапки накатить гемму 26б q8 и получить свои 15 токенов?
Уже накатывал, стопается посреди ризонинга, хз что делать.

>>1626301
>Убери лимит токенов на ответ. У тебя небось там дефолтные 300-500 стоят.
Пытался, генерит, скотина на 5к токенов ответ и всё, как не ебашь её по голове, посреди ризонинга обрывается.

>>1626301
Денях нет.

>>1626302
Только локально, только хардкор.

Аноним 05/06/26 Птн 22:43:36 #178 №1626306

>>1626293
> 8ГБ 3050 + 32 DDR4 на рабочей машине
Это печально
> 2 личных 4060ti 16ГБ
Очевидный квен 3.6 27б. Скрестить с квенкодом натравив через oai-like, pi, или по своим предпочтениям. Решение так-то весьма неплохое получится.

Аноним 05/06/26 Птн 22:43:51 #179 №1626307

QAT вышел.
https://huggingface.co/collections/google/gemma-4-qat-q4-0
https://huggingface.co/collections/unsloth/gemma-4-qat

Аноним 05/06/26 Птн 22:47:13 #180 №1626310

>>1626307
Можно для незнающих, это нищукам вроде меня поможет? Как его запускать, через лламу? Если я Q4km запускаю будет этот Q4 QAT лучше?

Аноним 05/06/26 Птн 22:52:01 #181 №1626312

>>1626310
Поможет, GGUF в лламе запускается как обычно. Явно лучше не-QAT Q4_K_M и вероятно лучше всего что ниже Q8_O.

Аноним 05/06/26 Птн 22:52:18 #182 №1626313

>>1626304
Я хуй знает, может я даун и что-то не так делаю, но у меня даже локально continue расширение не может номрально создать файл,
>create_new_file failed with the message: `filepath` argument is required and must not be empty or whitespace-only. (type string)

Аноним 05/06/26 Птн 22:52:40 #183 №1626314

>>1626310
> Как его запускать, через лламу
Через лламу
> будет этот Q4 QAT лучше
Будет

Аноним 05/06/26 Птн 22:59:07 #184 №1626318

>>1626310
Будет лучше, но есть нюанс: в третьей гемме qat был сломан русик. Если это важно, то лучше оставайся на обычном Q4. Но может с четверкой будет получше в этом плане, не тестил.

Аноним 05/06/26 Птн 23:00:09 #185 №1626321

>>1626314
>>1626312
Ничего себе. https://huggingface.co/google/gemma-4-31B-it-qat-q4_0-gguf весит на 0.7мб меньше чем Q4km бартовски. Если оно ещё и лучше то это же вин вин! Если всё правда так круто то гугл конечно радуют. Я никогда такие кванты не использовал. Это особая поддержка нужна, новая ллама которой пока нет?

Аноним 05/06/26 Птн 23:04:12 #186 №1626323

image.png

Гемма 26B4A Q8 либо залупливается, либо даёт вот такую хуйню. Я вот прям не могу понять, как чинить, уже кажется всё перепробывал.

Аноним 05/06/26 Птн 23:09:30 #187 №1626330

>>1626307
Аноны, а вот лучше скачать кванты от гугла или от unsloth'а? Его этот UD-Q4_K_XL как я помню они были лоботомитами и служили для меньшего веса.

Аноним 05/06/26 Птн 23:11:31 #188 №1626332

>>1626330
От гугла конечно же.

Аноним 05/06/26 Птн 23:13:41 #189 №1626334

1667087828806.png

>>1626330
Хз, анслоты утверждают что у них лучше. Тестить надо наверно.
https://unsloth.ai/docs/models/gemma-4/qat#qat-analysis

Аноним 05/06/26 Птн 23:14:23 #190 №1626335

>>1626323
У тебя кажется не включена джинджа в бэкенде. А вообще в агенто-тред с такой разметкой.

Аноним 05/06/26 Птн 23:17:06 #191 №1626339

>>1626304
>Денях нет.
Нету ручек- нет конфеток ©

Аноним 05/06/26 Птн 23:21:37 #192 №1626342

>>1626330
>K_XL
Всегда были максимальным калчеством кванта же.

Аноним 05/06/26 Птн 23:21:57 #193 №1626343

image.png

>>1626335
Понял, попробую покапать в этом направлении.

>в агенто-тред
Но тут свои, родные...

>>1626339
>Нету ручек- нет конфеток ©
Хочется, однако, конфетку.

З.Ы. Получилось нормально пропусить тестовый проект, ещё не тестировал, компилируется или нет но то, что я вижу, это пиздец, пикрил.

Аноним 05/06/26 Птн 23:25:54 #194 №1626345

>>1626342
Ну я как помню по бартовскому XL это где важные ffn'ки они используют Q8_0 квант, даже на какой-то санной Q2_K_XL, что собственна не помогало последней. Тут же от unsloth'а видно виляние жопой, что и лучше и меньше! Однако его кванты по моему мнению зашкварены, из-за чего стараюсь не качать от него. Самая главная проблема как помне, у него будет васянство. Ну сам подумай, в гугле работают индусы на зарплате, делают продукт, выкатывают. А какой-то салариман в тот же день делает на 10-20% эффективнее модельку. Че уж сам гухол не смогла также?

Аноним 05/06/26 Птн 23:31:14 #195 №1626346

image.png

>>1626318
>Будет лучше, но есть нюанс: в третьей гемме qat был сломан русик.
Бля, печально это слышать. Хороший руссик + компактность (в случае 26b) это единственные киллер фичи геммы, если в QAT он сломан, то я рот ебал, свой.

Аноним 05/06/26 Птн 23:35:54 #196 №1626347

А эти qat кванты прям уже работают или нужно ждать новые версии лламы ? Может кто сравнить с всякими Q4 ггуфами ? Если прям скрины выводов то вообще круто

Аноним 05/06/26 Птн 23:36:34 #197 №1626348

>>1626345
Но ведь XL самые большие... ты о чём, онон?

Аноним 05/06/26 Птн 23:37:55 #198 №1626349

>>1626347
Ну я скачал, у меня кобольд 1.111.2, работает, русский такой же как на Q4 у 26-A4B. Лучше ли это нужно проверять, пока могу сказать на том же уровне точно.
>>1626348
Да, но у unsloth'а она МЕНЬШЕ, чем оригинальный Q4_0 квант от гугла

Аноним 05/06/26 Птн 23:41:18 #199 №1626351

>>1626348
На некоторых моделях у анслопа Q4_K_XL примерно равна Q4_K_S. Вот тут, например:
https://huggingface.co/unsloth/GLM-4.5-Air-GGUF
https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF

Аноним 05/06/26 Птн 23:52:53 #200 №1626355

checkpoints.png

>>1625970
UPD: это по-прежнему рандомно происходит, даже на последней b9535 версии. Кто-нибудь знает, с чем это связано? Или все-таки это ожидаемое поведение?

Аноним 05/06/26 Птн 23:56:51 #201 №1626357

>>1626351
Это мое. Плотные модели всегда больше.

Аноним 06/06/26 Суб 00:03:59 #202 №1626359

Какие шаблон контекста и instruct режима лучше использовать для GLM-4.5-Air?

Аноним 06/06/26 Суб 00:05:55 #203 №1626362

>>1626347
Это по сути обычные ггуфы, отличия идут в самих весах. Проблемы могут быть только если обучение отличалось от инфиренса, что вполне возможно, но это лишь сыграет на качестве.

Аноним 06/06/26 Суб 00:29:03 #204 №1626373

>>1626355
Мне даже интересно стало, сколько у тебя т\с? И что за риг. Если себе делать ассистента то нужно, чтобы он хотя бы 10 т\с делал, и дешевый вариант мб это зевон с 128гб ецц памятью, но он же смерть, как не подойдет даже для мое, там меньше будет чем 10 т\с. И расскажи быт этого ассистента, ибо я у коорпаратов с обычной гемини-3.5 бываю ловлю фейлы и меня бесит то и то, а тут у тебя по пизде может пойти на половине контекста. Как фиксишь?

Аноним 06/06/26 Суб 00:36:17 #205 №1626375

>>1626307
>QAT вышел.
Можешь пояснить за QAT?

Аноним 06/06/26 Суб 00:39:18 #206 №1626377

>>1626373
> делать ассистента то нужно, чтобы он хотя бы 10 т\с делал
Для чата норм. Если хочешь именно агентного - там желательно от 20-30т/с и от нескольких тысяч обработки контекста, иначе ожидания будут огорчать.
> бываю ловлю фейлы и меня бесит то и то
С любой ллм такое будет. Персонифицируй ассистента, чтобы она мило извинялась и ты быстро прощал, а не копил неприязнь.

Аноним 06/06/26 Суб 00:42:04 #207 №1626378

Аноны, могу ли c 12 vram(5070) и 32ram локально генерить себе видео фап контент ? Ролики в небольшом разрешении с русской речью по сценарию ? Или этих мощностей не хватит и я буду час ждать 10 сек видоса.

Аноним 06/06/26 Суб 00:44:23 #208 №1626380

>>1626378
Не сюда, в /b нейро-фап-реквест. Но я отвечу так и быть. Wan 2.2 запустишь, есть вообще простые модельки, которые делают видео-фап и запускаются на 16озу\6-8враме. Звук я хуй знает, с коробки такие модели точно будут требовать достаточно ресурсов. Если накладывать, то нет.

Аноним 06/06/26 Суб 00:45:47 #209 №1626381

>>1626377
А он у тебя на основной машине работает, чатик? Просто как ты компьютером функционируешь если у тебя забито подзавязку все. И нюфаня вопрос, что же чатиком можно решить\решаешь?

Аноним 06/06/26 Суб 00:50:21 #210 №1626383

Чем вам этот агент отдельный, что вы на нем делаете?

Вот реально хайп такой стоял, а я лично для себя не смог ни одной задачи придумать. Все вечно хотят автоматизировать все но привносят в свою жизнь лишь больше проблем

Аноним 06/06/26 Суб 00:52:17 #211 №1626386

>>1626383
Вот я про это же, анон.

Аноним 06/06/26 Суб 00:52:51 #212 №1626387

>>1626381
Отдельный риг.
> что же чатиком можно решить
От запросов зависит. Просто что-то обсудить хватает чата, для остального удобнее агенты.

Аноним 06/06/26 Суб 00:53:51 #213 №1626392

>>1626373
> Мне даже интересно стало, сколько у тебя т\с?
~9 tg, ~400 pp.
> И что за риг
4090 24гб + 128гб DDR4 3200
> расскажи быт этого ассистента
В основном чатик, помогает меня менеджить, занимается консультированием по сабжам, в которых я не слишком шарю, помогает окончательно не сойти с ума. Как агента не использую, но тестировал его через Openclaw для рефактора руби бекенда и простенького 3д прототипа на Годоте. С нюансами, но справился. Не знаю, что и добавить. Сегодня и Гемма (обе, и 26, и 31), и Квены хороши. Но 122б Квен ультимативен, дальше только 300б+ модели, а это другой уровень железа. До 300б+ моделей он лучший по знаниям и работе аттеншена. Речь про ассистентские таски и кодинг, в рп он печален из-за ассистентского байаса.

Аноним 06/06/26 Суб 01:05:43 #214 №1626403

>>1626378
Да. Со всеми ускорялками, 4-степс лорами и прочим, рассчитывай минут на 5-6 на генерацию 5-секундного видео в wan. В ltx чуть быстрее и со звуком, но качество похуже. Держи, играйся: https://github.com/deepbeepmeep/Wan2GP

А вообще ты тредом ошибся, тебе в соседний.

Аноним 06/06/26 Суб 01:11:02 #215 №1626407

>>1626307
Ахуенно каждый день хорошие новости.

Аноним 06/06/26 Суб 01:31:09 #216 №1626416

>>1624998 (OP)
Не было в треде год, как обстоят дела с актуальными моделями? Какие нынче советы для кума? Попрежнему квен и гемини?

Аноним 06/06/26 Суб 01:34:25 #217 №1626417

>>1624998 (OP)
Товарищи нейроёбы и просто железячники, проясните, пожалуйста, два момента:
- для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант? Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть. Насколько скорости SSD влияют на локальные модели?
- оперативка 8000MHz имеет смысл в локальном компе для LLM? Мне тут нейронка твердит, что
>Архитектура процессоров AMD Ryzen (включая 9950X3D) спроектирована так, что наивысшую производительность и минимальную задержку (латентность) она выдает при синхронной работе контроллера памяти в режиме 1:1.
>Потолок для режима 1:1 на процессорах AMD — это частота 6000–6400 MHz.
Насколько это пиздёжь? И на какую оперативу, всё же, ориентироваться?

Аноним 06/06/26 Суб 01:36:19 #218 №1626418

>>1626416
Свежачок подъехал >>1626307

Аноним 06/06/26 Суб 01:49:13 #219 №1626421

>>1626418
Пишут что русик сломан, вообще почитав тред вижу что гугл конкретно так покоряет дно,
раньше такого не было,
случилось что?

Аноним 06/06/26 Суб 01:49:47 #220 №1626422

>>1626417
>Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть.
Бекапы наше всё, вне зависимости от типа накопителя. Если какая-то инфа лежит в одном месте, она по определению уже пропала. А с другой стороны, пока есть интернет, всегда можно перекачать. А сидеть без интернета затея так себе.
А так строго похуй, просто будешь грузить модель по 10 минут.
>Мне тут нейронка твердит, что
Для памяти лучше брать интул, притом 14 поколение, лол, нейронка как всегда тупит.
Если есть возможность, бери топ проц и память 8 кеков. Если нет, то терпи на амуде на 6.

Аноним 06/06/26 Суб 02:02:38 #221 №1626427

>>1626417
>для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD
Для нейронок предпочтительно, но не обязательно. Нейронки крутятся в видеопамяти и оперативке. Скорость накопителя влияет только на то, насколько быстро она будет загружаться. А в современном компе это не то что "желательно", это обязательно использовать ssd хотя бы под систему.

>Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть
Недорогой ssd действительно может ВНЕЗАПНО сдохнуть они буквально собираются на говноконтроллерах и из отбраковки памяти, поэтому делай бекапы самого ценного на hdd (например, на внешний, который подключается по usb). Если речь про нормальные ssd, типа самсунгов, то такой скорее всего будет жить долго и счастливо. У меня самый старый самсунг, ещё саташный, емнип году в 2016 покупался на 512гб, жив до сих пор. Два nvme самсунга тоже живы-здоровы, хотя ебутся в хвост и в гриву каждый день. Объем памяти тоже влияет на ресурс, бтв. Терабайтник проживет дольше чем 128гб условный.

Ты можешь просто зайти в гемини (или любого другого корпа), включить ему поиск по сети, скормить модель какой-нибудь ssdшки и попросить чтоб поискала характеристики памяти/контреллера, вынесла вердикт - годнота или нет, ну и в целом дала советов мудрых по выбору.

Аноним 06/06/26 Суб 02:04:00 #222 №1626428

>>1626383
Ну а как ты хотел, старина? Большинству людей просто нечего автоматизировать в своей жизни. Они ведь ничего не делают особо, нароботе дрочат ворд с экселем, дома доту2 проходят, или во что там игры играют. Это как с обсидианом. Как начали ЖЕСТКО и АГРЕССИВНО его продвигать в каждой щели с идеями, что ВТОРОЙ МОЗГ сделает твою жизнь и профессиональную деятельность заполнение эксель таблиц ЭФФЕКТИВНЕЙ, так каждый Петек начинает абзацами копировать себе в хранилище текст со статей в медиуме или хабре, расставлять ссылочки и любоваться на графы, а продвинутый какой-нибудь дата-вью жс вставит, чтобы сделать саммари по тому, сколько сосисок он съел на позапрошлой недели. Так и тут, агенты круто, надо юзать, надо автоматизировать свою рутину, сортировать письма, приоритизировать события и дедлайны в календарике, бибикать баззером, разработать проект эйэай битуби саас приложения.

Агенты нужны нам, чтобы купировать шизу. Или всяким (не)студентам, чтобы за тебя нейронка статьи читали. Агенты --- нью фиджет спиннер 2к26.

Аноним 06/06/26 Суб 02:05:39 #223 №1626429

изображение.png

>>1626427
>Если речь про нормальные ssd, типа самсунгов, то
У меня такой в ошибки пошёл. Правда это ОЕМ версия 980про из китая, походу отбраковка.

Аноним 06/06/26 Суб 02:13:11 #224 №1626431

>>1626429
Самсунги в лидерах по рейтингам надежности, но даже с ними вот такая подстава может случиться. И это еще раз подтверждает важность бекапов.

Аноним 06/06/26 Суб 02:18:06 #225 №1626433

>>1626431
>в лидерах по рейтингам надежности
С гарантией в один год, когда даже китайские суньхуйвчай дают по 5, кек. Или с конца считал?

Аноним 06/06/26 Суб 02:26:42 #226 №1626438

>>1626421
Жопой читаешь? Было написано что русик в более ранних версиях ломался.

Аноним 06/06/26 Суб 05:09:45 #227 №1626471

>>1626417
>для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант?
Только SSD, причем только NVME, причем строго не меньше гигабайта в секунду.
Пример: база бичей треда Gemma 4 26B. Она весит 25 гигабайт. Можешь сам посчитать, как HDD это осилилт и сколько тебе придется ПОДОЖДАТЬ. И да, ты будешь выгружать-загружать это все по сто раз, так что...
Кстати, отсюда же берется ответ на вопрос о надежности SSD и возможности все потерять. Если у тебя нет нормального интернета и возможности в любой момент перекачать все, то можешь даже не лезть в это. Как вкатывающийся, ты будешь качать по 10, 20, 50 гигабайт много раз за день и все это окажется бесполезным мусором, пока не ты разберешься что там вообще тебе надо. Модели как файлы не имеют ни малейшей ценности, они устаревают за пару секунд.
>Насколько это пиздёжь? И на какую оперативу, всё же, ориентироваться?
Тебе нужна не RAM, а VRAM любой ценой, если ты там собрался на голом ЦПУ это все гонять, то земля тебе пухом, и между 6000 и 8000 ты не почувствуешь никакой разницы вообще - будет абсолютно одинаково (очень) больно.

Аноним 06/06/26 Суб 06:36:33 #228 №1626478

Скачал гемму 26б чтоб юзать её как ллмку для описания картинок, но вместе с комфи не хватает врам. Есть вообще адекватные ллмки в пределах 5-6б для этого?

Аноним 06/06/26 Суб 06:39:51 #229 №1626479

Ещё вроде можно как то юзать прямо в комфи ллмку с выгрузкой в рам, но все ноды что я находил были с вжаренными ллмками типа мистрали и другие не принимали

Аноним 06/06/26 Суб 06:40:21 #230 №1626480

>>1626478
qwen

Аноним 06/06/26 Суб 06:54:32 #231 №1626481

>>1626480
Спасибо, отлично пошло. Только ризонинг срёт сэйфти и бат вейт

Аноним 06/06/26 Суб 09:51:39 #232 №1626507

>>1626481
Просто не генери пошлости. Но если так приспичило, то я помню что месяц назад гуглил на эту тему и видел вариант с тем чтобы накатить vllm - там есть sleep или что-то такое для выгрузки модели в ОЗУ - и сделать кастом ноду, которая чистит память и вызывает модель в vllm, получает результат, говорит ей спать, и потом запускает уже остальной воркфлоу. Вероятно в комфи тоже есть какие-нибудь команды или кастом ноды на свап в озу - так и победишь.

Другой вопрос что вллм это ебань та ещё в плане установки, лул.

Аноним 06/06/26 Суб 10:11:01 #233 №1626515

>>1626481
>ризонинг срёт сэйфти и бат вейт
Накатывай апасную версию если не можешь в префил синкинга.

Аноним 06/06/26 Суб 11:10:45 #234 №1626534

Unsloth Studio, все апдейты накачены, сломан ризонинг во всех моделях. Без разницы, поддерживает его модель, не поддерживает, включен, не включен, ризонинг не виден. Видно только generating... и больше ничего. Но он выполняется, после того как закончен видно Thought for 1 second и этот проделанный ризонинг. Хотя он может идти и минуту, и больше, но пишет всегда 1 second. Это я криво поставил или что это?

И если промпт был с картинкой то всё тут же само чинится и начинает работать, как костыль каждый раз картинку подсовывать. т.е. это баг, вот только на чьей стороне проблема?

Аноним 06/06/26 Суб 11:15:07 #235 №1626536

>>1626307
зачем он нужен для мое не пойму- она даже на 16рам/12врам влезет в 6 кванте

Аноним 06/06/26 Суб 11:41:35 #236 №1626542

>>1626536
Кому то нужно, гуглы хорошие, кум всем обеспечивают на любом железе. В отличие от китайцев

Аноним 06/06/26 Суб 12:20:53 #237 №1626564

>>1626478
Что тебе описывать надо? А так квен среди мелочи в лидерах, даже 0.8б ебет.

Аноним 06/06/26 Суб 12:45:10 #238 №1626572

>>1626534
В чем проблема напрямую llama.cpp для инференса использовать?

Аноним 06/06/26 Суб 13:26:19 #239 №1626580

>>1626572
Там чёт вбивать в консоль, нихуя непонятно

Аноним 06/06/26 Суб 13:39:01 #240 №1626585

>>1626580
дебс спроси у "режима ии" гугла он тебе напишет скрипт для запуска

Аноним 06/06/26 Суб 13:59:11 #241 №1626592

>>1626355
Бамп. Никто не использует Квены 3.5-3.6 на Лламе что ли? Если используете - проверьте, пожалуйста, создаются ли чекпоинты. Как на пике в логах.

Аноним 06/06/26 Суб 14:00:57 #242 №1626595

AoTAGjYGJZ.png

1r9nmgYjm2.png

image.png

Нихуясе дипсик R1 анархист
Это он так договорится до того что на площади тианмэнь что-то произошло

Аноним 06/06/26 Суб 14:10:42 #243 №1626606

>>1626572
Проблема в том что это не unsloth. Отличный вопрос, давайте я тогда тоже спрошу а чо вы на рп дергаете когда есть более лутшы. Ты хоть в глаза видел этот анслоп, с этим багом сталкивался? Нет же, только хуету высрал с умным видом.

Аноним 06/06/26 Суб 14:12:29 #244 №1626607

>>1626606
>использует багованную ненужную залупу
>получает предложение вместо этого использовать работающий инструмент
>трясётся

Аноним 06/06/26 Суб 14:14:28 #245 №1626610

image

>>1626606
>Ты хоть в глаза видел этот анслоп, с этим багом сталкивался?
Нет конечно, мой комп не помойка, всяких анслопов туда ставить.

Аноним 06/06/26 Суб 14:17:22 #246 №1626611

>>1626606
Чел ты же понимаешь что в основе любой хуеты для запуска .ГГУФ это ллама.цпп?

Они ебашат преднастройки, васянскую оболочку попутно ломая то что работает.

Тебя справедливо обоссали.

Аноним 06/06/26 Суб 14:19:53 #247 №1626613

Будет ли новая QAT версия геммы-26б лучше чем старая в 6_K_XL?

>>1626417
- для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант? Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть. Насколько скорости SSD влияют на локальные модели?

Внезапно сдохнуть может всё что угодно, HDD не исключение. Здесь только RAID спасет, без разницы из SSD или HDD дисков. Если переживаешь за то что SSD сдохнет от того что ты на него записываешь что-то в большом количестве - то с хорошим SSD переживать за такое смысла нету если ты не льешь на него по 2ТБ в день, какой-нибудь самсунг быстрее сдохнет от того что у него контроллер умрёт, чем от того что ты упрешься в лимит перезаписи. А если записываешь просто по 100-200гб в день, он лет 10 проживет без каких-либо проблем и как я уже сказал сдохнет быстрее из-за контроллера, чем из-за перезаписи.

Насчёт скорости, модель грузится с с диска в память, поэтому наличие или отсутствие SSD будет напрямую влиять на этот процесс. И какая-нибудь большая модель весом 30гб+ будет грузится довольно долго при первом запуске. Но когда загрузится, разницы не будет потому что после этого будет использоваться RAM и VRAM, куда загружена модель.

Аноним 06/06/26 Суб 14:30:38 #248 №1626615

>>1626611
Он скапитанил и всё. Лама работает. Что дальше, трава зеленая? Я спрашивал на чьей стороне баг, получил только капитанство от какого-то дебича. Лама работает, вот это новость. Кто-то не знал, наверное.

Аноним 06/06/26 Суб 14:37:31 #249 №1626618

>>1626615
>Я спрашивал на чьей стороне баг
>Лама работает, вот это новость
Действительно, так много вариантов! На чьей же стороне баг...

Аноним 06/06/26 Суб 14:38:50 #250 №1626619

>>1626615
Если ллама работает а твоя васянка нет, попробуй хуй знает "режим ии" гугла спросить

Аноним 06/06/26 Суб 14:42:55 #251 №1626620

>>1626615
Ну то есть ты знаешь что ллама работает, но вместо этого зачем-то ставишь ее форк от косоруких анслопов.

Чому кобольды и анслоперы такие агрессивные? 😭

Аноним 06/06/26 Суб 14:45:54 #252 №1626622

>>1626618
Гемма, ты опять теряешь контекст. Перечитай первый промпт, я написал что может поставил криво и баг может быть и с моей стороны тоже.

Ты точно дебич, два факта в памяти не удержал.

Аноним 06/06/26 Суб 14:49:36 #253 №1626624

>>1626620
>>1626622
Семён не палится. Гений на уровне Киры Йошикаге

Аноним 06/06/26 Суб 14:52:05 #254 №1626625

image

>>1626624
Таблетки-таблеточки.

Аноним 06/06/26 Суб 14:57:34 #255 №1626628

image.png

>>1626625
Открыл две вкладки и такой like a boss

Аноним 06/06/26 Суб 15:06:02 #256 №1626634

>>1626422 >>1626471 >>1626427 >>1626613
Спасибо.
Так SSD банально нужен для скорости записи нейронок на диск и обращения к ним, так? Т.е. банально можно выделить SSD чисто под программирование, эксперименты и LLMки, а остальное залить на HDD?
Я правильно понимаю, что если, в случае HDD, он у тебя барахлит, ты его клонируешь на новый такой же, а старый кладёшь на полку, то со старым ничего не случится, а в случае SSD он от неиспользования просто сдохнет со всем твоим добром?
И ещё вопрос о памяти - так DDR5-8000 - оно вообще нужно или нет? Или это для оверлокеров? И, получается, только интел нормально поддержиает такую память? Амуда нишмагла?
Или DDR5 6000-6400 не настолько хуже?
У вас самих, если не секрет, что стоит y компе?

Аноним 06/06/26 Суб 15:08:00 #257 №1626636

Ставить чет кроме нвме в систему в 2к26 это кринж

Аноним 06/06/26 Суб 15:08:35 #258 №1626637

>>1626620
>Чому кобольды и анслоперы такие агрессивные?
То ли дело ЛМстудио-бояре. Успешные, уверенные в себе, но при этом скромные и всегда помогут советом.

Аноним 06/06/26 Суб 15:20:29 #259 №1626640

>>1626634
>для скорости записи нейронок на диск и обращения к ним, так?
Да.

>Я правильно понимаю, что если, в случае HDD, он у тебя барахлит, ты его клонируешь на новый такой же, а старый кладёшь на полку, то со старым ничего не случится, а в случае SSD он от неиспользования просто сдохнет со всем твоим добром?
Была как-то давно даже статья на хабре, что если долго держать SSDшки без питания, они начинают терять данные. Но долго - речь о годах, а не о днях-неделях.

Мой совет - не забивай голову на счет надежности SSD. Если это не дешманское барахло, то SSDшник у тебя несколько компов переживёт скорее всего. Просто периодически делай бекапы на HDD и храни его на полочке. Если ты держишь все данные только в одном месте (пусть даже на самом лучшем и надежном HDD), считай что у тебя уже нет этих данных. Бекапы - это база.

Аноним 06/06/26 Суб 15:22:15 #260 №1626641

>>1626640
Я мимокрок, но мб ты подскажешь. У меня вот как раз два дублирующих HDD есть, но они не в RAID, а просто внешники с идентичными данными, которые лежат на полочке. Если они будут лежать лет 5, файлам хуево не станет? Или 10? Стоит сделать манифест с хеш-суммами всех файлов/папок или как вообще эту задачу решать?

Аноним 06/06/26 Суб 15:32:38 #261 №1626646

>>1626641
Что-то слышал про то, что HDD может и 40-50 лет пролежать, пока размагничиваться не начнёт. Но инфа не соточка, на этот счет лучше корпо-нейронку помучать, наверное.

Свои бекапы организую довольно просто: файлы на компе дублируются на втором компе и дублируются на ноутбуке (везде SSD). Переношу на внешнем HDD и на нём же они остаются как дополнительная копия. Достаточно надёжно, ящетаю.

Аноним 06/06/26 Суб 16:10:46 #262 №1626660

>>1626634
> Так SSD банально нужен для скорости записи нейронок на диск и обращения к ним, так? Т.е. банально можно выделить SSD чисто под программирование, эксперименты и LLMки, а остальное залить на HDD?

Для "обращения" - не нужно. Когда ты общаешься с LLM, ты общаешься не с файлом который находится на диске а с его копией внутри RAM/VRAM. Взаимодействие с самим файлом будет только при первом запуске когда он копируется с диска в RAM/VRAM. И вот здесь скорость копирования будет напрямую зависеть от скорости чтения диска.

>И ещё вопрос о памяти - так DDR5-8000 - оно вообще нужно или нет? Или это для оверлокеров? И, получается, только интел нормально поддержиает такую память? Амуда нишмагла?
Или DDR5 6000-6400 не настолько хуже?
6000/6400 более чем достаточно. С текущими ценами на память покупать 8000 можно только если тебе совсем девать деньги некуда. Прирост для LLM небольшой будет но оно того не стоит, уж лучше потратить тогда деньги и поставить больше памяти, чем меньше но с большей частотой. Это, по крайней мере, позволит запускать более жирные MoE модели.

В добавок к этому, с 8000 могут возникнуть проблемы со стабильностью, да еще и на материнку придется потратиться которая сможет память на такой частоте запустить.

Аноним 06/06/26 Суб 16:15:09 #263 №1626664

>>1626646
>40-50 лет
Разве только абсолютно оторванная от жизни "сохранность данных на пластинах". В HDD всегда отказывают головы и механика, на блины никто не жалуется.
В даташитах к сигейтам указано, что их нельзя хранить, надо запускать раз в пару месяцев, а в идеальных условиях - раз в полгода или что-то в этом роде.

Аноним 06/06/26 Суб 17:07:56 #264 №1626669

>>1626427
Помню был зеленым, крутил модельки на своем С диске, в итоге он у меня не умер, но система просто так сильно лагать начала. И в этом скрывается главное пиздабольство тех, кто говорит 96-98% здоровье после 5 лет работы. У меня за 5 лет работы ресурс был 170TBW, при гарантированных 150 у бичевого смартбая на файзоне, а также 4к включений на 25к часов работы. В итоге кристал диск писал 41% здоровья. Казалось бы, не используй системный диск для моделек, но главный факт который они упускают - они не пользуются пк вообще.. Только какой-то ворд мб. Так как даже файла подкачки на этом диске у них нет, поскольку ТВW у таких за 5 лет работы на сасунгах под 10тб.

Аноним 06/06/26 Суб 17:17:54 #265 №1626673

image

>>1626669
Ну то есть ты купил ультрадешевый SSD, который не наебнулся через месяц, отслужил весь гарантийный срок и даже превысил заявленный заводской ресурс в 150TBW, но при этом ты чем-то недоволен?

>Так как даже файла подкачки на этом диске у них нет
А зачем он нужен при достаточном объеме рам? Тут у каждого второго тредовичка 64-128гб.

Аноним 06/06/26 Суб 17:21:04 #266 №1626675

>>1626673
Я доволен своим положением, я не доволен пиздежом в масс-культуре про сасунги и их 96-98% после 5 лет работы, так как это пиздеж-ложь-провокация
>А зачем он нужен при достаточном объеме рам?
А если у меня хром, сука, может кушать под 8гб на 16рама, то мемредакт устраняет эту проблему, и он как раз требует файл подкачки, так как выгрузит именно туда всю эту хуйню. Ну и файл подкачки используется для своих махинаций в винде, так что даже санные 4гб подкачки нужны будут даж на 512гб рама

Аноним 06/06/26 Суб 17:21:27 #267 №1626676

>>1626669
>крутил модельки на своем С диске
Так чтение ячеек не тратит ресурс

Аноним 06/06/26 Суб 17:22:41 #268 №1626678

>>1626676
Total Bytes Write, там не только чтение происходит а и запись, что в итоге вышло под 170тб записи и 150тб чтения

Аноним 06/06/26 Суб 17:29:00 #269 №1626680

>>1626669
"главное пиздобольство" это смешивание временной и причинно-следственной связи, а твоя проблема, скорее всего, называется петушиндовс

Аноним 06/06/26 Суб 17:34:52 #270 №1626684

>>1626680
>а твоя проблема, скорее всего, называется петушиндовс
Она была бы валинда, если те кто ссыт этим в уши сидели бы на убунту и тд. Но нет, они же указывают это на винде. Это не смешивание, а просто указывание на то, что они не используют компьютер в той мере, в которой использую ее я.

Аноним 06/06/26 Суб 17:44:01 #271 №1626688

Анон, помоги вкатуну-рукожопу.
Решил поиграться с этими языковыми моделями (и проиграл). Почитал базу, скачал llamacpp+SillyTavern. Хотел попробовать всякие кумерские фанфики погенерить, вычитал что magnum-v4-12b-Q4_K_M вроде как хорошо сочиняет. Запустилось, отвечает. Только пишет или пресно, или бред, или в цикл самоповторов впадает. Крутил настройки таверны, но лучше не стало. Может есть готовые престы какие то под такие задачи?
И вообще, какого качества такая модель может писанину выводить? Понравилось как грок пишет, но видимо с моим железом такого и близко не получится (4070+16ram).

Аноним 06/06/26 Суб 17:46:00 #272 №1626689

>>1626669
> Только какой-то ворд мб. Так как даже файла подкачки на этом диске у них нет, поскольку ТВW у таких за 5 лет работы на сасунгах под 10тб.

980 Pro, 3 года, файл подкачки включен, качаю LLM и игры и активно пользуюсь виртуалками. 60TB за всё это время и 96%. При заявленном ресурсе 1200TB, а по тестам на достижения лимита перезаписи самсунговские диски живут намного дол

Ну да, не качаю 50 разных квантов по 100гб каждой новой LLM, не качаю фильмы в BDRemux каком-нибудь по 50гб каждый и не держу 500 вкладок в браузере одновременно. В остальном компьютер используется самыми разными способами.

Поэтому не вижу смысла претензий про 10 лет и самсунги. Те кто занимаются монтажом могут и за 3 года его убить записывая терабайтами в день, но это не значит что все остальные у кого они живут больше двух лет врут.

Аноним 06/06/26 Суб 17:48:08 #273 №1626691

>>1626641
>Стоит сделать манифест с хеш-суммами всех файлов/папок или как вообще эту задачу решать?
Вообще нормальная для бекапа FS должна умееть делать это автоматически.
В частности, из популярного, на пингвинах есть btrfs - она по умолчанию хранит контрольные суммы для всего. Никакие silent corruption данным на ней не страшны. (Только не надо средство проверки с резервированием путать).

Аноним 06/06/26 Суб 17:48:15 #274 №1626692

>>1626689
Честно, анон. Пожалуй ты прав, даже с оговоркой что у них не про диск

Аноним 06/06/26 Суб 17:49:55 #275 №1626694

image

>>1626684
>Она была бы валинда, если те кто ссыт этим в уши сидели бы на убунту и тд
Валидна, получается.

У сосунгов своя память и свои контроллеры, это охуенно надёжные SSDшки. Независимые тесты ищутся за 5 минут в гугле. Единственный их минус - это лютый оверпрайс по сравнению с массмаркетом.

Аноним 06/06/26 Суб 17:56:14 #276 №1626695

>>1626688
>magnum-v4-12b-Q4_K_M
Этой модели года два, если не больше. В мире нейронок - это вечность. Просто скачай свежую гемму из гайда для новичков в шапке и будет тебе счастье.

Аноним 06/06/26 Суб 17:57:09 #277 №1626697

>>1626688
Ставь апасные тьюны геммы 26b, нах ты 12В лоботомита гоняешь.

Аноним 06/06/26 Суб 17:58:43 #278 №1626698

111.png

>>1626684
>Но нет, они же указывают это на винде.

Лол. Нет, Торвальдс миловал.

>>1626680-анон

Аноним 06/06/26 Суб 18:18:48 #279 №1626707

Untitled.png

>>1626675
> я не доволен пиздежом в масс-культуре про сасунги и их 96-98% после 5 лет работы, так как это пиздеж-ложь-провокация
Ради тебя скачал CrystalDiskInfo и проверил свой 2ТБ NVME2 от Самсунга, который использую каждый день с начала 2023. Вполне могу поверить в 96% после 5 лет работы. Это мой единственный диск в системе.

Аноним 06/06/26 Суб 18:39:23 #280 №1626718

image.png

>>1626707
Тут суть была в том, что их 96-98% были объясненены их TBW 10тб, у тебя же 2тб диск у которого по паспорту гаранития под 700-800 TBW
Вот эти аноны они просто указали диски без здоровья >>1626698
>>1626694
Вот как на скриншотах

Аноним 06/06/26 Суб 18:47:03 #281 №1626721

Ну что, где сравнение qat с обычными квантами? У gemma 3 qat сосал у обычных q4 квантов, мне кажется всеобщее молчание и отсутсвие бенчей говорят что и сейчас похожая хуйня.

Аноним 06/06/26 Суб 18:49:11 #282 №1626722

>>1626721
Я сижу на 8 кванте, и не думаю, что qat, даже самый продвинутый, сравнится с ним. Поэтому даже не качаю, трафик экономлю.

Аноним 06/06/26 Суб 18:50:14 #283 №1626723

>>1626721
Ну вот возьми и сам прогони на бенчах каких-нибудь, с нами поделишься.

Аноним 06/06/26 Суб 19:00:05 #284 №1626726

Если у меня 16 гигов 5060ти и я хочу писку ебать, то 2.5 14B будет лучше чем 3.5 35B???

Аноним 06/06/26 Суб 19:02:51 #285 №1626727

>>1626726
2.5 и 3.5 квена? Ты можешь конечно попробовать квен, но я на твоем месте мозг не ебал и установил гемму4 26б-а4б. Если у тебя 16 врама и 16 озу то можешь спокойно скачать Q6_K или Q8_0 и будет тебе счастье

Аноним 06/06/26 Суб 19:02:56 #286 №1626728

>>1626726
> Если у меня 16 гигов 5060ти и я хочу писку ебать
То ты берешь гемму, а не квен.

Аноним 06/06/26 Суб 19:07:23 #287 №1626730

>>1626727
>>1626728
Спасибо.
>>1626727
>то можешь спокойно скачать Q6_K или Q8_0 и будет тебе счастье
23 и 28 гигов влезут разве + контекст? Ну ок скачаю.

Аноним 06/06/26 Суб 19:13:46 #288 №1626736

image.png

>>1626730
Сколько у тебя памяти? Я значит сейчас гоняю эту qat q4_0 26b гемму, она весит 14гб, у меня 16 озу и 6 врама. Я поставил 32к контекста и 512 блас. Главное выставить в ней SWA и jinja, контекст смарт уйдет, но можно будет поставить контекст шифт. или наоборот, не помню эти названия.. Получаю сейчас на половине контекста 10 т\с

Аноним 06/06/26 Суб 19:19:01 #289 №1626742

image.png

>>1626736
А ну и да, забыл что тебе нужно часть на видеокарту сослать. Напиши там 10-15 слоев, я еще использую тензоры, чтобы на контекст хватило

Аноним 06/06/26 Суб 19:41:49 #290 №1626751

>>1625447
> Осталось поддержки дождаться.
В конец очереди!
>>1626695
> В мире нейронок - это вечность
Тем временем эйр такой отмечает 11 месяц...

Аноним 06/06/26 Суб 19:56:32 #291 №1626758

>>1626688
Если гемма 26б вдруг не зайдёт, то 12 врам с выгрузкой тебе должно хватать на относительно быструю работу тьюнов 24б мистраля, типа cydonia. Среди немо магнум тоже далеко не лучший. На инглише популярная классика MN-12B-Mag-Mell-R1, NemoMix-Unleashed и Rocinante. И да, мистрали лютейше лупятся, тут вряд ли что-то сильно можно улучшить, только править текст руками. Но и гемма тоже этим страдает, только кайнда по-другому. Ну и промптить тебе в любом случае придётся. Если у тебя уж магнум из всех возможных пишет пресно, то гемма вообще будет сухую ассистенщину писать, подозреваю. В соседнем корпотреде должно быть дохрена пресетов. Можешь почитать их и надёргать себе понравившиеся простые инструкции для более ярких описаний.

Аноним 06/06/26 Суб 19:58:42 #292 №1626760

>>1626736
10 т/с... плакать хочется... Куртка сука отдай память!

Аноним 06/06/26 Суб 19:58:46 #293 №1626761

Куда все геммашизики пропали ? Почему нет сравнений qat unsloth mrader bartowski ?

Аноним 06/06/26 Суб 20:02:27 #294 №1626763

>>1626761
Сам и сделай.

Аноним 06/06/26 Суб 20:06:07 #295 №1626765

>>1626763
Знать бы как

Аноним 06/06/26 Суб 20:34:09 #296 №1626775

Ну че, посоны?
Gemma-4-12b-QAT 70 тпс
Gemma-4-26b-a4b-QAT 170 тпс
Gemma-4-31b-QAT 40 тпс
+ tensor parallel 58 тпс!

Огнище же.
И бомжам 7-гиговая модель, и ребятам с парой 12-16-гиговых видях подгон.
Интересно, насколько там реальная деградация, и будет ли MTP.

Аноним 06/06/26 Суб 20:34:55 #297 №1626777

>>1626695
Дефолтная зацензурена. Скачивал - нахуй шлет.
>>1626697
Его мне другой лоботомит насоветовал (гемини).
>>1626758
Скачал из шапки G4-MeroMero-26B-A4B-Q4_K_M. Пока странно. На стандартных настройках таверны поначалу начала срать каким то техническим мусором, потом относительно нормально начала писать. По уровню пошлятины похоже на грок, но иногда Русскую грамматику забывает, не такие длинные тексты выдает и литературно как то победнее. Надо будет с промптами покрутить...

Аноним 06/06/26 Суб 20:45:14 #298 №1626781

>>1626775
>и будет ли MTP.
а разве не уже?
https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-unquantized-assistant

Аноним 06/06/26 Суб 20:45:53 #299 №1626782

>>1626751
> В конец очереди!
Да ладно, устроит если кто-то из китайцев в свои софтины добавит. Возможно даже хватит нормальной работы в sglang а пары вечеров чтобы навайбкодить.

Аноним 06/06/26 Суб 20:46:02 #300 №1626783

>>1626760
В том то и дело, что это не куртка а озу

Аноним 06/06/26 Суб 20:47:33 #301 №1626785

>>1626777
>Скачал из шапки G4-MeroMero-26B-A4B-Q4_K_M.
Не понравилась, хуйня. Стандартная гемма лучше, цензуры нет, систем промпт просто сделай нормальный, мне хватает даже басяцкого You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}. Use only Russian language.

Аноним 06/06/26 Суб 20:53:01 #302 №1626789

>>1626777
>Дефолтная зацензурена. Скачивал - нахуй шлет.
Странно, у меня не зацензурена и нахуй не шлёт, кум рекой льется.
>иногда Русскую грамматику забывает
Как и практически любой тюн/анцензор - это всегда сломанный русик.
>Надо будет с промптами покрутить...
Вот это уже в правильном направлении мысль. Попробуй сделать это в ванильной модели и удивишься на что она способна.

Аноним 06/06/26 Суб 21:06:40 #303 №1626794

Оно уже подходит к грани юзабельности, смог вместить макс контекст на 4070. Раньше такие влазили с 30к что просто ни о чем, пару постов агенту и уже переполнение

Я нигде не налажал? Может стоит уменьшить но убрать квантование кэша и как флеш атеншен влияет я тоже хз, тыкал по советам нейронки.

>llama-server -m C:\AI\gemma-4-12b-it-qat-q4_0.gguf ^
>-c 262144 ^
>--flash-attn on ^
>-ctk q8_0 -ctv q8_0 ^
>--chat-template-file C:\AI\gemma4.jinja ^
>--host 127.0.0.1 --port 8080

Аноним 06/06/26 Суб 21:08:27 #304 №1626795

>>1626736
Сравни с просто 4 ks от бартовски по скорости, может быть быстрее

Аноним 06/06/26 Суб 21:10:14 #305 №1626796

>>1626794
Налажал с выбором модели, ддя агентов квен 3.5 9b или 35b moe

Аноним 06/06/26 Суб 21:18:32 #306 №1626799

>>1626796
Квен тупой же, по ощущением в разы тупее геммы. Хотелось потыкать локалки годны они хоть на что-то или нет пока не очень впечатлило.

Овлальфа на опенроутере фулбесплатный и даже умнее чутка ощущается

Аноним 06/06/26 Суб 21:21:13 #307 №1626800

>>1626799
>Овлальфа на опенроутере фулбесплатный и даже умнее чутка ощущается
И всего-то минимум в 20 раз больше. Но это так, мелочи

Аноним 06/06/26 Суб 21:26:43 #308 №1626801

>>1626800
Да, там явно архитектурно убогая модель которая создана собирать датасет из-аз чего такая щедрость.

Но что это меняет? Оно лучше всего что можно поставить локально на всем кроме хх90 если только.

Я пока нашел лишь одно применение, использовать квен 2.5 3б для автокомплита

Аноним 06/06/26 Суб 22:41:48 #309 №1626817

image.png

>>1626777
Анон: "начала срать каким то техническим мусором"
Ризонинг блок:

Аноним 06/06/26 Суб 22:48:17 #310 №1626820

image

>>1626318
>в третьей гемме qat был сломан русик
Сам себе не ответишь - никто не ответит. Скачал четвертую гемму 26b qat от анслопов, потестил немного, на первый взгляд русик не пострадал. Отвечает достойно, какой-то значительной деградации по сравнению с Q8 не заметил. Годнота!

Аноним 06/06/26 Суб 23:57:10 #311 №1626837

Правильно понимаю что эту 31b qat модель скоро начнут сжимать ещё больше и появятся её гуффы меньше чем 17+ гигов?

Аноним 07/06/26 Вск 00:04:03 #312 №1626841

>>1626837
Нет. Как ты вообще мог до такой хуйни додуматься?

Аноним 07/06/26 Вск 00:05:17 #313 №1626842

>>1626841
Мне сетка так сказала. Так что меньше чем 17гб не будет?

Аноним 07/06/26 Вск 00:13:03 #314 №1626844

>>1626842
>Мне сетка так сказала.
Бесплатная версия небось.
>Так что меньше чем 17гб не будет?
Нет смысла сжимать уже сжатую версию. Если тебе нужно меньше 17 гиг, бери кванты обычной.

Аноним 07/06/26 Вск 00:14:48 #315 №1626846

>>1626837
Возможно выдумают новую технологию, другую архитектуру моделей и оно будет меньше но это явно не ближайшее время

Аноним 07/06/26 Вск 00:19:32 #316 №1626849

>>1626846
>>1626844
Так у них там не сжатая и они сделали 17гб анслот чуть меньше значит можно ещё меньше сделать не

Аноним 07/06/26 Вск 00:29:42 #317 №1626853

>>1626849
Почитай про квантование и не пиши, пока не освоишь, что это.

Аноним 07/06/26 Вск 00:30:56 #318 №1626854

Поясните про QAT, пожалуйста.
Я так понимаю, там типа q4 с качеством q8?
Это только для геммы? А то при таких вводных очень вкусно смотрелся бы квен 122, или по крайней мере 27B, а то SWA выглядит говновато, если в ролеплее надо все данные контекста учитывать.

Аноним 07/06/26 Вск 00:33:57 #319 №1626856

>>1626853
То что я прочитал противоречит тому что ты говоришь поэтому и пересрашиваю.

Аноним 07/06/26 Вск 00:40:24 #320 №1626861

А ведь qat гемма пишет по-другому в сравнении с q4. Вроде правда лучше.

Аноним 07/06/26 Вск 00:41:11 #321 №1626862

coronavirus-quagmire.gif

Ребятам которые посоветовали 4 гему тройной респект выражаю ещё раз. До мозолей на члене не было уже лет 10. Все простыни в доме колом стоят.

Аноним 07/06/26 Вск 00:52:33 #322 №1626866

>>1626854
Спорно какое качество, очень сложно сравнивать.

То что само квантование учитывали в обучении\дообучении не значит что это q4=q8 скорее, что оно не такое ебаное q4 как было бы.

Аноним 07/06/26 Вск 01:13:09 #323 №1626868

>>1626862
Открой все окна чтобы не отравиться озоном
Выключи все мерцающие флуоресцентные лампы
Увидишь Элару - беги.
везёт тебе. а я наверно слишком чувствительный к слопу, он hits me like a physical blow каждый раз. не могу больше геммой пользоваться

Аноним 07/06/26 Вск 02:36:27 #324 №1626885

>>1626070
>>1626112

Большое спасибо!
И вам, и анонсам, которые писали шапку. Перечитал всё, почерпнул много нового и удалось развернуть две модели по вашим советам.
Кажется, оно! Потрачу ещё пару дней и буду лучше понимать.

>Впрочем, у тебя там такие задачи охуительные, что как минимум Opus юзать надо. Любая локалка обосрется с тем же UI, особенно квен. А вот гемма с интерфейсом получше справится.

Да, понимаю, я описал идеальный вариант. Мне скорее натягивать вёрстку, а это чуть проще должно быть

Аноним 07/06/26 Вск 02:48:19 #325 №1626887

>>1626837
Терпи нах 16гиговый. Тольковыиграл. Прогрелся на ЗАТО НОВОЕ терь страдай без нормального кванта

Аноним 07/06/26 Вск 02:48:28 #326 №1626889

>>1626799
Гемма лучше зирошотит какие то задачки, но агентом только квен в таких размерах, он ебет. Ну а еще он не рассыпается на 100к контексте, гемма во первых плохо видит большой контекст и хуже как агент изза этого во вторых, у нее предел чет около 60к в оптимистичной оценке

Аноним 07/06/26 Вск 03:10:10 #327 №1626893

>>1626889
Тише будь, попугай

Аноним 07/06/26 Вск 06:22:32 #328 №1626912

>>1626820
Пострадал.
Погонял на русском, заметно хуже.
Иногда реально самую малость, иногда пачкает штаны на каждом шаге буквально - согласование, слова придумывает, контекст теряет явно сильнее. На удивление сильно рефузит. Короче сносно, но (не помню как там на Q4 было), до Q8 отчетливо не дотягивает, чуда не произошло.

Аноним 07/06/26 Вск 09:22:51 #329 №1626945

>>1626853
>>1626846
>>1626844
Вышли qat от 18 до 12
https://huggingface.co/mradermacher/gemma-4-31B-it-qat-q4_0-unquantized-i1-GGUF

Аноним 07/06/26 Вск 11:35:30 #330 №1626979

image

База по квантам

Аноним 07/06/26 Вск 11:41:30 #331 №1626982

>>1626893
Терпи

Аноним 07/06/26 Вск 11:48:28 #332 №1626984

image

О нет, только не это. Обезьяна продолжает добивать наш уютный тредик пиаром АПАСНЫХ моделей.

Аноним 07/06/26 Вск 12:00:20 #333 №1626986

>>1626984
Хуйхуй ни о чем. Вот мелоди ноги раздвигает на первом аутпуте игнорируя карточку. Такой шлючьей модели ещё не видел.

Аноним 07/06/26 Вск 12:03:49 #334 №1626988

>>1626984
>>1626986
>гемма 4 12б
Что там? Достойный соперник мистралю немо 12б?

Аноним 07/06/26 Вск 12:07:01 #335 №1626991

>>1626979
QAT Q4_0 скорее всего проигрывает Q6 и совершенно точно хуже, чем Q8.

Аноним 07/06/26 Вск 12:13:22 #336 №1626993

Уже mtp на 12b qat есть. Представляю какая там скорость. Но я жду 15гиговую qat 31b.

Аноним 07/06/26 Вск 12:16:13 #337 №1626994

image

>>1626993

Аноним 07/06/26 Вск 12:20:25 #338 №1626996

>>1626993
>mtp
Это даст хоть какой-то прирост, если модель частично на цпу? Не хочу опускаться ниже Q4, а он в 16 врам не лезет.

>15гиговую qat 31b
Так и оно тоже в 16 не влезет, про контекст-то не забывай. 12-13гб впихнется, наверное, но там совсем лоботомитище будет.

Аноним 07/06/26 Вск 12:22:36 #339 №1626999

>>1626994
Этот mtp требует драфт модель или это mtp декодинг благодаря слоям самой модели?

Аноним 07/06/26 Вск 12:24:30 #340 №1627000

Снимок экрана20260607142045.png

images.jpeg

Аноним 07/06/26 Вск 12:26:14 #341 №1627001

>>1626988
>что там?

Говно. Но соперник достойный. Правда вот, 12б не нужна, ибо нищуки легко могут гонять МоЕ квена и гемму. Они даже в четвёртом кванте умнее будут, правда на английском. Если вот русик нужен, тут уже проблемы — 12б гемма хуже в русском 10б МоЕ гигачата.

Аноним 07/06/26 Вск 12:26:31 #342 №1627002

А в лламу цпп так еще и не завезли поддержку mtp геммы до сих пор?

Аноним 07/06/26 Вск 12:41:59 #343 №1627005

>>1626868
Блядь. Я думал, так только ГЕМИНИ спамит. А оказалось, что и гемма. Просто ни разу не встречал у неё такие лампы. Вот озон да. Вот "он не просто срал, он обсирался". Сенсорной перегрузки тоже много. Но чтобы и лампы эти.. Кстати, олд мена хемлока там не было?

>>1626854
С качеством Q4+. Короче, просто будет лучше, чем грамотно сделанный квант аналогичного размера, но не более того.

>>1626945
Так QAT — это максимальный шакалинг. Примерно как у фотографа, который берёт равку, СЖИМАЕТ и редактирует настолько, насколько может (особенно это актуально раньше было), чтобы было приемлемое качество для печати на говнопринтере в фотостудии "ВСЁ ФОТО ЗДЕСЬ". Оно может смотреться неплохо, но это уже предел допустимого. Сжимать уже сжатое затея супер хуёвая.

Аноним 07/06/26 Вск 12:47:08 #344 №1627008

don.png

mashka.png

Норм, думал будет хуже.

Аноним 07/06/26 Вск 13:08:14 #345 №1627013

>>1627002
Чел любая васянка которую ты можешь представить и которая запускает .ггуф имеет под копотом ламуцпп

Аноним 07/06/26 Вск 13:10:24 #346 №1627015

>>1626996
> >mtp
> Это даст хоть какой-то прирост, если модель частично на цпу?
Не даст хуже будет даже.

> Так и оно тоже в 16 не влезет, про контекст-то не забывай. 12-13гб впихнется, наверное, но там совсем лоботомитище будет.
Влезет если у тебя 30-200 мегабайт vram системой занято.

Аноним 07/06/26 Вск 13:12:05 #347 №1627020

>>1627013
У вллм и сгланг под капотом жора? Во прикол

Аноним 07/06/26 Вск 13:15:32 #348 №1627024

>>1627005.

> Так QAT — это максимальный шакалинг.

Траст ме бро?
Предпочту проверить сам, к квалификации местных экспертов есть вопросики особенно после вчерашних обещаний что qat меньше 17 гигов не жди.

Аноним 07/06/26 Вск 13:15:59 #349 №1627026

>>1627013
Это ты к чему? mtp же не эксклюзивно для gguf в любом случае. Но я глянул, пока что вроде еще не слито в главную ветку поддержка mtp для геммы в лламе цпп.

Аноним 07/06/26 Вск 13:16:58 #350 №1627027

>>1626592
Что ж, отвечу сам себе. Квены 3.5-3.6 используют такой вид аттеншена, что чекпоинты необходимы. По крайней мере, в имплементации Лламы. Это не swa аттенш и не swa чекпоинты, но флаг используется тот же и суть в целом та же. Так что это не баг, а ожидаемое поведение. На Гитхабе есть несколько ишью, что репроцессинг происходит тогда, когда его быть не должно, но это не мой кейс. В целом, для ассистенточатика и агента без фоновых процессов в 24+128 вполне лезет 122б Q8 с виженом и 256к контекста. ~9 tg, ~350pp. Медленно, но юзабельно.

Аноним 07/06/26 Вск 13:18:10 #351 №1627030

>>1627027
*Уточню, что 128 DDR4 3200. В целом модель хорошая, но будь у Геммы gated deltanet - не оставила бы Квену и шанса, пожалуй.

Аноним 07/06/26 Вск 13:21:12 #352 №1627031

>>1627020
это для баринов

>>1627026
локалки это ггуф всегда в потребительском секторе, я к тому что если ты видел где-то работающее значит и на лламе будет

Аноним 07/06/26 Вск 14:24:26 #353 №1627066

>>1627024
Блядь. Ты понимаешь, что модель обучена работать ТОЛЬКО в той точности, которую задал ей Гугл? Шаг влево, шаг вправо — и всё посыпется. Да, полные веса тоже не рассчитаны на шакалинг, но при грамотной квантизации они подвергаются куда меньшей деградации, чем в случае изменений QAT-версии. Менять QAT — стрелять себе в член.

Ну если не веришь, просто спроси и корпоративной нейронки, включи дип рисёрч, пусть вытащит всю инфу про QAT, комментарии экспертов и расскажет тебе.

Аноним 07/06/26 Вск 14:31:35 #354 №1627071

>>1627005
> Так QAT — это максимальный шакалинг. Примерно как у фотографа, который берёт равку, СЖИМАЕТ и редактирует настолько, насколько может (особенно это актуально раньше было), чтобы было приемлемое качество для печати на говнопринтере в фотостудии "ВСЁ ФОТО ЗДЕСЬ". Оно может смотреться неплохо, но это уже предел допустимого. Сжимать уже сжатое затея супер хуёвая.

Разве эта аналогия не для обычных квантов больше подходит? Где как раз таки в качестве RAW выступает safetensors формат а потом сжатие идет в различные кванты.

А QAT как раз таки еще на стадии "RAW" тренируется в 4bit.

Не защищаю QAT и все еще жду тестов чтобы понять лучше ли 6_K_XL чем 4bit QAT, потому что экономия 8гб памяти выглядит очень вкусно.

Аноним 07/06/26 Вск 14:32:34 #355 №1627074

>>1627024
> после вчерашних обещаний что qat меньше 17 гигов не жди.
Что абсолютная правда, потому что QAT в данном конкретном случае обучался для квантования в 4 битах. Если его квантовать после этого, он будет работать хуже обычных Q2-Q3 квантов. Как минимум не лучше. Это так же глупо, как архивировать .zip архив в другой .zip архив.
> Предпочту проверить сам
Меньше балаболь - больше проверяй сам, а не генери токсичность в треде, ничего не понимая в сабже.

Аноним 07/06/26 Вск 14:36:23 #356 №1627077

>>1627074
> > меньше 17 гигов не жди.
> Что абсолютная правда

А это что
>>1626945
Сделали же меньше 17, сделали.

Аноним 07/06/26 Вск 14:39:31 #357 №1627079

>>1627077
> А это что
> Сделали же меньше 17, сделали.
Ты же грозился проверить сам. Чего не проверил? Или для тебя достаточно, что сам квант существует? Скачай, запусти и погоняй любые тесты-вопросы. Убедишься, что он работает как говно без задач.

Аноним 07/06/26 Вск 14:45:59 #358 №1627082

Я так и не понял что качать обычные кванты статические или КАТ квантованный? Для геммы 4 12б, будто бы разницу под залупой надо разглядывать, особенно если ты не кодер и не математик. Ещё будто бы хуйхуя аблитерация интереснее, чем еретик, еретик стесняясь писал хуйню на параграф максимум, хуйхуй сразу уверенно выдал стену

Аноним 07/06/26 Вск 14:48:59 #359 №1627084

>>1627079
Доказательство бремя утверждающего. Я не говорил что он не тупой, говорил что он есть. Так что проверь если тебе не сложно, у меня интернет лимитный. q3-km версия 15.3 гигабайта.

Аноним 07/06/26 Вск 15:00:10 #360 №1627088

>>1627084
>Доказательство бремя утверждающего.
Откуда этого говна нахватываются кстати? С уроков филосифии в шараге?

>>1627024
>Предпочту проверить сам
Ну давай, ждем, ты утверждал что местные аноны не достойны твоей веры и тебе нужно это доказать.

Аноним 07/06/26 Вск 15:03:13 #361 №1627090

>>1627088
Ты что-то про токсичность говорил?

Я проверю когда будут рп тюны чтобы не зря качать. А сейчас пока нет даже анценза или не нашел его.

Аноним 07/06/26 Вск 15:04:34 #362 №1627092

>>1627090
А я другой анон, просто решил к вам с ноги зайти, привыкай

Аноним 07/06/26 Вск 15:19:26 #363 №1627100

>>1627092
Ну нахуй идешь тогда, лол. Если что то утверждаешь без пруфов, то нахуй идешь.
Привыкай.

Аноним 07/06/26 Вск 15:22:36 #364 №1627101

>>1627100
Терпи.
И не важно с кем ты общался, ты поставил под сомнение выводы местных анонов, а значит без доказательств их пиздежа ты идешь нахуй пока не притащишь пруфы. Но ты решил слится да?
Где же твое кококо беря доказатеьства на утверждающем?
Работает только когда тебе выгодно да? Очень удобно, согласен

Аноним 07/06/26 Вск 15:26:47 #365 №1627106

>>1627092
Ладно.

>>1627101
Это не я писал.

Аноним 07/06/26 Вск 15:29:55 #366 №1627110

>>1627106
Чертовы мимики они повсюду

Аноним 07/06/26 Вск 15:44:34 #367 №1627121

>>1627084
> Так что проверь если тебе не сложно
Уже проверил и даже написал, что из себя представляют данные кванты. Пруфы тебе тут собирать не буду, обойдешься. Никто тебя за язык не тянул и не побуждал наваливать, что все вокруг набрасывают, а ты все проверишь сам. Проверяй.

Аноним 07/06/26 Вск 15:54:18 #368 №1627128

Как сделать что бы кеш только на одной карте был?
Я вижу что после начала генерации на второй карте все равно врам подскакивает, хотя по идее там только слои должны лежать.

Аноним 07/06/26 Вск 15:55:11 #369 №1627129

>>1627090
> Я проверю когда будут рп тюны чтобы не зря качать. А сейчас пока нет даже анценза или не нашел его.
Не будет их. QAT + тюны = невозможно, что еще раз подтверждает полное неведение в сабже. Ты там не просох еще или почему метаешься между "вы все врети, я проверю сам" до "проверь, пожалуйста" и откровенной околесицы?

Аноним 07/06/26 Вск 15:56:26 #370 №1627130

>>1627128
MOE?

Аноним 07/06/26 Вск 15:57:00 #371 №1627131

Точно, можно же на встройке систему запустить.

Будет +2гб ВРАМ

Аноним 07/06/26 Вск 15:58:11 #372 №1627133

>>1627130
Ага новую гемму пробую

Аноним 07/06/26 Вск 17:02:10 #373 №1627172

>>1626785
>>1626789
Ладно беру свои слова назад. С систем промптом гема пиздц извращуга. В ламовском фронте все работает. Значит надо крутить настройки таверны (а может и хуй с нет. и так збс).

Аноним 07/06/26 Вск 17:37:55 #374 №1627191

Кто там всё ныл, что жора продался китайцам и не завозит mtp для геммы? Замерджили реквест, можешь качать и наслаждаться
https://github.com/ggml-org/llama.cpp/releases/tag/b9549

This PR adds MTP support for Gemma 4 models. For the MoE model I don't observe a speed-up on my system, but the dense model has on average >2x speedup. Correctness wise I am able to replicate the AIME-26 (~87%) results as advertised by the Gemma team. This works for the 31B and 26B-4B but not the E4B E2B variants for now.

Аноним 07/06/26 Вск 17:49:01 #375 №1627200

>>1627191
Учтите, что для QAT кванта нужна QAT драфт модель. Ее вроде пока нет. Хз, нормально ли будет работать safetensors гугла.

Аноним 07/06/26 Вск 18:23:36 #376 №1627214

Господа, попробовал Gemma 4 и в таверне, она обрезает текст и прямо шпарит с шаблона первого сообщения весь чат. Юзал эти настройки >>1626114
Как быть?

Аноним 07/06/26 Вск 18:24:42 #377 №1627215

>>1627214
Непонятна твоя проблема. Покажи скрины. Какой квант, сэмплеры?

Аноним 07/06/26 Вск 19:02:54 #378 №1627228

Снимок экрана20260607205424.png

Снимок экрана20260607205130.png

Снимок экрана20260607210053.png

>>1627215
gemma-4-31B-it-Q4_K_S
Другие модели не обрезали раньше. На третьем скрине видно, что формат первого сообщения повторяется до скончания веков потом.

Аноним 07/06/26 Вск 19:12:51 #379 №1627239

>>1627228
Я все еще не понимаю, что там обрезается. На втором пике сломанное форматирование с нулевого(!) сообщения, что гарантирует плохие выводы впоследствии. Чем накормишь модель - тем она и будет отвечать. Так, если у тебя сломанное форматирование с самого начала - оно будет сломано и дальше. Если речь про то, что ответ не содержит логического окончания фрагмента текста - это ожидаемое поведение, ты ограничил бюджет ответа 350 токенами. Для некоторых моделей это слишком мало, потому так и происходит, а некоторые найдут способ закончить так быстро. Повторение формата сообщения - это структурный лупинг, и совсем другая проблема.

Аноним 07/06/26 Вск 19:27:06 #380 №1627248

>>1627228
попробуй при запуске проставить этот файл https://pastebin.com/hnPGq0ht

не знаю где в твоей васянке, но в ванильной лламе есть флаг -чат-темплейт-файл

Аноним 07/06/26 Вск 19:33:11 #381 №1627250

>>1627228
Min p включи чтобы отрезало ироглифы и бред от 0.05 и поднимай до 0.2 в крайнем случае. И дай ей дышать на ответ слишком мало.

Аноним 07/06/26 Вск 19:33:38 #382 №1627252

>>1627250
>на ответ
350 на ответ

Аноним 07/06/26 Вск 20:06:30 #383 №1627265

>>1627228
Ты ебанутый? Ставь исключительно те семплеры, которые рекомендованы разработчиками. Отключи сраный adaptive p, dry. Ну и тут тебе сказали про ответ в токенах. С мышлением модель пишет 1200-2500 токенов обычно, а без него 400-800. Ну коль хочешь, указывай модели, чтобы отвечала кратко. Напиши примерное количество абзацев, предложений, которые ты ожидаешь от неё, при этом оставь хотя бы 1000 токенов на ответ.

Иероглифы она как раз пишет из-за твоих ебанутых семплеров, которые ты включил.

Min p не трогай, про который тебе говорили. Гемме это совершенно не нужно. Более того, модель чрезвычайно детерминирована. Ты можешь все семплеры отключить, поставить температуру 1 и ответы почти ничем не будут отличаться. Но лучше сделать так, как было написано у Гугла в рекомендациях.

Это с некоторыми старыми моделями можно семплеры дёргать, ну и с теми, которые не слишком детерминированы. Или при специфических задачах. А гемме температуру хоть 0, хоть 999 ставь — ответы будут одинаковы почти и без бреда, если top p 0,95 и top k 64, как рекомендовано, в отличие от других моделей. При стандартном порядке семплеров.

Аноним 07/06/26 Вск 20:25:08 #384 №1627272

>>1627191
>жора продался китайцам
Никто этого не говорил, шиз. Наоборот, подсирает китайцам как может, пр на дипсик уже месяц висит, жора просто делает вид что его не существует.

Аноним 07/06/26 Вск 20:43:00 #385 №1627276

Гемма 31б QAT Q4 + MTP, скорость выросла с 35 токенов до 78. Ахуеть кайфуем.

Аноним 07/06/26 Вск 20:47:35 #386 №1627277

>>1627239
>ты ограничил бюджет ответа 350 токенами
Кстати, как тут правильно поступить если я хочу короткие сообщения но не хочу упираться в обрезы?
Почему нет слайдера "софт лимит" или типа того, когда модели отправляется указанное число как желаемое, но на самом деле лимита технически нет? Тупейшая реализация если честно

Аноним 07/06/26 Вск 20:51:12 #387 №1627278

>>1627276
Осталось дождаться QAT+KVarN не в говнофорке

Аноним 07/06/26 Вск 20:51:12 #388 №1627279

>>1627250
>>1627239
>>1627248
>>1627265
Благодарю. Сейчас протестирую.

Аноним 07/06/26 Вск 20:59:32 #389 №1627286

>>1627278
*QAT+KVarN+MTP

Аноним 07/06/26 Вск 21:04:04 #390 №1627289

>>1627286
>>1627278
Да нахуй не надо. Гемма с бф16 кешем то разваливается после 60к
В 24гига спокойно лезет q4 qat, draft и 50к контекста

Аноним 07/06/26 Вск 21:46:04 #391 №1627298

>>1627276
а где её взять?
вчера скачал https://huggingface.co/google/gemma-4-31B-it-qat-q4_0-gguf, но там вроде нету MTP

Аноним 07/06/26 Вск 22:01:00 #392 №1627307

>>1627298
Это оно https://huggingface.co/models?search=gemma-4-31b-it-qat-q4_0-assistant-gguf ?

Аноним 07/06/26 Вск 22:24:31 #393 №1627319

>>1627307
Да.

Аноним 07/06/26 Вск 23:07:33 #394 №1627336

>>1626979
Главная база - хороший квант не имеет буквы q в названии.
>>1626984
Лол

Аноним 08/06/26 Пнд 00:08:23 #395 №1627376

Время охуительных историй. В прямом и переносном смысле.

Сегодня из интереса страдал полу(?)херней экспериментируя с тем, что квен и гемма (и их тюны) умеют в плане работы с "художественным" (фанфик это был, фанфик) текстом в относительно больших объемах. . Как среда для работы использовался opencode (да, это я - тот упоротый, который в нем даже RPшит).

Сначала был скормлен модели один специфический фанфик длинной в 116КБ в формате plain text с заданием - сделать суммари сюжета, написать резюме каждого персонажа, и сформулировать особенности стиля "чтобы ты сам понял по этой инструкции как написать в таком стиле". Тут ничего интересного не случилось - управились все, практически одинаково.

А вот дальше, я набросал ~5kb сценария для как бы второй части и дал задачу: "Используя файл суммари и файл сценария, напиши мне вторую часть рассказа, но так чтобы его длинна была примерно как у первого". И вот здесь началось интересное.

Gemma 4 26B-a4B, как выяснилось, на такое не способна принципиально, в любой эпостаси. Эта хрень даже не смогла преодолеть рубеж в 4096 токенов на вызов инструмента (техническое ограничение сетапа) - т.е. подобный текст модели надо писать кусками иначе ошибка вызова инструментов получается. Gemma мало того что не вкуривает, так еще и прямое указание "разбивай работу на части, пиши по N строк" игнорирует. MeroMero, на удивление хотя бы попытался выполнить инструкцию, но все равно не вкурил что нельзя для всех частей использовать инструмент write - он перезаписывает файл. Нужно для второй части и далее вызывать edit чтобы дописать в файл.
Эти были в Q8, если что. (А плотная гемма с нужным контекстом в мое железо не лезет, увы.)

Далее попробовал этой же задачей помучать квен 27B (iq4xs - этот как раз помещается).

Чистый квен 3.6 справился легко, все технические нюансы вкурил сам, написал рассказ... и сказал: "у меня тут маловато получилось, зато строго по сценарию". Сам текст - как обычно, слегка суховатый, "технический".

Тюн квена 3.5 Marvin - технически тоже справился сам но думал над ошибкой переполнения дольше. Зато текст живее. Хотя фактологические отклонения от сценария появились. На размер тупо забил, ничего не сказал. Написал примерно 40KB вместо 116.

Тюн квена 3.6 Melody1437 - сам не разобрался что происходит, почему ошибка переполнения. Но с уточнением в инструкции - послушался и стал писать частями без проблем с первого раза. Очень качественный текст - лучший из всех попробованных моделей. Но самое интересное началось дальше - он написал ~30кб, а потом говорит: "Ой, у меня тут что-то совсем мало. Так нельзя, меня просили 116Kb. Надо увеличивать размер, буду добавлять детали и сцены" - и сцуко, таки начал именно это и делать. Причем по делу. Я когда начал вчитываться - разница по качеству текста у этого тюна и стока 3.6 - как у этого самого 3.6 и 3.5, если не больше. В общем - прифигел я малость.

Да, это были тексты на английском.

Мораль? Выводы? Нет их. Чисто поделился субъективными наблюдениями, может кому пригодится.

Аноним 08/06/26 Пнд 00:16:58 #396 №1627377

>>1626984
>гемма
>китайская нейронка
Уровень экспертности зашкаливает.

Аноним 08/06/26 Пнд 00:32:08 #397 №1627384

Вроде этот кат к4 лоботомит и хуже чем обычный к4

Аноним 08/06/26 Пнд 01:21:43 #398 №1627394

>>1627376
Думаю из них лучше будет гемма 26 qat несжатая с мышлением и mtp для скорости. Завтра на неё должен выйти первый анценз.

Аноним 08/06/26 Пнд 02:11:22 #399 №1627402

>>1627172
А я вот тоже беру свои слова назад. QAT гонял сейчас два дня, там понял что она не хочет описывать как сосет, plap-plap и прочее. Она не уходит от ответа, она дает дальше, но не описывает прямой половой акт, а завуалированно делает это. Не помню было ли это в обычной гемме4, но сейчас поставил heretic QAT и она наконец начала описывать минет и прочее, но она тупее чуть, пока даже по тексту видно. Поэтому прошу систем промпт который обойдет данную шелуху.

Аноним 08/06/26 Пнд 02:15:57 #400 №1627404

>>1627376
Неиронично попробуй тоже самое через pi

У геммы проблемы с вызовом тулов у самой по себе на большом размере контекста и обилие лулов у опенкода из коробки нихуя не помогает

Аноним 08/06/26 Пнд 02:40:49 #401 №1627411

>>1627377
Офк китайский относится к автору аблитерации, это у тебя контекст 3 токена, и тот кончился.

Аноним 08/06/26 Пнд 05:16:36 #402 №1627417

Я скачал на тест себе Qwopus 3.5, это типа квин но обученный на ответах клауда? Ещё работает медленно на моём ведре, есть тут кто шарит за тему клауда? У геммы тоже нашел подобное.

Аноним 08/06/26 Пнд 09:27:23 #403 №1627461

>>1627404
>Неиронично попробуй тоже самое через pi
Двачую. Плюсы Опенкода для РП - встроенный инструмент выбора вариантов (с возможностью ввода текста пользователя) и возможность вывода в браузер, под это в pi довольно легко можно написать (попросить агента написать) свои расширения. Локальный Квен-3.6 справится. Зато править собственные инструменты сможешь как захочется.

Аноним 08/06/26 Пнд 10:51:11 #404 №1627480

>>1627402
Есть мнение что анцензы нужны не только затем что не требуют промт который заставляет сетку а ещё тем что она с ними не пытается сгладить сцену замылить и не спотыкается выдавая результат хуже когда ты её нагибаешь промтом.

Аноним 08/06/26 Пнд 12:05:31 #405 №1627513

Какова должна быть идеальная бюджетная модель по вашему мнению, чтобы можно было за ~20-40к пеку модифицировать (не купить с нуля, а добавить к уже имеющемуся, среднему пк) для вката?
Мне кажется нужно 16-24гб врам, 32-48гб оперативы и нужно чтобы запилили хорошую МОЕ 100b с экспертами по 25-33b, чтобы можно было запустить в 4-5 кванте.

Аноним 08/06/26 Пнд 12:06:59 #406 №1627514

>>1627402
> heretic QAT
Создатели и потребители понимают абсурдность этого сочетания?

Аноним 08/06/26 Пнд 12:08:58 #407 №1627516

>>1627513
Хз, я бы на мое не очень рассчитывал. Плотняши лучше, имхо.

20-48 анон

Аноним 08/06/26 Пнд 12:17:22 #408 №1627519

>>1627516
Если ты можешь вместить эксперта в врам и всю модель в рам, то мое будет куда лучше, чем плотная модель которую ты сможешь вместить просто в рам

Аноним 08/06/26 Пнд 12:19:14 #409 №1627520

>>1627513
Учитывая, что никто не знает, что там дальше будет, то я бы закладывался в сбалансированную сборку, например 32 vram и 64гб ram. Так и плотнячки влезут, и средние МоЕ.

Аноним 08/06/26 Пнд 12:20:10 #410 №1627521

>>1627519
А как открыть 150 вкладок со срачами на двачах, если вся рама забита моделью? Вот именно.

Аноним 08/06/26 Пнд 12:22:57 #411 №1627522

>>1627513
Что-то типа 120б моэ, свитспот.
>>1627520
> сбалансированную сборку, например 32 vram и 64гб ram
База, если не космические цены то рам до 96-128 докинуть было бы полезно.

Аноним 08/06/26 Пнд 12:29:06 #412 №1627526

>>1627404
>>1627461
Все собираюсь Pi пощупать, но никак не задушу лень чтобы сетап нормальный с ним сделать. А пускать живьем на основную машину стрёмно - в нем вообще никаких встроенных ограничений нету. opencode хотя бы минимально проверяет всё, чего там модель дергает, номинально прикроет от попыток вроде "rm *" где не нужно. Да, слабенько, но хоть что-то. Pi же с его философией "безопасность и ограничения - не моё дело" из докера или виртуалки выпускать страшно.

Кроме того для opencode есть очень хороший плагин DCP, который хитро "сжимает" контекст так, что при этом почти не плывет его смысл для модели. В коде реально рулит по сравнению с стандартным compact.

Аноним 08/06/26 Пнд 12:52:48 #413 №1627538

>>1627516
Это ты с p104? А на какой скорости плотняшей гоняешь?

Аноним 08/06/26 Пнд 13:06:58 #414 №1627547

image.png

Короче, кто там спрашивал про чекпоинты.
Сейчас логика такая что чекпоинты создаются:
checkpoint перед последним user message
checkpoint около prompt_end + ubatch - 4
checkpoint около prompt_end - 4
Причем в этот prompt_end входит и отпущенный контекст под сообщение ИИ, который обычно примерно ubatch и равен.

Аноним 08/06/26 Пнд 13:12:20 #415 №1627552

>>1627513
Смотря для чего, для кума апгрейды выше 16/32 выглядят сомнительно и с учетом прогресса в этом деле за последние пол года тоже. Тут лучше не спешить.

Аноним 08/06/26 Пнд 13:44:18 #416 №1627569

>>1627480
Да вот с одной стороны и хочется чтобы описывала еблю, но с другой что она теряет ум
>>1627514
А в целом валидно что анцензоред лоботомитит на хоть какой-то процент. Попробовал хуйхуй уже обычную геммочку4, ну так же. Она тупее.

Аноним 08/06/26 Пнд 13:46:00 #417 №1627570

Я понимаю тут сидят серьёзные дяди с vLLM и ригом по 10к долларов, но хочется поделится опытом нищенейронщика, короче, дрочился я с MTP, чё-то выставлял, прироста 0 на 3060, с большим контекстом, с маленьким, похую, ставил разное количество --spec-draft-n-max, квантованный кэш и некванотванный. Отдельно тестил всяких анцензоред Гемм 4 12б, хуйхуй полная хуйхуйня бля, после 3-4 тысяч токенов сносит башню конкретно, кат еретик норм, лучше просто еретика, около 20к вроде полёт нормальный, дальше срать её лень заставлять

Аноним 08/06/26 Пнд 13:58:54 #418 №1627576

>>1627569
Qat при тренировке применяет к весам дополнительную транформацию, подгоняя их под дискретность кванта и приспосабливая модель сразу работать в таком виде. Еретики и подобные манипуляции завязаны на модификацию весов, нарушая изначальную подгонку под целевое квантование. Если полученное потом квантануть - получится хуже чем квант оригинальной модели. Это помимо побочных эффектов от расцензуривания, ломается сама концепция qat.

Аноним 08/06/26 Пнд 14:03:06 #419 №1627580

>>1627570
>анцензоред Гемм 4 12б
mtp на llama.cpp сегодня работает только в qwen3.6 unsloth/Qwen3.6-27B-MTP-GGUF . Остальное не удалось завести. На плотной модели прирост плюс-минус x2. На moe - х1.5. Мой конфиг для 2х 3060:
llama-server
--model /models/Qwen3.6-27B/Qwen3.6-27B-UD-Q4_K_XL.gguf
--mmproj /models/Qwen3.6-27B/mmproj-F16.gguf
-ts 1,1 -ngl 99 -c 65536 --cache-type-k q8_0 --cache-type-v q8_0 -fa on -np 1
--spec-type draft-mtp --spec-draft-n-max 3

Аноним 08/06/26 Пнд 14:04:02 #420 №1627581

>>1627580
UPD
На ванильной mtp. С нескучными форками неохота плясать

Аноним 08/06/26 Пнд 14:08:02 #421 №1627584

>>1627580
вчера буквально замерджили на основной билд лламы MTP для Gemma 4

Аноним 08/06/26 Пнд 14:08:14 #422 №1627585

>>1627580

На гемме тоже все работает.
--spec-type draft-mtp -ctkd q8_0 -ctvd q8_0 --spec-draft-n-max 8 --model-draft "google_gemma_4_31b_it_qat_q4_0_unquantized_assistant-Q4_K_M.gguf"

Аноним 08/06/26 Пнд 14:13:17 #423 №1627590

>>1627584 >>1627585
Ну слава сингулярности. А то я уже даже перестал в гит заглядывать
У драфтера официальный qat квант есть?

Аноним 08/06/26 Пнд 14:16:27 #424 №1627591

>>1627526
Ну я гоняю уже длительное время и если ты не оформляешь тряску и не устраиваешь ему лоботомию ахуенными систем промптами, то он по умолчанию из коробки никогда рм рф тебе не устроит... если ты его об этом не попросишь

Ограничения это смешно, просто потому, что ничего нахуй ему не мешает въебать rm rf через питонячий скрипт если ему больно захочется или отредактировать свой же конфиг. Это ложная защита, а еще более ложная та, что ты печатаешь модели.

Кароч, трясись не трясись, одинаковый исход. Только ебаниной типа писать в препромте про отсутствие галюцинаций и список папок которые нельзя читать не организовывай. Просто пользуйся по вопросикам

Аноним 08/06/26 Пнд 14:16:36 #425 №1627592

>>1627590
https://huggingface.co/RachidAR/gemma-4-12B-it-qat-q4_0-MTP-assistant-gguf
Ты про это?

Аноним 08/06/26 Пнд 14:18:13 #426 №1627594

>>1627576
Еретеки модифицируют дай бох 0.1% весов, нихуя там не меняется почти, эффект от QAT остаётся

Аноним 08/06/26 Пнд 14:19:57 #427 №1627595

>>1627592
Не, я про 31b + drafter, на тройку гугл официальные qat выкладывал.

Аноним 08/06/26 Пнд 14:22:45 #428 №1627597

>>1627594
Она тупее становится.
>>1627576
Спасибо за грамотный разбор, для меня абилитирейдед и прочие модельки всегда были в голове такими, что у них цензур блоки вырезают\уменьшают их влияние на саму модель, но из-за того что цензура чаще всего встроенна глубоко в модельки, ты как бы не хотел, но часть мозгов срежешь. Что и собственно я и получал от всех uncensored мерджей моделей

Аноним 08/06/26 Пнд 14:25:32 #429 №1627598

ZXUpN4w0fPIiyu0IJu4JioOKUZNhFU4w8bgVczlU-mna7mScOqz5DlP9zEd49cSWm0QxFCPlOz7s28kz4aVCU2.jpg

Я тут потестил гемму 12b q8. Чет так-себе она мне показалась. Гемма 26b заквантованная в щи (apex mini от mudler) намного умнее, хотя весит столько-же и при этом MoE

Аноним 08/06/26 Пнд 14:28:09 #430 №1627599

>>1627597
Она тупее (ну или покладистее) становится от еретика, кат еретик умнее обычного еретика должен быть

Аноним 08/06/26 Пнд 14:28:12 #431 №1627600

Похоже, имплементация QAT в Лламе все-таки сломана. Довольно долго я вчера гонял тесты, заметил следующее:
- Опечатки в словах, даже английских (pat становится pet), неверная грамматика (несколько раз употреблялось неверное время в одном из предложений)
- Ошибки в именах (как это делает Air. Mio становится Mina, Kaori становится Kaou и т.д. Возможно часть первой проблемы, но Air опечаток не допускает, а имена факапит)
- Гиперфиксация на какой-то части контекста, что проблема и с Q4_K_M квантом (и другими Q_K) и, видимо, поведение самой модели, но с QAT квантом проблема еще больше выражена
- Еще более чрезмерное следование инструкциям и меньший креатив. Через несколько аутпутов это словно болото, пэйсингу не поддается и тонет в собственном контексте, отрабатывая по уже существующему
- Еще хуже работает аттеншн, детали теряются еще раньше
В целом, QAT ведет себя как Q4_K_M - Q5_K кванты, но менее поровотолива и глупее. Откровенного мусора в аутпутах я не видел, но все время ловил себя на мысли, что что-то не так. Максимально странное, что было - модель внезапно начинала писать в present tense, когда весь контекст в past tense. С Q4_K_M ни разу такого не встречал. Тут-то я пошел за опытом других.

Много что читал, но мне кажется, данный пост может объяснять суть: https://www.reddit.com/r/LocalLLaMA/comments/1u00zm2/comment/oqfc7vj/
> The main issue is converting from QAT BF16 to llama.cpp's Q4_0 format is not lossless. llama.cpp uses F16 scales, whilst QAT BF16 uses BF16 scales, and the scales are not determined optimally in llama.cpp land. Naive conversion gets 24.77% byte exactness to BF16 QAT, whilst we found we can push it to 99.96% using some hacks!
Вероятно, существует проблема с замерами, и даже если нет - оставшиеся 0.04% могут ломать модель. Это же к вопросу о использовании bf16 контекста в Лламе: это мало что меняет или не решает проблему полностью, потому что на стороне бэкенда множество операций по-прежнему в fp16. И я, сколько ни проверял, так и не увидел разницу между fp16 и bf16 кэшем, тестируя и на Гемме, и на Квенах.

Когда только начал гонять QAT + MTP, то обрадовался, и на радостях хотел было уже гайд обновлять, но все слишком неоднозначно. MTP, кстати, дал мне более чем двукратный прирост в ассистентских и кодозадачах, с 40 до ~95 токенов; и с 38 до ~50 токенов в сторителлинге и рп. Сейчас все же лучше использовать Q_K кванты, но на них MTP я пока не успел протестировать. Думаю, показатели будут плюс-минус те же.

Аноним 08/06/26 Пнд 14:32:18 #432 №1627602

>>1627580
Внатуре, охуеть, не знаю в чём прикол, то ли флаги по-другому поставил, то ли опять то что лламу обновил, но уебало 60+ токенов вместо 30.

Аноним 08/06/26 Пнд 14:37:26 #433 №1627604

>>1627600
>MTP, кстати, дал мне более чем двукратный прирост
У меня 16 врам и я гоняю гемму 26b в Q8_0, получаю примерно ~25т/с. Модель естественно наполовину в оперативке. В моём случае стоит использовать MTP? Будет прибавка к скорости хоть какая-то? Или это только для фуллврам бояр фича?

Аноним 08/06/26 Пнд 14:40:18 #434 №1627605

>>1627604
будет, у людей на проце прирост есть даже с 1 токена до 1.5-2 (вчера такого каторжника видел на реддите)

Аноним 08/06/26 Пнд 14:44:56 #435 №1627606

>>1627594
> эффект от QAT остаётся
Нужно смотреть и измерять как повлияет. Может быть достаточно самого факта изменений вне сетки чтобы все поплыло, ложка дегтя в бочке меда. Если потрудиться, можно действительно сохранить эффект, но ни в оригинальном еретике, ни в форках хендлинга qat не добавляли.
>>1627598
Дуй вдоль радиатора не поперек, там половина площади перекрыта и воздуху некуда выходить.
>>1627600
Сама по себе имплементация сломанной быть не может, ведь это просто стандартный квант без чего-то дополнительного, суть в самих весах. Могут быть проблемы с алгоритмами квантования, что они отличаются от задуманных
> llama.cpp uses F16 scales, whilst QAT BF16 uses BF16 scales
собственно вот оно. Может отличаться инфиренс от тренировки (точнее он точно отличается из-за лишних кастов дататипов).
И поведение модели в qat может быть немного иным относительно исходника. Все это вместе скорее всего и наблюдается.

Аноним 08/06/26 Пнд 14:48:35 #436 №1627610

>>1627606
> Сама по себе имплементация сломанной быть не может
> Могут быть проблемы с алгоритмами квантования, что они отличаются от задуманных
Именно это я и имел ввиду, да. Недостаточно ясно высказался. Проблема в имплементации квантования QAT весов или, похоже, это хардкод Лламы - использовать F16.
> И поведение модели в qat может быть немного иным относительно исходника. Все это вместе скорее всего и наблюдается.
Это так, но вот, например, целый тред https://www.reddit.com/r/LocalLLaMA/comments/1tzib7d/qat_variant_of_gemma4_26b_a4b_is_not_working_well/ где немало людей отписались, что у них QAT кванты работают стабильно хуже Q4_K квантов. Как минимум тут нет однозначного ответа.
>>1627604
Я не пробовал на МоЕ, но позже попробую. Если интересно - могу отписаться.

Аноним 08/06/26 Пнд 14:49:09 #437 №1627611

>>1627610
Не пробовал на МоЕ с частичным оффлоадом* разумеется.

Аноним 08/06/26 Пнд 14:54:21 #438 №1627615

>>1627604
я из интереса погонял, там прирост пару токенов в секунду (что в целом норм, если есть лишние ~500мб VRAM под драфт модель), может я опять накосячил с флагами , я не шарю, но видимо упор уже в скорость ОЗУ идёт

Аноним 08/06/26 Пнд 14:59:36 #439 №1627617

>>1627604
Я пробовал новую мое кат гемму, при неполной выгрузке скорость все равно бустит мтп, где то на 30 процентов. Выгружается 2/3 модели в гпу.
При полной у меня по крайней мере гемма 12b получает x2 к скорости генерации.

Аноним 08/06/26 Пнд 15:00:23 #440 №1627618

>>1627610
UPD: нет, не попробую. 26б MTP пока не поддерживается на мэйнлайне, будет позже.
error loading model: unknown model architecture: 'gemma4_assistant'
Прирост вероятно будет, но незначительный. Не думаю, что это имеет смысл.

Аноним 08/06/26 Пнд 15:02:39 #441 №1627619

>>1627610
Да, отпиши, пожалуйста, буду признателен. Если вот эти аноны правы>>1627618 >>1627605 и на частичной выгрузке работает, то это ж ПРОРЫВ буквально. А если ещё и с плотняшей 31b прокатит, то превратить ~6т/с в ~12т/с - совсем сладенько будет. Тут можно и эйр удалять с чистой совестью.

>>1627615
Это на плотной? Отзывы конечно у людей совсем разные. У кого-то x2, у кого-то вообще прироста нет, у кого-то наоборот замедлилось, лол. Сам смогу наверное только ближе к ночи проверить, или завтра. Очень интересно.

Ещё видел на реддите кто-то писал, что понижение температуры, хоть и снижает креативность, но зато баффает скорость с MTP. Тоже потестить бы этот момент.

Аноним 08/06/26 Пнд 15:03:44 #442 №1627620

Вот что сам Google говорит о MTP для MoE
https://ai.google.dev/gemma/docs/mtp/overview
Спекулятивное декодирование работает путем создания нескольких токенов и их проверки за один прямой проход. Для плотных моделей для каждого токена используются одни и те же веса, поэтому проверка нескольких созданных токенов добавляет минимальные накладные расходы. Модели типа «Смешанные эксперты» (MoE), такие как Gemma 4 26B A4B, работают иначе. Каждый токен может активировать разных экспертов, поэтому проверка созданных токенов может потребовать загрузки дополнительных весов экспертов из памяти, что нивелирует преимущества от создания токенов. При больших размерах пакета обычно наблюдается большее совпадение активированных экспертов в разных последовательностях, что улучшает повторное использование загруженных весов. При размере пакета 1 это совпадение ограничено, поэтому алгоритм создания токенов 26B A4B может не обеспечить ускорение на аппаратных платформах без хорошего параллелизма.

Аноним 08/06/26 Пнд 15:06:03 #443 №1627624

>>1627619
>Если вот эти аноны правы
Мисскликнул. Не >>1627618 а >>1627617 разумеется.

быстрофикс

Аноним 08/06/26 Пнд 15:06:20 #444 №1627625

>>1627619
У чела который про анноун ассистент пишет старая ллама, у меня всё завелось без проблем, последний бинарник с гитхаба. Прирост минимальный на мое, если вообще есть. На плотной как я и писал на 3060 с 30 до 60 в пустом контексте выросло, на 30к контекста скорость 45

Аноним 08/06/26 Пнд 15:18:34 #445 №1627629

>>1627610
Дело может быть и в самих весах от гугла, тут сложно ранжировать факторы. Раз жалобы присутствуют, причем такие явные, значит что-то действительно есть.
>>1627620
Кто-нибудь может объяснить, в чем здесь принципиальное отличие для денс и моэ в применении к мтп?

Аноним 08/06/26 Пнд 15:21:03 #446 №1627630

А кто знает, что вообще за ошибка с MTP?

0.01.371.834 E llama_init_from_model: failed to initialize the context: Gemma4Assistant requires ctx_other to be set (this is normal during memory fitting)

я через нейронки прогнал сказали нужно выставит контекст для самого мтп, выставляю а параметр инвалид.. Или дело в памяти как он говорит

Аноним 08/06/26 Пнд 15:22:08 #447 №1627631

>>1627629
У тебя в мое разные эксперты могут быть задействованы, их приходится гонять между врам и озу, от чего польза от мтп пропадает
>>1627630
хуй забей

Аноним 08/06/26 Пнд 15:31:58 #448 №1627638

>>1627617
Проверил еще раз 25 тг без, 35 тг с принятием 0.8
Модель 14 гб мое кат, 4 гб лежит в озу.
https://huggingface.co/superbonyx/gemma-4-26B-A4B-it-qat-assistant-MTP-Q8_0.gguf
Работает с обычным свежим релизом лламаспп

Аноним 08/06/26 Пнд 15:42:07 #449 №1627642

>>1627631
> их приходится гонять между врам и озу
Если плотная модель будет также между врам и озу - будет еще хуже, совсем не вяжется.

Аноним 08/06/26 Пнд 15:51:04 #450 №1627644

изображение.png

>>1627642
Ну так если у тебя плотная разделена между озу и врам, там тоже прироста с гулькин хуй. В теории мое которое полностью в vram должно быть быстрее намного и даже вроде как графики гугла это показывают. И на большом контексте разница с низкой температурой разница тоже будет выше, т.е. со временем меньше случайных экспертов активируются, чем дольше диалог идёт
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

Аноним 08/06/26 Пнд 15:56:43 #451 №1627649

>>1627590
https://huggingface.co/google/gemma-4-31B-it-qat-q4_0-unquantized-assistant
Но они его не квантовали после катования, так что квант выбирай сам
https://huggingface.co/models?other=base_model:quantized:google/gemma-4-31B-it-qat-q4_0-unquantized-assistant

Аноним 08/06/26 Пнд 16:03:04 #452 №1627654

>>1627644
> если у тебя плотная разделена между озу и врам, там тоже прироста с гулькин хуй
Ну да, но в чем разница между моэ как пишут?
Можно притянуть что там из-за заведомо более высоких скоростей, требования к задержкам и оверхедам будут больше, лишние 5мс в плотной не сильно скажутся, а тут могут убить весь прирост. Или может речь о разном соотношении тг/пп в плотных и моэ, проверка предсказаний упирается в пп и требуемый компьют на один токен там сильно больше чем при генерации, от того прирост меньше.
Но загрузка из памяти и параллелизация тут причем?

Аноним 08/06/26 Пнд 16:06:39 #453 №1627657

>>1627591
>Ограничения это смешно, просто потому, что ничего нахуй ему не мешает въебать rm rf через питонячий скрипт если ему больно захочется или отредактировать свой же конфиг.
Не, тут речь не о том, что ему самому захочется (это отдельяная песня), а о том, что если моделька окажется слегка тупая (например непроверенный тюн), то у нее есть шансы тупо потерять где-то часть пути и/или пару знаков в команде, и тем самым начудить. opencode от этого боле-менее прикрывает. Это не броня от осознанного вредителя, а защита от совсем уж дурака.

Аноним 08/06/26 Пнд 16:22:05 #454 №1627659

>>1624998 (OP)
Как отключить автозамену текста в {{ }} в koboldcpp?
К примеру, я прошу модель перевести текст содержащий {{char}} или {{user}}, и мое сообщение при отправке моментально подменяется {{char}} на KoboldAI а {{user}} на User.

Аноним 08/06/26 Пнд 16:24:30 #455 №1627662

Я уже всю голову сломал с этим MTP пишет 1.42.079.186 E llama_model_load: error loading model: invalid vector subscript

Вот моя основная модель https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-gguf Я как понимаю я должен взять MTP еще, вот та же самая https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-unquantized-assistant но ищу ее q4_0 квант https://huggingface.co/RachidAR/gemma-4-26B-A4B-it-qat-assistant-q4_0-gguf и вот эта в роле mtp, тогда в чем проблема, почему не грузит?

Или я должен выбрать квант не q4_0, а q4_0 unquantized?https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-unquantized Но блять эта же хуйня gemma-4-26B-A4B-it-qat-q4_0-gguf и есть квантом на эту модель unquantized

Аноним 08/06/26 Пнд 16:29:07 #456 №1627664

>>1627606
>Дуй вдоль радиатора не поперек, там половина площади перекрыта и воздуху некуда выходить.
Да, это очевидно, что надо переставить вертушки, на выдув 120, а в радиатор v100 80ку поставить сбоку

Аноним 08/06/26 Пнд 16:35:51 #457 №1627669

>>1627659
Экранировка типа \{\{ не срабатывает?

Аноним 08/06/26 Пнд 16:38:09 #458 №1627670

>>1627669
Сработает наверное, но каждый раз экранировать заебёт. Можно ли в самом kobold отрубить эту автоподмену?

Аноним 08/06/26 Пнд 16:39:04 #459 №1627671

>>1627662
>>1627638

Аноним 08/06/26 Пнд 16:43:41 #460 №1627679

>>1627671
пасасеш
ок?

Аноним 08/06/26 Пнд 16:47:25 #461 №1627692

>>1627679
Вот и помогай тут
Чего порвался?

Аноним 08/06/26 Пнд 16:55:41 #462 №1627708

>>1627671
Я уже использовал этот квант, но вот от этого супера, да он рабочий. Но все равно залупа 1 раз заработал, другой раз нет. Единственное что радует, я понял что он на слои видеокарты жалуется, не хватает памяти меньше слоев ставишь загружает

Аноним 08/06/26 Пнд 16:59:30 #463 №1627714

image.png

>>1627708
Забавно конечно что он повышает т\с, а не наоборот понижает. Но на картошке 16озу\6врама прироста не заметил. Без даже возможно побыстрее будет ибо без ебыни получал под 15 т\с

Аноним 08/06/26 Пнд 17:04:00 #464 №1627722

>>1627714
Меняй число --spec-draft-n-max 2
У меня 2 лучше чем 3, кто то вобще 4-5 ставит но это для фулл врам как понимаю, можешь 1 поставить
И посмотри куда загружается драфт модель, укажи ей руками фулл врам

Аноним 08/06/26 Пнд 17:10:00 #465 №1627728

>>1627649
>Но они его не квантовали после катования,
Сказать, что я охуел от их решения - ничего не сказать

Аноним 08/06/26 Пнд 18:09:07 #466 №1627770

>>1627526
На pi есть такое расширение https://pi.dev/packages/pi-defender которое автовыполнение баш команд блочит, чтобы ты их сам проверял на вшивость. Отход от автономии конечно, но зато сейфти побольше. На винде правда надо вручную расширение ставить, потому что в пост инсталле линуксовые пути сунуты.
Еще есть такой инструмент, раскидывать пермишены на определенные инструменты и файлы, чтобы лишнего не задевал особо.

Аноним 08/06/26 Пнд 18:09:53 #467 №1627771

>>1627770
> Еще есть такой инструмент
Ссылку забыл https://pi.dev/packages/pi-file-permissions

Аноним 08/06/26 Пнд 18:31:35 #468 №1627791

>>1627526
Чел, там можно выбирать какие тулы активны - просто не давай ему доступ к баш полноценный, там создатель продумал все и вывел отдельные тулы когда хочешь рид онли - лс\греп. Сможет ориентироваться в папках, брать текст но не сможет вызвать никакие другие баш команды.

Смысл в васянстве с экстеншенами или шизоебической тряской в песочницах?

Ллм продолжает твои ответы из контекста, если в самом контексте нет упоминания о "рм *" оно НИКОГДА его не сделает но как только ты в правилах записал "никогда не используй РМ" оно теперь постоянно, в каждом ответе будет думать о РМ.

Аноним 08/06/26 Пнд 18:32:09 #469 №1627792

>>1627654
>Ну да, но в чем разница между моэ как пишут?
Наверное сколько не отвечай на эту хуету, все равно каждый раз будут вопросы, которые сразу отпадают у любого кто знаком с архитектурами трансформеров.
1. Трансформер может обработать хоть сколько токенов параллельно, загружая модель из памяти ровно 1 раз, множатся только вычисления.
2. Мое загружает условно рандомный набор параметров для обработки одного токена, для другого это будет в основном другой набор. Допустим 1 из 10 параметров. Если тебе нужно обработать 2 токена, мое загрузит почти 2 параметров чисто статистически. Если скорость работы упирается в память, проверять 2 токена в мое в 2 раза дольше чем 1. При увеличении количества проверяемых токенов скорость работы мое стремится к скорости плотной модели того же размера.

Касательно выгрузки в рам, то что выгружается, считается на цпу. На 2 токена в 2 раза больше вычислений на говнопроце. Да и данных по шине гпу еще тоже в 2 раза больше надо гонять.
Хотя я бы сказал, все проблемы кроме физики мое - от говнокода.

Аноним 08/06/26 Пнд 18:35:42 #470 №1627793

>>1627792
>Хотя я бы сказал, все проблемы кроме физики мое - от говнокода.
Непризнанный гений изобрёл сидя на двачах трансформерс2 и не рассказал гуглу

Аноним 08/06/26 Пнд 18:49:15 #471 №1627802

>>1627793
Долбоеб не смог понять смысл написанного и побежал изображать из себя самого умного.

Аноним 08/06/26 Пнд 18:57:19 #472 №1627816

>>1627792
Ты описываешь промптпроцессинг? А под "загрузкой" имелось ввиду обращение к весам модели в видеопамяти для загрузки их в регистры чипа? Тогда все так и есть.
> скорость работы мое стремится к скорости плотной модели того же размера
В общем, так и есть, за исключением что из-за меньшей размерности эмбеддинга компьюта на атеншн нужно гораздо меньше компьюта, что определяет. Для промптпроцессинга задействуются все веса, что не позволяет активной читерить с выгрузкой как для генерации.
Но это совпадает с тем что выше, все равно не медленнее чем денс модель, и довольно косвенно коррелирует с тем, что они написали.
> Хотя я бы сказал, все проблемы кроме физики мое - от говнокода.
В чем говнокод?

Аноним 08/06/26 Пнд 20:14:21 #473 №1627868

У меня gemma 26b подтупливает в opencode. Видимо теряется в большом промпте и обилии инструментов. Но нормально работает в cherry studio. Там я выбрал нужного ассистента с заранее прописанным промптом. Дал те инструменты, которые я сам написал и которые мне нужны в конкретной задаче. Скормил файлы, с которыми мне надо работать. По итогу gemma мне переписала css как мне нужно. Все работает, тупняков нет.

Аноним 08/06/26 Пнд 20:29:39 #474 №1627876

>>1627816
>Ты описываешь промптпроцессинг?
Нет, но промтпроцессинг, мтп, генерация, это одно и то же, разница только в количестве токенов обрабатываемых за 1 проход.
>В общем, так и есть, за исключением что из-за меньшей размерности эмбеддинга компьюта на атеншн нужно гораздо меньше компьюта, что определяет.
Имелось ввиду скорость только по памяти от размера модели. По компьюту там разница с мое, хз, грубо можно оценить по тому же промтпроцессингу, он в идеале упирается только в чистый компьют. Моегемма вроде чет типа в два раза меньше слоев имеет и в два раза уже по эмбедингу, емнип, лень искать. То есть она скорее лоботомит с навешенными экспертами а не плотная в которой "ненужные веса не грузятся".
>В чем говнокод?
В том что на плотной с выгрузкой и мтп должно сосать только по причине слабого проца. Данных там гоняется хоть и больше, но в целом не оч много.
А ну и еще в том что промтпроцессинг с выгрузкой все свое говно на цпу сто лет считает, вместо того чтобы по бырику подгружать слои в видюху. Есть некий размер (нового) контекста когда так делать становится выгоднее, но так не делают. Вон даже корпы весь контекст на отдельных нодах считают, в локалках подобное делать математика не запрещает, было бы только грамотно налажено взаимодействие устройств. И собирать шизориги на стаке обычных мамок с ддр4 + по одной-две 3080ti...

Аноним 08/06/26 Пнд 20:34:25 #475 №1627878

>>1627610
>Если интересно - могу отписаться
Освободился чуть раньше и потестил сам, пока что на квене. Результаты такие:

Фуллврам плотнячок:
Qwen 27b Q3_K_S ~ 21 т/c
Qwen 27b MTP Q3_K_S ~ 43 т/с при --spec-draft-n-max 4

Плотнячок с выгрузкой (53/64 слоев во врам, 32к контекст):
Qwen 27b Q4_K_S ~ 8.6 т/c
Qwen 27b MTP Q4_K_S ~ 12.2 т/с при --spec-draft-n-max 2

Моэ с выгрузкой (4/48 слоев во врам, 32к контекст):
Qwen 122b IQ4_XS ~ 9.2 т/c
Qwen 122b MTP IQ4_XS ~ 8.7 т/с при --spec-draft-n-max 2 (КЕК!)

Короч чуда не случилось: самый ебанутый прирост x2 произошел на фуллврам. Потестить Q3 в рп чтоль..? 43 т/с на плотной 27b при 16 врам так-то не хуй собачий. Но даже с выгрузкой в MTP есть смысл: плюс халявные 3.6 т/с. Но мне кажется что чем больше слоёв сгружено в оперативу, тем меньше будет профита (вплоть до отрицательного на жирном моэ), поэтому надо юзать самый нищий 4 квант плотняши из доступных. У анслопа Q4_K_S квант 27 квена весит почти на гиг меньше чем то же самое у батрухи.

Аноним 08/06/26 Пнд 21:12:15 #476 №1627891

Хочу на работке летом залупы попинать, и сделать для команды системы агентов/чатов.

Бюджет, к сожалению --- консумерские карты.
Пока затестил гемму4 12Б, норм для общих задач и суммарайзов. Гранит 4.1 8Б и 30Б для рагов и скана текстов на поиск всякой инфы по ключевым словам заплнение чеклиста. Пока эти двое (трое, на 30Б скорее всего не купят карту) смотрятся хорошо.
Какие еще есть годные модели на 8-12Б? Интересует а) модели с виженом, б) модели которые неплохи для базового кода. Желательно, чтобы контекст хотя бы 100к, хотя сейчас вроде все такие.

Аноним 08/06/26 Пнд 21:13:24 #477 №1627892

>>1627878
>Qwen 122b MTP IQ4_XS ~ 8.7 т/с при --spec-draft-n-max 2 (КЕК!)
Ну вот все так и должно быть чисто по математике и никак это лучше не сделать. Если только не натренить модель так чтобы активировались одни и те же эксперты на окно из нескольких токенов.

Аноним 08/06/26 Пнд 21:15:40 #478 №1627894

>>1627770
>Отход от автономии конечно, но зато сейфти побольше. На винде правда надо вручную расширение ставить, потому что в пост инсталле линуксовые пути сунуты.
Вот как раз винда - последнее что меня интересует, ибо давно не на ней сижу. :) Но автономию терять - сильно портит всю малину.

>>1627791
>просто не давай ему доступ к баш полноценный
Нах он тогда нужен вообще как агент широкого профиля? :) Я ж не только кодом там занимаюсь.

>>1627791
>Ллм продолжает твои ответы из контекста, если в самом контексте нет упоминания о "рм *"
Я там уже писал в сообщении раньше - я не только чистый квен гоняю в агентах, но и тюны разные. А там затуп может случится - и оно просто не туда сунется, хотя и не собиралось вредить вроде бы.
А что до правил - уж на то как "не думай о белой обезьяне" LLM реагируют я прекрасно знаю. :)

В общем - просто IMHO. Я не доверю Pi основную систему без нормального сендбокса вокруг него. Особенно с чем-то вроде Геммы 26B-A4B под капотом. :) Я когда ее в opencode гонял - оный минимум три раза уже заблокировал очень неприятные по возможным последствиям вызовы от нее. Квен и его тюны такого себе не позволяли, но и квен пару раз совался наружу из рабочего каталога - правда с безопасной мелочью вроде поиска файла.

Аноним 08/06/26 Пнд 21:18:59 #479 №1627898

image

>>1627878
Сел проверять Гемму и чот не выкупил прикола. Ругается на драфтер "unknown model architecture: 'gemma4_assistant'". Ллама последняя, b9565. Качал под обычную Гемму, не QAT, вот отсюда в F16 https://huggingface.co/AtomicChat/gemma-4-31B-it-assistant-GGUF Там блять вмерджили только под QAT чтоль?

Аноним 08/06/26 Пнд 21:22:14 #480 №1627900

>>1627894
Я не доверяю любой обвязке где агент может писать.

И считаю очень тупо ставить на основную систему агента который постоянно крутится и ей управляет, особенно под управлением говнолокалке тупой.

Но может я не прав, лично я слежу за всем че он делает но никак не ограничиваю но у меня и нет задачи управлять компом

Аноним 08/06/26 Пнд 21:26:32 #481 №1627904

>>1627891
Квен 3.5 9B скорее всёго разъебёт что угодно в этой весовой категории для упомянутых задач. Ничто даже близко не стоит.
Мелкие геммы к сожалению не оче

Аноним 08/06/26 Пнд 21:26:35 #482 №1627905

>>1627898
>Качал под обычную Гемму, не QAT, вот отсюда в F16
А сама гемма не от анслопа? Анслоп там свой мтп вчера выложил.

Аноним 08/06/26 Пнд 21:28:02 #483 №1627906

Тред находится под внешним управлением эйрошиза. Думайте

Аноним 08/06/26 Пнд 21:31:50 #484 №1627908

image

>>1627905
А анслопа только квены с MTP, пикрил. А вчера они QAT выложили, который сломан в жоре, и толку с него мало.

Аноним 08/06/26 Пнд 21:35:22 #485 №1627910

>>1627908
Ты не там смотришь.
https://huggingface.co/unsloth/gemma-4-31B-it-GGUF/tree/main/MTP

Аноним 08/06/26 Пнд 21:37:18 #486 №1627912

теперь с геммочкой можно смотреть грязные видео

https://github.com/ggml-org/llama.cpp/commit/8f83d6c271d194bde2d410145a0ce73bc42e85cd

Аноним 08/06/26 Пнд 21:39:08 #487 №1627914

>>1627910
О, спасибо. Сейчас попробуем.

Аноним 08/06/26 Пнд 21:52:19 #488 №1627922

>>1627876
> это одно и то же
Ну не, слишком грубое заявление, особенно с мтп.
> скорость только по памяти от размера модели
Типа если предположить что упор чисто в память и разницу подгрузки - да, наверно разумно. Хотя в мелкомоэ такой кейс не частый, скорости ниже теоретических.
Но в этом случае
> не плотная в которой "ненужные веса не грузятся"
для плотной тоже придется грузить все веса. Тут нужно объяснять тем что (при упоре в один поток и память) моэ сильно быстрее делает декодинг чем денс за счет разреженности, но в энкодинге, на который завязано мтп, уже такого преимущества не имеет. Иначе описание дезориентирует.
> В том что на плотной с выгрузкой и мтп должно сосать только по причине слабого проца.
А код тут причем? Проблема в производительности проца и памяти там, где нужна йоба числодробика матриц.
> Есть некий размер (нового) контекста когда так делать становится выгоднее, но так не делают.
Именно так и делают, в некоторых интерфейсах можно настроить порог новых токенов для обработки процом без стриминга. В лламе это тоже есть, только жестко прибито. Иначе при спекулятивной работе с частичной выгрузкой больших моделей обработка каждого блока токенов занимала бы секунды.
> Вон даже корпы весь контекст на отдельных нодах считают
Потому что параллельная работа с генерацией вызывает просадки в ней, так выгоднее.
> в локалках подобное делать математика не запрещает, было бы только грамотно налажено взаимодействие устройств
Вроде так и делается с самых первых версий. Расскажи подробнее что имел ввиду, как "стаки обычных мамок" могут тут помочь?
>>1627878
> --spec-draft-n-max 2
При повышении лучше не становится?

Аноним 08/06/26 Пнд 21:53:15 #489 №1627924

>>1627912
С маленькими геммами разве что, в больших видеоинпут не завезли.

Аноним 08/06/26 Пнд 21:56:27 #490 №1627926

>>1627898
>Ругается на драфтер "unknown model architecture: 'gemma4_assistant'"

Собери лламу из исходников они починили голову на qat, сегодня так сделал заработало.

Аноним 08/06/26 Пнд 22:00:28 #491 №1627928

>>1627900
Об управлении системой у меня речи не идет. Но мне нужно чтобы в рабочем каталоге у агента была возможность свободно работать не дергая меня за каждую команду. Т.к. вот пример задачи: слить ему туда архив из ~40000 файлов usenet (кто помнит что это такое :) ) и сказать: "Распакуй, и найди мне там истории с вот такой тематикой и сюжетом, эти истории скопируй в такой-то подкаталог".
Так вот - квен 3.5 - 3.6 27B вполне с этим справляется, но bash использует крайне активно - фактически он только им, и другими консольными инструментами и вывозит такое.

Аноним 08/06/26 Пнд 22:03:48 #492 №1627929

>>1627928
Как вариант можно просто свой mcp с кастомными инструментами написать, куда уже свои политики безопасности приделать.

Аноним 08/06/26 Пнд 22:04:52 #493 №1627930

>>1627928
Чел... если не указывать поведение он будет использовать то, чего больше всего в датасете.

В Пи есть инструмент который пишет, отдельный для лс и для греб твоя задача решится без баш команд очень просто.

Вообще, любые задачи решают без баш команды на простом уровне дроча текстовых файликов.

Лично я ее использую только в некоторых юзкейсах, в скиллах для вызова внешних сли утилит.

Аноним 08/06/26 Пнд 22:11:22 #494 №1627934

image

>>1627910
УХ СУКА! Работает, маленькая!

Плотняша, 40/60 слоёв во врам, контекст 32к, не квантован.
Gemma 31b Q4_K_S ~ 5.2 т/с
Gemma 31b Q4_K_S MTP ~ 9.9 т/с

Моэ, 11/30 слоёв во врам, контекст 64к, не квантован.
Gemma 26b Q8_0 ~ 25.7 т/с
Gemma 26b Q8_0 MTP ~ 34.8 т/с

>>1627922
>При повышении лучше не становится?
Нет, становится чуть хуже, меньше на ~0.5 т/с

Аноним 08/06/26 Пнд 22:12:45 #495 №1627935

>>1627930
Чел, я же просто пример привел. А так - там и сортировка файлопомойки может быть, чистка дубликатов, и всякая другая хрень, где mv, rm, и т.д. - нужны явно, для основной задачи. Причем с большим числом вызовов, которые если ручную разрешать - весь смысл поручать эту работу сетке пропадает.

Аноним 08/06/26 Пнд 22:13:20 #496 №1627936

image.png

>>1627924

На 12B можно.

Аноним 08/06/26 Пнд 22:15:01 #497 №1627937

>>1627934
дыдыэр5 ощущаю в силе я

Аноним 08/06/26 Пнд 22:15:28 #498 №1627938

>>1627936
Ну да, я ее тоже в маленькие геммы записал. Все-таки по какому-то смозгу релевантные только 26б и 31б.

Аноним 08/06/26 Пнд 22:37:19 #499 №1627947

>>1627935
Мне раз в год такое нужно дабы учитывать хоть как-то в воркфлоу.

Если же нужно, даю данные на анализ и прошу по ним написать скрипт который сделает нужную мне задачу, потом начинаю сессию заново без контекста и прошу объяснить скрипт че он сделает и дать критику, если все нормально запускаю сам ручками видя все команды и последовательность.

Аноним 08/06/26 Пнд 22:50:43 #500 №1627954

>>1627891
>>1627904
Даже qwen3.5 4b подойдет. Он не особо хуже квена девятки и лучше гранита на 8

Аноним 08/06/26 Пнд 22:55:58 #501 №1627959

>>1627892
>и никак это лучше не сделать
Почему еще не сделали REAP на задачах кум фанфиков? Исключить всяхих кодерских экспертов.

Аноним 08/06/26 Пнд 23:16:07 #502 №1627967

Gemma 4 31b QAT уже можно с MTP запускать в лмстудио без ебли? Speculative decoding вкладка не показывает модели-ассистенты, даже те, которые специально для QAT. У кого-то получилось это в лмстудио запустить?

Аноним 08/06/26 Пнд 23:31:53 #503 №1627973

>>1627967
>сломанный qat
>говностудия
Мдее

Аноним 08/06/26 Пнд 23:37:06 #504 №1627975

>>1627973
you fucking bloody, no you fuck bloody

Где он сломанный?

Аноним 08/06/26 Пнд 23:38:09 #505 №1627976

>>1627975
Выше блять прислали полотно и два треда где буржуи жалуются. Читай тред прежде чем постить, ивасик

Аноним 08/06/26 Пнд 23:54:04 #506 №1627985

>>1627976
Ваш тред читать это пиздец каждый раз. Вы про каких-то канничек на 250 постов расплываетесь, потом на 125 срачи про квен против геммы, 100 реквестов на пресет для эйра+ехидные ответы на эти реквесты, и 25 дайбох полезных постов.

Аноним 09/06/26 Втр 00:05:32 #507 №1627993

>>1627985
> Вы про каких-то канничек на 250 постов расплываетесь
И тебе этого недостаточно?

Аноним 09/06/26 Втр 00:09:28 #508 №1627994

>>1627985
> потом на 125 срачи про квен против геммы
И кто всё-таки лучше?

Аноним 09/06/26 Втр 00:11:11 #509 №1627997

>>1627994
Когда-нибудь выйдет гвенма и мы все обосремся, притом не только говном

Аноним 09/06/26 Втр 00:11:12 #510 №1627998

>>1627994
Дипсик флеш

Аноним 09/06/26 Втр 00:12:13 #511 №1627999

>>1627985
>100 реквестов на пресет
Блять, опять ты. Не будет пресета.

Аноним 09/06/26 Втр 00:22:13 #512 №1628006

Так получается что МТП как раз больше всего помогает врам-нищукам? Судя по тому, что я прочитал, эта хуйня использует айдл компьют, чтобы компенсировать недостаток пропускной способности памяти.

Аноним 09/06/26 Втр 00:42:56 #513 №1628010

>>1628006
Нет, MTP больше всего помогает фулл-врам боярам. Но если совсем немного не влезает, то тоже смысл юзать есть. Выше в треде есть сравнения на Гемме и Квене.

Аноним 09/06/26 Втр 00:45:47 #514 №1628011

>>1627947
Ну а я начинаю привыкать использовать сетки для рутины более активно. Обрабатывать данные - это как раз то, что они хорошо могут.

>и прошу по ним написать скрипт который сделает нужную мне задачу
Я, скажем, уже регулярно использовал сетки для сортировки картинок по содержимому. Для отбора и составления датасетов с расстановкой тегов (для тренинга лор). Скрипт это сможет? :)

Аноним 09/06/26 Втр 00:46:53 #515 №1628013

>>1628006
Наоборот врамовладельцы пользуются на и так быстром инфиренсе уже давно, а выгружающие наоборот получают отрицательный рост. Увы.
>>1628010
> если совсем немного не влезает, то тоже смысл юзать есть
Там есть нюанс с тем, что мтп голова, особенно на крупных моделях, вместе с буферами и прочим неплохо так кушает память. А еще попытки запустить на жоре в режиме тп выдают ошибку, опять, что нивелирует пользу.
Но в некоторых случаях действительно может помочь.

Аноним 09/06/26 Втр 00:50:35 #516 №1628014

>>1628011
Смотря сам как тебе удобно конешн

Я пробовал таг теги расставлять и с закладками работать получается неинтуитивная хуйня, я быстрее по названию ссылки нахожу или тупо по превью картинки чем с теми ебаными тегами что она ставит

Большие лоры я не тренировал ни разу хз как там, но когда делал по гайду конкретного персонажа там много картиночек не надо было и даже вроде как вредно - я руками отбирал штук 20-30

Аноним 09/06/26 Втр 01:17:33 #517 №1628020

Закончил первую сессию в Marinara Engine.
Получилось 65к токенов.
Использовал Gemma-4-31B-Q4_0-QAT.
Скорость от 60 в начале до 50 в конце токенов в секунду.
Выводы:
1. Медленно. Маринара много думает, поэтому приходится ждать от 30 секунд до 1,5 минут.
2. Местами туповато. То тулзы не дергает (никто и не обещал=), то понимает где-то не так, то где-то своевольничает чуть-чуть. То залупается на все токены, приходится рероллить.
3. Хорошо. Ведет лорбуки, накидывает «загадочных персонажей» без очевидных привязок к известным личностями (но одного угадать смог), придумывает неожиданные ходы, развивает персонажей (четыре сопартийца в пати —вероятно ей сложно), следит за их взаимоотношениями, в конце сессии (по кнопке) делает суммарайз, подводит итог и открывает новую главу.

Понравилось ли? Да, определенно! Буду продолжать.
Хватает ли геммы 31б? Даю 40%, все же хочется агента качественного и без прокосов в контексте. Но пишет — точно хорошо.
Хватает ли скорости? Точно нет. Для небольшого приключения хватит и 30 токенов в секунду в модели без ризонинга, для эпического хочется хотя бы 200-250, чтобы она делала паузы секунд по 10-20, не более. В среднем ответ выходит тысяч на 3-4 токенов, сами можете прикинуть.
Из минусов Маринары отмечу не самый удобный редакт, странное слежение за рюкзаком, рассинхрон уровней и статов персонажей, и не всегда уместные РПГ-шные битвы. Хотя реализовано неплохо, в общем. Я думаю, это дотянут все.

Как итог: где мой опус 4.8 фаст на церебрасе?

На сессию потратил часов 7, думаю. Конечно, иногда отлучался, долго писал свои ответы и т.д.

Завтра попробую маленькую и простенькую сессию на 26б-а4б без ризонинга, чисто на скорость.