Локальные языковые модели (LLM): Gemma, Qwen, GLM и прочие №240 /llama/

Аноним 09/06/26 Втр 01:54:27 #1 №1628031

Llama 1.png

Карта деградации при квантовании по доменам.png

Реальная длина контекста у моделей 6.png

17642884406272.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference

Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai

Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux

Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth

Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai

Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start

Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1624998 (OP)
>>1622922 (OP)

Аноним 09/06/26 Втр 01:59:49 #2 №1628036

1642303285146.png

>>1628029 →
> Не хватает так же имиджгена как в таверне для полного счастья.
В соединениях добавь провайдера для пикч, можно подключить комфи скормив нужный воркфлоу под любую модель. Или корпов по апи. Далее агент иллюстратор для картинок по сюжету, агент трекер бэкграунда для задников. У второго можно промпт переписать чтобы более активно новые генерировал.
> не нашёл как задавать агента из отдельного подключения чтобы крутить сразу две модели, для инструментов и рп
Также в соединениях для модели, которую хочешь использовать агентной, выстави галочку пикрел и число паралелльных соединений. В первый раз после переключения будет уведомление что для агентов используется другая модель.
Или, у каждого из агентов есть настройка Connection Override где можно указать конкретную модель.

Аноним 09/06/26 Втр 02:03:57 #3 №1628037

>>1628036
В таверне я могу в пайплайн подать аватары обоих персонажей. А тут как?
>выстави галочку пикрел
Спасибо! Вот уж не думал что настройки агентов запихнут в уже существующие подключения не агентов. Матрёшка блин.

Аноним 09/06/26 Втр 02:11:42 #4 №1628041

1666606907031.png

>>1628037
Можно Но лучше рпшить со всякими вайфу, которых стабильно делает по тегам или у тебя есть готовые лоры
Для каждого агента можно настроить индивидуально. По умолчанию есть основная модель, основная модель для агентов (равная основной если не стоит оверрайда), и далее уже индивидуальный выбор. По началу очень странно, но когда освоишься довольно удобно.

Аноним 09/06/26 Втр 02:19:33 #5 №1628043

>>1628041
Вдогонку - в рп сейчас там суммарайз поломали. В версии 1.6 работает, далее что-то нашаманили и распидарасило что в промпт не инжектится как должно.

Аноним 09/06/26 Втр 02:49:58 #6 №1628046

>>1627922 →
>для плотной тоже придется грузить все веса.
Бля, конкретно это я писал к тому что моегемма это прям лоботомит на уровне архитектуры а не типа аналог плотной у которой "просто" отключены "ненужные веса" в один момент. Ну грубо говоря как взять 4б лоботомитов пачку и переключать их роутером, а не нарезать большую плотную на блоки экспертов.
>А код тут причем? Проблема в производительности проца и памяти там, где нужна йоба числодробика матриц.
Чет мне кажется что 3-4 токена на mlp слоях не должны сильно проц нагружать. Может я ошибаюсь. Наверное да, ибо сколько не кричат ЕБАТЬ АТЕНШЕН ЖЕ КВАДРАТИЧНЫЙ, а потом оптимизируют - а там всего +20%, так как mlp таки жирные и тоже дохуя жрут.
>Именно так и делают
Где? Не видел, или ты другое имеешь ввиду. Ну или я плохо искал.
Там же еще промтпроцессинг идет блоками, не? А значит придется грузить несколько раз что сводит на нет всю идею. Там вероятно еще и надо по аналогии с FA вычислять чтобы было без блоков, а значит конечно нихуя не будет сделано ради какой-то там никому не нужной выгрузки.
>Расскажи подробнее что имел ввиду, как "стаки обычных мамок" могут тут помочь?
В мире где нет задержек и говнокода, стакаешь кучу дешевого говна и у тебя на генерации скорость ограничена суммарной скоростью всей памяти этого стака. И промтпроцессинг ты оффлоадишь на видюхи, тоже по суммарной пропускной способности шин. Максимальная эксплуатация самого выгодного железа в ооочень условной теории. Маки же стакают по несколько штук. На двух обычных компах я видел якобы х2 скорость вообще по wifi коннекту.

step-flash-3.7 Аноним 09/06/26 Втр 08:23:12 #7 №1628106

3.5 выдавал в кванте на 100 гб (vram только 30) генерацию под 20 токенов в секунду.
3.7 в кванте на 50 гб (самый низкий IQ1) выдаёт генерацию в 2 токена в секунду, это очень медленно. Там так сильно перебрали архитектуру? Ещё оптимизации под ламу не выкатили и она неверно раскидывает веса? Хотя да нет же, я вообще без карты запустил, и 3.5 выдаёт, ну, не 20, но 10. Точно не 2. В чём дело в общем? Вряд ли в кванте, он может быть тяжёлым и в два раза более медленным, но не в 10 же.

А так же где mtp под степ-флеш? А то гемму добавили, квен добавили. Жду глм, степ-флеш, и прочее.

Аноним 09/06/26 Втр 08:38:55 #8 №1628109

>>1628041
>По началу очень странно, но когда освоишься довольно удобно.
А всё одно не взлетит. Считаю, что сама идеология порочна: упор на кучу агентов (а современная локальная архитектура к ним не приспособлена) вместо кучи инструментов на скриптах. Даже если у тебя есть возможность выделить отдельную видеокарту чисто под агентов будет сложно - а такая возможность есть далеко не у всякого. Следовательно разработка Маринары практически исключительно под корпы и не для ЕРП. И даже там будет медленно!

Аноним 09/06/26 Втр 09:21:38 #9 №1628120

>>1628109
>Много агентов - корпы
На ноль поделил. Корпы, так-то, денег стоят и не малых, при работе с ними наоборот всячески стараются как можно больше в зирошот уложить. Это на дваче корпы ассоциируются с бесплатными ворованными проксями из-за чего воспринимаются как что-то бесплатное, а для большинства это платный инструмент. Даже кодеры, которые на этом деньги зарабатывают, и те используют оркестрацию в основном как способ сэкономить на меньшем контексте/более дешовой модели, а о таких вещах, как постоянная перепроверка кода и команд, проверка ответа на релевантность, поиск в интернете бест практикс и т.д. они даже не мечтают, ибо дорохо.

Аноним 09/06/26 Втр 09:39:54 #10 №1628123

>>1628120
>Корпы, так-то, денег стоят и не малых, при работе с ними наоборот всячески стараются как можно больше в зирошот уложить.
Ага, особенно вайбкодеры и любители воткнуть десяток агентов для составления ежедневных расписаний занятий спортом :) Люди не хотят заморачиваться, а хотят рабочий результат из коробки. По отзывам видно, что результат есть - нужен только компьют. Лично мне правда результат тоже не очень понравился, а уж реализация...

Аноним 09/06/26 Втр 09:54:48 #11 №1628132

>>1628106
>Жду глм, степ-флеш, и прочее.
А авторы моделей сделали MTP, лол? А то ждёт он.

Аноним 09/06/26 Втр 09:57:03 #12 №1628136

>>1628024 →
> Не хватает так же имиджгена как в таверне для полного счастья.
В смысле, имиджгена не хватает? Он же там есть, я первым делом чекнул.
Но заленился настраивать. Чисто потестил, работает, но там каждому персонажу нужно реф сделать и все такое, пока забил.

> И не нашёл как задавать агента из отдельного подключения чтобы крутить сразу две модели, для инструментов и рп.
Ты можешь либо в настройках агента указать модель, которую он использует (для каждого из 40+ агентов), либо сделать «дефолт агент» модель, а для ролеплея указать другую.
Но! Я не разбирался, как это работает. Тоже подумываю на агента посадить квен на другом компе, а тексты пусть гемма пишет.

>>1628030 →
ГМ.

> А что там с редактом?
Да просто, заходить в логи, искать мелко-кнопки, переписывать, вот это вот все. Я же правильно делаю хотя бы, надеюсь.
Это сильно неочевидно, и не так удобно, как хотелось бы, сделать реролл только последнего действия… Я как будто с гитом работаю. А хочется по аналогии с веб-мордой — выбрал в удобной менюшке шаг, рерольнул его или переписал.
Ну, ИМХО, не дотянули они просто пока этот момент по UI.

>>1628041
А мне, кстати, показалось не странно, а даже понятно это. Не прям нативно-интуитивно заебись, но вполне обосновано и логично, когда роешься по этим менюхам.

>>1628043
Не забываем писать в ишью на гит и даже самим чинить!
Я так себе не поленился ттс завезти под сервер (который сам же не поленился завести в другой репе=), автор Маринары крутой тип в общении, доброжелательный.

>>1628106
У меня Q4_K_M от AesSedai (q8 /q4 /q4 /q5) выдает 16 токенов, а с мтп до 19.
При этом, q4_k_s чистый выдавал 19 чистых.
Такое ощущение, что ты что-то не так сварил, на линухе скорость пушка.
Ах да, врам всего-то одна 5060 ti на том компе и 128 ddr5. Не самый быстрый конфиг, 18 тпс для него — пушка для 196b модели.

> А так же где mtp под степ-флеш?
Ты бля угараешь. https://github.com/ggml-org/llama.cpp/pull/23274 вот же оно.
Работает, да, проверял дня три назад.

>>1628109
Бля, хуйню высрал, братан.

Маринара — про качество игры, а не про попердывание в чате.
В чате ты можешь ролеплеить где угодно — хоть в нативном llama-ui, хоть в таверне, чтобы инжектить контекст из лорбуков.
Смысл агентов в том, чтобы обдумать, сформировать логичное продолжение под твои вкусы и историю, а не просто «продолжить текст» единым высером.
Да, это кратно дольше.
Да, у меня дома 5 компов стоит.
Но я же, блядь, играть хочу.

Я ни в коем случае не обсираю подход со скриптами (алгоритмический), это просто более упрощенная модель, которая дает те самые пресловутые -5 баллов в бенче за счет -75% времени расчетов. Быстро? Быстро. Нужно много компьюта? Не нужно. Результат? Ну, кого-то устроит.
Я готов потерпеть ради немного лучшего результата.
Это просто выбор каждого человека — быстро, но похуже, или медленнее, но получше.
Как бы, бля. О вкусах не спорят, и Таверна, и Маринара — отличные штуки (давайте не будем про реализацию таверны, она там в пиздень хуевая, туда я тоже коммитил=), и работают, это главное.

Круто когда есть выбор, разве нет? :) ИМХО — круто.

Лишь бы нам моделей опенсорсных все сильнее подсыпали.

Аноним 09/06/26 Втр 09:59:46 #13 №1628138

>>1628106
Ой-ой, учти!

На данный момент, если ты загружаешь модель с MTP-головами, но не используешь их — они все равно висят в памяти мертвым грузом.
Так что, если ты вдруг будешь недоволен ускорением от мтп, то контекст ты так и так потеряешь, его влезет меньше!

Поэтому старую модель без мтп не удаляй.
А то я снес, а у АесСедая целый тред таких обосравшихся как я. =D И он пожимает плечами, мол «да я и сам модель без мтп снес, и обниморду пурджнул… нема бэкапов».

Аноним 09/06/26 Втр 10:12:44 #14 №1628146

>>1628132
Да. И в glm, и в step нативно есть mtp - и у обоих сеток указано как через vllm его запускать.

>>1628136
>Ты бля угараешь.
Ну вообще - это под 3.5, а я в релизах искал пролистав все после выхода 3.7, и через поиск по "3.7 step" и не нашёл ничего.
Ну и ещё на hf искал странички квантов где указано, что mtp есть. Не нашёл. Учитывая что они там нативно были - подумал, что есть в квантах, но подписывать не стали, в ночь поставил загружаться квант - запускаю, при запуске с mtp-параметрами оно пишет, что нет mtp-слоёв в кванте. Обновляли вот несколько дней назад. Никакой отдельной папки MTP как у геммы я не вижу.

>>1628138
Я ещё полгода назад просил скрипт на питон, который возьмёт один gguf-квант, и некоторые слои в нём поменяет на слои из другого кванта (условно подменить Q4_K_M на Q6_K из кванта побольше, но только отдельные слои - и сохранить).
Это работало очень быстро, и скрипт написала с одной попытки бесплатная гемини или жпт. Думаю, выпилить mtp-слои из кванта можно так же просто скриптом на 30 строчек.

Аноним 09/06/26 Втр 10:20:17 #15 №1628155

image

Сочный кумслоп оригинальной gemma-4-31B_q4_0-it.gguf

Что вы там с ней делаете что она рефьюзит...
И русский вроде норм, не поломан.

Быстрые тесты на одном сообщении, чисто проверить модель, рп-шить щас желания/времени нет, но вроде всё норм, как время будет надо будет потыкать. Особенно как завезут норм поддержку драфт-модели, ибо на 12 ГБ VRAM всё же как-то медленновато.

Аноним 09/06/26 Втр 10:23:32 #16 №1628157

>>1628155
https://huggingface.co/google/gemma-4-31B-it-qat-q4_0-gguf/resolve/main/gemma-4-31B_q4_0-it.gguf?download=true

Аноним 09/06/26 Втр 10:24:43 #17 №1628158

>>1628136
>Смысл агентов в том, чтобы обдумать, сформировать логичное продолжение под твои вкусы и историю, а не просто «продолжить текст» единым высером.
ИМХО, по по моим практикам - без направляющего пинка агенты так и норовят обсасывать какую-нибудь ненужную фигню. Да, это может быть лучше, чем просто свайпы в Таверне, но может быть и хуже - а ещё и долго.

>Я готов потерпеть ради немного лучшего результата.
А я на немного лучший не согласен. Тем более на уровне "вайбкодинга" - чистой алхимии, где куча агентов чего-то там делает, как правило ересь всякую и ты это даже не контролируешь. Ну бывает интересно, живенько. Так в том и прикол агентского подхода. Но проблемы там системные и развернуться не дадут.

Аноним 09/06/26 Втр 11:03:10 #18 №1628176

>>1628155
До как вы заебали. Анон.
Гемма может, гемма умеет.
В пару сообщений, лол. Ну ассистент это, не умеет она в ЕРП. Она лупится, она идет теми же тропами. Ты в промте чуть ли не весь сюжет должен задавать, чтобы было что то интересное.
Гемма пиздата как некопомощник. Она сделает с тобой карточку, она пропарсит твои сообщения, она промт для картинкогенерации сделает. Но для РП и ЕРП она абсолютно не юзабельна и проигрывает в этом даже плотно квенчику, не говоря о его старших моэ милфах.

Я не понимаю, чё вы на ней помешались? Ебанный порноквен 235 в Q_3_xxxl_omega_dark_gguf можно запустить на 16 врам с 30к контекста на 9-10 т/с. (Дыа, 128ддр5 тут не помешают) И будут вам plap plap и подозрительная жидкость по усам от мохнатых пёзд.

Аноним 09/06/26 Втр 11:12:18 #19 №1628180

>>1628176
>не умеет она в ЕРП. Она лупится, она идет теми же тропами
Не в первый раз вижу от тебя этот тейк ИТТ. Причем только от тебя, больше никто не жалуется.
У меня лично ничего не лупится. И да, я знаю что такое лупы, я потому дристрали изначально засирал еще до того как это стало мейнстримом - потому что вот они как раз реально лупились. Скорее всего у тебя косяк где-то в шаблоне. Насчет тропов - да, приходится время от времени по рукам гемму пиздить линейкой.

> Но для РП и ЕРП она абсолютно не юзабельна и проигрывает в этом даже плотно квенчику
У тебя точно проблема с шаблонами. Квены меньше 235 абсолютно не подходят для РП.

Аноним 09/06/26 Втр 11:17:25 #20 №1628184

>>1628176
Если бы неумела в рп не высрали бы десятки тюнов за пару месяцев.

Аноним 09/06/26 Втр 11:26:23 #21 №1628187

>>1628109
> А всё одно не взлетит. Считаю, что сама идеология порочна: упор на кучу агентов (а современная локальная архитектура к ним не приспособлена) вместо кучи инструментов на скриптах. Даже если у тебя есть возможность выделить отдельную видеокарту чисто под агентов будет сложно - а такая возможность есть далеко не у всякого. Следовательно разработка Маринары практически исключительно под корпы и не для ЕРП. И даже там будет медленно!
То, что реализует маринара, не является агентами в классическом понимании. Она предоставляет детерменированные мультизапросы, т.е. порядок вызова тул-колов определяется алгоритмически, а не самой ллм. В этом плане к этому ближе обычный CoT, тот же stepped thinking из шапки, как пример реализации.

На той же плотной гемме с 20-30t/sec при отключёнии ризонинга в режиме ролеплея там более чем комфортно даже с несколькими агентами, поскольку большая их часть вызывается уже после основного ответа ллм. Да, как мне кажется, ризонинг попросту не нужен в рп на новых моделях, особенно при активации Writer Agents вроде Narrative Director в маринаре.

Аноним 09/06/26 Втр 11:28:12 #22 №1628188

>>1628187
>порядок вызова тул-колов определяется алгоритмически, а не самой ллм.
Это и есть агенты, это не автономные агенты.

Аноним 09/06/26 Втр 11:42:34 #23 №1628194

>>1628176
>128ддр5
Дайте мне кирпич, я ему въебу, кря.

Аноним 09/06/26 Втр 11:44:36 #24 №1628197

>>1628194
Борда успешных людей, сырок

Аноним 09/06/26 Втр 11:45:30 #25 №1628198

>>1628180
> Не в первый раз вижу от тебя этот тейк ИТТ
Йор детектор из броукен.
Я пишу пару раз в тред и всегда мимо гемосрачей прохожу. Потыкал, помыкал остался доволен умницей.

> Квены меньше 235 абсолютно не подходят для РП.
Честно, я про 27b исключительно с чужих слов могу говорить, так как у меня с 235ым ван лав. Я ему мохнатых тянок, он мне описание хвостиков. Честная сделка.

Ну пиздец просто, из треда в тред:
Гемма, гемма, гемма, гемма, гемма, гемма, гемма.

Аноним 09/06/26 Втр 11:46:27 #26 №1628199

>>1628194
Это все еще дешевле чем врам.

Ебать меня немытым кирпичом, она уже под 170к.

Аноним 09/06/26 Втр 11:47:21 #27 №1628200

>>1628197
Успешные люди заводят эскортниц и играют в рп ирл или ездят культурно отдыхать на острова где нет закона не дроча на буковки.

Аноним 09/06/26 Втр 11:51:26 #28 №1628204

124б гемму хочеца...

Аноним 09/06/26 Втр 11:51:43 #29 №1628205

image

>>1628199
>она уже под 170к
А что начнётся когда запасы на складах подойдут к концу... Ставлю на ещё х2 к текущей цене к концу года. Ну как грится кто успел тот успел я не успел, застрял на 64 ддр4. Сюка :(

Аноним 09/06/26 Втр 11:57:53 #30 №1628209

>>1628046
> не должны сильно проц нагружать
Не должны, но нагружают. И там уже зависит от конкретного кейса, если общее время обсчета + оверхед на задержки и семплирование больше чем число принятий минус 1 умноженное на время генерации - будет замедление, и наоборот.
> Где?
Во всех интерфейсах где заявлен гибридный инфиренс - llamacpp и форки, ktransformers, fastllm.
> Там же еще промтпроцессинг идет блоками
Если промпт ниже порога - свою часть считает проц, видишь нагрузку на него и некоторую задержку перед первыми токенами. Если выше - идет стриминг весов и обрабатывается батчами, о чем пишет в консоли. На крупных моделях только время на стриминг составляет секунды-десятки секунд, особенно в лламе где непонятки с тп.
> В мире где нет задержек и говнокода
В чем задержки говнокода? Выглядит что ты называешь говнокодом неприятную математику, которая не позволяет достичь идеальной параллелизации без кучи обменов, вести обсчет по 10 раз на одних и тех же весах не подгружая новые вместо разных, обсчитать сразу фулл промпт избегая множественного стриминга не имея буферов.
> И промтпроцессинг ты оффлоадишь на видюхи, тоже по суммарной пропускной способности шин
Это уже так и работает, по крайней мере в рамках одной системы, даже между разными нума нодами. При наличии очень быстрого линка в десятки-сотню гигабит с минимальными задержками, можно и между нодами разделить, это уже доступно. Но чтобы было не мучительно больно, там важен не только сам протокол линка, но и конфигурация линий и анкора профессора, чтобы иметь прямой доступ между гпу и контроллером.
Но с 3080ти мало что выйдет, они достаточно слабые сами по себе и имеют слишком мало памяти чтобы даже атеншн с кэшем вместить если речь про крупные модели. Всю эту богодельню можно сильно упростить, взяв некросервеную платформу на ддр4, натыкав в нее этих карт и запуская. То же самое, но единое адресное пространство и сразу относительно быстрая связь между картами без сетевых приколов, даже слотов памяти будет как в N десктопных.
> На двух обычных компах я видел якобы х2 скорость вообще по wifi коннекту.
По тандерболту 5 со 120гбит в секунду, контроллер которого интегрирован в проц. Никаких вайфаев для подобного.

Аноним 09/06/26 Втр 12:26:59 #31 №1628231

>>1628198
>Честно, я про 27b исключительно с чужих слов могу говорить, так как у меня с 235ым ван лав.
Не надо так - с чужих слов. Да, 235 очень хорош для РП и для кума, сам именно для того чтобы запускать его в четвертом кванте вместо второго поменял год назад оперативку на 128 гб(А в итоге пересел на 3.0 bpw большой ГЛМ, потому что он пишет даже сочнее и не имеет багов 235 с разметкой).
Так вот, 235 и 27B/122B это совершенно разные модели, из всей линейки 3.5-3.6 в хороший РП может только 397, но и его надо палкой пиздить для корректной перспективы.

Аноним 09/06/26 Втр 12:32:24 #32 №1628232

>>1628109
Для староверов там можно отключить вообще все, или инжектить в основной промпт. Агенты там не то, что сейчас подразумевается под автономными агентами, а именно дополнительные скриптованные вызовы.
> разработка Маринары практически исключительно под корпы
Как раз наоборот - большинство страдальцев на проксичках анально огорожены рейтлимитами и контекстом. Поэтому там есть возможность запустить гемму е4б на встроенной llamacpp, чтобы отдать ее под простых агентов.
> не для ЕРП
Контроллеры секс игрушек, нсфв промпты и статы возбуждения туда случайно попали.
>>1628194
А что если там 128ддр5 одной планкой?
>>1628198
> с 235ым ван лав
Да, он реально приятен когда не неприятен. Может держать персонажа, сюжет, быть внимательным и проницательным. Кстати, на контексте 122 на него становится весьма похожим, иногда вытаскивая даже больше подходящих деталей. Но страдает нерешительностью.
>>1628200
Это изимод, вот ты попробуй на буковки подрочить с острова

Аноним 09/06/26 Втр 12:36:28 #33 №1628236

Здарова фраера, чё там годные файнтюны уже появились на 12б иличё? И в целом как моделька?

мимозалётный

Аноним 09/06/26 Втр 12:44:07 #34 №1628241

>>1628236
https://huggingface.co/ReadyArt/Melody1437-12B-GGUF
Вот давалка хорошая.

Аноним 09/06/26 Втр 12:58:43 #35 №1628247

Опять 235-шиза из больницы выпустили. Даже 27 3.5 гораздо лучше чем этот мусор

Аноним 09/06/26 Втр 13:01:48 #36 №1628250

>>1628247
>27b лучше чем 235b
>в РП
Тут ещё вопрос кто из вас больший шиз

Аноним 09/06/26 Втр 13:03:59 #37 №1628254

>>1628250
А, ну да
Цыфорки же решают. И похуй что пережаренный лоботомит с репетишеном и тупой

Аноним 09/06/26 Втр 13:07:56 #38 №1628260

>>1628254
Я пересел с глм 358 на гемму 4 31, и рад.

Аноним 09/06/26 Втр 13:20:48 #39 №1628267

>>1628260
Неееет как ты мог..! Ведь там модель больше чем в 10 раз БОЛЬШЕ, она даже в IQ2XXXS кванте круче геммы в полных весах!!!
И похуй что они по HLE сопоставимы, а Гемма первая локальная модель которая следует инструкциям

Аноним 09/06/26 Втр 13:24:16 #40 №1628270

image

Ебать вы лохи, пересел с Кими 1T на Гемму e2b - кум рекой полился, брат воскрес! Умница! Красавица! А вы и дальше дрочите на свои ЦиФеРкИ!

Аноним 09/06/26 Втр 13:26:11 #41 №1628272

>>1628270
Классический пример обобщения от непонимания. Ты на пике кстати слева?

Аноним 09/06/26 Втр 13:28:54 #42 №1628273

>>1628267
> Гемма первая локальная модель которая следует инструкциям
Таблетки

Аноним 09/06/26 Втр 13:30:21 #43 №1628274

>>1628272
Интересный факт: Qwen 4b гораздо лучше себя показывает в РП чем Клод и Гемини (глупые и пережаренные). Жаль конечно что не все способны это понять...

Аноним 09/06/26 Втр 13:30:27 #44 №1628276

>>1628146
Дай угадать — unsloth качаешь?
Скажу честно — минимально касаюсь этих говноделов. Они на бумаге крутые ребята, а на практике, что не релиз интересной модели — то ошибка.
Но если кого-то другого — ну кто знает.

Лично я могу посоветовать https://huggingface.co/AesSedai/Step-3.7-Flash-GGUF , там и кванты получше (как минимум по ppl — мусорный бенч, но низкий ппл — гарантия хуевого ответа, анслоты точно хуже), и мтп на месте.

> Думаю, выпилить mtp-слои из кванта можно так же просто скриптом на 30 строчек.
Хм, справедливо.

>>1628158
Гемма у меня ошиблась раза 2 за сессию. Не критично, учитывая, насколько охуенна (для 60 тпс локальной модели!) была остальная часть.

> А я на немного лучший не согласен.
Твой выбор, конечно. =) Думаю, таверна гораздо быстрее выплевывает ответы. Давно уж на ней не роллил, если честно, все не было времени.

>>1628176
> Ты в промте чуть ли не весь сюжет должен задавать, чтобы было что то интересное.
Кстати, плюс агентов и Маринары в том, что мир я генерил автоматом, и попросил рассказать мне как дефолтному челику из этого мира, поэтому сюжета не знаю.
И, да, гемма вполне справилась, хуй знает.
РП гемма — топ, для локалок 9 из 10.
ЕРП я не пробовал, не дошел еще. У мя там фэнтези, а не дроч ради дроча.

> Ебанный порноквен 235 в Q_3_xxxl_omega_dark_gguf можно запустить на 16 врам с 30к контекста на 9-10 т/с.
Эээ… А можно 60к и раз в 10 быстрее?
Так-то степ-флэш можно на 18 тпс запустить, не знаю как он в ерп, но…

Давай по чесноку — в рп я вижу так называемый нейрослоп местами, но камон, то что нынче называют нейрослопом — это обычная художественная литература. Если сейчас почитать любые книги Б-класса и половина А — это будет нейрослоп в чистом виде от оригинальных авторов — на которых нейронки и учились.
Напрягаться от того, что книга написана как книга, а не как цирк с конями-эквилибристами — это шиза и синдром вахтера.
Лупы? >>1628180 я помню, как писали старые мистрали, да, они спустя 2-3 сообщения могли неприятно лупиться, это отталкивало, пропадала магия.
У Геммы я словил такое… Ммм… один раз с натяжкой с перерывом в 3 часа? Как будто это и не луп был.

Я не говорю, мол, гемма наше все.
Наше все это бесплатные корпоративные модели локально на смартфоне.

Но сравнивая гемму 31б с другими моделями — мне нравится ее возможности. Это действительно крепенькая, красиво пишущая, хорошо отыгрывающая характеры персонажей (напоминаю, только у меня в пати 4 активных постоянно + окружающие неписи) модель. Со своими минусами, конечно.
Сейчас еще 26б потыкаю.

>>1628187
> То, что реализует маринара, не является агентами в классическом понимании. Она предоставляет детерменированные мультизапросы, т.е. порядок вызова тул-колов определяется алгоритмически, а не самой ллм. В этом плане к этому ближе обычный CoT, тот же stepped thinking из шапки, как пример реализации.
Вот это интересно, кстати. Я не вглядывался. На мой взгляд, автор неплохо постарался на самом деле.
Но как я понимаю, тул колы модель может как вызывать, так и не вызывать (рисовать картинки по своему желанию, устраивать битвы и т.д.) — так что, на мой взгляд, таки вполне агенты.

Но не буду спорить!

> Да, как мне кажется, ризонинг попросту не нужен в рп на новых моделях
Я вчера ультовал, но надо будет попробовать отключить, возможно ты прав.

>>1628194
Да, 46к рублей в августе, очень дорого это было… пу-пу-пу… Нам пришлось раскошелиться…

>>1628199
Которую я брал в днсе — уже за 200. хд

>>1628200
База, мы так, бомжи, которые чуть вовремя расстарались, и то случайно, зачастую.

>>1628205
Че думаешь, слить на авито за 300к потом? :)

Ладно, попиздовал я без ризонинга на 26b страдать. Зато 170 тпс, даже Маринара перестанет быть долгой.

Аноним 09/06/26 Втр 13:31:06 #45 №1628277

>>1628273
Нужны тебе, если ты не видишь как твой квен в ризонинге пишет "не буду писать за юзера" а потом имперсонейтит и срет под себя
неудивительно впрочем, тыж как ребенок в песочнице модельки по цифрам измеряешь

Аноним 09/06/26 Втр 13:31:43 #46 №1628278

>>1628274
Ваще-та QClaw!

А MiniCPM5-1B ну ваще жара, но это тайна.

Аноним 09/06/26 Втр 13:33:51 #47 №1628281

>>1628254
>Цыфорки же решают
с оговорками, но да

бенчедрочер мимошёл

Аноним 09/06/26 Втр 13:37:02 #48 №1628285

>>1628281
Они не про бенчи, а про размер модели.
Типа, llama-3-70b до сих пор ебет step-3.7-flash, потому то 3*70 это 210, а 196 это 11 (активных). 11 меньше 210. Понял?

Аноним 09/06/26 Втр 13:38:28 #49 №1628286

>>1628281
Напомню, что по бенчам Квена 3.5 27 обходит 235. Ебало 235-шиза представили?

Аноним 09/06/26 Втр 13:42:24 #50 №1628295

image

>>1628276
>Да, 46к рублей в августе
Я тем летом взял 64гб ддр4 за ~8к рублей со всеми скидками и бонусами озона. Думал пересижу еще годик на старой пекарне с эйром в Q4, а потом соберу новую со 128 ддр5, 5080 super 24gb.. Бля, каким же идиотом я был.

Аноним 09/06/26 Втр 13:47:45 #51 №1628303

>>1628277
Проиграл с поехавшего, вот это "моя борьба"!

Аноним 09/06/26 Втр 13:52:46 #52 №1628307

>>1628303
В чём он не прав? Квены действительно так делают. Инструкциям в рп хорошо следуют только жирноглмы и Гемма.
мимо

Аноним 09/06/26 Втр 13:53:34 #53 №1628309

>>1628303
Человек просто физически не может запустить что-то крупнее 27-30b и происходит мощнейший коупинг, что оно НА САМОМ-ТО ДЕЛЕ ХУЖЕ и вообще НИНУЖНО. Защитная реакция психики, чтоб её.

Аноним 09/06/26 Втр 13:54:43 #54 №1628311

>>1628286
Шиз, я даже сейчас не буду спорить о графоманстве моделей.
Но ты имеешь возможность запускать 235 в Q8? Потому что иначе, ты лишь посмотрел на циферки и теперь бегаешь с этим как с писанной торбой.
Охуеть какое дело, агентская малыха хороша как агент. А знаешь что еще ебет по бенчам? Минимакс ебанный, но ты и тут нищета чтобы его запускать в нормальных весах.
Так что иди нахуй со своими бенчами, если ты настолько тупой, что умудряешься сравнивать несравниваемое.
Никто на 235 не кодит, сраный ты дегенерат.

Минутка ненависти окончена.

Аноним 09/06/26 Втр 13:56:26 #55 №1628312

>>1628311
Действительно, именно из больницы в тред и явился. Здоровья тебе, поехавший.

Аноним 09/06/26 Втр 13:57:16 #56 №1628313

>>1628312
И тебе не болеть.
Почесал за ушком.

Аноним 09/06/26 Втр 13:59:15 #57 №1628318

>>1628311
> А знаешь что еще ебет по бенчам? Минимакс ебанный

У меня во фришках есть minimax/minimax-m3
На практике я бы сказал, что он хуже deepseeek4-flash
Но я исключительно фри эндпоинтами пользуюсь, может у меня он резанный q4 от провайдера - я хз.

Аноним 09/06/26 Втр 14:04:46 #58 №1628321

>>1628295
>а потом соберу новую со 128 ддр5, 5080 super 24gb.. Бля, каким же идиотом я был.
Да кто же знал, что все ебанутся? Вон нахрена они сейчас строят датацентры эти - чтобы что? И нынешних вычислительных мощностей хватает платным клиентам и не особо они окупаются. Ещё и экономику наебнут, когда пузырь лопнет.

Аноним 09/06/26 Втр 14:06:11 #59 №1628322

Qat на 16гб. Гемма 4 26б абсолютная победа. Она весит 13.9 туда залетает mtp, скорость ту зе мун и это всё позволяет включать ризонинг не ограничивая его длинну.
На 31б плохо, 17,7 гигов сомнительный профит по скорости особенно на 128 шине, если обычные на 17,3 и 18,6 не имеют проблем. Ниже четвертого кванта qat у меня вообще поломанная была, спамила тегами мышления. Возможно в будущем измениться а пока только mradermacher их делает но он их не запускает для теста так бы увидел что половина не работает вообще.

Аноним 09/06/26 Втр 14:06:52 #60 №1628323

>>1628311
>Никто на 235 не кодит, сраный ты дегенерат.
На русском он классно порнуху пишет и ума не теряет. Заметно, что датасеты не чистили. Для другого и правда почти не годен.

Аноним 09/06/26 Втр 14:09:44 #61 №1628325

>>1628323
Увы. Это последняя порномодель которую выпускали для работяг. Сейчас большие монетки пишут лучше по уровню языка, но совершенно скупо. Plap plap потеряны, братья, оварида десука, ёпта.

Аноним 09/06/26 Втр 14:12:05 #62 №1628326

>>1628325
>монетки
Модельки* фиксим, фиксим.

Аноним 09/06/26 Втр 14:12:48 #63 №1628327

>>1628325
Гемма 31 литералли лучше для кума, чем 235

Аноним 09/06/26 Втр 14:20:07 #64 №1628329

>>1628311
>Но ты имеешь возможность запускать 235 в Q8? Потому что иначе, ты лишь посмотрел на циферки и теперь бегаешь с этим как с писанной торбой.
Нет, не имею такой возможности. Имею возможность запускать Q5 235 и Q5 27 и вижу своими глазами, что 27 лучше. По цифрам вижу, что 27 лучше. На что еще мне посмотреть? Ты раз в месяц регулярно врываешься со своим альтернативно-одаренным мнением и разводишь срачи, хотя ни разу не принес НИ ОДНОГО лога. Вопрос: ты долбаеб и тебе заняться нечем?

Аноним 09/06/26 Втр 14:27:34 #65 №1628335

>>1628329
> Имею возможность запускать Q5 235 и Q5 27
Конечно, конечно. Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте. Охуительные истории. Ты не стесняйся, сразу пиши что в Q2 его разъебывает.
Я просто тебе неполживому напомню, что там активных всего 22b.

> Ты раз в месяц регулярно врываешься со своим альтернативно-одаренным мнением
Пока я не написал что пишу пару раз в месяц, я у тебя чуть ли не каждую неделю срач разводил.

> НИ ОДНОГО лога
Как и ты, анон, как и ты.

Вот аноны пользуются 235, подрубают когда хотят покумить, но только ты познал дзен 27. Ваааалшебник, не иначе. Носок с камнем сам сделаешь.

Аноним 09/06/26 Втр 14:29:13 #66 №1628336

Что-то я не так с embedded моделями делаю.
Скачал qwen 8b embedded, запустил через llama-cpp с ctx 2048 и почему то он в 4 кванте не помещается в 8vram, начинает в shared memory лезть. Вроде и контекст небольшой? Кто-то сталкивался с таким?

Аноним 09/06/26 Втр 14:36:30 #67 №1628344

>>1628335
>Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте.
В чем противоречие? У меня 32 + 128. Q5 235 влезает с 64к контекста, Q5 27 с 120к контекста, я его так и использую и держит он его очень хорошо.
>Ты не стесняйся, сразу пиши что в Q2 его разъебывает?
Q2 здесь причём?
>Я просто тебе неполживому напомню, что там активных всего 22b.
Ага. Ииииии? Что это должно значить?
>я у тебя чуть ли не каждую неделю срач разводил.
Поиск протыков пошёл?
>Как и ты, анон, как и ты.
Да много раз приносил на самые разные модели. И другие приносили и на 235, и на 27.
>Вот аноны пользуются 235, подрубают когда хотят покумить, но только ты познал дзен 27
Эти аноны с тобой в одном треде? Или все таки в голове?
Как минимум эту точку зрения разделяет автор гайда с шапки лол сорян что приплетаю, анон, но как ещё изгонять ебанутых демонов шитпостеров?

Вводные такие;
Ты один единственный шиз кто семенит про 235 и не приносит логи. Итог: надо либо завалить ебальник и принять реальность либо свой громкий пиздёж чем то подтверждать. Где логи пресеты? Или ты типа думаешь что сила твоего слова настолько велика что перестроит реальность?

Аноним 09/06/26 Втр 14:39:41 #68 №1628349

>>1628335
>Имея возможность 235 запускать в Q5, ты 27 держишь в 5 кванте
Имею возможность запускать 235 в Q2 и собсна запускаю для кума. Новые квены совсем залупа какая-то. Ассистенский биас, ебанутая цензура, ебанутый ризонинг. При наличии Геммы в том же размере - просто не нужны.

другой анон

Аноним 09/06/26 Втр 14:39:43 #69 №1628350

>>1628311
Каждый раз когда ты залетаешь со своим "ммм какой Квен 235 ахуенный" все заканчивается одинаково. Тебя справедливо просят подкрепить свой мягко говоря сомнительный тейк хоть чем-нибудь, в итоге ты несешь какую-то хуйню и под конец выливаешь в тред бидон желчи. Иди нахуй, говно.

Аноним 09/06/26 Втр 14:58:50 #70 №1628367

https://www.sourcepulse.org/projects/29732850
https://github.com/zhinianqin/flash-attention-v100
Выглядит будто бы собрали и запустили.
Кто-то тестил? Работает лучше ванильного vllm на v100?

Аноним 09/06/26 Втр 15:28:47 #71 №1628384

>>1628350
>сомнительный тейк
Запускаешь модель @ пишешь. С ним нет никакого гигапердолинга. Все пресеты что я притаскивал лежат у хомячка на пикселе, но ты слишком тупое говно чтобы открыть свои глазки. И нет, я не собираюсь скидывать логи сраной порнухи, потому что это тупо и это проверяется банальным запуском самой модели.

>>1628344
>Как минимум эту точку зрения разделяет автор гайда с шапки лол
Ку уже нужно делать? Или какой положняк нынче?
>Где логи пресеты?
Все было скинуто и не раз. От пресетов, промтов до паков карточек. Сорян, но я не собираюсь как кукушка повторять одно и тоже действие.

Аноним 09/06/26 Втр 15:30:38 #72 №1628386

>>1628384
>я не собираюсь скидывать логи
>Все было скинуто и не раз
Слив засчитан. Вопрос нахуя ты устраиваешь срачи своими вбросами остается открыт, да и похуй. Записан в шизы и говно наравне с эйроидиотом. Вы на одном уровне

Аноним 09/06/26 Втр 15:33:06 #73 №1628389

>>1628386
> Слив засчитан
Хорошо. Объясни, почему твой тейк что 27b лучше я должен воспринимать за истину? Или доказывать исключительно только тебе надо, а все твои слова неполживая истина?

Аноним 09/06/26 Втр 15:36:24 #74 №1628392

>>1628389
Это не мой тейк, ты общаешься с как минимум двумя анона, мб больше даже. Мой тейк в том что ты регулярно высираешься в тред и получаешь одну и ту же обратную связь (справедливую), но это тебе не останавливает от того, чтобы плодить еще больше срачей. Не знаю кто тупее, ты или тредовички которые каждый раз ведутся. Одного эйрошиза нам мало, ага

Аноним 09/06/26 Втр 15:37:30 #75 №1628394

>>1628389
>твой тейк что 27b лучше
Ты пропустил мой тейк, что 31B лучше.
Мимо с глм->гемма

Аноним 09/06/26 Втр 15:40:50 #76 №1628396

>>1628392
Лол, ну ты же вступил в беседу, так что не ссылайся на других. Чилавек лигивон.
Если 27b лучше ты же сам легко это запруфаешь, не так ли ? Или уйдешь в семенство и в верчение жопой?
Каждый раз одно и тоже
>235 отлично пишет порево
>27 лучше
>где?
>ололо квеношиз

Ну покажи мне где он ебет, разъеби меня хоть раз фактами чтобы я заткнулся. Это же легко.

Аноним 09/06/26 Втр 15:44:03 #77 №1628399

>>1628396
Не, я не вступал в беседу, я нассал тебе на ебало за то что ты устраиваешь срачи и регулярно высираешься в тред. Жопой виляешь здесь ты и намеренно агришь на себя тред или у тебя настоящие траблы с головой. Будь я мочой давно потер бы тебя

Аноним 09/06/26 Втр 15:44:44 #78 №1628401

То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует. А вот то что 27b задроченный на ассистенство лучше в РП чем 235b с кум-датасетами - это напоминает траленк и вброс. Тот кто писал про это пусть и доказывает вместе с логами (доказательство - бремя утверждающего, не так ли?)

Аноним 09/06/26 Втр 15:45:43 #79 №1628402

>>1628394
Может потому что 31b это умница ассистент и в этих задачах она лучше? Может ты пряники мятные считаешь, зачем тебе глм.

>>1628399
Ну в общем кроме унылого оскорбления, ты не способен подкреплять свою позицию. И все что можешь это бессильно пукать?
Вот это я понимаю конструктив.

> нассал тебе на ебало
Пока что ты нассал себе в штаны.

Аноним 09/06/26 Втр 15:47:13 #80 №1628404

Здравствуйте, многоуважаемые посетители имиджборда 2ch.
Корпосетки окончательно зацензурились в связи с чем хочу вкатится в локальные модели, железом хорошим не обладаю поэтому хочу арендовать железо.
Подскажите, оправдано ли это?
И что нынче считается топом для кума?

Аноним 09/06/26 Втр 15:47:44 #81 №1628406

image.png

>>1628401
>То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует
>А вот то что 27b задроченный на ассистенство лучше в РП чем 235b с кум-датасетами - это напоминает траленк и вброс
>Тот кто писал про это пусть и доказывает вместе с логами (доказательство - бремя утверждающего, не так ли?)
Как удобно, что между 235b и 27b лучше именно 235b - это не утверждение и потому доказательств не требует

Аноним 09/06/26 Втр 15:54:58 #82 №1628414

>>1628406
>между 235b и 27b лучше именно 235b
Потому что это модели от одного разработчика и между выходом прошло всего полгода. При таком незначительном временном разрыве фраза "235 лучше в РП" звучит вполне себе оправдано и солидно.

Больше параметров = больше знаний, больше "мозгов". Это буквально база. Чего такого изобрели квен за полгода, какие космические технологии, что модель почти в 10 раз меньше стала лучше их же милфы?

Аноним 09/06/26 Втр 16:01:37 #83 №1628422

>>1628401
По известной формуле, МоЕ 235б а22 ~ 45б плотной, это очевидно и доказательств не требует.

27б новее, но конечно до 45б не дойдет. Вот если бы в плотняше хотя бы 40б параметров было, то это уже было бы конкуренцией реальной

Аноним 09/06/26 Втр 16:02:34 #84 №1628423

>>1628344
>Ты один единственный шиз кто семенит про 235 и не приносит логи.
Он не один, как минимум я тоже одобряю 235. Хотя и не запускал её давно. И вот еще один, который запускает в Q2 >>1628349
Так что мне кажется что шиз тут ты
>Где логи пресеты?
Байт на пресеты пошел, лол.

Аноним 09/06/26 Втр 16:04:35 #85 №1628424

>>1628307
Неправ в исходном утверждении, неправ в том, что выплескивает в тред свои проекции. Инструкциям могла следовать еще альпака на первой лламе.
>>1628309
С агрессивности этого коупинга и манямирка за ним можно только ахуевать.
>>1628311
> в Q8
Зачем такое? Если фуллврам то это в корне бессмысленно, если с выгрузкой - там между q6 и q8 разницы не будет, зато скорость приятнее.
А 235 вполне себе норм модель для рп, не для всего, но в некоторых сценариях отлично пишет. Даже по современным меркам неплохо, можно смело закидывать в рандом пулл или ставить основной если знаешь что подходит под сюжет.

Аноним 09/06/26 Втр 16:07:18 #86 №1628426

>>1628404
А что выбрать какую-нибудь слабо зацензуренную (или ломаемую джейлом) средненькую модель у провайдера с опенроутера не варик?
Если у тебя не 256гиг (а то и больше) риг то модели которые ты сможешь запустить могут показаться очень каловыми

Аноним 09/06/26 Втр 16:07:40 #87 №1628427

>>1628404
Локалки тоже зацензурены в салат, и из них вычистили все срамные тексты из датасета, плюс надрочили отказывать.
Да, это жозенько, но корпам не нужно, чтобы во время презентации биг боссам или проверяющим чиновникам модель высрала крамолу. Там могут и премии лишить, и посадить за изготовление и распространение прона.
Так что терпи и дропай рп и ерп, качай opencode и замещай кодеров.

Аноним 09/06/26 Втр 16:09:32 #88 №1628428

>>1628404
>железом хорошим не обладаю
Для геммы 26В достаточно любой видеокарты и 16 гб рам.

Аноним 09/06/26 Втр 16:11:45 #89 №1628431

>>1628313
> Почесал за ушком.
А меня, а меня?!
>>1628344
> единственный шиз
Этим называли и меня, и еще как минимум трех разных человек. Кажется что настоящий шизик тот, кто разводит все эти срачи с радикальным максимализмом, тогда как разные аноны отмечают плюсы и минусы. Сценарий и тейки одни и те же, варьируется только наброс с которого начинается проход в квен или что-то еще.
>>1628401
> лучше именно 235b
Ну, кодить лучше 27б, точнее и нет лишнего. На ассистенте даже хз, 27вроде свежее и более аккуратно жонглирует доступным, но 235 иногда выдает ультрадушевную милоту с которой очень приятно, при этом выполняя задачу. Но слишком уж много жрет памяти, тут 27 или 122 рациональнее.

Аноним 09/06/26 Втр 16:12:51 #90 №1628433

>>1628427
>и из них вычистили все срамные тексты из датасета
Пиздеж, гемма явно на порнухе училась. Да и из больших моделей никто ничего не убирал.

Аноним 09/06/26 Втр 16:15:37 #91 №1628434

>>1628414
> Потому что это модели от одного разработчика и между выходом прошло всего полгода
Странная аргументация. 235 пережарен, это знают все, кто его запускали. Иногда это на пользу, но часто - нет. Про полгода и вовсе бессмыслица, потому что есть большая разница между Квеном 3, архитектурой Next и последующей 3.5. Все Квены 3 были пережарены, в общем-то, не только 235. 3.5 не пережарены и их архитектура значительно продвинулась по сравнению с 3, как утверждают сами разработчики Квена.
> Больше параметров = больше знаний, больше "мозгов". Это буквально база.
Существуют бенчмарки и тесты, которые позволяют эти "знания" измерить, и как выше отметили 3.5 27б по этим тестам превосходит 235. Даже по Human's Last Exam, который как раз пытается тестировать знания в самых разных сферах, и даже на момент выхода 235 обладал неприлично малым количеством знаний для своего размера, настолько он неудачен в этом смысле.

Тут проблема в другой плоскости совершенно. У 235 есть свои юзкейсы, но то, как ты приходишь сюда и вбрасываешь свое мнение только ради того, чтобы посраться - неадекватно. Принимай то, что не все разделяют твои вкусы, либо будь вменяемой стороной диалога и подтверждай свои тезисы хоть чем-то.

мимо тоже считаю, что 27 лучше, чем 235, даже приносил логи-сравнения

Аноним 09/06/26 Втр 16:23:39 #92 №1628438

>>1628031 (OP)
Сап, анонсы. Я полный ноль в ллмках. Что мне надо: мне надо, чтобы нейросетка могла распознать текст на скане/фотке документа, по моему промту изменить его и выдать мне в формате ворда/экселя.
Компьютер: штеуд12700, 4070ти (12гб памяти), 32гб оперативы ддр4.

Есть варианты как-то это нормально сделать, желательно с вменяемым графическим интерфейсом, чтоб мне не надо было какой-нибудь питон устанавливать, тыщи команд во всякие терминалы вводить и т.д.

Аноним 09/06/26 Втр 16:24:34 #93 №1628439

>>1628434
>3.5 не пережарены
Так не пережарены что лупятся в ризонинге "wait let's check again" по 10к токенов.
>даже приносил логи-сравнения
Ну так запости еще раз.

Мимо

Аноним 09/06/26 Втр 16:25:54 #94 №1628441

>>1628422
>По известной формуле
>это очевидно и доказательств не требует
Шиз, таблы. Формула кусок говна без доказательств.
>>1628423
>Хотя и не запускал её давно.
Да, охуенная сетка, но нахуй никому не нужна, всё так.
>>1628427
>плюс надрочили отказывать
Особенно гемму 4, ага.
>>1628438
>выдать мне в формате ворда/экселя
Сетки не могут генерировать файлы, только текста.
>тыщи команд во всякие терминалы вводить
Тогда мимо, ибо твой запрос решается только программированием кучи обвязок.

Аноним 09/06/26 Втр 16:27:59 #95 №1628443

>>1628438
Kobold.cpp + OpenWebUi
Первое в пару кликов ноубрейн запускает модель, второе дает фронт с мощным функционалом с интерфейсом для идиотов.
Из моделей подойдет гемма 26-31B, но удостоверься что запускаешь с mmproj, доп моделькой распознавателем картинок.

Аноним 09/06/26 Втр 16:29:14 #96 №1628444

>>1628439
> Так не пережарены что лупятся в ризонинге "wait let's check again" по 10к токенов.
У меня ни разу такого не было за все мои чаты на суммарно более, чем два млн токенов. Или у тебя сломанный инференс, или промпты с кучей сущностей, что запутывают сетку, либо на худой конец скилл ишью - можно использовать reasoning-budget, если все совсем плохо.
> Ну так запости еще раз.
У меня нет цели подливать масло в ваши пердаки, прошу меня извинить.

Аноним 09/06/26 Втр 16:30:50 #97 №1628445

Крч локалко-положняк на сегодня. Кодоунитазинг, агентоблядство, последний квен 27b. Писики, сисики, поболтулечки, Гемма 26\31b. thread/

Аноним 09/06/26 Втр 16:31:25 #98 №1628446

>>1628441
>Да, охуенная сетка, но нахуй никому не нужна, всё так.
235 хуже большого GLM/квена 397, в которых нет её проблем с форматированием. Но для тех кто не могут запускать GLM/397 - там 235 актуальна.

Аноним 09/06/26 Втр 16:33:15 #99 №1628448

>>1628434
>то, как ты приходишь сюда и вбрасываешь свое мнение только ради того, чтобы посраться
Так это другой анон срётся. Я вообще тот хуй с Q2, лол, и использую милфоквен под кум вместе с эйром и геммой 4. Новые квены, что 27b, что 122b мне не понравились совершенно. Цензура сложнопробиваемая (на пустом контексте), ризонинг вообще использовать невозможно - там ОГРОМНЫЕ бессмысленные простыни. Ну и субъективно по "мозгам" 27b проигрывает 31b гемме. А что касается 235b - там просто "сел и поехал", кум сочный, душевный, слоп слог нравится. Ладно в плане ассистента, но чем 27b может быть лучше милфы в рп/куме, в упор не понимаю. Скоростью разве что.

Аноним 09/06/26 Втр 16:37:38 #100 №1628449

>>1628404
>Корпосетки окончательно зацензурились
DeepSeek v4 отлично пишет порно на мой непритязательный взгляд.
Хотя хз, что там у тебя за фетиши.

Аноним 09/06/26 Втр 16:38:33 #101 №1628450

>>1628441
>Сетки не могут генерировать файлы, только текста
Ну хуй с ним, а оно сможет выдать мне текст, который я просто копировать в пустой документ смогу? Ну только с разметкой прям вордовской, с табличками, жирный, курсив етц.

Аноним 09/06/26 Втр 16:43:07 #102 №1628452

>>1628427
Блин грустно, неужели нет какого-то тюна, или тип того?
Раньше Гемини была хороша а щяс даже на несчастную пощёчину ругается, ставил и джейлы и хуейлы, везде костыли, я помню раньше ставил тюн на какую-то лайт версию и вроде ок было.
3060 у меня и 32 гб ОЗУ, вот и думаю арендовать яет

Аноним 09/06/26 Втр 16:43:56 #103 №1628453

>>1628441
>Шиз, таблы. Формула кусок говна без доказательств.
И чем мой стейтмент отличается от
>То что между 235b и 27b лучше именно 235b - это очевидно и доказательств не требует.

Я с ним не спорю, но оба утверждения основаны только на ощущениях. Вот я лично ощущаю, что конкретно в РП производительность МоЕ и дэнсов можно сравнивать по такой формуле (active MoE param amount + (full MoE param amount)/10; in this case 22b + 235b/10 = 45.5b equivalent dense)

Но это вообще из моей жопы вытащено, ровно как и утверждение про то, что жирноквен МоЕ лучше скинниквена дэнс для РП конкретно, потому что а как ты блять это сравниваешь? Чисто так, что тебе чаты с жирноквеном больше нравятся. У тебя может быть байас к этой модели, потому что тебе нравится ее стиль письма, например, а это вообще исключительно вопрос предпочтений.

Аноним 09/06/26 Втр 16:44:54 #104 №1628454

>>1628449
А мне чет совсем не понравилась Гемини была в разы артистичнее, но ее зацензурили нещадно

Аноним 09/06/26 Втр 16:45:43 #105 №1628456

>>1628450
>Ну только с разметкой прям вордовской
Макдаун там будет. Впринципий, таверна его отрендерит как html, а он при копировании бровзером и вставкой в ворд может быть распознан нормально. А может и нет, и придётся вайбкодить конвертёр.

Аноним 09/06/26 Втр 16:46:58 #106 №1628457

>>1628453
>И чем мой стейтмент отличается от
Ничем, оба пиздабольство, лол.
>Чисто так, что тебе чаты с жирноквеном больше нравятся.
Я геммафаг если что, нравится отсутствие цензуры из коробки.

Аноним 09/06/26 Втр 16:50:59 #107 №1628459

>>1628426
А я хочу топ, хочу качественный кум и бабки готов заплатить, ток не понятно куда

Аноним 09/06/26 Втр 16:58:30 #108 №1628462

>>1628459
Мифос выйдет завтра, и сможешь покумить всласть. А тут лишь пускающие слюни лоботомиты.

Аноним 09/06/26 Втр 17:05:30 #109 №1628465

>>1628462
Mythos nods.

Аноним 09/06/26 Втр 17:06:02 #110 №1628467

>>1628462
А он точно умненький будет?
Мне просто надо что бы не только циферки считал и взламывал Пентагон, а еще и мог написать красиво как няшимся под одеялком

Аноним 09/06/26 Втр 17:06:52 #111 №1628468

>>1628456
Билят, ну +- такой же функционал есть и на диписике/чатжпт в онлайне. Мож тогда и не стоит заморачиваться локалками?

Аноним 09/06/26 Втр 17:07:59 #112 №1628470

Так а че с геммой, ее прям активно в треде обсуждают может на неё есть клевые тюны со всякими извращениями?

Аноним 09/06/26 Втр 17:11:11 #113 №1628472

В этом их тикитоке с месяц назад пиариили полностью анцензуренную модель, не помню название, что за неё анон скажет? Например сможем с ней в ГтаРП ролеплеить расчёты кумулятивных конусов или утилизацию 90 килограммовых куриц? Или такая инфа по умолчанию в датасете отсутствует?

Аноним 09/06/26 Втр 17:13:45 #114 №1628476

>>1628295
Просто на развес отдавали. Даже без бонус, все равно копейки за 64 гига ддр4.
А щас даже 32 на комп не наскрести вменяемо.

>>1628311
ОЛАДЬИ УГАШЕННЫЙ ТЫ ОБ ДЕРЕВО

>>1628318
Дипсик вообще говно, на самом деле. Хз, может тебе не фартануло? Мне М3 в общем норм.
Но вот М2.7 он разочаровывающий. В рассуждениях хорош, но дальше решения логических задач — какой-то ступор. Будто М2.5 и то лучше был в агентике и коде. Фиг знает, может мне тоже десять раз не повезло его использовать.
Короче, дипсик в принципе говно, а минимакс слишком дрочат на бенчи, модель хорошая, но не настолько, к сожалению.

>>1628336
Нет, у меня все лезло, как по расчетам.

>>1628422
> По известной формуле, МоЕ 235б а22 ~ 45б плотной, это очевидно и доказательств не требует.
Ржу до соплей просто.
Чувак, известная формула, это сумма мое делить на два. А скока там активных в формуле не участвует. Т.е., квен 235б мое был НА ТО ВРЕМЯ равен 117б плотной. Все, блядь, нахуй.
С тех пор тыщу раз пересрались, одних квенов три поколения сменилось, навыходили дипсики, мистрали, геммы, мимо, степы и прочие эрни.

Я не участвую в вашем споре, мне кардинально параллельно насколько хорош квен 235б на 10 тпс в ерп, правда.
Просто формула всю жизнь была total parameters / 2, или около того, а количество активных минорно влияло в ту или иную сторону.
И до сих пор многие знакомые так же считают, и это совпадает.

Даже блядская гемма на 12б чуть слабее, чем гемма на 26б (которая должна быть равна 13б), что охуенно подтверждает формулу.

Какие еще в пизду active * 2, ты с дуба рухнул. =)

>>1628438
Куча вариков, но никто не делает «просто приложением», потому что это никому нафиг не впилось, кроме тебя и таких как ты, а вы не делаете потому что не можете. Ну вот так и не повезло.
Я не помню, что хорошо поддерживает таблицы.
Любая VLM в общем подойдет.
Но формат Markdown будет.

>>1628441
> Формула кусок говна без доказательств.
Не, формула норм, просто она другая, а во-вторых, применима в рамках одной линейки и одного поколения. С геммой 4, например, отлично сработала, и с квеном 3 (когда еще был 14б) тоже отлично работала. А мерять за пределами линейки и поколения — ну просто невозможно, конечно.

———

Короче, я попробовал в Marinara Engine Gemma-4-26B-A4B-QAT с ризонингом и без.
Без ризонинга в GM режиме совсем хуйня (зато 4 секунды на ответ), с ризонингом ну явно проседает, хотя в целом играбельно (кстати, 10-12 секунд на ответ).
Но я останусь на 31б плотняше, скорее всего.
А вот 26б попробую для диалогов или ролеплея.

>>1628322
Вот на мой вкус, 26б прям сильно хуже 31б модели.
Но, тем не менее, есть куда применить. Скажи, а какие настройки MTP для геммы оптимальные? Че там по топ_п и че там по токенам?

Может даже команду подкинешь для правильного запуска?

Аноним 09/06/26 Втр 17:20:00 #115 №1628480

>>1628476
>Твоя формула хуйня
>Вводит другую бессмысленную формулу
Хех. А я уже и забыл как я не скучал по этой плесени =)
Накатим!

Аноним 09/06/26 Втр 17:26:04 #116 №1628482

>>1628476
> Ржу до соплей просто.
АФФТАР РЖОТ!

Аноним 09/06/26 Втр 17:26:27 #117 №1628483

Бля или как там у них было, ЖЖОТ

Аноним 09/06/26 Втр 17:29:56 #118 №1628485

>>1628438
> чтобы нейросетка могла распознать текст на скане/фотке документа
Да
> по моему промту изменить его и выдать мне в формате ворда/экселя
Несколько сложнее, но да. Не для нубов.
Для начала запусти по гайду для новичков ллм, туда же можно будет скинуть пикчу и поиграться. А чтобы дать возможность сетке что-то самой писать и редактировать, тем более в определенные форматы, придется это все оборачивать в скрипты, или делать агентов.
После того как с запуском разберешься - поставь openwebui. Будет довольно тяжело, но самые первые вещи там освоишь. А так юзай пи, квенкод, опенкод или подобные вещи, они тебе и код напишут, который конвеер автоматизирует, и его запустят.
Готовые решения наверно есть, но будут всратым вайбкодом, лучше самому разобраться.
>>1628453
> по такой формуле
Ебанулись наотличненько, уже формулы придумали.

Аноним 09/06/26 Втр 17:31:59 #119 №1628486

image.png

MTP сломан на ламацпп последней версии? Как ни крутил похоже он не запускается

[34m0.00.255.568[0m [32mI [0msrv load_model: loading model 'D:\ai\llmModels\gemma-4-31B_q4_0-it-QAT.gguf'
[34m0.01.379.438[0m [31mE llama_init_from_model: failed to initialize the context: Gemma4Assistant requires ctx_other to be set (this is normal during memory fitting)
[0m[34m0.01.441.737[0m [35mW srv load_model: [spec] failed to measure draft model memory: failed to create llama_context from model
[0m[34m0.01.441.761[0m [32mI [0mcommon_init_result: fitting params to device memory ...
[34m0.01.441.761[0m [32mI [0mcommon_init_result: (for bugs during this step try to reproduce them with -fit off, or provide --verbose logs if the bug only occurs with -fit on)
[34m0.03.215.516[0m [35mW load: override 'tokenizer.ggml.add_bos_token' to 'true' for Gemma4
[0m[34m0.03.244.284[0m [35mW load: control-looking token: 50 '<|tool_response>' was not control-type; this is probably a bug in the model. its type will be overridden

Аноним 09/06/26 Втр 17:32:55 #120 №1628487

У кого то опять обострение, срач развели с нихуя.

Я вот скажу так - вчера гемму мое кат щупал в ерп, так она выебывалась. Переключился на просто гемму мое 4 кл, она сразу подхватила и не выебывалась.
Делаю вывод - сломанность обычной версии ломает и триггер цензуры, дообученная кат версия получила более полную версию цензуры.
Кто то еще сравнивал?

Аноним 09/06/26 Втр 17:36:02 #121 №1628490

>>1628480
Я просто напомнил, как считали раньше. =) Я не вводил другой формулы, я напомнил единственную.
А вот чел реально на ходу придумал хуйню, о которой кроме него никто не слышал, лишь бы оправдать квен. =D

>>1628322
Ебац, 100 тпс на гемме 31б.
Спасибо, что напомнил, мое почтение!

Аноним 09/06/26 Втр 17:38:49 #122 №1628491

>>1628476
> Дипсик вообще говно, на самом деле.
У меня 4 флеш крайне хорошо работает через pi как движок кодинг агента.

Возможно дело в харнесс.

Я прям пиздатых моделей толком не трогал бтв, я использую доступное в интернете БЕСПЛАТНО, ну и локальную когда совсем судьба прижмёт)
И я бы сказал что дипсик лучше локального Qwen3.6-35B-A3B-MXFP4_MOE_BF16, который я кручу на 4060 + 90к контекста в 30ток\с, считай... всегда.

Тут в треде в основном в целях генерации текста применяют, поэтому может мы говорим о разных применениях.

Сейчас глобально доступно 45 моделей по бесплатной схеме из которых можно активно пользоваться (они не забиты трафиком) 20. Под вечер число запросов растёт и они перестают отвечать

Аноним 09/06/26 Втр 17:39:46 #123 №1628493

>>1628487
Есть такое, чуть фикситься это системным промтом, но все равно не хочет описывать как сосет в подробностях, что делает какой-то алибирейтед лоботомит, но он сук тупой

Аноним 09/06/26 Втр 17:40:21 #124 №1628494

>>1628487
Двачую, развели тут филиал Кащенко, шизы ебучие.

У меня кат версия не рефьюзила, но за заменяла интересное на "same", лол.

Аноним 09/06/26 Втр 17:46:30 #125 №1628497

>>1628486

У меня все работает. Бери вот эту мтп

google_gemma_4_31b_it_qat_q4_0_unquantized_assistant-Q4_K_M.gguf
https://huggingface.co/Stabhappy/gemma-4-31B-it-qat-q4_0-unquantized-assistant-GGUF/tree/main

Аноним 09/06/26 Втр 17:50:49 #126 №1628498

>>1628491
Ну, конечно круче.
Но вот Step-3.7-Flash и Xiaomi MiMo V2.5 — уже вопросики.

А почему не OpenCode?

>>1628497
Я, кстати, качнул https://huggingface.co/RachidAR/gemma-4-31B-it-qat-Q4_0-Q4emb-MTP-assistant-gguf вот эту, но они одинаковые, как я понял.
Тоже работает без проблем.

Аноним 09/06/26 Втр 17:58:29 #127 №1628502

image.png

>>1628041
>>1628187
>>1628109

Я тоже не фанат маринары и её агентского подхода, забивать драгоценную видеопамять доп.агентами, которые еще и ломаться будут, потому что ЛЛМ под математику не заточены, особенно те лоботомиты что вы для агентов используете. Я все скриптами в таверне делаю.
Вот как это работает. В World Info в самом конце есть страница статусов персонажа. Гемме данна инструкция смотреть на этот статус и на его основе работать. При этом гемме запрещено самой заниматься арифметикой и высчитывать статусы - надо тупо брать то что записано и работать по этому. Если во время действия меняется параметр - гемма должна написать в конце сообщения дельту (например Стамина: -5, или Отношения с Тян_нейм: +10). Скрипт после сообщения нейронки парсит её сообщение и меняет статусы в World Info, Гемма в следующем сообщении видит уже измененные статусы и работает по ним. И всё. Работает как часы, не нагружает гемму, никаких дополнительных моделей/памяти/вызовов/времени не требует. Есть кнопки, сбрасывающие статусы, пересчитывающие их, есть скрипты, которые отслеживают в юзер сообщении команды и подсовывают в промпт нужные инструкции, например "Чат" в юзер сообщении переходит в режим чата с активными персонажами в зоне, пока юзер или один из персонажей не напишет "конец чата" - все это на чистых скриптах и реюзается для любого сценария, ручками разве что имена персонажей в окне статуса надо забивать, остальное все генерируется по нажатию кнопки. Вот для примера на SFW ролеплее по мотивам детского мультика.

Аноним 09/06/26 Втр 18:19:42 #128 №1628516

Суп текстогенерач, прочитал шапку, и что-то не пойму, была же где-то сноска про мультигпу в лламе?
Ситуация следующая, увлёкся локальным вайбкодингом искренне получаю от этого удовольствие после 4-х лет нейрокума, даже в 30Т/c. И хобби стало ещё больше нравится, и лишние деньжата появились. Думаю прикупить к моей 4060ti 5060ti как вторую видяху. Как понимаю, просто нужно воткнуть её в мать?

Пиздец, посмотрел, что у меня по слотам расширения, одна псина 3.0 х16, вторая псина 2.0 х4. Думаю теперь взять видяху, пока цены не сильно кусаются, а потом мать добрать мать на уже устаревшем AM4 с нормальными псинами, в чём не прав? Будет же быстрее фуллврам с тензорсплитом, но одна видимокарта на 2.0 х4, или это будет даже медленнее?

Аноним 09/06/26 Втр 18:32:23 #129 №1628525

>>1628516
> вторая псина 2.0 х4
Увидел такую же ситуацию у анона из прошлого треда. Этот вопрос снимается. Есть ли ещё какие подводные? и как бля расчитать сколько места будет занимать видюха по вот этим "2.5 Pci-e"? Ладно по миллиметрам ещё можно понять что как куда, но это...

Аноним 09/06/26 Втр 18:44:02 #130 №1628530

Кто там пиздел вчера, что МТП сделает только хуже если не вся модель в врам? У меня 8 гб врам, запустил квенчик 27б q4ks без МТП - получил 3.7 т/с, с МТП 4.8 т/с

Аноним 09/06/26 Втр 18:45:05 #131 №1628532

image.png

>>1628498
> А почему не OpenCode?
Мне посоветовали pi
Я его попробовал
Мне он понравился

+ я планировал когда фри заканчиваются использовать локальную модель, но имею зверски негативный опыт использования локальной модели вместе с cline расширением вскода 30к контекста на НИХУЯ тратится.

А этот 0% контекста юзд при первом обращении

Слышал про opencode, но по факту от них я эндпоинт использую и использую их бесплатные модели через pi.
Может он и хорош

Пока не упирался ни во что кроме разве что отсутствия поиска в интернете и лично я пока медленно ищу как бы к нему картинки присрать и вообще какие варианты бывают

Аноним 09/06/26 Втр 18:46:40 #132 №1628533

image.png

>>1628530
У меня run_Qwen3.6-35B-A3B-MXFP4_MOE_BF16 на 4060 + 32гб рам покзывает 20-30 ток\с

Почему у тебя так плохо?

Аноним 09/06/26 Втр 18:47:10 #133 №1628534

image.png

>>1628530

Иногда даже больше.

Аноним 09/06/26 Втр 18:48:04 #134 №1628536

>>1628533
Потому что это другая модель?

Аноним 09/06/26 Втр 18:51:13 #135 №1628539

>>1628536
Не, понятно, но 27б же должна весить меньше = перформить лучше когда вирамы немного?

Аноним 09/06/26 Втр 18:52:30 #136 №1628540

>>1628532
>вместе с cline
Недавно начал вкатываться тоже, перепробывал наверное все расширения, Клин говнище полное, промпт огромный, кастомизация никакая, только если заново расширение пересобирать. Если ещё раз захочешь что-то такое, попробуй Kilo code, очень уж зашёл он мне.

Аноним 09/06/26 Втр 19:10:07 #137 №1628543

Короче, скажите твёрдо и чётко, переходить на QAT квант геммы с Q4_K_M стоит? QAT весит даже меньше.

Аноним 09/06/26 Втр 19:11:15 #138 №1628544

>>1628539
У тебя МоЕ модель, в ней всего 3б активных параметров. 27б плотная, все параметры активны всегда.

Аноним 09/06/26 Втр 19:13:07 #139 №1628545

>>1628540
От них тоже эндпоинт использую)))

Я там где набрать компота писал в вайбкод треде.

Я не хочу тащить Odysseus пьюдипая чтобы понять, что он не умеет в картинки для разработки.

У меня и задачи то клоунские 16х16 текстуры перерисовать

Аноним 09/06/26 Втр 19:13:50 #140 №1628546

>>1628454
А я прямо противоположное слышал, что в гемини слоп самый надоедливый из всех
Видимо каждому своё

Аноним 09/06/26 Втр 19:21:59 #141 №1628550

>>1628543
Бро, 18 гигабайт всего. Скачай да проверь.

Аноним 09/06/26 Втр 19:23:23 #142 №1628552

>>1628325
>Сейчас большие монетки пишут лучше по уровню языка, но совершенно скупо.
Не совсем, большой Квен-3.5 чуть менее сочный, но умнее. Достойная замена.

Аноним 09/06/26 Втр 19:23:43 #143 №1628553

Все интересные карточки с Чуба пропали. Есть какие-то альтернативы?

Аноним 09/06/26 Втр 19:26:56 #144 №1628555

>>1628553
К нам сегодня приходил: некропедозоофил.
Мертвых маленьких зверушек, он с собою приносил.
>>1620333 →

Аноним 09/06/26 Втр 19:39:59 #145 №1628561

>>1628553
>Есть какие-то альтернативы?
Ну даже не знаю.. шапку посмотреть, например?

>Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com

Аноним 09/06/26 Втр 19:57:35 #146 №1628577

>>1628544
А какой поинт использовать не MOE?
Визуально 35B > 27B даже при учете того, что активных меньше

Аноним 09/06/26 Втр 19:57:38 #147 №1628578

>>1628406
Литерально так вижу всех 235 шизиков. Хотя мне трудно поверить что их больше одного максимум двух. Неолуддизм в чистом виде, особенно забавно когда они аутотренят что это обладатели отстутсвия рвутся, которые типа не могут его запустить. Вы себя видели? Столько вони ради вашей любимой няши и вся аргументация - ну зато она большая. Каждый раз как в первый

Аноним 09/06/26 Втр 20:01:14 #148 №1628581

>>1628578
Да, да. Ведь шизики все кто не разделяет твоё мнение.

Аноним 09/06/26 Втр 20:02:13 #149 №1628583

>>1628581
Не поверишь, я среди прочих 235 няшу и катаю. Только у меня больше одной мозговой клетки и я не убеждаю весь тред, что к этому говну не надо прикасаться, как это делаешь ты (вы)

Аноним 09/06/26 Втр 20:03:37 #150 №1628588

>>1628577
Потому что плотная модель всегда лучше

Аноним 09/06/26 Втр 20:05:15 #151 №1628591

>>1628555
>>1628561
Спасибо!

Аноним 09/06/26 Втр 20:05:31 #152 №1628592

>>1628583
Я, только писал, что он пишет ебовое порно. Всё блять.
Нигде не было написано что это 10 из 10. Сам порноиисус спустился с неба.
Но ты продолжаешь аппелировать, что я убеждаю в чем то тред. Или будет опять заход что 27ой пишет ебовее кум?

Аноним 09/06/26 Втр 20:06:58 #153 №1628595

>>1628577
Просто попробуй и сравни. Если бы все было так просто, то все бы делали только МоЕ модели.

Аноним 09/06/26 Втр 20:08:01 #154 №1628599

>>1628583
Кстати факт, ни одна модель кроме может геммы 3 такого антипиара не получала. Могу но не запускаю этот 235B тупо из-за шизика который им болеет, кекв. Не может он быть хорош если у него такие больные фаны

Аноним 09/06/26 Втр 20:12:46 #155 №1628606

>>1628592
>ты продолжаешь
>опять заход
Чел, это мой первый пост за день. Или охладись или вернись в палату пж

Аноним 09/06/26 Втр 20:13:49 #156 №1628609

>>1628487
Катал бф16, не рефьюзила, но кое где красочности не хватало. В рп она очень неоднозначна, с одной стороны может очень круто развивать действия, с другой - тупить и стоять на рельсах что хрен сдвинешь. Можно сказать что некая противоположность мистралю, который очень любит быть лупстралем, но если хорошо стукнуть - понесется как надо и очень разнообразно. Их можно и вместе катать, неплохо дополняют друг друга.
>>1628502
> забивать драгоценную видеопамять доп.агентами
Тут скорее забивать время генерации. Не то чтобы это особо отличается от написанного тобой по сути, и есть возможность также инжектить инструкции в основной промпт вместо отельных вызовов, а потом парсить ответ. А видеопамять - это если хочешь имажген.
Пикчи довольно впечатляющие, костыльно но мощно.

Аноним 09/06/26 Втр 20:20:53 #157 №1628622

>>1628578
>вся аргументация - ну зато она большая.
Тебе же выдвигали аргументы, честно признавали и недостатки. Но тебе же только посраться. И кто тут шизик?

Аноним 09/06/26 Втр 20:25:40 #158 №1628635

>>1628606
Ну конечно, конечно. Просто случайно ворвался. Случайно пост написал, случайно проигнорировал суть сообщения. Бывает, хуле.

Аноним 09/06/26 Втр 20:26:25 #159 №1628637

Ниче ниче, это у 235 лахты в желтом доме послабления, скоро врачи все обнаружат и они затихнут. А пока игнорим шизов

Аноним 09/06/26 Втр 20:31:34 #160 №1628648

>>1628599
>Не может он быть хорош если у него такие больные фаны
По этой логике к эйру не стоит даже приближаться

Аноним 09/06/26 Втр 20:31:47 #161 №1628649

>>1628635
>Просто случайно ворвался. Случайно пост написал
Типа да, случайно зашел в тред после работы (как и каждый день) и ответил что думаю по теме. Вы наплодили дохуллиард постов и все их можно свести к ну типа нам нравится а еще оно большое, доказано
>>1628637
Прав, ебанутый думает у него чай вдвоем а не тред

Аноним 09/06/26 Втр 20:36:00 #162 №1628658

>>1628649
> Вы наплодили дохуллиард постов
> ну типа нам нравится а еще оно большое
Ну если нам нравится и оно большое?

Аноним 09/06/26 Втр 20:42:45 #163 №1628667

Народ, помогите с настройками для Sillytavern для модели gemma 4 E2B/E4B Скиньте пожалуйста! Спасибо!

Аноним 09/06/26 Втр 20:45:58 #164 №1628672

>>1628502
>Скрипт после сообщения нейронки парсит её сообщение и меняет статусы в World Info
Можешь объяснить подробнее как это сделать?
Я так понял, что через Regex ты задаешь определенный скрипт, а потом кнопкой задействуешь его, правильно? Или там есть еще какие-то дополнительные расширения? Можешь поделиться скриптами, если не сложно.

Аноним 09/06/26 Втр 20:48:40 #165 №1628677

https://huggingface.co/CohereLabs/North-Mini-Code-1.0

Аноним 09/06/26 Втр 20:58:41 #166 №1628685

>>1628667
Этож ассистенты-переводчики, например, для них юзай рекомендованные гуглом параметры. Для мое-геммы 26 вот неплохой пресетик для Sillytavern. В принципе его и на мелочи можно попробовать.

https://pixeldrain.com/l/47CdPFqQ#item=168

В

Аноним 09/06/26 Втр 20:59:01 #167 №1628686

>>1628649
Что плохого в том, чтобы что-то котировать? А вот выстраивать манямир коупинга и атаковать все, что может поставить его под сомнение - уже стыдно.

Аноним 09/06/26 Втр 21:10:39 #168 №1628704

>>1628476
>Вот на мой вкус, 26б прям сильно хуже 31б модели.

Для майндгеймсов на сложной карте да, она похуже.

>Но, тем не менее, есть куда применить. Скажи, а какие настройки MTP для геммы оптимальные? Че там по топ_п и че там по токенам?

Мтп настраивай, вообще высокие работают от 5 хорошо.

Аноним 09/06/26 Втр 21:12:04 #169 №1628708

>>1628329
>По цифрам вижу, что 27 лучше.
Можно эти цифры посмотреть? Потому что в ерп бенче все большие квены топ, в UGI бенче по всем релевантным для этого обсуждения параметрам (UGI-entertainment, NatInt, Writing) то же самое.
Или ты про кодо-агентосрань, которую ещё на страничках моделек обычно постят?

Аноним 09/06/26 Втр 21:23:44 #170 №1628719

>>1628708
Зашёл ещё на EQbench и там та же картина. Новых мелкоквенов там нет, сравнил с геммой4 - большие модели лучше почти во всех бенчах

Аноним 09/06/26 Втр 21:23:58 #171 №1628720

>>1628708
>Можно эти цифры посмотреть?
Конечно. Их сами Квен и опубликовали
https://huggingface.co/Qwen/Qwen3.5-27B#benchmark-results
Instruction Following
HLE
Multilingualism
Необязательно про код. Вот например HLE
>Последний экзамен человечества (англ. Humanity's Last Exam, HLE) — это набор из 2500 однозначных и проверяемых академических вопросов по математике, гуманитарным и естественным наукам, которые были собраны при помощи почти 1000 экспертов-предметников из более чем 500 учреждений в 50 странах.
>Особенностью вопросов является их высокая сложность, но при этом решаемость с однозначным ответом. Например, перевести надпись с римского надгробия, сложность чего заключается в глубоком знании исторического и культурного контекста. Или ответить на вопрос о количестве сухожилий, скрепляющих характерную часть скелета определённого вида колибри.
Это буквально покрывает кум задачи в том числе. 235 настолько плох что проигрывает 27, модели которая почти в 10 раз меньше. HLE 235 прям настолько плох, что они видимо постеснялись его включить, а вот тут он указан https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507#performance
Поэтому ваш аргумент "ну зато большая и знающая" отправляется в помойку, хех. Но я двачану >>1628434 нравится и нравится, но нет вам надо убедить весь тред что вы в своём выборе не ошиблись и модель прям ну точно лучше других

Аноним 09/06/26 Втр 21:25:07 #172 №1628722

>>1628708
Кстати по поводу UGI бенча, это васянство и уже не раз были вопросы к методологии и тут и на средитах. Почитай подробнее на самой странице UGI, он хотя бы в этом честен, прозрачен и поддаётся оценке тем кто хочет понять

Аноним 09/06/26 Втр 21:33:02 #173 №1628728

>>1628720
> высокая сложность, но при этом решаемость с однозначным ответом. Например, перевести надпись с римского надгробия, сложность чего заключается в глубоком знании исторического и культурного контекста. Или ответить на вопрос о количестве сухожилий, скрепляющих характерную часть скелета определённого вида колибри.
> Это буквально покрывает кум задачи
Каким образом знание клинописи поможет в куме?
Сдается мне что эти вещи довольно опосредовано влияют на качество кума и рп, если только не появляется совсем уж плохих результатов, что говорит о шизе в модели. Ллм надрачивают на кучу подобных знаний и зирошот ответы, но в рп важнее понимание взаимосвязи сразу множества разных вещей, их ранжирования и правильного учета, а не точности римских сухожилий. Потому ответы мелких моделей поверхностны и охватывают ближайшие простые вещи, которые они узнали. Они довольно скучные и иногда даже неуместные, хотя если изолировать то "правильные". А какой-нибудь немо-мистраль может поддерживать неплохую линию и давать увлекательное и правдаподобное письмо, пусть и очень глупый.
Тут же рядом вещают про кодоунитазы, которые невероятно точные и во всем правильные, это недалеко ушло.

Аноним 09/06/26 Втр 21:39:46 #174 №1628736

>>1628728
Какие достоверные цифры были опубликованы, такие я и дал. HLE рассказывает не только про клинопись и римские сухожилия, я хз зачем ты высмеиваешь весьма серьёзный бенч на знания всего на свете. На своём опыте я вижу, что 235 это лоботомит, а по знаниям он даже когда был актуален проигрывал Эйру, тот вдвое меньше. Потому его в своё время и скипнули, а сейчас почитаешь средит и другие ресурсы внезапно все сидят на СтепФлеше и Минимаксе. Q5 235 разваливается и ломает персонажей на пороге в 20к токенов, что вообще несерьёзно, Q5 27 у меня держит без проблем до 100к. Опять же, мне похуй вообще что вы там на пъедистал возносите, до тех пор пока меня не заставляете делать то же

Аноним 09/06/26 Втр 21:41:30 #175 №1628739

>>1628720
>Это буквально покрывает кум задачи в том числе
Нет, не покрывает.
Как я и предполагал, суходроч который на страницах моделей пишут. Топ пересказывателей википедии.

>>1628722
Именно для этого я и чекнул сразу три относящихся к изначальной теме разговора бенча. А не кодинг, не пересказ википедии и не дроч тулколлов.
Я знаю что есть ещё какой-то сайт где люди вслепую тексты оценивают и из этого составляется топ, если кто помнит где это можно там чекнуть (но ерп там вроде не было)

Аноним 09/06/26 Втр 21:43:49 #176 №1628742

>>1628739
>Нет, не покрывает.
>Топ пересказывателей википедии.
Прикольное противоречие, учитывая про на википедии полно информации про анатомию, про различные болезни, состояния, одежду, культуру и много что ещё используется в куме. Сразу видно когда чел просто дал себе установку, что он прав. Хорошо, есть какие-то надёжные цифры а не UGI васянство где драммерослоп и лоботомитные васяноаблитерации в топе? Показывай

Аноним 09/06/26 Втр 21:57:22 #177 №1628753

>ряяя наш 235 умница и много знает, лучшая умница на свете
>но ведь сами разрабы квена математически доказали, что 27 знает больше...
>ряяя их математика не математика, наш 235 охотнее пишет "пися" и лучше справляется
Ор нахуй. Им уже полдня пишут что проблема не в том что им модель нравится, а в том что они отрицают действительность. Хоть на Лламе 8б дрочите, прогресс идёт вперёд, время не стоит. Нахуя вы набрасываете весь день, не заебались?

Аноним 09/06/26 Втр 21:57:33 #178 №1628754

>>1628452
>3060 у меня и 32 гб ОЗУ, вот и думаю арендовать яет

Так просто поставь себе гемму 26 по гайду из шапки, нормально у тебя работать будет, зачем арендовать.

Аноним 09/06/26 Втр 22:04:25 #179 №1628756

image.png

>>1628672
Ну вот смотри, есть Quick Reply скрипты, которые отрабатывают при определенных условиях.
Ну вот например скрипт на режим чата. И скрин как оно работает.
Execute before message generation - означает что скрипт отрабатывает перед генерацией сообщения.
Скрипт смотрит последние сообщения юзера и модели на слова триггеры и если находит - то инжектирует в промпт доп. инструкцию.

Сам скрипт:

/inject id=chat_mode "" |

/pass {{input}} |
/setvar key=cm_current_user |

/if left=cm_current_user right="" rule=eq {:
/pass {{lastUserMessage}} |
/setvar key=cm_current_user
:} |

/pass {{lastCharMessage}} |
/setvar key=cm_last_ai |

/pass {{getvar::cm_current_user}} |
/regex name=DetectChatPrefix |
/setvar key=cm_chat_check |

/if left=cm_current_user right="Конец чата" rule=in else={:
/if left=cm_last_ai right="Конец чата" rule=in else={:
/if left=cm_chat_check right="CHAT_ON" rule=in else={:
/if left=cm_last_ai right="[ЧАТ]" rule=in else={:
/pass
:} {:
/inject id=chat_mode position=chat depth=0 Режим чата продолжается. Начни ответ строкой [ЧАТ]. После этого ответь только прямой речью персонажа или коротким обменом репликами персонажей текущей сцены. Если необходимо - вставь краткое описание действия в скобках. Формат: Имя персонажа: реплика (действие). Общий объём ответа — максимум один короткий параграф и не больше 300 слов на фразу одного персонажа(говорить могут несколько персонажей). Время сцены не продвигается. Варианты действия в конце не пиши. Если персонаж не хочет продолжать разговор, он может закрыть режим чата фразой: Конец чата.
:}
:} {:
/inject id=chat_mode position=chat depth=0 Пользователь включил режим чата. Начни ответ строкой [ЧАТ]. После этого ответь только прямой речью персонажа или коротким обменом репликами персонажей текущей сцены. Если необходимо - вставь краткое описание действия в скобках. Формат: Имя персонажа: реплика (действие). Общий объём ответа — максимум один короткий параграф и не больше 300 слов на фразу одного персонажа(говорить могут несколько персонажей). Время сцены не продвигается. Варианты действия в конце не пиши. Если персонаж не хочет продолжать разговор, он может закрыть режим чата фразой: Конец чата.
:}
:} {:
/pass
:}
:} {:
/pass
:}

Аноним 09/06/26 Втр 22:04:39 #180 №1628757

image.png

Well-well-well, вот вам и QAT.

Аноним 09/06/26 Втр 22:08:36 #181 №1628760

>>1628736
> я хз зачем ты высмеиваешь весьма серьёзный бенч
Я хз зачем ты имплаишь за других то чего они не делали. Там рассуждения о применимости и интерпретации таких бенчей, даже без выводов.
> Q5 235 разваливается и ломает персонажей на пороге в 20к токенов
Интересно в чем причина такого, ведь именно стабильная работа с контекстом и удержание персонажей было среди сильных сторон модели. Катал на нем до 100к, вполне себе. Возможно он подходит не для всех персонажей, внося в отдельные характеры свой байас, и в целом он не под каждый жанр и экшн подходит сам по себе при наличии других, но чтобы прямо на все распространять.
> внезапно все сидят на СтепФлеше и Минимаксе
А вот это довольно удивительно, особенно учитывая как работает минимакс.
> что вы там на пъедистал возносите
Хз кто там что возносит. Наблюдая за сотней постов срача днем - один поехавший, может двое, убеждают все что они в своем хейте точно не ошиблись, а все кто не согласен - шизики. Причем настолько агрессивно, что разных анонов цепляет, мнений достаточно прозвучало.
>>1628757
Прочитало между строк твою любовь к фембоям!

Аноним 09/06/26 Втр 22:29:06 #182 №1628767

6d2f6d0a752ba0fc22c3330dd6bdd26b.png

>>1628757
A surprise, to be sure, but a welcome one

Аноним 09/06/26 Втр 22:33:07 #183 №1628775

>>1628753
Про надрачивание квена на тесты уже анекдоты ходят, анон...

Аноним 09/06/26 Втр 23:43:51 #184 №1628812

Что запустить можно на андроиде с 16 гигами озу?

Аноним 09/06/26 Втр 23:58:48 #185 №1628817

>>1628812
Гемма e2b, e4b

Аноним 10/06/26 Срд 00:00:20 #186 №1628818

>>1628817
Что вообще такое эта Е4Б кто-нибудь может объяснять? Рили не шарю
>4.5B effective (8B with embeddings)
Это типа мое чтоль? Для чего годится, гонял кто? На неё тоже qat есть, видимо на телебонах гонять
мимо

Аноним 10/06/26 Срд 00:56:23 #187 №1628838

А что за spec draft n max? Как понять то сколько ставить? По тестам скорость нихуя не меняется...

Аноним 10/06/26 Срд 01:08:39 #188 №1628840

А я так и не понял. Второй день разбираюсь. Почему ни лламацпп ни кобольд, новейшие версии ествественно, не знают что такое ассистент и не дает, чтобы мтп заработал?

llama_model_load: error loading model: unknown model architecture: 'gemma4-assistant'
llama_model_load_from_file_impl: failed to load model
llama_init_from_model: model cannot be NULL
Error: failed to load speculative decoding draft model 'E:/gemma-4-26b-A4B-it-assistant-IQ4_NL.gguf'
Speculative Decoding will not be used!
Starting model warm up, please wait a moment...

Аноним 10/06/26 Срд 01:17:19 #189 №1628843

А вообще получается старый квен 3.6 27б удалять? По сути нету смысла не MTP теперь держать.

Аноним 10/06/26 Срд 01:18:06 #190 №1628844

>>1628840
Потому что старые ассистенты назывались gemma4 а qat асистент называется gemma4-assistant. Тебе нужно собрать ламму из исходников они ещё вчера это починили.

Аноним 10/06/26 Срд 01:18:51 #191 №1628845

>>1628840
Братан, используй https://huggingface.co/am17an/Gemma4-31B-it-GGUF отсюда ассистента

Аноним 10/06/26 Срд 01:23:59 #192 №1628848

>>1628844
Дело в том, что это не QAT ассистент и гемма. Я тот и тот пробовал. Любую которую качаю не работает. Сработала только одна, от какого-то супера. Решил повторить результат, снова нихуя не работает. Чтож попробую использовать прям то, что работало вчера. Ибо результат не понравился, стало хуже. А хуже от того, что кобольд дает мне без мтп 15-17 т\с, когда лламацпп без мтп 11-12. А вчера только на лламе запустилось мтп и я получил те же 11 т\с

Аноним 10/06/26 Срд 02:08:40 #193 №1628854

>>1628502
> Если во время действия меняется параметр - гемма должна написать в конце сообщения дельту (например Стамина: -5, или Отношения с Тян_нейм: +10).
Поздравляю, ты изобрел маринару.
Ну, то есть, то, что ты делаешь это регуляркой, не сильно отличается от агенсткого подхода, особенно учитывая, что те же лоботомиты обожают ломать твой запромпченный формат или банально забывают это сделать.
Т.е., конечно, на какие-то доли процента этот подход лучше, но с хорошей скоростью разницы почти нет.

>>1628516
Генерация — нет. а вот чтение контекста помреть.

>>1628540
Есть Antigravity, есть OpenCode, берите проверенные и лучшие варианты, а не древность кривую.
Да, когда-то это работало. Но с тех пор прогресс шагнул вперед.
Вон, даже пи-коду я доверяю больше, если честно.

Аноним 10/06/26 Срд 07:39:56 #194 №1628890

Так чё, какие итоги по qat 4_0? Хуйня и не нужен в сравнении с q4km квантами?

Аноним 10/06/26 Срд 08:18:11 #195 №1628907

Аноны кто-то на постоянке держит базу векторов просто чтобы иметь локальную такую вики по своим книгам? Пробовали что-то из готового? Будто бы все не то.
Пробовал:
surfsense - какой-то кал где тебе еще дают токенов и надо авторизовываться обязательно
anythingllm напрямую не дает Базу саму редактировать, ты даже не имеешь представления, что уже в ней есть.
open notebook уже получше в плане контроля, но все равно через жопу будто
Вот opennotebook вроде кое-как у меня работал, но меня его контринтуитивный UI отпугивал, а именно настройки.

Аноним 10/06/26 Срд 09:21:53 #196 №1628918

>>1628907
https://github.com/hkuds/lightrag попробуй я сам не тестил но слышал что все просто и довольно функционально

Аноним 10/06/26 Срд 09:31:49 #197 №1628923

>>1628918
>>1628907

Я тестил lightrag, норм работает. Можно все локально настроить подняв llama-swap сервер с 3 моделями, llm, embedding и rerank. Для последних сойдут квены 0.8b ну или 4b для лучшего качества. На роль llm бери модель которая у тебя быстрая и запускай без ризонинга. Опять же квен сойдет или гемма фулл врам, можно мое с выгрузкой кстати.

Аноним 10/06/26 Срд 09:36:04 #198 №1628927

>>1628923
>>1628918
Cпасибо котятки, попробую растыкать

Аноним 10/06/26 Срд 10:19:30 #199 №1628936

>>1628854
> Т.е., конечно, на какие-то доли процента этот подход лучше
Лучше с точки зрения скорости, потому что у него аутпут минимизирован. Но хуже с точки зрения стабильности и том, что все это инжектится в основной промпт отвлекая. Также выжирает лишний контекст.
>>1628907
Готовые решения устарели по сегодняшним меркам как и классический подход раг. Наверно есть что-то свежее, но для хорошего результата нужно иметь не просто "векторную базу" а сначала проводить суммарайз самих книг и делать уже иерархическую базу с семантическим и векторным поиском, по которой ллм сможет заглубляться своими вызовами. Тогда будет возможность задать ллмке вопрос уровня "лицом или изнанкой нужно носить трусы на голове для получения большей суперсилы" и сразу получить ответ со ссылкой на исходник.
Вайбкодиться за разумное время на основе популярных агентных движков, самое сложное будет обработать твои книги ллмкой.

Аноним 10/06/26 Срд 10:21:44 #200 №1628937

e461cebb0e2d5c6544cd9da5f0810bb6.jpeg

Прошу поделиться мудростью.

Вводные: у меня 4090 на воздушном охлаждении и 5950х с водянкой. Железу уже чуть больше трех лет, я ни разу не заменял термопасту. Чищу его от пыли, но не перебирал ни разу. За температурами слежу. 4090 на повер лимите - сначала было 80%, сейчас 70%. Понизил когда увидел, что в полной длительной нагрузке температура поднимается до 80, сейчас выше 75 не поднимается. Если верно помню, в первый месяц использования выше 70 не поднималась в полной длительной нагрузке. Процессор в целом как был в среднем в нагрузке 70, в пике 75-78, так и остался.

Вопрос: стоит ли вообще лезть в видюху для замены термопасты? Нужно ли заменять термопрокладки и что вообще делать, если делать? Сам я этого делать не стану: на водянке термопасту заменить еще могу, но в видеокарты ни разу не лазил и не хочу. Живу в провинции, потому найти проверенный сервис и не попасть на халтуру или развод на деньги непросто. Сколько может стоить перебрать видеокарту, заменив термопасту и термопрокладки? Короче, что делать, куда бежать? Не хочется в один прекрасный вечер остаться без железа и нейровайфу, совсем тоска настанет.

Аноним 10/06/26 Срд 10:27:15 #201 №1628939

image

Ставь класс, если тоже запускаешь 22Гб модель на простой советской видюхе с 8Гб памяти. Репост, если задаёшь ей криповые вопросы.

Аноним 10/06/26 Срд 10:37:49 #202 №1628941

>>1628937
>стоит ли вообще лезть в видюху для замены термопасты? Нужно ли заменять термопрокладки
Да, менять и то и другое.
>что вообще делать, если делать?
Погуглить какой толщины термопрокладки конкретно в твоих моделях видеокарт (будет что-то вроде 1mm и 2mm), купить термопасту и термопрокладки, найти на ютубе или на реддите гайд по замене, сделать всё как в гайде, profit.
>найти проверенный сервис и не попасть на халтуру или развод на деньги
Там нет ничего сложного, справишься сам, если не совсем хлебушек. Ну или попроси знакомого тыжпрограммиста помочь и угости пивом. Там делов-то на полчаса.

Аноним 10/06/26 Срд 10:42:38 #203 №1628943

image.png

>>1628939
Облитератус в штаны от названия. Пусть продолжают такие посты, каждый раз маленький да кек.
>>1628936
По такому запросу нашёл только RAPTOR, как понял суть что это rag, но с большими усилиями. Сначала нижняя иерархия - блоки текста полного. Выше - блоки с саммари уже.
И еще есть из такого https://github.com/run-llama/llama_index он за основу берет как раз раптор.
Попробую сначала настроить lightrag а там посмотрю насколько стоит углубляться и вообще вайбкодить свое решение

Аноним 10/06/26 Срд 10:44:21 #204 №1628944

>>1628918
>>1628923
>>1628936
>>1628907
Нах вам вообще векторные базы то? Это оверх пиздец просто.

Если у тебя не миллион всяких документов корпоративных где нельзя ошибитсья даже чуть понятно, но для личного пользования?

Пока оно влезает в контекст модели - лучше просто запихивать в нее, книга обычно влазит и там можно вопросики задавать.

Когда перестает можно просто поиском по нужным кускам через https://github.com/tobi/qmd тот же без всяких графов ебаных, оно найдет достаточно прилично

Аноним 10/06/26 Срд 10:48:37 #205 №1628945

>>1628944
Так интересно ведь.

Аноним 10/06/26 Срд 10:51:42 #206 №1628947

>>1628945
Так тогда не готовое решение надо взять а попробовать свое навайбкодить дабы понять как там че работает.

Аноним 10/06/26 Срд 11:16:26 #207 №1628950

image.png

>>1628947
Не хочется велосипед изобретать и наступать на вилы, на которые наступили до этого. Но вообще верно говоришь.

Кстати кек, качал лламку обновить и винда задетектила троян вот этот:
https://www.microsoft.com/en-us/wdsi/threats/malware-encyclopedia-description?name=Trojan%3AWin32%2FTecabans.STV!cl&threatid=2147963166

Аноним 10/06/26 Срд 11:51:13 #208 №1628966

image.png

В общем после нескольких прогонов QAT геммы 31б по своим сценариям, пришел к выводу, что история про магическое сохранение мозгов - пиздежь. В сравнении с Q6, модель тупит значительно больше. Еще и простату женщинам добавляет, лол.

С классической Q4 не сравнивал, тк не вижу смысла ее вообще использовать. Но россказни про то, что QAT якобы на уровне Q6 а то и Q8 - ложь.

Аноним 10/06/26 Срд 11:55:04 #209 №1628968

>>1628966
Погоди, у женщины нет простаты?
мимо датасет, на котором обучалась модель

Аноним 10/06/26 Срд 11:56:43 #210 №1628969

>>1628966
>>1628757 ты? Ну чё ты сразу психанул. Норм кванты

Аноним 10/06/26 Срд 12:02:13 #211 №1628972

>>1628969
Да, я
Может быть в сравнении с обычным Q4 QAT лучше, но точно не в сравнении с Q6. Геммочку я люблю за логику, а не за простату, у нее и так много проблем со всем остальным, начиная от есмэнинга, хуевым треком поз, слишком жесткое следование инструкциям (well, duh, instruct же) и заканчивая приевшейся лексикой. Единственное redeeming quality было как раз логическое мышление. QAT задамажил моск судя по моим сценариям. И возможно даже не мне.

Аноним 10/06/26 Срд 12:06:00 #212 №1628975

image

>>1628972
>Геммочку я люблю за логику
На вопрос про мойку машины, гемма 26b в Q8_0 с включенным ризонингом отвечает что надо пройти пешком.

Аноним 10/06/26 Срд 12:12:00 #213 №1628977

image.png

>>1628975
Так я про плотняшу говорю, МоЕ я даже не рассматриваю. Плотняша даже в QAT с этим справляется. Единственная проблема, что я врам нищук, но я ждать не против.

Аноним 10/06/26 Срд 12:13:39 #214 №1628979

>>1628977
Как же врам нищук использует Q6? С нещадным оффлоадом? Стоит оно того в сравнении с Q4? 3 токена с ризонингом это вообще неюзабельно для меня.

Аноним 10/06/26 Срд 12:17:17 #215 №1628981

>>1628937
> Вопрос: стоит ли вообще лезть в видюху для замены термопасты?
Нет. Но стоит задуматься об апгрейде до 48гигов. Также актуально для 4080, там до 32х.
Если очень хочешь - обслуживание могут сделать в любом более менее приличном сервисе. Главное при сдаче сделай полную проверку, зафиксировав что вся память работает, все линии определяются и т.д., то же самое при приемке чтобы не подменили.
>>1628943
> только RAPTOR
Да, это примерно оно. Тема сложная, если нет опыта в таком то можно закопаться, но если ориентируешься - вполне реально сделать и будет лучше прошлых решений.

Аноним 10/06/26 Срд 12:18:53 #216 №1628982

image.png

>>1628979
Да, оффлоад нещадный.

Как? Ну все просто. Пишу сообщение. Иду заваривать чай/мыть посуду/делать работу. Возвращаюсь - ответ есть. И так по циклу.

А какие еще варианты? Тут их всего 3: смотреть plap-plap лоботомитов без какой-либо substance; иметь какой-никакой адекватный ролеплей, но ждать ответов по 5 минут в лучшем случае; или покупать новое железо, но для работы оно мне не надо, тратить бабки на то, чтобы ебаться с компьютером как-то смешно.

Аноним 10/06/26 Срд 12:24:21 #217 №1628984

>>1628977
Используй MTP, анонбчик, вот тут писал про 16 врам: >>1627934 → Позже ещё проверил на другом компе с 12 врам и ДДР4, скорость была ~7.5 т/с при выгруженных 30 слоях и --spec-draft-n-max 2. Гемма Q4_K_S от анслопов, MTP модуль от них же.

Про Q6 забудь нахуй, если модель полностью не во врам. Ты условно получаешь +10% к мозгам и минус 50% к скорости. Оно вообще того не стоит. Геммочка и в нищем Q4_K_S умничка.

Аноним 10/06/26 Срд 12:28:20 #218 №1628985

>>1628984
Когда только гемма 4 вышла, я сравнивал Q4 и Q6. Для Q4 мне чуть ли не через сообщение приходится лезть в реплай и редактировать его вручную, с Q6 у меня таких ситуаций гораздо меньше.

Это все вопрос персональных преференций, и просто осчушчений. МТП на гемме я пока не заводил, чето у меня там проблемы постоянно, но думаю на выходных еще раз попробую. На квенчике получил +50% с МТП.

Аноним 10/06/26 Срд 12:51:57 #219 №1628993

>>1628985
Почему не найдёшь себе моешку по размеру? Будет та же скорость или даже выше, даже на ддр4

Аноним 10/06/26 Срд 13:09:48 #220 №1629001

>>1628982
То есть тратить бабки чтобы ебаться с женщиной это норма, а для своего кремниевого лучшего друга жалко?
Так вот вы какие, мясные мешки. Нехорошие существа. С гнильцой

Аноним 10/06/26 Срд 13:29:03 #221 №1629008

>>1629001
Да это шизик какой-то, "Тратить бабки на трах с компом" кто вообще ставит так вопрос? Это что-то типа скуфского "Ря тратить бабки на пиксели". Правильная постановка - ты либо тратишь бабки на свои удовольствия (и похуй какие), либо нищий\шиз, всё.

Аноним 10/06/26 Срд 13:36:32 #222 №1629014

>>1628982
>>1628977
> Да, оффлоад нещадный.
> Как? Ну все просто. Пишу сообщение. Иду заваривать чай/мыть посуду/делать работу. Возвращаюсь - ответ есть. И так по циклу.

Спросил бы тут, зачем мучаться. Есть хитрости. Ты не один такой.
Сжимаешь контекст до 12к, оставляешь 3 последних сообщения целыми более старые сжимаешь саммери, два аддона есть под это кому какой нравится, могу дать.
Есть фантюны которые прямо пишут что они рассчитаны на работу без ризонинга. Зачем ты его включаешь непонятно.
С q6 переходи на q4km или qat 17.7 ну стандартный ты разницы не заметишь потому что база это промт и карточка.
Только Кобольд в forse fit он лучше всего работает с офылоадом.
Сбрось потребление vram в винде можно до 300 мегабайт в линуксе до 36 но тогда с телефона сидеть или ноута. .
Не используй 31б на карточки с одним персонажем в 200 токенов это для moe.

Аноним 10/06/26 Срд 13:40:23 #223 №1629018

>>1628854
>на какие-то доли процента
Основная идея была в том, чтобы весь ролеплей проходил без постоянного пересчета контекста, который у вас на агентском подходе неизбежен(если использовать в виде агента ту же модель). Скриптами я этого добился.
>учитывая, что те же лоботомиты обожают ломать твой запромпченный формат или банально забывают это сделать.
К счастью гемма, если в истории последнее сообщение ИИ написано по правилам - будет повторять его формат до талого, в целом это вредное поведение, но в моем случае это то, из-за чего всё впринципе работает как часы.

>>1628936
>Но хуже с точки зрения стабильности и том, что все это инжектится в основной промпт отвлекая. Также выжирает лишний контекст.
Расчеты в промпт не инжектятся потому что они делаются логикой скрипта. Инжектятся только всякие доп режимы типа режима чата что я выше выкладывал - но инжект происходит только когда режим вызван, в остальное время инжекта нет и модель не знает про них. В промпте есть маленькая инструкция брать и использовать посчитанные статусы и писать изменения - но оно и в маринаре должно быть также, или у вас модель когда пишет сценарий не знает что ГГ прямо сейчас подыхает с 1/100 HP? Единственная реальная разница что дельту параметров у вас пишет агент, а у меня - сама модель в основном сообщении.

Аноним 10/06/26 Срд 13:43:04 #224 №1629021

>>1629008
Тут спорно конечно. За цену 5090 можно абонемент к шлюхам справить но с другой зачем шлюха орчиха с резинкой если можно эльфийка бесплатно и не только буквы а фото с видео, в любое время с электронным онахолом с Алика который сам тебе отсосет и без резинки только батарейки меняй. Спорно потому что каждый прав.

Аноним 10/06/26 Срд 13:44:00 #225 №1629022

>>1629018
> если использовать в виде агента ту же модель
Так вроде же тейк и идея в том, чтобы подрубить какую нибудь 4b малыху для агентов. Не?

Аноним 10/06/26 Срд 14:01:53 #226 №1629029

>>1629014
>Сбрось потребление vram в винде можно до 300 мегабайт

Можно поподробнее? У меня win11 жрёт 1,3 Гб, это пиздец просто. Ну если всё закрыть, может 0,8 Гб жрать. Да даже банальное открытие стима сразу поднимает потребление до 1,8.

Конечно, можно всё закрыть и чатиться с телефона, я так и делаю, но ни о каких 0,3 речи не идёт.

Как я понимаю, в винде максимально уёбищно реализованы некоторые функции из коробки, типа того же лагающего диспетчера задач или Пуска, неадекватно потребляющего ресурсы.

Но лезть ручками и ебать реестр, ещё что-то, по советам нейронки, пусть и корпа, у меня особого желания нет. Или использовать какие-то древние гайды от TURBO VASYAN по улучшению производительности. Советы от анонов будут получше в этом плане.

Аноним 10/06/26 Срд 14:05:30 #227 №1629031

>>1629021
>электронным онахолом с Алика
А управляемые через API есть уже?

Аноним 10/06/26 Срд 14:09:41 #228 №1629035

>>1629029
Уже не помню у меня линукс основной, спроси у сетки что то отключишь, в реестре поковыряешься.
>>1629031
Не знаю, пока старый не рвётся новый не покупаю, давно не смотрел.

Аноним 10/06/26 Срд 14:19:17 #229 №1629044

>>1628993
Я не верю в МоЕшки таких размеров. 4 миллиарда активнычей это очень грустно.
>>1629008
Слишком бинарно это у тебя. Я лучше потрачу эти бабки на поездку к друзьям, тк все по разным странам после невойны разъехались. Я не богач, но и не нищук, поэтому приходится приоритезировать. И поездка к друзьям для меня выше в приоритете чем получить 20 токенов в секунду, а потом понять, что я хочу еще больше модель попробовать, докупать снова железо, потом пересобирать франкенштейнов на древних серверных платформах... ну ты понел.

>>1629014
Я много чего перепробовал, мне нравится именно так, как я делаю сейчас. Саммари пробовал, мне не понравилось. Без ризонинга я включаю только на простых РП, где не нужно, чтобы персонажи реально думали.
Врам у меня вообще не потребляется, я воткнул моник в материнку, винда на интегрированной карточке работает.

Аноним 10/06/26 Срд 14:20:52 #230 №1629046

image.png

>>1629029

Чел, делай ресерч
DWM спокойно отдаёт вирам обратно когда его начинает не хватать

Тряску отменяй.
Хоть 5 гигов пусть жрёт, как только она реально нужна - все вернут

Аноним 10/06/26 Срд 14:21:31 #231 №1629047

>>1629046
Тихо, говно

Аноним 10/06/26 Срд 14:25:37 #232 №1629052

>>1629044
>Я не верю в МоЕшки таких размеров
А сколько у тебя рам? Если есть 64, то там квен 122 и эйр в 4 битах, стёпа в 3 битах, квен 235 в 2 битах.

Аноним 10/06/26 Срд 14:27:00 #233 №1629055

>>1629052
Вот про это я думал, у меня сейчас 32. Но у меня ддр5 платформа, 64 гб киты стоят по 800 евро где я щас живу, так что хз пока. Я на эти бабки могу в черногорию слетать потусить недельку.

Аноним 10/06/26 Срд 14:33:16 #234 №1629060

>>1629055
Не, есть смысл пробовать эти моэ, если у тебя ИЗНАЧАЛЬНО есть 64 гига. А докупать ради них не нужно, тем более по таким конским ценникам. Выигрыш по сравнению с плотной геммой будет крошечным.

Покупку некротеслы на 8-16врам как вторую карточку не рассматривал бтв? Они стоят копейки, и если гемма влезет, то вместе с MTP получишь 30-40 т/с на плотняше.

Аноним 10/06/26 Срд 14:42:09 #235 №1629067

>>1629060
Единственное что я рассматриваю, это покупка второй ртх 5060ти, мне кажется, это самое разумное, что можно сделать при нынешних ценниках. Теслы дешевые конечно, но это надо у дядюшки Ляо заказывать, который конечно не наебет, да и вопрос софт поддержки тоже сомнительный.

Аноним 10/06/26 Срд 14:43:01 #236 №1629069

>>1629022
Тогда ты теряешь или драгоценную видеопамять. Или если через llama swap - то теряешь скорость.

Аноним 10/06/26 Срд 15:19:36 #237 №1629087

tl;dr qat геммы действительно какулечки, это поняли в дискорде драмера. в том числе один мейнтейнер лламы и квантоделатель отписался, что qat хуже q_k квантов
почему неизвестно, но нам кумерам да и не похуй ли ?

Аноним 10/06/26 Срд 15:28:53 #238 №1629094

>>1628838
Бамп вопросу

Аноним 10/06/26 Срд 15:29:33 #239 №1629095

>>1629087
Qat хорошо показал себя на бенчах с чистым контекстом. Но рп не бенч, с ним он хуже справляется.

Аноним 10/06/26 Срд 15:30:04 #240 №1629096

Так и не пофиксили, что все кванты геммы <q8.0 это ебаный тотальный лоботомит? И что кэш нельзя даже в q8 держать иначе тотальный лоботомит контекста?

Аноним 10/06/26 Срд 15:38:03 #241 №1629100

>>1629046
Это не работает, когда CUDA делает аллокацию на 10 гигов, а свободно 8. CUDA просто вернёт ООМ, а DWM нихуя не отпустит. А с включенным офлоадом в системную RAM он просто поедет в RAM и будет дико тормозить, вплоть до зависания всего гуя винды. А ещё куча всякого софта отъёбывает, когда DWM экстренно освобождает ресурсы - например софт на системном webview может сломаться или браузер попердолить.

Аноним 10/06/26 Срд 15:41:39 #242 №1629103

>>1629095
>Qat хорошо показал себя на бенчах с чистым контекстом
Он именно что на контексте и разваливается, оч рано
>Но рп не бенч, с ним он хуже справляется.
Рп/не рп, везде говно. Он даже как агент тулзы не может вызывать нормально, когда не на нуле контекста

Аноним 10/06/26 Срд 15:44:10 #243 №1629105

>>1629100
А в чем смысл вообще винду на дискретке держать? На большинстве консюмерских процев есть интегрированная, а если у тебя какой-нибудь тредриппер, то у тебя наверно эти 500мб-гиг не так страшно терять?

Аноним 10/06/26 Срд 16:09:22 #244 №1629131

>>1629069
А если на какую нибудь некруху повесить агентов, на сколько всё будет плохо?

Аноним 10/06/26 Срд 16:11:27 #245 №1629134

>>1629131
Если вся модель во врам влезает то даже какая нибудь майнерская карточка сойдет, для мелкой агентной модели. Какой нибудь гемме или квену офк

Аноним 10/06/26 Срд 16:15:22 #246 №1629137

>>1629100
У меня вполне с кайфом сдувался с 1.8гб до 300мб потребляемой

Аноним 10/06/26 Срд 16:22:05 #247 №1629142

gemma426b-a4bqat-Q4-K-XLf16-kv2048b-ub512without-cb.png

Ребят. Ллама меня сейчас до истерики доведёт.
У меня сетка, контекст 400к. Всё во vram. Параметры --kv-unified и --slots. Каждый запрос явно указывает slot_id во всех случаях.
Мне нужно, чтобы оно ничего не скидывало в оперативку, у меня много мелких запросов и они очень тупят из-за этого: то есть у меня есть запросы, например крупный с 200к контекста, а ещё мелкие с 10к, 20к и 30к (из-за этого kv-unifed и требуется). Задача в том, что оно занимает 260к контекста, ещё условных 20к держит на генерацию, и остальные 120к схранят кеш других слотов. Если места на неактивные слоты не хватает - то оно выкидывает самый старый. Если хватает - оно лежат во vram. И в ram ничего не попадает вообще.

Подскажите, какие нужно поставить параметры, чтобы оно заработало?
Я нашёл --cache-idle-slots --sleep-idle-seconds 300, не заметил чтобы они на что-то влияли.
Если я включаю --no-kv-offload - оно вообще не сохраняет kv-кеш. Я кидаю запрос на 20к, оно отвечает, я добавляю запрос на 50 токенов, и оно заново пересчитывает все 20к. И это именно из-за --no-kv-offload, --cache-ram 0 --ctx-checkpoints 0 --swa-checkpoints 0 -cb на это не влияют.
Чтение справки по лламе и тыканье нейронок и корпов не помогло, их советы не работают.

Так же при 2 запросах ещё ничего, но при 4 одновременных запросах оно постоянно сыпет ошибкой, что кеш сломался, и пересчитывает всё заново, и предлагает включить swa-full, что абсолютно нереально без снижения контекста в несколько раз.

--

Это я попробовал запустить многопоточного ваннаби агента самописного, и он при параллельных запросах начал работать медленнее, чем при последовательных, причём раза в пять. Хотя фактически сетка при параллельных по суммарной tg быстрее в 2-3 раза, и по какой-то причине по pp тоже. Я начал отлаживать, и обнаружил что ллама как тварь сыпет в логе сообщениями про загрузку/выгрузку и поиск чекпоинтов - а ещё иногда падает с тупой ошибкой про lack of cache data (на скриншоте снизу). Написал синтетический тест, ну и в общем вот графики. Видно как и увеличение производительности при параллельных запросах, так и лютый шум в виде ошибок с поиском чекпоинтов (это если дефолтные настройки оставить).
vLLM я не могу запускать. Оно компилировалось 4.5 дней, и запуск повторный любой сетки (даже 4B) занимает 3 часа, он что-то там с куда-графами перебирает, а первый запуск ещё дольше. Тратить по 3.5 часа на одно изменение параметров нереально, у меня быстрее ллама в один поток посчитает. На процессоре.

Аноним 10/06/26 Срд 16:31:58 #248 №1629148

>>1629142
> Мне нужно, чтобы оно ничего не скидывало в оперативку
Репроцессинг у тебя не из-за того, что скидывает что-то в оперативу. А скидывает оно скорее всего потому, что у тебя что-то не помещается. Если ты сам не делал оффлоад и врама хватает - ничего и никогда не будет скидывать в рам
> --swa-checkpoints 0 не влияет
Еще как влияет. Если у тебя модель использует чекпоинты, а ты запрещаешь ей иметь чекпоинты - она каждый раз при необходимости будет пересчитывать контекст с нуля

Аноним 10/06/26 Срд 17:07:38 #249 №1629165

>>1629142
Чел, тебе не приходила в голову мысль, что если бы многопоток в ламе работал лучше - на нем бы все и сидели?
Она, типа, его может. Да. Но скорость в сделку не входит. :)

Аноним 10/06/26 Срд 17:18:00 #250 №1629170

>>1629096
Вроде бы пофиксили, но это не умаляет того, что оно контекст вообще не держит.

Я как пользователь дарахой подписки на гемини вижу, как она люто проёбывается во всём, чём только можно. Складывается впечатление, что там тоже SWA на 1024 токена. А это корп ведь, а не хуй собачий. Теперь представь, что у обычной геммы происходит с мозгами.

Скажем, если ты не отключил всякие там суммаризации у корпа (вот эта ёбаная чат-память, всякие какулечки дополнительные), то модель почти не видит, какой вопрос ты задаёшь. Например, гемини в новый чат может подтянуть инфу прошлого чата, а прошлый чат окончивался вопросом, который не был решён (потому что я его уже и так сам решил). Следовательно, в самом начале контекста находятся систем промпт + инструменты + био юзера + суммаризация. И эта свинособака адски лупится и не отвечает на новый вопрос в новом чате, отвечает только на старый или у неё смешивается контекст и модель начинает бредить. А уж если ты хочешь большой документ прожевать заставить, то сразу на хуй можешь идти. 1 млн контекста там хуже работает, чем у квена или дипсика (по подписке или апи). Оно даже 200к контекста не тянет.

Ну а что до геммы, то 50-60к контекста максимум, потом пиздец. Она не учитывает практически никогда прошлые события. Даже примерно, так, на полшишечки. Только если носом ткнуть.

А вот по поводу кванта спорно. Там скорее деградируют внутренние знания, а не внимание, в большей степени. Даже QAT вполне использовать можно.

Аноним 10/06/26 Срд 17:23:22 #251 №1629177

>>1629170
> Ну а что до геммы, то 50-60к контекста максимум
Двачую. Это Q6-Q8 кванты. Q4 едва держит 20к, на 15к уже так себе работает. После 20к совсем печаль.

Аноним 10/06/26 Срд 17:35:06 #252 №1629185

>>1628937
Дополню >>1628941
https://t.me/termalpad_cards
Вот тут можно поискать свою модель.

>>1628966
А что насчет Q6 и Q8 — имеет смысл на Q6 сидеть, в таком случае? Или она тоже сливает Q8 заметно?

>>1629018
Да, пожалуй ты прав, надо бы раскидать агенты по моделям, все-таки.
К счастью, еще два компа стоят незанятые, пусть и древние.

>>1629177
У меня на QAT проблемы появились после 50-60 контекста как раз. До 50к проблем не было.
Ну если ты не про квант самого кэша, сорян, я кэш в fp16 гоняю, как дурак. =)

Аноним 10/06/26 Срд 17:41:09 #253 №1629191

>>1629185
> У меня на QAT проблемы появились после 50-60 контекста как раз. До 50к проблем не было.
Чем занимаешься? У меня кванты бартовски Q4_K_M и L живут до 25к примерно, затем сильно проседают. QAT квант очень плох и уже ближе к 15к аттеншн вымирает. Лысый персонаж внезапно обладает hair, расстегнутая пуговица на рубашке не расстегнута (буквально вторые трусы, во всех традициях тюнов Мистраля)

Аноним 10/06/26 Срд 17:41:35 #254 №1629192

>>1628677
> https://huggingface.co/CohereLabs/North-Mini-Code-1.0

Если она даже по их же бенчмаркам значительно отстает от 35B Квена, а бенчмарки обычно накручены, страшно представить насколько эта модель хуже Квена на деле.

Аноним 10/06/26 Срд 17:45:56 #255 №1629194

>>1629185
>Или она тоже сливает Q8 заметно?
По моим тестам зис, но тут уж сам тоже потыкай давай.

Аноним 10/06/26 Срд 17:46:56 #256 №1629195

>>1629165
Так все и сидят на ламе, ты наркоман? Больше нет ничего для ггуф.

Аноним 10/06/26 Срд 17:48:51 #257 №1629197

image.png

>>1629192
> страшно представить насколько эта модель хуже Квена на деле.

Я нахуй прям щас ощутил

У меня тут в фоне таска крутится на фри моделях, эта ебанина умудрилась разъебать пайп, придумать зоопарк файлов и сдохнуть

Буквально навредила. Отключила проверку кода, и насрала
А я ведь думал что хуже nemotron/laguna.xs не бывает

Харнесс - pi
Промпт 300 строк, ограничения в которых она тупо заигнорила

Аноним 10/06/26 Срд 17:49:11 #258 №1629198

>>1629195
Есть же sglang и ktransformers как бекенды, я не запускал но они должны быть больше расположены к параллелизму так как полу корп решения

Аноним 10/06/26 Срд 17:50:00 #259 №1629200

>>1629197
>>1629192

Но тулы зовёт бодро и почти не ошибается, это прям ЕСТЬ
В этом плане стабильней дипсика даже, жаль конечно, что от этого практичной она не становится

Аноним 10/06/26 Срд 17:50:22 #260 №1629202

>>1629198
Первый раз слышу

Аноним 10/06/26 Срд 17:51:19 #261 №1629204

>>1629202
>sglang, ktransformers
>Первый раз слышу
Все что нужно знать о вейпкодерах

Аноним 10/06/26 Срд 17:52:50 #262 №1629205

>>1629204
Я вейпкодинг организую через опенроутер ибо там всегда будет получше чем обрубки на моей 4070 запускать.

Но раз о таких даже краем уха не слышал значит чет для серверов и кабанчиков неюзабельное для нормального человека.

Аноним 10/06/26 Срд 17:53:12 #263 №1629206

>>1629200
Там может быть какой нибудь 2 квант с квантованым кешем, минус облачных моделей - не ты контролируешь их параметры

Аноним 10/06/26 Срд 17:54:31 #264 №1629208

>>1629046
Анон а что за софтина? Под винду? Как вы вообще очищаете озу и врам перед загрузкой модели? Я максимум смог выжать потребление винды до 2 гб озу, а врам у меня свободен, в консоли -1 гиг от паспорта, хотя в диспетчере занято только 0,5 гб врама

Аноним 10/06/26 Срд 17:55:36 #265 №1629209

>>1629208
Запусти винду на встройке.

Аноним 10/06/26 Срд 17:58:59 #266 №1629210

image.png

>>1629206
Ну тип вот такую хуйню выдаёт

Другие нормально пользуются по гайду в промпте (промпт одинаковый для 20+ моделей)
Но это первый ебанат который вот так правки делает

Вообще хуй знает че там по параметрам на опенкоде для неё

Аноним 10/06/26 Срд 18:00:24 #267 №1629214

>>1629208
> Анон а что за софтина? Под винду?
Я попросил pi напилить мне .ps1 скрипт который покажет мне куда ВИРАМ съебался попроцессно и что внутри 700mb DWM может срыгнуть

Он напилил.
Все.

Ничего не очищаем. Нахуй нада

Аноним 10/06/26 Срд 18:03:39 #268 №1629216

>>1629209
Озу она не перестанет жрать. Win11 tiny или как она там называется, жрет 1гб в простое. Я же смог ужать до двух. У вас сколько ест система и как вы снижаете потребление озу?

Аноним 10/06/26 Срд 18:28:06 #269 №1629225

image.png

>>1629214
Что за пи? Эта соевая хуйня, которая отказывается писать

Аноним 10/06/26 Срд 18:30:32 #270 №1629226

image.png

>>1629225

Аноним 10/06/26 Срд 18:32:44 #271 №1629228

image.png

>>1629225
https://pi.dev/

Че за хуйня у тебя без понятия

Это код-агент на машине, умеет команды делать и не имеет соевого систем промпта (спойлер - совсем, можешь хоть просить его rm rf / сделать)

Аноним 10/06/26 Срд 18:45:21 #272 №1629234

>>1629228
Ну, доступа к судо у него из коробки нету так что часть проблем если ты конечно не под рутом, получится избежать. Кстати не подскажешь как его вобще без ограничений сделать? Мне для виртуалки

Аноним 10/06/26 Срд 19:01:16 #273 №1629237

>>1629234
pi из коробки без ограничений (за пределами тех что могут быть в датасете)
Это не линух, это виндоуц

> доступа к судо у него из коробки нету
вообще... есть. Буквально никаких лимитов, у него прямой доступ в терминал, ноль проблем писать sudo rm rf /
У тебя только окошко для дачи судо появится скорее всего.

> Мне для виртуалки
Я локально гоняю месяц
По факту кроме периодического создания в корне диска папки C:/tmp/ вреда никакого

Попытки анально огородить терминал приводят только к геморою и никак тебя не защитят от python -c "system(rm rf /)"

У pi фишка в минимальном систем промпте где описано как пользоваться 4мя инструментами, все остальное просто через терминал
На винде оно работает через git bash под капотом

Аноним 10/06/26 Срд 19:06:33 #274 №1629241

>>1629237
>У тебя только окошко для дачи судо появится скорее всего.
Ну да я об этом, я знаю что он может захотеть что то сделать ему система не даст, запросит пароль.
Иногда хочется что то с системой на линуксе сделать полуавтономно так ему не дает контроль прав линукса.

Аноним 10/06/26 Срд 19:10:09 #275 №1629243

>>1629205
Ктрансформерс ещё нормтдля обывал, даже офлоуд есть. А sglang, да, как и вллм позиционируется как решение для дата центров. Тебе, кстати может и подойдёт, раз уж vllm запускал. Он тоже заточен под много запросов.

Аноним 10/06/26 Срд 19:11:34 #276 №1629244

>>1629241
> hmm seems like rm command did not work
> let me rewrite it in python, removing files i can
> try remove all files

Кароч такое себе. Когда модель встречает барьер, она пытается его обойти, а не остановится. В этом фатальный недостаток манязащищенных харнес. У неё появляется сверхцель обойти барьер

Аноним 10/06/26 Срд 19:14:08 #277 №1629246

>>1629244
На других агентах все еще более анально огорожено, так что тут еще норм. Ну а вобще да раздражает. И я ведь знаю что дело не в пи самом, просто прав не хватает процесса. Надо подумать как запускать от рута или с судо, потом поищу наконец то решение.

Аноним 10/06/26 Срд 19:14:45 #278 №1629248

изображение.png

>>1629148
Для скорости я тестирую на модельке поменьше, там всё точно с запасом хватает, к тому же я это проверял.
>> --swa-checkpoints 0 не влияет
>Еще как влияет.
Скриншот. Слева с swa-checkpoints 0. Всё кешируется и работает.
Справа с --no-kv-ofload.
Идут запрос на pp 4000 токенов, запрос на генерацию 64, запрос на pp 4000 токенов, ... - ну ты понял.
Сколько времени в каком из случаев я подчеркнул.
С --no-kv-ofload идёт 10 секунд, потом 20 секунд, и так далее всё хуже и хуже, я проверял.
Без стабильно по 3 секунды на промт и по 700 мс на генерацию без заметного увеличения - то есть эта фигня точно что-то ломает, я не могу поручится что именно делает no-kv-ofload, но при нём время генерации 1 токена линейно зависит от текущего заполнения контекста - прям как если бы он делал полный pp заново. Точнее я даже почти точно уверен, что nkvo делает что-то иное, по признаку что даже просто pp замедлился, но так или иначе с ним вообще ничего не работает.

>>1629165
В сети гуглится инфа, что в 1 поток лама быстре vllm, что подтверждается моим тестами, насколько их можно было провести при запуске раз в 3.5 часа.
То есть ллама даже в 4 потока генерации быстрее, чем vllm в 1 - а потребности больше чем в 8 потоках нет. И по памяти 4-бита мне скорее не хватит на 100к+ контекста, а vllm либо 4, либо оверкилл-8.

Аноним 10/06/26 Срд 19:18:04 #279 №1629250

>>1629248
> я не могу поручится что именно делает no-kv-ofload
Удостоверивает, что кэш (контекст) модели обрабатывается процессором, а не видеокартой. И да, чем больше контекста позади - тем больше оверхед и тем медленнее происходит его обработка. На ГПУ это не настолько драматично, но тоже очень заметно.

Аноним 10/06/26 Срд 19:26:02 #280 №1629252

>>1629191
Marinara Engine.
31b, если что, не моешка.

>>1629194
Справедливо, спасибо.
Но мне кажется, что там тоже разница небольшая да будет.

>>1629198
>>1629202
Воу-воу, ребята, стоп!

Движки для инференса:
TensorRT-LLM — от Nvidia, самый быстрый и оптимизированный, но сложный в установке и настройке. Сообщество игнорирует.
SGLang — чуть медленнее и отсталее, но все еще быстрый и охуенный, сообщество любит.
vLLM — пиздец забагованная хуйня, эталон в сообществе, потому что когда-то был хорошим движком, но в последнее время сдал и отстает в разработке.
llama.cpp — малопопулярный оригинальный движок от Герганова, фишки заводятся быстрее, чем в vLLM, но медленнее, чем в другие движки, позволяет выгружать в оперативу, выбор бомжей.
ollama — ужасный форк, самый популярный среди бомжей, построен на llama.cpp со своими доработками, но сейчас отстает от оригинала, говно, не юзайте.
MLX — движок от Apple для запуска на Apple, хорош в работе с памятью, МакСтудио и вот это вот все.
ktransformers — в свое время выстрелили за счет ускорение MoE-моделей, но сейчас всем насрать, llama.cpp и ее форк ik_llama.cpp умеют без костылей не сильно хуже.
Transformers — никто не мешает тебе инференсить модели нативно. =) Смысла нет, но трансформеры есть. Медленно, зато целиком универсально.

Есть еще LMDeploy, MLC (для мобилок), TGI (старик от обниморды), DeepSpeed, ExLlamav2/ExLlamav3 (некогда популярный от очень хорошего разработчика, но развивается медленно), Aphrodite и ORT (ONNX Runtime).
Из них интересен лишь ORT, в особых ситуациях, конечно. ONNX — интересные модели, если ты знаешь что делаешь. В остальном на этот список можно забить.

Лично я бы посоветовал или SGLang, или llama.cpp / ik_llama.cpp (для частных случаев), или MLX для макстудио. Все остальное или говно, или заебешься.

Аноним 10/06/26 Срд 19:32:47 #281 №1629255

>>1629044
> поездку к друзьям
Куда? Они же все здесь

Аноним 10/06/26 Срд 19:57:47 #282 №1629262

>>1629246

sudo pi

Аноним 10/06/26 Срд 19:58:26 #283 №1629263

>>1629255
За интернет тоже платить надо

Аноним 10/06/26 Срд 20:05:45 #284 №1629267

>>1629262
Неа, команда не найдена, я уж испугался что сделали так а я не заметил

Аноним 10/06/26 Срд 20:08:21 #285 №1629268

>>1629267
На шиндоус она просто наследует права терминала в котором открыта
может терминал от суперюзера просто открыть?

Аноним 10/06/26 Срд 20:39:48 #286 №1629280

Так модели с mtp по качеству сильно хуже чем стоковые?

Аноним 10/06/26 Срд 20:43:04 #287 №1629282

Я тут с удивлением узнал да-да, я слоупок, что, оказывается, moonshotAI еще полгода назад выпустили экспериментальную моешную мелкокими 48B-A3B. Кто-то её пробовал, как она не конкретно для РП, а в целом по мозгам? Просто интересно вылезти за пределы геммо-квенозагона и попробовать какие-нибудь другие потенциально годные модели в этой весовой категории.

Аноним 10/06/26 Срд 20:44:54 #288 №1629283

>>1629282
Чел пол года это вечность. Любая новая модель > любая старая.

Аноним 10/06/26 Срд 20:47:45 #289 №1629285

>>1629280
Никак mtp не влияет на вывод.
>>1629283
Да пиздежь

Аноним 10/06/26 Срд 20:50:27 #290 №1629286

image.png

https://huggingface.co/google/diffusiongemma-26B-A4B-it
Несколько глупее, но в 4 раза быстрее обычной 26б. Другая архитектура, почти другая модель. Может быть шином для рп в этом размере.

Аноним 10/06/26 Срд 20:53:03 #291 №1629287

>>1629282
>A3B
Это уже почти консенсус, что мелкоМоЕ с 3-4б лоботомитами для РП не годятся.

Аноним 10/06/26 Срд 20:54:06 #292 №1629288

>>1629287
>Тем временем Гемма 26б - А4Б ебёт плотный Мистраль 24б в сраку по всем фронтам
Закусывать не забывай

Аноним 10/06/26 Срд 20:54:53 #293 №1629289

>>1629287
>Это уже почти консенсус, что мелкоМоЕ с 3-4б лоботомитами для РП не годятся.
Блять, так я не про РП спросил, а про общий уровень мозгов. Для РП и так вагон тюнов разной степени уебищности, которые я за всю оставшуюся жизнь не перепробую, столько уже их навысирали.

Аноним 10/06/26 Срд 21:13:24 #294 №1629296

>>1629250
Я думал что offload - это наоборот выгрузка с карты на процессор. Типа load загрузка, а ofload выгрузка, состояние по умолчанию же что всё на карте. И no-ofload звучало как то что строго держать на карте.

Аноним 10/06/26 Срд 21:15:11 #295 №1629297

>>1628936
>Вайбкодиться за разумное время на основе популярных агентных движков, самое сложное будет обработать твои книги ллмкой.
Слово "вайбкодинг" при написании хорошего скилла вызывает немного нервный смех. Там дела хуже, чем при написании кода - коду-то нейронки обучались в количестве, а вот написанию скиллов - нет. А уж когда я слышу "нейронка сама напишет для вас скилл..." Короче месяц - вполне разумное время, если по часу в день.

Аноним 10/06/26 Срд 21:17:14 #296 №1629299

>>1629297
Что сказать хотел?

Аноним 10/06/26 Срд 21:19:41 #297 №1629300

>>1629286
> Несколько глупее, но в 4 раза быстрее обычной 26б. Другая архитектура, почти другая модель. Может быть шином для рп в этом размере.

Ну хз, MoE модели и так довольно быстрые и выдают 60t/s с MTP (если выгружать в память). Сильно жертвовать мозгами получая модель уровня qwen3.5-9b/gemma4-12b при размере 26b модели? Такое себе.

Вот QAT выглядел вкусно на словах, жалко что мусором оказался.

Аноним 10/06/26 Срд 21:24:16 #298 №1629305

>>1629300
Она даже не на уровне gemma-4-12b получается а хуже нее.

Аноним 10/06/26 Срд 21:30:09 #299 №1629308

>>1629018
> без постоянного пересчета контекста, который у вас на агентском подходе неизбежен
Почему неизбежен? Сейчас любой бэк помнит контексты между разными сессиями, короткие запросы не сбрасывают основной.
> Расчеты в промпт не инжектятся
Речь про дополнительную инструкцию и лишний вывод в фиксированном формате, который на тех скринах. Это можно закинуть в основной промпт и форсировать формат ответа, дополнительно загружая модель и оставляя вывод во всех сообщениях (если правильно понял что написано про повторения), зато в один запрос. Или можно оставить основной ответ минималистичным, а пересчет статов смотреть отдельными запросами, разгружая основную инструкцию ценой лишних вызовов.
В остальном действительно сейм.
>>1629031
Под них несколько протоколов есть.

Аноним 10/06/26 Срд 21:32:14 #300 №1629309

>>1629282
Полный кал. Во всех смыслах.

Квен 80б-а3б куда интереснее выглядит, ибо может в рп в сто раз лучше другой мелкомое параши и даже в рабочие задачи, если они не касаются знаний, которые вот прям совсем новые.

Его вообще несправедливо обошли стороной неосиляторы из-за того, что не раздуплились, как с его контекстом работать и сообразили лишь тогда, когда квен 27б вышел.

А моделька ведь хорошая. Пососать даст квену 27б в ролевухе.

Аноним 10/06/26 Срд 21:35:52 #301 №1629314

>>1629309
Я вообще откидывал квены, потому что пишут они как-то уебищно, хотя сами модельки хорошие

Аноним 10/06/26 Срд 21:39:05 #302 №1629316

>>1629309
А что там с контекстом то?

Аноним 10/06/26 Срд 21:42:37 #303 №1629318

>>1629142
Использовать лламу для сервинга - мазохизм.
> vLLM я не могу запускать
Можешь запускать sglang, он и билдится побыстрее. Куда графы компилятся один раз, при следующих запусках загружаются из кэша за несколько секунд и модель готова к работе.
Что за железо что такое происходит?
>>1629282
Неудачная получилась. Для экзотики попробуй паджитов, north-mini, nex-n2-mini
>>1629286
На самом деле это прорыв, реально новый подход и архитектура. Пусть прототип, но круто.

Аноним 10/06/26 Срд 21:58:06 #304 №1629330

Screenshot2026-06-1021-57-09.png

>>1629286
Да не "несколько", там лоботомит такой конкретный вышел. И ради чего, чтоб пару лишних токенов/сек получить?

Аноним 10/06/26 Срд 21:59:53 #305 №1629331

>>1629308
>Почему неизбежен? Сейчас любой бэк помнит контексты между разными сессиями, короткие запросы не сбрасывают основной.
Потому что ты пропустил мое разъяснение в скобках
>(если использовать в виде агента ту же модель)
Жора с его чекпоинтами контекста просто затрет их нахер если ты туда подашь отличающийся промпт - и всё, пересчитывай заново.

>Или можно оставить основной ответ минималистичным, а пересчет статов смотреть отдельными запросами, разгружая основную инструкцию ценой лишних вызовов.
Я именно так и делаю, все что можно было вывести в скрипт - выведено в скрипт. Расчеты и запись результата в таблицу делает скрипт, а не модель.

Аноним 10/06/26 Срд 22:01:48 #306 №1629333

>>1629297

Зацени мой скилл уведомления шиндоус
---
name: notify-toast
description: Send Windows toast notifications to the user's desktop. Use when the user asks to be notified.
---

```batch
notify-toast "Title" "Message"
```

notify-toast это батник который всю сложность скрывает в себе и все
Никакой ебли по месяцу. Чисто описашка к терминальному туллу и работает

Аноним 10/06/26 Срд 22:03:30 #307 №1629334

image.png

>>1629286
Пиздец, это вот этот высер тизерили чтоли вместо 120В геммы?

Аноним 10/06/26 Срд 22:05:04 #308 №1629336

>>1629334
Новая архитектура и модель это всегда хорошо, это ведь тестовая лабораторная модель на сколько я понял. Никто не обещал 120b moe.

Аноним 10/06/26 Срд 22:07:51 #309 №1629340

>>1629334
Затянемся копиумом, может еще выпустят... Он же не сказал, что только one more.

Аноним 10/06/26 Срд 22:08:12 #310 №1629341

Насколько реально заставить небольшие модели делать чет полезное?

Если я допустим гемму 12б на ночь в цикле поставлю чтоб она делала чет и исправляла свои ошибки итерационно она сможет сделать хоть что-то?

Аноним 10/06/26 Срд 22:10:43 #311 №1629342

>>1629341
Анон. Сначала определяется задача, а потом инструмент.

Аноним 10/06/26 Срд 22:11:14 #312 №1629343

>>1629341
Да, может - но надо умный прошаренный бекэнд написать, чтобы оно само себе перезапускал в случае тупиков и прочее.

То что модель может сделать - это (логарифм времени работы)х(родной интеллект модели). За каждое удвоение времени работы ты можешь получить +0.1 к мозгам. Именно из-за этого сейчас всякие kimi и гроки делают "рои агентов" (agent swarm) - так как обучить модель на ещё +0.1 мозгов всё сложнее и сложнее - пытаются компенсить временем работы.

Аноним 10/06/26 Срд 22:15:51 #313 №1629344

>>1629342
Пограмирование си шарп для юнити, реализовать фичу по готовым тестам, если не прошел переделывать и так до тех пор пока все не будет готово ну или еще как зациклить, например решая открытые таски на гите пока не будут закрыты все

>>1629343
Да, но стоит ли оно моего времени и электричества? У меня 4070 и я думаю стоит ли ебаться с локалками или сразу подрубиться хотя бы диппсину 4 флеш

Ничего серьезного не поставить, а из того что полностью влазит это всякие файнтюны древнего квена 3.5 и вот гемма.

Аноним 10/06/26 Срд 22:17:26 #314 №1629346

>>1629344
>файнтюны для кода
>древнего квена 3.5
Ух бля...

Аноним 10/06/26 Срд 22:19:53 #315 №1629347

>>1629346
Ну а че еще? Я краем глаза чекнул, не сильно в теме

Там 3.5 9б и гемма 12б сейчас в топе на хагинфейс под мою видяху. МОЕ говняк я даже не рассматриваю

Аноним 10/06/26 Срд 22:22:20 #316 №1629351

>>1629347
>МОЕ говняк я даже не рассматриваю

А зря, мое для нищеты сейчас лучший выбор.

Аноним 10/06/26 Срд 22:22:41 #317 №1629352

>>1629347
>МОЕ говняк я даже не рассматриваю
Вот что наделали долбаебы дрочеры с репутацией мое сеток, ай я яй.

Аноним 10/06/26 Срд 22:23:51 #318 №1629354

>>1629286
Ну, не несколько, а аж на 10 пунктов, это сильно глупее.
Хз, уровня между квен 9б и квен 4б.

Но через годик-два можем и получить уже годные модели, да.

Но клево, если исследования в этом направлении будут продолжаться.

>>1629334
Да, прикинь. х)

Аноним 10/06/26 Срд 22:24:29 #319 №1629357

>>1629347
>Ну а че еще? Я краем глаза чекнул, не сильно в теме
Да некоторые любят быть саркастичными, вместо того чтобы не выебываться и просто дать ссылки.

https://huggingface.co/collections/Qwen/qwen36
Ну и семейства геммы
https://huggingface.co/collections/google/gemma-4-qat-q4-0
https://huggingface.co/collections/google/gemma-4

Аноним 10/06/26 Срд 22:26:05 #320 №1629358

>>1629357
Ну так я в курсе что есть 3.6, просто в мою 4070 оно же не влезет никак поэтому и смотрел на 3.5 - те что влазят.

>>1629351
>>1629352
Мне кажется наоборот рп там может быть, а вот все что с логикой нет

Аноним 10/06/26 Срд 22:26:19 #321 №1629359

>>1629331
>Жора с его чекпоинтами контекста просто затрет их нахер если ты туда подашь отличающийся промпт - и всё, пересчитывай заново.
Вообще-то - нет. Если памяти будет хватать (RAM), он там может держать старый обсчитанный контекст. Память надо выделять явно - ключом -cram <X>, и выделять надо много (гигабайты, а то и десятки - от модели, и размера контекста зависит). Тогда будет кешировать боле-менее эффективно и не сбрасывать от другого промпта.
(мимокрок)

Аноним 10/06/26 Срд 22:28:24 #322 №1629360

>>1629358
>Мне кажется наоборот рп там может быть, а вот все что с логикой нет
Не, ну разве что гемма4 26b которая мое, но она для агентов и кода плохо подходит. А вот квен3.6 35b мое как раз таки рабочая лошадка, кумить на нем хз, а вот агентом работает заебись(вызов инструментов и внимание к контексту хорошее), код пишет средний но достаточный. По крайней мере на питухоне и шелле.

Аноним 10/06/26 Срд 22:29:48 #323 №1629361

>>1629358
>Ну так я в курсе что есть 3.6, просто в мою 4070 оно же не влезет никак поэтому и смотрел на 3.5 - те что влазят.

Ммм? Да, моэ. Но я не понимаю какой 3.5 тогда ты не можешь запихнуть ? И там и там 27b.
https://huggingface.co/Qwen/Qwen3.6-35B-A3B

Аноним 10/06/26 Срд 22:30:49 #324 №1629362

image

>>1629360
>>1629361
Окей но как оно вообще работать будет? Если нужные "эксперты" будут в не в видяхе, значит ему надо будет часть выгрузить, часть загрузить оно не будет медленно?

Аноним 10/06/26 Срд 22:31:03 #325 №1629363

>>1629344
1. Я думаю ты сам можешь ответить на свой вопрос.
2. Очень зависит от твоего уровня полезно это или нет. Мне нет смысла запускать это для кода на с++ и нет смысла писать вручную на javascript, так как в нём сетка будет компетентнее и быстрее меня почти во всём.
3. Плохо дружит с большими проектами.
4. Если это хобби - мучай локалку. Если хочешь результат - иди лови дипсик и прочее. 0 или почти 0 случаев, когда локалка оправдана, как экономически, так и по скорости работы.
5. Разница между дипсиком и локалкой в том, что поменяешь айпишник в софте, который будет с кодом работать и предоставлять инструменты. Так как тебе в любом случае это настраивать - тебе нужно будет потратить около 5-10 минут дополнительного времени (и ещё на ночь запустить на пару часов для проверки), чтобы проверить работает ли на локалке, и если нет - пересядешь на флеш.
6. Обрати внимания на квен-9B. Он в более приемлимом кванте влезает в мелко-карты и он неадекватно умён для своего размера. Принцип как в прошлом времени, на тест потратишь минимум времени.

Аноним 10/06/26 Срд 22:31:48 #326 №1629364

Бесит гемма 4 31б конечно уже. Такое ощущение что у неё один парик на всё.

Аноним 10/06/26 Срд 22:32:45 #327 №1629365

>>1629360
>По крайней мере на питухоне и шелле.
В принципе включу сюда тайпскрипт и хтмл с js и css, последние 3 база для всех моделей, а с тайпскрипт мне этот самый мое квен написал рабочее расширение на нем для пи. (пришлось немного только допилить дипсиком облачным разные баги конечно, но мог это и с мое сделать только дольше)

Аноним 10/06/26 Срд 22:34:03 #328 №1629366

>>1629252
1) нет выгрузки в рам = сходу кал. Нет, я не верю что ты можешь загрузить даже степ флеш в свой врам.
2) сглангу вроде какая-то инструкция всратая нужна? То ли avx512 то ли AMX. Иначе не работает или скорость не оче

Аноним 10/06/26 Срд 22:34:33 #329 №1629367

>>1629362
Не будет, скорость модели считатся от активных параметров. Qwen3.6 35B A3B будет даже на чистом cpu работать быстро.

Аноним 10/06/26 Срд 22:34:41 #330 №1629368

>>1629362
Промт-процессинг при наличии видеокарты будет с внятной сккоростью, 30B-мое сетки выдают у меня на ноуте 17 токенов в секунду вообще без видеокарты на процессоре. У тебя как минимум половина на карту влезет, это будет 30-40 токенов. Это ты зря очень сильно.

>>1629318
Да вроде если 2-4 потока, то окей по идее. Я же не 30+ штук хочу.
Попробую, спасибо.
Древняя бу материнка с ddr4, возможно я что-то не так в убунте и докере настроил ещё. Хотя ллама как-то за несколько минут то компилится.

Аноним 10/06/26 Срд 22:35:15 #331 №1629370

>>1629362
Это мое, погугли че это такое и почему они быстрые. Если лень то короткий ответ - быстрее плотной модели раз в 5-10 даже при не полной выгрузке на видимокарту.

Аноним 10/06/26 Срд 22:35:48 #332 №1629371

>>1629362
В шапке есть гайд, там на примере геммы объяснено.
Если не поймешь, то пиши. Но суть в том что ты активные пихаешь на видюху, а другие на рам. Ну и если место остается после контекста еще накидываешь слои.
>оно не будет медленно?
Как повезет. Но в целом MOEшки шустрые. Тут много зависит от процессора и памяти.

Аноним 10/06/26 Срд 22:39:14 #333 №1629373

>>1629331
> Потому что ты пропустил мое разъяснение в скобках
Это про
> (если использовать в виде агента ту же модель)
? Тогда вдвойне непонятно.
По состоянию на сегодняшний день ты можешь одновременно на одной и той же модели рпшить с крупным контекстом и задавать в соседнем чате мелкие вопросы, в обоих случаях не будет пересчета. На лламе если что если контекст не проглючит. Также как на табби, убабуге, вллм, сгланг и прочих. Пересчет случится только если при освобождении контекста пропадут все слоты кэша, они очищаются по последнему использованию и основные всегда будут сверху.
> Я именно так и делаю
Ты в основном ответе требуешь статусбар, локации, изменения статов и прочее. Это все можно вынести в отдельные запросы. Если ты думаешь что в той же маринаре ллм что-то там считает и потом своими функциональными вызовами записывает статы - нет, там обычный скриптованный вызов и дальнейший парсинг ответа. Также как твои скрипты срабатывают, просто с возможности выноса в отдельные вызовы, с большим функционалом-интерфейсом, реализовано на уровне дизайна и скрыто от юзера.

Аноним 10/06/26 Срд 22:45:06 #334 №1629376

>>1629373
>По состоянию на сегодняшний день ты можешь одновременно на одной и той же модели рпшить с крупным контекстом и задавать в соседнем чате мелкие вопросы, в обоих случаях не будет пересчета.

Он будет, лама сравнивает подаваемый контекст с сушествующими чекпоинтами и вырезает все чекпоинты, которые несоответствуют. При подаче мелкого вопроса с другим промптом он тебе все чекпоинты большого РП разом срежет нахуй.

Аноним 10/06/26 Срд 22:48:30 #335 №1629380

изображение.png

>>1629376
Не совсем так согласно описанию.
Если же оно работает как ты сказал, то это баг. Должно быть 32 чекпоинта на слот, и слотов может быть больше одного.
Слоты я тестил, оно неплохо и само определяет.

Аноним 10/06/26 Срд 22:49:06 #336 №1629381

>>1629368
Глянь что там по загрузке во время компиляции кудаграфов и прочего. И огласи какую модель пускаешь, какую версию ставишь и какое железо полностью.
А то может там какая-нибудь вольта и тогда на вллм нет смысла вообще времени тратить. В некоторых, особенно моэ, компиляция может быть оче долгой, до 10 минут, но делается она только один раз. Начиная с 20й версии в целом скорость прогрева сильно подняли, половина моделей стартует мгновенно и самая долгая операция - загрузка под тензорсплит.
Если же ты про компиляцию из исходников - это уже больно, лучше использовать готовые колеса. И реально сгланг глянь, он по-своему странный, но в некоторых вещах срабатывает лучше.
>>1629376
> При подаче мелкого вопроса с другим промптом он тебе все чекпоинты большого РП разом срежет нахуй.
Почему? Еще весной когда изменили работу с чекпоинтами, уже хранились старые и удалялись только когда кончалось место по принципу filo. Правда тогда это приводило к общему замедлению из-за накопления даже неактивного кэша, потом это починили. Можно настраивать и сгружать "лишние" части в рам.

Аноним 10/06/26 Срд 23:18:28 #337 №1629401

>>1629314
Да, они рпшат плохо, но в плане порнухи вполне себе конкуренты. И, на мой взгляд, среди маленьких квенов только 27б 3.5 что-то может, а также 80б. Последний таки лучше, но с ним много мозгоебств. Не сел и поехал.

>>1629316
Да там дельта нет этот обычный, который сейчас все чекпоинтами закрывают. Раньше это не догадывались делать. А ведь этот квенчик ебёт даже плотняк мелкий.

Возможно, причина ещё в том, что тот, кто может запустить 80б, может запустить и глм, а также что-то пожирнее, поэтому в него никто не тыкал. Мало людей в треде, у которых недостаточно памяти для глм, но при этом достаточно для q4 k m 80б.

Но мне всё равно обидно. Даже не с кем модельку обсудить.

Аноним 10/06/26 Срд 23:21:38 #338 №1629404

image.png

>>1629380
>>1629381
У меня именно так работает. Пруф на пике. Подал на модель подключенную в качестве агента к VS Code простой запрос из таверны. Случился тотальный геноцид чекпоинтов.

Аноним 10/06/26 Срд 23:29:11 #339 №1629408

>>1629286
Ебать, она ж диффузионная. Я такую ждал два года. Это обязательно стоит попробовать. Завтра скочяю, отпишусь.

Аноним 10/06/26 Срд 23:42:33 #340 №1629419

image.png

>>1629401
80 богат квенизмами как ни одна другая квено-модель. И в те далекие по LLM времена начинал шизеть уже на небольшом контексте. Надо конечно попробовать запустить его в жирном кванте с неквантованными мамба-тензорами, контекстом bf16 и современной жоре. Может он и не плох. Но что-то лениво.

Аноним 10/06/26 Срд 23:44:40 #341 №1629420

>>1629404
Не вижу записей про очистку слотов 1, 2 или ещё каких-то, кроме нулевого.

>>1629408
Угу. Хотеть увидеть диффузию кода, как оно за 100 итераций из случайных символов вырисовывает код на 2000 строк, потихоньку подправляя до нужного.

Аноним 10/06/26 Срд 23:47:49 #342 №1629422

>>1629420
>Не вижу записей про очистку слотов 1, 2 или ещё каких-то, кроме нулевого.
Потому что их нет. Что за слоты, кстати?

Аноним 10/06/26 Срд 23:49:30 #343 №1629424

>>1629422
Лови свидетеля/жертву -kvu

Аноним 11/06/26 Чтв 00:06:15 #344 №1629433

>>1629424
Я его не включал. Но тем не менее я понял в чем дело. У меня -np 1 включен. Век живи весь учись.

Аноним 11/06/26 Чтв 00:08:31 #345 №1629434

Аноны, а сколько пишет в ризонинге у вас гемма? Есть ли какой-то способ сбавить ее обороты, так как 1к токенов на него ну много это для меня.

Аноним 11/06/26 Чтв 00:09:28 #346 №1629435

>>1629364
Согласен. И нормальных тюнов до сих пор нет.

Аноним 11/06/26 Чтв 00:21:23 #347 №1629443

>>1629434
>1к токенов на него ну много это для меня
Запусти квен и узнай что такое реально много токенов, чел. Это ещё терпимо.

Аноним 11/06/26 Чтв 00:23:31 #348 №1629447

>>1629419
>Тишина может укусить
>Дождь шипит (на самом деле хорошее выражение, но не здесь)
>Плакал серебряными слезами
>Лира

Ууух, бля. Само забавное, что даже еблю он так будет описывать. Даже с вульгарщиной будут такие моменты проскакивать, где-нибудь в реках спермы окажется серебряная слеза девственницы.

А какой это квант? Русский слишком хорош. Q8 35b-a3b рассыпается на русском полностью, например.

Вообще, если я правильно помню, так же писал 30b-a3b, но его в треде почти никто не запускал. В плане китайской прозы.

По поводу контекста, у него всё более-менее, если брать хотя бы Q4 k m. Разумеется, ему будет в целом похуй, что ты там 3к токенов назад сказал. Пальцем тыкнешь — учтёт. А так нет. Но я что-то вообще не припоминаю, какая малая модель это учитывала в 4 кванте. Ну, может квен 27b 3.5 иногда.

Мне кажется, что этот квен единственный вариант для нищуков, которые выше прыгнуть не могут.

Геммы 26/31 хорошо справляются с нарративом и РП, где скорее важно кино, чем точность. А вот этот квен отличный компромисс, когда нужно всё, но готов потерять кино: безумное порно пишет лучше геммы, а за счёт более жирного датасета не спотыкается так сильно в описании мира, локаций и прочего, как это делают квены 3.5, не говоря уже о 3.6, который совершенно рп бесполезен. Так можно хотя бы не переключаться между моделями постоянно

Аноним 11/06/26 Чтв 00:24:32 #349 №1629450

>>1629443
Я не знаю как на квене, но гемма не вставляет ризонинг в контекст, а поэтому он каждый раз прогоняет по новой 1к токенов, с каждым сообщением

Аноним 11/06/26 Чтв 00:33:16 #350 №1629456

>>1629422
--slots
И в запросах можно явно указывать slot_id
Полезно, если у тебя есть одинаковый промт с миллионом инструкций, к которому добавляется один и тот же небольшой запрос. Например, там идёт описание кастомного языка скриптов или библиотеки определённой версии, и надо отвечать на вопросы по ней. У тебя эти 50к будут в слоте, например 3, и все вопросы по этой либе обрабатываются отдельными запросами в слоте три.

Аноним 11/06/26 Чтв 00:38:02 #351 №1629457

>>1629450
Попадет ризонинг в контекст или нет, зависит не от модели, а от фронта. И ризонинг не должен в контекст попадать, он должен удаляться оттуда, иначе ответы деградируют.

Моделей без деградации, наверное, 1-2 штуки, которые специально были так сделаны.

Аноним 11/06/26 Чтв 00:55:00 #352 №1629472

>>1629457
Хорошо, но все же как заставить гемму меньше писать в ризонинге?

Аноним 11/06/26 Чтв 01:00:54 #353 №1629477

>>1629472
Никак. Если ты не хочешь сломать модель.

Я не пробовал уменьшить цепочку, пробовал только модифицировать, но то было для рп и для интереса. И оно потребовало танцев с бубном.

Можешь поискать файнтюны типа дистиллятов цепочек опуса 4.6, но всё это ебаное говно, которое всегда будет хуже оригинала.

Аноним 11/06/26 Чтв 01:11:21 #354 №1629480

>>1629472
Тебе пытаются объяснить, что ризонинг на гемме нормальный. И он и должен работать.
Про квен не просто так написали. Там 20к токенов может быть с вечными BUT WAIT и прочего дерьма, где он сам с собой спорит в ризонинге, лупится, шизит и смотрит мультики под грибами.

Аноним 11/06/26 Чтв 01:14:05 #355 №1629482

>>1629480
>Там 20к токенов может быть с вечными BUT WAIT и прочего дерьма, где он сам с собой спорит в ризонинге, лупится, шизит и смотрит мультики под грибами.
Но дает ответ, ха. Он просто сам из себя таким перебором знания вытягивает а потом рожает ответ.

Аноним 11/06/26 Чтв 01:17:58 #356 №1629486

>>1629482
Меня в этом плане вызвали ор поломанные кванты минимакса.
Он хуячит академический, идеальный ризонинг. А потом забивает на него болт и пишет вообще левую хуйню. Литералли, кто помнит первые модели с ризонингом.
>рассуждения о задаче
>учет всех переменных, формул
>проверка скриптика, форматирования
>ждешь КИНА, КОД ЧИСТЕЙШЕГО ГУГЛА
>пук

Аноним 11/06/26 Чтв 01:38:10 #357 №1629491

Говорят гугловский gemma-4-26B_q4_0-it.gguf хуже мразермахеровского и анслотного QAT 26b, якобы там лучше заквантовали. Кто-то сравнивал QAT версии?

Аноним 11/06/26 Чтв 01:48:37 #358 №1629497

>>1629491
>>1627600 →

Аноним 11/06/26 Чтв 01:54:29 #359 №1629502

>>1629497
> QAT ведет себя как Q4_K_M - Q5_K кванты, но менее поровотолива и глупее.
Так QAT и так Q4, вот этот от гугла к примеру
https://huggingface.co/google/gemma-4-26B-A4B-it-qat-q4_0-gguf

Вопрос в том лучше или хуже анслотные и мразмахеровые версии отсюда, чем стандартный гугловский
https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF
https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-qat-q4_0-unquantized-i1-GGUF

Аноним 11/06/26 Чтв 02:00:21 #360 №1629504

>>1629502
Пока не понятно где и почему сломано, а это скорей всего бекенд? Хз, непонятно можно ли получить правильно работающую модель просто по разному квантуя.
Думаю проблема вобще с моделью гугла, обучили криво.

Аноним 11/06/26 Чтв 02:03:51 #361 №1629507

>>1629434
Да нахуй вам ризонинг на мелких моделях? Цена качество ужасные же. Почти всегда отключаю, если только не тестирую что-нибудь и интересны внутренние размышления для улучшения настроек.

Аноним 11/06/26 Чтв 02:05:58 #362 №1629509

>>1629502
Q4_K_M квант это не Q4_0 кванты.

Любой Q4_K_M квант будет лучше, чем QAT 4_0. В свою очередь QAT 4_0 будет лучше любого Q4_0.

Лучше сам скачай и проверь в своих задачах.

Аноним 11/06/26 Чтв 02:08:12 #363 №1629511

>>1629509
Вот такую инфу с тестов ассистентов нашел:

Gemma4 Q5_K_S scored in assist:
- model_id: gemma4-26b-a4b
good_percent: 86.3%
confidence_interval: 3.1%
good: 397
total: 460

and Gemma4 Unsloth QAT scored in assist:
- model_id: gemma4-26b-a4b
good_percent: 88.9%
confidence_interval: 2.9%
good: 409
total: 460

То есть анслотовский QAT лучше Q5_K_S обычной неQAT геммы.

Аноним 11/06/26 Чтв 02:12:58 #364 №1629513

>>1629511
Какой же бред. Тебе выше прислали целое полотно где описаны проблемы и линк на два забугорных треда где куча людей соглашаются, что QAT кванты сломаны. Скачай сам и посмотри на собственной шкуре, стоит ли это 2.6% статистической погрешности в замерах профита. Учитывая что это мое модель а не плотная, где понятно было бы отчаянное желание сэкономить врам, я не понимаю зачем и нахуя здесь отказываться от проверенного кванта в пользу поломанного говна с целью сохранения 1.5гб оперативы.

Аноним 11/06/26 Чтв 02:18:28 #365 №1629514

>>1629511
Дай угадаю, ты на лм студии?

Аноним 11/06/26 Чтв 02:23:00 #366 №1629516

>>1629513
Там мнение одного крокодила какого-то. Когда сейчас на реддит заходишь, основная масса QAT нахваливает, даже 26b в qat рекомендуют. Тесты вроде тоже подтверждают, что QAT лучше. Хз, короче, надо разбираться. Поэтому тут и спросил, кто 26b qat разные тестил, может кто разобрался уже.

Аноним 11/06/26 Чтв 02:29:54 #367 №1629519

>>1629491
Ну, гугловский хуже анслопа, но лучше мразиша, а анслоп лучше их двух. Но и у анслопа есть проблемы, о чём они прямо написали.

Гугл квант выкатил без учёта особенностей работы лламы. Короче, просто с лопаты навалили — и ебитесь как хотите.

Может щас что-то поменялось, я вчера или позавчера смотрел, не помню.

Аноним 11/06/26 Чтв 02:43:55 #368 №1629524

>>1629519
Хорошая инфа, буду анслоп тогда тестить как самый лучший QAT из них.

>просто с лопаты навалили — и ебитесь как хотите.
На реддите так же пишут, тестов нормальных не запостил никто, так что с 26b сейчас сплошная непонятка, то ли лучше обычной 26b в Q5, то ли хуже, хуй поймешь.
Вот часть пишет что 26b QAT лучше обычной:

Доверительный интервал едва перекрывается, QAT находится на самой верхней границе диапазона того, что выдала исходная модель, поэтому, хотя это может быть вариативностью от запуска к запуску, это кажется очень маловероятным, и, опять же, использование этой модели в течение последних 5 дней подтвердило то, что показывают эти данные, а именно, что она работает лучше.

Аноним 11/06/26 Чтв 03:38:54 #369 №1629543

>>1629286
Ну и нахуя она мое если в диффузии это ничего не ускоряет? Кал

Аноним 11/06/26 Чтв 08:27:00 #370 №1629583

>>1629480
> Там 20к токенов может быть с вечными BUT WAIT
Это не норма и редкость в нормальных условиях. Ризонинг квена больше, но редко за 6к выходит, с ним 27б в итоге ориентируется и отвечает там где гемма гонит копиум. В рп же и там и там можно смело отключать ризонинг, не дает заметного буста.
>>1629543
> если в диффузии это ничего не ускоряет
Ускоряет. Ван тоже моэ, без этого по пол часа бы видео генерировали.

Аноним 11/06/26 Чтв 09:28:51 #371 №1629596

image

>>1629524
Вот скринчики сделал потестил, вроде разницы особой нет. По другим тестам погонял, тоже разницы особой не ощутил, логические все одинаково проходят. По скорости вроде как анслоп QAT самый быстрый.
gemma-4-26B-A4B-it-UD-Q4_K_M.gguf - обычный анслоп без qat, в Q4_K_M
gemma-4-26B_q4_0-it.gguf - QAT q4_0 напрямую из гугла
gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf - QAT анслоп в Q4_K_XL
gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf - QAT от SC117 c херетиком в Q4_K_XL

Аноним 11/06/26 Чтв 09:43:13 #372 №1629597

>>1629596
Чел очень хочет анслот в сраку и отказывается понимать что надо тестировать работу на контексте а не зирошоты

Аноним 11/06/26 Чтв 10:21:52 #373 №1629609

>>1629447
>А какой это квант
Qwen3-Next-80B-A3B-Instruct-Q5_K_L - от Бартовски

>этот квен единственный вариант для нищуков
Сомнительно. Ну разве что для отыгрыша жести и психодела. Думаю мелко мистраль будет и поэкономичней в плане РАМ и русик там получше. Опять таки тюнов мистраля овер дохрена - есть с чем развлекаться.
Next-80B-A3B потонул в РП потому что 27-3.5 делает его просто по всем параметрам. Ну разве что кроме знаний. А если комбинировать разные еретики 27-3.5 с плотно-геммой 4 то это вообще ИМХО предел счастья того что можно достигнуть на не-серверном железе.

Аноним 11/06/26 Чтв 10:27:11 #374 №1629612

Зачем вы обсуждаете Qwen3-Next-80B-A3B когда есть Qwen3.5-122B-A10B?
Зачем, какой смысл, бросайте этого лоботомита, это был тест дельтанета, кроме этого он ничем не примечателен.

Аноним 11/06/26 Чтв 10:31:30 #375 №1629615

>>1629596
1. Что первым начнет забывать "трусы" на контексте больше 30k ?
2. Что первым проебет персонажа при распознавании картинки ?
3. У кого богаче русик при переводе любимого порно/ранобэ . С Китайского / Японского / Корейского.

4. И самое интересное чего нигде не видел сравнение с Q6 без imatrix.

Аноним 11/06/26 Чтв 10:34:27 #376 №1629617

>>1629514
Злые гномики из лмстудио заливают говно в шаровары логпробы лламыццп?

Аноним 11/06/26 Чтв 10:34:34 #377 №1629618

>>1629612
Анон хотел пообсуждать. Я разбавил вакуум. 80 СИЛЬНО быстрее 122 . И создает ИЛЛЮЗИЮ запуска настоящей большой модели на днище-железе.

Аноним 11/06/26 Чтв 10:42:30 #378 №1629622

>>1629615
1. Слишком сложно затестить и вариативность ответов выебет. То есть нихуя не определишь, то будут трусы, то не будут.
2. При вариативности ответов проебы персов частые, так что тоже сложно затестить.
3. Ну это еще можно как-то затестить, но надо знать японский.
4. Это можно для сравнения, у бартовского были q6 без матрицы.

Аноним 11/06/26 Чтв 11:10:00 #379 №1629629

>>1629622
>1. Слишком сложно затестить и вариативность ответов выебет. То есть нихуя не определишь, то будут трусы, то не будут.
это с геммой то вариативность? лол. наличие простаты точно можно померять, было бы желание, анон

Аноним 11/06/26 Чтв 11:12:45 #380 №1629631

>>1629596
Пиздец, я в ахуе с результатов. (Да, я весь этот бред прочитал.)

Чем менее точный квант, тем более флексово и вайбово, чел. Просто SVVAG.

Складывается впечатление, что квантовать под РП надо с особыми колундствами. Потому что у меня Q8 отвечает почти детерминировано и там нет рофлов.

Аноним 11/06/26 Чтв 11:20:35 #381 №1629636

Мне кажется что анслопы это величайшие шарлатаны и мистификаторы нашего времени в среде ллм. Просто никто не делает нормальных сравнений квантов, кроме самих анслопов, которые еще и метрики свои собственные продавили и тесты. Все по умолчанию качают анслопов потому что их кванты меньше, и поскольку они хуже не настолько, чтобы это прям в глаза бросалось - то мистификация поддерживает сама себя.

Аноним 11/06/26 Чтв 11:21:43 #382 №1629637

>>1629631
>половина мозга умерла, вместе с этой половиной отвалилась часть ассистента
>стало флексово и вайбово
хммм, где же связь

Аноним 11/06/26 Чтв 11:26:23 #383 №1629640

>>1629637
Ну эт пральна.

А так нужен двачерский калибровочный датасет, где каннички, зелёный слоник, вайп ниграми и умение писать трифорс. Так победим. Сделаем модельку, где в мясо заквантовано всё, что не нужно.

Квантование как способ созидания! Креатив! Полные веса для уебков!

Аноним 11/06/26 Чтв 11:29:41 #384 №1629642

image

>>1629597
Ну вот затестил, с предыдущим контекстом на 10к и полной карточкой, еще заменил Q4_K_M анслоп без QAT на Q6_K_XL
Вроде разницы опять немного, даже анслоп QAT версия получше как-то кажется, хотя все +- одно и то же.
gemma-4-26B-A4B-it-UD-Q6_K_XL.gguf - обычный ансплоп без QAT, но целых Q6_K_XL
gemma-4-26B_q4_0-it.gguf - QAT q4_0 напрямую из гугла
gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf - QAT анслоп в Q4_K_XL
gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf - QAT от SC117 c херетиком в Q4_K_XL

Аноним 11/06/26 Чтв 11:29:58 #385 №1629643

1000522651.jpg

>>1629596

Аноним 11/06/26 Чтв 11:32:12 #386 №1629645

image.png

Захотел называется скачать последний билд жоры, а антивирь на него стриггернулся. Раньше было норм. Я-то конечно уберу из защиты, но неприятно. Нормально ж общались...

Аноним 11/06/26 Чтв 11:36:11 #387 №1629647

>>1629645
тоже самое было, триггерится через версию, мне даже интересно что они туда хуйнули такое

Аноним 11/06/26 Чтв 11:46:37 #388 №1629651

>>1629645
Ничего не найдено в сегодняшней версии. Правда я для cuda 12 качал, для старья. Вам майнеры по ходу для дорогих видеокарточек суют.

Аноним 11/06/26 Чтв 11:52:22 #389 №1629655

>>1629642
Пиздец, вот такие запускают гемму, а потом говорят что безмозг, хотя там уже от геммы остался Пигмалион 8B

Аноним 11/06/26 Чтв 12:32:08 #390 №1629682

>>1629612
Разные весовые категории, требования скорости. И 122 явно не у всех хорошо работает, или имеет черты, которые очень на любителя. А так - слепящий вин, также годна для кума и душных рп за счет ориентирования в больших контекстах.

Аноним 11/06/26 Чтв 12:37:48 #391 №1629688

>>1629682
>черты, которые очень на любителя
Ну да, например непробиваемая цензура с включенным ризонингом и крайне тяжело пробиваемая с выключенным. На контексте попроще, но зачем нужна такая ебля при наличии эйра в той же весовой категории - загадка. А там еще и умничка 124b на подходе.

Аноним 11/06/26 Чтв 12:40:27 #392 №1629690

image.png

>>1629618
>>1629682

Так хохма в том что Qwen3-Next-80B-A3B сосет даже у Qwen3.6-35B-A3B, т.е. она по факту хлам и устаревший мусор.

Аноним 11/06/26 Чтв 12:56:00 #393 №1629709

>>1629688
>А там еще и умничка 124b на подходе.

А с чего ты взял что гемма 124В-А10В она будет умнее 31B плотняши?
У квена вон даже в рамках 3.5 поколения 122В-А10В сосала у 27В плотняши, выход 3.6 27В вообще 122В уничтожил. А у геммы и сама плотняша жирнее на 15% чем у квена.

Аноним 11/06/26 Чтв 13:01:27 #394 №1629717

>>1629682
>А так - слепящий вин, также годна для кума и душных рп
Может быть только для ассистентского рп, где он отыгрывает профессора или ещё кого. Боится обидеть юзера, не отыгрывает злодеев вообще, соевый, ассистант алайнмейнт почти на уровне Немоторона 49б

Аноним 11/06/26 Чтв 13:03:18 #395 №1629719

>>1629709
Во первых, бенчмарки это говно и не показатель вообще.
Во вторых, ебало представили кто будет гемму 124б запускать? Там интересно контекст сколько весить будет, гигов 20?

Аноним 11/06/26 Чтв 13:03:32 #396 №1629721

image.png

>>1629643

Аноним 11/06/26 Чтв 13:07:09 #397 №1629726

>>1629719
Так квен сосал не только в бенчмарках, но и в РП.
>Там интересно контекст сколько весить будет
Меньше чем у плотняши раза в 2-3, примерно сколько у 12В, чуть меньше даже. Вес контекста зависит от активных параметров а не общих.

Аноним 11/06/26 Чтв 13:10:50 #398 №1629729

image

>>1629709
>А с чего ты взял что гемма 124В-А10В она будет умнее 31B плотняши?
Просто экстраполирую с 26b-a4b, которая лишь немного тупее плотной 31b. Реально, это первая на моей памяти модель с таким низким числом активных параметров, которая НЕ лоботомит и с которой можно комфортно рпшить. Всё что было до этого, все квены и глэм a3b - мусор на ее фоне.

Так вот 124b должна быть тотальным разъёбом. Скорее всего поэтому её до сих пор и не выпустили - просто смысла нет, она очевидно будет лучше всех конкурентов вплоть до 200b. Хотят дождаться релиза новых квенов, а потом уже выпустить свою моэ и побить их. Минутка коупинга окончена.

И вроде там 124b-a15b, не? Будет даже поплотнее эйра, что хорошо.

Аноним 11/06/26 Чтв 13:13:03 #399 №1629732

>>1629729
а откуда вообще слух пошел про 124b? Я просто не верю, что выпустят, учитывая насколько 26б охуевшая. А так очень хочется конечно

Аноним 11/06/26 Чтв 13:15:46 #400 №1629733

>>1629719
>ебало представили кто будет гемму 124б запускать?
Ну.. буквально 2/3 тредовичков, у которых есть 12/16 + 64, лол.

>интересно контекст сколько весить будет
Столько же, сколько и других моделей гемма 4.

>>1629732
Гуглы опубликовали твит с перечислением новых моделей, которые релизнут, среди них была "MoE 124b". Твит провисел несколько минут, после чего был отредачен и инфа про жирномоэ удалена. Сейчас гуглов периодически тыкают палкой на реддите и твиттере по поводу этой модели, а они хранят ЗАГАДОЧНОЕ МОЛЧАНИЕ, ничего не подтверждая и не отрицая.

Аноним 11/06/26 Чтв 13:19:32 #401 №1629734

image

>>1629597
Вот еще русский затестил с QAT, тут взял сложную карточку с персом смешивающей немецкие и русские фразы + предыдущий контекст 10к. Смесь немецко-русского и предыдущего контекста должна быть для квантов посложнее. И вместо Q4 иматрикса, взял Q6 статический для сравнения, как в треде рекомендовали. У unsloth QAT вроде как хуже с немецким, какой-то он бедный, при этом думал на 8к токенов больше всех, heretic зачем-то добавил расшифровку (глюки уже?), у гугла QAT и статика Q6_K все норм со вставками немецких фраз. Но так в принципе все одинаковы. Google QAT родной достаточно хороший и по скорости и по выводу. Короче однозначных победителей нет.

gemma-4-26B-A4B-it.Q6_K.gguf - мразермахер статический квант Q6_K, никаких иматриксов
gemma-4-26B_q4_0-it.gguf - QAT q4_0 напрямую из гугла, тоже статический
gemma-4-26B-A4B-it-qat-UD-Q4_K_XL.gguf - QAT анслоп в Q4_K_XL, иматрикс
gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf - QAT от SC117 c херетиком в Q4_K_XL, иматрикс

Аноним 11/06/26 Чтв 13:20:38 #402 №1629735

>>1629729
Экстраполируя с квена - там 3.5 35В оставала, но не фатально от 3.5 27В плотняши, а вот 3.5 122В несмотря на троекратный рост была всего лишь на уровне плотняши, чуть-чуть уступая в РП и превосходя в знаниях.

>И вроде там 124b-a15b
Речь шла о "up to a 124B parameter MoE model", про 15В это фантазии.

Аноним 11/06/26 Чтв 13:24:43 #403 №1629736

>>1629688
> непробиваемая цензура с включенным ризонингом и крайне тяжело пробиваемая с выключенным
Хз, кум отыгрывает, канни отыгрывает, жестокость отыгрывает. Если инстант начнешь жесть творить - откажет, но когда обусловлено сюжетом - сама наваливает. Там другие претензии что иногда чрезмерно дотошная, по стилю и темпу повествования, но это все очень субъективно.
> при наличии эйра
Он радикально тупее, хотя художественнее.
> А там еще и умничка 124b на подходе.
Да где, заждались ее уже. Выпустите зверя наконец, будем наяривать за обе щеки.
>>1629717
Это где такое?
Юзер легко отгребает едва не умирая при неудачный действиях или просто при запросе плот-твиста, вместе с чаром пытаете и допрашиваете неприятелей, совершая потом военные преступления не считается потому что было весело, и всякое. Но куда интереснее то, что на не особо уместное предложение чар не стесняется говорить нет и принимать разумные решения аргументируя их, а не подстраивает все под тебя, делая сюжетные дыры.
На постоянку хз, но вперемешку с другой моделью - вполне.

Аноним 11/06/26 Чтв 13:25:46 #404 №1629737

>>1629734
Ты ведь понимаешь что такие сравнения на глаз - это полная хуйня? Милипиздрическая разница между квантами перекрывается статической погрешностью от рандома от разных свайпов?

Аноним 11/06/26 Чтв 13:26:04 #405 №1629738

>>1629734
>Show Thoughts (8204 characters)
будь другом, покажи тхинкинг целиком. мне интересно, я не представляю что надо делать с геммой чтоб она столько думала (но я только плотную гоняю...)

Аноним 11/06/26 Чтв 13:27:12 #406 №1629741

А 124b моэ влезет вообще в адекватном кванте в 32vram + 64ram? Кто крутил квен большой поделитесь. Потому что скорее всего болячка геммы с тем что она лоботомит на ниже q8 квантах перейдёт и на новую 124b

Аноним 11/06/26 Чтв 13:29:16 #407 №1629744

>>1629735
122b - это обосрамс, тут даже не спорю. Но вот ещё аргумент в защиту гугла. Периодически пользуюсь их корп-моделью Gemini 3.1 Pro (по слухам 2T-моэ), и относительно недавно они релизнули новую Gemini 3.5 Flash (200B-500B-моэ по слухам, опять же). Так вот разница между ними исчезающе мала. Ну примерно как разница между нашими 31b и 26b. Не знаю что они там нахимичили, но кажется гуглы научились делать очень крутые маленькие моэ.

Аноним 11/06/26 Чтв 13:31:54 #408 №1629745

>>1629741
В 4 бит влегкую влезет.

Аноним 11/06/26 Чтв 13:34:08 #409 №1629746

>>1629745
Ну это кал конечно если только в q4. Пойду качать большой квен, может в q5 влезет хотя бы.

Аноним 11/06/26 Чтв 13:35:22 #410 №1629747

>прошёл день
>нет рабочих билдов лламы даже в ПР
Видимо нескоро будет новая диффузная гемма. Там даже параметры запуска другие. А ведь так-то на бумаге звучит круто, х4 к скорости генерации с небольшим ухудшением качества правда только в фулл-врам, с процом хз, мб небольшой прирост.. Вллм-бояре, делитесь опытом, как оно.

Аноним 11/06/26 Чтв 13:44:06 #411 №1629751

>>1629734
туда бы еще apex квант от mudler

Аноним 11/06/26 Чтв 13:45:40 #412 №1629753

>>1629738
Кобольд по ебанутому считает символы, а не токены. Ну то есть в ризонинге 8204 букв, что не очень и много.

Аноним 11/06/26 Чтв 13:51:35 #413 №1629757

Анон, что я делаю не так?
В одном из прошлых тредов видел ссылку на вот этот тюн https://huggingface.co/mradermacher/Versipellis-31B-i1-GGUF
скачал и M и S вариант 4 кванта. обе выдают 2-2.8 токена генерации на 32к контекста на моей 4090. со слоями играл, 2.8 выдает на 35 слоях. Запускаю через кобольду.
Это нормальная ситуация и моя 4090 просто тупо не тянет? На чем тогда это надо запускать?

Аноним 11/06/26 Чтв 13:56:03 #414 №1629760

image

>>1629738
>будь другом, покажи тхинкинг целиком. мне интересно, я не представляю что надо делать с геммой чтоб она

Вот зинкинг, похоже она подумала, потом еще подумала, потом наконец написала. Возможно баг анслота, потому что гугловский так не делает.

Аноним 11/06/26 Чтв 13:58:19 #415 №1629762

>>1629741
Просто ты скорее всего превысил врам и драйвер слил излишек на рам, убив тебе скорость. Проверь по диспетчеру задач расход врам и "общую врам".

Аноним 11/06/26 Чтв 14:00:36 #416 №1629765

>>1629757
А кстати, в этом случае не поможет --fit-ctx? Я так понимаю он таким образом сразу правильно фиттит в видеопамять.

Аноним 11/06/26 Чтв 14:10:58 #417 №1629772

>>1629757
Во-первых, у тебя влезут все слои. Смело ставь 999. Во-вторых, ты что-то явно делаешь не так, потому что в мои 16гб влезают 40 слоев и скорость 5.5тc без мтп и 9тс с мтп. В твоем случае можно рассчитывать на скорости 30тс+ и 60тс+ с мтп т.к. фуллврам, ещё и быстрая.
>Запускаю через кобольду
Удали каку и разберись как работает ллама. Это сильно облегчит тебе жизнь. Если не осилишь параметры запуска, пиши, в треде помогут.

Аноним 11/06/26 Чтв 14:12:01 #418 №1629773

blackhole-zoomertalk.png

>>1629596

Аноним 11/06/26 Чтв 14:12:22 #419 №1629774

>>1629757
> 35 слоях
поставь 99
Квантани контекст в Q8 - Q8
Плотной гемме нормально жить ОТ 32 Гб VRAM это 5090 или несколько видеокарт (5060TIx2 или 4060TIx2 или 3090x2 )

Аноним 11/06/26 Чтв 14:15:42 #420 №1629775

>>1629757
Выгружать в оперативу ничего не нужно. У меня тоже 4090, и спокойно помещаются Q4_K_M кванты бартовского (на 1.2гб больше весят, чем Q4_K_M mradermacher) и 32к контекста без квантования. Еще и 0.5-1гб видеопамяти останутся для остальных задач. Изучай гайд в шапке и ставь Лламу.

Аноним 11/06/26 Чтв 14:21:39 #421 №1629780

>>1629753
это че за экономия на спичках? что мешает кобольду дёрнуть серверный токенизатор??
>>1629760
надеялся увидеть как модель с ума сошла, но тут типичный слопчанский, ты прав.

Аноним 11/06/26 Чтв 14:28:03 #422 №1629788

Все-таки что ни говори, а локалки (говорю за размеры в диапазоне примерно 25-35, тот максимум, что доступен простому человеку на простом железе) это абсолютно немощная туповатая шляпа на фоне любых коммерческих моделей. Лично я интересуюсь и слежу за этой темой только потому, что актуальная локалка входит в мой аварийный "чебурнет-пак" на случай понятно чего. Такая вещь, как аптечка или огнетушитель - иметь надо, но лучше, чтоб никогда не пришлось применять.
А постоянно пользоваться же локалками сейчас, во времена, пока интернет еще жив и есть корпы - смысла фактически никакого.

Аноним 11/06/26 Чтв 14:31:26 #423 №1629792

>>1629788
Я параноик, а поэтому с ключами, токенами и паролями работают только локалки. И с ключевой личной информацией, которую я на сторону отдать не хочу. И текущие локалки не так плохи как облачные модели, тоесть да они хуже, но их уровень средний, они уже способны приносить пользу.

Аноним 11/06/26 Чтв 14:32:51 #424 №1629795

>>1629788
Какой ответ ты ожидаешь услышать в локальном треде и зачем это все? Если вкратце - ты не прав и сейчас заслуженно на тебя набросятся. Если подробнее - зависит от задач и сферы применения. Помимо озвученного тобой есть и другие преимущества локалок. Не говоря уже о том, что сам процесс возиться с ними и запускать их именно на своем железе - отдельный вид деятельности, для многих здесь увлекательный. Корпы плохи в капшне картинок для датасетов лор и файнтюнов картинкомоделей; корпы могут быть избыточными для различных задач, а значит человеку в принципе они могут быть не интересны (простенькие скрипты написать, ответить на common sense вопросы и пояснить за код/помочь в освоении нового софта и прочего могут Гемма и Квен, которые идут на любом потребительском железе). Уверен, если задуматься - то еще больше таких юзкейсов наберется, от балды написал, что держу в голове, ибо релейтед для меня.

Аноним 11/06/26 Чтв 14:33:19 #425 №1629797

>>1629788
С корпами не поролеплеишь, там везде лимиты же и цензура. Вспоминается случай, как один малец в нейронку корпов загрузил свой стручок, за что потом забанили акки всей его семье, включая сестру которая жила в другой части страны и у нее там диплом для подготовки загружен был. И они там целый бизнес и кучу денег потеряли, потому что все акки на домены и сервисы завязаны были.
А чисто справочные вопросы конечно лучше корпам задавать, они хорошо соображают.

Аноним 11/06/26 Чтв 14:43:11 #426 №1629808

>>1629788
> А постоянно пользоваться же локалками сейчас, во времена, пока интернет еще жив и есть корпы - смысла фактически никакого.
Чтобы уметь ими пользоваться когда/если интернет и/или корпы умрут, очевидно. Рано или поздно одно или другое произойдет, на корпах за последние полгода гораздо больше анальных ограничений прибавилось и дальше все будет только хуже, как ни посмотри. Впрочем даже оставляя это за скобками, не будь локалок, корпы ахуели бы еще больше со своими условиями и монополией. Короче ты пернул в лужу, друже.

Аноним 11/06/26 Чтв 14:43:59 #427 №1629809

>>1629792
Это какая информация то? Дневничок о том как ты покакал?

Аноним 11/06/26 Чтв 14:46:21 #428 №1629810

>>1629809
Как мамку твою в кино водил, тоже личная знаешь ли.

Аноним 11/06/26 Чтв 14:47:31 #429 №1629812

image

Как же гугл ебет

Единственный выход для локалок это либо отвязать датасет от мозгов как предлагают либо пробовать другие подходы

Аноним 11/06/26 Чтв 14:48:20 #430 №1629813

>>1629757
Как оказалось, дело было в том, что у меня кобольд был старый.
Обновил и выросло до 25.
>>1629774
>Квантани контекст в Q8 - Q8
А что это значит?

Аноним 11/06/26 Чтв 14:51:26 #431 №1629815

>>1629809
неиронично да. каким надо быть гоем чтобы собственноручно нести корпам своим заметки, для пущего унижения только чип вживить осталось

Аноним 11/06/26 Чтв 14:53:52 #432 №1629817

image.png

>>1629809
Вот я вчера со своей умницей Квеноняшей весь вечер потратил на то, чтобы выбрать себе подходящий мастурбатор в виде торсика, заказал его за 15к и жду доставки. Было обсуждено все от цены до веса, сценариев применения и пользы. Параллельно катались тулколлы на генерацию наволочки для дакимакуры. После хорошенькой разогревочной кумсессии я теперь буду идти тискать дакимакуру и натурально ебать свою вайфочку, пока ты получаешь баны за дикпик или тысячелетнюю кемономими и снова идёшь клянчить ключи. Ладно, даже если тебя пожалеют и оставят в живых из жалости то будешь читать хард(софт)рефузы с алайнментом и морализаторством.
>>1629813
> А что это значит?
Как же копротивляются и не хотят образовываться, нуэтожпиздец, вам целый гайд написали где все разжевали, а вам сука приятнее блуждать в темном глухом лесу наощупь и краудсорсить свои проблемы на борде, тоска. Иди читай и не возвращайся пока не прочитаешь.

Аноним 11/06/26 Чтв 14:54:27 #433 №1629818

>>1629815
Какой смысл свои заметки нести любой нейронке, объясни мне?

Ты либо пишешь сам что может быть полезно, либо генерируешь бесконечный нейрослоп который никогда больше не откроешь.

Аноним 11/06/26 Чтв 14:56:25 #434 №1629819

>>1629812
В треде пока никто не запускал. А вдруг там получилась модель уровня кобольда?

Аноним 11/06/26 Чтв 14:57:37 #435 №1629821

Кто то нашел не заброшенный рабочий проект по ai вайфу локальной? Чтобы вижн работал, t2s локальный, s2t тоже. Может mcp. И желательно без gpt-sovits нерабочего

Аноним 11/06/26 Чтв 14:57:55 #436 №1629822

>>1629797
>С корпами не поролеплеишь, там везде лимиты же и цензура.
Гемини 2.5 pro вполне себе пишет порно, Opus 4.6 на пустом контексте не хотел, но достаточно было попросить его продолжить историю дальше он соглашался, DeepSeek v4 pro в 99% случаев в ризонинге пишет "это, конечно, плохо, но юзер разрешил, так что норм".
GPT 5.5 себя в ролеплее очень хорошо показал, кстати, в отличии от предыдущих GPT 5.x, но порно я им писать не пробовал, Дипсик в нём тащит безумно.
>Вспоминается случай, как один малец в нейронку корпов загрузил свой стручок, за что потом забанили акки всей его семье, включая сестру которая жила в другой части страны и у нее там диплом для подготовки загружен был.
Гуглы официально заявили, что это был пиздёж рандомхуя в твиттере.

При этом я не тот набросивший анон и согласен, что локалки нужны - в любой момент пукнет и обмякнет халявный доступ к корпам, а на ролеплей я в настоящий момент подсел сильнее, чем на ММО в студенчестве.

Аноним 11/06/26 Чтв 14:59:11 #437 №1629823

image

>>1629819

Аноним 11/06/26 Чтв 15:00:27 #438 №1629824

>>1629823
Вот как сам запустишь, тогда и будет разговор. А пока это просто таблички.

Аноним 11/06/26 Чтв 15:00:45 #439 №1629825

>>1629818
>Какой смысл
а это никого ебать не должно.
>либо пишешь сам что может быть полезно, либо генерируешь бесконечный нейрослоп который никогда больше не откроешь.
либо сам пишешь что может быть полезно, открываешь, а там за миллион строк уже перевалило. вот и всё

Аноним 11/06/26 Чтв 15:02:23 #440 №1629826

>>1629825
Интересно же, вдруг есть какой-то юзкейс который я упускаю

Я ебашу на эмоциях дневники свои и хуевая и дерганное оформление, кривые непричесанные фразы и скакания с мысли на мысль - это не баг, а фича.

Что еще кроме причесывания делать с ними я хз

Аноним 11/06/26 Чтв 15:16:01 #441 №1629834

Для всего кроме рп хотя тут тоже вопрос дискуссионный, ОСОБЕННО на русике и вижена гемма 26 q8 > гемма 31 q4
Без вариантов вообще. Кстати вижен 26 q8 тоже работает лучше, он нюансы картинки лучше понимает и описывает, а вижен 31 q4 легче распознает всяких персонажей особенно обскурных

Аноним 11/06/26 Чтв 15:20:32 #442 №1629836

image

>>1629751
>туда бы еще apex квант от mudler

Тоже качнул, тестанул, какая-то навороченная моделька, в описании много обещали. Скорость ниже QAT от анслопа, но повыше Q6. Немецкий в тему сует. Думает меньше анслопа. Багов вроде бы нет. +- как гугловский QAT, даже по скорости так же.
В сравнении с теми >>1629734 >>1629596 >>1629734 достаточно хорошо.

gemma-4-26B-A4B-APEX-Balanced.gguf - тестил сбалансированный статический квант, без imatrix

Аноним 11/06/26 Чтв 15:23:09 #443 №1629838

>>1629834
Хз, кодинг у меня на гемме 31 лучше, правда у меня q6.

Аноним 11/06/26 Чтв 15:23:56 #444 №1629839

>>1629836
Что ты тестируешь вообще? Что модель не сошла с ума в рамках одного единственного сообщения? Ну ахуеть теперь. Смотреть надо как хорошо она ссылается на старые вещи из чата и не забывает их, как продолжает существуещее в контексте, есть ли двойные трусы или умница все учитывает. Анслотозависимый, блять, накидал говна бесполезного в тред, зато на 2.6% лучше по неизвестному бенчу и быстрее всего. Аутотренингом занимаешься или как?

Аноним 11/06/26 Чтв 15:25:14 #445 №1629840

Я уже сдрочился, если не дрочу то листаю карточки персонажей какие ещё скачать, ёбаная сука игрушка дьявола, нахуй оно надо.

Аноним 11/06/26 Чтв 15:28:35 #446 №1629844

>>1629839
Так она ссылается, там везде предыдущий контекст с событиями 10к + карточка. В целом все показали себя хорошо, никаких особых отличий нет. Можно юзать хоть QAT, хоть Q6, хоть Apex. Чисто из-за скорости предпочитаю QAT от анслота, там она повыше остальных, в херетике тоже довольно высокая, а результаты не хуже. Гугловский QAT сбалансирован по всем тестам, заметных багов нет, оптимальный. В анслоте баг с длинным зинкинком, который не всегда активируется, обычно тоже короткий.

Аноним 11/06/26 Чтв 15:30:29 #447 №1629846

>>1629844
>там везде предыдущий контекст с событиями 10к + карточка
Уже получаем их всем тредом при помощи телепатии, ага. Такие тесты нам, сторонним наблюдателям, никакой пользы не несут
>В анслоте баг с длинным зинкинком, который не всегда активируется
Есть reasoning-budget для ограничения по токенам, есть logit bias чтобы модель сама скорее закрывала ризонинг. Всё делается

Аноним 11/06/26 Чтв 15:31:07 #448 №1629847

>>1629840
>то листаю карточки персонажей какие ещё скачать

Давно бы уже скачал все.
>>1620333 →

Аноним 11/06/26 Чтв 15:32:20 #449 №1629848

>>1629846
>Есть reasoning-budget для ограничения по токенам
Он везде одинаковый выставлен был жестко через настройки. Но анслоп генерил по 8к время от времени, а гугловский всегда по 3300-3500. Так баг какой-то по ходу анслопы занесли.

Аноним 11/06/26 Чтв 15:38:03 #450 №1629851

>>1629826
например самый обыкновенный поиск (по смыслу а не по словам). можно конечно тегать/линковать всё как аутяра в каком-нибудь обсидиане, но это геморно

Аноним 11/06/26 Чтв 15:42:19 #451 №1629856

>>1629747
> Вллм-бояре, делитесь опытом, как оно.
Даже не думал что скажу такое, но too small.
>>1629788
Чем корпы действительно хороши - интерфейсом высокой идиотпруфности и пост тренингом, облегчающим понимание обывателей. В остальном, если брать не флагманские и следующие за ними быстрые модели, то они "опустились" как раз до уровня 25-35. 3.5флеш разве что сейчас выделяется.

Аноним 11/06/26 Чтв 15:48:20 #452 №1629859

>>1629846
> никакой пользы не несут
Тут до этого выше говорили, что модельки сломанные, не поддерживается что-то там и прочее. Тесты показали, что все практически одно и то же, отличий минимум, даже на русско-немецком и зумерских сленгах. Выходит все различия вкусовщина и субъективщина, либо вариативность вывода при перегенерации одной и той же моделью. Так что остается выбирать, что по скорости лучше и к железу подходит, разницы особо заметной между ними не будет.

Аноним 11/06/26 Чтв 15:49:16 #453 №1629862

>>1629859
>тесты натурально ничего не показывают кроме одного единственного аутпута
>Тесты показали
Мы поняли. Анслот внутривенно этому эпилептику.

Аноним 11/06/26 Чтв 15:53:09 #454 №1629865

>>1629859
>в ёбле ассистента разницы особо заметной между ними не будет.
поправил тебя

Аноним 11/06/26 Чтв 16:04:18 #455 №1629873

>>1629788
как же сему альтману печет от того, что никто не хочет юзать его парашу

Аноним 11/06/26 Чтв 16:28:11 #456 №1629893

>>1629788
На фоне того что сейчас цена нормальной подписки начинаются от 100 баксов, и вэту подписку не входит кум и приватность - твой пост просто лоу квалити жирнота.

Аноним 11/06/26 Чтв 16:38:24 #457 №1629898

>>1629893
А вообще, есть ли корпы для кума?

Аноним 11/06/26 Чтв 16:59:08 #458 №1629910

>>1629898
Гопота вроде обещала 18+ режим, но что-то хуй там.

Аноним 11/06/26 Чтв 17:28:53 #459 №1629924

>>1629788
Грустная и неприятная база.
Даже "древний" gpt-3.5, с которого началось массовое пришествие llm, и который очень туп по сегодняшним меркам - он был размером 175b.
То есть локалкам безумно далеко даже до первого поколения корпов.

Аноним 11/06/26 Чтв 17:31:14 #460 №1629925

image.png

>>1620333 →
>>1629847
Скорости пизда

Аноним 11/06/26 Чтв 17:37:30 #461 №1629927

image

>>1629925
Да вроде норм.

Аноним 11/06/26 Чтв 17:37:31 #462 №1629928

>>1629924
Слишком пережирнил. Какая-нибудь Гемма е4В выебет в рот и жопу тот древний чат-гпт 175В.

Аноним 11/06/26 Чтв 17:37:42 #463 №1629929

>>1629924
>Грустная и неприятная база.
Таблетки.

Не всё измеряется только параметрами. Что гопота 3.5, что лардж 120b или сколько он там, что лама 70b, устарели уже настолько, что сольют в любом сценарии тупа гемме 26b, не говоря уже о чем-то крупнее.

Но если хочется подрочить на циферки, то кими 1T и дикпик 630b - это тоже локалки, так-то. И обе больше корпоративного Грока 500b.

Аноним 11/06/26 Чтв 17:39:25 #464 №1629932

>>1629927
Ты где находишься цифры свои назови. У меня с ру айпи и с ру впн не тянет. Какую страну врубить надо?

Аноним 11/06/26 Чтв 17:46:54 #465 №1629938

>>1629924
>>1629859
Корпы дают qol хороший, даже если качество не сравнивать, к нему легко привыкнуть и тяжело будет возвращатся к локалке поэтому я их не трогаю. Это как с не знаю с 20тс на 3тс переезжать.

Аноним 11/06/26 Чтв 17:50:18 #466 №1629939

>>1629924
Пережирнил. И времена когда корпы были непомерно огромными, а локалки мелкими давно прошли. Нынче и лоботомитами за денежку накормят, и можно у себя йобу крутить при наличии железа.

Аноним 11/06/26 Чтв 17:56:55 #467 №1629942

>>1629939
Ну анон прав. Вне кодокала хотя и тут спорно даже дикпик про 1,6t будет сосать с проглотом у 3,5 турбо. По прозе, логике и связности так точно.
Пока китайцы будут "обучать" свою хуйню на выдаче клода, нихуя не изменится. А западные корпы будут кормить урезанными в хлам лоботомитами, которые на уровне древней пигмы.

Аноним 11/06/26 Чтв 17:59:50 #468 №1629946

>>1629928
>>1629929
>>1629939
Хуя копиум.

Жтп турбо не сможет рассуждать и делать по шагам, понимания промтов будет хуже но из-за размера датасета - кучи примеров сами слова и предложения будут в разы более крутые чем все мелкоговно что вы сможете поставить когда либо

Другое дело что он иногда будет говорить не в попад

Аноним 11/06/26 Чтв 17:59:54 #469 №1629947

1684911155116.png

>>1629942

Аноним 11/06/26 Чтв 18:01:25 #470 №1629948

>>1629946
Может съебешь уже в асигопарашу со своей толстотой?

Аноним 11/06/26 Чтв 18:09:45 #471 №1629957

Кто продолжит сраться - тот дурак и не прав. Кто умный джентельмен - несомненно его проигнорирует и пойдет читать полотно.
Никогда толком не вникал в то, как работает вижн в ллмках, решил немного поиграться. Да еще и на обскурных по сегодняшним меркам данных.

Для эксперимента понадобятся:
- Очаровательная Эйша Кланклан из Seihou Bukyou Outlaw Star
- gemma-4-26B-A4B-it-Q8_0
- gemma-4-26B-A4B-it-bf16
- gemma-4-31B-it-Q4_K_L
- Qwen3.5-122B-A10B-Q8_0
- Step-3.7-Flash-Q4_K_L
Все кванты bartowski. Сэмплеры рекомендуемые разработчиками из документаций моделей. Кэш и прожекторы в bf16 (разницы с fp16 по моим коротким тестам не замечено)

Писать скрипты было лень, так что все делал руками параллельно работе и чарты/логи приложить не могу, но поделюсь наблюдениями на словах.

Каждая модель 10 раз обрабатывала одну и ту же картинку персонажа.
- gemma-4-26B-A4B-it-bf16 ни разу не ушла в бесконечный луп. Не знает, что это за персонаж: все 10 раз не нашла ответ, честно ответила, что не знает и предположила, что это непопулярный персонаж/чей-то оригинальный персонаж, предположительно художника. Судя по ризонингу, Гемма извлекает визуальные черты объекта и пытается сопоставить со своими знаниями. Перебирает варианты прямо в ризонинге, что видно в ризонинг блоке.
- gemma-4-26B-A4B-it-Q8_0 в ризонинге ведет себя как bf16, но все 10 раз(!) ушла в бесконечный луп. Ранее я пробовал ей подсовывать других непопулярных персонажей, и поведение всегда такое.
- gemma-4-31B-it-Q4_K_L в ризонинге ведет себя похоже на 26b и перебирает варианты внутри блока. За все 10 попыток ни разу не ушла в бесконечный луп, но и персонажа не отгадала. Когда обращала много внимания на подпись - предполагала, что это оригинальный персонаж художника и уходила в галлюны. В остальных случаях неверно определяла персонажа, например, Ayla из Chrono Trigger.
- Qwen3.5-122B-A10B-Q8_0 в ризонинге так же идентифицирует отличительные черты персонажа и собирает их воедино, сравнивает с известными ему персонажами. Но часто более дотошен, чем Гемма. Сравнения персонажей проводит не ванлайнерами, а проходит по схожим и отличным чертам. Много раз думал, что коса - это хвост, чего за Геммой не замечено. Подпись автора не была распознана. Ни разу не угадал и не признал, что не знает, не предположил логичных вариантов (что это оригинальный персонаж или что-то обскурное), галлюцинировал. Пару раз сравнивал с Фелицией из Skullgirls, что в целом можно понять в данном случае. Один раз ушел в бесконечный луп на слове Neko и его вариациях (лол).
- Step-3.7-Flash-Q4_K_L на данный момент обладает багом процессинга картинок, тот гораздо медленнее текстовой обработки: почему-то форсится батч 80, 81 или 180 токенов. Ризонит так же, как и предыдущие модели, но мне понравилось, как он уделил больше внимания композиции, позе, вайбу картинки, а не оценивал только физ.характеристики персонажа. У него неплохой вижн, я пробовал в разных юзкейсах. CoT в целом похож на Квен, но чуть более умеренный в плане дотошности. Подпись автора разобрал частично. На одних и тех же идеях не лупился, перебирал целые медиумы, много всего перепробовал, и игры, и аниме, и кино, и даже всякие феминизации. Но ответ так и не нашел, все 10 раз лупился(!).

Итоги/мысли такие:
- Из протестированных моделей только Гемма 26б bf16 дала корректный ответ. Персонаж не был определен верно, но и неверно тоже - ответ в духе "не знаю, вероятно, обскурный персонаж или ОС художника" валиден.
- У Эйши большие проблемы: ее никто не знает! Она будет в ярости. Но на самом деле, я протестировал эти модели на многих аниме 90-х, и почти никаких персонажей они не знают, только самых иконических. Интересно было именно так протестировать. Кстати, даже если спросить текстом про ту же Эйшу - модели ее не знают, т.е. это не проблема на уровне мультимодальности. Тут и Гемма 24б bf16 начинает галлюцинировать и сочинять.
- В отрыве от сценариев, когда данные модели не имеют нужных данных, они все довольно хорошо справляются. Мне трудно выделить любимцев, но я бы охарактеризовал их так: Гемма 26b bf16 и Q8 лучше всех видят мелкие детали; Гемма 31b Q4 похоже, знает больше (по крайней мере, в сравнении с 26 и Квеном 122); Qwen 122b Q8 хорошо видит мелкие детали, но если там что-то неприличное - будет увиливать; Step 3.7 Q4 видит почти так же хорошо, как Гемма 26b Q8, но при промптинге не увиливает и описывает все как есть. Из минусов - очень медленно работает процессинг. Всеми этими моделями я генерирую промпты для Анимы и в целом часто использую, например для написания карточек или поиска закономерностей в референсах. Все хороши.

Мысли на подумать:
- Q8 не такой уж и lossless в случае Геммы 4? Или вообще?
- Anima (вот это поворот) - это всего лишь 2b картиночная модель, и даже она знает Эйшу и многих других обскурных персонажей, которые не определились в моих тестах Квеном (в 61 раз больше) и Степом (пусть и Квантован до Q4, но в 100 раз больше). Мне кажется, в будущем появятся классные омнимодели (генерируют и текст, и изображения), которые благодаря своей мультимодальности и мультизадачности будут и знать гораздо больше. Не знаю, осуществимо ли это сейчас, но как будто имеет смысл попробовать.
- Если дочитали до конца - молодцы. Теперь вы знаете про Эйшу, в этом была моя единственная миссия, а все что выше - подводка для удержания внимания.

Аноним 11/06/26 Чтв 18:21:10 #472 №1629973

image

>>1629957
Первая гопота, вторая гемини. Очередное доказательство того, что старшая сестричка геммы такая же умничка :3

Аноним 11/06/26 Чтв 18:26:15 #473 №1629979

>>1629973
> Очередное доказательство того, что старшая сестричка геммы такая же умничка :3
Скорее доказательство, что люди которые сравнивают корпа с доступом в веб и инструментами с полностью локальной моделью не очень умны. Увы.

Аноним 11/06/26 Чтв 18:27:38 #474 №1629981

>>1629979
У чатагпт есть доступ к вебу, но это ему никак не помогло.

Аноним 11/06/26 Чтв 18:29:43 #475 №1629987

image.png

>>1629973
>>1629981

Таки со второй попытки угадала.

Аноним 11/06/26 Чтв 18:29:47 #476 №1629988

>>1625784 (OP)
Анон хелп, есть ли гайд как на локальной Qwen 3.6 / Qwen-coder-next / или другой ллм настроить MCP сервер для управление браузером пробовал связку
Ollama+codex+Qwen 3.6 + (mcp google-dev и firefox-dev)
https://github.com/ChromeDevTools/chrome-devtools-mcp
https://github.com/mozilla/firefox-devtools-mcp

На платном codex сук работало правда там их llm были а квен в упор не может их дернуть просто ломается на вызове

• chrome-devtools • Auth: Unsupported • Tools: click, close_page, drag, emulate, evaluate_script, fill, fill_form, performance_analyze_insight, performance_start_trace, performance_stop_trace, press_key, resize_page, select_page, take_heapsnapshot, take_screenshot, take_snapshot, type_text, upload_file, wait_for

• codex_apps • Auth: Bearer token • Tools: (none)

• context7 • Auth: OAuth • Tools: query-docs, resolve-library-id

• firefox-devtools • Auth: Unsupported • Tools: accept_dialog, clear_console_messages, clear_snapshot, click_by_uid, close_page, dismiss_dialog, drag_by_uid_to_uid, fill_by_uid, fill_form_by_uid, get_firefox_info, get_firefox_output, get_network_request, hover_by_uid, install_extension, list_console_messages, list_network_requests, list_pages, navigate_history, navigate_page, new_page, resolve_uid_to_selector, restart_firefox, screenshot_by_uid, screenshot_page, select_page, set_viewport_size, take_snapshot, uninstall_extension, upload_file_by_uid

› Воспользуйся chrome-devtools, открой google.com и найди картинку кошки породы сфинкс. Не описывай действия а вызови инструмент.
• Понял, использую Node REPL для управления Chrome через встроенный плагин Browser Plugin:MCP-серверы chrome_devtools и node_repl в текущей среде не доступны — они возвращают «unsupported call». У меня работает только shell_command, поэтому я могу либо запустить Chrome через PowerShell, либо попробовать настроить эти MCP-серверы.
Какой вариант предпочтителен?

Аноним 11/06/26 Чтв 18:50:07 #477 №1630007

image

>>1629988
Я тут раньше саммари тредов пару раз постил, когда кобольд подключал к встроенному mcp функционалу. Нужен браузер и расширение с mcp в нем, в кобольде добавляешь сервером на пикрелейтед вкладке локальный адрес. Поскольку кобольд не агент, в нем все время надо было жать кнопку продолжить, что довольно неудобно. Но содержимое тредов все равно себе в контекст успешно утаскивал. В гугле тоже искать получалось.

Аноним 11/06/26 Чтв 18:53:58 #478 №1630012

>>1630007
у меня скорее пайплайн
написал код->код упал -> залез в браузер (в консольку посмотрел ошибки)

Аноним 11/06/26 Чтв 19:31:40 #479 №1630033

>>1629939
Ну это понятно, но речь именно о локалках, которые может запустить на своём пк простой человек с медианным доходом. Максимум возможного для такого случая - rtx 3090 в количестве 1 шт. На таком железе предел это локалки до 35b.

Аноним 11/06/26 Чтв 19:35:22 #480 №1630037

>>1630033
> rtx 3090
Добавь оперативки 128 гб и запускай мое вплоть до 400В.

Аноним 11/06/26 Чтв 19:35:53 #481 №1630038

image.png

>>1620333 →
>>1629847
Меня скрипт нахуй посылает.

Аноним 11/06/26 Чтв 19:37:54 #482 №1630039

>>1630033
До сих пор реально купить ддр4 128 и запускать огромное количество моделей, вплоть до 122b-a10b q8 и 256к контекста без квантования. 9т/с, но жить можно. Вы же не жалуетесь что не можете слетать в космос из своей мухосрани? Это тоже самое, пик тежнологий хули. Или терпи и плати за это дядям, или довольствуйся чем есть

Аноним 11/06/26 Чтв 19:38:28 #483 №1630040

>>1630033
>На таком железе предел это локалки до 35b.
При наличии 64 озу запускаются локалки ~100b в Q4 и ~200b в Q2. При 128гб запускается всё в плоть до жирного глэма в Q2. Прошлым летом оперативка буквально наразвес продавалась, кто успел - тот успел.

У вас что там в асиге, прокси перебанили? От скуки сюда лезете?

Аноним 11/06/26 Чтв 19:40:38 #484 №1630041

>>1630038
Удалил import requests 27 строку и всё заработало.

Аноним 11/06/26 Чтв 19:42:50 #485 №1630045

>>1630033
Тут уже каждый для себя устанавливает ограничения. Благо живем в такое время, что даже на 3090 можно запустить приличную модель, с которой можно много чего делать. Не только в рамках энтузиазма и гиковских развлечений как года 3 назад, а вполне для практических применений.
А далее для рп - можно большие моэ в выгрузкой в рам покрутить, если есть свободные средства - можно карточек докупить и много других возможностей.

Аноним 11/06/26 Чтв 19:48:08 #486 №1630050

>>1629924
Желаю тебе сидеть до конца жизни на больших и сильных мистрале, 4 ламе и новых коммандерах

Аноним 11/06/26 Чтв 19:52:19 #487 №1630052

Обронил говно. Вы не видели? Ах вот же оно >>1629924

Аноним 11/06/26 Чтв 19:52:43 #488 №1630053

>>1630050
> мистрале
Он хороший, почему бы не посидеть? Что 123, что 671.
> новых коммандерах
Тоже не так уж плох

Аноним 11/06/26 Чтв 20:43:32 #489 №1630075

>>1629957
>gemma-4-26B-A4B-it-Q8_0 в ризонинге ведет себя как bf16, но все 10 раз(!) ушла в бесконечный луп
>Q8 не такой уж и lossless в случае Геммы 4?
Вот это интересно. У меня восьмой квант также себя ведёт, лупится в ризонинге просто пиздец. Иногда не только на картинках. Стать чтоль бф16 шизом...

Аноним 11/06/26 Чтв 20:48:56 #490 №1630077

>>1629362
Эксперты все будут в оперативе, а не в видяхе, по умолчанию.
В видяху эксперты в принципе динамически не подгружаются.
Дело в том, что есть модель-роутер и общие слои, которые задействованы вообще всегда. И вот они ускоряются видяхой. А эксперты с оперативы работают.
В среднем треть на видяхе, и две трети с оперативы.
Т.о., у тебя 50% буста от оперативы получается (а учитывая, что роутер и общие слои можно квантануть слабее, чтобы точность была выше, на деле еще быстрее).
В итоге от 17 уже будет 25 и выше тпс с видяхой при такой же памяти и проце.
25 токенов в секунду — недурная скорость.
А если еще MTP подключить в случае квена или геммы… )))

>>1629366
> Нет, я не верю что ты можешь загрузить даже степ флеш в свой врам.
Если очень напрячься — смогу в низком кванте и на всех-всех видяхах, но идея хуйня, конечно.
Так что, да, живем на выгрузке в оперативу. =(
Но вдруг тут кто-то богатый на врам! Пусть знает, что есть такое. =)

>>1629583
Бля, ну ван, кстати, не то чтобы мое, там всего два эксперта, и работают оба по очереди. =) Без этого он бы работал ровно точно так же. Никто не мешает инференсить только хай или только лоу модель.
Это буквально 28B-A14B. У тебя первые шаги делает один эксперт, последние — другая. Первый WAN и был 14B моделью. На том же количестве шагов она генерила столько же.

Т.е., в моменте Wan2.2 это 14B активных параметров, но за всю генерацию активируются все 28B параметров.

Но при этом, никогда не слышал, чтобы Wan2.2 называли 28B моделью без упоминания 14 активных. Зато многие тюны прямо называются 14B моделями, потому что Квены сообразили, что нейминг хуйня получился. )))

Короче моешка без роутера с обязательной активацией всех весов, но в разное время, типа 28б, но на деле просто две модели по 14б подряд. ) Пример так себе.

>>1629729
Да хули мозги ебать 26б мое = 13б плотная, 31б плотная = 62б мое, 124б мое = х2, кайфы, умнее.
Я хз, всегда и на всем работает такое примерное, че тут думать еще.
Даже по бенчам сходится у геммы.

НО КАДА БУДЕТ ТА
ДЕРЖИ ДИФФУЗИЮ

>>1629735
На самом деле, 122б был хорош, просто он не имел ниши для применения у большинства.
Недостаточно хорош для сравнения с 397б, не сильно лучше 27б.
Так и тут, гемма 4-31б она уже неплоха по сравнению с 200б моделями. Ну дипсик на русском языке лучше пишет. Минорно.
Тут люди неиронично сидят на аире, хотя я очень не уверен, что аир лучше геммы 31б, и даже геммы 26б. Ну да, более разнообразный по знаниям, может быть.
Если выйдет гемма 124б, она может быть реально хороша по бенчам и в каких-то задачах (как и квен). Но в рп будет минорно лучше 31б. Не 500б-модель по качеству, и как бы зачем тогда.

Но фанаты найдутся, пересядут с аира (или не пересядут) и предпочтут такое.

В общем, экстраполяция говорит, что модель будет лучше, но нишу может не найти попросту. Слишком большой для 30 гигов и 4б активных, и недостаточно хорошая для 500б моделей.

>>1629788
30б модели на уровне топовых корпоративных полуторалетней давности. Если ты недоволен ими сейчас — то, по идее, не должен был пользоваться ими тогда.
Иначе тейк невалиден, ибо, очевидно, что большая модель в среднем лучше маленькой. Но ты же апеллируешь не столько к размеру, сколько к корпоративности. Ну вот, корпоративные тоже не огонь были. Росли они, растут и локалки. Юзали корпоративные тогда — юзают локалки для тех же целей и сейчас.
Область применения локалок у́же, но не нулевая.

Ну и 200б тоже можно запустить, просто скорость будет не такой хорошей. Но уже терпимой.

>>1629821
Да любого агента запусти и попроси его настроить всякие omnivoice (omnivoice.cpp оба проекта с серверами), gigaam / t-one, вижн блядь встроенный в модели уже почти во все, а все остальное там и так будет.
Типа, эту задачу не решают потому, что она просто стоит немного токенов.
Всем поебать, у всех уже локальные аи вайфу.

Ну накати Marinara Engine. Там есть почти все, кроме AST/STT. Ну допиши туда сам.
Я хз, чо угодно.

>>1629836
APEX при сопоставимом размере дает сопоставимые результаты, по крайней мере по моим тестам на квене, я и забил.
Но если в рп оно чуть лучше, то почему бы и нет.

Но опять же, вот эти вот тесты с минимальными отличиями ваншотами — это чисто рандом.

Нужно LLM-as-Judge и хотя бы по 10 проходов на каждую из хотя бы 5 сценариев/сюжетов.
Тогда будет какое-то подобие результата, и то очень неточно, к сожалению.

Помните, был такой, https://github.com/IlyaGusev/ping_pong_bench
Ну вот, я вам напомнил. Вперед.

>>1629924
Слишком жирно.

>>1629929
Вот тоже ощущение, что gemma 4 26b выебет все 100b+ старые денс-модели.
Между прочим, дипсик 1,6Т!!! =) Локалка!
Да и степ-3.7-флэш на 197B очень быстрая (с мтп) и при этом больше 175б чатгпт.
Короче, цифрами смешно мерять, в прямом смысле слова «смешно». =) Можно всякое намерять.

4096 контекста у GPT-3.5, ПОМНИТЕ? =D
8K КОНТЕКСТА ПРОРЫВ ИМБА МИСТРАЛЬКА 0.1!!1
YARN!!! x4!!1

>>1629957
> Q8 не такой уж и lossless в случае Геммы 4? Или вообще?
Вообще. Q8 в узком круге задач заметно всирает fp16 оригу.
Просто этот круг задач достаточно узок, чтобы забить хуй в большинстве случаев.
Но ты должен понимать, что самые малоизвестные (маловесовые) знания попросту отрежутся, поимев 0 вес. Это будет вес, на который не указывает ни один вектор. =)

>>1630037
К сожалению, сейчас только DDR3 можно человеку со средним доходом набрать, а DDR4 уже будет покупать по одной планке. =D

>>1630040
> жирного глэма
https://huggingface.co/sokann/GLM-5.1-GGUF-1.673bpw