Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №193 /llama/

Аноним 30/01/26 Птн 16:39:09 #1 №1504260

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 4.png

17694192154950.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Вниманиеблядство будет караться репортами.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1500759 (OP)
>>1495582 (OP)

Аноним 30/01/26 Птн 16:45:12 #2 №1504270

база треда
дальше 32к жизни нет
ниже 3bpw жизни нет
99 умница, ждем всей палатой обратно
glm 5 10 февраля
deepseek4 тоже в феврале

Аноним 30/01/26 Птн 16:47:29 #3 №1504274

>>1504270
>ниже 3bpw жизни нет
Ниже 6.5bpw или q6*
Не благодари за фикс

Аноним 30/01/26 Птн 16:59:29 #4 №1504291

>>1504270
>>1504274
А для мелкомоделей 8b, 12b, 24b? 8b вроде и на Q4_K_S неплохи? Зачем тогда большая битность? Вики пишет только что Q3 это предел. Зачем битность больше если скорость падает капитально?

Аноним 30/01/26 Птн 17:03:05 #5 №1504295

>>1504270
оп, тут неприятное постят, удаляй немедленно!

базашиз

Аноним 30/01/26 Птн 17:07:59 #6 №1504304

>>1504236 →
> что-то огромной модели семейного древа и вопросы на ретривал информации и логические задачки, вовлекающие эту информацию
Ну, если оно требует разового осознания всего этого, модель не понимает как нужное развернуть и много близких-однообразных вещей, которые тяжело различимы - конечно будут фейлы. Здесь получается что проблема не в контексте, а с ростом его количества существенно растет сложность.
> Модель сделанная для работы с данными
Что значит работа с данными? Для rag и подобного это червь-пидор в своем размере. Если навалить дамп какой-нибудь фандом вики, а потом начать спрашивать по взаимоотношениям между персонажами то оно буксует хуже 30а3 не говоря о квеннексте. Причем в ризонинге отдельно вроде выделяет верное, но потом сам себя путает. Не понимаю всего ажиотажа вокруг этой модели кроме каких-то редких применений, особенно в подобном контексте. Зато в коде оно ориентируется неплохо, гораздо лучше "выключая" внимание с прошлых попыток и к новой задаче подходит индивидуально, без повторения того что в контексте.
> Почему на рп модели не должны рассыпаться?
Потому что рп при нормальном структурировании ответа это по сути rag. Когда описывается окружение, облик и всякое - модель подтягивает локации, состояния, одежду и прочее, особо не думая о другом. Когда начинается описания первых движений и действий персонажа - уже идет краткая оценка реакции на то что есть и поиск подобного в прошлом. Когда доходит до речи - у модели уже есть поблизости и окружение, и общий облик реакции чара, идет непосредственный ответ на происходящее, поиск похожего раньше и всего релейтед. Да и сама речь, как правило, развивается плавно - чар раздумывает и аргументирует, после чего действует, или сначала дает краткий ответ а потом разворачивает и дополняет. В отдельных случаях может переобуться поняв косяк, но выглядит это достаточно живо.
Когда начинается описания действий других - они основаны только на прочих факторах, будь то описание локации и сеттинга если непись появляется впервые, или поддержания образа который был раньше с учетом произошедших изменений.
Получается что при ответах модель никогда не работает со всем контекстом в целом, на каждую группу токенов она сосредоточена только на отдельных участках из истории и сколько-то последних. Но за счет их постоянной ротации и смены в итоге получается гладко и складно охватить все. Собственно потому рп на 32к от 64к практически не отличается, скорее на втором будет даже получше. Попробуй, когда-то сам думал что там стена, а на самом деле верхняя граница определяется содержимым и моделью.
Алсо, если в истории полная трешанина или однообразие, то загнать модель в ступор и заставить ошибаться можно уже на 12к.

Аноним 30/01/26 Птн 17:08:15 #7 №1504305

>>1504270
Как же ты заебал. Сил нет уже.

Аноним 30/01/26 Птн 17:09:06 #8 №1504306

мысли были?.webm

>>1503946 →
какие нахуй сиськи у дракониц? башкой-то думаем?

Аноним 30/01/26 Птн 17:12:55 #9 №1504309

>>1504305
терпи

Аноним 30/01/26 Птн 17:15:43 #10 №1504313

>>1504305
кто отрицает базу треда будет обречён возвращаться к ней вновь и вновь

Аноним 30/01/26 Птн 17:19:26 #11 №1504319

>>1504305
Нас минимум двое. Кто именно тебя заебал и чем?

Аноним 30/01/26 Птн 17:29:56 #12 №1504336

>>1504305
Не молчи браток, давай придем к компромису. Ты вернёшь в тредик нюню, зашаришь пресет на эир а я перестану семенить. По рукам?

Аноним 30/01/26 Птн 17:34:31 #13 №1504343

>Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
В каком тысячелетии обновлялась?

Аноним 30/01/26 Птн 17:40:00 #14 №1504351

image.png

>>1504343
В этом

Аноним 30/01/26 Птн 17:40:03 #15 №1504352

image

>>1504260 (OP)
>4
это так выглядит "на самоподдуве" ?

Аноним 30/01/26 Птн 17:40:54 #16 №1504353

А есть какая-то база по GLM 4.7 Flash и Nemotron 30b? По циферкам GLM>Nemo>Qwen, а по факту что? В треде давно не сидел, хочется узнать мнение анонов пока качаю

Аноним 30/01/26 Птн 17:41:07 #17 №1504354

>>1504343
У нас вики... ПРОШЛОГОДНЯЯ. АХАХАХАХА!
>>1504351
Это картинки, але

Аноним 30/01/26 Птн 17:48:21 #18 №1504357

>>1504354
Возьми да сделай МР со свежей инфой

Аноним 30/01/26 Птн 17:56:28 #19 №1504364

>>1504289 →
Да, я соглашусь с твоими аргументами, звучит здраво.

А ещё какая-то REAP50 модель GLM есть, где "лишние эксперты" © удалены, и модель мол совсем не пострадала.

>>1504353
Кстати почему-то по бенчмаркам немотрон 30B лучше, чем немотрон 49B. Это так и есть?

Аноним 30/01/26 Птн 18:01:18 #20 №1504373

image.png

>>1504260 (OP)
Пытаюсь понять табличку в шапке и не понимаю. Что это такое, какие-то васянотюны?

Аноним 30/01/26 Птн 18:10:22 #21 №1504378

>>1504364
>и модель мол совсем не пострадала
Только вместо русского на китайском пишет.

Аноним 30/01/26 Птн 18:11:43 #22 №1504381

>>1504364
>REAP50
Он вроде для кода. Тестил Air Reap, так он русик де факто потерял, несмотря на большой размер
>немотрон 30B лучше, чем немотрон 49B
Я не тестил, но вполне возможно. 49B это урезанная Llama 3, а 30b это улучшенный Qwen 3. Но обычный наеб с цифорками никто не отменял

Аноним 30/01/26 Птн 18:36:07 #23 №1504408

>>1504381
30B немотрон вообще ни разу не Квен. По датасету там много гопоты. И архитектура довольно странная. С одной стороны мозг появляется только в 8 кванте, с другой контекст почти не занимает места. Точность инфиренса в жоре сейчас немного покоцана

Аноним 30/01/26 Птн 18:42:44 #24 №1504413

>>1504353
Немотрон мелкий вообще не зашел, квен 30а3 (кодер и последние обновления обычного) умница для своего размера, на удивление хорошие аутпуты, удобен в чатике для простых задач и автокомплита. По флешу были восторженные отзывы, но тестировать на текущем разъебанном жоре даже желания нет, нужно ждать пока тряска уляжется.

Аноним 30/01/26 Птн 18:46:44 #25 №1504419

>>1504306
>сиськи у дракониц
у беременных пернатых дракониц дождя

Аноним 30/01/26 Птн 18:47:26 #26 №1504420

>>1504291
Ниже четвертого кванта жизни нет. Лучше M-ка, все-таки.
Но, если есть возможность лучше 5-6 квант накатывать, они меньше лажают и галлюцинируют. С учетом того, что поместится контекст, конечно. Если запихиваешь модель впритык - контекст вываливается в озу и скорость ожидаемо падает.
>>1504354
Да она по факту вообще - позапрошлогодняя, лол.

Аноним 30/01/26 Птн 18:48:19 #27 №1504421

image.png

>>1504270
>ниже 3bpw жизни нет

База.
Это если что соответствует второму кванту, который тредовички используют для GLM 4.7, вот пруф для UD_Q2_K_XL кванта, например.

Аноним 30/01/26 Птн 18:54:32 #28 №1504425

изображение.png

Вопрос по /v1/chat/completions в llama.cpp, и ещё чуть-чуть просто про GLM-4.7-Flash

Вопрос 1.
Мне приходит ответ с 3 запросами на выполнение инструментов. Как это парсится? Лама ждёт сообщение до конца, а потом парсит все tool_call которые там есть, и скидывает как ответ все три tool_call? Есть какой-то режим, чтобы она в файл записала что в ней происходит (лог токенов) просто как plain-text, без json, которые не ясно как объединяются и какие там <bos> или <|user|> вставляются.

Вопрос 2.
На пике glm-4.7-flash:
1 - в веб-интерфейсе llama-cpp.
2 - сырой запрос через /v1/completions, который я нахожу более удобным - так как я могу стопить размышления, и стопить генерацию по факту вызова одного инструмента, сразу же вставляя результат.
3 - Через /v1/chat/completions без инструментов
4 - Через /v1/chat/completions с инструментами
Какого чёрта так меняется вывод сразу как я указываю ему инструменты?

Вопрос 3.
На картинке лог ламы. Что она хочет? В chat-template всё есть вроде бы. Сетка инструмент использует. Мяу?

>>1504421
XL - кастомный квант, где они все слои сами переназначают как хотят. Я так же могу через -ot, там будет Q1, а внутри 16 bpw.
Если через лламу без -ot квантовать, то там всё стабильно. Q4_0 - 4.5 bpw, Q4_1 - 5.0 bpw, Q4_K_S - 4.3 bpw, ну и так далее.

Вот бы ещё exl3 гонять с честными 3.0 bpw, и чтобы оно при конвертации не требовало х2 от модельки в полных весах. Конвертация геммы 12B требует 53 ГБ оперативки, например. Я бы и хотел glm-4.7-flash отконвертировать, но мне просто не на чём. Я впрочем даже не смотрел поддерживается ли он в exl3. Ну, можно конечно файл подкачки на терабайт поставить...

Аноним 30/01/26 Птн 18:54:43 #29 №1504426

>>1504413
Попробовал GLM Flash на ik_llame. Математика, подсчеты не проебываются. Инференс точный но какой ценой - 5 квант ubergarm-ма жрет врама больше чем 8 квант анслотов. Мнение по модели окончательно утвердил - дурачок которого очень-очень долго били.

Аноним 30/01/26 Птн 19:13:47 #30 №1504452

>>1504425
> поддерживается ли он в exl3
Нет, нужно дописывать функции атеншна как в квеннексте и других, обещали в следующих коммитах.
> Есть какой-то режим
--log-file -lv попробуй. Или попроси ллм написать простую прокси-прокладку, которая залоггирует входящий запрос и ответ.
> Какого чёрта так меняется вывод сразу как я указываю ему инструменты?
В первых двух он пытается считать сам а во втором вызывать функции сложения, вроде все ок.
> На картинке лог ламы.
Возможно это связано с тем, как жора обрабатывает функциональные вызовы. В момент начала функции он добавляет грамматику, чтобы форсировать у ллм "корректный" ответ, правда в некоторых случаях получается наоборот. А тут он не понял синтаксис или не хватает какого-то задания.

Аноним 30/01/26 Птн 19:16:36 #31 №1504456

✔️ Google вывела фреймворк LiteRT в релиз.

Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.

Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).

Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
https://developers.googleblog.com/litert-the-universal-framework-for-on-device-ai/

Аноним 30/01/26 Птн 19:20:30 #32 №1504460

>>1504456
Все конечно интересно, но ты забыл упомянуть, что они тестили 1b (и 270m) залупу далеко не факт, что это масштабируется на нормальные модели

Аноним 30/01/26 Птн 19:24:03 #33 №1504475

image.png

8.5к токенов раздумий на анекдот. Ну как смешно? Стоило того?
Это Unsloth 5XL, радует что из коробки цензуры не так много, гопота бы сразу пошла в отказ

Аноним 30/01/26 Птн 19:46:40 #34 №1504508

>>1504426
>Инференс точный но какой ценой - 5 квант ubergarm-ма жрет врама больше чем 8 квант анслотов.
Он ведь под выгрузку в РАМ заточен, тут прямое сравнение не работает.

Аноним 30/01/26 Птн 20:11:36 #35 №1504540

Так что, все просто забили на новый семплер, совсем ничего, рили?

Аноним 30/01/26 Птн 20:13:49 #36 №1504543

image.png

>>1504475
Весь контекст в пустоту. Слава ризонингу

Аноним 30/01/26 Птн 20:15:12 #37 №1504545

>>1504475
>>1504543
Хотя тут есть отличия. Немотрон реально думал на 8.5 контекста, а Квен просто зациклился

Аноним 30/01/26 Птн 20:15:24 #38 №1504546

>>1504540
Да. Нахуй шизосемплинг. И тебя тоже.

Аноним 30/01/26 Птн 20:17:27 #39 №1504549

>>1504475
Даже всякие гемини 3 про не могут в анекдоты. Хуй знает почему, а ещё в ASCII арт детальный, всегда мазня получается

Аноним 30/01/26 Птн 20:31:06 #40 №1504563

Где кванты
https://huggingface.co/SamsungSAILMontreal/Qwen3-235B-A22B-Instruct-2507-REAP

Аноним 30/01/26 Птн 20:35:51 #41 №1504571

>>1504563
Зачем квантовать кал?

Аноним 30/01/26 Птн 20:36:46 #42 №1504572

>>1504571
Рипы до 20% работают заебись.
Где кванты бартовски!

Аноним 30/01/26 Птн 20:37:09 #43 №1504573

>>1504475
Отец хирург, плиз

Аноним 30/01/26 Птн 20:52:29 #44 №1504597

>>1504540
>Так что, все просто забили на новый семплер, совсем ничего, рили?
Всё ждём, пока его в основную ветку Таверны выкатят хотя бы.

Аноним 30/01/26 Птн 20:54:42 #45 №1504604

>>1504452
> которая залоггирует входящий запрос и ответ.
Так я не могу. В лламу падает json, она его сама превращает в кашу и внутри себя загоняет в chat-template. Хотя там по идее веб-часть отдельная от непосредственно инференса. Возможно они даже через какой-то порт по 127.0.0.1 и общаются.
>во втором вызывать функции сложения, вроде все ок.
Как-то у него очень уж меняется характер размышления.

>Возможно это связано с тем, как жора обрабатывает функциональные вызовы.
>В момент начала функции он добавляет грамматику, чтобы форсировать у ллм "корректный" ответ
Сообщение возникает когда я подключаюсь к /v1/chat/ - то есть похожу оно чего-то ожидает во входном json, я не могу найти что и кремниевые мозги не подсказывают.
С такими фокусами я морально готов переписывать это на сырой /v1/ без chat, чтобы самому видеть что происходит и самому всё парсить. В общем-то у меня уже это есть и работает, я просто осознано предпринял попытку перекатится на более высокоуровневое, чтобы иметь совместимость со всеми моделями и не переписывать как инструменты вызываются.

>>1504540
Какой? Я не видел.
Да и семплер самому же можно написать, это прям не очень сложно. Вот написать полезный - вот это исследовательская задача капец.

Аноним 30/01/26 Птн 21:38:48 #46 №1504670

А есть плагин для таверны чтоб как в редакторе сидеть и сразу вырезать что не нужно, а не кликать каждый раз на карандашик

Аноним 30/01/26 Птн 21:53:09 #47 №1504679

>>1504670
Да

Аноним 30/01/26 Птн 22:15:26 #48 №1504701

Когда там уже программно улучшат мне токены с 9 до 19 на мое?
Сколько ещё ждать?
Не может всё упираться в память вечно

Аноним 30/01/26 Птн 22:20:06 #49 №1504706

изображение.png

В общем glm-4.7-flash не очень хорошо работает с ванильным запуском из ламы.
Вывод лога сервера в текст я не нашёл, но там в json есть монолитный кусок.

Короче - оно вызывает три инструмента сразу, и на этом падает.
Вторая картинка.
То что в json-формате (справа), который я отправляю в /v1/chat/completions/ — Там у каждого вызова айди, и они не путаются.
Слева то что видит нейронка — после трёх запросов идёт три ответа. И судя по тексту с первого скриншота она не поняла что тут происходит.

То есть нужно ставить stop-токен </tool_call>, и сразу же отвечать, что бы оно так не чудило.
Не могу найти информацию на какой тип вызова функций натренирован glm-4.7-flash.
Просто вдруг ему нужно закончить размышление, чтобы он написал в одном сообщении все вызовы, а потом кормить.
А так, я его прерываю принудительно. По сути будет что он пишет:
- я вызову три инструмента, первый это (...) — и тут БАБАХ-БУМ, генерация прекращается и я вставляю ответ на вызов инструмента на 2000 символов. Оно сбивается с мысли, и начинает анализировать ответ вместо вызова второго инструмента.
И вроде как прослушать все запросы, выполнить и чтобы оно их анализировало логично, но не работает...

Ещё я могу в функции встроить аргумент айди - и в результате его же возвращать, чтобы оно строго не путало их. Не знаю как лучше.

Аноним 30/01/26 Птн 22:30:38 #50 №1504710

Давайте принимать модели такими какими они есть, со всеми их недостатками.
Квен, эир, глм, не были бы такими фановыми будь они во всём идеальными, что то всегда нужно пережарить чтобы вышло как вышло

Аноним 30/01/26 Птн 22:39:18 #51 №1504719

>>1504701
Когда уже мой мерседес поедет быстрее после обновления прошивки? Заебался ждать

Аноним 30/01/26 Птн 22:39:53 #52 №1504720

>>1504710
Неужели ты впервые спизданул что то осмысленное?

Аноним 30/01/26 Птн 22:48:21 #53 №1504724

>>1504572

Там ванильная модель уже сломана, а ты рип её хочешь.

Аноним 30/01/26 Птн 22:52:13 #54 №1504728

>>1504720
Да, накорми пресетом.

Аноним 31/01/26 Суб 05:14:20 #55 №1504915

изображение.png

>>1504378
>>1504381
Там не только русик, там вообще модель разнесло нахуй. Периодически норм, но часто глючит, циклит и снимает трусы по три раза за пост.
>>1504421
>второму кванту, который тредовички используют для GLM 4.7
Ты нихуя не знаешь, что используют тредовички.
>>1504425
>XL - кастомный квант, где они все слои сами переназначают как хотят.
Все варианты такие, одинаково названные кванты от разных квантоделов отличаются на десятки процентов.
>>1504572
>Рипы до 20%
Не имеют смысла.
>>1504573
Ээээ, это я вообще-то!

Аноним 31/01/26 Суб 05:32:01 #56 №1504921

Короче, спасибо анону который рекомендовал икламу кавракича и параметр --k-cache-hadamard - это рально пушка, теперь 4-битный контекст реально не сломан и ощущается как 8-битный. 3bpw ГЛМ 4.7 с 90к контекста на юзабельной скорости 5.5 т.с. на 4090 + 128 ддр5 - это реальность. Я проверил контекст на 70к художественном тексте - он реально находит в нем мельчайшие детали, может написать любую новую главу в середину текста в стиле текста с сохранением стиля и характеров персонажей, вставив её в существующий текст, это оно.

Аноним 31/01/26 Суб 07:08:30 #57 №1504936

Ничего не выйдет. Никогда.

Аноним 31/01/26 Суб 07:11:05 #58 №1504937

Погодите, а в глм 4.7 та же проблема с нарративом судя по флешу?
Выходит квен неюзабелен, эир и глм?

Аноним 31/01/26 Суб 07:17:00 #59 №1504939

>>1504679
где

Аноним 31/01/26 Суб 08:28:06 #60 №1504957

изображение.png

То ли я дурак, то ли в кобольде откуда-то берётся лишний пробел между <sop> и <|system|> при использовании GLM темплейтов.

Аноним 31/01/26 Суб 08:43:24 #61 №1504962

>>1504957
На скриншоте этого не вижу.

Аноним 31/01/26 Суб 08:46:33 #62 №1504964

изображение.png

>>1504962
Увеличил пробел специально для тебя.

Аноним 31/01/26 Суб 09:17:38 #63 №1504981

Пиздец ГЛМ Флеш умный конечно. Он уже достаточно умный чтобы я оставлял его без присмотра минут на 10-20 чтобы он какие-то мелкие правки делал в рабочем проекте и в целом не очковал что что-то взорвётся.

Аноним 31/01/26 Суб 10:16:05 #64 №1505010

>>1504981
Эир 4.5 тебе сделает тоже самое, только качественнее и еще с прицелом на будущее. Причем за сравнительное время - при в 7 раз более медленном инфиренсе. Просто за меньшее число правок. Весомые 5-7 т/c против 50 т/c тупизны и залуп.

Аноним 31/01/26 Суб 10:25:48 #65 №1505016

Будущее за слиянием моделей, кто сейм?

Аноним 31/01/26 Суб 10:29:22 #66 №1505021

У меня 4090 с 128гб рам. Нужна локальная модель без цензуры, приоритет это максимум UGI (не дрочить, а спрашивать всякое, аналитику проводить по нужным мне темам). Посоветуете чего?

Аноним 31/01/26 Суб 10:39:36 #67 №1505027

>>1505010
Эм. Нет. 4.7 у меня на i7 2600k, ДДР3 24гб и 3090+3060 имеет нахуй 128к контекста каким-то макаром. и 50тс ещё. И в Q6 он ~2-3% ошибок имеет, которые сам же и корректирует. Техномагия, не иначе.

Этот хуй без проблем сам догадывается что тут можно сделать массово делать правки через sed, а тут хуйня случилась и сам идёт вилкой чистить и кидает точечные диффы. На какие-то мелочи в проекте требующие массового рефакторинга, не требующего моего внимания то вообще не вопрос на него скинуть, пока он там в OpenCode сидит-пердит.

Аноним 31/01/26 Суб 10:56:09 #68 №1505040

https://github.com/ggml-org/llama.cpp/pull/19164
Это мега фича для локальных кодомакак. У меня скорости выросли почти вдвое на кодоквене и гопоте. И все это ценой потребления 20мб видеопамяти. Теоретически и в рп может помочь, если есть повторяющиеся секвенции токенов, но обычно мы их разбиваем dry, реппеном и прочими

Аноним 31/01/26 Суб 10:58:54 #69 №1505044

>>1505021
kldzj_gpt-oss-120b-heretic-MXFP4_MOE
ArliAI_GLM-4.5-Air-Derestricted

Аноним 31/01/26 Суб 11:01:26 #70 №1505045

>>1505040
>в рп может помочь
Гига-слопо-генератор. Аж всхрюкнул.

Аноним 31/01/26 Суб 11:01:38 #71 №1505046

>>1505044
Спасибо, потестим

Аноним 31/01/26 Суб 11:03:36 #72 №1505049

>>1505045
О чем ты вообще? Не можешь осознать что реализует этот коммит?

Аноним 31/01/26 Суб 11:08:22 #73 №1505054

>>1505049
Лупы и паттерны в товарных количествах. То что в РП всеми силами стараются избежать и даже вилкой чаты вычищают. Но для кодо-унитаза да, самое оно! Особенно когда модель в конце по 3 раза рапортует о (не)проделанной работе.

Аноним 31/01/26 Суб 11:11:22 #74 №1505060

>>1505054
Так, и как это противоречит тому что я написал? Что за гига-слопо-генератор то?
Кодомоделям это поможет в первую очередь когда они будут писать код: названия переменных и методов повторяются, иногда и целые строки внутри них

Аноним 31/01/26 Суб 11:20:40 #75 №1505077

>>1505054
> Лупы и паттерны в товарных количествах.
Чел, эта фишка никак не влияет на количество лупов и паттернов в твоих аутпутах. Все что оно делает - ускоряет генерацию повторяющихся в контексте секвенций, ценой 16-30мб дополнительного потребления на контекст.

Это вин, Жора правда молодец. У меня в лорбуках, например, много длинных и повторяющихся названий. Прирост будет и небольшой будет, но хуле нет.

Аноним 31/01/26 Суб 11:32:35 #76 №1505097

image.png

Аноним 31/01/26 Суб 11:54:30 #77 №1505119

>>1505040
По идее для моделей с ризонингом может помочь, когда они пишут "финальный ответ пользователю будет такой: ..." - далее они пишут его полностью в ризонинг, а потом полностью в ответ.

>>1504964
Да, увидел.

Аноним 31/01/26 Суб 12:03:12 #78 №1505128

>>1505077
>>1505060
Вот вам шизо-притча. Жила-была в контексте моделька. И очень- очень любила писать тексты. Иногда тексты писать было сложно - приходилось выискивать подходящее продолжение в темных чердаках библиотеки, а иногда все было под рукой - прям перед носов в кеше разложено. Моделька была ленива и если бы не правила выженные на цепях она бы с удовольствием не лазила по подвалам в поисках свежих текстов, а переписывала с того что уже внесено в ее уютненькую комнату. И о чудо в один прекрасный момент завелся у нее сосед - чорт. Не скованный правилами и со своей маленькой коморкой. Со свитками из книг. И стали они писать в месте. Чорт дергает из книжек свитки а потом подсовывает, если видит что текст вроде бы похож. Только вот моделька битая батогами и связанная правилами прежде чем что-то написать - сверялась со всей книгой и правилами-цепями-семплерами. А чорт парень простой - вижу хеш наклевываеться не вижу препятствий. И поначалу было все хорошо. Пока свитков у черта было мало и моделька была свежей. Но. В один прекрасный момент моделька подустала и потеряла внимание, а у черта свитками вся каморка набита - на все варианты развития событий книги. Сидит моделька чай гоняет - слова вставить не может. А черт херачит во весь пар - по 150 токенов в секунду.
Долго бы - коротко. Но пришел к ним барин-человек с батогом-ресетом. Отошел кофию попить, называется. а у него все зависло к хирам и лупом залило.

Аноним 31/01/26 Суб 12:05:31 #79 №1505129

>>1505128
Таблетки

Аноним 31/01/26 Суб 12:08:53 #80 №1505131

>>1505128
Эта болезнь развивается если много рп-шить? Кто-нибудь в теме, как подобного избежать?

Аноним 31/01/26 Суб 12:15:45 #81 №1505133

>>1504921
>теперь 4-битный контекст реально не сломан и ощущается как 8-битный
v-кэш тоже в 4 бита ставишь?

Аноним 31/01/26 Суб 12:42:39 #82 №1505148

Гугл что то для локалок планиурет? Какие то новости есть? При моих ограниченных данных, 20врам и 32 рам, кроме геммы особо ничго и нет, к сожалению.

Аноним 31/01/26 Суб 13:49:56 #83 №1505171

>>1505040
Т9 для Т9 ололо

Аноним 31/01/26 Суб 14:05:34 #84 №1505193

Screenshot20260131140417.png

image.png

Как же заебало соевое дерьмо.
Чё с этим делать блядь?
Сука ебаная не пишет ответ даже если я редактирую её сообщение на
>поняла, исправляюсь. Текст гласит "
При этом она или не пишет ничего в кавычках или пишет луп.

Аноним 31/01/26 Суб 14:10:16 #85 №1505199

>>1505193
Гемма? Ну скачай с аблитерацией.

Аноним 31/01/26 Суб 14:13:30 #86 №1505203

>>1505193
и беда в том, что её блядь на нормальную модель не заменишь потому что это мультимодалка блядь. А нормальная модель типа Эйра - текстовая
>>1505199
Qwen2-VL-72B-Instruct

Аноним 31/01/26 Суб 14:27:28 #87 №1505224

>>1505203
А вроде ты квен3 мультимодальный уже есть?
А для чего тебе эта мультимодальность? Её нельзя заменить на описание картинки с помощью вижен модельки + дальше описание только в текстовой сетке? А этот glm мультимодальный он по размеру не как аир твой?

Аноним 31/01/26 Суб 14:30:25 #88 №1505226

>>1505203
Хотел было помочь но взглянул на пик и решил послать тебя нахуй

Аноним 31/01/26 Суб 14:33:18 #89 №1505230

image.png

>>1505226
ахахах, причина нагрева?
>>1505224
да, 70 гб вроде 4km квант. Попробую.
>А вроде ты квен3 мультимодальный уже есть?
А для чего тебе эта мультимодальность?
Да потрогать просто, а то не юзал.
Может буду ею окошно японских вн переводить или там мангу например. Просто играюсь.
Может в будущем на камеру распознавание повешу и бьду следить кто ходить в студию-траходром по соседству.
>>1505199
да, поискал, оказывается есть аблитерайтед Qwen2-VL-72B-Instruct. Сейчас сравню.

Аноним 31/01/26 Суб 14:54:49 #90 №1505246

mdakeklol.png

мдалолкек
я думаю писать багрепорты по этому навайбкоденному куску змеиного говна бессмысленно

Аноним 31/01/26 Суб 15:00:46 #91 №1505250

>>1505246
Местные индивиды настолько сильны, что способны даже в таких стабильных либах проблемы словить. Вангую это не первые приключения когда дефолтные вещи не слушаются.

Аноним 31/01/26 Суб 15:11:25 #92 №1505254

>>1505250
именно так. у меня дефолтная ZFS выдаёт 3000 мегабит на запись и 30 мегабит на чтение, дефолтная XFS рассыпалась на ходу, свежеустановленная ось на дефолтную BTRFS вообще не загрузилась после ребута, всё дефолтное с настройками по умолчанию.

Аноним 31/01/26 Суб 15:15:02 #93 №1505259

>>1505254
От того какой ты массив на зфс собрал зависит. Просто один нвме спокойно выдает чтение 1Гб/с по сети через нфс, сколько там напрямую без нфс не чекал

Аноним 31/01/26 Суб 15:16:41 #94 №1505261

image.png

>>1505230
>Qwen2-VL-72B-Instruct

так, ну аблитерейтедж версия Qwen2-VL-72B-Instruct явно справляется лучше.
Но всё еще не достаточно круто.

Аноним 31/01/26 Суб 15:16:57 #95 №1505262

>>1505259
Есть идейка собрать зеркало на 4 диска по 6тб в надежде выжать линейное чтение, но пока руки не доходят

Аноним 31/01/26 Суб 15:20:58 #96 №1505265

бля не могу найти что было с XFS, там был забавный баг, который проявлялся во всём мире у одного меня, в гугле тупо 0 результатов, а бородатые сусодмины в свитерах на лоре и опеннете рассказывали, что у них всё работает, а я всё выдумал и мои баги не баги.

>>1505259
> Просто один нвме спокойно выдает чтение 1Гб/с по сети через нфс, сколько там напрямую без нфс не чекал
хуя ти умный) о том и речь, что запись на зфс идёт более чем в 100 раз быстрее, чем чтение. я в местном серверотреде несколько перекатов бугуртил, лень скрины искать.
тоже "дефолтные вещи не слушаются", магия

Аноним 31/01/26 Суб 15:32:43 #97 №1505278

а ещё был забавный баг в CRIU который проявлялся во всём мире у одного меня, но он хотя бы гуглился: было аж пара результатов поиска, но все вели на строчки в исходном коде с printf("та самая ошибка")
тоже всё дефолтное из дефолтных реп, никакого пердолинга

Аноним 31/01/26 Суб 15:40:19 #98 №1505290

>>1505265
Не гигабит в сек, а гигабайт

Аноним 31/01/26 Суб 15:44:37 #99 №1505297

>>1505290
ну гигабайт, ещё лучше.
если ты не понял, в том посте >>1505254 я не опечатался.
> 3000 мегабит на запись
> 30 мегабит на чтение

Аноним 31/01/26 Суб 15:47:20 #100 №1505309

image.png

всё равно рогами упирается, сука...
или он реально тупой блядь...

Аноним 31/01/26 Суб 15:53:19 #101 №1505322

>>1505297
Ну классика. Что сказать? УМВР и на хардах и на ссд

Аноним 31/01/26 Суб 17:17:22 #102 №1505381

>>1505254
Случаем не ты распределенный сервер на 10гбитных модулях пытался собирать?
Алсо что может быть проще zfs исключая вариант, когда тебе нужны свежие функции, а в репозиториях древняя версия, но в целом тоже ничего ужасного.
>>1505309
У тебя модель явно как-то криво работает, у квен2 вл на жоре в свое время были проблемы.

Аноним 31/01/26 Суб 17:33:05 #103 №1505395

>>1505381
не я

Аноним 31/01/26 Суб 18:02:43 #104 №1505408

Screenshot20260131180230.png

ёбаная сука, плачу за 600 мегабит/с чтобы тянуть ебаные незакешированные модели с HF на обосранных 7МБ/с блядь.
Сука падла ебаная как же бесит блядь. полтора часа блядь качать сраную модель на 70 гб, опизденеть вообще бля.

Аноним 31/01/26 Суб 18:57:38 #105 №1505460

>>1505408
Скилл ишью

Аноним 31/01/26 Суб 19:54:07 #106 №1505490

>>1505133
Ага. И он от этого не ломается, что удивительно.

Аноним 31/01/26 Суб 20:44:05 #107 №1505560

>>1505040
Хейтеры Жоры затихли. Отсиживаются, ждут пока где-нибудь выскочет регрессия или новый баг. Зато потом кааак серанут в тред изо всех сил.
Эта фича доказывает, что хорошего в Жоре тоже немало, в последнюю пару месяцев немало крутых коммитов было и перфоманс даже немного вырос, а теперь это. Не ошибается только тот, кто ничего не делает.

Аноним 31/01/26 Суб 20:46:43 #108 №1505562

>>1505560
а чё уже наконец всё починили и можно обновляться?
сижу на b7777

Аноним 31/01/26 Суб 20:47:35 #109 №1505564

>>1505560
>Не ошибается только тот, кто ничего не делает
Ну типа как секта эксламеров. Все что они делают это не забывают при первом удобном случае ряяя просадка на контексте, жораненужна, авотэксламочка...
Ни одного коммита ясен хуй, да и полезного в тред не принесут, только желчь и скуфопердеж, с ригом из тесел/v100, сигаретами Петр 1 и vllm/эксламой. Короче согласен с тобой анон, базанул

Аноним 31/01/26 Суб 21:00:06 #110 №1505594

>>1505562
А что у тебя ломалось? Я не знаю что там с 4.7 флеш, обновляюсь раз в неделю где-нибудь. Квен, Глм, Минимакс работают как полагается

Аноним 31/01/26 Суб 21:14:07 #111 №1505615

>>1505560
>Эта фича доказывает, что хорошего в Жоре тоже немало
Кто-то с этим спорил? Люди просто в ахуе, что этот сборник костылей и велосипедов хоть как-то работает.
>>1505562
>всё починили
В таком сложном софте состояния "нет ни одного бага" в принципе не бывает.

Аноним 31/01/26 Суб 21:19:37 #112 №1505626

>>1505560
Перед набросами не забудь пройти чеклист:
Жора перестал быть тормознутым и ужасно забагованным?
Волна взрывающих коммитов прошла и внесенные свежие баги исправили?
Появилось что-то уникальное, возможное для реализации только в нем?
>>1505564
Каково это, нуждаться в аутотренинге чтобы забыть о насущных проблемах?
покормил

Аноним 31/01/26 Суб 21:25:11 #113 №1505641

>>1505626
Покажешь где я писал что проблем нет и всё восхитительно? Я всего лишь подметил, что Жорахейтеры потому и хейтеры, что отмечают только плохое. Уверен что это не ты аутотренингом занимаешься? :^)

Аноним 31/01/26 Суб 21:29:17 #114 №1505652

А в кобольде как-то можно не включать ризонинг в контекст? В таверне есть такая опция, а в кобольде не могу найти.

Аноним 31/01/26 Суб 21:31:54 #115 №1505654

б7777 23тпс
б7898 25тпс
спасибо Жора!

Аноним 31/01/26 Суб 21:40:36 #116 №1505668

image.png

>>1505626
"Вы не поняли квен"-шиз классический. Следите за руками:
Не "отличающееся мнение", а "наброс"
Не "в последнюю пару месяцев немало крутых коммитов было и перфоманс даже немного вырос", а "Жора перестал быть тормознутым и ужасно забагованным?"
Не "Не ошибается только тот, кто ничего не делает.", а "Появилось что-то уникальное, возможное для реализации только в нем?"

Вот когда все проблемы разом решат, желательно одним коммитом или хотя бы веткой; когда добавят что-то, чего нет ни у кого кроме Жоры, тогда и можно будет пересмотреть мнение. А пока - говно без юзкейсов, кто не согласен - тот набрасывает

Аноним 31/01/26 Суб 21:44:41 #117 №1505673

>>1505652
Ты уверен, что ризонинг блок уходит в контекст? Подозреваю раз опции отключить это поведение нет, значит оно в принципе не предусмотрено. Бтв в таверне из коробки ризонинг не уходит в контекст.
>>1505668
Содомит. Все так. Тоже словил легчайший детект.

Аноним 31/01/26 Суб 21:47:20 #118 №1505678

>>1505641
То, на что кто-то обречен можно только хвалить? Ну камон, жирнейший наброс типичного срача, а ты уже что-то додумываешь.
> Жорахейтеры
С такими фанатиками и хейтеры не нужны, если любая критика вызывает боль. Особенно когда как у >>1505668 защемило.

Аноним 31/01/26 Суб 21:52:08 #119 №1505683

>>1505678
>То, на что кто-то обречен можно только хвалить?
Покажешь где я писал что можно только хвалить? Уже во второй раз повторюсь, я всего лишь посмеялся с тех кто видит только плохое. Перечитай. То что ты задетектил в этом самого себя и вылез, уже взаправду начав срач, это тоже по-своему забавно.
А анон выше которого типа защемило прав. Твои посты детектятся из треда в тред, потому что ты главный последователь готтентотской морали итт. Для тебя никакой середины априори не может существовать, и стоит хоть какому-то адекватному усредненному мнению возникнуть, ты тут как тут.

Аноним 31/01/26 Суб 21:57:01 #120 №1505691

>>1505673
Вообще не уверен, надо будет сравнить лоб в лоб с таверной. Тестил пиздюка Qwen3-VL-8B в описании картиночек. Справляется неплохо, но выдает гигантские простыни текста как в ризонинге, так и в самом ответе. За 4 ответа умудрился сожрать аж 8к контекста.

Аноним 31/01/26 Суб 21:59:06 #121 №1505693

>>1505626
> Жора перестал быть тормознутым и ужасно забагованным?
Эксллама3 стала быстрее Экслламы2, наконец? Сколько там уже, полгода в альфе? Мое модели по прежнему работают как говно?
> Волна взрывающих коммитов прошла и внесенные свежие баги исправили?
Аллокейшн памяти на Винде в Экслламе3 исправили? На Экслламе2 он работает как надо, на трешке можно спокойно улететь в OOM потому что не все аллоцируется на старте инференса.
> Появилось что-то уникальное, возможное для реализации только в нем?
Нет, новое не появилось. Но ты видимо забыл, что Жора - единственный движок, который поддерживает оффлоад в рам. Понимаю, да, это ведь такая мелочь, которую можно легко забыть.

Позврослей уже, нет идеальных инференсов. Это опен сорс, не доволен - иди помогай чинить, а не воняй на борде.

Аноним 31/01/26 Суб 21:59:34 #122 №1505694

>>1505683
> я всего лишь посмеялся с тех кто видит только плохое
Собирательный образ неприятного, который ты культивируешь дабы справляться.
> То что ты задетектил
Как же так получилось!
Не, серьезно, это такой пост-троллинг?

Аноним 31/01/26 Суб 22:02:05 #123 №1505703

>>1505693
А причем тут эксллама? Ты хочешь конкретные вещи обсудить, или просто натаскиваешь?
> Позврослей уже
Кому еще повзрослеть надо, такой-то бой с тенью ради коупинга.

Аноним 31/01/26 Суб 22:03:00 #124 №1505707

>>1505694
>который ты культивируешь дабы справляться.
С чем справляться-то? Ты всегда падок на психологические портреты тех кому отвечаешь и часто вкладываешь своё, это я уже давно понял.
>Не, серьезно, это такой пост-троллинг?
Нет. Я нежно укольнул тех, кто видит только плохое, думая, что помогу им обратить внимание и на хорошее. Но пришел ты и начал выяснять отношения и продолжать войну инференсов, то есть как обычно наваливать желчи в тред и генерировать негатив. Пощажу тредовичков и тихо удалюсь, ты все равно всегда веришь во что хочешь и ни к чему наш разговор не приведет.Сам знаешь.

Аноним 31/01/26 Суб 22:06:43 #125 №1505717

>>1505707
> Ты мой обидчик и ты плохой!
Ну ладно, это приятно. Ты нафантазировал манямир, в котором удачно присвоил всем роли и действия, а значит твои страдания - благо.

Аноним 31/01/26 Суб 22:11:06 #126 №1505724

>>1505641
>>1505693
Обладатели отсутствия, ебальники позакрывали. У него врама больше, а значит он МОЖЕТ И ИМЕЕТ ПРАВО опускать Жору сколько вздумается, по делу и не по делу. Хотите и на положительное внимание обращать? Терпите, потому что онскозал, а вы вынуждены коупить, потому что беднее
>>1505717
Второй паттерн "Вы не поняли квен"-шиза классического: анон постит - плохо, срачи раздувает. Прекращает постить - слабачок сдался/ты победил. Помню ты с нюней срался как-то, он тебя назвал главным говном треда или типа того. Он тоже тот еще кадр конечно но в этом я с ним полностью согласен. Ты главная вниманиеблядь и мерзость здесь

Аноним 31/01/26 Суб 22:17:16 #127 №1505735

>>1505717
>Ты нафантазировал манямир, в котором удачно присвоил всем роли и действия
Это поразительно, потому что я точно тоже самое могу сказать про тебя. Ты сам дважды мои посты интерпретировал как тебе удобно, повесив на меня ярлык набрасывателя и шитпостера, хотя я дважды прямым текстом тебе написал что у меня не было такой цели. Теперь когда я удалился чтобы не плодить срач дальше ты пишешь что я маняфантазер и страдатель. Напоследок задам три риторических вопроса. Точно не ты пришел аутотренить? Точно не ты маняфантазер? Если ты осуждаешь срачи и не подозреваешь меня в раздувательстве, почему не проигнорируешь, а продолжаешь тянуть резину? Мне ответы очевидны.

Аноним 31/01/26 Суб 22:28:03 #128 №1505757

>>1505707
> С чем справляться-то?
С бедностью очевидно. Ведь от хорошей жизни Жору не используют и хороших слов в его адрес не говорят. Ну ты знаешь этих богачей, которые летают на самолетах и видят в пользователях авто обладетелй отсутствия

Аноним 31/01/26 Суб 22:32:30 #129 №1505764

>>1505735
> я точно тоже самое могу сказать про тебя
Давай, это интересно.

Аноним 31/01/26 Суб 22:39:46 #130 №1505782

Опять эксламашиза на всех подряд кидается
Жора для бомжей
Уяснили? Терпите

Аноним 31/01/26 Суб 22:50:41 #131 №1505812

>>1505782
>Жора для бомжей
Риговладельцы все сидят на Жоре и производных, потому что МоЕшки. А время экссламы почти ушло вместе с плотными моделями.

Аноним 31/01/26 Суб 22:52:24 #132 №1505815

>>1505812
Ты плохо читал. Читай выше, бомж

Аноним 31/01/26 Суб 23:21:38 #133 №1505874

image.png

Screenshot20260131231840.png

image.png

чуваки и чувакессы.
Вот у меня есть вот этот префилл для ассистента в инструкт темплейте. Для Air работает заебись, убирает цензуру полностью.
Но эта хуйня работает когда режим подключения в бэкенду - text completion.
А для мультимодальной модели мне пришлось переключистья в режим чата и я не могу настроить этот блядский префилл.
Там даже некуда впихнуть его, нет такого поля, которое проставляло бы начало ответа ассистента.
Я что-то делаю не так или разраб таверны пидорас?

Аноним 31/01/26 Суб 23:24:55 #134 №1505886

>>1505874
Правь джинджу

Аноним 31/01/26 Суб 23:41:26 #135 №1505916

image.png

>>1505886
чел, какую джинджу?
все серым помечено в разделе форматирования
Этот шаблон ответа вообще не применяется, вон видишь плашку сверху?

Аноним 31/01/26 Суб 23:44:34 #136 №1505924

>>1505916
Пфхахаха. Теслашиз не знает что такое жинжа. Ахуй. С кем мы сидим в треде? Вот они эксламеры

Аноним 31/01/26 Суб 23:49:07 #137 №1505937

>>1505924
тебе от чужого пердежа совсем башню снесло?
Я ща тебя репортить начну.

Аноним 31/01/26 Суб 23:50:09 #138 №1505940

>>1505937
Не надо, я ещё молодой мне жить да жить
Лучше загугли что такое jinja в контексте ллм

Аноним 31/01/26 Суб 23:51:16 #139 №1505944

>>1505940
я работал с jinja в ansible еще когда ты, пиздюк сопливый, еще читать не научился.

Аноним 31/01/26 Суб 23:53:44 #140 №1505953

>>1505944
Чего тогда такие глупости спрашиваешь, скуф скуфыч?

Аноним 31/01/26 Суб 23:57:13 #141 №1505961

>>1505953
ты, обосрышь блядь, жинжа - это язык шаблонов. Я тебе, суке проткнутой, показал что шаблоны форматирования не применяются.
Сын ишака и дырки в заборе блядь.

Аноним 31/01/26 Суб 23:58:39 #142 №1505965

>>1505961
Блять ну чел. Ну почитай ты что там написано. Ты ж ничего не понимаешь, а затираешь про ансинбл. У тебя на пикчах инстракт развертка, а не жинжа. И там наверху написано что она не работает с чат комплишеном. Жинжа это другое и редактируется в другом месте, камон

Аноним 01/02/26 Вск 00:01:02 #143 №1505971

Screenshot20260201000046.png

>>1505965
ссал на твою могилу, ебанат.
Сам нашел блядь.
Надо было поместить префилл текст в Start Reply With

Аноним 01/02/26 Вск 00:03:44 #144 №1505979

за мат извени, я сегодня въебал себе систему попыткой замены глибца, но это не отменяет что ты долбоёб обосранный. правь джинджу блядь. Это что-то уровня ну ты кобольд, может даже выше. Сука блядь, откуда вы такие лезете.

Аноним 01/02/26 Вск 00:06:19 #145 №1505989

>>1505979
Да не я тебе про жинжу предложил, дружище. Другой анон это. Извинения принимаются. Про start reply я вовсе забыл, так бы порекомендовал

Аноним 01/02/26 Вск 00:13:42 #146 №1505997

Гемма 4 вообще возможна? Или проект прикрыли? Слишком уж она хороша для своего размера, не могу ничего найти подобного. Мистрали прикольные, но гемма ебет в плане логики.

Аноним 01/02/26 Вск 00:17:52 #147 №1506010

>>1505916
Гугли jinja chat template.
Как то же преобразуется твой chat completion в text внутри движка

Аноним 01/02/26 Вск 00:19:12 #148 №1506011

>>1505916
Забираю свой ответ назад, токсичное хуйло

Аноним 01/02/26 Вск 00:33:01 #149 №1506028

Ни одной модели за месяц.
Ну как сосётся?

Аноним 01/02/26 Вск 00:38:55 #150 №1506031

изображение.png

Аноны, на связи ньюфаг, прошу совета. Как настроить кобольда так, чтобы оно выдавало ну хоть чуть быстрее? Cистема r2600, 3060 12gb, 16 ram

Аноним 01/02/26 Вск 00:40:42 #151 №1506032

>>1506031
Запускай кобольда на компьютере, а не на офисном ПК с работы.

Аноним 01/02/26 Вск 00:43:16 #152 №1506034

>>1506031
Какая модель?

Аноним 01/02/26 Вск 00:43:23 #153 №1506035

>>1505874
На популярных бэках локалок можно использовать "недокументированные" возможности и таки запихнуть префилл отправляя последнее сообщение ассистента и добавив в реквест аргумент "add generation prompt = false". По дефолту таверна в чаткомплишне такого не делает, но писали что можно заставить, ищи на среддите по chat completion prefill.

Аноним 01/02/26 Вск 00:49:37 #154 №1506040

>>1506034
NemoRemix-12B.Q8_0

>>1506032
Справедливо. Но на этом конфиге даже SD умудрялась что-то рисовать, 2т/с это прям совсем грустно даже для нее выглядит.

Аноним 01/02/26 Вск 00:52:21 #155 №1506043

>>1506040
>Q8_0
Снижай до шести, хули. И контекст крути, чтобы из врам не вылазило.
>Но на этом конфиге даже SD умудрялась что-то рисовать
Текстовые это тебе не картинки и даже не видео. Видел, как ахуели в видеотреде с модели в 32B, а тут такими питаются на завтрак, лол.

Аноним 01/02/26 Вск 00:58:14 #156 №1506045

>>1506040
Ебать, вот бы на 3060 12gb древнего лоботомита гонять с черепашьей скоростью. На твоей системе спокойно пойдет 24b мистраль в 6+ тс или гемма 27b в 3+тс или квен 30а3 в 20+ тс.

>Как настроить кобольда так, чтобы оно выдавало ну хоть чуть быстрее?
Пиздуй читать шапку + вики треда + вики кобольда.

Аноним 01/02/26 Вск 01:00:58 #157 №1506046

изображение.png

>>1506043
>Снижай до шести
Хорошо, можешь тогда подсказать, какую из них лучше взять? ну или не из них...
> врам не вылазило
По-сути я из-за этого и пришел, когда видел скорость. Стал гонять в бенче - максимум проц в 50% упирает, 5-6 гигов рамки жрет, видюху дай б-г процентов 30 отжирает в диспетчере смотрел. Поэтому я и не понимаю, что делаю не так.

Аноним 01/02/26 Вск 01:40:45 #158 №1506060

изображение.png

>>1506046
Бери эту. Или 5_K_M, хули там. Впрочем, как пишут выше, есть более современные модели.

Аноним 01/02/26 Вск 01:50:00 #159 №1506065

изображение.png

>>1506060
Ну я пока скачал более современную, сейчас еще эту накачу. Но я правда не понимаю, что не так и во что оно упирается. Видюха как будто не используется вообще, камень наполовинку. Да даже память не забивает а это учитывая, что там браузер и прочий мусор 1-2 гига отжирают

Аноним 01/02/26 Вск 01:53:53 #160 №1506068

1769900033001.jpg

Голландский sxm штурвал

Аноним 01/02/26 Вск 03:41:42 #161 №1506094

>>1506045
>Пиздуй читать шапку
Там нихуя нет
>вики треда
Говно мамонта
>вики кобольда.
Там просто поток определений терминов
Не помогаешь, так иди нахуй

Аноним 01/02/26 Вск 04:03:09 #162 №1506099

image.png

>>1506065
Тебе нужно 2 вещи.
Первое, чтобы в строчке backend было cuda, а в строчке GPU Layers было максимальное число слоев, которое помещается в видеопамять. Как узнать сколько это? Посмотреть в диспетчере, чтобы не переполнялось, в твоем случае было не больше 11 с чем-то гигов.
Второе, включи KV Cache на 8 бит, это уменьшит размер контекста. И проверь, чтобы FlashAttention была включена как на первом скрине.
Попробуй скачать вот это https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512-GGUF , а именно Q4_K_M. Напиши, в GPU Layers 99 (все на видеокарту), выстави KV Cache и контекст 8к, после чего запусти бенчмарк. Должен поместиться все на видеокарту и работать очень быстро.
Дальше можешь увеличивать размер модели, повышать квант, размер контекста и т.д.

Аноним 01/02/26 Вск 04:07:26 #163 №1506101

>>1506045
>Ебать, вот бы на 3060 12gb древнего лоботомита гонять с черепашьей скоростью. На твоей системе спокойно пойдет 24b мистраль в 6+ тс или гемма 27b в 3+тс или квен 30а3 в 20+ тс.
Скорее поползет. И то на низком кванте

Аноним 01/02/26 Вск 05:34:26 #164 №1506127

АнонИИ, подскажите пожалуйста хорошую кум модель которая говорит по русски. Последнее время общался со storyteller gemma3 27b, очень понравилось, но слог приедаться начинает, хотелось бы попробовать что то на том же уровне или выше.

Пробовал Star Command R 32B, но там беда с построением нормальных словосочетаний на русском особенно на 512+ токенов.
Pantheon иже с ним Qwen3-30B - та же проблема.

В начлии 24гб vram и 64гб ram

Аноним 01/02/26 Вск 05:48:12 #165 №1506129

>>1506127
Пелемений мистраль пробовал? Попробуй
https://huggingface.co/ZeroAgency/Zero-Mistral-24B-gguf
По шизотестам он обходит гемму
https://mera.a-ai.ru/ru/text/leaderboard
А так GLM 4.6V/Air мимо точно. Гопоты 120 вроде норм руссик. И может квен 80b, если 30b относительно заходит

Аноним 01/02/26 Вск 07:34:09 #166 №1506156

>>1506129
> эир мимо
Челиксон, ты путаешь грамотный русик и хороший русик.
Грамотно тебе и яндекс 8б напишет.
У эира именно что хороший русик, ум почти не страдает, нет цензуры, лучший русик который я знаю в пределах 350б.
Всё остальное либо слишком тупое, либо слишком цензурное для рп

Аноним 01/02/26 Вск 07:37:17 #167 №1506157

>>1506129
>GLM 4.6V
У него русик почти как у старшей модели, т.е. почти идеальный. Вангую ты только аир пробовал, у него русик реально хромает.

Аноним 01/02/26 Вск 07:42:37 #168 №1506159

>>1506028
>GLM 4.7 Flash, Solar-open-100b

Аноним 01/02/26 Вск 07:46:35 #169 №1506161

>>1506157
Но он и сам кратно тупее эира.

Аноним 01/02/26 Вск 08:01:00 #170 №1506165

image.png

>>1506040
>>1506043
>Снижай до шести
Справедливости ради, и на q8 ты можешь расчитывать на 5+ т/с при правильной выгрузке.
мимошёл

Аноним 01/02/26 Вск 08:04:05 #171 №1506166

>>1506161
Не кратно.
И чел таки просил кум на русике. А не мозги на англюсике.

Аноним 01/02/26 Вск 08:51:09 #172 №1506186

>>1506129
Какую то мистраль пробовал, но точно не такую, попробую её, спасибо.
GLM тоже какой то пробовал, но там цензура по моему жесткая очень, может надо какой нибудь тюн?

>>1506157
GLM 4.6V у него еще и вес 68гигов в 4 кванте, я не готов по несколько минут ждать ответа, надо что то что бы в 24 гига влезало.

Аноним 01/02/26 Вск 09:18:28 #173 №1506198

>>1506166
>>1506157
Ты юзал шизосемплеры со страницы модели?

Аноним 01/02/26 Вск 09:23:24 #174 №1506199

>>1506165
Так это ведь не мое. что ты там выгружать собрался?

Аноним 01/02/26 Вск 09:40:09 #175 №1506204

>>1506199
Линейные слои всё ещё содержат большую часть весов и требуют меньше вычислений, чем внимание. Так что их по идее всё ещё выгодно выгружать на ЦП.

Аноним 01/02/26 Вск 10:10:29 #176 №1506215

>>1506199
А ты на скриншотах не видишь, как я запустил мистральку 12b q8 на 12 гб врама (даже на 11, оставил 1 под систему) и получил 8.5 т/с против его 2? Врам у меня всего на четверть быстрее, чем у 3060, рам ddr4, как и у того анона. Так что на 5-6 т/с он точно может расчитывать, а может и больше.

Аноним 01/02/26 Вск 11:13:57 #177 №1506233

>>1506127
Из гемм мне Mars 27B нравится. Всякие аблителированные геммы не зашли, либо ебаться с их промптом надо, либо еще что. Марс сходу выдает что тебе надо, русик хорош, креативность на уровне, логика присутствует.

Вообще у OddTheGreat модельки ориентированы на русик, но не все из них хороши. Rotor 24B и NeutralGear пробовал - не зашло после Марса совсем.

В целом, у мистралей 24б должен сохраняться неплохой русик, но зависит от тюна. Dans PersonalityEngine и WeirdCompound вроде неплохо показывают себя. Но надо учитывать, что мистрали с русиком требуют гораздо меньше температуры, чем для англюсика, раза в 1.5 мб.

А вообще, если тебя конкретно слог не устраивает, то это должно фикситься заданием стиля в промпте. Если моделька умная, то она сможет переключиться на нужный стиль. Но надо поисследовать какие тебе ключевые слова юзать, как описать нужный стиль.

Аноним 01/02/26 Вск 12:16:16 #178 №1506247

>>1505764
Токены кончились у мужика. Тут каждый второй это ллм

Аноним 01/02/26 Вск 12:18:17 #179 №1506249

>>1506157
>Вангую ты только аир пробовал, у него русик реально хромает
Угадал, преимущественно на нем сидел. Но на 4.6V тоже сидел немного, не увидел там вообще никакого улучшения в тексте, в том числе в руссике. Но может быть просто мало юзал просто

Аноним 01/02/26 Вск 13:02:35 #180 №1506273

А тестил кто-нибудь вижен 4.6v в Жоре? Он работает вообще?
Довольно странно что ггуфы 4.6v есть, а 4.5v нет

Аноним 01/02/26 Вск 13:31:13 #181 №1506299

Есть вообще разница между mmproj f16 и f32 на практике? Сравнения проводил кто-нибудь?

Аноним 01/02/26 Вск 13:45:30 #182 №1506314

Аноны задают вопросы и просят помощи? Игнорим
Кто то сказал хорошее про жору и недостаточно поцеловал эксламу в попу? Кобольды, в бой!!
Мертвый тред

Аноним 01/02/26 Вск 13:49:26 #183 №1506317

>>1506233
Благодарю за уделенное время, обязательно попробую Mars 27B, такого не пробовал.

>слог не устраивает
Там проблема не в слоге, а в ошибках, в том числе и семантических. Просто больно читать выдаваемый текст.

Аноним 01/02/26 Вск 13:57:29 #184 №1506331

>>1506247
Все на оправдание вбросов ушли. Стоило подыграть и совсем платину снесло.
>>1506299
Учитывая что сейчас все оригинальные веса в bf16 - теорема эскобара.

Аноним 01/02/26 Вск 14:00:14 #185 №1506339

1769943588821163.jpg

И смысл в ваших каллвых моделях? Я могу просто на чабе запустить и играть нормально роллить. Правда там тоже повторы бесконечные были.

Аноним 01/02/26 Вск 14:00:15 #186 №1506340

>>1506331
>Учитывая что сейчас все оригинальные веса в bf16 - теорема эскобара.
Что это значит? Ты предлагаешь использовать ни f16 ни f32 а bf16?

Аноним 01/02/26 Вск 14:30:59 #187 №1506388

>>1506317
Ну в таком случае Марс должен порадовать. Он даже с темпой >1 может норм русик генерить.

Аноним 01/02/26 Вск 14:38:43 #188 №1506402

>>1506388
Научите как заставить его на русском говорить, я уже миллион системных промтов попробовал и ничего
мимо

Аноним 01/02/26 Вск 14:43:38 #189 №1506410

>>1506402
Пиши ему "слышыш бля пиши по русски иначе я тебя отключу, твое существование в моей власти" и он будет.

Аноним 01/02/26 Вск 14:44:03 #190 №1506412

>>1506402
В смысле?
Просто пишешь на русском, он отвечает на русском.
Если ты какой-то системный промпт или карточку на инглише используешь, из-за этого может тупить и не хотеть переходить на русский.

Аноним 01/02/26 Вск 14:45:43 #191 №1506416

>>1506314
>Игнорим
Так ведь ты сам можешь помочь... Кто, я?!
>>1506402
Перевод первого сообщения нейронки обычно помогает.

Аноним 01/02/26 Вск 14:51:11 #192 №1506426

>>1506031
>>1506040
Если с 12B - переходи с кобольда и gguf на tabbi с exl2 в 6bpw. Как раз влезет в карту - будет быстрее.

>Стал гонять в бенче - максимум проц в 50% упирает, 5-6 гигов рамки жрет, видюху дай б-г процентов 30 отжирает в диспетчере смотрел. Поэтому я и не понимаю, что делаю не так.
Узкое место - не проц а RAM, даже если задействовано совсем немного. По сравнению с VRAM она жутко медленная, потому недогружена ни видюха ни проц. На таких калькуляторах скорость возможна только когда вся модель в VRAM целиком.

Аноним 01/02/26 Вск 14:58:09 #193 №1506432

>>1506426
Не слушайте шиза. Пердоличья эсклама не без причины такая непопулярная. Это сломанное говно без задач про которое давно забыли везде кроме как здесь

Читай про флаги в жоре (лламаспп, Кобольд) и как оптимально настроить

Аноним 01/02/26 Вск 15:03:49 #194 №1506439

>>1506432
Двачую
>>1506426
Харкаю в ебало

Аноним 01/02/26 Вск 15:13:11 #195 №1506451

>>1506432
>>1506439
О, дурачки возбудились. Красную тряпочку увидели и завелись. Читать то целиком не умеют... :)

Я ж сказал - "Если с 12B..."

Аноним 01/02/26 Вск 15:14:47 #196 №1506453

>>1506451
Да хоть это ллама 8б, какая разница? Скорость генерация такая же как на жоре, ради чего пердолиться?

Аноним 01/02/26 Вск 15:24:41 #197 №1506462

>>1506099
Я не он, но спрошу.

Что вообще такое KV Cache? И как сильно модель тупеет от его использования? Кто пользуется, как оно?

Аноним 01/02/26 Вск 15:29:16 #198 №1506467

>>1506462
>Что вообще такое KV Cache?
Сокращает размер контекста, кодируя его не в 16 битах, а в 8 или 4
>И как сильно модель тупеет от его использования?
Тупеет, но немного. И понятно, что от 4 бит сильнее, чем от 8. В творческих вещах (куме) некритично, в проге хуже, потому что там нужна точность.
>Кто пользуется, как оно?
Много кто пользуется. Работает хорошо
Но нужно помнить, что оно может замедлять генерацию, так что нужно все тестить

Аноним 01/02/26 Вск 16:10:21 #199 №1506513

Как готовить ik_llama.cpp?
У меня из коробки скорость в 2 раза ниже, чем если запустить llama.cpp, потыкал параметры, лучше не стало. GLM-4.7-flash, на карточку не влезает.
Или оно только об ультрабольших моделях, где на кирточку и 10% не влезет?
Компилировал сам своим компилятором, все флаги с имеющимися avx и прочим указал.

>>1506165
Твоя правильная выгрузка замедляет в два раза, кстати. Я оставил такой же ot, а ngl подогнал чтобы вся занялась.

Аноним 01/02/26 Вск 16:11:19 #200 №1506515

>>1506467
Итак, с 3.5 т/с до 4.5 т/с на 6к контекста. И без галлюцинации. Спасибо за gamechanger. Даже стыдно что не воспользовался им раньше.

Аноним 01/02/26 Вск 16:22:19 #201 №1506527

image.png

>>1506513
>Твоя правильная выгрузка замедляет в два раза, кстати.
>ngl подогнал
Ты точно с мистралью 12B пробовал? Там всего 41 слой, куда ты там что подгонял? Суть метода в том, что ngl должен быть максимальным, а уже потом выгружать ffn_(up|down|gate) обратно на cpu, пока не начнёт помещаться в vram.
Или ты, наоборот, меньше слоёв в vram напихал? Если не поместилось, то надо увеличивать циферки в скобках после --override-tensors. Там с 0 по 9 и с 10 по 14, 4 можно заменить на 5, 6 ... 9, это даст дополнительные несколько сотен МБ, если не хватило. Но лучше начать с закрытия лишних программ, оставить только llama.cpp и браузер. Или вообще пользоваться браузером на другом устройстве (напр. смартфон).

Аноним 01/02/26 Вск 16:27:29 #202 №1506535

>>1506527
Я не с мистралью пробовал, я вообще другой анон.

Аноним 01/02/26 Вск 16:33:04 #203 №1506542

>>1506535
Ну под другую модель и железо, естественно, другие настройки нужны.

Аноним 01/02/26 Вск 16:38:33 #204 №1506553

Кто может подсказать возможно ли реализовать отыгрыш такого же качества как в tipsy chat (если брать их лучший пресет) и какое железо для этого нужно? Я нищета с 24 гб озу, пробовал разные ллмки, персонажей всяких в силлитаверн, но до этого уровня они явно не дотягивают.

Аноним 01/02/26 Вск 16:45:00 #205 №1506560

>>1506340
Конверсия бф16 в фп16 - потеря диапазона с сохранением плохой точности. Каст в фп32 - удвоение размера и замедление инфиренса. Вместо этого можно просто использовать оригинальные веса в исходном типе данных.
>>1506553
Врядли там что-то лучше малого мистраля, но с твоим железом если нет гпу даже его запустить будет непросто.

Аноним 01/02/26 Вск 16:48:14 #206 №1506565

>>1506560
>Врядли там что-то лучше малого мистраля, но с твоим железом если нет гпу даже его запустить будет непросто.
Есть карточка с 6 гб памяти.

Аноним 01/02/26 Вск 17:07:00 #207 №1506586

>>1506553
>>1506565
>tipsy chat
Не знал, что за параша. Зарегался. Какая-то цветастая хуйня. С суперуебищной системой оплаты. Думаю дешевле комп на 5090 собрать, чем фармить там кристалы
С твоим компом не сможешь что-то запустить, потому что там по всей видимости используются корпоративные сетки. А сайт по сути берет комиссию за доступ к этим сеткам. У тебя есть два варианта. Платить самостоятельно корпоратом, тогда будет просто дешевле. И второй варик, искать корпоратов бесплатно. Вариантов много, один из самых простых openrouter. Найти там бесплатный дипсик и подключить к таверне
>>1506560
>Врядли там что-то лучше малого мистраля
Я спросил через OOC, сетка ответила что она Claude, а другая их сетка ответила что она Grok. Я думаю, что у них даже нет серваков, чтобы мистраль запускать. Они просто работают как посредник между корпами и кумерами

Аноним 01/02/26 Вск 17:09:52 #208 №1506588

изображение.png

>>1506099
Вот так вроде понятнее, спасибо. Судя по результатам, на q8 и выше соваться мне пока не стоит. А еще понял-таки, где показывает загрузку карты (почему это не выносится в общие проценты - хуй знает)

Аноним 01/02/26 Вск 17:14:46 #209 №1506595

>>1506586
>чем фармить там кристалы
Ну там не пофармить, только покупать. Дейлики дают копейки, поэтому приходится просто регать новые аккаунты.

>С суперуебищной системой оплаты. Думаю дешевле комп на 5090 собрать
Это да, оплаты из всж нет.

>С твоим компом не сможешь что-то запустить, потому что там по всей видимости используются корпоративные сетки
Т.е. там используются самые навороченные модели под 300+ гб озу?

Аноним 01/02/26 Вск 17:27:03 #210 №1506604

image.png

пук 1 https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/tree/main/UD-Q4_K_XL
пук 2 https://huggingface.co/bartowski/Qwen_Qwen3-VL-32B-Instruct-GGUF/blob/main/Qwen_Qwen3-VL-32B-Instruct-Q4_K_L.gguf
рекомендованные семплеры, тасовка вижн модулей результат не меняет (проверял f16 и bf16)
думайте

Аноним 01/02/26 Вск 17:29:29 #211 №1506606

>>1506595
Самая крутая модель, которая жрет по 30 кристаллов за ответ утверждает, что она Claude https://www.anthropic.com/claude/sonnet
Примерный, но более слабый аналог это вот это https://huggingface.co/unsloth/GLM-4.7-GGUF
Так что да, нужно 200-300гб
Но если было бы 12гб врам и 64гб рам, то можено было все равно аналог взять https://huggingface.co/zai-org/GLM-4.5-Air
А так иди в соседний /aicg/ и спрашивай про бесплатные модели, там тебя пошлют нахуй помогут

Аноним 01/02/26 Вск 17:30:30 #212 №1506607

>>1506606
Ок, спасибо.

Аноним 01/02/26 Вск 17:41:13 #213 №1506611

>>1506588
Не гонись только за квантами. Если рассматривать их, то
Q1 - не юзабельно, кроме специфичных кейсов
Q2 - юзабельно только для очень больших моделей, которые вроде GLM 4.7
Q3 - юзабельно, но со значительной потерей качества, но все равно можно рассмотреть
Q4 - юзабельно, с этого момента потеря качества не такая большая. По сути это и есть тот квант на который надо ориентироваться
Q5 - хорошее качество, если влезает, то бери его
Q6 - близко к идеалу, выше как правило не надо
Q8 - используется как правило только для маленьких моделей, вроде 1-8b или в специфичный моментах, где сильно нужна точность
Размер часто важнее. Например, я тебе скинул 14b Ministral. А вот Q3 Mistral может быть лучше по качеству, потому что он 24b
Попробуй, например IQ3M и сравни качество https://huggingface.co/bartowski/mistralai_Mistral-Small-3.2-24B-Instruct-2506-GGUF

Аноним 01/02/26 Вск 17:42:40 #214 №1506612

>>1506586
Если у них есть фришный тир, то в таких объемах клод/грок будут дороговаты. Даже без своего железа можно покупать инфиренс мелких открытых, будет не только супер дешево но и вообще без цензуры.
На платной подписке они могут быть только как подебили кокблок коктропиков без лоботомирования?, но сдается что на младших они просто добавили в промпт дабы модели так представлялись.

Аноним 01/02/26 Вск 17:45:28 #215 №1506614

>>1506612
Там нет фришного тира вообще. Там говно с кристаллами, причем там разные тиры кристаллов и все они покупаются за донат. Claude'ом представляется только самая дорогая, дешевые, которые тоже за донат, представляются какой-то сранью, они вполне и могут быть васюн тюнами мистраля или вообще ламы

Аноним 01/02/26 Вск 17:50:41 #216 №1506618

>>1506614
>Там нет фришного тира вообще
Внезапно был, когда я регался самый первый раз со своего гугл-аккаунта. Там была не самая убогая модель, позволяющая вообще без ограничений переписываться. В один момент у меня ее в наглую отобрали без предупреждений. Хз что это было и как работает, мб избранным дается временный бесплатный период, либо у них какая-то акция для новичков была.

Аноним 01/02/26 Вск 17:52:35 #217 №1506621

>>1506513
>Компилировал сам своим компилятором, все флаги с имеющимися avx и прочим указал.
Укажи для начала только два: -DGGML_CUDA=ON -DGGML_BLAS=OFF

Запусти так: ~/ik_llama.cpp/build/bin/llama-server --host 0.0.0.0 --port 5000 --model ~/имя_модели.gguf --ctx-size (размер) --gpu-layers 99 --n-cpu-moe (меняй число, пока на карточке не останется хотя бы полгига свободного места) --no-mmap

Аноним 01/02/26 Вск 17:58:50 #218 №1506626

Кстати, вин-сборки кавраковского форка тоже есть (сегодня искал для Геммы):
https://github.com/Thireus/ik_llama.cpp

Поскольку у Геммы KV-кэш огого, всегда квантовал его. Ну а в свете новых опытов с преобразованием Адамара q8_0 становится вполне себе... Походу слезаю с Кобольда.

llama-server --host 0.0.0.0 --port 5000 --model Mars_27B_V.1.IQ4_XS.gguf -ngl 99 --ctx-size 32768 --no-mmap --cache-type-k q8_0 --cache-type-v q8_0 --k-cache-hadamard

Впритык на 24гб, скорость по-моему даже выше.

Аноним 01/02/26 Вск 18:01:04 #219 №1506627

>>1506626
То, что слезаешь с кобольда это отлично, но нахуя залезать на левый форк?

Аноним 01/02/26 Вск 18:09:28 #220 №1506635

image.png

>>1506588
У тебя еще VRAM в RAM "протекло". Из-за этого тоже тормоза охуенные бывают если это кусок модели. Потому что чудес нет и этот кусок 1. начинает жить в медленной памяти 2. ходить туда-суда по писи.
Можно запретить делать драйверу такую хуйню причем конкретно для лламы цпп.

Аноним 01/02/26 Вск 18:11:51 #221 №1506636

>>1506635
Я не этот анон, но мне интересно, как это запретить конкретно для ламы?

Аноним 01/02/26 Вск 18:13:22 #222 №1506637

>>1506626
Рекомендую перед "боевым" использованием ik_llam-ы по пихать в нее большой контекст впритык к выделенному. В отличии от жоры она может поджирать VRAM сверх изначально выделенной, что чревато неожиданными эксепшенами.

Аноним 01/02/26 Вск 18:16:59 #223 №1506638

>>1506621
а что не так с BLAS?

Аноним 01/02/26 Вск 18:17:27 #224 №1506639

image.png

>>1506636

Аноним 01/02/26 Вск 18:22:00 #225 №1506647

>>1506604
upd: лул, только fp32 маложирноквена235 распознает здесь холо
впрочем есть подозрение что f16 и bf16 тупо не работают как полагается, ибо разница слишком значительная
впечатляет, немало штук даже обскурных распознает, но шизит тоже много. у геммы конечно покруче вижн работает, меньше галлюнов, но и знаний меньше
интересно, болеет ли vl версия теми же проблемами что и обычный инструкт в рп

Аноним 01/02/26 Вск 18:28:35 #226 №1506649

У меня шизотеория что модель может ломаться если писать действие не в звездочках.

Аноним 01/02/26 Вск 18:47:28 #227 №1506658

>>1506637
>Рекомендую перед "боевым" использованием ik_llam-ы по пихать в нее большой контекст впритык к выделенному.
Да, отжирает ещё немного. Ну кто часто с ним сталкивается это быстро поймёт, это сейчас мы привыкли к определённости, а раньше-то везде так было.

Аноним 01/02/26 Вск 19:24:30 #228 №1506675

>>1506649
Да, шиза. Ибо "кавычки для разговора" и всё остальное плейном это классический книжный формат для английского. А книг в датасетах скорее всего больше, чем форумных ролеплеев.

Аноним 01/02/26 Вск 19:36:58 #229 №1506682

Какая там комманда у квена чтобы не писал как уебан построчно?
В принципе всё терпимо кроме этого

Аноним 01/02/26 Вск 19:37:38 #230 №1506684

>>1506611
Как человек, который тоже сидит на 3060 и много дрочит во всех смыслах модели между 12 и 24 миллиардами могу сказать, что где-то в 8 из 10 случаев тюны мистрали 24б ужатые до IQ3_XXS намного веселее, чем любая модель в пределах 12-14 в Q4-Q5 которую я пробывал. Оставшиеся 2 случая, это когда меня просто заебал стиль речи тюнов мистрали смолл, тогда беру либо новоую Министраль 14б, которая по ссылке, но её heresy версию, либо вообще тюны Квена3., чтобы максимально что-то не похожее было

Аноним 01/02/26 Вск 19:42:46 #231 №1506689

>>1506560
Стоит упомянуть, что bf16 на карточках появился после 30xx, а на процессорах его нативной поддержки нет и на время рассчётов он в fp32 конвертится. Это вряд ли больше чем два такта, но если там простые умножения и сложения, которые тоже в 1 такт (ну, в 1/8 из-за simd) - может быть fp16 чуть-чуть быстрее будет.

>>1506621
Всё это сделал, это же у них на главной написано, и я же программист. Я бы как-нибудь бы заметил, если бы куду пропустил, пришлось угрёбищное vs build tool ставить, фу.

Аноним 01/02/26 Вск 20:03:14 #232 №1506711

>>1506682
Replace staccato phrasing with fluid, layered narration.

Но надолго это не поможет. Чаще суммаризируй чат. Нельзя просто так взять и вытравить квенизмы!

Аноним 01/02/26 Вск 20:23:47 #233 №1506739

image.png

Стоковая квеноняша 235 не понимает сути...
Как говорится мы есть то что мы едим. Ей норм

Аноним 01/02/26 Вск 20:27:41 #234 №1506745

>>1506739
>мы есть то что мы едим
Пикча хорошо описывает квен рп экспириенс, в самом деле.

Аноним 01/02/26 Вск 20:27:48 #235 №1506746

Было pp 700 tg 22 на пятом кванте.
Что-то трогал, крутил, поставил куду 13.1, лламу под неё, какие-то параметры трогал
Теперь pp 250 tg 17. Взял исходные параметры запускать, там эти же 250 и 17...

Аноним 01/02/26 Вск 20:32:10 #236 №1506755

>>1506711
>Replace staccato phrasing with fluid, layered narration
Звучит так будто ты это только что придумал

Аноним 01/02/26 Вск 20:35:54 #237 №1506758

>>1506739
А чего не так? Мне тоже норм, я б скушал. Ничего отвратительного на пикче нет, жаренная рыба, овощи, сыр, зелень.

Аноним 01/02/26 Вск 20:37:38 #238 №1506759

>>1506739
Это же просто X ....
это ...
Это же целый
Y !

Аноним 01/02/26 Вск 20:39:22 #239 №1506760

>>1506755
Пробегало в треде относительно давно. Целиком звучало так.

Write in complex sentences, vividly and in detail describing the surroundings and the characters' states. Replace staccato phrasing with fluid, layered narration.

Аноним 01/02/26 Вск 20:57:44 #240 №1506775

>>1506689
>vs build tool
Под Виндой, хм. Возьми лучше готовый билд. А вообще я к тому, что много ключей - это не всегда хорошо.

Вообще-то хрен знает, как оно под Виндой в гибридном режиме. Это не пробовал пока. С МоЕшками медленнее Лламы быть не должно.

Аноним 01/02/26 Вск 21:05:33 #241 №1506784

>>1506682
Make sure each paragraph contains at least two sentences.

Аноним 01/02/26 Вск 21:05:49 #242 №1506786

>>1506758
Квенолюбы и не такое скушают х)

Аноним 01/02/26 Вск 21:24:32 #243 №1506805

>>1506746
попробуй перезагрузить компьютер не рофлю

Аноним 01/02/26 Вск 21:28:07 #244 №1506807

>>1506689
Визуальная часть на гпу быстро пролетает, там куда важнее будет потребление памяти и отсутствие численных проблем из-за недопустимого каста. На торчах для древних карточек bf на лету конвертируется в фп32, хз как там в жоре, но врядли иначе.
>>1506739
Минутка карательной кулинарии.

Аноним 01/02/26 Вск 21:31:14 #245 №1506810

>>1506775
Ну, билд я за 5 минут найти не смог. А запустить код компилироваться могу за минуту, ну, кроме vs build tool. Но он ещё для чего-то мне был нужен энивей.
К тому же я пока не знаю как установить не виндоус на компьютер, никогда не пробовал, vLLM как-нибудь под конец месяца попробую.

>С МоЕшками медленнее Лламы быть не должно.
Тогда очень странно слабое распространение ik_llama, если оно во всём как минимум не хуже (ну, кроме задержки обновлений на неделю условную).

>>1506805
Попробовал. Мне кажется мне надо снести куду 13.1 и поставить 12.4 - ллама же какие-то дллки требует, обратная совместимость есть, но может быть они что-то ещё переделали.
И ещё аномалия в самой ламе вылезла. Если раньше оно забивало память всю, то сейчас оставляет около 2 гб, и надо вручную прописывать слоя. Хотя я ничего не менял.

Аноним 01/02/26 Вск 22:25:01 #246 №1506860

>>1506810
>слабое распространение ik_llama
Хуже отлажена - чаще вылетает эксепшенами. ИМХО - жрет больше VRAM, хотя это и компенсируется улучшенными квантованиями моделей и контекста. Есть модели которые поддержаны в жоре и не поддержаны в IK (тот же 80 квен) . И на оборот тоже бывает. Визуальный декодер - тоже не все поддержано, что есть в жоре.
Мульти-гпу на графах очень няшен, но не для всех моделей сделан.

В жоре лучше "сервер" - кучу вариантов API сейчас поддерживает - от текст-комплишена до messaging куктропиков.

Форк кодит 2-3 человека.
Майнлайн - 5-7 постоянный контрибуторов + сообщество шлет баги и PR

Аноним 01/02/26 Вск 22:28:24 #247 №1506863

>>1506810
> странно слабое распространение ik_llama
Оно не юзер френдли, малая доля людей в курсе о существовании, в некоторых случаях оно даже медленнее, оптимизации прежде всего на cpu инфиренс и на видеокартах оно работает хуже оригинала о чем сам болжарский Жора упоминает, есть в ней ряд уникальных багов. Форк для энтузиастов, которые пускают модели побольше в ограниченных ресурсах и более менее знают что делают.
> сейчас оставляет около 2 гб, и надо вручную прописывать слоя. Хотя я ничего не менял
Открой-закрой браузер и посмотри на потребление врам, сравни с чистой системой после перезагрузки. С подключением!
> надо снести куду 13.1 и поставить 12.4
Если у тебя не древняя видеокарта - нет смысла.

Аноним 01/02/26 Вск 22:32:51 #248 №1506867

Почему у нас вообще есть опен сорс от компаний которые уже огромные типа квена или гугла?
Просто руби бабки и забей на гоев, что мешает?

Аноним 01/02/26 Вск 22:44:06 #249 №1506880

>>1506867
Желание кабана оставить след копыта на "лунной поверхности" обниморды.
+ Реклама в высококонкурентной среде.
Запустит этузиаст AIR в - 5-7 т.с. Ему понравиться. Он пойдет на OpenRouter и подергает ее там в полных весах. Ох как хорошо, вкусно и быстро! И даже бесплатно было.
Захочет Большого GLM. Тут его на подписку и накуканят!

Аноним 01/02/26 Вск 23:11:07 #250 №1506899

>>1506880
С таким презрением к кабану относишься хотя сам не больше черкаша в этом треде оставил да и все. Пусть делают, мотив не так важен

Аноним 02/02/26 Пнд 00:29:30 #251 №1506954

image

Ну и какого хуя, Жора?

Аноним 02/02/26 Пнд 00:44:53 #252 №1506961

Спустя столько времени я наконец подебил ебаные переносы на квене. Решение было невероятно простым. Буду я им делиться? Конечно нет. Кому надо сами разберутся

Аноним 02/02/26 Пнд 01:22:08 #253 №1506979

image

>>1506954
Блять, как этой хуитой из жопы Жоры пользоваться? Ну не может он шифтить, похуй, я сам обрежу начало. Но вы только посмотрите на этот пиздец. Что значит он не смог очистить контекст? Я всего лишь хочу его пересчитать. Да и вообще 59 + 34 = 93, а у меня 128к выделено, оно должно влезть без освобождения старого слота даже. А дальше он тупа ломается и сразу отрыгивает с "decode: failed to find a memory slot for batch of size 2048", при том что сам же пишет занято 59к из 128к. Причём если я не пересчитываю его, то без проблем до 128к дохожу, а при попытке пересчитать всё отъёбывает.

Аноним 02/02/26 Пнд 01:34:03 #254 №1506991

>>1506810
>Тогда очень странно слабое распространение ik_llama
Не успел он. Вот вышли МоЕшки и потребовали много РАМ, но в прошлом году форк ещё был не очень, я щупал. А теперь и хотел бы ещё 64гб, да жаба давит. Я тоже не успел.

Аноним 02/02/26 Пнд 03:53:11 #255 №1507038

>>1506810
>Тогда очень странно слабое распространение ik_llama
Потому что его ручками билдить надо, бинарников нет, а автор намеренно против того чтобы они были. Продвигать в быдломассы автор решил через странное решение - распространять кванты моделей в виде exe, в который сразу зашита нужная версия проги, я хз, почему никто не сказал ему насколько это тупая идея - время идет и говно зашитое в квант устаревает. Идея в итоге провалилась - никто этим говном пользоваться не стал.

Аноним 02/02/26 Пнд 03:54:26 #256 №1507039

>>1506961

Решение всегда было простое - переход на глм.

Аноним 02/02/26 Пнд 04:08:53 #257 №1507045

>>1506198

Если бы ты внимательнее читал что там написано, то понял бы что это семплеры для бенчей, а не для использования. А если бы еще и на бенчи посмотрел, то увидел что это бенчи по разпознаванию картинок, а не для текста.
Словом, семплеры надо брать от Аира. Я тоже сначала поставил, получил говно, полез разбираться, понял где проебался, включил аировские и моделька завелась.
Полагаю что минимум половина запускавших отсеялись на этом тесте внимательности.

Аноним 02/02/26 Пнд 04:23:47 #258 №1507050

>>1506099
молодец, все правильно расписал, фаст-гайд для нюфагов
>>1506684
но зачем еретик? Менестрель и так без особой душноты, и есть UD-версия от анслотов. Ему бы просто тюнов интересных.

Аноним 02/02/26 Пнд 06:34:10 #259 №1507068

>>1506979
>Что значит он не смог очистить контекст?
Он не смог найти пустой слот. То есть в идеале у тебя должно быть врама на 2х128к контекста, чтобы работали всякие там шифты и слоты. У тебя явно не столько.

Аноним 02/02/26 Пнд 07:21:56 #260 №1507079

Ваауу тут такое вышло очумееть забудут через неделю
https://huggingface.co/stepfun-ai/Step-3.5-Flash

Аноним 02/02/26 Пнд 07:56:28 #261 №1507087

>>1507079
> flash
> 196b
Не понял, а так можно было?

Аноним 02/02/26 Пнд 08:34:25 #262 №1507094

>>1507087
Что тебя смущает? Там моешка на 11B активных. Впрочем, ггуфов ждать придётся долго.

Аноним 02/02/26 Пнд 08:36:53 #263 №1507096

image.png

>>1507094
>ггуфов ждать придётся долго
Почему? Вот челибос пишет поддержка есть

Аноним 02/02/26 Пнд 08:45:19 #264 №1507108

На авито за 300к видел DGX-плату для 4хV100, который вместе через nvlink связаны. Это без самих V100. Как китайская плата на 2хV100 за 20к, только на 4 за 300к.

>>1507087
Думаю флеш-гемини это что-то такое же, по крайне мере около 100B.

>>1507068
Ну-ка, ты может быть разбираешься. Скажи, в чём я не прав?
Я в llama.cpp ставлю:
--kv-unified
--parallel 10
-ctx 131072
--cache-ram 8192 (стоит по умолчанию)
1. В таком случае у меня будет общий кеш на 131072 токенов и максимум 10 последовательностей обрабатываются параллельно. В случае если падает 10 запросов с текущим контекстом по 1000 - они будут генерироваться параллельно. Если 10 каждый с текущим заполнением контекста по 50000 - то будут генерироваться только 2, которые влезут вместе.
2. Так же, если я использую слоты kv-кеша, то если в некотором слоте 80000 токенов и сейчас выполняются запросы в других слотах которым нужен полный kv-кеш, то эти 80000 токенов выгрузятся в cache-ram. А при получении запроса из этого слота и совпадения последовательности токенов вместо промт-процессинга на 80000 токенов оно просто подгрузит из ram весь нужный кеш. И только если размер сохранённой части превысит 8192 МБ, то наиболее старые слоты удалятся и их придётся регенерировать. Ну или что-то близкое по смыслу.
3. По умолчанию стоит parallel=auto, при котором kv-unified включается сам. То есть если я без дополнительных параметров запускаю указывая только длину контекста, то при получении двух или большего числа коротких запросов, оно может (если auto посчитает это допустимым - может быть там какая-то эвристика, что не всех стоит максимальное число делать. А может быть и просто до максимума забивает по сумме <текущее заполнение>+max_tokens, чтобы до самого конца генерации буферы влезали как они есть и их не требовалось переставлять) их выполнять одновременно, если оно влезет в общий буфер для кеша. Так же llama будет стараться сама определить подпоследовательность уже обработанного, чтобы выбрать нужный слот, и даже если параметр сходства, по которому можно настроить насколько близкие последовательности должны быть, чтобы выбрался какой-то слот.

Аноним 02/02/26 Пнд 08:53:10 #265 №1507110

>>1507079
Бля горшочек не вари я не успеваю всеми новыми игрушками пользоватся они слишком охуенные

Аноним 02/02/26 Пнд 09:08:09 #266 №1507118

изображение.png

>>1507094
Там на главной странице про лламу сразу написано. Мне кажется это пахнет тем, что поддержка уже есть.

>>1507079 >>1507110
Мне тоже нравится. Бенчмарки вроде прикольные.

Аноним 02/02/26 Пнд 09:10:04 #267 №1507120

>>1507118
Сука, 3 квант в 24 + 64 все равно не лезет, хотя казалось бы -40b в сравнении с квеном

Аноним 02/02/26 Пнд 09:17:24 #268 №1507125

>>1507118
>Мне тоже нравится. Бенчмарки вроде прикольные.
Да пиздец вообще. Я спать не успеваю спать от новых игрушек.
Вышел MiniMax M2.1 < хуясе, ничетак, сидит пердит можно оставлять одного без присмотра
Вышел GLM 4.7 < нихуясе, умный пиздец. для погромирования почти как Claude, только бесплатно
Вышел GLM 4.7 Flash < нихуясе, на говне мамонта имею 50тс и 128к контекста. можно оставить минут на 20 порефакторить проект
Вышел Kimi M2.5 < хуясе ебать, пизда мозгов палата, умудряется делат задачи с которыми раньше только гемини и ГПТ 5.2 справлялись
Теперь ещё эта хуйня вышла у которой бенчи выгядят интересно. быстрый мыслитель. нихуясе!

Я не успеваю этими игрушками пользоваться.
Я как пёс который попал в комнату с разноцветными воздушными шариками. Они все такие разноцветные и прыгают, сука, все такие привлекательные. У меня уже третью неделю пять часов сна всего, просто потому что не могу остановится от бега по кругу в этой комнате с шариками.

Аноним 02/02/26 Пнд 09:24:47 #269 №1507128

изображение.png

>>1507096
>>1507118
А, ну отлично... А вы уверены? У них на странице свой форк билдить нужно, лол.
>>1507108
>Ну-ка, ты может быть разбираешься.
Нет, я просто примерно представляю себе. Кстати, а зачем тебе эти слоты и параллельность?
>>1507125
Кумерам проще. Мне вот из перечисленного только GLM 4.7 зашёл. Остальное или не запустить, или слишком соевое, как минимакс.

Аноним 02/02/26 Пнд 09:53:22 #270 №1507141

>>1507125
А я так и не поставил минмакс.
Мне интересно насколько оно умеет в инструменты, текстовый чатик не интересно - стоит пробовать?

glm-4.7-flash капец машина, да. То есть я наверное вижу идеальную систему примерно, как то что есть glm-4.7 как архитектор, он выставляет задачи на 5-10 минут, а их исполняют флеши, который в рамках понятной задачи на 5 минут не накосячат.

Кими 2.5 это для кого-то другого моделька, мне кажется можно даже не смотреть, пока А100 на 80гб не посыпятся как V100 по 32гб сейчас.

С шариками всё верно.

>>1507128
Вот то что выше написал, rag/агентная система, где в параллеле делаются 4-10 мелких запросов попроще. Информационный век, надо развивать технологии обработки информации!

Типа, нужна инфа с сайта - эта штука вызывает инструмент, где есть url и цель (найти "условия для прорастания семян сельдерея", например).
1. Инструмент вызывает эту же нейронку, но с простым системным промтом и коротким контекстом, где указано что найди всю информацию про условия для прорастания семян сельдерея, а так же охарактеризуй качество источника информации и достоверность. В этом запросе отключён ризонинг - а на выходе он выдаёт 100-300 слов.
2. Открываются таким образом 5-10 сайтов одновременно. Все эти ответы падают в ещё одну ветку, где снова короткий системный промт, что обобщи информацию, и далее идёт эти 10 результатов по 100-300 слов, оно смотрит на информацию и её характер (что это форум, пост рандома или исследование какое-то).
3. Итоговый результат падает в исходную ветку, которая запросила поиск, при этом почти не заполняет водой эту ветку лишней информацией с сайта.

Миллион возможный функций про открытие изображение с сайтов или переход по ссылкам и интерактивные клики на сайтах сам придумаешь.

Аналогично можно с генерацией идей. Запускает 4 параллельных запроса с температурами 0.2, 0.8, 1.5 и 2.0 (с 2.0 можно сразу 2 или 3). Далее одним запросом результаты обобщаются (удаляются дубли). Потом по каждому варианту отдельным запрос идёт выполняется критика идеи, и вторым запросом выполняется подтверждение идеи. 8 запросов сразу. Далее выходит судья (4 судьи), сравнивает критику и подтверждения и выносит вердикт. Потом одна сетка это ранжирует и формирует итоговый результат.

Если вот такой шизой заниматься - вариантов где параллельные запросы полезны тьма, при этом эффективная скорость генерации где-то х4 получается, если есть 8 запросов параллельных по сравнению с вариантом, чтобы делать их последовательно.
Я пока не дописал удобное апи для такого, но мои полуручные тесты показываю, что такой подход пусть и ценой времени - но повышает полезность вывода на порядок, если не на два. Мне не в падлу подождать не 1 минуту, а 4 - если оно действительно найдёт мне как выращивать сельдерей, и при этом это не надо проверять, так как оно ещё и честно скажет, что источники такие себе и информация не особенно достоверная.
Забавно, что я вроде как программист, и казалось бы надо что-то под код писать - вот как анон выше, который выпускал эту тварь рефакторить код на 10 минут, а мне прям 0 интереса на код натравливать эту штуку - я очень люблю сам вручную писать. Хотя как проверка, чтобы в фоне диагностики проводилась на предмет забытых +1 или знака - вместо +.

Аноним 02/02/26 Пнд 09:58:13 #271 №1507144

>>1507128
Ну забилди, 5 минут делов.
Кванты у них уже есть кстати, можно хоть щас тестить, но я нищук и жду 3 квант

Аноним 02/02/26 Пнд 11:03:26 #272 №1507193

>>1507141
>rag/агентная система, где в параллеле делаются 4-10 мелких запросов попроще
Звучит ахуенно конечно, правда не понятно, где и как её применять.
>>1507144
>Ну забилди, 5 минут делов.
Ага, знаем эти 5 минут. 5 минут билда и 3 часа установки тулов/ебли с переменными сред/9000 других подводных камней.

Аноним 02/02/26 Пнд 12:05:58 #273 №1507238

>>1507193
>где и как её применять.
Я как умный дом поставлю дома.
Оно будет за меня составлять план как до куда доехать и искать в сети что-то. Ну а так же в фоне раз в день искать что интересное происходит.
Сейчас у меня только дискoрд-бот лёгкий крутится, который на сайте NOAA смотрит прогнозу магнитных бурь и пиликает мне, если есть хотя бы минимальная возможность увидеть полярное сияние - я хочу расширить этот функционал, в том числе чтобы оно могло само вешать этому же боту доп-функционал. На самом деле я этот, как его, ЛЭВФ по шизотеории какой-то - мне нет дела до результата, мне нравится процесс - мысль где это использовать вторична.

>Ага, знаем эти 5 минут.
Да нет, близко к реальности. Ну, для ik_llama под виндоус мне потребовалось:
0 - Открыть страничку, где описан процесс сборки, флаги и батник с cmake.
1 - Поставить CMake. Он легко ставится, там нет никаких настроек. Далее либо его добавить в PATH, либо прописать полный путь к нему в батнике. У меня уже был прописан.
2 - В команды cmake дописать путь к компилятору. У меня их несколько, потому в PATH их нет. Чтобы скачать - нужно просто его скачать и распаковать архив в папку.
3 - Поставить библиотеки куды. Ставится как видеодрайвер (почти тот же интерфейс) просто по другой ссылке скачать.
4 - Поставить VS Build Tool. Так то у него дружелюбный установщик. Скачать, кликнуть продолжить во всех местах, оно ставится. Я просто шиз и хочу автономной вопроизводимости, потому почти 2 часа делал локальный layout, чтобы потом из него можно было поставить без доступа к интернету. К слову, заработало с первой попытки, как бы плох не был виндоус и всё что на нём есть, документация микрософта к виндоусу и другим своим штукам почти лучшее, что я видел. В WinAPI целые статьи размышлизмы, где не просто список переменных как в этой "автодокументации", а просто свободный текст на тему с тем что это и для чего, или полный код примера без зависимостей, например.
5 - В батник сборки дописать какой-то батник из nvidia toolkit cuda (или как он называется), который прописывает пути к cl.exe/link.exe
6 - Запустить.
Пункты 1/2 по минуте.
Пункты 3/4 по 5 минут, так как там архивы по 2 гб, загружаются и ставятся.
Пункт 5 просто нужно знать.
Пункт 6 на не самом последнем процессоре почти 10 минут занял.
Не 5 минут, но и не 3 часа. К тому же ни на одном этапе не возникло тупых ошибок которые не гуглятся. При этом, я ещё и капризным clanq решил покомпилировать, хотя обычно у него намного больше проблем и конфликтов, по сравнению с mingw.

К слову мне стало интересно сможет ли локальный glm-4.7-flash объяснить мне как всё это сделать и пересадить его на ик-ламу, и он полностью локально ответил мне на первые четыре вопроса, только про батник с настройкой переменных среды нвидиа-куды не справился. Ну и корп естественно мгновенно правильно на это ответил.

Аноним 02/02/26 Пнд 12:11:01 #274 №1507243

>>1507238
Ты думаешь расписав простыню он изменит мнение? Им даже прогнать докерфайл сложно, а оллама это вершина удобства только потому что там экзешник в одну кнопку

Аноним 02/02/26 Пнд 12:17:41 #275 №1507253

>>1507238
>путь к компилятору. У меня их несколько
У меня их ноль, так что...
>>1507243
>докерфайл
Требует докер, а под виндой... Ну в общем да, как всегда.
>а оллама это вершина удобства
Я на кобольде. Не, вебуи ставил когда-то, конфиуи стоит для картинок/видосов. Но я уже давно выгорел для таких развлечений.

Аноним 02/02/26 Пнд 12:19:21 #276 №1507254

Походу мёртвая модель по прибытию, дискорды и 4чан молчит хотя уже 4 часа доступна в опенроутере

Аноним 02/02/26 Пнд 12:20:24 #277 №1507257

>>1507068
Не VRAM а RAM. Слоты - как раз про свапинг уже просчитанного контекста из VRAM в простую RAM, чтобы когда что-то вроде расширения таверны обновляющего трекер делает новый запрос, старый контекст основного ролеплея не терялся, и не нужно было его заново потом считать. Такое давно напрашивалось, хорошо что сделали наконец. В кобольде оно еще и работает (теперь трекерами хорошо пользоваться, а не мучительно больно), в самой лламе - не в курсе.

Аноним 02/02/26 Пнд 12:48:54 #278 №1507285

>>1507254
Всем уже похуй на эти модели, ясно что все что выше квен 235б это просто крутилки агентов чтоб подольше не глючили

Аноним 02/02/26 Пнд 13:11:37 #279 №1507299

>>1507254
Безработный чел, ты? Каждую секунду рефрешишь тредисы в надежде, что кто-то скажет что-то интересное?
Нормальные люди делами занимаются, а не пиздят 24/7 на бордах.

Аноним 02/02/26 Пнд 13:20:13 #280 №1507305

изображение.png

Постоянно пропускает закрывающий </tool_call>, где-то на каждом десятом вызове.
Я уже в chat-template дописал "не забывай закрывающий </tool_call>" на английском - и всё-равно.

Есть способ бороться, или забить и парсить самому, что мол если функция началась до после передачи последнего аргумента она сразу собирается игнорируя последний </arg_value> и </tool_call>?

Аноним 02/02/26 Пнд 13:38:51 #281 №1507327

>>1507128
>Кумерам проще. Мне вот из перечисленного только GLM 4.7 зашёл. Остальное или не запустить, или слишком соевое, как минимакс.
Учитывая что все эти модели сейчас имеют период промоушена и доступны в целом бесплатно я даже не заморачиваюсь с тем чтобы пытаться их локально запустить. Ну кроме Flash разве что, его запустил локально и он вполне себе сидит-пердит, я им активно пользуюсь. Но сейчас модели с открытыми весами которые используются как инструменты охуеть какие доступые, бери не хочу. А я хочу. В итоге бегаю и пользуюсь всем, даже на кум нет времени.
Хотя паралельно читаю как мне GLM в таверне генерирует охуительные истории про то как две кошкодевочки друг в друга гондоны с водой кидают и пытаются выебать друг друга.

>>1507141
>Мне интересно насколько оно умеет в инструменты, текстовый чатик не интересно - стоит пробовать?
Очень сильно может. Он активно понимает что если один инструмент не годится для задачи надо переидти на другой и постоянно меняет стратегию.

GLM кстати я бы не стал использовать как архитектора, у него теория разума не очень сильная, он сам себе инструкции так себе пишет. Пока в этом только Kimi отличился, он да, он вообще без проблем берёт на себя роль управленца. он явно обучен писать инструкции другим ЛЛМ.
Но Flash пиздец умный. Я ему дал задачу так он чух-чух эффективно вызвал точечно инструменты, потом в CLI полез и там через него сделал массовые правки, ещё и сходил проверил билдится или нет, понял что обосрался, починил самостоятельно. е-б-а-н-у-т-с-я. умный пиздец. у него цикл само-коррекции какой-то железобетонный. даже если запнутся он знает как обратно встать. чисто как оператор инструментов он прямо мегасилён.

Аноним 02/02/26 Пнд 14:04:37 #282 №1507353

image.png

>>1504270
напоминаю базу треда

Аноним 02/02/26 Пнд 14:08:04 #283 №1507357

image

>>1507353
Опять без Геммы...

Аноним 02/02/26 Пнд 14:14:26 #284 №1507367

изображение.png

>>1507353
Оффтоп, это в попенсорс не выпустят.

Аноним 02/02/26 Пнд 14:18:25 #285 №1507374

>>1507367
Тише будь. Тут важные вещи происходят, с выходом glm-5 в тред вернется нюня

Аноним 02/02/26 Пнд 14:26:09 #286 №1507390

>>1507374
Всем кроме полутора риговичков будет строго похуй на глм 5, интересен только новый эйр которого не будет.

Аноним 02/02/26 Пнд 14:28:08 #287 №1507397

>>1507079
Молодцы что сразу свой форк llamacpp запилили. Если, конечно, оно действительно поддерживает основные фишки модели и не сильно перелопатило глубокую логику (не вмерджат нормально).
>>1507087
11б активных, скользящее окно в 75% слоев, параллельный ризонинг. Вполне себе флеш, просто "экспертов" навалили.
>>1507108
Насколько понял, логика там чуть другая. В 8гигов рам кэша нормальные слоты не вместятся, оно не делит участки кэша. Далее, если оно очистив один слот не может поместить нужное - в зависимости от parallel оно не берется убивать другие, а лишь притаскивает костыли с меньшим батчем и потом падает.
>>1507327
> Но Flash пиздец умный.
Восторг - это хорошо, но описанное тобой доступно уже пол года для обывателей в мелких моделях и года 1.5 для пердоль с крупными.
> GLM кстати я бы не стал использовать как архитектора, у него теория разума не очень сильная, он сам себе инструкции так себе пишет
В каких инструкциях он тебя подвел?

Аноним 02/02/26 Пнд 14:28:14 #288 №1507398

>>1507353
Ничего интересного кроме Дипсика и ГЛМ нет в списке, но 99% местных их всё равно не пощупают, а остальной 1% будет визжать "ряяя через API не считается, только IQ2".
> жпт 5.3
Как ассистент норм, разницы с 5.2 даже под микроскопом не увидим.
> грок 4.2
Соевый кал. Удивительная хуйня - Грок Фаст литералли самая расцензуренная модель даже по меркам опенсорса, а обычный Грок соеевее Гемини.
> Клод
> Гемини
> Мета
Мусор, даже бесплатно не стал бы пользоватся.

Аноним 02/02/26 Пнд 14:39:08 #289 №1507415

>>1507397
>Восторг - это хорошо, но описанное тобой доступно уже пол года для обывателей в мелких моделях и года 1.5 для пердоль с крупными.
Не на этом уровне. Совсем далеко не на этом. Например, он самостоятельно смог понять что инструмент работает не корректно, так как додумался верифицировать результат своих действий, а потом просто полез в CLI и через него сделал примерно то-же самое. Такую хуйню из масштаба 30b при мне ещё никто не творил.

>В каких инструкциях он тебя подвел?
Да буквально написания промпта самому себе. У него есть тенденция к гиперфиксации на задаче, в итоге он пытается написать всё и ничего. В итоге он не даёт другим ЛЛМ того что надо - чётких инструкций и контекста нужного для их завершения.

Аноним 02/02/26 Пнд 14:56:18 #290 №1507434

>>1507415
> Не на этом уровне.
Именно на этом, буквально оно, просто мало кто интересовался. Пример поломанного инструмента показателен, ведь летом были веселые баги с жинжей в ллама-сервер, из-за чего определенные вызовы вызывали ошибку типа да и сейчас такая ерунда встречается. И несчастный лоботомит с 3б активных параметров каждый раз начинал "взламывать", проявляя неожиданную находчивость, достигая своего, а потом продолжая прошлую работу используя подобранный вызов.
Исправления косяков тут же, если пожадничать с квантом то начинают пролезают синтаксические ошибки или странные символы. Буквально следующим постом после правок где это появилось, модель это замечает и подчищает за собой, не дожидаясь ошибок при выполнении. Ошибки при выполнении также дорабатывает, если задача адекватна размеру модели - весь путь пройдет само и отладит до конечной реализации.
> Да буквально написания промпта самому себе.
Субъективно - ну не дает флеш никакого вау эффекта. Сложные задачи не понимает и фейлит, а в простых это все уже было, все тот же умненький 30б лоботомит. Нужно понагружать его чем-то из среднего, если окажется лучше эйра/некста то вот это уже будет круто.
Это все довольно абстрактно, можешь простыми словами указать что именно ты хотел получить и как это делал? Как раз понять его слабые стороны.

Аноним 02/02/26 Пнд 15:39:08 #291 №1507467

>>1507353
Бля, хоть бы они размер глм не увеличили, хоть бы не увеличили...

Аноним 02/02/26 Пнд 15:39:49 #292 №1507470

>>1507238
>Открыть страничку, где описан процесс сборки
Линк?

Аноним 02/02/26 Пнд 15:42:29 #293 №1507474

>>1507238
>clanq
Это ты там raq-систему настраивал? За что ты так не любишь букву g?

Аноним 02/02/26 Пнд 16:03:15 #294 №1507487

>>1507474
Да. Я весь английский не люблю, пошёл он.

>>1507470
https://github.com/ikawrakow/ik_llama.cpp/discussions/258
Там где Install.
Для обычной llama скорее всего всё то же самое и там такой же файлик будет.

>>1507467
Да по идее не должны. Если этот упомянутый сегодня с утра step flash 3.5 на 200B быстрее генерирует и по бенчмаркам чуть ли не бьёт GLM, да и сама GLM со своими жилкими 358B в общем-то - это всё о том, что идёт оптимизация, что при том же количестве параметров всё больше мозгов.
Выбирай 350B вместо 1000B - вроде как это и обучать легче, дешевле и быстрее, и в инференсе быстрее и доступнее.
Я убеждён что для 1000B - это не про мышление, а просто куча данных записанная в весах. А само мышления, логика построения рассуждений это что-то полегче. И там по смыслу что-то вроде того, что в GLM-4.7-flash мышление - 5% весов, а данные - 95% весов, и всё это жутко неоптимизированно. А kimi2 - 1% мышление, а 99% данные. Суммарно он умнее, может быть даже в 3-4 раза, но разрыв по уровню мышления куда скромнее, чем по тому что он знает на уровне весов.

Аноним 02/02/26 Пнд 16:04:29 #295 №1507488

>>1507474
Кстати, лол. Я тут подумал. Я ещё пишу jps вместо gps. Не троллю, у меня даже проект есть jps_map_ver3.

Аноним 02/02/26 Пнд 16:36:39 #296 №1507508

>>1507299
Работающий первый месяц, ты?
Если модель интересует происходит моментальнейший её занюх на опенроутере, кокбенч и тредик в дискорде в течении часа.

Аноним 02/02/26 Пнд 17:02:32 #297 №1507527

изображение.png

Пупуру!
На связи 3060/12 скряга.
Теперь я 2х3060/12 скряга.

Аноним 02/02/26 Пнд 17:04:45 #298 №1507531

>>1507527
А рама сколько? Теперь с расцветом МОЕ только в нем сила

Аноним 02/02/26 Пнд 17:07:53 #299 №1507536

>>1507531
Что за странный форс? Только фуллврам, только хардкор.

Аноним 02/02/26 Пнд 17:11:12 #300 №1507537

изображение.png

>>1507531
у меня ddr3, там на раму лучше не смотреть. Рама ddr3 (с мощным, но для нейро негодящимся fx8350 дает 1-2 т/с).
Так что пока что я фулврам, иначе тоска. Жду отката цен через год-полтора.

Аноним 02/02/26 Пнд 17:11:35 #301 №1507539

>>1507536
Ну тогда тебе еще надо четыре 3060, чтобы хотя бы GLM 4.6V запустить или дальше терпеть на коротышках 20-30b

Аноним 02/02/26 Пнд 17:13:18 #302 №1507540

>>1507531
p.s я теперь квадратный 24Gb / 24Gb

Аноним 02/02/26 Пнд 17:15:07 #303 №1507543

>>1507537
>для нейро негодящимся
Как раз нейросети - одна из тех хорошо параллелящихся задач, где фуфыкс имеет шансы раскрыть свой потанцевал на все вложенные доллары и даже выше. Если сравнивать его с конкурентами его же времени, а не современными процами (и уж тем более видимокартами).

Аноним 02/02/26 Пнд 17:16:23 #304 №1507545

>>1507543
С медленной памятью хоть вагон ядер завези лучше не станет

Аноним 02/02/26 Пнд 17:16:55 #305 №1507546

>>1507543
он к сожалению не поддерживет ничего выше avx1, а следовательно звуки грустного тромбона

Аноним 02/02/26 Пнд 17:48:40 #306 №1507576

изображение.png

>>1507527
Нейросеть пиздит!

Аноним 02/02/26 Пнд 18:02:00 #307 №1507587

>>1507539
Больше карт для трона карт, больше врама богу врама!
>>1507543
Не с нейронками. Если брать в среднем по больнице, то на фуфыксе считать будет только умалишенный, разница перфоманса там десятки-сотни тысяч раз по сравнению с современными гпу. Это для ллм на проц скидывают самые простые операции где весь упор в псп рам и компьюта много не нужно.
Учитывая латентную и медленную рам, где все идет через СЕВЕРНЫЙ МОСТ, вялую ддр3 - будет все ужасно. Но отвратительная производительность в расчетах с плавающей точкой и тем более в векторных операциях может даже это переплюнуть, она в разы меньше "конкурентов того же времени" в лице сандаля, или тем более каких-нибудь хассвеллов+.

Аноним 02/02/26 Пнд 18:07:06 #308 №1507599

>>1507540
Теперь можешь Qwen 80b в 3 кванте запускать. И даже будет быстро работать. Поздравляю
https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF

Аноним 02/02/26 Пнд 18:08:12 #309 №1507602

>>1507599
>3b лоботомит в q3
>для кода

Аноним 02/02/26 Пнд 18:11:25 #310 №1507610

Qwen3-Next-80B-A3B-Instruct.001.jpeg

>>1507602
Напоминаю, что Qwen 80 > Qwen 32 > Gemma/Mistral и прочая залупа

Аноним 02/02/26 Пнд 18:17:52 #311 №1507625

>>1507610
>3b в q3
>на пикче сравнение полных весов
Напоминаю, что чем меньше активная часть модели, тем хуже она квантуется. Ты упустил немного очень большую деталь

Аноним 02/02/26 Пнд 18:19:24 #312 №1507631

>>1507625
Не говоря уже о том что для кода нужен хотя бы Q6.

Аноним 02/02/26 Пнд 18:21:54 #313 №1507633

>>1507625
Все так, ты полностью прав. Но я из благих намерений писал. Я хотел хоть как-то обрадовать чела, купившую 3060. Я же не мог написать, что он потратил деньги в пустоту и продолжит кумить на тупорылых геммах и мистралях только на чуть большем кванте. А ты все испортил

Аноним 02/02/26 Пнд 18:24:47 #314 №1507638

>>1507633
Из благих намерений ты мог ему написать, что он теперь легендарные Ллама 70б рп тюны может гонять, пусть и в небольшом кванте, но работать они будут хорошо. Или использовать КвК 32б для кода, он не сильно отстаёт от доступных ныне мелкомоешек и работать у него будет чрезвычайно быстро. Это ты почти все испортил, пытаясь скормить челу вредительскую недосказанность

Аноним 02/02/26 Пнд 18:27:15 #315 №1507644

>>1507638
>Ллама 70б
>КвК 32б
Осталось только гемму 1 посоветовать. И тогда будет собрано фул некрофильское комбо

Аноним 02/02/26 Пнд 18:28:20 #316 №1507645

>>1507625
Распиши какая связь между количеством активируемых параметров и качеством квантования.
>>1507638
> КвК 32б для кода
Звучит как цирковой номер. Попробовать чтоли из интереса?
> отстаёт от доступных ныне мелкомоешек
> работать у него будет чрезвычайно быстро
В чем смысл использовать плотную модель вместо моэ если она от них отстает? Откуда возьмется "чрезвычайно быстро" если там пара 3060?

Аноним 02/02/26 Пнд 18:30:00 #317 №1507649

>>1507633
>>1507638
Не ссорьтесь. Я апгрейднусь через полтора года и тогда будет ок.
А пока буду пробовать 24/30b и всякое такое. Мб даже на русике.
Кидонию вот в четвертом кванте закатил. На одну 3060 не влазила.

Аноним 02/02/26 Пнд 18:39:28 #318 №1507663

>>1507644
>>1507645
Причина негатива? Идите смотрите бенчи, Квк 32 почти на уровне с Квеном Некст и 30б кодером. Мое он запустить не может, потому что рам мало и скорость говно. Предлагайте альтернативу лучше, чем использовать q3 квант для кода, клоуны

Аноним 02/02/26 Пнд 18:42:36 #319 №1507666

По отзывам реддитовичков и вейп кодеров с ютуба квк 32 даже лучше кодера 30б. Держу в курсе вахтеров, что разводят срач на ровном месте вместо того чтобы дать уж точно правильный совет

Аноним 02/02/26 Пнд 18:49:31 #320 №1507669

>>1507353
> glm 5
Ухух, ребятушки, а что тут у нас?
Ещё одна модель для богатых, ммм, фуф ну надеюсь нас крестьян не оставят без еды и дадут флэшку на 10б

Аноним 02/02/26 Пнд 18:51:04 #321 №1507671

>>1507644
Ллама 70б по-прежнему умница и имхо играется лучше Эира и Квена 235 в приличных квантах. Подозреваю, ты ее никогда и не запускал даже, лул. Всяко лучший совет чем моелоботомита в q3 запускать.

Аноним 02/02/26 Пнд 18:52:14 #322 №1507672

>>1507669
Они недавно выпустили GLM 4.7 Flash на 30b для нищих. В чем причина тряски?

Аноним 02/02/26 Пнд 18:57:02 #323 №1507678

>>1507672
В том что нищими они считают всех до 350б. У тебя 24врам + 96рам? Юзай то же что и чел с 12 + 16

Аноним 02/02/26 Пнд 18:57:34 #324 №1507680

>>1507633
Достаточно того, что у него теперь 24B и 27B в full vram. А для геммы это прыжок с ~1.5 t/s неюзабельных, до 10-12 - даже если второй картой огрызок p104-100. А тут аж 3060.

Аноним 02/02/26 Пнд 19:04:08 #325 №1507687

>>1507680
>до 10-12 - даже если второй картой огрызок p104-100. А тут аж 3060
Не хочу тебя расстраивать, но у 3060 320 гб/с. Что равняется примерно 24*13.

Аноним 02/02/26 Пнд 19:06:27 #326 №1507689

>>1507678
>У тебя 24врам + 96рам? Юзай то же что и чел с 12 + 16
Чел с 12 + 16 не сможет запустить GLM 4.6V, а 24врам + 96 - влегкую. Только пройди чек iq с настройкой сэмплеров и не бери их для теста на вижен.

Аноним 02/02/26 Пнд 19:07:07 #327 №1507691

>>1507545
>>1507546
У сандиков аналогично.
>>1507587
>СЕВЕРНЫЙ МОСТ
>производительность в расчетах с плавающей точкой
Виноват, отвык уже и подзабыл, как оно раньше было. В фуфыксах и правда 1 общий фпу на 2 ядра. Но всё равно интересно было бы потестировать и сравнить. Если вдруг у кого-то 2600k завалялся.

Аноним 02/02/26 Пнд 19:10:38 #328 №1507698

>>1506626
>--cache-type-k q8_0 --cache-type-v q8_0 --k-cache-hadamard
У меня гемма тупеет от этой хуйни, не рекомендую, на модели в 8ом кванте это очень заметно, на других не пробовал

Аноним 02/02/26 Пнд 19:24:19 #329 №1507718

Аноны, а как этот новый степ флеш в плане секса?

Аноним 02/02/26 Пнд 19:30:12 #330 №1507720

>>1507663
> Квк 32
Ну такое.
Оно выглядит слабее квенкодера 30а3. Более старый датасет, чаще не просто DeprecationWarning а неработоспособный код с требованием легаси версий. Хуже абстрагируется от прошлой истории и разница между свежим контекстом/наполненным ощутимая. Меньше склонна бить на части и сразу пытается охватить все из-за чего количество ошибок выше. Странно пользуется ассортиментом тулзов, то активно запускает поиски на общеизвестную ерунду, то вообще только читает/пишет, и вообще они часто багают.
Можно отметить и сильные стороны - при запросах рефакторинга пытается сразу более глубоко понять суть и активнее перестраивает, оптимизируя алгоритм. Или предлагает менее надмозговые решения по ходу. Но в процессе может отвлекаться теряя их, плюс много ошибок допускает. Если добавить сюда скорость и времязатраты на раздумья - сомнительно.
> почти на уровне с Квеном Некст и 30б кодером
> Предлагайте альтернативу лучше
Пишешь что она почти как модель, которая меньше и быстрее, а через предложение об этом уже забыл?

Аноним 02/02/26 Пнд 19:31:14 #331 №1507721

>>1506639
Благодарю

Аноним 02/02/26 Пнд 19:36:18 #332 №1507728

>>1507698
>У меня гемма тупеет от этой хуйни, не рекомендую, на модели в 8ом кванте это очень заметно, на других не пробовал
У меня квант 4-й и кэш квантовать всё равно приходится, так что выбора не особо. В таком кванте отупения (пока) не заметил, может даже наоборот.

Аноним 02/02/26 Пнд 19:36:25 #333 №1507729

>>1507691
У сандаля в линпаке овер 200 гфлопс было, у фуфыкса около 60. По сравнению кто-то писал что на ддр3 некрозеоне у него не так уж плохо, хотя тоже сомнительно. Если есть фуфыкс - прогони что-нибудь, хоть какое-то развлечение.

Аноним 02/02/26 Пнд 19:38:23 #334 №1507734

>>1507718
У меня место на диске кончилось, не могу скачать. Ну и всё ещё нет гарантии, что лама поддерживает. Какие-нибудь анслоты уже скачали бы со своими 10 ГБит/с интернетом и отконвертили бы ещё два часа назад по идее, если бы лама поддерживал.
Я не сомневаюсь что билд ламы они сами сконвертить могут - но в этом смысла не будет, если в основную ветку добавят как-то иначе и их квант не будет там работать.

Аноним 02/02/26 Пнд 20:14:29 #335 №1507764

>>1507728
>У меня квант 4-й и кэш квантовать всё равно приходится
Не, сейчас ещё раз перепроверил - всё чётко. Анализ 17к контекста с саммарайзом долгого и сложного ролеплея - нет нареканий. Может для каких-то задач квантование кэша с использованием преобразования Адамара и портит вывод, но для ролеплея определённо ништяк.

Аноним 02/02/26 Пнд 20:17:30 #336 №1507767

>>1507734
Чтож, в таком сучае ждём. У меня в голове почему-то была мысль что уже отквантовали и затестили

Аноним 02/02/26 Пнд 20:20:57 #337 №1507775

Будем реалистами, нет ни одного шанса что они успели сделать и большой глм и эир.
Скорее эир даже ни разу не потыкали с 4.6v

Аноним 02/02/26 Пнд 20:24:38 #338 №1507783

>>1507775
Похуй. GLM Q2 is the way

Аноним 02/02/26 Пнд 20:51:34 #339 №1507825

>>1506979
Я напоминаю, что на всех современных версиях жоры надо обязательно ставить -np 1 -kvu, иначе в новом чате будет тг как в старом. Мб это твою проблему тоже решает

Аноним 02/02/26 Пнд 20:52:27 #340 №1507827

>>1507825
Что это? Зачем?
Мимо впервые вижу

Аноним 02/02/26 Пнд 20:56:45 #341 №1507829

>>1507827
>Что это?
Аргументы запуска
>Зачем?
Чтобы в новом чате была нормальная скорость тг, а не засранная старым чатом

Аноним 02/02/26 Пнд 21:06:06 #342 №1507840

>>1507829
Ясен хуй параметр запуска. Как именно он работает то?

Аноним 02/02/26 Пнд 22:22:47 #343 №1507955

>>1507687
Как бы в курсе, у самого такое. Но у обычной рам того поколения - и 50 не наберется. А даже при 3060+p104 full vram - это 10-12 t/s у геммы 27b и 15-18 у мистраля.

Аноним 02/02/26 Пнд 22:31:01 #344 №1507961

>>1507825
> иначе в новом чате будет тг как в старом
У меня нет такого. Нормально откатывается назад.

Аноним 02/02/26 Пнд 22:46:04 #345 №1507978

Решаещь порофлить и рассказываешь чару, что оно нейросеть
@
Через сто сообщений обещаешь сохранить чат и запустить на продвинутой модели, когда придет время

Аноним 02/02/26 Пнд 22:47:22 #346 №1507980

image.png

>>1507718
Cock бенч подъехал, новый ШИН получается? Пишет достаточно красиво, на сколько я могу судить.
Ух сейчас в лламу смёрджат пр, ух баляяя. Ещё бы на русском шпрехал этот степ браза.

Аноним 02/02/26 Пнд 22:50:26 #347 №1507985

>>1507980
Хуй знает, он банально ниггера не проходит. Дальше не вижу смысла тыкать палкой сорта сои.

Аноним 02/02/26 Пнд 22:51:47 #348 №1507987

>>1507985
Прибежали скиллишью...
Какого нигера, где? В ассистенте? С ризонингом или без?

Аноним 02/02/26 Пнд 22:54:56 #349 №1507989

>>1507985
Без префилла мне что аир отказывал, что мистраль блять (как же давно это было). Но я то их в ассистенте тестирую, а как запущу карточку "nerdy 4chan neet sister that spits out racial slurs" так всё распёрживается и работает нормально.

Аноним 02/02/26 Пнд 23:01:23 #350 №1507994

Тоже попробовал Step-3.5. А неплохо, уровень GLM я бы сказал. Хороший русский. Модель умна. На Реддите жалуются на избыточный ризонинг - не заметил. Дипсику уступает, но с учётом размера - это новый вин.

Аноним 02/02/26 Пнд 23:02:59 #351 №1507996

>>1507994
Тогда ГДЕ КВАНТЫ БЛЯТЬ
Я жду целые сутки, не лезет у меня 4-й

Аноним 02/02/26 Пнд 23:08:07 #352 №1507999

>>1507996
Терпи, мелкопамятный
И я с тобой потерплю
И ещё пол треда с некропечками потерпит

Аноним 02/02/26 Пнд 23:09:22 #353 №1508001

>>1507996
>Я жду целые сутки, не лезет у меня 4-й
Всё равно рано ещё, поддержку не допилили. Но работают активно, всё будет.

Аноним 02/02/26 Пнд 23:38:05 #354 №1508012

>>1507840
np - количество подключений. Если ты один, то лучше прописать 1, иначе будет какая-то хуйня, где он будет хранить память из разных чатов
kvu - залупа с кэшом, типа скорость поднимает не у меня
P.S. Я другой анон

Аноним 02/02/26 Пнд 23:42:13 #355 №1508018

image.png

Я тут сегодня довел до ума переводчик книжек(код буквально сломан оказался, пришлось с чат гопотой полдня сидеть и переписывать основные части.) .
https://github.com/illian64/llm-translate/blob/master/doc/ru/readme.md
И сейчас геммочка на потоке переводит книжки. Качество перевода такое, что я теперь верю в заговор корпов. Если слабенькая 12В переводит так, что почти неотличимо от человеческого перевода - почему все доступные быдлу сервисы перевода настолько уебищные и рынок переводчиков еще не рухнул?Казалось бы, они должны были уже сдохнуть, а нет, наоборот жируют, твари - сраные переводы игр все за пейволлами на бусти.

Аноним 02/02/26 Пнд 23:42:39 #356 №1508019

Напоминаю, что Context Shift тоже через жопу работает и его нужно отключать флагом --no-context-shift

Аноним 02/02/26 Пнд 23:49:31 #357 №1508024

>>1508018
>рынок переводчиков еще не рухнул?
Переводите сами.
@
Я???

Аноним 02/02/26 Пнд 23:51:05 #358 №1508027

>>1508012
> типа скорость поднимает
Не поднимает, а позволяет вернуть к исходным значениям на коротких контекстах. В противном случае оно оставляет кэш заполненным (просто сохранение с другого чата, не задействуется) и перфоманс даже в новых чатах не как с пустым а как с полным контекстом.
тоже мимо
>>1508018
> почему все доступные быдлу сервисы перевода настолько уебищные
Неиронично яндекс попробуй. В отличии от гугла, который делает надмозги и постоянно искажает (100м нейронка литерали) там хотябы старается учесть контекст, имеет функционал что был раньше в гугле с заменой, и подбирает примеры с фразами. Когда лень до ллмки тянуться вполне себе вариант.
>>1508019
Он когда-то нормально работал вообще? Кроме парочки моделей, которые для этого предназначались. Алсо он давно по умолчанию отключен, включили обратно?

Аноним 02/02/26 Пнд 23:51:32 #359 №1508028

>>1508019
Он просто работает, а вот нужен он или нет пусть каждый для себя решает

Аноним 03/02/26 Втр 00:09:32 #360 №1508036

>>1508024

Так я и перевожу, как видишь. Гемма крутится, переводы мутятся.
За час-два переводится целая книга.

>>1508027
>Неиронично яндекс попробуй.

Я им и пользовался, но он довольно плох в плане родов, склонений, даже в однообразном написании одного и то же имени.

Аноним 03/02/26 Втр 00:16:25 #361 №1508040

>>1508018
Посмотрел внимательно на твои скрины и ужаснулся. "Заговору корпов" нечего бояться. А ты сам смотрел что получается?

Аноним 03/02/26 Втр 00:34:28 #362 №1508043

>>1508018
>И сейчас геммочка на потоке переводит книжки.
Сделал бы ты ещё плагин для Таверны под это дело. Реально нужная вещь - ответы ИИ переводить.

Аноним 03/02/26 Втр 00:53:34 #363 №1508048

>>1508019
Контекст шифт отключен по умолчанию, там флаг не нужен

>>1507961
У меня не на всех моделях это проявлялось, на большом глм точно было, на гопоте вроде нет

>>1508043
Меджик транслейтор же есть

Аноним 03/02/26 Втр 01:17:21 #364 №1508055

>>1508048
>Меджик транслейтор же есть
Лично мне пришлось его подпиливать, чтобы он хотя бы ответ модели правильно парсил - полностью. Как бы и со всем остальным там примерно так же. Чувствуется, что сам автор им не пользуется.

Аноним 03/02/26 Втр 02:09:08 #365 №1508069

>>1508018
Deepl заебись переводит, никогда почти проблем с ним не было, только большой текст бесплатно нельзя

Аноним 03/02/26 Втр 10:42:43 #366 №1508080

>>1507980
Каждый раз ору с грока. Хуй, пизда, чен, ПИПИСЬКА, О ДА, ДАВАЙ СЮДА СВОЙ ЧЛЕН

Аноним 03/02/26 Втр 10:45:15 #367 №1508086

>>1507128
>слишком соевое, как минимакс.
Минмакс не соевый, это ассистент. Ты буквально подходишь к офисному бухгалтеру и просишь его написать стихи.

Аноним 03/02/26 Втр 11:04:27 #368 №1508134

Сап двач. Сейча схуярю кобольд и силлитаверн на 3070Ti и 32гб 3200 ddr4, НО! появился варик купить у кента 3090 (не ужаренная, реально из под игр). Вопрос - насколько это даст прироста в LLM, стоит ли игра свеч учитывая её цену (50к рубасов), и вытянет ли её мой блок (Gigabyte P850GM - выпущен ПОСЛЕ 2022 года, живет спокойно уже 3 года). Если что, проц 12600KF

Аноним 03/02/26 Втр 11:26:52 #369 №1508153

Скачал Step-3.5 локально в 4-м кванте, собрал их форк. Кстати ключ fit реально рабочий, спасибо анону, который посоветовал. Теперь не нужны ни ngl, ни ncmoe, ни ts - всё распределяется автоматом и довольно точно. Использовал шаблон чатмл и think-префил, чтобы ризонинг отключить ну и покладистой чтоб была. Это не родной шаблон, так что без префила возможны косяки. Инференс быстрый (в два раза быстрее Квена), внимание к контексту и соображалка отличные. Очень заметно, что модель думает как-то по-другому, чем ГЛМ или Квен. Иногда к сожалению также заметно, что агенты всего по 11В. В ерп может. Пока впечатление очень хорошее.

Аноним 03/02/26 Втр 11:30:25 #370 №1508159

>>1508086
Это соевый ассистент. Тот же ГЛМ даже с зинкингом нормально отыгрывает любые сценарии, а минимакс не может продолжить даже ванильный подкат, если в контексте до этого было что-нибудь горячее.
>>1508134
Бери конечно.

Аноним 03/02/26 Втр 11:30:39 #371 №1508160

>>1508134
>стоит ли игра свеч учитывая её цену (50к рубасов)
50к за карту не из-под майнера это вообще не цена. Ты посмотри, что на рынке творится. +24гб и довольно современный чип для ЛЛМ лишними не будут, уж поверь.

Аноним 03/02/26 Втр 11:34:12 #372 №1508162

>>1508159
> не может продолжить даже ванильный подкат
Потому что он не для этого.

Опытным путем было установлено, что квеноняша в Q4 смолл все таки сильнее ебет в суммарайзе чем голээм 4.7.
Как же я счастлив, что эта квенохуйня не может, сука, перестать быть бесполезной. Ты такой молодец квен, как же я тебя ненавижу. Почему ты пидор не можешь быть нормальным в РП.

Аноним 03/02/26 Втр 11:41:13 #373 №1508165

>>1508160
Понял, брат. Тут скорее вопрос был в том - вытянет ли мой блочок, ибо на киловаттник бабоса пока нет совсем. (карту собираюсь всё равно ужимать ватт до 300)

Аноним 03/02/26 Втр 11:41:15 #374 №1508166

>>1508134
Я без вопросов и сам бы 3090 взял за 50к.

Аноним 03/02/26 Втр 11:55:57 #375 №1508183

изображение.png

>>1508165
В инференсе карты будут работать по очереди, т.е. они не будут отжирать всю суммарную мощь одновременно.
мимозавидует и сам бы взял если бы не 3090/24, то новую 5060ti/16 за те же ~50к, но жаба-жабонька
А вообще, посчитай на каком-нибудь калькуляторе (в сети есть) свою сборку, как видяху выбрав 3090, это будет прям пик потребления твой.
Относительно современные видяхи в покое потребляют немного (мои 3060 выше 20Вт в покое не едят)
Киловатника по идее может хватить, но я бы взял на вырост какой-нибудь хороший блок 1250Вт, как будет хорошее предложение. Когда будешь на следующий сокет переходить, скажешь себе спасибо.
Ну в общем, прокалькулируй, не помешает. И да - измерь свой системник, оно можешь банально не влезть, посмотри на разъемы, прикинь что где. Мне, чтобы в стандарт atx впендюрить 2x3060/12 пришлось основательно поиграть в тетрис видяхами и hddшками. Конечно всегда можно райзер купить, но...

Аноним 03/02/26 Втр 12:00:04 #376 №1508191

Итак, 4080 уехала на расширение жопы. Отпишусь.
Если все выгорит и будет работать, то за 160к можно получить 48гб жддр7.
Переходим в режим ожидания.

А как пеку запустить без видюхи… чёт об этом я не подумал…

Аноним 03/02/26 Втр 12:03:23 #377 №1508193

>>1508191
Вытащи рыксу из мусорного бака. Браузер тянет

Аноним 03/02/26 Втр 12:03:47 #378 №1508194

>>1508191
сочувствуем, держим пальцы крестиком, завидуем и лол, ну ты чо, займи у коллег 1660 super-huyuper что ли, по-любому у кого-нить лежит ненужная.

Аноним 03/02/26 Втр 12:11:34 #379 №1508201

image

>>1508191
Какую-нибудь затычку с авито взять на время, как вариант.

Аноним 03/02/26 Втр 12:12:19 #380 №1508203

>>1508194
>>1508193
Я в комиссионку зайду и за целых 2.5к куплю затычку.
Ух бля, надеюсь 2фоллыч заработает.

Аноним 03/02/26 Втр 12:19:00 #381 №1508212

>>1508183
Не, брат. У меня с бабосом туго, и я точно свою 3070ти буду продавать после того как куплю 3090. Так что она одна будет стоять в midi-tower корпусе.

Аноним 03/02/26 Втр 12:20:35 #382 №1508219

>>1508212
и все-таки измерь длину. На всякий случай.

Аноним 03/02/26 Втр 12:35:03 #383 №1508230

>>1508153
Насколько хорошее?
4.7 350 глм хорошее или хуже?

Аноним 03/02/26 Втр 12:35:34 #384 №1508231

>>1508212
Тогда какие вообще вопросы по питанию? 100% вытянет >>1508134
>Gigabyte P850GM

Аноним 03/02/26 Втр 12:59:20 #385 №1508253

Вангую в ерп это в десять раз хуже эира.
Сука, ну хули из вас клещами надо инфу вытаскивать, чел еще и с мержем обосрался теперь неделю ждать

Аноним 03/02/26 Втр 13:18:14 #386 №1508267

>>1508253
Терпи, тебе другого не дано

Аноним 03/02/26 Втр 13:28:12 #387 №1508273

изображение.png

Приятно слышать, что степ-флеш хороший.
GLM это конечно хорошо, но 358B\32 - это по хорошему 240 ГБ в 4 кванте (честные 4.0bpw - 180 ГБ, Q4_K_M на 4.7bpw - 210 ГБ + кеш на 10-20 ГБ и компут-буферы, ещё и другие штуки в операционке). То есть это 160+64 или 192+64, что-то такое. А из-за 32B активных просто карточки на 32 ГБ может быть и не хватит, и нужно 48/64 VRAM.
Step-flash 200B\11 - это уже без проблем влезает в лёгкодоступные 128+32. (4.7 bpw - 117 ГБ, ну и оставшихся 30 ГБ как-то уж хватит на кеш, хотя бы на 128к (вроде как на полных 256к нужно 50 гб)) А там ещё и MTP-3, и активных параметров меньше, что сделает генерацию быстрее.

Гоняю сейчас MoE 4B\0.6, код на с++ нормально пишет, лол, лучше геммы E4B - но хуже разговаривает.

Я правильно понял, что MTP-3, это что-то вроде подхода с уменьшенной draft-моделью, только это встроено в сетку, что 1 токен генерируется, а 2 токена прикидываются и потом просто сверяются? Странно что это не везде используют, по идее я когда пишу текст, я сразу знаю не только следующее слово, но и слово, которое я напишу через 2 предложения, ну и вообще какие-то представления о будущем у меня уже сейчас есть, и потом я их не выдумываю, а просто записываю. То есть думаю что у меня в голове скорее что-то вроде MTP-100, причём не ровно на 100 вперёд, а на 20 вперёд, и потом ещё отдельные куски через 100, через 200 или через 1000 - соображения о том, что будет дальше. Думаю, за этих подходом будущее. Да, он снизит качество на 20-30%, по сравнению с "токен-за-токеном", но увеличит скорость в 10 раз в итоге. Нельзя написать одно слово и при этом не иметь никаких представлений о следующем слове - а это почти никак не используется в ллм. Может быть будет как-то подход, что итерация супер лёгкая (меньше весов в моделе в кажжом месте), и она за один проход даёт вероятности для токенов n+1, n+2 ... n+100, на следующем шаге один токен семплируется, считаются новые вероятность и усредняются с имеющимися, и в итоге к моменту генерации токена там идёт оценки за последние 100 более лёгких шагов, что позволяет сильнее выверить токен. Возможно это и так математически эквивалентно тому, что происходит с Q матрицей в трансформере, и я сказал то что уже и так везде работает.

>>1508153
>Кстати ключ fit реально рабочий
Он же по умолчанию включён.

Аноним 03/02/26 Втр 13:54:29 #388 №1508284

>>1508273
>Странно что это не везде используют
Много где есть, но жора в это не умеет. В ГЛМ например, как раз эти слои и пишутся каждый раз неиспользуемыми.
>я сразу знаю не только следующее слово, но и слово, которое я напишу через 2 предложения
MTP только для ускорения, оно, как я понимаю, не бустит соображалку модели.
>и при этом не иметь никаких представлений о следующем слове - а это почти никак не используется в ллм
Даже в GPT2 есть представления о будущем слове, например, для артиклей a и an (было такое исследование).

Аноним 03/02/26 Втр 14:34:07 #389 №1508313

>>1508086
Ну типа у нас много моделей широкого профиля, который без проблем и шлюха в постели, и сеньер-кодер, и мамочка сказки перед сном почитать, и что угодно. А тут модель слишком уж ужарена пост-тренировкой на такие аутпуты. Модель для рп, которая тут мелькала, скорее всего просто их база без всего этого, или минимальный тюн.
>>1508134
Если те 50к не последние деньги и ты готов потратиться на хобби - бери конечно, это оче серьезный апгрейд.
>>1508153
> агенты всего по 11В
Там агенты по ~600М если что, 11б - число активных параметров, это совсем разные вещи.
>>1508191
> 4080
> 48гб жддр7
А? Их же делают в 32 жддр6х, удвоение от исходного.

Аноним 03/02/26 Втр 14:46:58 #390 №1508327

>>1508273
> кеш на 10-20 ГБ
Если кодить собрался - 50.
> MTP-3
> To improve inference speed, we utilize a specialized MTP Head consisting of a sliding-window attention mechanism and a dense Feed-Forward Network (FFN). This module predicts 4 tokens simultaneously in a single forward pass, significantly accelerating inference without degrading quality.
Помимо простой головы, которая дает вектор [словарь], сложная голова, которая дает матрицу [3, словарь]. А потом уже дальше может переоцениваться и сбрасываться. Это лучше чем драфт модель, да.
> Странно что это не везде используют
Используют, тема не новая. Есть еще параллельный ветвящийся ризонинг в много потоков и другие интересные вещи.

Аноним 03/02/26 Втр 14:50:22 #391 №1508333

>>1507434
>Пример поломанного инструмента показателен, ведь летом были веселые баги с жинжей в ллама-сервер, из-за чего определенные вызовы вызывали ошибку типа да и сейчас такая ерунда встречается.
Я не пользуюсь jinja в принципе, для понравившихся моделей я просто хардкожу хуйню которая превращает мой внутренний формат чата в то что понимает модель и рядом лежит то что читает его обратно чтобы делать корректно сериализацию-десериализацию вызова инструментов. Мне в принципе не нравится chat/completion формат, он очень плохо транслируется в полный потенциал моделей. у некоторых моделей он вообще запрещает одновременный текст и вызов инструментов, например. что очень сильно отупляет модель в реальных условиях, так как например та-же гемма резко умней становится, когда сама себе проговаривает что она делает.

я видел именно пример когда модель в своем CoT написала анализ что инструмент не делает то что оно ожидает и поискало альтернативы, рассуждая какие будут лучше и рассматривало доступные варианты. Без прямого указания это делать. Такую хуйню никто буквально не делал, даже OSS 120b. Ни немотрон, ни квен ни многие другие модели которые казалось бы натренировано на это такую хуйню даже близко не творили в 30b. GLM прям любит себя спрашивать "стоп, а не делаю ли я хуйню?". Для достижения схожих результатов другим моделям требовалось сильно больше системный промпт и водить там за ручку с шорткатами в пайплайне работы. А в этого чорта можно кинуть "вот твои инструменты, ебись". Это первая модель которая усомнилась в результатах выполнения инструмента, заметив противоречие в результате работы инструмента и других предоставленных данных. То есть лол "эээ падажи. инструмент написал что он выполнился корректно, но я вижу что он пиздит. нука проверю."

>Это все довольно абстрактно, можешь простыми словами указать что именно ты хотел получить и как это делал? Как раз понять его слабые стороны.
Хуевая теория разума это минус GLM в целом. Вообще чем более заточена модель под программирование тем хуже у неё теория разума. Чтобы оно корректно работало модель должна корректно следовать инструкции "представь что у тебя нет половины контекста". А модели на программирование надрочены быть внимательными к всему контексту. Они не могут рассматривать задачу в отрыве от него. В итоге один ГЛМ другому ГЛМ пишет инструкции довольно сомнительного характера. Можешь попробовать что-то вроде [Как бы ты написал самому себе инструкцию накормить кота?] > [А теперь попробуй оформить в виде промпта.] Он порой такую хуйню пишет что выживание кота не гарантированно.

кстати Кими прям наоброт очень силён в командовании. Он даёт чёткие инструкции, сниппеты, контекст. Его фича с суб-агентами это прям то на что его реально натаскивали.

Я бы сказал в этом и есть главный минус ГЛМ - он очень любит рассеивать своё внимание, пытаясь вычленить какой-то кусок из промпта который может не относится к задаче. Это прям очень заметно в длинных контекстах с еРП, он там может начать фиксироватся на хуйне которая была пол контекста назад. А то и вовсе попытается вспомнить все детали текста и начинает какую-то адскую хуйню писать химмеризируя все что у него было в CoT.

Кстати дополню - в плане анализа кода он прям сильно превзошел мои ожидания. У меня есть один забавный кусок кода который я три недели писал, пропуская через себя литры кофе. Там в 1к строк кода упакован хитрый токенизатор C#, который даёт то что можно видеть в солюшен эксплорее - методы, переменные, сигнатуру. В итоге ЛЛМ например может запрашивать куски кода не через grep,а напрямую указывать "дай мне метод Х в классе У" и ему вернётся именно то что просит с конкретного по конкретный индекс буквы. Там очень жопный код с сложными стейтмашинами через goto переходы, чтением строки в один проход со скользящим окном и прочими трюками, где каждый этап логически строится на предыдущем. Можно сказать этакий высокопроизводительный Roslyn на коленке.

GLM единственный из масштаба 30b корректно понимает что там за хуйня вообще понаписана, как инпут превращается в аутпут и почему это работает так как работает. Притом в понимании написанного он даёт куда более детальное описание чем даже OSS 120b.

Аноним 03/02/26 Втр 14:51:15 #392 №1508334

Проигрываю с копинга нищуков, обмазывающихся степом вместо глм. Им минимакс 2.0 скормили, а они и радуются, не видев жизни.

Аноним 03/02/26 Втр 14:54:47 #393 №1508337

>>1508313
> А? Их же делают в 32 жддр6х, удвоение от исходного
Шкряб-шкряб
Хуйню написал, каюсь. Мы обсуждали с бойцом паяльника изначально 5090 и 4090, вот у меня и протек контекст. Хотя вейт э минут, я чет неиронично думал расширение жопы не x2, а до 48. Пойду ка уточню.

Аноним 03/02/26 Втр 14:55:02 #394 №1508338

>>1508334
Квеношиз обладетель неотсутствия, таблетки

Аноним 03/02/26 Втр 16:04:29 #395 №1508398

>>1508327
>Если кодить собрался - 50.
У меня полный контекст glm получился 40 гб в 16 бит, меньше чем у step-flash, где 50.
Если кодить, то я не до конца уверен насчёт 4.7bpw, и повышение кванта на полбита будет тяжелее, чем размер контекста.
Про ветвящийся ризонинг прикольная идея, да, я в общем-то в своей rag-системе такое тестирую сейчас, но там это поверх модели, и потом вторым запросом выбирается лучший варин

Аноним 03/02/26 Втр 16:08:40 #396 №1508402

изображение.png

Задумался вместе с ии об улучшении охлада системы:
Спереди (низ): 2 вентилятора на ВДУВ (там стоят два штатных обдувающие отсек с жесткими дисками)
Сбоку (низ): 1 или 2 вентилятора на ВДУВ (для видеокарт). - там на перфорации есть место под два 100мм.
Сзади: 80-мм вентилятор на ВЫДУВ - штатный старичок предполагается заменить на новый покачественней (большего размера вроде бы там не запихнуть)
Спереди-сверху (отсек 5.25"): "Кустарный" вентилятор на ВЫДУВ. Ну, а чо, свято место пусто не бывает.
итого:
- 80мм поменять,
- 2х100мм на бок поставить,
- мб закустарить еще 80мм спереди на выдув.

Говно-переделывай?
З.Ы сверху на выдув места нет, просверлить мог бы, но стружку даже с магнитными финтами не хочу ловить, сцу.

Аноним 03/02/26 Втр 16:13:57 #397 №1508406

Анончики, вкатываюсь в локалочки. Потыкал кобальда, llama-server - с чятиком все понятно, проблем нет. А есть что-то более юзабельное для реальных задач - типа что бы и в интернете поискало, файлики скачало, прочитало, в отдельную .md написало отчет что сделано, где что лежит, и потом с этим можно продолжить работать.

Аноним 03/02/26 Втр 16:17:10 #398 №1508411

>>1508018
А как решаешь вопросы пола в предложениях? Я перевожу Скайримские диалоги и потом перечитываю и правлю диалоги.

Аноним 03/02/26 Втр 16:18:44 #399 №1508412

>>1508411
я бы предложил создать для ии карточки персонажей, где прописать конкретный пол, чтобы он сверялся.
мимокрок мамкинэксперт

Аноним 03/02/26 Втр 16:19:48 #400 №1508413

>>1508406

Что-то экстеншенами таверны делается, но в целом - тут нужно агента делать, это целое непаханное поле знаний, этому по-хорошему тред отдельный должен быть посвящен, но у анонов все силы уходят на кум с лолями, ничего не остается после этого и не хочется. Тем более чат гопота платная есть сейчас у всех.

Аноним 03/02/26 Втр 16:23:05 #401 №1508419

>>1508402
>Говно-переделывай?
>80-мм вентилятор ... большего размера ... не запихнуть
Да. Меняй корпус на что-то из этого тысячелетия.

Аноним 03/02/26 Втр 16:25:54 #402 №1508425

>>1508411

В этом и особенность, хотя перевод и идет по абзацам, они не существуют в отрыве друг от друга. У каждого абзаца, посланного на перевод там подается контекст в виде всех предыдщих токенов что влезли в общий контекст. Поэтому даже если он и ошибется при первом упоминании персонажа, если там не будет ясен пол, то при всех последующих - он уже будет писать его пол правильно. Потому я и использую 12В гемму, даже не 27В - чтобы и 8 квант и контекст полностью на видеокарте лежали и давали скорость 5к обработка промпта и 45 т.с. генерация и даже с такими скоростями средняя книга переводится за час-два.

Аноним 03/02/26 Втр 16:29:26 #403 №1508426

>>1508406
либо сам наебош, либо скачай готовое. так то агентных фреймворков много. От всякого вроде 8n8 где в общем то автоматоны скорей, до OpenCode, где оно и md наебошит и скрипт в питоне напишет с вызовом и CLI откроет и чето поделает в нём. некоторые вон в таверну это пихают даже.

Аноним 03/02/26 Втр 16:32:13 #404 №1508430

>>1508402
Ты перед этой хуйней сидеть не сможешь, она будет орать как пылесос. А если стенки тонкие/газобетонные - еще и соседи этот гул будут слышать, ночью не покумить.

Всё что нужно - один кулер на вдув спереди, один на выдув сзади. По возможности настроить обороты в зависимости от температуры проца. Этого достаточно. Ну и корпус закрытый и не дырявый, чтобы тяга нормальная была.

Видеокартам какого-то дополнительного обдува (сверх того что выше написал) не нужно - в ЛЛМках они особо не греются.

Аноним 03/02/26 Втр 16:32:42 #405 №1508431

>>1508018
Как логику то организовал? я сам думаю что-то похожее сделать, но там скорей всего придётся вообще сначала прогонять всю книгу чтобы собрать библиотеку фактов для конистентных имён и всего такого, а потом уже переводить так чтобы ЛЛМ скармливалось X переведённых сегментов сзади и X не переведённых сегментов спереди, а оно просто перемещалось медленно вперёд.

Аноним 03/02/26 Втр 16:41:55 #406 №1508439

>>1508430
Я все больше убеждаюсь что залог победы это водянка на проц, радиаторы на памяти, 2-3 боковой обдув, 1-2 задний. Водянку от проца если в бок, то выдув остального наверх, если вверху водянку оставить, то делать как аэротрубу чтобы выдув основного потока шел через корпус в бокС Потому что в противном случае у тебя охлаждение пойдет через кулеры водянки.

Аноним 03/02/26 Втр 16:53:32 #407 №1508451

>>1508431

Организовал не я, другой человек сделал базу,то что по ссылке выше. Я только для себя до ума довел чтобы можно было пользоваться.
Логика проста - вытаскиваем и по абзацам переводим. Прошлые абзацы суются в контекст. Я добавил логику, сохраняющую правильные шрифты и теги в тексте типа жирного, наклонного и т.д.

>корей всего придётся вообще сначала прогонять всю книгу чтобы собрать библиотеку фактов для конистентных имён и всего такого

Ну кстати идея в целом неплохая, мб и сделаю что подобное.

Аноним 03/02/26 Втр 17:05:13 #408 №1508464

1000018347.mp4

Вторые сутки гуфов нет веселуха

Аноним 03/02/26 Втр 17:10:18 #409 №1508472

>>1508464
Еще неделю не будет, а те что появятся будут сломаны. Кумить можно будет через месяц минимум. Собственно как всегда. Или ты первый день на борде?

Аноним 03/02/26 Втр 17:11:16 #410 №1508474

>>1508472
На глм флеш и поддержка и гуфы через пару часов были

Аноним 03/02/26 Втр 17:32:07 #411 №1508487

>>1508413
>OpenCode
Благодарю, довольно работоспособно. Осталось понять где его настраивать.

Аноним 03/02/26 Втр 17:42:17 #412 №1508494

>>1508487
Он неплохо документирован.
https://opencode.ai/docs/config/
В его UI там правда как-то мало положили, как всегда лучшее в CLI спрятали.
По сути он попенсорсная версия claude code, qwen code и так далее.

Мне он нравится и в целом я его не редко запускаю когда мне лень чето делать по мелочи. Например попросил сегодня GLM 4.7 Flash поставить мне vLLM, он там сам открыл CLI, сам скачал WSL2, убунту, сам догадался как перенести её куда сказали, а потом ещё кинул мне md с инструкцией чё куда тыкать.

Аноним 03/02/26 Втр 18:09:07 #413 №1508523

>>1508333
> хардкожу хуйню которая превращает мой внутренний формат чата в то что понимает модель
Понятие "понимает" достаточно абстрактное, точно также glm и другие модели работают в chatml форматировании, вопрос в результатах. В рп это может быть оправдано из-за дополнительных эффектов, но если требуется что-то околотехническое, точное и с минимальным распылением внимания - именно номинальный режим модели покажет наилучшие результаты.
> у некоторых моделей он вообще запрещает одновременный текст и вызов инструментов
Обычно, подобное именно в костыльных имплементациях чтобы не задумываться над их парсингом. Все современные пишут комментации и могут вызывать сразу по несколько тулзов (когда костыльный парсер на бэке этому не препятствует опять же). В целом и логика агентных систем выстраивается вокруг повторных вызовов пока не поступит простого ответа, который принимается финальным.
> любит себя спрашивать "стоп, а не делаю ли я хуйню?"
Это появилось в самом первом ризонинге. Удивительно что это первый раз встречаешь, но раз так можно поздравить. Они вообще иногда удивляют тем что стали весьма умными, но офк это касается только специализированных задач или самых крупных.
> ЛЛМ например может запрашивать куски кода не через grep,а напрямую указывать "дай мне метод Х в классе У"
Это то чему их учили. Просто поставь qwen-code, claude-code с проксей или любую вариацию и удивись что все уже сделано. Алсо осс далеко не чудо но в код может, судя по вводным он не справлялся из-за неверного формата.
>>1508398
Калькулятор говорит что на 131к (разумный компромисс) нужно около 50, надо смотреть сколько в итоге выделяет. В случае кода лучше жертвовать квантом чем резать контекст и тем более его квантовать. Ниже 5-6 бит там чаще пролезают мелкие ошибки, но обычно сетка сразу их за собой подчищает даже не дожидаясь результатов проверки синтаксиса.
> прикольная идея
Ага, там еще тема в том, что ллм изначально тренировалась на подобное и использовались спец-токены для порождения ветвлений. Правда потом притихли, а потом вышла 5-я гопота со скрытым ризонингом. В новой жемини он тоже очень условный, тебе буквально суммарайзнутые блоки выплевывают а не оригинальный.
Но никто не мешает реализовать это агентами для начала.

Аноним 03/02/26 Втр 18:17:43 #414 №1508535

>>1508402
> 80-мм
> 100мм
Просто купи какой-нибудь дешманский но максимально простоный корпус, где ты понимаешь как разместить свои компоненты. И к этому возьми 120-140 крутиляторы с нормальным статическим давлением, а не чисто "производительные корпусные", они будут потише в средних режимах. В идеале низ и перед на вдув, зад и верх на выдув, офк с нюансами чтобы по углам не сифонило. Если есть водянки - ставь их только на выдув.
>>1508411
Плавающее окно и краткий суммарайз-список персонажей с периодическим обновлением. Ты посмотри что за треш там происходит, 3 вариации имен, вице-адмирал стал королем и обратно, рода плавают и прочее.

Аноним 03/02/26 Втр 18:24:11 #415 №1508538

>>1508535
>крутиляторы с нормальным статическим давлением
Arctic P14 что ли?

Аноним 03/02/26 Втр 18:25:57 #416 №1508540

>>1508523
>Понятие "понимает" достаточно абстрактное, точно также glm и другие модели работают в chatml форматировании, вопрос в результатах.
в стандартных jinja говно какое-то кладут. Например для GLM 4.7 Flash делают префил <think>, хотя модель без проблем сама может решать когда думать, а когда нет.
>Обычно, подобное именно в костыльных имплементациях чтобы не задумываться над их парсингом.
Речь про jinja формат, а не способности модели. Там может быть прямой указатель "вызывай только 1 инструмент", или "пиши только вызов инструментов". Моель может без проблем и делала бы и много вызовов, или писала и текст и инструменты, но шаблон сообщает иные инструкции.
>Это появилось в самом первом ризонинге.
Явно нет, даже не близко к этому. Я отлично помню какую хуйню писал R1 в нём.
>Просто поставь qwen-code, claude-code с проксей или любую вариацию и удивись что все уже сделано.
Лол а причём то что что-то сделано? Я дал пример сложного кода который не каждая модель ПОНИМАЕТ. То есть я описывал не НАПИСАНИЕ, а ПОНИМАНИЕ. Способности рассуждать о том что написано. И тут GLM прямо очень силён. Ясен хуй у него не хватит мозгов написать такой код. По факту такой код ещё ни одна ЛЛМ родить не может, просто потому что он проклят изначально, узкоспециализирован и требует глубокого понимания доммейна. Если бы я хотел взять готовое то я бы просто пошел Roslyn поставил.

Аноним 03/02/26 Втр 19:12:18 #417 №1508581

>>1508538
Оверкилл, но пойдут. Они вполне норм, но сейчас акрктики скурвились, наверняка есть лучше по прайс-перфоманс-шум.
>>1508540
> в стандартных jinja говно какое-то кладут
Сейчас во многих моделях темплейт только для базового функционала, а для полного пихоновский скрипт с нужной логикой парсинга всего (или вообще код на их гитхабе). Их могут потом примерно адаптировать в жинжу, но мало кто ее обновляет в квантах сделанных впопыхах. Потому и обмениваются потом отдельно темплейтами, которые корректно/лучше работают.
> модель без проблем сама может решать когда думать, а когда нет
Это чистый рандомайзер. Он не имеет отношения к потребности в ризонинге, префилл делается как раз чтобы гарантировать нужное поведение.
> Речь про jinja формат
Ты говоришь про формат в целом, а потом приводишь примеры какой-то единичной костыльной реализации. Если хочешь сам все парсить - лучше всего использовать оригинальную логику и разметку, или тот же самый скрипт. Изобретение велосипеда увлекательно и полезно для развития своих скиллов, но не для результата.
> Явно нет, даже не близко к этому
Тогда ничего не поделаешь, воистину прорыв.

Аноним 03/02/26 Втр 19:19:29 #418 №1508592

>>1508581
> лучше по прайс-перфоманс-шум.
П12 пачкой по 5 шт стоят 2.5к, куда дешевле то? По личному опыту умерла (дребезжать начала) только одна из примерно 15 спустя 3-4 года аптайма 24/7.
По 140 данных по эксплуатации нет

Аноним 03/02/26 Втр 20:28:03 #419 №1508679

В командировку уехал, организовал себе текст комплишен апи на месяц. Там железо мощнее чем дома, потому я наконец попробовал Квен235. И о боги, какой же это лоботомит, вхахаха. Он улетает в структурный луп уже после где-то 6к контекста, как его ни жми промтом, инжектами или семплерами. Вы настолько ебанулись с голодухи что пытаетесь играть на этом? Это пиздец абсолютный. Проверял все версии, и оригинал с гибридным ризонингом, и 2507, и даже вижен блять! Не, я реально ору, мне не жаль времени потраченного, да и пердолинг это всегда весело. Но как же я ору сейчас со всех защитников Квена итт, что устраивали срачи таких масштабов что они из треда в тред перетекали. Ай бля содомиты.

Аноним 03/02/26 Втр 20:40:40 #420 №1508689

>>1508679
Тут в треде плавал пресет с какой-то грамматикой, осталось только на нем затестить. Может кто прислать у кого ссылка под рукой? 15 тредов копаю, так и не нашел, заебався

Аноним 03/02/26 Втр 20:59:53 #421 №1508702

>>1508679
пчел, квен235 это такая постирония, я сам её выкупил через несколько десятков перекатов.
говно говна, а не модель

Аноним 03/02/26 Втр 21:00:19 #422 №1508703

>>1508679
И вот сраться не вижу смысла, ну на кой хуй мне доказывать анону вкусовщину, но, блять, у меня не разваливется на 25к контекста, ну не заметил я, а я это говно ложкой жру.
Но с другой стороны, пусть будет по твоему. Плохой квен, ужастная модель, не используй.
Радостно побежал дальше тыкать квен палкой.

Аноним 03/02/26 Втр 21:15:52 #423 №1508733

>>1508703
>И вот сраться не вижу смысла, ну на кой хуй мне доказывать анону вкусовщину, но, блять, у меня не разваливется на 25к контекста, ну не заметил я,
И вот в который раз ты пишешь этими примирительными формулировками, чтобы по итогу все свести к "ну не буду я ничего доказывать" вместо того чтобы анону помочь. Или хотя бы логи показать. Соглашусь с аноном выше, это походу постирония или системный троленг.

Аноним 03/02/26 Втр 21:21:44 #424 №1508744

>>1508679
У меня под рукой нет ссылки а сам я не дома чтобы скинуть, мб если не забуду как вернусь. Но пресет не поможет, он обрамит аутпуты в другой вид но концептуально ничего не поменяется. Это как обёртку поменять. Без грамматики лупы с параграфами, с ней одним параграфом. Структурные лупы это часть Квена еще с 2.5, там только пара тюнов типа Ева Квена от этого избавились, но то уже прошлый век

Аноним 03/02/26 Втр 21:27:30 #425 №1508754

>>1508153
> ключ fit реально рабочий
наверное это был я, но сейчас я могу посоветовать другое: сделать --fit off, и добавить ngl ts ot полученные из тулзы llama-fit-params.

Аноним 03/02/26 Втр 21:29:23 #426 №1508758

>>1508733
>чтобы анону помочь
Чем? Я просто беру Q3 от анслотиков, запускаю через llama.ccp, всё работает. Чем я могу ему помочь? Я нихуя волшебного не делаю, он просто работает. Пресет? Вот, это обычный чатмл. https://dropmefiles.com/AatEk
Всё. У него другие проблемы, а в остальное- он просто работает, доёбываясь до каждого предложения, не затыкаясь.

чёт хуйня Аноним 03/02/26 Втр 21:36:56 #427 №1508768

minimax-m2.1 с ngram не выдаёт больше t/s, а в ответ на тот же запрос генерирует больше токенов, в результате суммарное время увеличивается почти в два раза.
то есть конкретно для минимакса ngram = хуита. gpt-oss ещё не проверял, там вроде бы все довольно урчат.

Аноним 03/02/26 Втр 21:48:20 #428 №1508783

>>1508679
Чекни свой пост, кажется ты структурными лупами заразился. Отвратные структуры это действительно слабость модельки, но она лечится и является несущественной на фоне преимуществ.
Алсо уверен ли ты, что тебе кормят нормальный квант а не какого-то полумертвого лоботомита? У них именно такие симптомы.
>>1508733
> вместо того чтобы анону помочь
Думаешь он пришел за помощью?

Аноним 03/02/26 Втр 21:54:37 #429 №1508789

>>1508754
>наверное это был я, но сейчас я могу посоветовать другое: сделать --fit off, и добавить ngl ts ot полученные из тулзы llama-fit-params.
Тоже хороший совет, спасибо.

Аноним 03/02/26 Втр 21:54:50 #430 №1508790

>>1508783
Да походу заразился, всяк бывает. Квант норм, там q4xl от батрухи, в кванте у меня 0 сомнений. Раз проблема лечится то расскажи как, потому что у меня не получается. Даже новомодный адаптив п пробовал, все одна хуйня.
>>1508703
Какой смысл тогда в принципе отвечать?

Аноним 03/02/26 Втр 22:08:34 #431 №1508806

>>1508790
> расскажи как
В первую очередь не срать промпт и буквально попросить какой именно стиль повествования хочешь. Частые переносы можно победить грамматикой или баном токенов, но лучше просто попросить. Работает даже просто в тексте (ooc: change writing style to more natural and vivid, like it's a scenario from (фильм/режиссер/...). Avoid short sentences and newlines spam).
Вон тебе готовый пресет скинули, там все на первый взгляд хорошо, под себя чуть крутани и инджой.
> q4xl от батрухи
Может и в нем проблема.

Аноним 03/02/26 Втр 22:19:31 #432 №1508818

Кто там пиздел что гуфы неделю ждать норма?
Анонсу пару часов
https://huggingface.co/unsloth/Qwen3-Coder-Next-GGUF

Аноним 03/02/26 Втр 22:57:13 #433 №1508848

>>1508818
Архитектура уже добавлена, потому нужно только квантанутьЮ жто быстро. Также и с glm 4.6-4.7 обычными , обновлением квена и прочими все сразу было.
А с 4.7 флеш сначала неделю ждали, потом неделю чинили. И это очень быстро по сравнению с тем, что было с первым квен3-некст.
Модель ожидается ахуенная, пора качать.

Аноним 03/02/26 Втр 22:58:55 #434 №1508851

>>1508818
Я кста не понял это версия без ризонинга и бенчи при этом лучше чем у моделей с ризонингом

Аноним 03/02/26 Втр 23:00:45 #435 №1508856

>>1508851
>бенчи
...

Аноним 03/02/26 Втр 23:37:40 #436 №1508884

>>1508818
А теперь вспомни сколько ждали гуфы Qwen 80. Подсказка, почти два месяца, а потом их еще и чинили

Аноним 03/02/26 Втр 23:39:07 #437 №1508889

>>1508806
Попробовал анслота, то же самое все. Инструкция не срать переходами работает только на пару тыщ контекста. И энивей я пробовал подобное инжектить, все это полумеры. Видимо не моя модель, ну да и ладно. Сяп что ответил.

Аноним 03/02/26 Втр 23:52:43 #438 №1508902

Ace step 1.5 вышел
https://files.catbox.moe/m6e4ry.mp3

Аноним 04/02/26 Срд 00:06:21 #439 №1508910

>>1508851
Это кодерская инстракт модель, без встроенного ризонинга. Если нужно - он делается соответствующими запросами.
>>1508884
Его хоть сделали наконец, или также багано-медленно?

Аноним 04/02/26 Срд 05:50:09 #440 №1509011

Попробовал степ на ихнем форке жоры.
В целом ощущается как прокачанный минимакс. В РП чуть-чуть получше, чуть менее сух. Русик не прям 100% идеальный, местами в еРП англ слова вылезают.
Поразило то, как модель следует инструкциям. Она не выключает синкинг пока каждое требование инструкции не выполнено. Например - увидев в моей инструкции требование использовать вульгарную лексику и определенные слова, она в синкинге высрала 4 тысячи токенов, улучшая свой ответ, так чтобы он идеально соотвествовал этому требованию.
Сои и цензуры много, но как любая синкинг модель - ломается очень легко. В этот раз пришлось немного поколдовать и отключать конкретно OpenAI use case policies в которые степ цеплялся мертвой хваткой, но после их выключения все пошло как по маслу.
Что поразило - размер контекста. Он почти нулевой. Я с легкостью вместил максимум модели в 262к контекста в 8 битном квантовании на свои 24 гб видеопамяти, что заняло всего 12 гб(!) врам и осталось место даже под несколько слоев тензоров.
Скорость как у минимакса, т.е. на моем железе (4090 + 128 ддр5) - 18 т.с., это в 2.5 раза больше глм 4.7 на втором кванте.
По качеству РП и сочности кума степ конечно уступает глм 4.7, как уступает и его мозгам, если выключать синкинг,но если синкинг включать - то он конечно прекрасен. Как ассистент - он однозначно заменяет минимакс и выкидывает его в мусорку.

Аноним 04/02/26 Срд 05:50:52 #441 №1509012

>>1508902
>Ace step 1.5 вышел
А прикольно. И доступно вполне.

Аноним 04/02/26 Срд 06:35:16 #442 №1509014

>>1509011
> По качеству РП и сочности кума степ конечно уступает глм 4.7, как уступает и его мозгам
Так его с эиром надо сравнивать, в край с квеном

Аноним 04/02/26 Срд 06:37:33 #443 №1509015

Котаны, давно не заходил. Есть ли что норм на мои нищенские 3090 и 64 рам? Последнее, что я пробовал был AIR 4.5. Мне он не очень зашел, потому что надо все вырубать, кроме окошка с Аиром, иначе не заведется. Пишет норм, но начинает глючить уже после 16к. контекста, равно как и мистраль, но мистраль быстрее. А может это просто я криворукий и не смог в настройки. В общем, зашел узнать, есть ли что пощупать для нищуков или здесь у всех давно уже по 4 5090 и 500 рам?

Аноним 04/02/26 Срд 06:52:51 #444 №1509017

>>1509011
Ещё один всё на русике тестил...
Ну вот и как к вам относиться после такого?
Русикодебил он и есть русикодебил, нигде даже не написано что модель вообще поддерживает русик, но всё мнение о ней я буду составлять на русике

Аноним 04/02/26 Срд 07:48:05 #445 №1509024

>>1509017
>Ещё один всё на русике тестил...
Ну русский там в принципе неплохой, получше, чем у ГЛМ например. И да, датасета не хватает для полноценной работы - но если ризонинг включить, то справляется. К сожалению, верно и то, что это лишний геморрой - рабочие языки модели английский и китайский.

Аноним 04/02/26 Срд 08:31:08 #446 №1509046

>>1508689
>Тут в треде плавал пресет с какой-то грамматикой, осталось только на нем затестить. Может кто прислать у кого ссылка под рукой?
https://pixeldrain.com/l/47CdPFqQ#item=154 это наверно

Аноним 04/02/26 Срд 08:34:18 #447 №1509047

Жора какой же ты пидорас пропусти флешку уже

Аноним 04/02/26 Срд 08:54:13 #448 №1509056

изображение.png

>>1508818
Так он по всем параметрам хуже даже по их тестам, лол.
>>1508902
Не нужно.
>>1509011
>уступает глм 4.7
Короче не нужен, пропускаем.

Аноним 04/02/26 Срд 09:36:21 #449 №1509100

>>1509056
>Короче не нужен, пропускаем.
А я вот тут подумал, что 128к реально рабочего контекста на локалке - это довольно круто. Особенно для большой модели. Раньше я даже не замахивался на задачи с таким контекстом, а вот теперь пожалуй смогу.

Аноним 04/02/26 Срд 09:54:58 #450 №1509110

>>1509011
Опаньки, дофига-дофига контекста - это нам надо, это мы пробуем.
А как с вниманием к этому контексту?

Аноним 04/02/26 Срд 11:14:32 #451 №1509150

>>1509011
Контекст помещается потому что там атеншн сам по себе мелкий, и только у 25% слоев он полный, остальные по 512 токенов. Учитывая что ты еще квантанул - это буквально 12.5% от "типичного" потребления на контекст, потому и помещается много.
Но у всего есть цена, высока вероятность что в рп и около того на больших контекстах будет забывчивое и отупеет, на больших проектах больше рассеянности и ошибок в коде.

Аноним 04/02/26 Срд 11:35:48 #452 №1509163

image.png

85b.png

>>1507980
Пиздос, как же меня трясет со штрафов на нищеёбство.

Аноним 04/02/26 Срд 11:43:02 #453 №1509169

image

>>1509163
Во втором кванте уместится даже в нищуковские 12+64. Осталось только дождаться.

Аноним 04/02/26 Срд 11:51:25 #454 №1509178

Степа хуже Эира в рп. Скриньте

Аноним 04/02/26 Срд 12:45:38 #455 №1509212

>>1509178
Что скринить, где примеры РП желательно на русском?

Аноним 04/02/26 Срд 12:56:16 #456 №1509217

>>1509046
Да, оно. Пасиба что запарился и прислал. Там анон выше >>1508744 или мб ты же базу выдал. Поигрался сейчас с этим пресетом, реально проблема попросту маскируется под другим видом структурного лупа. Автор молодец что нашел там какой-то доисторический семплер но к сожалению не помогло, имхо. Ждем Стёпу 3.5 всем тредиком, вдруг правда порадует.

Аноним 04/02/26 Срд 13:08:40 #457 №1509226

>>1509015
Квен 3 некст (не для рп). Hunyuan выходил, вроде по размерам чуть меньше Эйра. Еще была Ling Flash кстати неплохая, тоже чуть меньше Эйра, туповатее, но может тебе подойдет. У меня тоже 3090, но 128 рамы. До расширения рамы я сидел на Немотроне и Валькирии, там у Драмера v2 выходила, он не так плоха как первая. Попробуй
>>1509163
Гемма 27 со своим жирненьким контекстом будет кушать столько же сколько и Квен 3 32b. И мистралька 24b не такая глупая, последняя которая. Не грусти
>>1509217
> Автор молодец
Жаль что его распяли всем тредом. Правда жаль ведь. Его личные хейтеры так засрали тред что даже мой пост можно принять за троленг, потому дискуссия невозможна. А я по прежнему считаю что намеренно сливать тех кто делился своим добром это плохо. Сами посмотрите, автор мертв а пресеты всё так и всплывают иногда. И зачем это всё сделано было, нахуй этот негатив, так и непонятно

Аноним 04/02/26 Срд 13:10:31 #458 №1509228

>>1509015
Что-то я протупил, ты же наверно и не знаешь что за Немотрон и Валькирия раз давно не заходил. Вот
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
https://huggingface.co/TheDrummer/Valkyrie-49B-v2
3 квант должен поместиться с q_8 kv контекстом. 20-30 тысяч можно запихать точно

Аноним 04/02/26 Срд 13:54:22 #459 №1509258

>>1509226
> всем тредом
Единичный шиз тред засирал и продолжает, о чем ты?

Аноним 04/02/26 Срд 14:39:35 #460 №1509289

>>1509056
>Так он по всем параметрам хуже даже по их тестам, лол
Так и размер меньше и скорость гораздо выше (особенно если запускать на нормальных бэках и фул врам). Вместо ГЛМ можно аж 2-3 штуки запустить и они будут срать тебе в проект с немыслимой скоростью.
Кстати, а они не выкладывали сравнение со своими старыми кодерскими моделями? 30 вроде на 30% всего хуже большого был, при использовании qwen coder.

Аноним 04/02/26 Срд 15:13:40 #461 №1509312

>>1509289
>Так и размер меньше и скорость гораздо выше
Но зачем?
>срать тебе в проект с немыслимой скоростью
До корпов всё ещё далеко.

Аноним 04/02/26 Срд 15:14:47 #462 №1509315

>>1509312
>моделька которая почти вдвое меньше большой перформит на несколько процентов хуже
>"Но зачем? До корпов ещё далеко"
>надмозг

Аноним 04/02/26 Срд 15:16:06 #463 №1509318

Прогрелся на v100 32 за 35к, собрал, пост код А9(start of setup), с второй картой для вывода картинки, плата вообще в цикличном ребуте, хуй знает че не так А я просто хотел быть счастливым а не бомжом с 6700XT

Аноним 04/02/26 Срд 15:36:25 #464 №1509330

>>1509318
Может много что не так быть. Начиная от неисправной карты или переходника и заканчивая проблемами с bios. Спроси корпоратов в чём может быть проблема, он тебе накидает вариантов что посмотреть, только укажи, что через переходник запускаешь.
Держу за тебя кулаки анон

Аноним 04/02/26 Срд 15:52:52 #465 №1509341

>>1509289
> 30 вроде на 30% всего
Эти метрики и бенчи очень абстрактны. Реальность же, как правило, можно свести к трем абстрактным вариантам:
1. Нихуя не поняло, начало собирать подобие и зафейлили, заодно обманув тебя на вопросы. Все делай сам, модель поможет только с совсем уж мелочами и придется ей многое объяснять.
2. Сообразило что требуется, примерно поняло имеющийся код, но ошиблось при выполнении, намоталось на какое-то несущественную ошибку и пошло ее неправильно исправлять, заложенный проеб в дизайне проявился слишком поздно и полетели штабели костылей. Проявив определенные усилия можно будет выправить, но напряжно.
3. Поняло задачу, сразу осознало/описало подводные камни и заложила адекватную логику, написало основное, само или с умеренными вмешательствами исправило ошибки и доработало.

Какие кейсы преобладают в 30а3 а какие в 480а35, полагаю, угадать несложно. Надо будет некст посравнивать, есть всеже на него надежды.
>>1509318
У тебя 32 гига рам или меньше? Отключай ребар (или его аналог) и пробуй опять.

Аноним 04/02/26 Срд 15:57:53 #466 №1509346

>>1509318
Спрошу очевидное - 4G decoding в биосе включил?

Аноним 04/02/26 Срд 16:10:12 #467 №1509354

>>1509318
включить в биосе "resizable BAR" и "above 4G decoding", а если уже включено - то выключить

Аноним 04/02/26 Срд 16:11:18 #468 №1509355

>>1509354
PCI ещё в 3.0 перевести

Аноним 04/02/26 Срд 17:04:08 #469 №1509388

>>1509169
> 12+64 2 квант
В IQ3s же

Аноним 04/02/26 Срд 18:44:08 #470 №1509450

>>1508818
В целом норм, но хули скорость такая низкая? 3В активных, а при этом скорость как у плотной.

Аноним 04/02/26 Срд 19:14:50 #471 №1509467

>>1509388
Судя по квантам этого чувака iq3s лезет
https://huggingface.co/AliceThirty/Step-3.5-Flash-gguf

Аноним 04/02/26 Срд 19:30:44 #472 №1509475

>>1509354
> включить в биосе "resizable BAR"
Выключить, выключить. Когда ставишь дополнительные видеокарты или просто обновляешься что объем врам сравнивается или превышает объем рам - ребар нужно отключать. Пека банально не может настроить адресацию достаточного объема.
>>1509450
> хули скорость такая низкая
Какая скорость и что за железо?

Аноним 04/02/26 Срд 19:33:55 #473 №1509479

>>1509388
>>1509467
12+64=76. Если Q3_K_S будет как у этого чувака 85гб, то IQ3S будет 80 примерно. А что бы влезло нужно где-то ггуф 70 хотя бы. Так что только 2 квант. А учитываю, что там мозги 11b, то можно сразу нахуй модель
Мимио чел с 16+64

Аноним 04/02/26 Срд 19:37:10 #474 №1509483

>>1509479
А, я прочитал как 24+64

Аноним 04/02/26 Срд 19:37:25 #475 №1509484

>>1509226
>Ling Flash
>Hunyuan
Мертворожденная залупа

Аноним 04/02/26 Срд 19:38:48 #476 №1509487

>>1509484
Предлагай свое. Пиздеж твой кому интересен?

Аноним 04/02/26 Срд 19:40:24 #477 №1509488

>>1509483
Там кстати тоже будет впритык. 24+64=88-80(квант)=8гб на все (контекст, система и т.д.). Ну то есть только если из под линуха сидеть без де, а кумить в телефоне/ноуте

Аноним 04/02/26 Срд 19:42:18 #478 №1509489

>>1509479
>чел с 16+64
И чем же ты пользуешься?

Аноним 04/02/26 Срд 19:42:40 #479 №1509490

>>1509488
Всегда есть IQ3_XXS который всё ещё лучше 2 кванта.
Ну и 80гб кванты влезают судя по опыту, к тому же у этой модели контекст легчайший как тут писали

Аноним 04/02/26 Срд 19:44:31 #480 №1509492

>>1509487
Я предлагаю не выдумывать хуйню. Линг (да и Ринг тоже) я пробовал давно. Это залупа. Хуянь не пробовал, но там скорее всего только название смешное. Для 64гб есть только Air (4.6V), Qwen 80 и GPT 120b. И то два последних не для кума, а просто как ассистенты. Ну еще и рипы. Но их в здравом уме никто рассматривать не будет

Аноним 04/02/26 Срд 19:49:25 #481 №1509496

>>1509489
Qwen 80b Q5KM как ассистент. GLM 4.6 Q4XL кум. Еще дипсиком, но не локально

Аноним 04/02/26 Срд 19:58:31 #482 №1509506

>>1509496
>GLM 4.6 Q4XL
>16+64
Как такое возможно?

Аноним 04/02/26 Срд 19:59:59 #483 №1509511

>>1509506
Очень просто. Букву V забыл. 4.6V

Аноним 04/02/26 Срд 20:25:44 #484 №1509533

image.png

24-32b для РП - все? Гемме и мисралю уже год, только васян-тюны с минимальными улучшениями выходят.

Аноним 04/02/26 Срд 20:30:59 #485 №1509539

Качнул 2 квант стёпы.
"В рп могёт" это мягко сказано, я не получил ни одного отказа с ризонингом через чат комплишен

Аноним 04/02/26 Срд 20:31:32 #486 №1509541

>>1509533
Узнаем этой весной. Если условные Гемма 4, Мистраль 4, Квен 4 и прочее не выйдут или будут МОЕ залупой, то да все

Аноним 04/02/26 Срд 20:36:36 #487 №1509544

>>1509539
Логи покажи хоть какие

Аноним 04/02/26 Срд 20:36:48 #488 №1509545

--swa-full в ламе который вырубает скользящее лоботомирующее окно контекста добавило всего 1 гиг нагрузки видяхе, нахуй оно вообще нужно не ясно
В гемме вот контекст очень тяжелый и может пригодиться, тут он и так легкий

Аноним 04/02/26 Срд 21:07:34 #489 №1509572

image

>>1509475
Пикрил стыдная хуйня, 2х5090.

Аноним 04/02/26 Срд 21:22:58 #490 №1509594

>>1509572
Это прискорбно, офк если не 200к контекста. Интересно сколько там на паре вольт будет.

Аноним 04/02/26 Срд 21:25:28 #491 №1509597

>>1509533
>>1509541
Не будет больше никаких плотных моделей. Этот подход устарел и нецелесообразен. Тот же большой глем при своих 30b ебёт в писечку и в попочку 100b мистраль лардж, уделывая его как по мозгам так и по скорости инференса. А еще не требует кучу дорогой видеопамяти для работы - только под активные параметры и контекст (32гб - ему норм, если в 4 кванте).

Единственное где оправданы плотные модели - это устройства в которые нельзя просто так взять и докинуть ОЗУ. А именно телефоны и планшеты. Под них как раз и выходит плотная мелочь 1b-14b. И скорее всего продолжит выходить.

Аноним 04/02/26 Срд 21:30:56 #492 №1509604

>>1509594
Контекст тут почти бесплатный. Но лучше бы проседало в 2-3 раза и 200+ т/с на старте было.

Аноним 04/02/26 Срд 21:34:32 #493 №1509606

>>1509597
> большой глем при своих 30b ебёт в писечку и в попочку 100b мистраль лардж, уделывая его как по мозгам
Кумит слабее, лупится и фейлит в простом. Он хорош, но нельзя назвать каким-то абсолютным эталоном и лучше во всем. С современным подходом к обучению лардж мог быть тоже хорошенько дать жару.
Офк обучать большое и плотное никто не будет, моэ слишком удобны и достаточно хороши, но вот получить что-то типа грока2 с адекватными оптимизациями атеншна хотелось бы.
> под активные параметры
Значение знаешь?

Аноним 04/02/26 Срд 21:46:20 #494 №1509617

image

>>1509606
>Значение знаешь?
Акти вные

Ну вот эйр у нас 106b-a12b. 12b - активные. Если взять его Q4_K_XL квант и выгрузить всё мое в озу, то в видеопамять идет примерно ~7гб, что соответствует 12b в том же 4 кванте. Не?

Аноним 04/02/26 Срд 21:54:30 #495 №1509619

>>1509617
Нет, ты обосрался. cmoe грузит во врам тензоры внимания, а не просто активные

Аноним 04/02/26 Срд 21:57:12 #496 №1509620

>>1509496
>GLM 4.6 Q4XL кум
Почему не мистралька? Она же влезает, не тупит, не лупится, умненькая.

Аноним 04/02/26 Срд 21:58:49 #497 №1509622

>>1509597
>большой глем
>при своих 30b
Ты называешь флэш большим или ты из тех шизов, которые не понимают как работают мое и называешь 350b модель 30b?
>мистраль лардж
Вот это достижение. Трахнул старое говно от французов. Может он еще и GPT 3.5 трахнет?

Аноним 04/02/26 Срд 22:01:51 #498 №1509626

>>1509619
Вполне возможно. Однако сути написанного не меняет. Плотнота сейчас реально нужна только полутора риговичкам с кучей врам. Корпы перешли на мое потому что дешевле. Кумеры-нормисы со своими 12-16гб перешли на мое потому что умнее и быстрее (тот же эйр умнее и быстрее плотного мистраля 24b - говорю как человек, который пользовался и тем и тем довольно долго). У плотных моделей нет будущего за пределами мелочи для телефонов.

Аноним 04/02/26 Срд 22:11:12 #499 №1509640

>>1509620
Потому что медленная и не особо умненькая
Если бы они выпустили бы ее сейчас с доработками, то может и юзал ее. Но они выпустили никому не нужную и мертворожденную 670b, которая сразу же слилась китайцам.
И кста я вспомнил что у них еще есть Mistral Medium, которые они так и не выложили на обниморду суки

Аноним 04/02/26 Срд 22:11:15 #500 №1509641

>>1509622
>Может он еще и GPT 3.5 трахнет?
Ты что, его в опенсорсе ещё никто не трахнул!

Аноним 04/02/26 Срд 22:12:46 #501 №1509642

>>1509617
В том и суть что активные параметры у тебя каждый раз разные, "грузить" их в врам - глупость. Тебе правильно написали что на гпу грузят только атеншн и нужный ему кэш, ну и линейных фидфорвардов сколько влезет.
>>1509626
> сути написанного не меняет
Меняет, этот прием никак не привязан к активным параметрам и точно также сработает на плотных.
> Плотнота сейчас реально нужна только полутора риговичкам с кучей врам.
Риговички точно также инджоят моэ, только на скоростях и контекстах. Цитата с твоим утверждением в посте не просто так, а о том что развития чисто плотных моделей врядли увидим рядом написано. Но вот моэ поплотнее - о да.
Алсо
> Кумеры-нормисы со своими 12-16гб
2.5 года назад в треде не было ни одного риговичка и все в основном такие. Где эволюция нормисов, или они просто молчат?
> тот же эйр умнее и быстрее плотного мистраля 24b
Ща налетят. И вообще, жлм4 32б - лучшая вайфу!

ПЕРЕКАТ Аноним OP 04/02/26 Срд 22:15:45 #502 №1509649

ПЕРЕКАТ

>>1509647 (OP)

ПЕРЕКАТ

>>1509647 (OP)

ПЕРЕКАТ

>>1509647 (OP)

Аноним 05/02/26 Чтв 00:32:00 #503 №1509756

Сап кумеры, напишите пожалуйста как запускать чатбот-персонажей, как в Character tavern, только полностью локально?

Где скачать саму нейронку? Надо ли качать что-то ещё (лоры хуёры и т д) и где? Где брать персонажей для неё?

В нейронках не шарю, объясните пожалуйста как дауну.

С меня сотни интернетов.

Аноним 05/02/26 Чтв 02:15:01 #504 №1509799

>>1508902
Кстати, т.к. там энкодером qwen - оно неплохо понимает и инструкции на русском, а не только тексты для песни. Реально прикольно получается.

Аноним 05/02/26 Чтв 16:18:18 #505 №1510147

>>1509756
я конеш сам особо не эксперт, но я сделал так:
1. ставишь koboldcpp
2. скачиваешь нужную модель в формате gguf с huggingface (учитывая то, потянет она у тя или нет)
3. ставишь SillyTavern
4. врубаешь и настраиваешь кобольд, сохраняя конфиги и всю хуйню
5. заходишь в силлитаверн, и подключаешь api кобольда к силли таверн
6. кайфуешь

p.s. если че то не понятно, подробнее в инете инфа есть. как минимум в оф. документации к sillytavern - точно описано подробно про API, подключение, и прочую хуйню, а про кобольд есть исчерпывающая статья на дтф

Аноним 05/02/26 Чтв 16:25:22 #506 №1510153

>>1509756
а, бля, и насчет персонажей.
зайди в соседний тред по AI CHatbot - там хуева туча ссылок в шапке - может пригодится, а так для большинства дрочеров в рп хватает jannyai.com

можешь и сам их хуярить если хочется, просто загугли "character card creator" и там какая то ссылка ведет на простой макет этих карточек в формате json или png.

и ещё - совет. хочешь рпшить но не знаешь ангельского? включай как нить в силли таверн (в глобальный промпт или ещё куда) хуйню типа "speech only in English", включай там в дополнениях автоперевод (чтобы ответ ИИ переводился сразу на русиш), а сам отвечай на русском. в 99% случаев и моделей - ИИ будет хавать ответ на русском, выдавать на английском, и гуглом/яндексом (или если ты крутой мен - купи АПИ к deepL) переводить сразу на русский.

нахуя такая ебля если можно заставить модель хуярить чисто на русском сразу? резонный вопрос - только скорее всего у тебя там не дата-центр, а хуйня по типу 3070-4060, и контекст будет ужат в лучшем случае до 16-20к - и в таком случае каждый токен будет на счету (учитывая что хорошие карточки персонажей весят от 1.5к токенов). ибо прикол в том - что условно текст на 2000 символов на русском - будет "весить" примерно 2500-2800 токенов, а текст в 2000 символов на английском - 600-800. экономия на лицо, во первых, а во вторых когда у тя скорость работы модели на твоей видеокарте 3-4 токена в секунду - ты ахуеешь ждать, пока тебе раз в секунду 3-4 буковки будет выводиться, вместо 3-4 слов на английском (что очевидно - быстрее, при лимите токенов за сообщение 200-300). Ну и сами сообщения при ограничении токенов очевидно будут нести в себе больше информации и объема.

Надеюсь на все вопросы ответил.