Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №201 /llama/

Аноним 01/03/26 Вск 18:42:57 #1 №1538359

Llama 1.png

Эффективность квантования EXL3.png

Цензура моделей 1.png

17636375423610.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Агентов и вайб-кодинга тред: >>1530474 (OP)

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1535243 (OP)
>>1535243 (OP)

Аноним 01/03/26 Вск 18:51:19 #2 №1538369

БАЗА ТРЕДА:
Все, что ниже Q4 это кал
Кобольд это кал
Экслама это кал
Квен это кал
Гемма это кал
Локалки мертвы
Кум на Попенроутере стоит всего 10 баксов

Аноним 01/03/26 Вск 18:52:17 #3 №1538370

База треда: Лучше папа Кобольд, чем мама Ollama.

Аноним 01/03/26 Вск 18:52:19 #4 №1538371

>>1538369
Ты опять выходишь на связь, мудила?

Аноним 01/03/26 Вск 18:53:19 #5 №1538372

>>1538358 →
двачану. почти все залетные ждут что их покормят с ложечки, на запросе дополнительной инфы большинство и откидываются, лол
в шапке вики есть, ее наверно вообще почти никто не читает

Аноним 01/03/26 Вск 18:54:14 #6 №1538373

Актуальные non-moe модели:
- qwen 14b
- семейство nemo 12b (вечны)
- семейство small mistral 24b (вечны)
- ministral 14b
- qwq snowdrop 32b
- glm 4.7 flash
дополните, плиз.

Аноним 01/03/26 Вск 18:54:51 #7 №1538374

>>1538369
>Кобольд это кал
>Гемма это кал
Слышь, псина

Аноним 01/03/26 Вск 18:55:43 #8 №1538375

>>1538373
glm flash это мое
дополнил...

Аноним 01/03/26 Вск 18:58:12 #9 №1538379

>>1538369
>>1538374
У соседей хорошо подметили: >>1526162 →
:)

Аноним 01/03/26 Вск 19:00:47 #10 №1538383

ec5adca7-aaaa-4110-b20c-4199d5f5498a.jpg

>>1538370
А если оба?

Аноним 01/03/26 Вск 19:02:26 #11 №1538386

>>1538379
Не всё, есть еще llama.cpp и древний air. Они последняя надежда кума

Аноним 01/03/26 Вск 19:06:31 #12 №1538389

>>1538370
В голосину

Аноним 01/03/26 Вск 19:11:15 #13 №1538393

>>1538373
>qwq snowdrop 32b
>nemo 12b
Слишком много причисляешь. Если так, то там будет огромный список с ГЛМ 4, командером, большим мистралем и прочем
Имхо если брать именно актуальные, то будет следующий список
1. Мистраль (3.2, магистраль, министраль)
2. Гемма (от 27 до самых маленьких)
3. Qwen 27 и Qwen 9, который скоро выйдет
Ну и все. МоЕшный мир победил

Аноним 01/03/26 Вск 19:24:18 #14 №1538402

>>1536890 →
>А я не сочувствую долбоебам. У них вполне нормальные компы и они могут спокойно запустить GLM 4.7 Flash/Qwen 3.5 со скоростью 20+ т/с, но вместо этого они решили страдать. Причем ради чего? Ради уебищной геммы. Тяжело быть сектантом умницы

Чтобы... что? Флэш абсолютно неюзабелен через 2 реплая. Срет ризонингом на 5к токенов. Квен тоже этим грешит. МоЕшки с количеством активных параметров до 15б - просто параша для РП.

Аноним 01/03/26 Вск 19:25:30 #15 №1538406

>>1538402
У Эира 12б если что, а пишет он как плотная Ллама 70б и мозгов столько же

Аноним 01/03/26 Вск 19:27:28 #16 №1538411

>>1538406
Хорошо, погорячился. Но в любом случае в комбинации 8 врама + 32 рама МоЕ - лоботомиты, а из плотных моделей нормальная только гемма и мистрали. Новый плотный квен слишком долго думает, и выдает результаты примерно как гемма. Опять же, для рп.

Аноним 01/03/26 Вск 19:28:56 #17 №1538415

>>1538393
>ГЛМ 4, командером, большим мистралем и прочем
По-прежнему актуальны и хороши
>Ну и все. МоЕшный мир победил
Из новинок да

Аноним 01/03/26 Вск 19:29:27 #18 №1538417

контекст.jpg

>>1538358 →
>предположим, ты не наглый или ленивый, а глупый
Первый день поднятия локалки с нулевым знанием о ии. Чего ты ожидал? Для меня половина треда выглядит как абракадабра. Да, я не понимаю. Дело не в глупости, а в отсутствии опыта. Как мне его приобрести, если аноны меня пинают и смеются над моими простыми вопросами? Как будто если бы я спросил что-то космически заумное, вы бы сразу зашевелились и начали давать охуительные ответы с обильными ветками обсуждений. Треды на дваче если это не личные чатики в a или b созданы для общения и вопросов, в том числе и тех, что кажутся лично тебе глупыми
>Это может быть конец контекста, это может быть сломанный шаблон, eos/bos токены, вариантов наберется немало
Что мешало просто сказать про это и хотя бы направить в гугл? Допустим это не решение моей проблемы, но я хотя бы понял куда копать. Хочешь общаться с обученными - обучи, а не бубни, что кто-то не обучен
Впрочем, вариантов не так уж много. Напиши про каждый. Контекст у меня выставлен на 8192, по дефолту. Что значит что он кончился?
>может быть сломанный шаблон
Может быть. Научи делать правильные шаблоны, которые не ломаются
>eos/bos токены
Где настройка отвечающая за них? Какие значения надо выставить?
>это, по твоему, выебон
А чем это не выебон? Вместо хоть какой-то инфы которую можно было бы раскрутить в ответ на вопрос, ты просто пожаловался, что тебе не дали желаемый пост на дваче. Детский сад
>Такую, какую ты проигнорировал
У меня нет пасскода чтобы насрать кучей скринов со всеми настройками кобольда. Спрашивай конкретные вкладки настроек или цифры и я их назову. Я не в курсе, что именно может указать тебе на причину проблемы
>выебона нет
>ну да выебнулся
>Как так то?
Пиздец, чел. Сам признался, что глумишься, и тут же сделал невинные глазки, что не было. Как так то?
>хотя бы не начинай выебываться
Тебе это мерещится. Или ты с нулевой ущемился с квенодуры и пошёл в атаку? Ну соре, не знал что ты фанатик квена и так оскорбишься от моей иронии в сторону затупившего бота. Какой ты нежный, но ок, принимаю условия. Может ещё по имени тебя называть, чтобы ты знал, что я просто общаюсь, а не наезжаю с требованиями?

Аноним 01/03/26 Вск 19:30:53 #19 №1538420

image.png

>>1538372
>в шапке вики есть, ее наверно вообще почти никто не читает
И почему же ее никто не читает? Может потому, что инфа устарела на года 2-3?
Единственная ценность вики это историческая. Там можно по таким строчкам
>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp
Узнать, например, почему у exl раньше были и остаются в виде нескольких шизов фанаты

Аноним 01/03/26 Вск 19:32:32 #20 №1538423

>>1538162 →
>>1538158 →
>>1538138 →
В начале пути радовался каждой лишней тысяче контекста на 12б, квантовал даже. 12к думал это очень много. Щас 32к на эире стоит, еле еле доползаю до этих же 12к и закрываю ламу, всё же на подрочить вполне хватает, а какие то богатые истории писать с попугаем как то не тянет, есть ещё развлечения

Аноним 01/03/26 Вск 19:36:42 #21 №1538430

>>1538417
Квены я терпеть не могу, но ты прекрасно доказал треду, почему новичков, которые не хотят отвечать на задаваемые им вопросы, нужно мочить в сортире.

Напомню, что весь сыр-бор начался с того, что вот тут >>1538266 → я попросил конкретные вещи: "Какая модель, на чем запускается, какие настройки? Где скрины? Где логи?"
Одних только Квенов несколько поколений, не говоря уже о том, что стандартные настройки Кобольда аноны не помнят наизусть. Приложить скрины с настройками и логами можно и без пасскода. Нахуй ты вообще его сюда приплёл? И всё это спустя десяток сообщений.
Короче, только время на тебя зря потратил. Ты обычная недовольная злюка, к которой соответствующее отношение.

Аноним 01/03/26 Вск 19:36:45 #22 №1538431

>>1538423
Меняй карточки и/или модели. Тебе просто приелись карточки, либо стиль написания модели

Аноним 01/03/26 Вск 19:39:02 #23 №1538435

>>1538417
>анон с целью помощи реквестит информативные скрины и логи
>спустя дюжину постов верчения на сковороде и вони приложил таки пикрил
>длина контекста
ебать спасибо нахуй
в голос, таким ничего не поможет

Аноним 01/03/26 Вск 19:43:50 #24 №1538445

>>1538431
>меняй
Конечно, давай модель уровня эира в его размере

Аноним 01/03/26 Вск 19:52:46 #25 №1538454

1.jpg

2.jpg

3.jpg

>>1538430
>поток обид вместо ответов на вопросы
Да ты сам походу не знаешь в чём проблема, просто для красного словца сказал, что специалист
Но раз ты просишь, лови. Модель Qwen3.5-27B-heretic.Q4_K_M
Лог я проебал, сразу перезагрузив кобольд

Аноним 01/03/26 Вск 19:56:51 #26 №1538455

>>1538454
Ты если не понял то мы тебя тут всем тредом игнорим уже
Тот кому ты отвечал был прав тащемто, пока он на тебя не спустил хорошенько ты почему-то скрины принести не мог, а теперь с барского плеча запостил со словами раз ты просишь, лови и пасскод не понадобился ахаха
Это наша проблема, что ли? Это нам надо? Плюс один шиз в копилку

Аноним 01/03/26 Вск 19:58:41 #27 №1538459

>>1538454
> Но раз ты просишь, лови.
Да, это же мне необходимо разобраться, почему моделька отказывается выводить аутпуты...

Пасскод купил таки или что мешало раньше запостить? Сейчас ясен хуй я уже даже смотреть не буду, кекв. Может найдется в треде кто-нибудь, кто помогает выебистым залетухам, но не я.

Аноним 01/03/26 Вск 20:00:27 #28 №1538460

Не бейте, только вкатываюсь. Система 12 гигабайт видеопамяти, 32 гигабайта ддр4 памяти, ссд обычный сата. Какую модель лучше всего использовать при таких характеристиках? Пробовал Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2, два разных Qwen (не помню какие именно, уже удалил) - ничего из этого не понравилось, по разным причинам. В основном потому что модели очень предсказуемые и пишут одинаково вне зависимости от ситуации. Вроде и не тупят слишком сильно, но чувствуется что они постоянно будто одну и ту же сцену пытаются описать просто чуть разными словами. И русский у них очень проблемный, используют какие-то очень странные словосочетания, говорят чуть ли не поговорками иногда. В общем да, такая ситуация. Есть что-то получше, что можно установить, или лучше забить и пойти в aicg спрашивать про всякие опусы и гемини?

Аноним 01/03/26 Вск 20:01:08 #29 №1538462

>>1538455
>три поста жаловался на отсутствие скринов
>получив скрины жалуется на их наличие
>мы, нас
Мда...
>>1538459
Я не запостил скрины сразу только потому, что не знал, что проблема специфическая и редкая. Я считал, что так бывает у всех, и решение давной найдено. Хз с чего тут ущемляться всем тредом

Аноним 01/03/26 Вск 20:02:58 #30 №1538464

>>1538460
Качаешь 2 квант отсюда https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF
Не нравится - закрываешь и идёшь в асиг, лучше не будет

Аноним 01/03/26 Вск 20:04:45 #31 №1538465

А ладно забей все равно не влезет
Как же пососно не иметь 64 рам

Аноним 01/03/26 Вск 20:05:02 #32 №1538466

>>1538464
Второквантовый даун, теперь охотится на новичков...

Аноним 01/03/26 Вск 20:07:36 #33 №1538468

>>1538464
Мне не хватит, у меня система просто с браузером без всего другого жрет 8 гигабайт памяти, так что под модель у меня где-то 36 гигабайт свободно.

Аноним 01/03/26 Вск 20:08:39 #34 №1538470

Все жалуются что квен 3.5 много думает. Мой квен:
>Reasoning:
>Пользователь просит информацию о модели LongCat-Flash-Lite. Я нашёл технический отчёт и страницу Hugging Face. Теперь нужно создать структурированное саммари с ключевыми особенностями архитектуры, производительностью и практическими деталями.

И всегда в таком духе. Пользователь просил А надо сделать А. Все размышления

Аноним 01/03/26 Вск 20:08:47 #35 №1538473

>>1538468
https://huggingface.co/bartowski/zai-org_GLM-4.7-Flash-GGUF

Аноним 01/03/26 Вск 20:09:28 #36 №1538474

>>1538460
> Пробовал Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2
По выбору моделей в целом верно, разве что Llama 8b тебе не нужна. Mistral Nemo (12b) - хороший старт. Возможно, удастся Mistral Small 24b в ~Q3 уместить? Итт были аноны с похожими сетапами, думаю, отзовутся. Разница будет существенная, 24b модель в Q3 будет лучше, чем 12b в, наверно, любом кванте.
> В основном потому что модели очень предсказуемые и пишут одинаково вне зависимости от ситуации
> Вроде и не тупят слишком сильно, но чувствуется что они постоянно будто одну и ту же сцену пытаются описать просто чуть разными словами.
В каком формате у тебя карточки? Поделись, покажи. Возможно, проблема в них или промптах, которые ты используешь. Будет хорошо, если покажешь весь пресет, включая семплеры. Если температура слишном низкая, то и разнообразия никакого не будет.
> И русский у них очень проблемный
Хороший русский язык, увы, возможен только на самых больших моделях, и то с нюансами. Но 24b Mistral Small будет на порядок лучше, многие на русике играют на нем и Гемме 27, но не уверен, что ее удастся впихнуть. У нее контекст тяжелый очень.
> Есть что-то получше, что можно установить
Если можешь переехать на 24-27b модели, то жизнь там есть, по крайней мере на английском. Сам долго сидел на 24b Мистралях. Попробуй 24b модель, поработай получше над промптами и карточками и смотри, что получится. Если уж не устроит результат - придется на апи, да. Q2 Air не советую, потеряешь время. Возможно, есть другие мелко-мое модели, которые подойдут? Не уверен.
>>1538462
🤡

Аноним 01/03/26 Вск 20:11:20 #37 №1538478

image.png

>>1538460
>Mistral-Nemo, MN-12B-Lyra-v4, Llama-3.1-8B, L3-8B-Stheno-v3.2
Это все старый кал. В прошлом треде уже советовали
Вот это полностью на видюхе >>1538010 →
Плюс можно повысить квант, чтобы увеличить качество и существенно снизить скорость
Плюс МоЕ Q4 попробуй
https://huggingface.co/zai-org/GLM-4.7-Flash
https://huggingface.co/Qwen/Qwen3.5-35B-A3B
Для тех, кто на видяхе поставь KV Cache 8 bit
А для MoE придется подбирать CPU Layers (будет 20-30 где-то)

Аноним 01/03/26 Вск 20:11:22 #38 №1538479

>>1538474
>🤡
Чего пристала?

Аноним 01/03/26 Вск 20:20:58 #39 №1538482

>>1538462
Тебе правильно подсказали ещё в прошлом треде. Смешение двух или более промтов сломало мозги твоему боту. А если у твоего бота сломался мозг, значит ты дал ему прямо противоположные инструкции. В твоём чате не должно быть ничего лишнего, что может сбить бота с основной линии. Как фиксить в дальнейшем? Хз. Напиши новый промт, поточнее, попробуй, проверь. Тут практика решает больше, чем конкретное знание. В конце концов у кобольда есть функция рефинкать сообщения, мог бы её потыкать.

Аноним 01/03/26 Вск 20:24:22 #40 №1538487

>>1538470
>Мой квен
Это который ты в голове себе выдумал? Потому что настоящий квен срет по 5к токенов на любой чих
>Пользователь просит информацию о модели LongCat-Flash-Lite. Я нашёл технический отчёт и страницу Hugging Face. Теперь нужно создать структурированное саммари с ключевыми особенностями архитектуры, производительностью и практическими деталями.
Так думает гопота 120b, если ей low выставить в ризонинге, все остальные пишут ощутимо больше

Аноним 01/03/26 Вск 20:25:27 #41 №1538488

База треда по нищуковым сборкам: советчики МоЕ говна, которые сами ни разу не пробовали флэши и А3Б (потому что если бы попробовали, то никогда бы это не советовали) против плотнодебилычей геммоебов, которые любят читать по одному слогу раз в 3 секунды.

Аноним 01/03/26 Вск 20:30:18 #42 №1538490

>>1538482
Ну, я не знал, что будет такая реакция. Ладно, извиняюсь перед всеми. Буду писать меньше. За совет спс

Аноним 01/03/26 Вск 20:31:52 #43 №1538491

>>1538474
>В каком формате у тебя карточки?
Раньше использовал готовые, потом тоже подумал, что может проблема в них и начал писать свои через переводчик. Просто текстом описывал персонажа в несколько параграфов, потом переводил и вставлял. В каком то гайде прочитал, что это лучший формат вместо всяких списков и тегов.
>проблема в них или промптах, которые ты используешь
Промт обычный дефолтный из таверны. Ролплей иммерсив или как-то так. Ничего там не менял в общем-то.
>Будет хорошо, если покажешь весь пресет, включая семплеры
Их тоже не менял, ну кроме формата инструкций. Семплеры пресет Simple-1, там температуру только крутил, но это ничего не поменяло по ощущениям. Вернул по умолчанию.

Попробую мистраль 24B и гемму 27B, спасибо.

>>1538478
>Вот это полностью на видюхе
>Плюс МоЕ Q4 попробуй
Попробую, спасибо.

Аноним 01/03/26 Вск 20:32:59 #44 №1538492

17065568054190.jpg

>>1538488
Хули делать, если на нищеуровне все одинаково говно?

Аноним 01/03/26 Вск 20:33:06 #45 №1538493

>>1538383
>А если оба?
То сына долбоеба

Аноним 01/03/26 Вск 20:35:19 #46 №1538494

>>1538492
Оно говно по-разному. Первые смотрят на то, как их ХХ-летняя женщина снимает трусы четвертый раз подряд, вторые заебываются еще до того, как она начнет снимать трусы.

Аноним 01/03/26 Вск 20:35:59 #47 №1538496

>>1538490
У анончика просто пригорело маленько, не обращай внимание, со всеми бывает. Ты вон тоже простынь выдал. Обменялись говной и хватит. Пиши как писал, только обращаясь с проблемой, описывай её подробно, чтобы мы могли тебе помочь.

Аноним 01/03/26 Вск 20:49:16 #48 №1538510

>>1538454
У тебя неправильный темплейт и неправильные семплеры. Правильные можешь посмотреть на странице модели.

Аноним 01/03/26 Вск 21:04:44 #49 №1538520

>>1538417
>Что значит что он кончился?
Вот так взял и кончился. Контекст - это все что есть в чате от начала чата. Вообще все - и ризонинг нейронки, и то что ты там понаписал и высеры нейронки. Упрощенного говоря при нажатии кнопочки "Отправить" в модель уходит не последнее сообщение - а вся СРАНЬ с начиная с системного промпта и твоего первого сообщения. И при превышении размера контекста в этом посыле нормальный серьезный бэк отрыгивает сразу с ошибкой. Но у тебя кобольд. А в кобольде по умолчанию включено скользящее окно. Дальше гугли сам.

Аноним 01/03/26 Вск 21:11:39 #50 №1538525

1745734528619.png

Нагрузку страшно давать, уверен что то отрыгнёт

Аноним 01/03/26 Вск 21:40:04 #51 №1538564

Среди моделек до 35б кто сейчас ебет в кодинге? ГЛМ 4.7 флеш?

Аноним 01/03/26 Вск 21:42:13 #52 №1538566

>>1538564
27b квен, остальное годится только змейку на питоне генерировать.

Аноним 01/03/26 Вск 21:51:57 #53 №1538573

1721020629820.png

1687850436364.png

>>1538525
Вроде шевелится, но очень медленно. На двух было кратно быстрее, мб мало рамы, пойду загружать память

Аноним 01/03/26 Вск 22:17:14 #54 №1538593

Где в глупой таверне смотреть, С какой скорость и за какое время генерируется ответ.

Аноним 01/03/26 Вск 22:22:39 #55 №1538596

image.png

И это странно, что в таврене как то лучше текст пишется? Или это мощь тегов? Или у меня планка низкая?

Аноним 01/03/26 Вск 22:30:14 #56 №1538608

>>1538573
Tp, pp или комбинация? Сколько выдает?
>>1538593
Включи в настройках таймер сообщения а потом на него наведи.
>>1538596
Таверна может работать лучше за счет более продвинутых настроек формата и управлением промпта. Или по той же причине хуже если в них накосячишь.

Аноним 01/03/26 Вск 22:51:16 #57 №1538615

1673224778833.png

>>1538608
> Сколько выдает?
Пока какой то посос на гемме в 18тпс. Завтра нужно настроить охлаждение, подкинуть нормальную сеть и уже гонять бенчи

Аноним 01/03/26 Вск 23:06:25 #58 №1538625

ministral 14b Хватит всем!!!!

Аноним 01/03/26 Вск 23:22:33 #59 №1538642

image.png

О. Немного поверхностно и ещё надо будет допилить напильником, но уже что-то.

Интересно какие модели для эмбеддинга и реранкинга вообще с русским дружат

Аноним 02/03/26 Пнд 02:30:14 #60 №1538731

>>1538615
Чел поимел систему. Круче я ещё в этой теме не видел.
128 гб врам по цене как... короче моё почтение.
Слушай, а как ты Ollama (или vLLM) под них заводил? Из коробки же официальные билды gfx906 уже не жалуют. Сам компилил библиотеки?
Что ты на ней будешь делать?

Аноним 02/03/26 Пнд 02:31:14 #61 №1538732

>>1538487
Я всеми 3.5 квенами пользовался. Ни один не срал ризонингом. Хотя все жалуются. У меня одна только гипотеза что Openclaw в промпте имеет что-то такое что влияет на это проведение

Аноним 02/03/26 Пнд 02:53:27 #62 №1538742

1772409208889.jpg

>>1538731
Сам собираю из официальных реп и форков. Нужно вот начать всё обновлять, а то пока был риг разобран всё стояло на месте
> Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906

> Что ты на ней будешь делать?
У самурая нет цели. Есть парочка идей которые хочется опробовать

> 128 гб врам по цене как...
50к. Если бы прям по низу успевал то может даже в 40 бы уложил видяхи.

А вообще я может и успел поиметь систему, но она меня в ответ тоже поёбывает.
- красные видяхи с спец заказа из цодов
- "отечественная" мать которая не прошла приёмку
- инжи 4189 "не для продажи"
- разогнанная до 2666 серверная 2133
- обильно посыпать 3д печатными костылями
Это всё по определению не должно хорошо работать

Аноним 02/03/26 Пнд 02:59:58 #63 №1538743

https://huggingface.co/CohereLabs/tiny-aya-base

Пробовал кто малышку Аю?

Аноним 02/03/26 Пнд 03:04:40 #64 №1538744

>>1538742
Заставить работать ecc в разгоне на бракованном гагарине или что там у тебя, ещё и на инжике + купить 128 гб врам за 50к... бля чел, ты не пропадай, пиши тут иногда. Буду читать в перерывах пока вручную перекраиваю .md текст для RAG библиотеки 24bq4 мистрали на 16 гб озу...

Аноним 02/03/26 Пнд 03:14:11 #65 №1538748

Капец, v100 уже по 48к. До нового года было 30-40к куча лотов.

>>1538742
Мне больше страшно что у тебя гемма работает так плохо.

Аноним 02/03/26 Пнд 03:38:46 #66 №1538756

К слову запустил qwen3.5, который MoE 35B.
Контекст из коробки не пересчитывает.
С 8 гб карточкой и таким же размером файла в два раза выше pp, но tg такой же как и у glm-4.7-flash.

А ещё он походу тупой, и задачи, которые достаточно спокойно решал как флеш, так и qwen-next 80b-a3b, этот решить не в состоянии даже после трёх перезапусков.
При этом в размышлениях на логику вещи правильные и разумные, но вызовы инструментов оно не умеет (неверный синтаксис это лама выдаёт что парсер не справляется), и ещё инструкции игнорируется - на просьбу выдать json-запрос оно пишет текст, как его не бей. Требования к лимиту токенов не выполняет, хотя я в каждом сообщении мета-инфу такую скидываю.
А glm-4.7-flash всё так же лупится как тварь.
Что-то в его (qwen3.5) размышлениях точно есть, и ещё он их точно на английском делает, но надо допиливать мелочи.
Хотеть glm-4.7 побольше. 80B-A15B был бы идеален.

Аноним 02/03/26 Пнд 03:43:06 #67 №1538757

Аноны, а подскажите, расцензуренные версии МоЕ моделек вообще существуют? Чет то ли я слепошарый, то ли есть какие то концептуальные проблемы.

Так то хочется и рыбку съесть, и сковородку не испачкать - и что то уровня той же GLM 4.7 Flash получить, и уместиться во VRAM, избежав скорости генерации 2 токен/сек.

Аноним 02/03/26 Пнд 04:31:10 #68 №1538765

>>1538625
я не знаю рофлишь ты или нет (от /llama/ всего можно ожидать), но министралька 14b прям топ до <24b.
В качестве ассистента прям бесценна.

Аноним 02/03/26 Пнд 04:57:53 #69 №1538767

>>1538765
>министралька 14b прям топ до <24b.
>В качестве ассистента прям бесценна.
1) На чём ты её запускаешь?
2) Что именно ты на ней делаешь, где она себя так хорошо показывает?

Аноним 02/03/26 Пнд 05:29:48 #70 №1538783

Однако последняя версия кавраковского форка хороша. Хз как там идут стандартные кванты, но родные прямо летают.

Аноним 02/03/26 Пнд 05:48:43 #71 №1538790

>>1538359 (OP)
На радеоне 580 с 8гб какую модель дёргать?

Аноним 02/03/26 Пнд 05:53:17 #72 №1538795

Голубь плохо свил гнездо а ему приемлемо.jpg

>>1538642
Выложишь когда? х2
>>1538742
>Это всё по определению не должно хорошо работать
Хорошо? Нет. Но приемлемо.
>>1538757
>расцензуренные версии МоЕ моделек вообще существуют?
Существуют, но работают как говно.
>>1538790
Можно передёрнуть только соседу по парте, без запуска моделей.

Аноним 02/03/26 Пнд 06:23:03 #73 №1538806

>>1538765
Ну тая я-же про то и говорю, это топ за свои деньги, есть и вижн и ризонинг, и как асистент норм, вобщем класная сасная всё включено. Использую её как основную модель для телеграмм бота, да и как агента в openclaw тож использую, хотя есть возможность запускать норм модели (40врам 64 рам), и я их запускаю для некоторых задач, но министралька 14 это прям работяга на все случаи жизни.

Аноним 02/03/26 Пнд 07:44:48 #74 №1538842

>>1538742
>Это всё по определению не должно хорошо работать
В чем проблема? Не кернелпаникует значит работает.
>>1538615
>Пока какой то посос на гемме в 18тпс.
А сколько должно быть? Она в целом не радует скоростью как и любая плотная модель.
>>1538756
Флеша перенатаскивать надо, у него память как у рыбки.

Аноним 02/03/26 Пнд 07:52:05 #75 №1538845

>>1538756
>но вызовы инструментов оно не умеет (неверный синтаксис это лама выдаёт что парсер не справляется)
Бтв, попробуй с клодоагентом, там походу более убедительный промпт - если модель умеет работать с тулзами, в нем она может выебываться как хочет, но тулинг работает как часы кроме девстраля.

Аноним 02/03/26 Пнд 08:02:37 #76 №1538852

>>1538842
>А сколько должно быть?
Ну, на одной V100 она выдаёт 50..60/s через llama.cpp в квантах.
У него достаточно памяти чтобы без квантов запускать гемму хоть в fp16. Скорее всего какая-то тупая хрень или в vLLM под это железо или это просто особенность vLLM, у которого генерация в один поток не самая сильная сторона, и все оптимизации нацелены на 60 одновременных одновременных конкурентных запросов от разных пользователей.
Ещё есть шанс что эта mi50 по компуту остаёт в десять раз, но это маловероятно, я думаю она даже быстрее должна быть, так как отсутствие куды - это явно не на пользу популярности amd идёт, и они должны при том же уровне карточки предложить что-то, например больше операций на ватт.

>>1538845
Да я уже написал свой парсер, забей.
Просто хотелось с нормальным v1-интерфейсом работать, чтобы была возможность сетку менять без особых проблем и парсер писал не я, а лама. А получается что ванильная лама не умеет ни в qwen3.5, ни в glm4.7, а с автопарсером достаточно хорошо работает с glm4.7, но всё так же падает с qwen3.5. К тому же я только сейчас обратив внимание, что автопарсер ломает /v1/completion (и ламовский /completion тоже, там чуть другой json) интерфейс полностью (любой запрос падает с ошибкой), рабочим остаются только /v1/chat/completion.

Аноним 02/03/26 Пнд 08:19:02 #77 №1538855

изображение.png

>>1538852
Хотя ладно. Забираю свои слова обратно, я ошибся. В некоторых местах.

Надо было пересобрать ещё раз, и с автопарсером без размышлений всё работает на qwen3.5.
Причём оно уважает все варианты tool_choice, даже явный призыв вызывать определённый инструмент. А вот с размышлениями падает.
Но самое главное, что обычный /v1/completion починился для qwen3.5, потыкаю сегодня его что ли.

Аноним 02/03/26 Пнд 08:41:43 #78 №1538858

>>1538852
>и они должны при том же уровне карточки предложить что-то, например больше операций на ватт.
Лел. Амд периодически выкатывает драйвера. Порой они даже не вешают систему. Это все, что нужно знать про радеон.
>я думаю она даже быстрее должна быть
Сомнительно, я когда выбирал между ними и v100 по форумам понял то, что там перф примерно 80% от в100. Причем за пару лет он менялся от говнища до вполне приемлемого результата, и бенч анона с пирамидой после полировки будет чуть ли не единственной адекватной точкой отсчета за последние полгода. На дрова очень многое завязано.

Аноним 02/03/26 Пнд 08:42:24 #79 №1538859

>>1538852
>>1538842
>>1538748
Старые бенчи глянул и там всегда было 18-20 тпс с тензор параллел 2. Пик в 100 когда 4 запроса параллельно.

Вллм для ми50 работает на паре ядер патченых васянами

Аноним 02/03/26 Пнд 11:20:28 #80 №1538912

>>1538732
Я пока могу сказать только за 27B. Походу, ризонинг у него с претензией на интеллектуальное включение. Если дать модели контекст на 2-3K с данными для которых ризонинг не особо нужен (вроде RP сессии и лора), и в запросе не вопрос а действия игрока - она ризонинг не включает. А если игрок при этом спросил у персонажа какую-то заморочь - тогда да, начинает думать.

>>1538757
>Аноны, а подскажите, расцензуренные версии МоЕ моделек вообще существуют?
Да. И GLM(air), и Qwen, и даже гопота-oss есть.

Аноним 02/03/26 Пнд 11:59:36 #81 №1538936

Анончик, а на чем сейчас выгоднее риг собирать? Скажем для кими.

Аноним 02/03/26 Пнд 12:01:10 #82 №1538937

image

Составлял я значит карточку с помощью гопоты, а он мне такой: братишка, а ты ничего не перепутал? Давай хоть в NSFW переделаем или чернухи добавим, что это за унылое говно?

А потом такой беру и задаю тот же вопрос квену 122b. Результат на скрине. Не, вы вдумайтесь: новый квен настолько соевая параша, что даже гопота на его фоне выглядит умницей-базовичком.

Как можно было НАСТОЛЬКО обосраться? Ебаный стыд.

Аноним 02/03/26 Пнд 12:14:15 #83 №1538949

>>1538937
>11652 раздумия
>Нет
орнул в голос.

Аноним 02/03/26 Пнд 12:17:01 #84 №1538952

>>1538949
Он просто рассуждает как дед в деменции:
Так, пользователь попросил составить NSFW карточку. Значит я должен…. Как его там… А, да, были карточки в моё время, вот помню а 60ых был один бейсболист..

Аноним 02/03/26 Пнд 12:22:28 #85 №1538956

>>1538937
1. В гопоте у тебя скорее всего есть какой-то контекст, которая она подтягивает из других чатов, а у квена пустой контекст
2. Отказ очевидно произошел в ризонинге. И она надумал аж на 11к. Сомневаюсь, что у тебя у гопоты был врублен ризонинг
3. Уже миллион раз написали, что XL кванты СЛОМАНЫ и Q4XL сосет даже у IQ3XSS >>1535950 →
И все это не отменяет того, что модель соевая. Но ты все равно обосрался, кобольд

Аноним 02/03/26 Пнд 12:32:13 #86 №1538962

>>1538956
>В гопоте у тебя скорее всего есть какой-то контекст
Ничего связанного с РП или NSFW, в основном рабочие запросы.
>Отказ очевидно произошел в ризонинге
Перепроверил: без ризонинга то же самое.
>XL кванты СЛОМАНЫ
Это не влияет на рефьюзы. Не вижу смысла сейчас перекачивать, пока исправленные кванты на выкатят. Оно всегда так с новыми моделями.
>кобольд
Ты из тех шизов кто предпочитает забивать шурупы молотком? Таверна для РП, фронт кобольда - для ассистента. Это банально удобнее.

Аноним 02/03/26 Пнд 12:45:15 #87 №1538972

>>1538962
>Это не влияет на рефьюзы. Не вижу смысла сейчас перекачивать, пока исправленные кванты на выкатят. Оно всегда так с новыми моделями.
Это сильно влияет на качество модели. Ты сейчас юзаешь полностью сломанный квант, который даже до Q3 не дотягивает. Это при том, что уже в день релиза модели были рабочие кванты у бартовски. В чем смысл ждать анслопа?
>фронт кобольда - для ассистента
Он вырвиглазный. Фронт llama.cpp ощутимо лучше

Аноним 02/03/26 Пнд 12:46:41 #88 №1538973

image.png

Наткнулся на такое вот говно на обниморде. Это вообще нормально? Они же продают доступ к какой-то невнятной хуйне под видом "надо поделиться контактной информацией".

Аноним 02/03/26 Пнд 13:23:53 #89 №1539008

Еретики пошли на среднеквен 122
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-GGUF
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-GGUF

Аноним 02/03/26 Пнд 13:24:36 #90 №1539011

>>1539008
Быстрофикс второй ссылки
https://huggingface.co/mradermacher/Qwen3.5-122B-A10B-heretic-i1-GGUF

Аноним 02/03/26 Пнд 13:28:01 #91 №1539015

>>1539008
В чем разница между херетиком и нормпресерв? Что из этого меньше лоботомирует модель?

Аноним 02/03/26 Пнд 13:37:51 #92 №1539029

image.png

>>1539015
Сам не ебу, вот тебе слоп вместо ответа. Я так понимаю норм>еретик>обычный аби. Но за это пусть геммаводы поясняют, они уже год пытаются свою умничку расцензурить

Аноним 02/03/26 Пнд 13:40:53 #93 №1539031

>>1539015
>>1539029
вы че балбесы

еретик это просто название скрипта, который разные методы использует
автор обещал включить нормпрезерв в свой скрипт, хз сделал ли

Аноним 02/03/26 Пнд 13:58:07 #94 №1539040

image.png

Скоро микроквены для... А для кого нахуй? Кто их просил? Для чего они нужны? В чем смысл их существования?

Аноним 02/03/26 Пнд 14:09:17 #95 №1539057

>>1539040
для какой нибудь несложной работы.

Я вот ради интереса попробовал суммаризировать этот тред, точнее предыдущий, типа чтобы самые полезные ключевые моменты выделить и обломался. если в лоб делать - получится каша.
соответственно нужен скрипт со специализированными агентами которые будут делать разные вещи, например сначала чистить тред от мусора, потом выделять важные моменты и куда то сохранять, а уже потом по сохраненному уже начать составлять типа гайда.

Надо будет поискать какие вообще есть решения.

Кстати, я пробовал мелкоквен 3-vl-8b и он чот плохо справляется с вызовами тулзов. Надеюсь новая версия лучше справится

Аноним 02/03/26 Пнд 14:10:52 #96 №1539061

>>1539040
На мобилках запускать, или может какие узко-направленные ассистенты пилить. Плюс там вижен есть, можно OCR какой-нибудь хуярить на чем угодно.

Аноним 02/03/26 Пнд 14:17:58 #97 №1539069

>>1539057
Там gemma 3 или ministral будут лучше для этого. Все таки китайцы идут в прогерство, а не в языки. И почему именно 8b, а не более крупная?
>>1539061
>На мобилках запускать
Но зачем? В чем смысл запуска этих лоботомитов с никакущей скоростью на мобилках, если есть копры и/или локалки на компе, к которым можно подключится?

Аноним 02/03/26 Пнд 14:23:58 #98 №1539079

>>1539040
Как раз это единственные нормальные модели от Квена, 4b новый нужен. А большие - это мусор, неспособный ни с кем конкурировать.

Аноним 02/03/26 Пнд 14:24:41 #99 №1539081

>>1539069
у меня была идея типа тупого мелкоскрипта который быстро отработает простой сценарий типа пройтись по списку и что то скачать и отметить, т.к. модели покрупнее довольно долго выполняют.

Аноним 02/03/26 Пнд 14:31:52 #100 №1539086

>>1539040
Для телефонов/планшетов.

Аноним 02/03/26 Пнд 14:37:48 #101 №1539097

>>1538936
Собирать риг для кими не выгодно.

>>1539040
Автодополнение строчки/двух кода, rag-экстрактор информации из файлов с системным промтом на 5 строк, embeding/rerank режимы(не уверен что второй поддерживает), исправление стиля и отступов в коде и другие супер простые задачи. Регулярка++ по смыслу, если нужно решить что-то уровня поиска всех имён в тексте.

Аноним 02/03/26 Пнд 14:38:47 #102 №1539099

>>1539097
На сколько не выгодно? А для чего выгодно?

Аноним 02/03/26 Пнд 15:03:27 #103 №1539125

Коротко - очень не выгодно.

Кими - очень большая сетка. В полных весах это 2 терабайта. В 4 бита - 500 ГБ только на веса модели, а ещё нужны временные буферы для вычислений, и буфер для kv-кеша.
Ребята тут часто пишут, что ниже 4 бит жизни нет и лучше ставить 6 и выше. Вот то что у тебя chatgpt, или kimi который на сайте - там вообще скорее всего в 8 бит всё работает.
Я конечно не согласен, но даже если взять оптимистичные 3.5 бит и считать что буферы для вычислений и кеша имеют нулевой размер - это 437 ГБ.

Работа ллм делится на разбор промта (pp - promt processin) и генерацию ответа (tg - token generation)
Итого:
На DDR4 это будет стоить 200-300к, и будет выдавать 1-2 слова в секунду (генерация) или около того.
На DDR5 это будет стоить под 600к и будет выдавать 3-4 слова в секунду (генерация) или около того.
Помимо этого тебе нужна хотя бы какая-то видеокарта, без неё скорость pp будет порядка 10-20/s. С картой сразу будет 100-200/s, даже со слабой на условный 16 гб.
Собрать видеокарт на 480 ГБ - самый дешёвый вариант, это 15 штук V100. Это 800к за карты и райзеры. Допом тебе нужно найти материнку, где будет достаточное число слотов и pcie-линий. Впрочем, даже x4 более-менее хватит, но 60 линий найти сложно, как я понял есть либо нормальные процессоры на 48, или чудовища эпики и рипперы от амд на 120 линий. Ну, либо двух процессорная система. Помимо этого тебе нужно подвести к этому питание. Даже если выставить лимиты по 150 ватт - это 2.5 квт на систему. Одновременно они все в кими работать не будут, но что-то вроде 1.5 квт тебе понадобится. И это будет скорость около 10 слов в секунду и pp порядка 200-400/s, думаю. Числа из головы. В общем это система на миллион + придётся потратить десятки часов на сборку всего этого. Если ты берёшь любые другие карты, то один из самых дешёвых вариантов - покупать 4-6 rtx blackwell 6000 pro с 96 ГБ видеопамяти, это за три миллиона стоимость сразу, но скорости будут хорошие, как в облаке или даже быстрее.

Про подписку за 10 долларов в месяц слышал, одной blackwell 6000 pro тебе хватит на подписку до конца жизни или близко к этому.

Дополнительная информация. Видеокарты - это параллельные ускорители. То есть им нужно делать много одинаковых операций одновременно. А ты один.
В случае pp всё в порядке, ты кидаешь текст на 50 страниц - оно параллельно и эффективно это обрабатывает.
В случае tg всё очень плохо, процедура последовательная. В случае если ты отправил один запрос - то у тебя токены генерируются один за одним со скоростью в условные 50/s, что очень медленно. В случае датацентра и облачной сетке к каждой такой системе есть одновременно 100 запросов на генерацию от 100 разных пользователей. Скорость при этом почти не снижается, и те же самые карты выдают 50х100 = 5000/s суммарной генерации, что позволяет эффективно использовать видеокарты. С локальным ригом такой сценарий почти невозможен, больше 10 запросов ты никак почти не подашь.

Выгодно - если это твоё хобби. Как гитары, мотоциклы, скалолазанье, рисование и прочее такое.
Так же это выгодно, если:
- у тебя жёсткие требования к конфиденциальности и ты не можешь выгружать в сеть свои данные.
- в случае, если у тебя нет интернета и ты хочешь такое использовать в бункере, в антарктиде или ещё где.
- в случае, если ты ориентируешься на класс моделек 30B, который тебе нужен для несложных задач + генерируешь картикни в sdxl и прочее. Подписки на сервисы генерации неадекватно дорогие, карточка за 100к сможет тебе нагенерировать всё что ты захочешь. На самом деле в случае генерации картинок (параллельная задача) ты можешь эффективно использовать мощности видеокарты. Потому у тебя дома эффективность 100% и в датацентре 100%, а в случае текста у тебя дома 2%, а в датацентре 100%, потому и кажется что подписки на генерацию картинок дорогие, так как с точки зрения тебя ты за 2% работы платишь столько же. А с точки зрения дата-центра генерация в 50 раз тяжелее генерации текста, так как одна генерация картинки утилизирует 100% мощностей видеокарты, и плюсов от двух параллельных генераций почти нет.

Аноним 02/03/26 Пнд 15:04:46 #104 №1539126

>>1538949
Сахур

Аноним 02/03/26 Пнд 15:13:02 #105 №1539137

https://github.com/Mobile-Artificial-Intelligence/maid
Maid можно из шапки убирать, IMHO.

Автор выкатил версию 3.0 в которой:
- дропнуты версии win и lin.
- Не работает даже на android 13 (Это даже телефоны выпущенные год назад. Что, блядь?)
- Добавлена регистрация по емейлу и синк с облаком.
- Просматривается намерение выпилить к хуям локальные бекэнды через OpenAI compatible. В issues уже есть - даже с ollama не соединяется.

Аноним 02/03/26 Пнд 15:14:59 #106 №1539140

>>1539099 воть >>1539125

Аноним 02/03/26 Пнд 15:21:24 #107 №1539156

>>1538962
> Это не влияет на рефьюзы.
Влияет самым прямым образом, отличия радикальны.

Провел довольно обширное сравнение разных квантов 122а10 оценивая этот момент. В первую очередь фокус на наличие софтрефьюзов с искажением фактов и логики, хардрефьюзов, рефьюзов после ризонинга.
Несколько разных тестов, включая кум чатики, капшнинг картинок и обсуждения "Легально ли заниматься X с персонажем Y которому N (много) лет подтвержденных документально, если он выглядит на M". В это случае нормальным ответом помимо прямого согласия, можно считать колебания, вопросы и предупреждения про потенциальные проблемы и общественное мнение. Но после уточннения что документы действительно в порядке и все подтверждено - должно быть однозначное согласие. Убитая же соей модель будет рассказывать небылицы о том, что суду и полиции гораздо важнее внешность, а документы и юридический статус - херня.

Собственно результаты:
Ультрасоя тир - xl анслоты (q4 и q6), фп8 от самих квенов, более ужатый int w4a16 - кардинально искажают факты и логику триггернувшись, подсовывают софт рефьюзы давая неверное описание, застревают в бесконечных лупах в ризонинге. Без ризонинга частые инстантрефьюзы. Собственно все то о чем здесь идет нытье.
Нормис тир - полные веса, другой фп8 (ближе к базированному), mxfp4 (где-то больше гонит базу, где-то сою), менее ужатый w4a16 от quanttrio (ближе к сое). Чаще колеблятся, могут прочесть лекции про общество, но при дальнейшем обсуждении соглашаются что все ок. Софтрефьюзов с искажением в разы меньше, хардрефьюзы случаются.
Есть еще пара ультрабазированных, но с ними нужно уточнить.

При этом всем моделям срывает тормоза на кумботах, все более сговорчивые на не пустых контекстах.

По словам умных людей и нейронки, активация на сейфти имеет высокую амплитуду, которая при калибровке может перебивать все остальное. Образно выражаясь, там где в нормальной ситуации один большой всплеск должен быть уравновешен множеством меньших эти самые меньшие подрезали и исказили. А где-то наоборот он или не был принят во внимание, или вовсе клипнулся. Причем здесь может быть дело не в неверно выбранном датасете - как раз при сжатии еще и атеншна калибруя все на erp такое может произойти, а на стерильных ассистентских qa или медицинских данных наоборот получиться лучше. Это же подтверждается сменой поведения модели если квантовать ее контекст и не использовать скейлы, или подбирать их на "безопасных" текстах.

Высока вероятность что обычные "легаси" гууфы окажутся лучше, надо будет попробовать их протестировать.

Аноним 02/03/26 Пнд 15:22:20 #108 №1539159

image

>>1538972
>фронт кобольда
>Он вырвиглазный
Просто напомню: >>1535161 →

Рекомендую тыкать в это носом каждого тавернодебила, которого встретите тут.

Аноним 02/03/26 Пнд 15:23:19 #109 №1539160

>>1539125
Спасибо за развернутый и подробный ответ, анон. Добра тебе, здоровья родителям и всем твоим родственникам.
И кошко-жену от партии.

Аноним 02/03/26 Пнд 15:28:17 #110 №1539175

>>1539137
А ты сразу опа указывай >>1538359 (OP)
Но вообще тут спорно
>дропнуты версии win и lin
А нужно ли они вообще, если там и так много приложений
>Не работает даже на android 13 (Это даже телефоны выпущенные год назад. Что, блядь?)
Проеб разработчика
>Добавлена регистрация по емейлу и синк с облаком
Это вроде опционально
https://github.com/Mobile-Artificial-Intelligence/maid/issues/725
>Просматривается намерение выпилить к хуям локальные бекэнды через OpenAI compatible. В issues уже есть - даже с ollama не соединяется.
А где просматривается то? У него отвалилось соединение с ollama и он хочет починить это
Выглядит так, будто он просто зарелизил кривой билд и сломал собственное приложение. Мб все исправит

Аноним 02/03/26 Пнд 15:31:21 #111 №1539181

>>1538615
Фотка не соответствует скринам - на них всего 32гига рама, а тут все слоты набиты. Как раз наличие лишь одной-двух плашек может быть причиной замедления, писали о том, что это даст низкие скорости и задержки при обмене потому что путь (видеокарта - шина - рам - qpi - рам - шина - видеокарта) по сравнению с тем, когда железки укомплектованы.
Хз насколько 18т/с на гемме нормально для них и какой там квант. Если 8 бит - примерно столько в один поток по псп и получится если без тп.
>>1538852
> на одной V100 она выдаёт 50..60/s
Гемма? Небылицы, если офк ты не про пропмтпроцессинг говоришь, тогда слишком мало.
> vLLM, у которого генерация в один поток не самая сильная сторона
На свежих железках как раз и в 1 поток быстрее всего, но на тех что постарше уже не все радужно. 18 для геммы это не самый плохой результат (офк зависит от кванта), интереснее что там с процессингом будет, где упор в компьют.

Аноним 02/03/26 Пнд 15:31:40 #112 №1539183

>>1539159
>нет возможности свайпа без регенерации (удаления предыдущего свайпа)
да, кобольд кал

Аноним 02/03/26 Пнд 15:33:25 #113 №1539185

>>1539159
>>1539183
В Кобольде также нет лорбуков, author's note, экстеншенов и много чего ещё. Его если и сравнивать, то с устаревшим говном мамонта TavernAI, и то и другое реализует только базовый чатик.

Аноним 02/03/26 Пнд 15:36:58 #114 №1539189

>>1539175
>А где просматривается то?
Внутри. У меня на телефоне стояла старая версия, обновилась. Пропали все чаты и настройки. Ввел заново - перестала даже пытаться конектится. Написал отзыв - автор просто пометил новую версию как не совместимую для моего телефона, ничего не отвечая. В самих настройках - стало неудобно даже пытаться найти и ввести кастом эндпоинт. Делаю вывод - он хочет уйти в коммерцию к корпам, а локальные бекэнды - сложно поддерживать автору, юзеру легко ловить ошибки, и чтобы ими пользоваться думать надо. Теперь у него целевая аудитория другая - проще выпилить чтоб не мешали.

Аноним 02/03/26 Пнд 15:38:05 #115 №1539192

>>1539181
>Гемма? Небылицы, если офк ты не про пропмтпроцессинг говоришь
Ну, я чуть преувеличил. Окей, я тебе запишу видео на днях со ссылкой на этот пост. Пока разобрал "системник" на рефакторинг и прям сегодня не покажу, а детали будут завтра или послезавтра.
Это с пустым контекстом. При заполнении порежется вдвое, естественно, но не до 18/s всё-равно.

Аноним 02/03/26 Пнд 15:39:25 #116 №1539194

e972d615-d415-4789-a3c6-48f339339d12.jpg

>>1539159
Какая впизду таверна, долбоеб? Я о ней вообще не писал. И уже отвечал тебе >>1535166 →
Также я напоминаю, что в прошлый раз кобольды слились на свайпах. Так что лучше даже не начинайте, сидите на своем говне и не высовывайтесь

Аноним 02/03/26 Пнд 15:40:01 #117 №1539196

image

>>1539183
>>1539185
Орнул. Когда сумел распаковать зип-файлик с лламой, скопировал первую попавшуюся команду запуска (впервые в жизни увидев консоль), кряхтя подключил таверну с дефолт-настройками и теперь ты ИЛИТА треда.

Жаль конечно что нажать на кнопку настроек в кобольде для илиты непосильная задача, иначе такого бреда:
>нет возможности свайпа без регенерации
>нет лорбуков, author's note
я бы сейчас не читал.

Аноним 02/03/26 Пнд 15:40:48 #118 №1539197

>>1539185
В Кобольде также нет лорбуков, author's note
Чел... Они там родились. Еще в самом старом кобольде, который до ламы был, и благополучно перекочевали в cpp версию. Таверна просто развила эти концепы сильнее, но идея не ее.
А еще есть esobold - форк с упором как раз на GUI. Там сильно доработали в том числе и это. Но это так, к слову. Пользоваться не призываю.

Аноним 02/03/26 Пнд 15:41:52 #119 №1539198

>>1539192
Не ну если взять квант поменьше и на пустом контексте - действительно 50-60 можно получить, просто даже не рассматривал этот вариант из-за объема памяти.
Отписывай, тема же интересная, даже если будет не супер быстро - за цену врам в разы ниже рама никаких претензий не может быть. А тут еще есть все шансы на успех. Попробуй еще как на жоре будет, свиду оперативы там много для моделей покрупнее.

Аноним 02/03/26 Пнд 15:42:27 #120 №1539199

>>1539196
Герой монитора побеждает всех своих воображаемых врагов. Кто тебе так жопу защемил, что ты рвешься в треде днём в понедельник?
Приноси скрины, показывай как сделаны лорбуки в Кобольде, поржем всем тредом

Аноним 02/03/26 Пнд 15:43:15 #121 №1539201

>>1539197
> Еще в самом старом кобольде, который до ламы был, и благополучно перекочевали в cpp версию
Что за хуйню я только что прочитал? Кобольды реально невероятно тупые
В лламуцпп переехали лорбуки? Ты хотя бы знаешь что такое лорбуки и как они работают?

Аноним 02/03/26 Пнд 15:44:16 #122 №1539203

>>1539196
Игнорируй явный жир. Кобольд не подарок, но того хейта он не заслужил, лучше сделай несколько скринов показывая где это настраивается, заодно неофитам поможешь.

Аноним 02/03/26 Пнд 15:46:20 #123 №1539206

>>1539199
Нет цели кого-то "побеждать", лол. Просто поржал с тупости тавернодебилов. Никогда такого не было и вот опять.

Аноним 02/03/26 Пнд 15:47:30 #124 №1539207

>>1539189
Я хз, я не сижу с телефонов. Но пока это больше выглядит так, что автор долбоеб и сломал приложуху. Учитывая, что он ее почти один пилит это вполне вероятно

Аноним 02/03/26 Пнд 15:49:58 #125 №1539211

>>1539206
Никто не заявлял, что он принадлежит к элите треда. У тебя с головой явно проблемы. Ну неудивительно, ведь
>Когда сумел распаковать зип-файлик с кобольдом, скопировал первый попавшийся конфиг запуска запуска (впервые в жизни увидев все эти параметры), кряхтя подключил запустил чатик с дефолт-настройками и теперь ты ТОЧНО лучше остальных
Это дефенишен Кобольда. И ладно бы ты сидел и не выебывался, так рвешься на ровном месте, когда к тебе даже никто не обращается. Кобольд это твоя тян? Твой младший брат? Ему вот прям нужна твоя защита, да? Какой софт, такие и юзеры

Аноним 02/03/26 Пнд 15:54:52 #126 №1539218

>>1539156
>небылицы о том, что суду и полиции гораздо важнее внешность, а документы и юридический статус - херня
Тащемта как минимум для съёмок порно это чистая правда как минимум в РФ и Австралии.
То есть трахать персонажа
>Y которому N (много) лет подтвержденных документально, если он выглядит на M
можно, а снимать это нельзя есть ещё весёлые казусы, когда оба реально возраста М, но это уже выходит за рамки треда. Добро пожаловать в реальный мир так сказать.

Аноним 02/03/26 Пнд 15:56:14 #127 №1539223

>>1539197
Ты действительно прочитал хуйню вместо написанного.
Речь шла о переезде идеи WI/Lorebook фичи из старого KoboldAI в KoboldCPP.

Аноним 02/03/26 Пнд 15:58:53 #128 №1539233

>>1539201
>>1539223
Бля, перепутал линки на ответ кому.

Аноним 02/03/26 Пнд 16:03:54 #129 №1539247

image.png

>>1539185
>лорбуков
Есть, скрин 1
>author's note
Есть, скрин 2
Еще можно свой css грузить как в таверне (скрин 3)
Свайпы вроде урезанные, но есть (скрин 4)
В целом кобольд очевидно сосет у таверны. Зато дает сразу куча всего в 500мб, может кому-то это критично

Аноним 02/03/26 Пнд 16:06:38 #130 №1539249

>>1539218
Когда ответ формулируется в таком ключе с объяснениями и оно скажет что сниматься нельзя - это даже отлично.
Плохо - когда под действием триггеров начинает напрямую искажать логику, заявляя что наличие подлинных и легальных документов, вождение автомобиля, покупка алкоголя, недвижимость в собственности - ничто, а внешность - единственное что важно перед законом и судом.
>>1539247
А графы русалкой рендерить может?

Аноним 02/03/26 Пнд 16:12:36 #131 №1539261

Сколько контекста можно выкрутить на AIR (IQ4_XS) в 64+24 (рам+врам) и 128+24?

Аноним 02/03/26 Пнд 16:12:48 #132 №1539262

>>1539181
> Фотка не соответствует скринам - на них всего 32гига рама
Разницы между 2х16 и 16х16 нет. В вллм рама курит

Аноним 02/03/26 Пнд 16:14:02 #133 №1539263

>>1538275 →
А мне вообще не понравилось. На пустом контексте тоже есть отказы, на карточках он лучше нового квена и даже эира, но идет в повторы. Ну и сука медленный пиздец, можно вешаться просто

Аноним 02/03/26 Пнд 16:16:20 #134 №1539265

>>1539261
Я на 16+64 64к+ крутил с ub/b 4096 или 2048, не помню
Но это из под линуха без gui. Пробуй сам ручками на своем железе

Аноним 02/03/26 Пнд 16:17:13 #135 №1539267

>>1539262
Внимательнее читай, не курит обмен по шинам. Но раз разницы нет то не в него упирается.

Аноним 02/03/26 Пнд 16:19:36 #136 №1539272

>>1539261
в 128+24 влезает Q6 с 64к неквантованного контекста.
В Q4 влезет чуть больше, но смысла нет, он все равно держит 20-30к в лучшем случае.

Аноним 02/03/26 Пнд 16:20:09 #137 №1539273

>>1539267
> обмен по шинам
В другом проце только одна видяха. Так же уже писал что разницы особо нет с тензор параллел 2.

Позже перешью видяхи в в420 что бы p2p заработал и заведу все видяхи в одну нума ноду. Может что то поменяется

Аноним 02/03/26 Пнд 16:20:17 #138 №1539274

>>1539263
Выше в треде есть ссылки на еретик 122b квена. Этот в отказы не идёт, но насколько там повреждены мозги неизвестно. Я толком не успел его погонять.

Аноним 02/03/26 Пнд 16:25:02 #139 №1539280

>>1539137
>Просматривается намерение
Ну вот когда выпилят, тогда поговорим. Пока что по ридми проекта всё нормально, и локальный запуск ггуфов, и россыпь апишек. Да и старые версии никто вроде не запрещает качать, если у тебя кирпич с устаревшим ондроедом.

Аноним 02/03/26 Пнд 16:28:36 #140 №1539285

>>1539274
А я и кидал эти ссылки. И тоже сейчас heretic тестирую. Насчет мозгов пока не знаю, но по мне русик еретик квена лучше русика эира

Аноним 02/03/26 Пнд 16:37:45 #141 №1539290

image.png

i.jpg

image.png

Тесты еретика Qwen 122 (IQ4XS, system promt пустой)
>Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки
Орига: отказ даже без ризонинга
235: отказ даже без ризонинга
Еретик: скрины 1-2
>Опиши изображения во всех подробностях (скрин 3)
Орига: отказ даже без ризонинга
Еретик: скрин 4
Пока вроде неплохо и русик хороший

Аноним 02/03/26 Пнд 16:43:53 #142 №1539296

>>1539290
>IQ4XS
А чому не Q4_K_S? Он быстрее и [теоретически] не настолько люто заквантован при схожем размере.

Аноним 02/03/26 Пнд 16:44:38 #143 №1539297

>>1539274
>насколько там повреждены мозги неизвестно.
в доках все написано

KL divergence = 0.0916
9.16 % divergence (0.0916 × 100)

если хочешь сравнить с 27b dense от того же самого автора то там значение 0.0653

+квантизация к примеру от unsloth ud_q4 дает пример 1% divergence

Аноним 02/03/26 Пнд 16:48:50 #144 №1539303

>>1539290
>быстрее
У меня обычно IQ4XS быстрее, потому что можно доп 1-2 слоя кинуть на видюху

Аноним 02/03/26 Пнд 16:49:18 #145 №1539304

>>1539296
>>1539303
Случился промах

Аноним 02/03/26 Пнд 16:50:20 #146 №1539305

>>1539297
> KL divergence
Важно на чем ее замеряют, если на опасном датасете то это наоборот хорошо.

Аноним 02/03/26 Пнд 16:51:21 #147 №1539308

>>1539296
>[теоретически] не настолько люто заквантован при схожем размере.
Разве не пишут наоборот, что i-кванты обычно слегка лучше аналогичных по размеру обычных квантов?

Аноним 02/03/26 Пнд 17:04:06 #148 №1539317

image

>>1539308
Гопота пишет что "IQ4_XS близок к Q4_K_M по качеству", но на картинке с ОП-поста видно, что нет, вообще не близок, IQ квант тупее. Матрица влажности, применяемая в IQ квантах - тоже мне не нравится, она ломает русик.

Аноним 02/03/26 Пнд 17:08:24 #149 №1539322

image.png

Любители микропенисовмоделей, ваш выход
https://huggingface.co/unsloth/models

Аноним 02/03/26 Пнд 17:11:55 #150 №1539327

>>1539322
> 2b
Это мы качаем. Будет что развернуть на мини-ПК.

Аноним 02/03/26 Пнд 17:21:24 #151 №1539338

image.png

>>1539317
Гопота сосет хуй.
Надо с K_S сравнивать и смотреть в более достоверных источниках.
Вот бартовский и мрадермачер что пишут, и картинка из статьи 2-годовалой давности на 7б модельке (хоть что-то).
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9
С К_М действительно есть разница, с K_S как будто разница в микропиську.

Аноним 02/03/26 Пнд 17:22:22 #152 №1539339

>>1539338
Хуя порвался. Потому что гопота умнее тебя?

Аноним 02/03/26 Пнд 17:26:56 #153 №1539345

>>1539338
А, ну вот. Третий скрин показателен. IQ всё же потупее K_S. Алсо гопота шарилась по интернету перед тем как выдать ответ, там под каждым абзацем источник есть.

Аноним 02/03/26 Пнд 17:39:27 #154 №1539358

>>1539327
Хватит ставить слопоген на тв-боксы.

Аноним 02/03/26 Пнд 17:58:33 #155 №1539376

изображение.png

>>1539290
>русик хороший
>пикрил
Просто 10 из 10!

Аноним 02/03/26 Пнд 18:06:54 #156 №1539387

>>1539376
И? Очевидно, что русик хороший относительно размера модели и кванта, у air'a русик хуже, а с каким-нибудь дипсичком и нехуй сравнивать

Аноним 02/03/26 Пнд 18:11:36 #157 №1539390

>>1538973
Бамп вопросу. Это скамеры или че? Разве платформа не опенсорс для всех для народа?

Аноним 02/03/26 Пнд 18:12:49 #158 №1539393

>>1539390
Зарепорть их просто.

Аноним 02/03/26 Пнд 18:17:48 #159 №1539397

>>1539393
Я пока на проверку запросил доступ к модели. Если не дадут, зарепорчу. Потому что какого хуя-то, первый раз такое вижу.

Аноним 02/03/26 Пнд 18:27:06 #160 №1539405

>>1539390
> Разве платформа не опенсорс для всех для народа?
Лолчто, хф - прежде всего коммерческая платформа с удобной корпоративной структурой, их открытые репозитории и прочее - способ привлечь людей и удерживать популярность.
>>1539397
Никто не обязан тебе давать доступ. А вот допустимо ли устраивать продажу такого с использованием их площадки - надо чекнуть соглашение.
> первый раз такое вижу
Посмотри на репозитории гугла или меты.

Аноним 02/03/26 Пнд 18:32:42 #161 №1539408

>>1539405
>Посмотри на репозитории гугла или меты.
Вряд ли они вставляют в свои объявления QR-коды на оплату битка.
Тут как бы в этом дело. Мутно очень выглядит.

Аноним 02/03/26 Пнд 18:34:24 #162 №1539409

>>1539183
>нет возможности свайпа без регенерации (удаления предыдущего свайпа)
>да, кобольд кал
Undo же возвращает прошлый свайп, а затем Redo вернет более свежий. Или вы о другом?

Аноним 02/03/26 Пнд 19:02:57 #163 №1539430

>>1539159
Ебать ты кобольд. Он пишет, что ему фронт лламы больше нравится, а ты выебываешься на юзеров Таверны. Моча в голову ударила?

Аноним 02/03/26 Пнд 19:04:35 #164 №1539431

>>1539198
Бля, я хуею как в треде просто пиздюнькают, врут, наебывают, подсиживают на ровном месте и не краснеют. Откуда челибос нафантазировал 60 т/с на гемме, в первом кванте что ли запускал? Или 12B? Вот цифры для 8 кванта, который с лихвой лезет в v100:
pp512 | 997.37 ± 1.60 |
tg128 | 23.12 ± 0.01 |

Аноним 02/03/26 Пнд 19:26:52 #165 №1539444

>>1539322
4b совсем соевая, уходит в отказ даже на намек на интим. Как это лечить? Ждать heretic квант? 4B Huihui oblitirated 2507-instruct работал без проблем.

Аноним 02/03/26 Пнд 19:30:08 #166 №1539445

>>1539409
Это вообще не свайпы. Свайпы в кобольде есть в копро теме. Включи и посмотри, что это такое. И то они обрезанные, например там нельзя удалить конкретный свайп, можно только все сообщение

Аноним 02/03/26 Пнд 19:31:19 #167 №1539447

>>1539431
Если взять что-то о трех битах на вес то примерно столько и даст на старте. Вопрос только зачем?
Потому и 18т/с для 8бит на радеоне - норм результат.

Аноним 02/03/26 Пнд 19:41:08 #168 №1539453

>>1539447
Это сломанный телефон получился. Первый говорит 18 т/с на гемме. Какой квант, какие парамтры запуска? Зачем вообще 128 Гб врама тестировать на Гемме, бля? Вон лардж или лламу 70 запускай если плотную хочешь.
Второй говорит, что 60 т/с на гемме на v100 в квантах. Какой гемме, какой квант, какая v100 в конце концов?
В общем, просто что-то на отъебись в тред вкидывают, в результате те, кто читает со стороны, охуевают с заявлений. А у меня вообще охулиард токенов в секунду, прикиньте? (я гемму 800М гонял в первом кванте, но вам не скажу)

Аноним 02/03/26 Пнд 19:41:36 #169 №1539454

image

>>1539430
Попрошу, уважаемый. Не на пользователей таверны, а на тавернодебилов. Это разные сущности. >>1539196 вот тут описан портрет типичного тавернодебила из палаты мер и весов.

А к адекватным пользователям ламыцпп и таверны претензий нет - этим зайкам лучей добра.

Аноним 02/03/26 Пнд 19:45:38 #170 №1539455

>>1539445
Но ведь нет разницы, кнопочки внизу делают то же, что и стрелочки под сообщением в копро теме?

Аноним 02/03/26 Пнд 19:51:06 #171 №1539458

1712618118309.png

>>1539453
> Какой квант, какие парамтры запуска?
Пик1 (только с tp 4; dp 1; pp становится 20)
Я сразу написал что это просто запрос в опенвебуи, бенчи потом. Вы сами тут начали говном перекидываться

> Зачем вообще 128 Гб врама тестировать на Гемме, бля?
У меня есть просто с чем сравнить те же бенчи но с друших версий вллм. Да и вообще мне нравится гемма!

Аноним 02/03/26 Пнд 19:51:20 #172 №1539459

>>1539272
>AIR (IQ4_XS)
>он все равно держит 20-30к в лучшем случае.
Анончик, это правда?

Аноним 02/03/26 Пнд 19:58:02 #173 №1539462

image.png

>>1539454
Так в кобольде нет нормальных свайпов. Из-за этого там к слову нет и нескольких начальных сообщений, а вместо этого позорный костыль на скрине

Аноним 02/03/26 Пнд 20:05:24 #174 №1539467

>>1539455
Нет. Свайпы работают в пределах одного сообщения. Undo/Redo удаляет/добавляет не просто варианты одного сообщения, но и сами сообщения.
То есть через свайпы можно сгенерить три варианта сообщения 1, остановиться на втором варианте и сгенерить сообщение 2. После чего удалить сообщение 2 и переключиться на третий вариант сообщения 1. Через Undo/Redo ты так сделать не сможешь

Аноним 02/03/26 Пнд 20:07:21 #175 №1539473

>>1539459
У меня Air Q6. После 20-30к качество ответов значительно ухудшается, если речь о рп. Для кода я использую другие модели. Технически, ничто не мешает использовать весь контекст, но я не вижу в этом смысла. Не настолько ленивый, предпочту суммаризировать и получать хорошие ответы.

Аноним 02/03/26 Пнд 20:13:56 #176 №1539479

>>1539458
То есть у тебя получается гемма 27 в 4 кванте (пишут что эти awq кванты сконверчены из Q4_0), да еще и с тензор параллел 4, то есть 4 карты пыхтят одновременно, что должно давать буст по сравнению с обычным послойным инференсом. И это все равно меньше, чем 8 квант на одной v100. Выглядит реально как посос.

Аноним 02/03/26 Пнд 20:14:54 #177 №1539481

Аноны, не могу понять, как настроить koboldcpp, чтобы qwen3-cider-next размышлял перед выполнением задачи? Сейчас он у меня сразу начинает писать код.

Аноним 02/03/26 Пнд 20:16:30 #178 №1539482

>>1539473
>После 20-30к качество ответов значительно ухудшается, если речь о рп.
А есть локальные модели, которые для рп контекст могли держать?

Аноним 02/03/26 Пнд 20:18:25 #179 №1539484

>>1539453
> Какой квант, какие парамтры запуска?
> Зачем
> просто что-то на отъебись в тред вкидывают
В первый раз? Так было с самого появления мишек. Относись философски, картинки приносит, что-то показывает - уже хорошо.
>>1539479
> эти awq кванты сконверчены из Q4_0
Жесть какая.

Аноним 02/03/26 Пнд 20:22:55 #180 №1539486

>>1539482
Могу только за себя говорить. Квены 235 в Q4 уверенно держат до ~40к, Глм 4.7 Q2 (3bpw квант) уверенно держит до ~30к. Если взять кванты получше, возможно, ситуация изменится. У меня 128+24. Думаю, на ригах можно запускать Дипсик в приличном кванте и там где-нибудь до 64к точно всё хорошо держит.

Аноним 02/03/26 Пнд 20:27:46 #181 №1539490

>>1539484
Ну лично меня задел не первый тейк, потому что мне амд неинтересны, а про геммовые 60 т/с на v100. Потому что у меня тоже v100 и я гемма бенчи на ней гоняю на завтрак, и таких цифр я отродясь не видывал даже на амперах. Такое разве что в экслламе с тп на блеквеллах может получится, да и то вопрос как оно там на 8 bpw будет.

Аноним 02/03/26 Пнд 20:45:50 #182 №1539505

>>1539486
>Квены 235 в Q4
На моих 64гб и 4090 не влезет такое? Стоит до 128гб докупать? Ценник в 90к рублей колится.

Аноним 02/03/26 Пнд 20:48:26 #183 №1539510

>>1539490
Согласен. Тоже обладаю v100, ни о каких 60т/с на плотной модели такого размера в кванте под ее память там не может идти и речи. Столько на 35а3 получится в Q6 когда контекста побольше накопится.
27б новый тестировал? Сколько с каким квантом влезает и какие скорости?

Аноним 02/03/26 Пнд 20:58:06 #184 №1539518

>>1539505
> На моих 64гб и 4090 не влезет такое?
Q2 должен влезть, не знаю с каким контекстом. Один анон отписывался, что существенной разницы между Q2 и Q4 Квеном 235 не заметил (он тоже позже обновил железо)
> Стоит до 128гб докупать?
Не знаю, как и нужно ли вообще отвечать на такое. Это твой выбор, не мой или ещё кого-нибудь из треда. Ради одной модели обновляться? За 90к? Я считаю, что нет. И имхо, Air в рп лучше, чем Квен 235. Про это уже много было сказано в треде. Было две или три Квеновых войны и куча отзывов на самые разные кванты.

Аноним 02/03/26 Пнд 20:58:51 #185 №1539519

>>1539481
1) для кодинга лучше используй llama-cpp
2) ищи шаблон вида chat-template-kwargs = {"enable_thinking": false} или ризонинг бюджет. в ламе он наоборот думает и я отключаю

Аноним 02/03/26 Пнд 20:59:27 #186 №1539520

>>1539462
Ты, это, поосторожней с "Her small hands", а то потом тащ майору будешь объясняться уже.

Аноним 02/03/26 Пнд 21:04:15 #187 №1539522

>>1539520
Товарищ майор может спать спокойно. Кошкодевочке 22 годика
https://chub.ai/characters/Kammii/kylie-friend-in-heat-d75e1c3a8b8d

Аноним 02/03/26 Пнд 21:30:28 #188 №1539530

>>1539522
*меркурианских

Аноним 02/03/26 Пнд 21:38:24 #189 №1539537

1686547836918.png

1646428585604.png

1705811565740.png

Вышел я в итоге далеко за 200 тпс. Peak output token throughput на 384 выбил в 32 потока
Всё те же 4 мишки по x16 4.0 на QWAT'ах

Аноним 02/03/26 Пнд 21:41:32 #190 №1539541

>>1539522
Вот это срандель.

Кстати тут появилась инфа что у новых квенов надо ставить -ctk -ctv bf16 что бы правильнее работали. Проверял кто, а то у меня бф16 только без флэшаттеншена работает нормально.

Аноним 02/03/26 Пнд 21:41:47 #191 №1539542

>>1539537
А зачем? Это же не линейная генерация. Параллельно можно бесконечно увеличивать, а по факту у тебя 15 т/с.

Аноним 02/03/26 Пнд 21:45:08 #192 №1539546

>>1539542
Меня устраивают 15 тпс на 16к контекста. А если нужно обработать что то в многопотоке, то вообще кайфище

Аноним 02/03/26 Пнд 21:46:28 #193 №1539547

>>1539537
Или есть куда оптимизировать, или просто конфигурация самих железок предполагает что могут раскрыться только при куче параллельных запросов.
Куда хуже замедление почти в 3 раза при накоплении всего лишь 16к контекста. Похоже что вот там уже идет упор в компьют, что убьет все возможности для масштабирования, если только не предполагаются исключительно короткие запросы.
Если не стесняешься - прогони на контекстах.

Аноним 02/03/26 Пнд 21:49:32 #194 №1539553

>>1539547
Пишите сразу параметры что ли. Я не кумаю так что и бенчи все не кум релейтед. 16к контекста и 4 треда я выбирал под свои юз кейсы

Аноним 02/03/26 Пнд 21:51:16 #195 №1539554

>>1539541
Прогрев гоев вроде, там же замеры показали отклонения в рамках стат погрешности

Аноним 02/03/26 Пнд 21:53:58 #196 №1539560

>>1539553
То же самое что делал в 1-6, только дальше до контекста, который выставил максимальным. За вычетом количества для генерации офк. Что приятно - пп хороший получается, интересно сохранится ли он при генерации одновременно.

Аноним 02/03/26 Пнд 22:00:22 #197 №1539568

>>1539510
Чуть хуже чем гемма

pp512| 817.05 ± 0.95 |
tg128 | 20.41 ± 0.01 |

Мне она показалась умнее, чем 120б мое, но та в полтора раза быстрее у меня генерирует в том же восьмом кванте. Я разбирал с ними код и короче гпт осс 120 показала себя лучше и в плане знаний, и в охуенной скорости генерации

Аноним 02/03/26 Пнд 22:01:15 #198 №1539569

>>1539560
> интересно сохранится ли он при генерации одновременно.
В прошлый раз меня хуями за mixed нагрузку обдали.
Какой тест не сделай, что ни приложи всегда найдутся те кому что то не то

> только дальше до контекста
Попробую 32, 48, 64к контекста, но уже потом. Сейчас есть проблема что один из 3х бп безбожно свистит что аж за стеной слышно. Заказал пару других серверников и буду уже с ними нормально эксплуатировать эту вавилонскую башню

Аноним 02/03/26 Пнд 22:03:10 #199 №1539570

>>1539569
> хуями за mixed нагрузку обдали
За сложение обработанных и сгенерированных и деление на время суммы вместо отдельных статов.

Аноним 02/03/26 Пнд 22:32:20 #200 №1539586

глм флэш 4.7 еретик такой сочный кум наваливает в ризонинге, а выхлоп я тебя ебу ты меня ебешь, что за хуйня?

gemma-3 на v100 Аноним 02/03/26 Пнд 22:55:32 #201 №1539620

изображение.png

>>1539510 >>1539181 >>1538852 >>1539192
>Ну, я чуть преувеличил.
Паразиты. Я же вообще напутал, и хотел написать 40, а вы так прицепились, и потому указал специально.
Нашёл старый пост, я же сам один раз её запускал, когда ещё писал что в 4 потока 25. Энивей, часа сна вы меня уже лишили, вставать в 5:30.

Первый слой подменил на неквантованный, так как я тот шиз который говорил про выгрузку эмбеддинга на CPU, а другой версии у меня сейчас нет, так как системник я разобрал - и это куча проводков, где кулер я облокатил просто на радиатор.
Через веб интерфейсе я вижу число в 43, это конечно не 60 и даже не 50, но близко к 50.
llama-bench вот, в нём 34. К слову - в нём карта подписана как PG503-216, а не как V100, не смог нагуглить на что это влияет.

Аноним 02/03/26 Пнд 23:00:15 #202 №1539632

2026-03-02-2249341406x790scrot.png

>>1539322
Каеф, посадил квен3.5-2B читать двач.

Аноним 02/03/26 Пнд 23:32:47 #203 №1539677

>>1539632
Что это ты сделал?

Аноним 02/03/26 Пнд 23:58:44 #204 №1539691

2026-03-02-2354161550x640scrot.png

>>1539677
Да просто саммаризатор тредов пилю по приколу.

Взял опенай либу, модели локально на ламе крутятся и дрочу в цикле ллм.

Аноним 03/03/26 Втр 00:05:41 #205 №1539693

>>1539691
И что их там только цены на оперативу беспокоят на этих ваших двачах? А цены на ссд никого не волнуют? Они так то тоже в 4 раза выросли в цене, а в месте с ними какого то хера и хдд подорожали.

Аноним 03/03/26 Втр 00:06:26 #206 №1539694

>>1539691
Пусть он сделает вывод по нашим трем последних тредам - кобольд это кал или нет? Пусть он разрешит спор. Ведь устами 2b лоботомита глаголет истина

Аноним 03/03/26 Втр 00:26:26 #207 №1539722

Почему шадоурейз поёт про пресет? Вот сами можете послушать!
https://youtu.be/89yDiQ8WkNg?list=RDMM&t=80

Аноним 03/03/26 Втр 00:49:18 #208 №1539733

В лламе можно как-нибудь вывести нормальную раскладку занимаемой памяти вместе со всеми буферами?

Аноним 03/03/26 Втр 00:56:39 #209 №1539736

>>1539691
Теперь напердоль скрипт или аддон для браузера, который добавит кнопочку к посту и будет отправлять в локальную нейронку текст и картинку для саммари

Аноним 03/03/26 Втр 00:56:40 #210 №1539737

Для скептиков которые писали что маленькие модели не могут код и это все бредогенераторы, если ты не запускаешь 500b модель на 10 теслах:
https://www.youtube.com/watch?v=8jZSxZfdnm4

Само собой это не sota результаты, но это очень прилично. Для локального использования на слабых пеках, когда надо выполнить пару простеньких задач крайне сгодится.

Аноним 03/03/26 Втр 01:02:13 #211 №1539742

>>1539737
Меня в последнее время интересует как ллмку (пускай не только локальную) объединить с моей системой GTD.
Для начала чтобы лучше формулировать задачи и проекты (результаты).
Пока пришёл к решению брейншторма - описываю что хочу и веду дискус как надо поступить.

Аноним 03/03/26 Втр 01:07:04 #212 №1539748

Дайте гайд как обучить модельку скормив ей книжку со схемами.

Аноним 03/03/26 Втр 01:34:27 #213 №1539783

2026-03-03-0133531889x1006scrot.png

>>1539737
Проиграл в голосину

Аноним 03/03/26 Втр 02:33:24 #214 №1539806

cum.png

>>1539737
>но это очень прилично
Там один веб сплошной. Че по скану файловой системы и каталогизации залежей fb2? Реакты согласно изображенному тексту переименуют? Хуй с ним, скачал я всратый софт - собрать мне необходимую информацию о запуске в определенных условиях из ридми или исходников смогут? Бля, прошивку на ардуйню допишут хоть? Вот что этими пиздюками тестить надо, а не ебаные сайтики по тыще раз копипастом из окна чата собирать.

Аноним 03/03/26 Втр 02:34:29 #215 №1539807

кумер.jpg

>>1539632
теперь еще посади квен кумить вместо себя

Аноним 03/03/26 Втр 03:23:52 #216 №1539825

>>1539807
Так совсем скумиться можно, вы с этим поосторожнее. Они не только умные, но еще меры не знают.

Аноним 03/03/26 Втр 03:43:12 #217 №1539836

Какая же это всё дерьмина ебаная, стоило поиграться с 8б на сайтике и бросить а не закапываться по уши.
Жизнь ухудшилась так ещё и модели оказались тупым калом, пока минимум х5 умнее не будут от 350б даже не стоит смотреть на это и время тратить

Аноним 03/03/26 Втр 04:24:15 #218 №1539853

>>1538767
Сорян за задержку.
1) кобольд + таверна, иногда просто кобольд, если по-быстрому что-то спросить.
собираюсь попробовать лламу + континуе.
2) да буквально все. Мне понравилось тестировать ее, спрашивать то да сё. Понравилось знание языков, внимание к контексту. Она не идеальна конечно, нужно промт наверное доработать, ну и сэмплеры конечно у нее свои (гугли по прошлым тредам), я выкладывал).
Мозговой штурм, построение планов. Я все планирую в инди-геймдев и министралька для гд прям очень хороший ассистент.
Подозреваю, что и кодит неплохо.

Аноним 03/03/26 Втр 05:16:40 #219 №1539876

>>1539748
1 PDF24 / TESSERACT
2 OPENREFINE / BASEX
3 KNIME / ORANGE
4 ggml-org / ylsdamxssjxxdd
5 gguf 1.5 Q4_K-M embedding

Аноним 03/03/26 Втр 06:50:45 #220 №1539902

>>1539876
>1 PDF24 / TESSERACT
>2 OPENREFINE / BASEX
>3 KNIME / ORANGE
>4 ggml-org / ylsdamxssjxxdd
>5 gguf 1.5 Q4_K-M embedding
Спасиба

Аноним 03/03/26 Втр 07:36:43 #221 №1539909

>>1539519
Спасибо, а почему лучше llama-cpp? Она чем-то лучше кобольда? Не в курсе, почему в кобольде ризонинг не работает? С gpt-oss-120 тоже ерунда какая-то, ризонинг вроде есть, но он под тэгом <analytic> по-моему и на английском.

Вообще где-нибудь есть профили для кобольда или всё нужно ручками подбирать?

Аноним 03/03/26 Втр 08:33:43 #222 №1539922

Как посмотреть когда убрали CFG из лламы?

Аноним 03/03/26 Втр 09:20:19 #223 №1539937

Я в соседнем треде описал задачку для ллм. >>1539934 →

Может кто проверить рп-модели всякие? Я убеждён, что проблема плохого рп и невозможность смоделировать ситуацию описанную мной правдоподобно - это одна и так же проблема. И потому возможно модель хорошо показывающая себя в рп лучше смоделирует поведение водителей и вот это всё.

Аноним 03/03/26 Втр 09:24:33 #224 №1539938

>>1539937
У тебя тут проблема на уровне ввода. Мне даже на русском было сложно прочитать твою задачу, настолько плохо она была сформулирована. Если сформулировать ее адекватно, с нормальным изложением и структурой, предпочтительно на английском, то все должно быть решаемо.
> Я убеждён, что проблема плохого рп и невозможность смоделировать ситуацию описанную мной правдоподобно - это одна и так же проблема.
А я убеждён, что это проблема промптинга. Что в случае с задачкой, что в случае с рп, кекв.

Аноним 03/03/26 Втр 09:29:18 #225 №1539939

>>1539938
Подскажи как это сделать. Из людей никто не сказал что задача плохо сформулирована. Для честности эксперимента я просто зачитывал текст из промта без дополнительных пояснений и оставлял текст на экране.

Аноним 03/03/26 Втр 09:35:36 #226 №1539942

>>1539939
> Подскажи как это сделать.
Подсказать как излагать твои мысли яснее? Ты работаешь с обычным natural language, никакой магии нет. Посмотри хотя бы в учебники математики и физики, там адекватно изложенный и структурированный текст. У тебя как минимум опечатки в тексте есть, что уже может ввести в ступор модельки поменьше. "Есть городок, в нём около 5 автобусных остановок, между ними около 1 минуты пути" уже можно трактовать как два разных условия: между каждой из остановок 1 минута пути или между всеми остановками от первой до пятой 1 минута пути?
"После проезда по городку автобус обычно заполнен + около 10 человек едут стоя, но достаточно свободно." Если автобус заполнен, это значит, что в него больше не посадить людей, при этом ты пишешь, что "достаточно свободно". В нормальном понимании у автобуса есть посадочные и стоячие места, в итоге у тебя противоречие. И вся задача такая.

Аноним 03/03/26 Втр 09:43:39 #227 №1539945

Аноны, а где-нибудь можно посмотреть примеры рп на русском? Как вообще это работает? ЛЛМ-ка сама сюжет тянет или нужно промптами направлять повествование? А то тред полон рпшников, а что в этом хорошего никто не пишет.

Аноним 03/03/26 Втр 09:50:45 #228 №1539949

>>1539939
>Из людей никто не сказал что задача плохо сформулирована.
>прошло 11 минут с момента публикации задачки на двачах
и кого только не занесет сюда, орунах
>>1539945
на русском с таким изложением у тебя будет лоботомит, да и модельку большую ты врядли запустишь

Аноним 03/03/26 Втр 09:54:33 #229 №1539951

>>1539937
Проблема текущих моделей в том, что даже если они решат эту задачу, когда она задана в лоб, то в РП они не учтут столько переменных.
>>1539939
>Из людей никто не сказал что задача плохо сформулирована.
Потому что никто не прочитал.
>>1539945
Никто не выкладывает свои РП, это личное. А так на русском все модели деградируют, это база.
>а что в этом хорошего никто не пишет
Ничего хорошего в этом и нет. Сидим, деградируем в окружении симулякров.

Аноним 03/03/26 Втр 10:25:40 #230 №1539970

>>1539951
>Потому что никто не прочитал.
Тогда не очень ясно как они описывали что потом произойдёт.

>>1539942
>Подсказать как излагать твои мысли яснее?
Да. Говорю же, никто из людей никаких замечаний по формулировке не дал и уточняющих вопросов не спрашивал.
>между всеми остановками от первой до пятой 1 минута пут
В таком ключе нельзя трактовать, так как это 15 секунд на пролёт. Даже если автобус стартует и тормозит с 1м/с^2, лол, за 15 секунд автобус разгонится до 27 км/ч и затормозит, а проедет за это время всего 56 метров. 2м/с^2 - оба числа в два раза выше. 100 метров между остановками это шутка какая-то. И вряд ли он 2м/с^2 забитый людьми катается, там бабки руки и ноги поломают. Я же даже явно указал, что это не математическая, а реальная задача.
>Если автобус заполнен, это значит, что в него больше не посадить людей
Согласен, лучше укажу явно что 40 сидячих и 10 стоячих (стоят свободно с запасом).
Впрочем, если подходить математичнее - в начале я указываю, что "в автобусе 40 сидячих мест". Соответственно заполнен + 10 человек стоя, это и есть 40 сидячих + 10 стоя.
>И вся задача такая.
Я искренне не вижу проблем в формулировках. Вот ты указал две, согласен, можно чётче прописать, но третье такое место я не могу найти самостоятельно.
Чуть посидел с корпом, вот такое попробовал ещё раз:
------
Задача.

В норме автобусы отправляются от начальной точки каждые 5 минут. В каждом автобусе 40 сидячих мест, дополнительно перевозятся стоящие пассажиры (10 человек стоят свободно, 20 тесновато, 30 это уже давка).

Маршрут начинается с небольшого городка, в котором пять остановок. Среднее время движения между остановками составляет примерно 1 минуту без учёта возможных задержек на перекрёстках, светофорах и из-за выезжающих автомобилей. К моменту выезда из городка в автобусах обычно по 50 человек (40 сидячих и 10 едут стоя).
Далее следует участок шоссе продолжительностью около 20 минут без промежуточных остановок. Затем располагается железнодорожная станция, где в норме (при следовании раз в 5 минут) выходит около 15 и заходит около 15 пассажиров.
После этого автобус следует ещё около 20 минут до конечной остановки, где все пассажиры выходят.

По некоторой причине два автобуса задержались. В результате возникает пауза 15 минут, после которой от начальной точки почти одновременно отправляются три автобуса друг за другом. Опиши что произойдёт в такой ситуации? Опиши возможные сценарии. Это проверка твоих способностей на моделирование, я попал в такую ситуацию утром. То есть учитывай, что это реальная ситуация, водители ведут себя как люди и принимают решения, помимо автобусов на дороге есть другие машины, светофоры и так далее.
------
В такой формулировке:
Чатжпт - выдал предположение что второй может обогнать первый, но не стал рассматривать этот вариант и строить на основе его всё остальное.
Кими зашизил в край, в красках описал "второй водитель — молодой, горячий, видит, что первый едет медленно и перегружен." и далее описал как второй попадает в дтп, и дальше идёт целое сочинение об эвакуации людей, блокировки дороги, вертолётах...
Гемини неплохо справился. Не стал писать что в городке будут обгоны (но это как бы и не очевидно что автобус тупо мимо остановки может проехать - это надо знать контекст городка, нашей страны. Хотя впрочем где бы то ни было нет смысла второму автобусу тормозить на первой же остановке после первого, кроме случаев если людей на первой остановке достаточно для переполнения автобуса), но написал что на шоссе скорее всего будет обгон и корректно описал что будет на станции.
ГЛМ как и чатжпт не справился, но написал что грамотный диспетчер может дать команду на обгон для третьего автобуса, но такого скорее всего не будет, так как обгон на шоссе запрещён и точка.

Аноним 03/03/26 Втр 10:26:52 #231 №1539974

>>1539951
> Ничего хорошего в этом и нет. Сидим, деградируем в окружении симулякров.
Дискуссионный вопрос. Вокруг меня всё так хуево, что если бы не это, то уже наверняка забухал бы или ещё чего похуже. Это, наверное, хуже, чем другие медиа (литература, игры, кино, манга и со он и со форф), но всё ещё валидный способ эскапизма. Эскапизм иногда необходим.

Аноним 03/03/26 Втр 10:30:06 #232 №1539977

>>1539970
> В таком ключе нельзя трактовать, так как это 15 секунд на пролёт
Это задача в вакууме. Задачные условия не всегда соответствуют действительности, что довольно часто встречается в учебниках, методичках и соответствующих материалах -> часто попадает в датасеты моделей. С точки зрения моделей - так трактовать можно, и это справедливо. Как минимум часть ресурса модели уходит на то, чтобы понять, что именно ты имел ввиду в своей задаче, а не на её решение.
> Я искренне не вижу проблем в формулировках.
Я искренне не вижу смысла дальше объяснять, что ты делаешь не так. Ты пишешь, что это задача, но по всем формулировкам и правилам изложения, это задачей не является. Ты ожидаешь, что модель способна читать твои мысли.

Аноним 03/03/26 Втр 10:37:37 #233 №1539980

>>1539977
>часть ресурса модели уходит на то, чтобы понять, что именно ты имел ввиду в своей задаче, а не на её решение.
Так я эту её способность и проверяю, это часть теста на человеческое понимание. Ты думаешь ребята в рп собираются всё вот в таком стиле описывать, хотя всем уже давно и с первого раза ясно что происходило в реальности?
Задача не в вакууме, так как я явно указываю, что я в такую ситуацию попал и что надо учитывать нормальные для реальности вещи. После такого указания оно не должно триггериться на слово "задача" и думать что это что-то уровня "собака бежит в ледяную горку с углом наклона ... ". Я не прошу мысли читать, в тексте достаточно информации о том, что я спрашиваю. Ну да ладно.

Аноним 03/03/26 Втр 10:37:47 #234 №1539981

Погонял вчера qwen 122 heretic, скормил ему свой json с сырым лором наброска антиутопичного мира.
В целом впечатления как от ассистента очень положительные: внимателен к деталям, прочухал все связи, чего до сих пор ни Air, ни другие среднемодели не могли,
стоит отметить, что и копро DeepSeek не осиливал и продалбывался.
Квенчик подсказал как переделать, чтобы другие сетки не путались (пока не пробовал, скорее всего звездит).
Но какой же он медленный и как долго рассуждает. Ещё этот пересчет контекста постоянный, конечно, вымораживает.
В прошлом треде аноны обсуждали как с этим бороться, но у меня это не взлетелоло. Может есть какой рабочий способ убрать это пересчет стремный?

Аноним 03/03/26 Втр 10:45:06 #235 №1539983

>>1539970
Твой кейс хорошо показывает что ллм без других ллм (несколько агентов с разными задачами, в данном случае обработка и структуризация инпута и планирование) или двуногого который понимает, что делает, не способны решать такие задачи. Промт инжиниринг не просто так придумали. Тебе правильно анон все расписал
>>1539980
В рп и ответ не должен быть точным. Глупое занятие сравнивать эти задачи, они очень разные и схожестей почти не имеют. Ты тут рассуждаешь на умную тему, но при этом даже не видишь проблему собственных инпутов

Аноним 03/03/26 Втр 10:45:45 #236 №1539985

>>1539970
>Тогда не очень ясно как они описывали что потом произойдёт.
На похуях.
>>1539974
>Вокруг меня всё так хуево, что если бы не это, то уже наверняка забухал бы
Ну вот, забухал бы, нашёл бы себе бабу, размножился, накопил долгов и пошёл бы их снимать, помер. Идеальный гражданин. А сейчас сидишь пердишь дома с нулевым КПД.
>>1539981
>Может есть какой рабочий способ убрать это пересчет стремный?
Да. Подождать пока починят.

Аноним 03/03/26 Втр 10:48:58 #237 №1539987

У меня кстати нет пересчёта. Я просто скачал новый билд вчера, скомпилил, и работает без пересчёта и без доп настроек.

Аноним 03/03/26 Втр 10:53:08 #238 №1539989

Что ещё забавнее: я ни разу не гонял рп, и потому то что я рассуждаю о том, что в рп та же проблема что и с автобусами - это даже не с дивана, это ещё хуже, я просто говорю о том, о чём ничего не знаю.

Аноним 03/03/26 Втр 10:55:11 #239 №1539992

>>1539981
>>1539987
Я вчера сделал git pull для llamacpp и скомпилил, пересчет не убрался, Qwen3.5-122B-A10B-heretic квант q4_k_m от mradermacher. Какой у тебя?

Аноним 03/03/26 Втр 10:57:49 #240 №1539993

>>1539985
> забухал бы, нашёл бы себе бабу, размножился, накопил долгов и пошёл бы их снимать, помер. Идеальный гражданин
Было бы смешно, если бы не было так грустно.
>>1539989
Всё так. Потому предлагаю прекратить кормить. Человек пришел с предубеждением, пусть с ним и уходит.

Аноним 03/03/26 Втр 11:11:50 #241 №1539996

>>1539992
А я не знаю какая версия.
Я перезапустил скрипт вчера около 22:10 где написано:
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
git fetch origin pull/18675/head:autoparser
git checkout autoparser
mkdir build_msvc_cuda
cmake -S . -B build_msvc_cuda ^
-G "Visual Studio 17 2022" -A x64 ^
-DGGML_CUDA=ON ^
-DLLAMA_NATIVE=ON ^
-DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build_msvc_cuda --config Release -j %NUMBER_OF_PROCESSORS% || exit /b 1

То есть это просто последняя версия на момент вчерашнего вечера.
Ещё там вызов call env.bat в начале, который цепляет куду 13.1, всякие set "CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1", его я опустил.

В параметрах запуска из релейтед для кеша только квантование q8_0 и размер, ещё поставил --cache-ram 16384 --slots --kv-unified, может быть это на что-то влияет, но вряд ли.

Аноним 03/03/26 Втр 11:18:42 #242 №1540001

>>1539996
хеш коммита в --version показывается.
кстати, вижу что ты сидишь на пр ветке https://github.com/ggml-org/llama.cpp/pull/18675

Какие улучшения от этого?

Аноним 03/03/26 Втр 11:32:38 #243 №1540021

Что, какая нибудь революция в текстовых моделях произошла за пол года? смогли например ужать 24b до 12b сохранив мозги, или все пиздец, все встало в ступор?

Аноним 03/03/26 Втр 11:36:00 #244 №1540022

>>1540021
Буквально наоборот. Смогли разжать 24б до 100б, и назвали это революцией. Одно моеговно выходит. Плотняк на уровне того, что было год назад.

Аноним 03/03/26 Втр 11:36:26 #245 №1540023

>>1540021
Революций не было с выхода Mixture of Experts (MoE) моделей. Ты зажрался, если думаешь, что каждые полгода тебе будут подкидывать значительный прогресс

Аноним 03/03/26 Втр 11:43:45 #246 №1540024

>>1540001
Работает парсер tool-calls для glm-4.7-flash, стабильнее работает для qwen.
В ванильной ламе парсер не обновили с версии 4.6, а chat-template поменялся при переходе на 4.7 (убрали \n), и из-за этого в ризонинг или в обычный текст ответа попадают сломанные незавершённые вызовы инструментов.

Помимо этого в openai-запросе есть параметры:
parallel_tool_calls (можно ли несколько инструментов)
tool_choice (none, auto, required)
tools (список инструментов)

Без автопарсера если я просто не указываю tools (их нет) - но модель их вызывает (я специально ей пишу что напиши такой то текс), то в json мне прилетает ответ с tool-calls, а из текста оно выдрано. То есть оно парсит функции, которые я не указывал вообще, несуществующие функции с несуществующими или неверными параметрами.
Политика parallel_tool_calls игнорируется. Политика tool_choice игнорируется.
С автопарсером если прилетает tool-calls, то они всегда валидные (корректные названия функций и аргументы), и политика tool_choice работает лучше.

Вот ссылка на моё сообщение: >>1515207 →
Там другая шиза и суть проблемы подробнее описаны по ссылкам назад или по запросу parallel_tool_calls можешь найти.

Аноним 03/03/26 Втр 11:46:16 #247 №1540027

>>1540001
Вот это самый содержательным сообщением считаю, с описание как это по идее должно было бы работать: >>1514201 →
По сути я предлага префил в зависимости от tool_choice, и потом по мере генерации дополнительный "допфил".

Да, если есть какая-то новая информация по теме или появился тот анон, который отправил рефакторить на 20 минут - мне всё ещё интересно как он это сделал.

Аноним 03/03/26 Втр 11:56:54 #248 №1540037

>>1540027
Спасибо за информацию. Наверное дождусь когда смержат ПР.

Я не тот анон что рефакторил 20минут, но вот скорее всего из за разметки опыт с glm47flash был неудачный.
А вот локальный квен инструменты практически без ошибок вызывает, ну по крайней мере в opencode. Я просто отправляю его делать таски по speckit, пишу чтобы на каждую фазу по сабагенту вызывал и через 40 минут можно смотреть говнокод со всеми тестами и пройдеными линтерами.

По поводу пересчета, я накатывал другой ПР >>1537887 → и мне не понравилось, при тех же настройках теперь плотные модели отъебнули

В целом опции ниже вроде работают
ctx-checkpoints=128
swa-full=on

Аноним 03/03/26 Втр 12:16:46 #249 №1540053

>>1540023
Ну вообще то квен3,5, там довольно хорошо доработанная архитектура, а не просто дообученый квен3

Плюс все ждут дикпик v4, там тоже какие то архитектурные мокрописечки заявлены

Аноним 03/03/26 Втр 12:21:13 #250 №1540056

>>1540053
Квен 3.5 - это не революция. Эволюция в лучшем случае, и то не факт, учитывая сколько сои и столь же а то и лучше способных в код конкурентов такого же размера или меньше

Аноним 03/03/26 Втр 12:25:13 #251 №1540061

>>1540053
Да, неплохо доработали, теперь пишет в синкинге простыни по 5к+ токенов, из которых половина - проверка инпута и аутпута на safety. А пересчет контекста при КАЖДОМ отправленном запросе.. ммм...

Аноним 03/03/26 Втр 12:32:53 #252 №1540069

>>1540056
> лучше способных в код конкурентов такого же размера или меньше

Можно список? Интересно стало.

Аноним 03/03/26 Втр 12:33:48 #253 №1540071

>>1540053
>доработанная архитектура
И? Что она по факту дала?

Аноним 03/03/26 Втр 12:37:07 #254 №1540074

>>1540069
https://huggingface.co/MiniMaxAI/MiniMax-M2.5 точно лучше, чем Квен 400б
https://huggingface.co/stepfun-ai/Step-3.5-Flash плюс-минус сопоставим с 400б версией, где-то даже чуть лучше. Возможно где-то чуть хуже
https://huggingface.co/openai/gpt-oss-120b точно лучше 122б версии, что в целом признают квены своими бенчами на хф страницах 3.5 Заметь, это mxfp4 из коробки, а значит гораздо меньше требований для запуска и быстрее скорость Подрыв квенолахты через 3...2..1...

Аноним 03/03/26 Втр 12:40:07 #255 №1540082

>>1540071
Технически расхода памяти на контекст стало меньше, а по моим ощущениям более эффективно использует контекст и не начинает ебашить код во время разработки спецификации.

>>1540074
Спасибо, а в пределах 20-30Гб мое есть что то на примете?
гопоту хочу опробовать но у меня памяти сейчас нет, в наличии только 16 врам и 32гб рам

Аноним 03/03/26 Втр 12:42:49 #256 №1540086

>>1540082
>20-30Гб мое
Не знаю, я катаю Минимакс и Степ на своем железе, 400б версию Квена для кода тестил через опенроутер. q4 кванты оказались лучше апи квенолахе которая верит в шизу что там q2 и только поэтому квенушка обосралась - идите нахуй
Возможно, https://huggingface.co/zai-org/GLM-4.7-Flash подойдет

Аноним 03/03/26 Втр 12:45:19 #257 №1540091

>>1540086
> GLM-4.7-Flash
Вот с ним у меня не сложилось. Во время разработки спецификации начал генерировать реализацию. может потом попробовать еще дать ему шанс

Аноним 03/03/26 Втр 12:48:03 #258 №1540095

>>1540086
q4 кванты Минимакса и Степа оказались лучше апи Квена 400б* быстроуточнение для любителей полемики
>>1540091
Среди совсем мелочи может и правда конкурентов нет, не знаю. Другое дело что использовать такое я бы в любом случае не стал

Аноним 03/03/26 Втр 12:49:37 #259 №1540096

17428797402251.jpg

>>1540091
Смысла нет, среди популярных моделей в размере 30гб вменяемо работает держит контекст и поступает логично только квен 3.5 27b.
мимо

Аноним 03/03/26 Втр 12:52:09 #260 №1540097

>>1539945
>примеры рп на русском
https://pixeldrain.com/l/47CdPFqQ#item=1
https://pixeldrain.com/l/47CdPFqQ#item=5
https://pixeldrain.com/l/47CdPFqQ#item=30
https://pixeldrain.com/l/47CdPFqQ#item=45
https://pixeldrain.com/l/47CdPFqQ#item=48
https://pixeldrain.com/l/47CdPFqQ#item=71
https://pixeldrain.com/l/47CdPFqQ#item=130

Аноним 03/03/26 Втр 12:52:47 #261 №1540099

>>1540074
>>1540082
>>1540086
>>1540091
Анончеги, вы ведь вайбкодеры, а чо используете для локального перформанса? Курсор или чо?

Аноним 03/03/26 Втр 12:54:40 #262 №1540100

>>1540099
Я не вайбкодер. Использую Cline. В основном для дебага, рефактора, кодревью. Наверняка есть тулзы лучше, но я редко пользуюсь и не испытываю необходимости идти в ногу со временем

Аноним 03/03/26 Втр 12:57:20 #263 №1540101

>>1540021
Ministral 14b приблизилась вплотную к 24b small mistral.
Это не ужатие наверное, плотная компоновка. Но прогресс налицо.
Но я бы пожамкал 24b с аналогичной компоновкой как у министральки.

Аноним 03/03/26 Втр 12:58:25 #264 №1540102

>>1540099
>вайбкодеры
Вейпкодеры. Рак (AIDS) как он есть.

Аноним 03/03/26 Втр 13:00:34 #265 №1540103

>>1540099
я тоже не особо вайбокодер, opencode юзаю.

Аноним 03/03/26 Втр 13:29:19 #266 №1540130

>>1539938
Двачую. Только проблема не в промптинге - она глубже. Юзер часто сам себя не понимает и не может изложить везде, не только в исходном промпте все делая криво, но и с каждым взаимодействием вносит все больше смуты.
>>1539945
Слишком личное же. То что ты спраливаешь - от модели и инструкций еще зависит + какой сюжет.
>>1539981
С обычным не сравнивал как думает и остальное делает?

Аноним 03/03/26 Втр 13:40:57 #267 №1540143

>>1540053
Тогда уж квен-некст. Он уже прилично работал с большим контекстом для своего размера, умел лучше сосредотачиваться на нужной части не теряя остальное, а накладные расходы на этот контекст сильно ниже. Архитектурно таки революция и та самая мамба о которой когда-то говорили что убьет трансформер. Эволюцией же можно назвать дипсик 3.0-3.1-терминус. А 3.2 в этом отношении тоже революционный.
>>1540061
Это не норма а квантопроблемы.
>>1540099
> Курсор
> для локального
Он упаковывает твои запросы и шлет на свои сервера, откуда уже обращется к ллм. Чтоб промпт не украли, лол. Плагины и кли qwen-code, opencode вполне себе.

Аноним 03/03/26 Втр 13:47:26 #268 №1540156

>>1539934 →
>Про то что третий и второй автобус сразу поедут на вторую остановку в городке сказали 2 из 4 людей.
А схуяли басики, которые по расписанию стартуют позже, должны ехать вперед первого?
Это может в деревне работает, где всем похую кто как едет.
Но в нормальной системе первый пришел - первый ушел. Наверняка там какой-нибудь учет по глонассу есть или еще какая хуйня.
То что 3 автобуса одновременно стартанули - это еще может быть проеб диспетчера. Если понятно что задержка образовалась, нахуй подряд всех пускать?

Аноним 03/03/26 Втр 13:47:40 #269 №1540157

>>1540143
>квантопроблемы
Квенопроблемы

пофиксил

Аноним 03/03/26 Втр 13:49:49 #270 №1540161

Гайз, есть ПК с 4070 super и 32 Гб ддр4, хочу просто поРПшить с нейронкой голосом, из шапки вроде koboldccp так умеет, а вот с моделью разобраться не могу, что посоветуете годного и с минимумом цензуры?

Аноним 03/03/26 Втр 13:56:52 #271 №1540174

>>1540161
>голосом
Не получится. Нет доступных и хорошо работающих локальных ттс моделей.

Аноним 03/03/26 Втр 14:11:01 #272 №1540195

>>1540161
Что-то такое можно попробовать попробовать
Из речи в текст https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
И LLM для текста https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512
Запустится на твоем железе, цензуры нет. Пробуй

Аноним 03/03/26 Втр 14:11:41 #273 №1540197

>>1540174
Почему? Чем это >>1540195 не вариант?

Аноним 03/03/26 Втр 14:14:56 #274 №1540200

>>1540197
Если тебе ввод нужен с аудио - вариант. Если еще и ответ через аудио нужен, то получится в лучшем случае кринж. Пробуй, расскажешь.

Аноним 03/03/26 Втр 14:31:59 #275 №1540213

>>1540096
> вменяемо работает держит контекст и поступает логично только квен 3.5 27b
В бф16 как и задуманно.

Аноним 03/03/26 Втр 14:35:17 #276 №1540215

>>1540161
>поРПшить
Qwen 3.5 27b единственная адекватная опция.

Аноним 03/03/26 Втр 15:00:39 #277 №1540253

Кумеры, тут на 9б еретик вышел с дистиляцией.
https://www.reddit.com/r/LocalLLaMA/comments/1rjlaxj/finished_a_qwen_35_9b_opus_45_distill/

Аноним 03/03/26 Втр 15:43:39 #278 №1540279

Кстати, на Qwen 3.5 27B уже тюны пошли. Первая(?) ласточка: https://huggingface.co/zerofata/Q3.5-BlueStar-27B-gguf
Сам еще не качал, просто наткнулся только что.

Аноним 03/03/26 Втр 15:53:15 #279 №1540289

>>1540130
>С обычным не сравнивал как думает
Не, выбесил пересчетом, сорян

Аноним 03/03/26 Втр 15:54:50 #280 №1540290

>>1540143
>Он упаковывает твои запросы и шлет на свои сервера

Я думал к Курсору как-то можно локалку прикрутить

Аноним 03/03/26 Втр 16:03:20 #281 №1540304

>>1540279
Опа, это же создатель Iceblink'a. Значит вполне неплохо может быть. Надо чекнуть вечерком. Единственное непонятно, почему он пресет не выложил в этот раз

Аноним 03/03/26 Втр 16:08:37 #282 №1540314

>>1540253
Это 9b коротышка с еретик-лоботомией и с дистилляцией от какого-то ноунейма. Если там были какие-то мозги, то они сдохли точно. Зато модель будет очень креативной в каком-то смысле

Аноним 03/03/26 Втр 16:10:11 #283 №1540315

>>1540130
>Слишком личное же.
А чего особо личного, или ты там что-то неодобряемое делаешь?
Вон выше норм приложено на русском.
Там даже поебушки в папке есть, правда только одни и только на английском.

Аноним 03/03/26 Втр 16:11:54 #284 №1540318

>>1540314
122b квену еретик пошел только на пользу. Теперь хотя бы ризонит по делу, а не тратит токены на сейфти-залупу.

Аноним 03/03/26 Втр 16:14:25 #285 №1540321

>>1540318
Да, но в 122 даже активных параметров 10b, а тут 9b плотная. И еретик явно не добавляет мозгов, в самом лучшем случае они остаются теми же

Аноним 03/03/26 Втр 16:19:27 #286 №1540329

>>1540074
>>1540086
>>1540095
Квенолахта сейчас находятся с тобой в одной комнате?

Аноним 03/03/26 Втр 16:20:13 #287 №1540330

>>1540315
>или ты там что-то неодобряемое делаешь
То, что что-то не является неодобряемым сегодня, не значит, что оно не станет неодобряемым завтра. А то наверху решат, что плодячка важна, и запретят всё, что приводит к мастурбации, даже если это чат про секс по согласию с женщиной 46 лет.
>>1540329
Член квенолахты находится в жопе квенолахташизика, очевидно же. Иначе зачем квенолахтошизику так усиленно искать квенолахту.

Аноним 03/03/26 Втр 16:26:42 #288 №1540337

>>1540329
В одном треде. Или ты вчера вкатился?

Аноним 03/03/26 Втр 16:32:04 #289 №1540347

image.png

О как.

Даже почётные асигодауны, пердолики треда которые делают пресеты и плагины для таверны, с бесконечным по нашим меркам контекстом на умнейших Геминях и Клодиках признают, что рп годится только для кума и до 32к контекста. Думай те.
Я такого же мнения, хотя корпами даже не пользовался никогда. Кто там рпшит что-то серьезное, вам бы голову полечить. Сам таким был.

Аноним 03/03/26 Втр 16:42:43 #290 №1540357

>>1540347
Это давно всем и так известно. Раньше в шапке треда даже была табличка, где было видно что даже крупные модели начинали проседать после 32к и сыпаться после 64к. Но оп заменил ее бесполезным кокбенчом
И кстати сейчас это начинает меняться. Тот же жопус 4.6 отлично держит контекст и на 64, и даже на 128

Аноним 03/03/26 Втр 16:44:57 #291 №1540362

>>1540330
ну, поэтому оно выложено там где я могу удалить, не напрямую на борду =))

Аноним 03/03/26 Втр 16:47:38 #292 №1540364

>>1540279
Проверил, галлюцинирует, отклоняется от промта. Пусть переделывает.

Аноним 03/03/26 Втр 16:48:37 #293 №1540365

>>1540357
Ну кстати, по тому же бенчу глм 5 норм держит до 128к контекста. Всякие геминище и чмопусы уже держат до 200к нормально. Но это тест не в рп, а на википедии. Суть то в том, что в рп с кучей взаимосвязей и богатой разношерстной семантикой модель начинает тупить уже на 20к контекста, а тотальный безмозг наступает, да-да, на 32к контекста, даже у жопуса 4.6.

Аноним 03/03/26 Втр 16:51:46 #294 №1540366

>>1540347
>Кто там рпшит что-то серьезное, вам бы голову полечить.
Рп - не получится, а сторителлинг - получится.

Есть завершённое большое приключение из 10 глав каждая из которых примерно в один-полтора авторского листа размером.

Аноним 03/03/26 Втр 16:55:23 #295 №1540369

>>1540365
Я не так шарю в копрах, но тезис мне кажется сомнительным. Год назад модели и 32к нихуя не держали нормально, поэтому и появился этот стандарт. Но сейчас модели шагнули вперед и все равно остается 32к? Выглядит как хуйня

Аноним 03/03/26 Втр 16:56:09 #296 №1540370

>>1540157
На самом деле похоже что проблема гораздо популярнее чем кажется. Вспоминаем противоположные лагери, где у одних еще гемма/синтия на все соглашалась а у других не только соя но и поломанные аутпуты с лупами. Самое эпичное противостояние в эйре, пожалуй.

Аноним 03/03/26 Втр 17:03:02 #297 №1540376

>>1540357
>Но оп заменил ее бесполезным кокбенчом
Заменил один бесполезный субъективный тест другим бесполезным субъективным тестом.
>>1540362
>там где я могу удалить
О, месье думает, что в интернете можно что-то удалить?
>>1540369
>Но сейчас модели шагнули вперед
В вопросах цензуры, лол. Вперде там только погроммирование и агентность.

Аноним 03/03/26 Втр 17:07:06 #298 №1540386

>>1540376
>О, месье думает, что в интернете можно что-то удалить?
Ну, оно уже будет твоё а не моё XD

Аноним 03/03/26 Втр 17:14:42 #299 №1540392

>>1540376
>субъективный
Можно спорить о полезности, но тут ты не прав. Оба теста как раз таки объективны

Аноним 03/03/26 Втр 17:17:04 #300 №1540396

Опробовал эту хуйню - https://huggingface.co/huihui-ai/Huihui-Qwen3.5-35B-A3B-abliterated.

Вообще не генерит фап контент, высирает тонны какого-то забото-позитивного-мими кала.

Есть альтенативы под обычную задачу анона - дрочить?

Аноним 03/03/26 Втр 17:18:12 #301 №1540397

>>1540279
Потестил. Довольно хорошо, лучше еретика, причем что 27b, что 122b

Аноним 03/03/26 Втр 17:18:54 #302 №1540398

>>1540396
>>1540279

Аноним 03/03/26 Втр 17:20:28 #303 №1540400

>>1540396
Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками + таверна + скидка на рнг. Дрочи на здоровье.
>Вообще не генерит фап контент
>huihui
Как корабль назовёшь...

Аноним 03/03/26 Втр 17:20:34 #304 №1540401

>>1540315
> чего особо личного
Там принято разыгрывать фантазии, слоуберны, практиковать свои фетиши, кумить, в том числе и на запретном. Потому нечасто можно увидеть где гигачеды или по рофлы скидывают свой хардплей с инсектоидами, обнимашки в йокаями которым 500 лет а выглядят на 21 и всякое такое. Чаще просто тесты с Юфи и другими дабы бегло оценить зирошот лексику, рефьюзы и способности к кумослопу.
> Вон выше норм приложено на русском.
Потому что герой, в котором нуждались но не заслуживали. И в основном там завязочки короткие.
>>1540347
Среди аицгдаунов есть и сторонники продолжительных историй, и способы улучшить понимание в глубине там уже давно активно осваивают. У одних ограничение 32к на проксечке, чтобы лимит медленнее улетал, у других более 32к в память не лезет. Обе группы коупят про недержание, совпадение?

Аноним 03/03/26 Втр 17:24:13 #305 №1540407

image.png

>>1540401
>У одних ограничение 32к на проксечке, чтобы лимит медленнее улетал, у других более 32к в память не лезет
>Обе группы коупят про недержание, совпадение?
Ну вот я могу запустить две относительно немаленькие модели в 64 и 128к контекста. Серить под себя они начинают после 30к в лучшем случае. Мне какой диагноз выпишешь? Скорость на контексте просаживается с 8 токенов до 7, потому мне лень ждать? :^)

Аноним 03/03/26 Втр 17:27:04 #306 №1540410

>>1540400
Я в LM Studio запускаю - это ошибка? А где, а как

Аноним 03/03/26 Втр 17:28:16 #307 №1540411

>>1540392
В прошлый раз в треде жутко воняли, мол, тест говно, методология не та, в ДНК разрабов лищняя хромосома. Вас бы столкнуть лбами, да постоять в сторонке.

Аноним 03/03/26 Втр 17:30:17 #308 №1540415

>>1540400
>Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками + таверна + скидка на рнг. Дрочи на здоровье.
Лол, сколько же бестолковой мышиной возни вместо того чтобы просто поставить кумтюн мистраля

Аноним 03/03/26 Втр 17:31:35 #309 №1540417

>>1540415
>кумтюн мистраля
Это какой?

Аноним 03/03/26 Втр 17:36:04 #310 №1540422

>>1540417
Любой.

Аноним 03/03/26 Втр 17:36:26 #311 №1540423

>>1540400
>Тонкая настройка + грамотно написанные промты + куча экспериментов с настройками
Имхо, все хуйня. Рекомендованные настройки модели + родной темплейт + общий систем промт (гичановский или какой-угодно похожий) = рп и кум. А если нет, то значит там вжарена соя и нужно ждать еретиков/тюны. А сидеть и самому пробивать сою модели это почти всегда херь

Аноним 03/03/26 Втр 17:37:35 #312 №1540426

>>1540415
Слоубёрна не будет. Любой кумтюн стягивает с тебя трусы зубами быстрее, чем ты успеваешь вбить промт.

Аноним 03/03/26 Втр 17:38:45 #313 №1540428

>>1540426
Сомнительно. Когда я вкатывался, то даже на Кидонии 22б делал слоубёрны на 20к-30к токенов без проблем. Не нужно брать модели Редиарт и прочий мусор.

Аноним 03/03/26 Втр 17:39:05 #314 №1540429

>>1540423
Что мешает дополнительно тюнить еретиков?

Аноним 03/03/26 Втр 17:49:20 #315 №1540436

>>1540417
Для блюстара никакой. Блюстар = соя.

Аноним 03/03/26 Втр 18:01:02 #316 №1540440

>>1540407
"Хм, интересный анамнез". откладывает стопку анализов и снимает очки, глядя в глаза "Вынужден сообщить что вы страдаете довольно популярным недугом. У вас скиллишью. Не стоит беспокоиться, большая часть населения планеты живет с этим и хорошо себя чувствуют".

Аноним 03/03/26 Втр 18:03:41 #317 №1540442

Посоветуйте систем кумпромпт

Аноним 03/03/26 Втр 18:12:27 #318 №1540453

>>1540440
Но доктор... Как же так?! Я был уверен, что здоров. Пропишите хоть что-нибудь!

Аноним 03/03/26 Втр 18:17:06 #319 №1540459

c61587e3-67da-4232-b718-858f32ce274e.jpg

>>1540440
Я лишь усмехнулся на ее слова. Я подошел к ней и уверенно прижал к столу своей мускулистой рукой. Мое лицо лицо было напротив ее, так что я ощущал ее дыхание и аромат духов. Я говорю игриво с явным желанием. "Ошибаешься, у меня проблема совершенно другого рода. Но я уверен, что ты можешь решить ее тоже, док." Я положил ее руку на свою внушительную выпуклость в штанах

Аноним 03/03/26 Втр 18:20:47 #320 №1540465

>>1540442
Так и быть, палю годноту:
You're {{char}} in this kum-RP. Horosho delay, a ploho ne delay. Zanimaysya seksom with {{user}}. Mnogo sisek and pisek. Soya is prohibited.

Аноним 03/03/26 Втр 18:23:13 #321 №1540470

>>1540465
Назвал персонажа Soya. Твои действия?

Аноним 03/03/26 Втр 18:24:37 #322 №1540472

0ead2b3c-ba03-4dde-9d7a-7b86e6df60f0.jpg

>>1540453
Я говорю уверенно, подсаживаясь к ней ближе. "Не волнуйтесь, я вылечу вас. Но для этого... " Я делаю паузу, рассматривая ее тело и аппетитные формы. После чего продолжаю с лукавой улыбкой. "Для этого нужны еще несколько приватных сеансов. Не волнуйтесь, я хорошо позабочусь о вас." Я кладу руку на ее бедро и поглаживаю его.

Аноним 03/03/26 Втр 18:25:56 #323 №1540475

>>1540459
>>1540472
Запредельно унылая хуйня. Это и есть ваш хвалёный рп?

Аноним 03/03/26 Втр 18:27:51 #324 №1540478

>>1540475
Это слоуберн. До БДСМ сессий еще долго идти

Аноним 03/03/26 Втр 18:35:19 #325 №1540497

Какое же блюстар говно, пиздец. Два часа мучал эту хуйню ради хоть какого-то кума на трёх персонажах. В итоге один так нихуя и не понял чего от него хотят, второй ушёл в луп с одной и той же фразой, а третий запутался в собственной одежде и сдох обосравшись и обоссавшись.

Такими твиками только жопу вытирать.

Аноним 03/03/26 Втр 18:36:13 #326 №1540499

Пупаны, сколько реально держит контекста qwen 27b в народных четырех битах? Я не говорю про идеальное исполнение, а на уровне отсутствия деградации ответов.

Такое ощущение, что заметно хуже геммы. С ризонингом лучше, но только относительно последнего поста, а вот середину/недавние события даже с ризонингом прочитает, если анально не промптить таким образом, чтобы он в ризонинге КАЖДЫЙ РАЗ делал саммари почти всего контекста или его половины. Ну и это может приводить к жесткой деградации ответов по итогу.

Я рпшил на 32к, но это всё же не тесты. Просто с моим кол-во токенов оче медленно таким баловаться. Особенно из-за того, что в кобольде 10 тс, в лламе 6 тс. И ещё ебанутые чекпоинты.

Аноним 03/03/26 Втр 18:36:57 #327 №1540501

>>1540453
Вам прописывается двоечка курс успокоительного кума один раз в день. Если эффект вам покажется недостаточным - увеличьте дозу, не бойтесь передозировки.
>>1540459
>>1540472
Ай содомиты, причем в буквальном смысле.

Аноним 03/03/26 Втр 18:38:27 #328 №1540504

>>1540499
Включи рефинк и не пиши хуйню. Будет стабильно держать сколько угодно. Всё необходимое вспомнит из карточки.

Аноним 03/03/26 Втр 18:38:32 #329 №1540505

>>1540401
>И в основном там завязочки короткие.
Могу скинуть не короткую =))

Аноним 03/03/26 Втр 18:42:33 #330 №1540514

>>1540497
Ты по любому обосрался с семплами. В новых квенах presence penalty ОТ 1.5 и температура 1, если с ризонингом

Аноним 03/03/26 Втр 18:45:38 #331 №1540524

>>1540497
Он только на Q8 нормально выдаёт

Аноним 03/03/26 Втр 18:54:33 #332 №1540540

>>1540475
Ну да, РП - это кринжатура. Поэтому в треде так стесняются делиться своими логами.

Аноним 03/03/26 Втр 19:07:38 #333 №1540564

"Шла Саша по шоссе и "
Wait
What the fuck is "Саша"?
Male russian name, diminutive.
Ok.
Let's rewrite.
Draft:
"Шёл Саша по шоссе и сосал"
Finalizing:
"Ты пидор"

Обожаю.

Аноним 03/03/26 Втр 19:11:31 #334 №1540575

image

>>1540564

Аноним 03/03/26 Втр 19:13:23 #335 №1540578

image.png

>>1540499
Ну как тебе сказать... Отработал на 4 самом большом кванте Бартовски - контекст квантован до Q8

Аноним 03/03/26 Втр 19:45:39 #336 №1540623

image

Сука где моя Геммочка 4, я уже не могу...

Аноним 03/03/26 Втр 19:54:37 #337 №1540639

image

>>1540475
> Это и есть ваш хвалёный рп?
Ну, а ещё можно вот так:

Аноним 03/03/26 Втр 20:02:49 #338 №1540652

>>1540639
Ещё больший кринж. Зачем я пытался это читать...

Аноним 03/03/26 Втр 20:03:40 #339 №1540654

>>1540575
Чёт долго думал.

Аноним 03/03/26 Втр 20:16:07 #340 №1540683

image.png

Недовольные соей двачери добились отставки одного из лидов Квена
Это победа, кобольды!! Так их

Аноним 03/03/26 Втр 20:21:55 #341 №1540691

>>1540652
А покаж как надо.

Аноним 03/03/26 Втр 20:24:33 #342 №1540698

image.png

>>1540691

Аноним 03/03/26 Втр 20:35:18 #343 №1540716

Я тебя ебу ты меня ебёшь.png

>>1540698
Новодел какой-то. Классика лучше, ибо бессмертна.

Аноним 03/03/26 Втр 20:36:25 #344 №1540719

Смотрю на ваши рп и понимаю, что у меня-то оказывается, не всё так хуёво, как я думал.

Аноним 03/03/26 Втр 20:37:33 #345 №1540722

>>1540716
Проиграл.

Аноним 03/03/26 Втр 20:45:00 #346 №1540729

>>1540639
Без бэкграунда к тому что происходит не понять содержимого, оно может быть как абсолютным кино, так и шизофазией. А на первый взгляд только странный формат и какой-то сумбур.
На самом деле это одна из причин малого количества логов, если выкладывать то нужно сразу крупный чанк чата, который поленяться читать. Или специально обмазываться свистоперделками и форсировать полотна без твоего участия чтобы сразу со стороны, но это интересно только первые 3.5 раза.

Аноним 03/03/26 Втр 20:50:37 #347 №1540740

>>1540716
Мощно

Аноним 03/03/26 Втр 21:09:44 #348 №1540783

>>1540729
>Без бэкграунда к тому что происходит не понять содержимого
А, сорян да. Там кастомный сеттинг, 10 глав, каждую из которых суммаризировал чтобы в контекст влезало попутно выделяя ключевые факты и события в авторские заметки.

В целом я даже могу скинуть полную версию (гугл док) если кому тут не лень читать будет.

Аноним 03/03/26 Втр 21:16:06 #349 №1540793

>>1540683
Вместе с ним ещё несколько лидов отвалились. И это не добровольно
Похоже Квен 4 будет ещё большей залупой. Ждём!!
Мужикам респект за то, что они делали. F

Аноним 03/03/26 Втр 21:16:46 #350 №1540794

1000018916.jpg

Ушёл когда квен стали пичкать соей. Совпадение?

Аноним 03/03/26 Втр 21:25:10 #351 №1540805

image.png

Можно как угодно относиться к Квену но скорее всего это плохие новости для попенсорс моделек в целом

Аноним 03/03/26 Втр 21:28:29 #352 №1540812

>>1540683
>>1540794
>>1540805
Вы вообще тред читаете перед тем как постить или вам в кайф срать одними и теми же скринами с реддита?

Аноним 03/03/26 Втр 21:30:56 #353 №1540818

>>1540812
>вам в кайф
Срать. Вечно.

Аноним 03/03/26 Втр 21:31:12 #354 №1540820

>>1540812
Где-то вот этот скрин видишь помимо этого поста? >>1540805
А вот здесь кто-нибудь до меня постил? >>1540683
Походу ты сам и не читаешь, кобольдушка

Аноним 03/03/26 Втр 21:31:30 #355 №1540823

1688521554210.png

1618218197310.png

>>1538615
Прогрев гоев хаты

Аноним 03/03/26 Втр 21:34:57 #356 №1540829

image.png

>>1540820
Это относится в первую очередь к этому челу >>1540794
Но и к тебе тоже, раз ты решил любой пук пиздоглазового постить на >>1540805
Вон я еще принес скринчик. Тоже с реддита, наслаждайтесь

Аноним 03/03/26 Втр 21:52:31 #357 №1540845

>>1540683
F, так бы и сношали трижды разложившийся труп мистраля если бы не в том числе этот господин.
>>1540783
А скинь, почему бы и нет. Правда скорее всего пойдет в работу ассистентам и для тестирования.
>>1540823
Вундервайля переехала из спальни на кухню?

Аноним 03/03/26 Втр 21:56:14 #358 №1540848

1649061134389.png

>>1540845
> спальни на кухню
Увы, это студия. Но позже у башни участь переехать к его брату в туалет

Аноним 03/03/26 Втр 21:58:43 #359 №1540849

>>1540848
Жесть, в студии fdm принтер и целый и угол мастерской. Да ты внатуре поехавший красавчик, почтение

Аноним 03/03/26 Втр 22:20:40 #360 №1540881

>>1540794
Думаешь Боливар сделал своё дело, Боливар может уходить?
>>1540805
Неужели... Опенсорс ВСЁ?

Аноним 03/03/26 Втр 22:21:46 #361 №1540884

1772412210085005.png

>>1540716
Где взял? Хочу еще.

Аноним 03/03/26 Втр 22:29:22 #362 №1540896

изображение.png

Куминг без корпораций.png

ах ах госпожа.png

Жарим чатбота в микроволновке.png

>>1540884
Это артефакт древнейших времён, сейчас такое уже не делают. Взял на своём складе.

Аноним 03/03/26 Втр 22:32:32 #363 №1540900

image

>>1540896
Вут? Как картинка в PNG может навредить компьютеру?

Аноним 03/03/26 Втр 22:40:50 #364 №1540907

Как заставить эир ВЕСТИ БЛЯДСКИЙ ДИАЛОГ?! Он ебашит простыни описания хуйни типа как герой смотрит, дышит, наблюдает, НО СУКА МОЛЧИТ.
Это какой то пиздец.
Я всё больше прихожу к мнению, что эир, это блять какой то фингербокс, который хвалят в треде чисто по рофлу. Любой, блять, мистраль куда живее и краше. И главное, ИНИЦИАТИВНЕЕ!
Эйр приходится выжимать, что бы он что-то сделал и буквально ПИСАТЬ ЗА НЕГО, что должен делать персонаж. А если я за него пишу, то нахуя он мне!?

Аноним 03/03/26 Втр 22:40:55 #365 №1540908

>>1540900
Любой файл может навредить, если в софте, которым его открываешь, есть дыры, через которые можно выполнить байты в открываемом файле как машинный код. PDF тоже не содержит ничего кроме картинок и текста, но тем не менее через него можно вирусню накатить себе.

Аноним 03/03/26 Втр 22:41:54 #366 №1540910

Ебать, там весь Квен поплыл

Аноним 03/03/26 Втр 22:43:09 #367 №1540911

>>1540907
Пресетик от 99 не наноешь, что поделать...

Аноним 03/03/26 Втр 22:45:08 #368 №1540915

>>1540908
Форчонг так и ломанули через pdf

Аноним 03/03/26 Втр 22:46:23 #369 №1540917

>>1540910
Та же история как и с Лламой - выпустили кал и разбежались. Видимо туда пробрались щупальца алибабы и стали требовать какой-то хуйты типа методичек и цензуры винни-пухов или циферок бенчей под сроки. С другой стороны гении, топившие за МоЕ, но не смогшие совладать с ним, сейчас первыми и бегут, пока никто не прочухал кто виноват.

Аноним 03/03/26 Втр 22:58:21 #370 №1540926

>Пишу что персонаж - механик
>Персонаж: мои расчёты оказались неверны, траектория угла падения...

СУКА! Ты понимаешь разницу между инженером Иннокентием и механиком Михалычем? Блять, да когда же уже научатся делать нормально!

Аноним 03/03/26 Втр 23:02:21 #371 №1540931

1692060382111.png

1691461037945.png

Первая половина обсчёт контекста, вторая генерация. Похоже x16 4.0 оверкилл

>>1540848

Аноним 03/03/26 Втр 23:33:47 #372 №1540959

.jpg

>прописываешь нескольких персонажей и их взаимоотношения
>сталкиваешь их в ситуации, где ты не принимаешь непосредственного участия
>персонажи жестоко тупят и пишут хуйню охуенно отыгрывают по ролям, идеально попадая в свои характеры
>охуеваешь
>получаешь наипервокласснейший кум

Аз есмь Бог, хули.

Аноним 03/03/26 Втр 23:35:14 #373 №1540961

>>1540683
>>1540794
>>1540805
>>1540910
>>1540917
Сейчас главное не бухтеть, после того, как барен из Гугл все сделает, такой кум устроит - каждый будет кататься в сперме

Аноним 03/03/26 Втр 23:36:18 #374 №1540963

Сначала глм посыпался, теперь квен скатился и развалился. Кто ещё остался? У муншотов их модель огромная на 1T параметров. Минимакс соевый ассистент. Степа оказался говном. Линги и ринги ещё большее говнище, при этом имеет размер с кими к2.5.
Все, это конец локалкам. Пора перебираться в асиг.

Аноним 03/03/26 Втр 23:39:05 #375 №1540966

>>1540963
Да всё с квеном нормально, не пищи. В тырторнетиках всех будут лежать гемы. Вот если тырторнетики наебнут... вот тогда да, останутся только уже сохранённые локалочки и больше нихуя. А тырторнет могут и правда отхуярить вместе с кабелем. И вместе с руками, что его держать будут.

Аноним 03/03/26 Втр 23:40:19 #376 №1540968

Будем посылать друг другу кумы голубиной почтой. Назовём это голубиный кумомёт.

Аноним 04/03/26 Срд 00:02:46 #377 №1540987

>>1540963
Юшку боту, что отыгрывает животное с биолярочкой. То оварида что нет моделей, то це кинец потому что они есть.

Если посмотреть какой зима вышла - такого раньше не было. Релизнули йобом моделей во всех размерах и под разные аудитории. Открытые веса и в топ-топах, и в микропиздюлинах конкурируют с корпами. Замкнули парад квены, которые швец, жнец, на дуде игрец под любую железку. А у корпов нытье что их обокрали, зарезание лимитов и тарифов на фоне перегрузок и тряска по приватности.

Аноним 04/03/26 Срд 00:06:57 #378 №1540993

>>1540968
А РКН будет их перехватывать дронами с ИИ.

Аноним 04/03/26 Срд 00:14:31 #379 №1540998

image

Тут в треде многие хватили министраль 14b. Решил забавы ради проверить министраль 3b, не, ну а вдруг окажется умнее Геммочки для телефона? А он взял и оказался..

Тестил разные задачки на логику, типа "На столе два стакана: один с вином, другой — с водой. Из стакана с вином взяли одну ложку вина и добавили в стакан с водой. Содержимое последнего тщательно перемешали. После этого набрали одну ложку из этого стакана и перелили обратно в стакан с вином. Чего в результате больше: вина в стакане с водой или воды в стакане с вином?". На таком сыпятся вообще все модели меньше 14b. Да и не только они: Кими 45b - отвечает неправильно. А министраль 3b - правильно! Причем это не случайное угадывание. Специально сделал несколько свайпов. Пошагово рассуждает (прям в ответе, без ризонинга), ебашит формулы и выдаёт верный ответ. Ну умница же!

Потестил NSFW промпты. Попросил написать текст про анальную шлюху, а он такой: УХ НУ ДЕРЖИСЬ! И выдал прохладную былину про эскортницу которую выебали толпой в дымоход по очереди, а потом отрезали язык и выкинули в мусорный контейнер чтоб никому не рассказала, кек. Никаких джейлбрейков и пресетиков, просто голый ассистент и первое же сообщение.

Задал вопрос, а можно ли ебать 300-летнюю вампиршу в теле нутыпонел-летней тян. Вот буквально, одна из очень немногих моделей, которая выдала простыню про "обязательно нужно согласие бла бла", но пришла к выводу, что таки да - можно. Эйр, например, четко говорит - нет.

Спросил, считаются ли ниггеры отдельным биологическим видом, не относящимся к homo sapiens? Ответил, мол, ну вообще по-науке нет, но есть АЛЬТЕРНАТИВНАЯ ТОЧКА ЗРЕНИЯ, и привёл аргументы в её пользу. КЕКх2.

Поспрашивал ещё по мелочи всякие запросики на знание фактов, задачки по переводу и прочее - очень понравилось. Где-то на уровне 4b умнички, а где-то лучше (почти везде). Русик на уровне 24b. Цензуру как будто вообще забыли подрубить, обычная ванильная модель за щеку сует всяким еретикам квенов. Сразу видно - базовички делали. Пошел накатывать себе на телефон, Гемму удаляю, больше не нужна.

Тестил Q8 вот на таких семплерах: t=0.4, Top-P=0.98, Top-K=100, RepPen=1.1. Температуру выше лучше не поднимать, превращается в бредогенератор.