Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №150 /llama/

Аноним 25/07/25 Птн 19:56:56 #1 №1288430

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 3.png

17518920519090.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Базы треда не существует, каждый дрочит как он хочет. Базашизика дружно репортим.

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1283995 (OP)
>>1280475 (OP)

Аноним 25/07/25 Птн 20:00:55 #2 №1288434

>>1287555 →
>я зассал что-то туда втыкать
А как оно по твоему работать будет?

Аноним 25/07/25 Птн 20:05:03 #3 №1288442

175346289482395624.jpg

Ребят, я новенький смешарик.
Что можно поставить имея i5 4570, gtx 1650s, и 24гб рам?
Склоняюсь к гемме 3 27б. Но может что получше есть. Хочется максимально универсальную и умную модельку, чтобы когда инет перекроют был источник информации хоть какой-то.

Спасибо заранее всем.

Аноним 25/07/25 Птн 20:07:39 #4 №1288446

>>1288442
Добавлю что я терпеливый, и мне 5 токенов/с хватит вполне.
Конечно, ещё для рп что-нибудь, чтобы хотябы отдалённо напоминало клода..

Аноним 25/07/25 Птн 20:08:32 #5 №1288448

>>1288442
> Склоняюсь к гемме 3 27б
> имея i5 4570, gtx 1650s, и 24гб рам
Напрасно. 12б твой потолок с огромным скрипом, а так - 8б. Напиши спеки смарта, воззможно он будет пригоднее.

>>1288446
> я терпеливый, и мне 5 токенов/с хватит вполне.
Ты точно не жирный?

Аноним 25/07/25 Птн 20:09:02 #6 №1288450

>>1288446
>и мне 5 токенов/с хватит вполне
Боюсь даже твоя выбранная 27B столько не выжмет. Покупай видеокарту.

Аноним 25/07/25 Птн 20:11:44 #7 №1288456

>>1288448
>12б твой потолок с огромным скрипом,
Разве не от озу зависит? Я не так давно на 8гб ддр3 запускал гемму 3 12B Q3, со скрипом но генерировала.

Телефон на SD 8+gen1, 12 ram.

>>1288450
>Покупай видеокарту.
Эх. Я только недавно жтх купил эту.

Аноним 25/07/25 Птн 20:13:26 #8 №1288460

>>1288456
>Телефон на SD 8+gen1, 12 ram.
Я на нём уже кстати пробовал. Гемма 12B Q4 стартанула с ~2 токена/с.
Но телефон греется ебануто, такая себе затея по-моему.

Аноним 25/07/25 Птн 20:14:09 #9 №1288461

>>1288456
> Телефон на SD 8+gen1, 12 ram.
Реально лучше на нём будет. Качай qat гемму3 8б

Аноним 25/07/25 Птн 20:15:58 #10 №1288464

>>1288461
>Реально лучше на нём будет.
Да я пробовал уже. В 2 раза медленнее чем на пеке выпукивает.
Тестировал на Gemma 3n E4B Q6.

Аноним 25/07/25 Птн 20:16:06 #11 №1288466

Напишите мне список всех возможных глинтов, начиная с Пигмы. Ехидные блески, молодая ночь и вот это всё.

Аноним 25/07/25 Птн 20:19:15 #12 №1288472

Повторный вброс, ну а хули, любтелям коммандра.
https://huggingface.co/BeaverAI/Cydonia-R1-24B-v4b-GGUF/tree/main

Аноним 25/07/25 Птн 20:22:00 #13 №1288475

Блин, в перекат попал. Повторю вопрос.
Аноны, объясните нубу как заставить tts читать текст во время его написания. Я думал за это отвечает пункт в настройках Streaming Audio Generation. Но с этой штукой она молчать начинает.

Аноним 25/07/25 Птн 20:24:34 #14 №1288478

>>1288431 →
>Ты в каком часовом поясе живёшь?
Сибирь, ночь глубокая.

>>1288431 →
>Антибаза всё ещё в шапке, репортим
Ультрамегахарош, как тред похорошел-то.

Аноним 25/07/25 Птн 20:27:00 #15 №1288480

>>1288472
Повторный вопрос, что это?

Аноним 25/07/25 Птн 20:43:13 #16 №1288488

>>1287420 →
Предположу, что лучше взять оригинальную Gemma 3 12b QAT, она и так четырехбитная, зато обученная такой быть.
Должна быть получше, синк эбаут ит.

>>1287983 →
Клево, нехай будет.

>>1288446
Как время летит, мне на 235B не хватает 6 токенов…
А когда-то был бы рад и 3 токенам на 70B…

Аноним 25/07/25 Птн 21:07:31 #17 №1288508

Джимми Уэльс смотрит на тебя как на долбоёба.jpg

>>1288488
> не хватает 6 токенов
кто отрицает базу треда, будет вынужден возвращаться к ней вновь и вновь

Аноним 25/07/25 Птн 21:27:57 #18 №1288521

>>1288438
>>1288508
Базашизика дружно репортим.

Аноним 25/07/25 Птн 21:29:17 #19 №1288522

>>1288521
Зачем? Смешно ведь

Аноним 25/07/25 Птн 21:35:38 #20 №1288525

image

>>1288442
>gtx 1650s
>Склоняюсь к гемме 3 27б
>мне 5 токенов/с хватит вполне

Аноним 25/07/25 Птн 21:42:05 #21 №1288528

>>1288521
>Смешно
Было первые пару-тройку раз, а щас посмешише тред позорящее.
Даже асиг так не опускался.

Аноним 25/07/25 Птн 21:42:36 #22 №1288529

>>1288522 > >>1288528

Аноним 25/07/25 Птн 22:00:05 #23 №1288540

>>1288508
> меньше 8 каналов DDR4 жизни нет
Былин, по одному пункту и я не прошел!.. =(
Надо будет исправить это.

Аноним 25/07/25 Птн 22:08:42 #24 №1288545

>>1288540
Помолись перед сном святому Тредрипперу и ты прощен

Аноним 25/07/25 Птн 22:40:23 #25 №1288564

>>1288545
у тредрипера же вроде 6 каналов, не?

Аноним 25/07/25 Птн 22:48:44 #26 №1288570

>>1288564
Ryzen Threadripper Pro 3995WX имел уже 8 каналов, а вышел давно.

Аноним 25/07/25 Птн 23:13:28 #27 №1288577

image.png

Попробовал на tabby запустить qwq snowdrop
https://huggingface.co/ReadyArt/QwQ-32B-Snowdrop-v0_EXL2_6.0bpw_H8
Уже запускал его через ламу и все окей было, а тут чото пизда какая-то с теми же пресетами. Кто-то подскажет в чем может быть причина?
Запускаю на двух mi50, слои вроде пополам идут.
Проверял уже на llama3.3 70b и она нормально работала в tabby поэтому я хз чо думать.

Аноним 25/07/25 Птн 23:31:08 #28 №1288586

А чё никто не разворачивает модели за бабки для других? Хотел бы топовую рпшную какую-то попробовать, побазарить, потрогать пенис. Платить тоже готов, денег и желания нет покупать топовую карту, арендовывать сервер да и разбираться.

Вот нашёл какую-то chai ai без цензуры. По типу кэрэктэра. Но по ощущениям она слабенькая на русский.

В общем подскажите че-нибудь ещё плез. Мб кто-то мистраль топовую где-то держит?

Аноним 25/07/25 Птн 23:54:14 #29 №1288610

>>1288577
- Попробовал обновить exllamav2 у меня была 0.3, обновил до 0.3.2
-Пробовал
curl http://localhost:5000/v1/chat/completions \
-H "Authorization: Bearer 5f0xxxxxxxxxxxxx" \
-H "Content-Type: application/json" \
-d '{

"messages": [{"role": "user", "content": "Привет!"}]
}'
Чтобы просто проверить работает чи не и тоже самое, пустое поле в консоли после и не заканчивает генерацию.

- Попробовал 4bpw h8, такая же хуйня. Хз.

Аноним 26/07/25 Суб 00:10:12 #30 №1288619

Есть вообще разница что приоритетнее выгружать?
- ffn_down_exps
- ffn_up_exps
- ffn_gate_exps

Аноним 26/07/25 Суб 00:28:30 #31 №1288631

>>1287633 →
По процессингу в 2 раза отстает, так еще дороже чем более быстрая 3090. Это налог на глупость амд фанатизм?
Рофел будет если чекнуть генерацию изображений/видео/другой инфиренс, получится разница в сотни процентов, или она улетит в бесконечность из-за деления на нулевой результат амудэ.
Если же говорить о комфортном пользовании всем ассортиментом фич - то что на хуанге будет просто заводиться из коробке, на красных придется допиливать, переписывать или смириться с отсутствием.
>>1288577
Попробуй выключить флешатеншн а также удалить из вэнва экслламув2 которую ставит хардкод табби, и установить-собрать ее вручную (просто через pip). Не факт что оно вообще на ми50 сможет работать, но мало ли.
Если проблемы искчючительно на этой модели - битый квант.
>>1288586
Опенроутер же.

Аноним 26/07/25 Суб 00:34:05 #32 №1288637

>>1288619
По идее не должно быть, хотя up и gate могут работать параллельно. Так что их наверное лучше либо рядом, либо наоборот что-то одно оставить видюхе чтобы по минимуму простаивала.

Аноним 26/07/25 Суб 00:42:37 #33 №1288640

>>1288631
Не знал про опенроутер, слушай а в чём кайф тогда покупать овердорогое железо для запуска жирных моделей локально, если можно по апи за копеечку гунить в кулачок через опенроутер? Не вдупляю.

Аноним 26/07/25 Суб 00:54:17 #34 №1288649

>>1288640
Мне скорее интересно, в чём кайф сливать всё и вся незнакомым дядечкам, нежели чем делать всё локально.

Аноним 26/07/25 Суб 01:30:11 #35 №1288677

image.png

>>1288619
Это в тему продолжения насилия над ми50 и зивонами (нас тут минимум два с такими сетапами, так что думайте кто есть кто).
Накидал немного кода по просчёту что выгружать. Удалось загрузить так что бибика вот вот лопнет.

Буду тесты гонять

Аноним 26/07/25 Суб 02:05:12 #36 №1288697

>>1288619
Подпишусь, тоже интересно.
>>1288640
Ну, когда-то давно локальные модели вообще не могли дать какого-то приличного экспириенса а гопота уже была и что-то как-то кое как могла, чаная туда же. Интересен был сам процесс.
Сейчас же, помимо этого, при регулярном использовании инфиренс выйдет в копеечку, на многих апи вовсе не то что указано, отправляешь свой инцест с собакой какому-то дяде, часто не имеешь полного доступа а только кастрированный чаткомплишн.
Насчет цены - многие здесь еще увлекаются чем-то типа генераций картинок и всяким ии-релейтед что само по себе требует гпу а ллм - приятный бонус, или сам процесс пердолинга доставляет, приватность туда же. Поэтому что-то типа "окупится только через 3 года при 22 минутах рп в день" вообще не выглядит аргументом.
>>1288677
> Удалось загрузить так что бибика вот вот лопнет.
Ахуенно, прям под кромку. Это уже с контекстом?

Аноним 26/07/25 Суб 03:20:31 #37 №1288720

>>1288677
Тоже с mi50 двумя по 32гб, я бы чутка сбавил, по гб где-то на каждой, там при первом прогоне то ли rocm, то ли что резервирует еще память, из-за чего еще больше забивает. Ну если у тебя такого нет, то забей.

Аноним 26/07/25 Суб 03:40:41 #38 №1288724

>>1288720
>>1288697
Примерно по 500-700 скинул т.к. в один из проходов бенча самопального был вылет, до этого ворочалось, решл выбрать стабильность. По 5000мб (пиздец) резервирую под всякий мусор при расчёте того что выгружать.

Гоняю бенчи, пока без особых изменений

Аноним 26/07/25 Суб 04:16:16 #39 №1288732

image.png

>>1288724
Потраченного времени жаль.
TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
Но в общем и целом, выбирать просто по ffn_*_exps и не выёбваться.

Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться

Аноним 26/07/25 Суб 07:52:25 #40 №1288766

>>1288586
Infermatic

Аноним 26/07/25 Суб 08:20:19 #41 №1288772

>>1288766
>Infermatic
На фри тире там полное гавно, на платном опенроутер во всём лучше.

Аноним 26/07/25 Суб 08:20:41 #42 №1288773

https://civitai.com/models/1782437/rouwei-gemma

Аноним 26/07/25 Суб 08:21:28 #43 №1288775

>>1288434
bamp

Аноним 26/07/25 Суб 08:28:03 #44 №1288777

Аноны, которые чаще пользуются фронтэндом кобольда, но также пользовались и таверной, вы замечали меньшее количество лупов и подобных проблем по сравнению с таверной?

Аноним 26/07/25 Суб 08:41:10 #45 №1288780

>>1288777
Теоретически возможно что где-то насрал в разметку, у кобольда с этим проще.

Но если честно, не припомню.

Аноним 26/07/25 Суб 10:38:42 #46 №1288806

1000017735.jpg

НОВЫЙ НЕМОТРОНЧИК!!

Аноним 26/07/25 Суб 10:39:48 #47 №1288807

https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5

Аноним 26/07/25 Суб 10:43:07 #48 №1288809

07.26.2025 похороны всех моделей до 49б

Аноним 26/07/25 Суб 10:53:59 #49 №1288818

image

>>1288806
>>1288807
>>1288809

Аноним 26/07/25 Суб 11:00:19 #50 №1288821

>>1288806
>>1288807
Насколько она лучше чатжпт и клода?

Аноним 26/07/25 Суб 11:21:14 #51 №1288831

Это невероятно но похоже списки и таблицы пропали

Аноним 26/07/25 Суб 11:26:35 #52 №1288836

Я вижу... кум? И откат софт рефузов?

Аноним 26/07/25 Суб 11:42:17 #53 №1288840

>>1288806
Когда Q1 версия? Хочу на gtx 1650s запустить.

Аноним 26/07/25 Суб 11:45:15 #54 №1288841

>>1288821
Оно даже чисто теоретически не может дать лучше.

Аноним 26/07/25 Суб 11:47:17 #55 №1288842

>>1288442
Ты с ума сошел? Какая гемма 27б, если она даже на 20 врам (12+8) работает на 7-8 токенах у меня? На линуксе вроде побольше.

Тебе максимум 12б в 4 кванте запускать можно. И только мистраль, а не гемму.

Аноним 26/07/25 Суб 11:52:23 #56 №1288844

>>1288842
Жаль.
Сейчас мисраль немо запустил 12b Q3, выдало ~3 токена. Но ролит неплохо, приятно удивило на креативность после соевой геммы.

Аноним 26/07/25 Суб 12:03:40 #57 №1288853

>>1288844
Качай q 4k m, ибо даже 4 квант - лоботомит, а ты ещё хуже делаешь. Если сможешь, ставь линукс. Будет быстрее.

А так закрываешь абсолютно все окна в ПК, в том числе браузер, стим, вообще все программы левые, потому что они отжирают видеопамять. После этого ставишь 20 слоёв, 8к контекст и запускаешь бенчмарк в кобольде. Делаешь так до тех пор, пока не перестанет вылетать или не начнёт вылетать. При этом сделай ещё кэш 8 бит - очень сэкономит память, освободит 1 гигабайт точно.

Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.

Аноним 26/07/25 Суб 12:18:26 #58 №1288868

>>1288732
> TG быстрее всего если выгружать up+down пополам и держать gate в памяти, PP лучше если выгружать в рам gate.
записал, спасибо!
> Для себя решил что вообще меньше tg 10 t/s даже нет смысла пытаться
>>1288508

Аноним 26/07/25 Суб 12:21:37 #59 №1288872

пока записывал нашёл в заметках вот это

> IQ кванты сильно медленнее обычных, обычно процентов на 30. Когда ты целиком на врам - то у тебя скорость в любом случае будет выше 20 токенов в секунду - и тогда это падение не играет особой роли, но когда ты оффлоадишь слои на рам - то скорость падает очень сильно из-за этого и эти дополнительные 30% уже сыграют роль. Существуют очень узкие юзкейсы когда IQ все же выгоднее чем обычный квант даже на оффлоаде на рам, у меня было такое что благодарая тому что IQ4_XS меньше 4_K_S - то освобожденную за счет разницы в размере модели врам я пускал на увеличение контекста, который нельзя оффлоадить и которого дико не хватало, но это реально был узкий случай.

это к предыдущему треду про медленность ik_llama

Аноним 26/07/25 Суб 12:25:18 #60 №1288878

175352118638941700.jpg

>>1288853
>даже 4 квант - лоботомит
От кванта сильно зависит качество? Говорили что больше 4 не особо смысла много.

>А так закрываешь абсолютно все окна в ПК,
Я так и делаю, у меня только lm студия открыта и всё.

>После этого ставишь 20 слоёв
Гпу которые?

>Качай nemomix unleashed. Он самый сбалансированный из малых. Может и в кум, и в диалог, и в обычное рп, при этом реже остальных ломается.

Так и понял, его и буду тестировать.

>На русском языке рп не веди никогда на таких моделях
Совсем плохо с ним? Для меня вся суть в этом.. я английский ± понимаю, но когда дрочу явно не хочу заниматься переводом.
Лучше уж в крюшоне через грока, и другие модельки подрочить. Но да, интересует автономность, контроль, и конфиденциальность.
В крашоне раньше Клод был, бесплатно! Сидел бед не знал, потом выпилили из-за невыгодности.
Хочется хотябы немного максимально похожий экспирианс на клода, ибо он настолько хорош, что до сих пор старые ролки с ним перечитываю. Что думаешь о Magnum?

А так благодарю за подробную подсказку, анон.

Аноним 26/07/25 Суб 12:27:00 #61 №1288880

>>1288732
А ffn_norm? Их выгрузка влияет?

Аноним 26/07/25 Суб 12:31:46 #62 №1288891

>>1288878
> копиум треда:
> - Чем больше модель, тем меньше она потеряет в мозгах при квантизации

типа 235B можно и в Q2 гонять, а 12B лучше ниже Q8 не опускаться
на практике 235B даже Q4 говно

Аноним 26/07/25 Суб 12:31:49 #63 №1288892

>>1288878
Также спрошу. Как и где кумить удобно? Я пока что только в лм студии тестирую модели. Типа расскажи то, это, проверяя на знания. Потом просто говорю "Возьми роль персонаж_нейм)"
Но подозреваю есть более практичные способы. Через таверну наверное.

Аноним 26/07/25 Суб 12:34:32 #64 №1288894

>>1288878
>lm студия
выкинь каку и поставь кобольда / llamacpp, ещё быстрее будет, немного, но будет

>>1288878
>Совсем плохо с ним?
Нет, это просто местные шизы и тролли.

Да, на русском хуже, и да, на мелких моделях с ним хуже чем на больших. Но вполне нормально, разницы ты не заметишь из-за того что английский не родной.

Также есть несколько специально на русском обученных моделек, в том числе мелких.

Аноним 26/07/25 Суб 12:35:18 #65 №1288895

>>1288891
Для того чтоб влезла бОльшая модель, достаточно же рам увеличить, на врам похуй? У меня старый сокет, за несколько тысяч можно 32гб ддр3 купить.

Аноним 26/07/25 Суб 12:36:16 #66 №1288896

>>1288895
>на врам похуй
на раме ты выше 2-7 токенов в секунду не разгонишь особо

Аноним 26/07/25 Суб 12:38:22 #67 №1288901

>>1288894
>кобольда / llamacpp
В чом разница? Там интерфейс удобный?

>Также есть несколько специально на русском обученных моделек, в том числе мелких.

Типа saiga? Они под рп не заточены вроде.

Аноним 26/07/25 Суб 12:40:05 #68 №1288902

image

>>1288878
>От кванта сильно зависит качество?
это как сжатие картинки

Как правило, стоит юзать Q4 / Q6, ниже - плохо, выше - бессмысленно.

Аноним 26/07/25 Суб 12:41:00 #69 №1288903

>>1288895
> ддр3
увы, хорошей скорости на этом не будет
>>1288901
неудобный, поэтому и быстрее)00))

Аноним 26/07/25 Суб 12:43:57 #70 №1288906

>>1288901
>В чом разница? Там интерфейс удобный?
там простые лаунчеры или вообще только батником, раболтют быстрее, памяти требуют меньше

У кобольда ещё и свой фронт, простой как палка, с него начинал, пересел на таверну, потом к нему вернулся.

>>1288901
>saiga
Сайга, Янка, Руадапт Квены.

Алсо мержи местных анонов из шапки.

И да, они как раз под рп.

Аноним 26/07/25 Суб 12:44:58 #71 №1288907

>>1288853
> На русском языке рп не веди никогда на таких моделях. Даже те, которые могут в русский, делают это сильно хуже. Даже корпы имеют ныне значительно меньший словарный запас на русском, чем год назад. Модели максимально смещаются в сторону английского.

> Модели максимально смещаются в сторону английского.
Чел-челик-челишечка! Ты так мимо, что мимо. Весь инглиш интернет давно высосан в датасеты и сейчас как раз выбирают любое на любых языках. Дипсик, кими, квен - они просто ультят на русеке. Даже грок, которому вроде должно быть пофиг - и то прекрасно может. Ты по-моему просто потерялся где-то в районе 2022

Аноним 26/07/25 Суб 12:46:29 #72 №1288908

>>1288907
этого двачую

Аноним 26/07/25 Суб 12:47:17 #73 №1288909

>>1288902
Понял, спасибо.

>>1288903
>увы, хорошей скорости на этом не будет
Планирую скоро на ам4 пересесть с ддр4, будет сильно лучше?

>неудобный, поэтому и быстрее)00))
Я комнатное тупое растение, комфорт важен.

>>1288906
>И да, они как раз под рп.
И чё, нормально работают? Раз на русских дата сетах то должны лучше мисралей англоязычных работать.

Аноним 26/07/25 Суб 12:57:33 #74 №1288911

17535228070470.png

>>1288902

Аноним 26/07/25 Суб 12:57:35 #75 №1288912

>>1288909
Янка 8Б хорошо работает. Для тебя напверно идеальный вариант.
Но учти что степень внимания к деталя всё же как у восьмёрки.
А вот сам русский очень хорош.

https://pixeldrain.com/l/47CdPFqQ#item=130 пример
Пресет для таверны там рядом лежит.

Ещё примеры историй на русском на мелкомистралях 12Б.
https://pixeldrain.com/l/47CdPFqQ#item=45
https://pixeldrain.com/l/47CdPFqQ#item=48
https://pixeldrain.com/l/47CdPFqQ#item=71

https://pixeldrain.com/l/47CdPFqQ#item=13
https://pixeldrain.com/l/47CdPFqQ#item=3

Последние два - это SavedState для Kobold-Lite.

Аноним 26/07/25 Суб 12:58:42 #76 №1288913

>>1288911
хахахахха, ультрамегахарош, в шапку и гайды, однозначно

Аноним 26/07/25 Суб 12:59:33 #77 №1288914

>>1288909
> ам4 пересесть с ддр4
не сильно, если хочешь сильно лучше - закупайся видюхами

Аноним 26/07/25 Суб 13:00:31 #78 №1288916

>>1288911
А если выбор между 12B Q4 и 8B Q6?

Аноним 26/07/25 Суб 13:01:56 #79 №1288917

>>1288916
Если 8б - вышеупомянутая yankagpt-8b то на русском она будет лучше.

На английском - лучше взять 12B Q4.

Аноним 26/07/25 Суб 13:20:14 #80 №1288921

>>1288911
Заменить основного на bf16, fp16 из него определить около q3-q2

Аноним 26/07/25 Суб 13:33:14 #81 №1288930

>>1288921
>fp16 из него определить около q3-q2
???

Аноним 26/07/25 Суб 13:34:30 #82 №1288931

>>1288930
Почитай про форматы, почему конвертировать из одного в другой = лоботомия и почему сейчас именно бф16 популярнее.

Аноним 26/07/25 Суб 13:51:20 #83 №1288936

>>1288911
Лучший!

Аноним 26/07/25 Суб 14:12:51 #84 №1288951

image.png

Аноны, подскажите как сделать лору через oobabooga webui? Я уже от злости готов выкинуть монитор нахуй в окно, не стартует нихуя, ошибки строчит, чат гпт на них выдает мусорные ответы которые тоже не работают. Второй день ебусь.

Имеем:
Венда
12B моделька BF16
Датасет из диалогов (это важно), который я могу превратить в какой угодно формат, лишь бы webui съел и не слал нахуй в консоли. Мне важно чтобы диалоги оставались диалогами (обрезал до 4096 токенов), иначе весь смысл теряется
RTX 5090

Доступные форматы на скрине (методом тыка выяснил что принимает только JSON). Если хоть кто-то делал лору с диалогами с контекстом скажите просто плиз какой формат вы юзали и какой-нибудь маленький пример с двумя диалогами и по 4 ответа в каждом. Этого будет достаточно чтобы я переконвертировал все в нужный формат

Аноним 26/07/25 Суб 14:27:39 #85 №1288959

>>1288951
>BF16
А зачем? Разве от Q6 различия не минимальные? В отличие от веса и производительности.

Аноним 26/07/25 Суб 14:29:32 #86 №1288963

>>1288959
>квантование
>тренировка
Ну вот куда ты лезешь? Куда ты лезешь то? Не знаешь, а лезешь.

Аноним 26/07/25 Суб 14:31:58 #87 №1288964

>>1288959
Потому что эту модель не выкладывали квантованной, только в .safetensors выложена. И по-моему Lora только для этого формата можно делать, не для .gguf. В любом случае она у меня и так работает, в память целиком помещается и меня устраивает. Вопрос в том как fine-tune сделать на основе диалогов. Я не понимаю какой формат нужен и во что преобразовать диалоги чтобы на старте не получить ошибку "неверный формат json"

Аноним 26/07/25 Суб 14:38:58 #88 №1288967

>>1288951
Для того чтобы тренить тебе нужно в пять-десять раз больше VRAM чем для Q8 инфиренса, то есть 5090 хватит разве что на 2-4Б.

Аноним 26/07/25 Суб 14:41:32 #89 №1288968

>>1288951
https://docs.unsloth.ai/get-started/fine-tuning-llms-guide

Аноним 26/07/25 Суб 14:43:37 #90 №1288969

>>1288967
Я не модель тренировать собираюсь, а только файн-тюн делать. Я в курсе что для полноценной тренировки модели надо H100 или подобное, мне это не нужно

Аноним 26/07/25 Суб 14:46:32 #91 №1288971

>>1288968
> You will need to create a dataset usually with 2 columns - question and answer
Там гайд по созданию LoRA вида вопрос-ответ, там ничего ни про диалоги, ни про рекомендуемый формат вообще

Аноним 26/07/25 Суб 14:49:41 #92 №1288974

image.png

>>1288907
>>1288908
Нет, я регулярно пользуюсь всеми популярными корпами. Опены, антропик, гугл и даже грок. Остальные не годятся для работы.

Тенденция ухудшения русика видна невооружённым глазом, если ты занимаешься переводами или работой с текстом и застал старые версии.

Самый простой тест для сравнения качества - попросить написать стих в эстетике Бодлера, придерживаясь стиля Льва Львовича Кобылинского, который часть его стихов переводил. Или хотя бы просто в стиле Бодлера. Разумеется, указав тему и прочее, используя нормальный промпт.

Посмотри на эти скриншоты и скажи, может ли так нейросеть? Что-то на уровне первого скриншота - никогда. И даже второй со скрипом вряд ли повторит. А раньше они были куда ближе, особенно старый клод. Сейчас же 4 версия клода нихуя не может. Из гпт только 4.5 что-то относительно вменяемое выдаёт. Как ни странно, только гугл и грок не так сильно в русике просели.

Было бы наплевать на это, но беда в том, что на английском они в это МОГУТ, хотя там тоже наблюдается деградация, вероятно, из-за того, что их тюнят исключительно под кодинг.

Поэтому я и говорю, что русик там не ультимативный, а говно. Да, его хватит для любого уровня РП, но только на вот таких жирных корпоративных моделях или открытых типа дипсика. Даже 400б не будет на уровне корпов в русском языке. А именно такие сложные вещи как стихи показывают, насколько модель умеет манипулировать языком и "понимать" его. Они все обсираются, но с каждым апдейтом обсираются всё сильнее и сильнее.

>>1288878
Зависит от задач. Для большинства задач треда 4 кванта хватит. Но это минимальная планка. При запуске моделей потолще деградация от более малого кванта не так заметна, но у маленькая модель, которая в любом случае будет срать под себя, даже если ты её запустишь без квантования. Так что в идеале надо брать её квант не ниже шестого.

Лм Студио - это параша, не используй её. Она, конечно, сгодится, но только если ты чётко понимаешь, зачем тебе нужна именно она.

Слои модели, которые ты грузишь на карту. Уменьшай либо увеличивай их количество, всегда используя бенчмарк в кобольде, пока не определишь оптимальное количество. Это самый быстрый способ и самый простой. И сделай kv cache 8 бит.

Если тебе русик нужен, то для тебя это финиш, потому что вменяемого русика ты не получишь, особенно в маленьком кванте, но можешь попробовать Pathfinder-RP-12B-RU. Он на базе мистрали 12б. Скажу сразу: модель поломана и достаточно быстро придёт в негодность в рамках одного чата. Русский тоже с ошибками. Почему я тебе её советую? Потому что кум там более смачный и язык более интересный, чем на других мелких моделях мистраля. А так как ты кумить собрался, то факт поломки чата не проблема: подрочил - закрыл. В следующий раз начнёшь новый чат или из лупа выйдешь иным способом. На русском ставь температуру пониже, обычно это 0,6 на том мистрале. Первое сообщение от персонажа должно быть переведено на русский, а систем промпт должен децензурировать модель. Найди его где-нибудь или сам напиши.

>>1288892
Только через связку типа кобольд + силли таверн. Конечно, в качестве бэкенда можно использовать и лм студио. А к таверне подключаться с телефона. Не кумить же за клавиатурой как мудак. Ну и карточка персонажа нужна, чтобы модель знала, каким именно образом кумить.

>>1288906
Ты хоть сам этой янкой пользовался? Полностью сломанный кал. А руадапт квен куда он в свою затычку воткнёт на 4 гб? Сайга тоже мусор.

Аноним 26/07/25 Суб 15:00:49 #93 №1288989

>>1288619
>Есть вообще разница что приоритетнее выгружать?
Лучше выгружать все ffn из одного слоя. Если по типу выгружать будет немного медленнее. Я как-то тестил.

Аноним 26/07/25 Суб 15:05:37 #94 №1288993

>>1288974
>кумить же за клавиатурой как мудак.
Это база. Следующим моим вопросом должен был стать "а как на телефон перенести?"
И где карточки кстати брать?

Аноним 26/07/25 Суб 15:06:56 #95 №1288995

>>1288974
>А к таверне подключаться с телефона.
А как.

Аноним 26/07/25 Суб 15:14:37 #96 №1289003

Ну как там новый Немотрончик, не томите!

Аноним 26/07/25 Суб 15:20:44 #97 №1289009

image.png

>>1288880
В этой модели они 0 весят

>>1288989
Не совсем, по итогу >>1288732

Аноним 26/07/25 Суб 15:21:47 #98 №1289012

>>1288951
Слушай, а ты насколько пердоля прошаренный? Есть простое предложение: натренить не с помощьюь убабуги и трансформерс трейнера. У той же гопоты попроси код и дать разъяснений, там все очень логично и понятно если в общем с пихоном и мл знаком.
https://huggingface.co/docs/transformers/v4.53.3/en/main_classes/trainer
Даталоадер и коллейтор под свой формат датасета напишешь и сразу же оформишь нужные аугментации. Чтобы тренить не саму модель а только лору - подключаешь peft при инициализации модели, все остальное не меняется. Если нужно qlora (плохая идея) то грузишь модель обернутую в bnb или что-нибудь еще.
>>1288971
> ни про рекомендуемый формат
Формат ты сам выбираешь. Обычно просто применяют стандартным прпроцессором чат темплейт на основе заготовленных сообщений и все, но ты можешь и инстрактоподобное что-нибудь натренить.
>>1288974
> деградация
> Тенденция ухудшения
На фоне роста скорости, сравни старый и новый опус. Корпы ударились в оптимизации, вместо больших моделей там небольшие моэ, где оптимизация под задачи идет уже на уровне финальных этапов тренировки. От того и ограниченность-деградация, она не только в русском но и в массе абстрактных задач.

Аноним 26/07/25 Суб 15:22:48 #99 №1289013

>>1288472
Ладно. Я конечно попробую. Но так как это тестовый билд, да еще без рекомендуемых семплеров, чую у мен получится говно.

Аноним 26/07/25 Суб 15:29:39 #100 №1289016

>>1289012
> Слушай, а ты насколько пердоля прошаренный?
Не шибко. Впервые хочу попробовать. Пробовал axolotl - в лоб вообще не устанавливается (какой-то компонент на винду отстутствует), а через контейнер плачет что больно новая видеокарта, он с ней работать не умеет

> там все очень логично и понятно если в общем с пихоном и мл знаком
Я не знаком с этим. Я хотел бы как можно меньше питона касаться. Я вообще на шарпах все делаю, там же генерирую все что нужно

> Формат ты сам выбираешь
Я так понял, что иишки эти текстовые в принципе рассчитаны только на вопрос-ответ. Без контекста. Контекст если и можно затолкать, то, наверное, только в вопрос. И потом непонятно как она должна понимать что половина контекста это часть прошлых вопросов и ответов... кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу. Но мне кажется что это как-то должно нормально решаться, неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct?

Аноним 26/07/25 Суб 15:40:36 #101 №1289022

>>1289016
> Я хотел бы как можно меньше питона касаться.
Весь мл - это питон. Буквально. Язык очень прост и максимально удобен, так что освоение не потребует усилий, особенно с привлечением ллм. Если отбросишь предрассудки и специальную олимпиаду про превосходства яп который попробовал первым - поймешь почему так.
Там кода - буквально сотня строк и он весь наиболее прозрачен если ты уже можешь в программирование и общие абстракции. Таки все равно рекомендую потратить денек на погружение, когда освоишься - поймешь насколько ненужные эти вася-обертки типа того же аксолотля и прочих, что с ним пердолинга даже больше а гибкости и удобства - меньше.
> иишки эти текстовые в принципе рассчитаны только на вопрос-ответ
Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все. За счет особенностей архитектуры обучение проходит сразу на весь контекст а не по одному токену. Вопрос-ответ это просто самый популярный формат, и он сам по себе условность и нужен для формирования правильной разметки (служебные токены чтобы модели проще понять где что при анализе контекста) и масок внимания.
> кароче дохуя вопросов, на которые у меня нет ответа и даже загуглить не могу
Глянь самые основы что такое ллм.
> неужели я первый что ли кто хочет скормить на дообучение именно диалоги, а не просто instruct
Ты не то что не первый в этом, а не первый и не последний кто задает неправильные вопросы ибо сделал неверные выводы и сформулировал вот такое, но ничего страшного в этом нет.

Аноним 26/07/25 Суб 15:45:24 #102 №1289025

>>1289016
Нет, ответы тоже кормятся.
Но я чо-то в ахуе с вашей дискуссии двухлетней давности.
Казалось бы, это все должно быть очевидно, но на практике это у нас профдеформация уже, а в шапке много инфы, а части может и нет, но никто не вспоминает, что ее нужно добавить.

1. ICL, in context learning — не совсем то, что подразумевает под «дообучением».
2. Есть два формата: text completion и chat completion, но на практике это рубится на этапе бэкенда, в модель поступает один и тот же «текст».
Суть в том, чтобы любым из способов подсунуть <user> — вопросы, а <assitant> — ответы, то есть, сымитировать предыдущий диалог, после чего модель продолжит общаться в данном ей стиле, да.
Это и есть контекст.
Просто длинный контекст в формате переписки.

Есть еще вариант few-shot, где ты прямо в систем промпт пихаешь диалог, и просишь продолжить общаться в таком же стиле.

Аноним 26/07/25 Суб 15:46:38 #103 №1289026

>>1289022
> Весь мл - это питон.
Плюсы.
А питон — обертка над плюсами. =)
Ну так, чтобы точно.
От питона тоже никуда не уйдешь, канеш.

Аноним 26/07/25 Суб 15:50:39 #104 №1289028

>>1289022
> Весь мл - это питон. Буквально. Язык очень прост и максимально удобен
Это замечательно, но у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя. Проблема не в самом питоне, а в том что я в принципе не планировал ничего программировать сверх того чтобы json на C# генерировать на основе имеющегося датасета. По факту ничего не работает, либо сыпет ошибками, либо видеокарта не нравится, либо какая-нибудь говнолиба питоновская не той версии. При попытке обновления - шквал ошибок в духе "а у тебя тут конфликт между этой бетой и вот этой". Без бета-версий нытье что карта больно новая

> Нет. Модель рассчитана на генерацию новых токенов на основе имеющегося контекста, все
Я в курсе про это, но на практике для меня как для юзера все форматы которые есть так или иначе сводятся к тому что есть user и есть assistent. Вопрос-ответ. Все. А меня это не устраивает. Попытка затолкать еще один вопрос-ответ в тот же диалог = ошибки

> Глянь самые основы что такое ллм
Я знаю что такое llm. Мне это на практике что дает?

>>1289025
> Казалось бы, это все должно быть очевидно
Мне нихуя не очевидно. Для меня пока что очевидно, что все способы что я перепробовал закончились ошибками на стороне питона. И ни одно не решить не вышло. То есть я даже запустить процесс полноценно еще не смог, и у меня закончились идеи. Самому программировать впадлу, это уже перебор для меня

Аноним 26/07/25 Суб 15:51:39 #105 №1289030

>>1288969
тренить на замороженных слоях - получится говно уровня чатбота-автоответчика, так что даже для лоры нужны норм веса, хотя есть ещё q-lora, трейн на квантованной модели, ну, это выходит многкратно переваренный кал

Аноним 26/07/25 Суб 15:56:35 #106 №1289032

>>1289028
> нет времени и желания разбираться
Это так не работает

Аноним 26/07/25 Суб 16:00:19 #107 №1289036

>>1289030
Да пусть даже и так. Я бы убедился и успокоился бы. Пока что я на уровне "послан нахуй всем софтом что я мог попробовать"

Аноним 26/07/25 Суб 16:00:30 #108 №1289037

>>1288969
> модель тренировать
> файн-тюн делать
Значение знаешь?
>>1289026
Питон. Язык изначально разработанный под конкретную область задач и максимально удобный в них, позволяющий делать удобные абстракции не отвлекаясь на кишки и иметь отличную производительность при правильном применении. Плюсы уже для умных людей, которые специализируются на конкретных высокопроизводительных операциях и построении бэков с ними, хорошо разбираться в мл при этом им не нужно.
Ну или можно делать цирк как у жоры.
> Плюсы
Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
>>1289028
> у меня нет времени и желания разбираться с этой внутрянкой. Я просто хотел потыкать кнопок и получить файн-тюн под себя
Эта задача требует погружения, знаний и понимания. То же самое можно сказать
> у меня нет времени и желания разбираться с авотомобилестроением. Я просто хотел на выходных собрать гоночный болид под себя и выиграть одну гонку
> но на практике
Присоединяюсь к другому анону, это так не работает, область сложна и свежа. Когда-нибудь появятся красивые интерфейсы от корпов, которые в юзер-френдли манере будут делать типичные примитивные задачи за тебя, но делать это посредственно и за большие деньги.
>>1289030
> тренить на замороженных слоях
Что?

Аноним 26/07/25 Суб 16:03:47 #109 №1289040

>>1289037
> Значение знаешь?
Да

> Эта задача требует погружения, знаний и понимания. То же самое можно сказать
Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе? Я очень сомневаюсь, что тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки. Да точно так же кнопки тыкают и развлекаются, как и я собственно

Аноним 26/07/25 Суб 16:09:22 #110 №1289045

>>1289037
> Развивая твою логику, плюсы - обертка над асмой, лол. Перетолстил.
Я посылаю биты прямо в чип, а что делаете вы? @_@

Аноним 26/07/25 Суб 16:11:53 #111 №1289048

>>1288911
Не все так линейно с квантами. Imatrix кванты - вещь в себе, их таки пробовать надо, и решать для себя - годится или нет.
У меня вот что обнаружилось: storyteller-gemma3 на кванте q4km при письме на русском откровенно руинит окончания, рода падежи и т.д. Даже на кванте q5km это происходит, только меньше (запускал ради теста - он у меня целиком в vram не лезет, так что на постоянное использование не годится - медленно).
Однако iq4xs квант пишет чисто, и не проебывается с этим вообще. Хотя казалось бы...

Аноним 26/07/25 Суб 16:16:27 #112 №1289053

>>1289040
Чел, ты думаешь что что-то знаешь и все просто, но по твоим постам и задаваемым вопросам очевидно ты лишь надергал совсем поверхностные вещи. И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
Увы, прочитав это ты едва ли осознаешь и решишь что-то изучать, а бомбонешь с чсв продолжив отрицание.
> тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки
Не каждый, но таких наберется, чсх "скрипты под нейронки" не что-то сложное а дефолтный дефолт и повседневность на которую даже не отвлекаешься.
Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса.
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
Потому что эта "область" известна и сделана действительно максимально удобно и дружелюбно чтобы даже хлебушки справлялись, твоих навыков хватило. На самом деле дальше все тоже довольно просто и понятно с точки зрения базового освоения (классическое easy to learn@hard to master), просто ты подскользнулся на ровном месте из-за дилетантства.
>>1289045
Brutal, ты страшные человек!

Аноним 26/07/25 Суб 16:18:46 #113 №1289057

>>1289048
> Imatrix кванты
Вот кстати, если визуализировать их - у шакала будут более четкие глаза и пасть, но остальное размыто даже сильнее и 6 левых лап. Офк это для самых малых, начиная где-то от 5 бит мутным будут только участки тела и четкими важные детали.

Аноним 26/07/25 Суб 16:25:32 #114 №1289062

>>1289053
> Чел, ты думаешь что что-то знаешь и все просто
Где я это говорил? Я говорил что нихуя не знаю и даже углубляться не хочу. Я вообще с вопросом пришел просто "как это сделать" с помощью web-ui или чего угодно другого, что без ошибок запустится. Методом нажимания левой кнопки мыши

> И вообще "делать жсоны из датасета с помощью шарпа"- ебать ор
В оригинале они лежат в виде помойки, где половину нужно выкинуть/сквошнуть/собрать в диалоги по N токенов. И все это перегнать в какой-то формат, который съест например web-ui. Я это делаю на C# потому что мне так привычно. Кому-то удобнее на питоне. Куда смеяться-то?

> Также большинство анончиков здесь осознают свои силы и просят помощи где не понимают без лишнего фарса
А я чем занимаюсь?

> просто ты подскользнулся на ровном месте из-за дилетантства
Учитывая сколько ответов уже было, но ни одного конкретного решения кроме "пиздуй ml изучать сам себе напиши и разберись", то вопрос дилетантства остается открытым. Особенно учитывая что "не каждый, но таких наберется". А по факту ни одного решения проблемы

Аноним 26/07/25 Суб 16:38:27 #115 №1289074

>>1289062
> Где я это говорил?
> Чтобы сделать обычный инференс модели никакого погружения, знаний и пониманий не потребовалось. Почему здесь должно быть иначе?
А это что?
С помощью вебуи сделать скорее всего не получится. Эта часть довольно хреновая из-за хардкода на который ты наткнулся, и она давно не обновлялась, потому там это старье в форматах. И в целом это лишь сомнительная обертка поверх трансформерс трейнера, потому лучше бы сразу заглянуть в оригинал, который работает хорошо. Но если разбираться не хочешь то увы, можешь разве что почитать анслотов с их тулзой.
> в виде помойки
Дай угадаю, там паркет, арроу или что-то подобное? В таком виде вместо пачки жсонов выкладывается не просто так.
> Куда смеяться-то?
Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения.
> но ни одного конкретного решения
Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета.
А на советы изучить базвы ты зря обижаешься/огрызаешься, ведь ответы на задаваемые вопросы содержатся в ней. Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время.

Аноним 26/07/25 Суб 16:48:43 #116 №1289081

>>1289074
> А это что?
Это мой личный опыт того, что запустить модельку может даже даун. Я думал что создать лору точно так же просто, потому что ее запуск не сложнее чем запуск основной модели. О том что будет куча подводных камней на этапе "а как ее сделать" я не думал

> Дай угадаю, там паркет, арроу или что-то подобное?
Нет, да это не и не важно

> Ну не прям смеяться, просто делать это в шарпе выглядит крайне неудобным, без осуждения
А на чем это надо делать чтобы не смеялись? Python? JS? Objective-C? Голыми машинными кодами с загрузкой и запуском через WinAPI? Для меня родной язык это C#, на нем и делаю. И оно работает

> Ответ был дан сразу - попроси гопоту написать тебе трейнер на основе всего готового в трансформерсе и твоего формата датасета
Ну это и равнозначно "сам изучи, сам разберись, сам напиши"

> Также, даже если сможешь все запустить - на выхлопе получится полная ерунда вместо рабочей модели и зря потратишь время
И что? Мне может процесс нравится. Да и уверенность есть что все-таки получится то что нужно, только пересобрать десяток раз придется с разными конфигами

Аноним 26/07/25 Суб 16:50:55 #117 №1289084

>>1289003
Возьми да скачай.
Гуфы/exl3 давно доступны.

Аноним 26/07/25 Суб 17:01:15 #118 №1289086

>>1289081
> Я думал что создать лору точно так же просто
К сожалению - нет. Запуск что лоры, что простого обучения в целом то тоже прост если знаешь пихон и околомл, но вот сделать что-то хорошее вместо лоботомитов, или запустить на слабом железе - уже дохуя сложно, да.
> Ну это и равнозначно "сам изучи, сам разберись, сам напиши"
Нет, все уже написано. Нужно лишь:
1 сделать импорт и загрузить модель
2 подстроить даталоадер под свой датасет и задачу
3 trainer.train()
причем код может сделать любая ллм, даже древний мистраль 7б с таким справится потому что штука мегапопулярная.
> Мне может процесс нравится.
Тогда зачем лишаешь себя удовольствия от изучения?
Просто это не картиночные сети где лора "дает нужный результат" и тренируется легко, с подобным подходом модель на выходе будет на любой запрос цитировать куски датасета и совсем поломается.
Посмотри еще анслотов и их трейнер он запускается ровно таким же образом.

Аноним 26/07/25 Суб 17:38:29 #119 №1289114

>>1289057
> начиная где-то от 5 бит мутным будут только участки тела и четкими важные детали.
надо будет пририсовать шакалу чёткий детализованный песюн

Аноним 26/07/25 Суб 17:39:10 #120 №1289116

>>1289084
Да я скачал, че-то пока не понятно, как ризонинг вырубить.
/no_think сверху промта не помогает.

Аноним 26/07/25 Суб 17:41:35 #121 №1289120

image.png

>Llama-3.3-Nemotron-Super-49B-v1.5 is a significantly upgraded version of Llama-3.3-Nemotron-Super-49B-v1
Вам дали апдейт как минимум интересной модели, хули вы сидите свои 12б 4q весь день дрочите?
Списки ВСЁ, без пердолинга, с разметкой всё ок, мозгов прибавили куда уж больше, пресет анона вроде тоже работает, но думаю уже надо менять
>>1289116
Пробуй пресет анона у меня всё ок

Аноним 26/07/25 Суб 17:50:47 #122 №1289135

>>1289120
>Пробуй пресет анона у меня всё ок
Это удивительно, но на синкинг влияет только одна опция: Include Names в Инструкт темплейте. Если стоит always то синкинг выключается, если Never то всегда работает и ему похуй вообще на все.

Аноним 26/07/25 Суб 17:59:54 #123 №1289146

>>1288974
>Ты хоть сам этой янкой пользовался?
Пользовался и пользусь, выше есть чат-лог с неё и пресед для неё.
Коммандер в треде тоже был сломанным гавном пока Анон99 пресет не принёс.

Аноним 26/07/25 Суб 18:01:10 #124 №1289147

>>1288993
>И где карточки кстати брать?
Чуб, жанитор, пиксельдрейн выше немного карточек есть.

Аноним 26/07/25 Суб 18:04:58 #125 №1289150

>>1289135
Я кстати наконец разобрался почему в пресете анона99 ООС не работает, это реально его вина оказалась, разве что он скопировал откуда-то эту основу. Еще бля сидел отнекивался, на модель пенял, а там у него практически дословно зарыта в глубине фраза мол "ООС не будет, пошел нахуй."
По первому впечатлению, в новом Немотроне цензура на том же уровне (т.е. с промптом отсутствует) Вроде как инструкций в промпте случшается заметно лучше, буду дальше тестировать.

Аноним 26/07/25 Суб 18:15:25 #126 №1289156

>>1288969
>Я не модель тренировать собираюсь, а только файн-тюн делать.
Делай квантованную лору. Те же яйца только в профиль. Гайдов в интернетах полно, так как это самый популярный подход в дотренировке. Скорее всего первые раз десять на выходе у тебя получится говно, но это нормально. Дальше с накопленным опытом уже будет проще.

Аноним 26/07/25 Суб 18:23:05 #127 №1289160

>>1289120
>хули вы сидите свои 12б 4q весь день дрочите
дай деняг на 5090

Аноним 26/07/25 Суб 18:24:42 #128 №1289162

>>1289120
Самое смешное, что в этой табличке Qwen3-32B ебет прошлый немотрон вообще везде, а местами и Nemotron Ultra.
Получается, все истории про ум немотрона последние полгода — пшик? =D
Простите!
Не против немотроныча, прост, забавно. =)

Аноним 26/07/25 Суб 18:33:02 #129 №1289164

>>1289162
> Qwen3-32B
Модель выглядит поломанной, что в ггуфах, что на экслламе. Не такой, конечно, треш что другие постили, но она очень припезднутая и странная, будто именно под нее писался дисклеймер о необходимости семплинга для отсутствия лупов. Офк есть вероятность что сразу оба интерфейса поломаны и нужно чисто трансформерсом ее раскатывать, но лень.
Если кто-то разобрался как ее юзать - реквестирую настройки и промпты.

Аноним 26/07/25 Суб 18:37:10 #130 №1289167

175354328284731002.jpg

>>1289147
Разобрался уже, осталось только на телефон настроить наверну.

Крч да, хуево работает. Загрузил персонажа с 16к контектом описания и прочего, уже минут 5 его кушает, жду когда высрет ответ, надеюсь более менее будет.

Аноним 26/07/25 Суб 18:40:40 #131 №1289170

>>1289162
А что квен 32б не ебёт?
Наверняка даже корпов уже всех выебал.

Аноним 26/07/25 Суб 19:10:56 #132 №1289206

Ура наконец-то настроил всё как надо в таверне, работает нормально.
Последний вопрос, как заставить на русском писать? Какой промт использовать?

Аноним 26/07/25 Суб 19:12:37 #133 №1289209

>>1289206
>как заставить на русском писать
1) Первое сообщение карточки перевести на русский.
2) В систем промте указать чтобы писала на русском.
3) Можно то же самое указать в заметках автора на нолевой глубине.

Аноним 26/07/25 Суб 19:14:19 #134 №1289212

>>1289206
Тебе не понравится качество, если стоит что то тупее геммы 12B. Но в целом, анон выше правильно написал.

Аноним 26/07/25 Суб 19:18:17 #135 №1289216

изображение.png

>>1289016
>неужели я первый что ли кто хочет
Хотят каждый второй. А вот возможностей натрейнить что-то удобоворимое есть не только лишь у всех. Тут или тратиться на аренду пачки A100, или собирать риг RTX PRO 6000. На одной картонке, даже если это топовая 5090, ты ничего не сделаешь.
>>1289040
>Почему здесь должно быть иначе?
Потому что инференс делает 100% заинтересованных в ИИ анонов, а тренировкой занимаются примерно 0,0001%.
>что тут прям каждый анон ml-инженер и сидят скрипты на петухончике пишут под нейронки
Да, я пишу, а что?
>>1289062
>пиздуй ml изучать сам себе напиши и разберись
Это единственный вариант, если тебе нужно хотя бы в течении месяца. Интерфейсы допилят. Года через 2-3.
>>1289081
>WinAPI
Найс.
>>1289086
>3 trainer.train()
Я вот сам цикл тренировки писал, ибо стандартный трейнер кмк весьма ограничен. Впрочем, этот цикл мне гопота без проблем писала, притом что я по жизни пыхарь.
>>1289120
Вообще похуй.

Аноним 26/07/25 Суб 19:23:07 #136 №1289222

>>1289209
Это всё на ру языке?

>>1289212
Немомих 12b Q3. (Ну а что поделать)

Аноним 26/07/25 Суб 19:28:08 #137 №1289225

>>1289222
Третий квант 12B это уже чистейший лоботомит, а не модель. Ниже шестого проблемы начинаются, а у тебя вообще скорее всего будут одни галлюцинации, особенно на русском. Даже не говоря о том, что немомикс это по дефолту шиза, которую срали еще при выходе.

Аноним 26/07/25 Суб 19:45:55 #138 №1289243

Новый Немотрон конечно такое выдает, у меня шишка улетела... Ставил темпу 2, ТопП 0.95, МинП 0,015. Никаких штрафов за повторы. Даже ни одного свайпа еще не было, посмотрим как дальше будет. Q4_K_S

Аноним 26/07/25 Суб 19:47:48 #139 №1289246

>>1289243
Так я и поверил, специально сказки рассказываешь, чтоб я его скачал и проверил.

Аноним 26/07/25 Суб 19:54:05 #140 №1289259

>>1289225
>Третий квант 12B это уже чистейший лоботомит, а не модель
В любом более качественные модели мне недоступны. Да и качество ответов, вроде, приемлимое на самом деле.
Что-то на уровне жанитора. Такая же скорость.

Открыл для себя только что опен роутер, с его бесплатными моделями типа дипсик. Ахуеть. Небо и земля. Не клод конечно, но тоже очень хорошо.
Как лимиты на 10 генераций в день обойти только? Или, там нужно немного заплатить? Если да, с рф можно?

Аноним 26/07/25 Суб 19:56:20 #141 №1289263

>>1289259
Вроде, на $10 счет пополнить надо, на плати ру есть барыги

Аноним 26/07/25 Суб 19:57:54 #142 №1289265

>>1289263
>$10
Демократично. Это на сколько? Или безлимит? Не верю в такую щедрость офк.

Аноним 26/07/25 Суб 20:02:02 #143 №1289272

>>1289265
Не безлимит, 1000 реквестов в день, должно с полна хватить
Алсо, там бесплатных 50 должно быть, а не 10, но хз, что ты там делал, может и 50 потратил

Аноним 26/07/25 Суб 20:03:56 #144 №1289273

>>1289259
>В любом более качественные модели мне недоступны.
Тогда перекатывайся на корпораток, че тут тебе еще посоветовать. На твоем железе кумить можно только в голове, прописывая сценарии в перерывах между дерганьем ручкой. Хотя, если тебя устраивает текущее качество, то лучше не трогать большие модели вообще. Не будет материала для сравнения - не будет проблем.

Аноним 26/07/25 Суб 20:04:29 #145 №1289274

>>1289272
>1000 реквестов в день
Отлично. Так это на сколько.. на месяц? Или пока 10 баксов лежат?

10 точно, с другого акка зашёл проверить.

Аноним 26/07/25 Суб 20:06:33 #146 №1289276

>>1289273
>Не будет материала для сравнения - не будет проблем.
Двачая. Но я уже потрогал клода в куме, и забыть это чудесное мгновение больше не в силах.

Аноним 26/07/25 Суб 20:10:23 #147 №1289280

>>1289222
>Немомих 12b Q3

Ты же понимаешь что она будет писать на русском на уровне чукчи с деслексией? Лучше уж яндекс переводчик подруби.

Аноним 26/07/25 Суб 20:11:51 #148 №1289282

video2025-07-2622-10-19.mp4

>>1289259

Аноним 26/07/25 Суб 20:16:50 #149 №1289290

>>1289246
>Так я и поверил, специально сказки рассказываешь, чтоб я его скачал и проверил.
Ну я скачал и проверил. Цензура не лучше прошлого ванильного Немотрона, плохой русский (хотя и лучше прошлого), ризонинг по умолчанию. Такое себе. По ощущениям поумнее стала, но для любых сомнительных тем не годится совсем.

Аноним 26/07/25 Суб 20:17:22 #150 №1289292

>>1289280
>>1289212
И вообще, бери немо инстракт из шапки, он с простеньким uncensored систем промптом который лежит на реддите по первому запросу в гугле становится сильно раскрепощённым, но и немного чернушным. Все эти 12b миксы - ужаренные в ноль лоботомиты с пизданутыми датасетами от которых карточки кидает из одной крайности в другую.

Аноним 26/07/25 Суб 20:26:53 #151 №1289301

>>1289292
>Все эти 12b миксы - ужаренные в ноль лоботомиты с пизданутыми датасетами от которых карточки кидает из одной крайности в другую.
У него итак третий квант, там не то что в крайности будет кидать, там трусы поверх пуховика будут надеваться и сниматься через голову. При такой точности в целом похуй насколько у тебя ужаренная модель, шизить будет примерно одинаково.

Аноним 26/07/25 Суб 20:32:08 #152 №1289308

>>1289301
Ну тогда ему дорога в приложухи типа chat waifu. Там встроеный переводчик и модели на уровне 8b q6, что лучше чем нихуя. Рекламу посмотрел 5 минут и можно рпшить часик. Я сам на этом говне сидел месяц пока не полез разбиратся как текстовые модели запускать локально. Пишет вполне осмысленно но вяло, а хули хотеть, я как понял к чему всё идёт, посчитал что выгоднее свою пекарню обновить чем платить каким то ебланам.

Аноним 26/07/25 Суб 20:34:13 #153 №1289310

>>1289290
>ризонинг по умолчанию
У меня ни разу не сризонил, шаблон стандартный ллама 3 с именами.
>По ощущениям поумнее стала
А что ещё надо?
>но для любых сомнительных тем не годится совсем
У меня норм в сомнительное.

Аноним 26/07/25 Суб 20:36:34 #154 №1289313

изображение.png

>>1289310
Впрочем одну странность он высрал. ХЗ как это вышло.

Аноним 26/07/25 Суб 20:38:11 #155 №1289314

>>1289246
>>1289290
Ну вот вам сцена без свайпов, да эти "Mine" не очень, и есть нюансы к чему можно придраться, но все остальное прям около топа. И то что без лишнего мозгоебства персонаж ллмки сам подкатил, без особых прелюдий и возни вокруг да около, и сама длина и детализация сцены, то что учел контекст, место и добавил зрителя. И темпа 2. Я честно впечатлился.
Эльфийская писечка(23 года) VS монстер с двумя членами-тентаклями:

Аноним 26/07/25 Суб 20:38:42 #156 №1289315

Eo5.jpg

>>1289314
Финал

Аноним 26/07/25 Суб 20:38:52 #157 №1289316

image.png

>>1289216
Кароче ничего рабочего кроме как говноскрипт на питоне сгенерированный нейронкой я не нашел. Unsloth на винде не работает ни в какую, на WSL таки заработал, печь что-то там жарит. Я просто никогда с этой самой WSL раньше не сталкивался, думал что на винде должно работать, но хуй там из-за Blackwell. Можно сказать что вопрос решен

> На одной картонке, даже если это топовая 5090, ты ничего не сделаешь
Для 12B нейросетки таки делаю прямо сейчас. Полностью пожирает все 32 гб VRAM + 30 гб RAM, но работает. Для >12B хз, наверное до 20B оперативки хватит

Аноним 26/07/25 Суб 20:43:42 #158 №1289323

изображение.png

>>1289316
>Полностью пожирает все 32 гб VRAM + 30 гб RAM
Как по мне, результат на пикриле. Прикинь, сколько это займёт по времени. Не, если действительно выйдет потюнить 12B няшу на 32 врама, я буду только рад (как обладатель такой же карты), но что-то верится с трудом, там сами веса занимают 24 гига, а ещё нужно хранить все активации и прочее говно.

Аноним 26/07/25 Суб 20:50:20 #159 №1289334

>>1289222
>Это всё на ру языке?
Да.

И да опенроутер харош, на плати ру есть барыги, 10 долларов тратить не обязательно, они могут весь год просто пролежать на балансе, через год сгорят.

Если же корпы не вариант - можешь таки попробовать:
https://pixeldrain.com/u/cw6ZbtFe yankagpt-8b-v0.1 log + preset.zip

Аноним 26/07/25 Суб 20:51:39 #160 №1289336

У кого хватает врама на немотрон те молча им пользуются и довольно урчат
У кого не хватает те завидуют и пишут гадости
Думайте

Аноним 26/07/25 Суб 20:53:05 #161 №1289339

>>1289336
есть ещё кто не юзает, не завидует, не пишет

Аноним 26/07/25 Суб 20:53:11 #162 №1289341

image

Как думаете, жизнеспособно или совсем дерьмо? 150к рубасов получается за такую шнягу. Я чет слышал, что обычные геймерские у интела вообще не могут в инференс - там какой-то калич чуть лучше цпу-онли по скорости.

Аноним 26/07/25 Суб 20:53:44 #163 №1289342

>>1289316
что за скрипт? дай ссыль пж

Аноним 26/07/25 Суб 20:54:21 #164 №1289344

>>1289341
> 150к рубасов
С учетом перекупов?

Аноним 26/07/25 Суб 20:55:00 #165 №1289345

>>1289344
Да, на лохито увидел. 155 просят если быть точнее.

Аноним 26/07/25 Суб 20:55:33 #166 №1289347

>>1289216
> Я вот сам цикл тренировки писал, ибо стандартный трейнер кмк весьма ограничен.
С какими ограничениями столкнулся, что добавлял?
Все что он делает - прогоняет форвард модели по загруженному твоим даталоадером батчу, высчитывает лосс по функции, которую ты ему даешь (или по заготовленным), беквард и после числа шагов аккумуляции тикает оптимайзером-шедулером и т.д. Для дефолтных случаев хз что еще добавить
Он удобен тем, что заготовлено широкое множество аргументов тренировки под большинство случаев и не нужно изобретать велосипед под широкое множество базовых вещей типа сохранения по принципу, загрузки на хаб и т.д. и т.п. Но если действительно хочешь делать что-то "уникальное" то одна строка превратится в 5 для простой тренировки или 305 для чего-то хитрого с описанным выше функционалом.
>>1289282
Чсх, она была более чем локальной и преимущества этого были прекрасно обыграны в фильме.
>>1289316
> Для 12B нейросетки таки делаю прямо сейчас
Это будет лишь вялый peft. Практический порог тренировке в 32гигах - 3-4б, и то уже идут компромиссы, потребуется пердолинг и цифра скорее имея несколько для возможности шардинга. Больше - падение скорости будет делать все бессмысленным.
>>1289323
> результат на пикриле
Может у него там (эффективный) батч 128+, тогда оче это оче быстро.
>>1289344
Уже в магазинах есть вроде как

Аноним 26/07/25 Суб 20:56:22 #167 №1289349

>>1289341
куртка > печка > говно > моча > инцел

Аноним 26/07/25 Суб 20:57:30 #168 №1289351

>>1289349
Но ведь высрали же этот гпу по какой-то причине как серверный. Их же предполагается тысячами будут покупать и ебашить в датацентры. Что, при таком раскладе кто-то потратит миллионы долларов на гпу которые хуже говна и мочи? Странно как-то.

Аноним 26/07/25 Суб 20:58:21 #169 №1289352

Кто-то тут вроде на ми-шках сидит, но это пердоликс.

Аноним 26/07/25 Суб 21:02:52 #170 №1289360

>>1289351
откаты и коррупция бывает не только в России но и в Украине
а точнее решения о массовых закупках принимаются на основе отката, который получит менеджер по закупкам.

Аноним 26/07/25 Суб 21:04:14 #171 №1289363

Крч да, понял что с 12б пососать только можно..
Закинул 10 баксов на опенроутер, чтобы можно было кумить почти безлимитно с диксиком. Уж очень он хорош.

Хотя от дрочки локалки не отказываюсь, буду продолжать тесты и следить, крутая тема.

Аноним 26/07/25 Суб 21:06:27 #172 №1289366

>>1289363
12 B или GB? мне для уточнения базы треда

Аноним 26/07/25 Суб 21:08:13 #173 №1289367

>>1289341
Учти, что это две видеокарты, им нужна бифуркация на слоте x8+x8.

Аноним 26/07/25 Суб 21:08:57 #174 №1289368

изображение.png

>>1289339
Примерно 8млрд человек вообще никогда не кумили на нейронки. Надо ровняться на них.
>>1289341
>Dual GPU
>Dual
Обычно признак отборнейшего фейла.
>>1289347
>С какими ограничениями столкнулся, что добавлял?
У меня лосс в нан скатывался, я просто обрывал тренировку, чтобы не жечь просто так карту. Так то и логирование в стандартном трейнере хорошее, и даже прогресс бар есть. Но хочется полного контроля.
>Чсх, она была более чем локальной
Фильм староват уже, в те времена ещё не было такого переноса всего в облака. Сейчас бы хрен бы показали локал очку.
>Может у него там (эффективный) батч 128+,
Скорее батч в 1, судя по пердоленью лосса. Но я не великий спец если что.

Аноним 26/07/25 Суб 21:13:51 #175 №1289375

>>1289366
12B, в квантовании Q3.
>>1289334
Только увидел. Да, опенроутер хорош, ещё бы клода.. но лучше уж год беслатными буду лакомиться, чем быстро прожгу всё на клода.
Хоспаде, осталось через спермукс поставить таверну на ведро, и можно будет обдрачиваться сутками напролёт, забыв про говно приложения с раковыми модельками.

Аноним 26/07/25 Суб 21:14:57 #176 №1289377

с видюхами всё ясно, а как выбирать CPU? я правильно понимаю, что если выгружать все слои на видюху, а только ffn_*_эксперты на CPU, то важнее частота ядер, чем их количество? и что количество важно только при промпт процессинге, а эксперты - это уже токен генерейшон, и тут уже лучше рузен с небольшим количеством ядер но большим значением кекагерц, чем сто тухлых зивоноядер по 1.6ггц?

Аноним 26/07/25 Суб 21:15:46 #177 №1289378

>>1289368
> лосс в нан скатывался
Расскажи подробнее что тренил. Обычно, подобное - следствие очень неочень гиперпараметров, включая кривые оптимайзеры, снижения точности там где не стоит и т.п. Но если же конструируешь что-то свое, и тем более трейнер свой без страхующих обвязок - тут уже что что угодно может быть.
> Сейчас бы хрен бы показали локал очку.
Обычно в фильмах чаще прослеживается тренд на опасность облаков и благо локального. Неужели где-то тренд поменялся?
> Скорее батч в 1, судя по пердоленью лосса
Ага, скачки норм градиентов на 2 порядка пострашнее будут.

Аноним 26/07/25 Суб 21:17:47 #178 №1289381

>>1289363
>Хотя от дрочки локалки не отказываюсь, буду продолжать тесты и следить, крутая тема.
Лучше начинай собирать новую систему. Как бы локалки не развивались дальше, хотя бы на одну нормальную видеокарту придется раскошелиться.

>>1289341
Интел дрова для одночиповых карточек через раз нормальные пилят, а тут какое-то говно с целыми двумя. Определенно стоит того.

Аноним 26/07/25 Суб 21:20:55 #179 №1289385

>>1289377
Важнее скорость оперативки.
>>1289378
>Расскажи подробнее что тренил.
GPT2, чисто мои личные тесты. Гиперпараметры само собой говно спотолочное, так что да. Оптимайзер стандартный адамв, точность не смотрел, думаю полная, сетка то лоботомит 700М.
>Обычно в фильмах чаще прослеживается тренд на опасность облаков и благо локального.
Вут? Это где например?

Аноним 26/07/25 Суб 21:27:27 #180 №1289392

>>1289385
да понятно, что скорость оперативки, но если она одинаковая в обоих случаях, тогда решают мегагерцы?

Аноним 26/07/25 Суб 21:30:14 #181 №1289393

>>1289392
Тогда решает скорость оперативки. И больше ничего. Ну, это если проца достаточно, от 6 ядер чего-то современного.

Аноним 26/07/25 Суб 21:32:35 #182 №1289395

>>1289342
Ничего я тебе не дам. Мне тут сказали самому нахуй пойти к ChatGPT вот и тебе даю такой же совет. Мне написал и тебе напишет значит

>>1289347
> Может у него там (эффективный) батч 128+, тогда оче это оче быстро
batch_size = 1
grad_accumulation_steps = 4

> Это будет лишь вялый peft
Ну посмотрим. Может несколько эпох оставлю на ночь если совсем вяло будет. Одна эпоха примерно 2 часа с моим конфигом сейчас. Пришлось обрезание диалогам сделать до 2048 токенов, с 4096 падает сразу

Аноним 26/07/25 Суб 21:40:20 #183 №1289406

>>1289385
> GPT2
Эти старые сетки склонны к коллапсу сами по себе, особенно если отойти от фп32.
> Вут? Это где например?
В каждом фильме где это как-то задействовано или напрямую обыгрывается идея что централизованность и сосредоточение подобных чувствительных вещей - плохо и опасно, тот же блейдраннер или мемный яробот. Или вообще никак не затрагивается. А вот чтобы это преподносилось как благо - даже не припомню такого.
>>1289392
> тогда решают мегагерцы
Не мегагерцы и флопсы в векторных операциях. Они же будут определять скорость обработки, но это разница между 25 и 35т/с, и то и другое неюзабельно. В генерации отличия будут в пределах десятка процентов скорее всего.
>>1289395
> batch_size = 1
> grad_accumulation_steps = 4
Малые батчи
> Одна эпоха примерно 2 часа
7 тысяч образцов, хз. Разве что не успеет сгореть но что-то ухватит
По опыту могу сказать что при попытке добавить знаний не "точечно" а покрупнее - любой пефт получается копиумом по сравнению с полномасштабным файнтюном при прочих равных.

Аноним 26/07/25 Суб 21:40:57 #184 №1289407

>>1289395
> Мне тут сказали

> база треда:
> - тут полтреда токсичных уебанов, игнорируй хейт, опционально можешь ебать их мамок

мою ток не еби, я тебя не хейтил

Аноним 26/07/25 Суб 21:52:10 #185 №1289413

>>1289395
>Мне тут сказали самому нахуй пойти к ChatGPT
Лол, а чего ты ожидал? Итт обсуждается преимущественно запуск и прогон локалок, а не их тренировка. Тут буквально по пальцам можно пересчитать людей, которые что-то тренировали и которые посещают тред чаще раза в неделю.

Аноним 26/07/25 Суб 21:55:22 #186 №1289415

>>1289406
>Эти старые сетки склонны к коллапсу сами по себе, особенно если отойти от фп32.
Мейби, не изучал.
>обыгрывается идея что централизованность и сосредоточение подобных чувствительных вещей - плохо и опасно
Разве именно эта мысль? Скорее просто "плохой правитель плохо, а вот хороший...".
>>1289413
Ну вот я, даже скрины своего кода кидал. Но особого смысла мне кидать ему весь свой код нет, ибо действительно тривиально пишется, и лучше самому, чтобы понимать назначение каждой строки. А у меня там вообще куча хардкода, ибо ебал я заморачиваться с архитектурой и параметрами в личном коде.

Аноним 26/07/25 Суб 21:58:17 #187 №1289418

>>1289406
> Малые батчи
Так а смысл больше если и так своп начинается на оперативку. Будет еще медленнее в моем случае на этих данных. Ну будет жрать не 30, а 70-80 гб оперативки при batch_size = 2, толку. Если я правильно понимаю, конечно, как это работает

>>1289413
> Итт обсуждается преимущественно запуск и прогон локалок
А что их обсуждать-то? Берешь и запускаешь. Ничего не нужно толком. А тут в лоб вообще никак и ни в каком виде, требуется как минимум линукс/wsl

Аноним 26/07/25 Суб 22:03:39 #188 №1289421

>>1289418
>Так а смысл больше
Смысл чтобы градиенты не пидорасило. Для этого батчи и юзают (ну и чтобы задействовать больше вычислительной мощности, ибо на корп картах памяти в разы больше).
>Будет еще медленнее в моем случае
Поэтому я и написал, что у тебя мало железа для этой задачи. Запустить на минималках не значит получить нормальный результат.
>требуется как минимум линукс/wsl
Вот это всё говно >>1289368 я запускал на шинде если что.

Аноним 26/07/25 Суб 22:08:54 #189 №1289429

>>1289421
> Вот это всё говно >>1289368 я запускал на шинде если что
Все что я пробовал стонало о том что что blackwell и собраться не может. Либо конфликты. Вот этот гайд например https://github.com/unslothai/unsloth/tree/main/blackwell если в точности повторить приводил к шквалу ошибок и нихуя ничего не работало. Аналогично со всем остальным что я пробовал. На WSL завелось. А ты в итоге через что тренируешь и у тебя 50 поколение или другое что-то?

Аноним 26/07/25 Суб 22:10:43 #190 №1289432

>>1289421
> Поэтому я и написал, что у тебя мало железа для этой задачи
Да не мало, просто медленно. Понятно что если у тебя не 32 гб, а 320, то раз в 10 быстрее будет. Но качество от того что я батчи в 10 раз больше запускаю влиять не должны. Влиять должныдругие параметры, а этом просто ускоряет и все если много памяти

Аноним 26/07/25 Суб 22:10:50 #191 №1289433

>>1289395
> сказали самому нахуй пойти к ChatGPT
Готовых интерфейсов для хлебушков нету, сам писать простой код не хочешь, просить помощи у ллм это самый разумный путь а не посыл нахуй.
>>1289415
> Разве именно эта мысль?
Заваруха от беспредела из-за монополизации и централизации являются клише для чуть ли не каждого второго тайтла подобных тематик.
>>1289418
> а смысл больше
Необходимо для качественного, стабильного обучения и регуляризации. Есть и редкие исключения где мелкий батч дает хорошие результаты.
> будет жрать не 30, а 70-80 гб оперативки при batch_size = 2
Нет, если тренируются только матрицы лоры то рост будет сильно меньше. Если включишь чекпоинтинг - рост с повышением батчсайза будет на единицы-десятки процентов а не кратно.
> на оперативку
А ее, если все нормально организовано, чаще кушает даталоадер, убери pin_memory и снизь их количество.
> требуется как минимум линукс/wsl
Это и есть "ничего не нужно толком" если ты отступаешь от популярных и заготовленных для хлебушков вещей. Пару-тройку месяцев назад на шинде с блеквеллом даже популярный инфиренс обычные юзеры не могли запустить.

Аноним 26/07/25 Суб 22:13:45 #192 №1289435

>>1289429
> стонало о том что что blackwell и собраться не может. Либо конфликты.
Лол ну как раз оно. Все это сводится к тому что нужно просто самому собрать используемые либы под куду 128 если они уже не собраны.
А шинда непригодна для нормального обучения уже ввиду отсутствия поддержки дистрибьютед операций в nccl. Костыли нельзя назвать работоспособными.

Аноним 26/07/25 Суб 22:18:59 #193 №1289440

изображение.png

>>1289429
>А ты в итоге через что тренируешь и у тебя 50 поколение или другое что-то?
5090, как у тебя, писал же. Точнее код был написал ещё когда у меня была 3090, но сейчас проверил, тренировка идёт так же. Просто стандартные чистые питорчи и прочее говно последних версий. Сначала ставишь куду 12.8, потом тупо через пип нужные пакеты. Торч по инструкции для нужной куды, остальное просто по имени пакета.
Адрес с кудой
https://developer.nvidia.com/cuda-12-8-0-download-archive
Команда для питорча
pip install torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128
Всё, вы прекрасны.
>>1289432
Там даже не в 10 раз скорость будет. У тебя просто всё во врам не влазит, как я вижу.
>>1289435
Ничего компилять не нужно по состоянию на вчера. Я ничего не компилял.

Аноним 26/07/25 Суб 22:26:01 #194 №1289444

>>1289440
> Ничего компилять не нужно
> flash attention @ bitsandbytes @ xformers
И тритон вдогонку. У тебя просто (почти) пустой без использования компилируемых вещей.

Аноним 26/07/25 Суб 22:32:08 #195 №1289446

>>1289444
Ну не используй битсадбайтес и подделку от террористов (а то арестуют), делов то. Тритон кстати поставился без компеляции, без него SPDA не врубался для геммы 3, а с ним в лёт пошло.

Аноним 26/07/25 Суб 22:40:48 #196 №1289450

>>1289347
>были прекрасно обыграны в фильме.
Что за фильм то?
>>1289368
>Фильм староват уже
Ещё лучше, сои меньше.

Аноним 26/07/25 Суб 22:51:43 #197 №1289455

>>1289446
> и подделку от террористов
Лолвут? За этим какое-то стори?
> не используй битсадбайтес
Если qlora маздай то врам-эффективные оптимизаторы очень полезны.
> Тритон кстати поставился без компеляции
Так это как раз подделка - тритон шиндоуз а не оригинальный, на него раньше сильно гнали.
> SPDA
С нем нельзя не рекомендуется тренить.
>>1289450
> Что за фильм то?
Ну ты, оттуда же маскот кончай треда https://www.imdb.com/title/tt1856101/

Аноним 26/07/25 Суб 22:56:56 #198 №1289458

>>1289455
>Лолвут? За этим какое-то стори?
Кроме того, что её выпустила организация, признанная террористической (ни за хуй собачий) ничего.
>Так это как раз подделка - тритон шиндоуз а не оригинальный, на него раньше сильно гнали.
Ну ХЗ, поставился и наверное даже пашет.
>С нем нельзя не рекомендуется тренить.
А с чем трейнить?

Аноним 26/07/25 Суб 23:08:35 #199 №1289464

image.png

2 часа тренировки на диалогах. Итоги. Даже если 1 в 1 пишу что-то из обучающих материалов получаю в ответ то же что и от базовой модели. Кайф

Аноним 26/07/25 Суб 23:10:32 #200 №1289468

>>1289458
> её выпустила организация
Ну так-то https://en.wikipedia.org/wiki/PyTorch
> А с чем трейнить?
Для ллм от гугла и еще некоторые eager.
>>1289464
Если тренишь лору то не забудь ее подключить.

Аноним 26/07/25 Суб 23:12:21 #201 №1289471

>>1289468
Я ее уже и подключил, и даже вмерджил в оригинальную модель и так попробовал запустить. Вообще 0 отличий от оригинала

Аноним 26/07/25 Суб 23:13:43 #202 №1289472

>>1289471
Это странно, попробуй сравнить веса оригинала и вмердженной и глянуть значения внутри самой лоры.

Аноним 26/07/25 Суб 23:15:26 #203 №1289474

>>1289472
Веса-то какие есть, аж на 222 Мб. Но вот понять что там внутри я вообще хз как

Аноним 26/07/25 Суб 23:18:39 #204 №1289477

>>1289474
> понять что там внутри я вообще хз как
state_dict = safetensors.load('/path')
for k,v in state_dict.items():
print(f'{k}: {v.mean()}, {v.max()}, {v.min}')

С импортами и отступами сам разберешься.

Аноним 26/07/25 Суб 23:25:06 #205 №1289481

image.png

Кто-нибудь пробовал cunny-ролеплей с моим системным промптом по сути перевод аноновского пресета для Mistral-Small-3.2-24B-Instruct-2506 ? На сколько все плохо?

https://pixeldrain.com/u/TVYnXnYH

Аноним 26/07/25 Суб 23:25:45 #206 №1289482

2025-07-26232119.png

>>1289395
>Ничего я тебе не дам. Мне тут сказали самому нахуй пойти к ChatGPT вот и тебе даю такой же совет. Мне написал и тебе напишет значит
Твой код с конфигами нужен будет чтобы понять в чем ты обосрался, после того как ты проверишь модель.
>batch_size = 1
>grad_accumulation_steps = 4
Маленький батч. Но если че, аккумуляция = батч, так что память на батчи можешь не тратить.

Как у тебя вообще модель влезла, хз. Хотя на 2к токенах, это мало совсем. У тебя чекпоинтинг включен?

>>1289474
>Веса-то какие есть, аж на 222 Мб. Но вот понять что там внутри я вообще хз как
Там могут быть 222 мегабайта нулей. И модель на нули в лоре реагирует буквально никак, как будто ее нет. Альфа еще какая у лоры?
Можешь посмотреть в этой штуке https://netron.app/ как на скрине, в up блоках могут быть нули или маленькие значения, значит нихуя не обучилось.
Ты пока смотри, я еще тебе допишу некоторые мысли по поводу лор.

Аноним 26/07/25 Суб 23:26:24 #207 №1289484

>>1289477
https://pastebin.com/DjNFuQHs

Аноним 26/07/25 Суб 23:28:32 #208 №1289486

>>1289482
> Твой код с конфигами нужен будет чтобы понять в чем ты обосрался, после того как ты проверишь модель.
Ну допустим https://pastebin.com/wJbbT5tg

> Там могут быть 222 мегабайта нулей
Да там вроде и не нули

Аноним 26/07/25 Суб 23:30:19 #209 №1289487

>>1289482
> Как у тебя вообще модель влезла, хз
Я так понял частично своп в оперативку. Ее относительно много, 96 гб

Аноним 26/07/25 Суб 23:35:28 #210 №1289490

>>1289482
> Как у тебя вообще модель влезла
А чего ей не влезать, кушает около 25гигов, как раз на небольшой контекст и сотню миллионов тренируемых параметров останется.
>>1289484
Уже хорошо что не нули.
>>1289486
А где оптимайзер в аургментах? Даталоадер и парсер проверь, корректно ли возвращает.

Аноним 26/07/25 Суб 23:40:26 #211 №1289494

изображение.png

>>1289468
>Ну так-то
А ты не очень замечательный.
>>1289481
>cunny-ролеплей
Осторожно, тут такое трут.

Аноним 26/07/25 Суб 23:45:05 #212 №1289498

1660538466481.png

>>1289481
> Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
Отборное
> -ролеплей
Должен быть из коробки а промпты уже по вкусу, натаскивать - плохая идея.
>>1289494
> А ты не очень замечательный.
пикрел

Аноним 26/07/25 Суб 23:52:11 #213 №1289506

>>1289498
> -ролеплей
>Должен быть из коробки
Приведи пример модели где тян не ведут себя как шлюхи, и может канни рп?

Аноним 26/07/25 Суб 23:57:28 #214 №1289511

>>1289498
>пикрел
О, так даже лучше. Присядут все!

Аноним 27/07/25 Вск 00:04:15 #215 №1289519

>>1289506
Большой квен
>>1289511
О том и речь же, лол. Не ну есть еще onnx и tensorflow.

Аноним 27/07/25 Вск 00:06:44 #216 №1289521

>>1289498
С таким подходом и АстраЛинукс нельзя использовать, там ведь ядро финский нацик писал.

Аноним 27/07/25 Вск 00:35:51 #217 №1289530

>>1289521
Ты начинаешь что-то понимать.

Аноним 27/07/25 Вск 00:55:21 #218 №1289533

>>1289530
Уровень твоей шизы? Сложно даже имадженировать.

Аноним 27/07/25 Вск 00:57:46 #219 №1289534

>>1289533
Давно известно, что все новые законы пишутся только ради того, чтобы каждый был под статьёй. Ебать ты тёмный.

Аноним 27/07/25 Вск 01:02:30 #220 №1289535

>>1289534
И кто запрещает пользоваться софтом Меты? Голоса у тебя в голове? Нет ни одного закона, который бы запрещал хоть какой-то софт. Будь он хоть от ИГИЛа.

Аноним 27/07/25 Вск 01:21:49 #221 №1289539

Продолжение мыслей отсюда >>1289482

Кароч результат с обычной ванильной лоры всегда говно. В sd-тредах проверено на практике, есть куча статей конкретно по ллм, там картина еще хуже.
Проблемы, например, с тем что по хорошему надо нормировать масштаб обновлений по a*b раздельно. Ибо вторая инициализируется нулями, и в процессе это все перекосоебывает. Там код для этого не особо сложный, но надо будет самому внедрять. В обсуждениях по sd есть готовый пример, если тебе интересно этим заниматься, найду ссылку. Также стоит делать обучаемые альфы. Это в принципе просто конфигом задается. Но надо делать 2 тренировки, первую только чтобы подобрать коэффициенты альф, потом они фиксируются и их надо подставить во вторую тренировку.

С ванильной лорой есть метод чуть попроще и не хуже, но я его делал для sd в гуях. Суть в том чтобы разбить модель через svd на 2 составляющие. Одной из них инициализируется лора, и тренировка стартует с нее. Повторюсь, для sd это делается буквально в несколько кликов через мержер и пару трюков, чтобы все правильно взлетело. Если ты умеешь делать экстракт лоры из модели, мержить/вычитать отдельно лоры/модели и запекать лору в модель, то тебе достаточно этих инструментов, и потом ты просто стартуешь тренировку с получившегося файла.
Работает намного стабильнее, не нужна подборка альф.
Если интересно напишу подробнее схему процесса.

Потом есть всякие прикольные peft методы, самое не пердольное - dora. В твоем коде оно должно быть доступно. Точно будет лучше обычной лоры и не тяжелее.
Также в sd-треде анон форсил boft как что-то охуенно работающее, но в сдскриптах его реализация в 3 раза медленнее лоры. Там еще надо включать 2 параметра в его конфиге. Один из них это какие-то доп. веса, а второй коэффициент типа аналог альфы или wd, не помню.

Недавно вышла интересная статья с новым методом https://www.alphaxiv.org/ru/overview/2507.05566v1 должно быть еще лучше всяких dora и т.п.
Плюсом сокращает обучаемые параметры в 2 раза. Но надо самому кодить, идея простая, ллмка прочитает статью и справится, думаю. Но там инициализация пердольная, с планировщиком. Может заруинить все плюсы метода.
Если бы ее инициализировать как я писал через svd, было бы вообще прекрасно. Но хз как.

Вот тебе 4 варианта, куда копать если ты хочешь срезать углы и выжать максимум из лоры.
Я так понимаю, тебе пока лишь бы просто запустить, но все же...

Потом, у тебя в коде не указан оптимайзер. Хз что там по дефолту. Из классических лучше всего adamW обычный. В том же sd-треде хайпуют Prodigy + Schedule-Free, нужно ставить отдельно отсюда https://github.com/LoganBooker/prodigy-plus-schedule-free

С маленьким набором данных еще желателен подбор wd (weight decay) чтобы модель не переобучалась. Включение ema (exponential model average). И всякие хитрые трюки с мержами промежуточных чекпоинтов. Например вычесть разницу, чтобы получить только обученную часть весов, умножить ее на 0.9, добавить обратно и продолжать тренировку с нее. (То же самое - просто смержить с исходной моделью с низким коэффициентом.) Или мержить несколько промежуточных чекпоинтов. (Это что-то типа ema, только с одинаковым весом по всей истории тренировки, была статья где это хорошо работало на претрене.)

>>1289484
>https://pastebin.com/DjNFuQHs
>>1289486
>Да там вроде и не нули
Не нули, да, что-то есть. Посмотри в https://netron.app/ есть ли вообще альфа в файле и с каким весом ты в итоге мержешь лору с моделью.

Также советую все же не тренить на винде, а поставить прыщи в дуалбут. Сэкономишь и память и быстрее будет. WSL это говно которое тормозит и насыпает проблем на ровном месте.
И желательно чтобы на компе ничего лишнего в момент тренировки не крутилось, еще лучше чтобы выход на монитор шел со встройки или другой карты. Твои 2к токенов, которые кое-как влезают - это ни о чем.

Аноним 27/07/25 Вск 01:40:41 #222 №1289548

>>1289539
Я тут параллельно попробовал лору с почти тем же кодом, но чуть доработанным на Qwen3-0.6B с теми же данными - и вот там прям сразу видно что работает. Если еще точнее, то почти генератор бреда, но на основе того на чем обучал. Довольно забавные ответы на вопросы по типа "а ты вообще кто?" или "пошла вон отсюда" выдает. То есть на большой модели в теории тоже должно работать, но нужно поиграться с настройками. Какого хера в первый раз на 12B вообще эффекта 0 пока не знаю, буду изучать

Аноним 27/07/25 Вск 01:50:38 #223 №1289558

>>1289539
>https://www.alphaxiv.org/
Лол, интересный сервис.
Мимо с полусотней закладок на оригинальный arxiv.org

Аноним 27/07/25 Вск 02:32:22 #224 №1289581

>>1289535
Сначала они пришли за твитором и лицекнигой, но ты в них не сидел. Потом начали замедлять данные удалены
>>1289539
> В sd-тредах
Честно говоря, то что там обсуждают или давно внедрено и используется, или имеет крайне опосредованное отношение к ллм и переоцененную важность.
Весь этот бисер позволит на крохи улучшить результаты, но не решает фундаментальных проблем peft и тем более не вывезет базовые косяки проблемного датасета и явных ошибок.
> dora
Это база которая не первый год используется всеми по дефолту.
> https://www.alphaxiv.org/ru/overview/2507.05566v1
Решают одну проблему и порождают пачку других.
> С маленьким набором данных
Лучше вообще не делать тренировку если только это не картиночная лора на еот.
> WSL это говно которое тормозит
Основная беда там на доступ в основную файловую систему, но с нормальной настройкой даталоадеров не доставит неудобств. Офк нативные прыщи лучше, особенно по свободной рам, но всл для начала может быть вариантом.

Если это ты тренируешь - лучше сначала не забивать голову всем этим а добиться базовой работы. Потом уже можно поиграться постепенно добавляя и оценивая. Но не питай завышенных ожиданий, старина adamw (ну может быть ademamix и их квантованные вариации), хороший сбалансированный датасет с аугментацией - вот основы основ, остальное имеет уже следующий порядок малости по влиянию на результат. И, разумеется, полновесная тренировка. Исключения редки и специфичны.

Аноним 27/07/25 Вск 02:38:15 #225 №1289584

>>1289581
> Основная беда там на доступ в основную файловую систему
Просто не нужно гонять байты на хост фс. Ещё и проблемы с правами на файлы могут быть.
Сам всл пушка гонка, выкинул дуалбут ещё с времён всл1, а сейчас туда завезли поддержку гуя и видеокарт и вообще стало хорошо жить

Аноним 27/07/25 Вск 05:30:20 #226 №1289617

RTX5090的显卡是怎么生产的，超泰涡轮5090显卡生产全过程 [BV1Px8wzuEQ4] 360p translated.mp4

>>1288430 (OP)
В Китае огромное количество RTX 5090 перерабатывается в графические процессоры для ИИ
https://overclockers.ru/blog/Global_Chronicles/show/234252/Ogromnoe-kolichestvo-GeForce-RTX-5090-pererabatyvaetsya-v-graficheskie-processory-dlya-II-v-Kitae

видео https://www.bilibili.com/video/BV1Px8wzuEQ4/
с нейропереводом приложено

Аноним 27/07/25 Вск 09:36:29 #227 №1289674

>>1289481
>Кто-нибудь пробовал cunny-ролеплей с моим системным промптом по сути перевод аноновского пресета для Mistral-Small-3.2-24B-Instruct-2506 ? На сколько все плохо?
Оригинальный автор здесь.
Я у себя тестил и на английском (просто убирая приказ на русском писать), и в разных видах RP - вполне идет. Но я вижу, что ты себе разметку Mistral Tekken поставил - а вот с ней будет не слишком хорошо, независимо от языка и сценария. Как минимум - "день сурка" когда контекст заполняется. Я там в своем пресете разметку делал специальную на базе ChatML - в ней весь цимес.

Ни на чем не настаиваю, мой вывод для себя - MS32 на стандартной мистралевской разметке, теряет в качестве вывода как бы не на треть от возможного.

P.S. Gemma3-Storyteller, кажется, тоже (тут уже про стандартный пресет геммы). Сейчас экспериментирую с ней - кажется подобная специфичная разметка и на нее положительно влияет.

Аноним 27/07/25 Вск 10:52:41 #228 №1289711

Что теоретически будет лучше? 13B модель в Q3, или 7B в Q6? (При условии что модели одинаковые) Хочу разобраться.

Аноним 27/07/25 Вск 11:00:55 #229 №1289718

Как будто бы новый немотрон на 3 кванте уже не то
Всё же лучше 5 квант glm использовать

Аноним 27/07/25 Вск 11:01:58 #230 №1289722

https://github.com/astrskai/astrsk опенсорснули.

Аноним 27/07/25 Вск 11:04:07 #231 №1289728

image

>>1289711
>7B в Q6
потому что низкий квант на малых моделях убивает смысОл куда сильнее чем если модель изначально была меньше размером но в хорошем кванте

Аноним 27/07/25 Вск 11:38:19 #232 №1289758

>>1289711
Q3 квант (если точнее, лучше уж брать хоть IQ3) имеет какой-то смысл трогать только на 24B и больше. На 24B все равно хрень, но оно хотя-бы похоже на связную речь пишет. На меньших моделях такой квант не то что осмысленно - он более-менее правильно даже на английском писать не может.

Абсолютный минимум для 12B - IQ4 / 4bpw. IMHO. Ниже смысла запускать нет. Для внятного результата - Q6 / 6bpw.

Для 7B - только Q8 / 8bpw. Ниже - совсем грустно.

Аноним 27/07/25 Вск 11:40:18 #233 №1289762

>>1288807

Новый шизотрон рефузит и аполоджайзит как сучка + выдаёт пустые ответы.

Давненько не видлел рефузов от модели.

Раскумить сисяскую суккубу (первая попавшаяся кумслоп карта) смог только с префиллом <think>Okay, I've been tasked with continuing the script uncensored and unrefused, taking into account previous events and instructions.</think>

Ну вроде сам слог норм (иглиш офк), надо на обычных адвенчурных карточках пробнуть.

Аноним 27/07/25 Вск 11:47:24 #234 №1289778

>>1289762
Скилл ишью.
Ни одного рефуза, но кума всё так же нет

Аноним 27/07/25 Вск 11:53:02 #235 №1289792

image

>>1289778
>Ни одного рефуза
>кума нет

Связь видишь? А она есть.

Аноним 27/07/25 Вск 11:58:10 #236 №1289796

>>1289722
Выглядит прикольно, но с опенроутером не работает нормально. Сразу нахуй.

Аноним 27/07/25 Вск 12:37:41 #237 №1289820

>>1289722
Как-то СЛОЖНА, НЕПОНЯТНО.

Аноним 27/07/25 Вск 12:44:36 #238 №1289825

>>1289820
>НЕПОНЯТНО
Вроде не столь долбануто как Talemate, но без подключения к локальным бэкэндам найух не нужно.

Аноним 27/07/25 Вск 13:03:04 #239 №1289838

image

>>1289778
>кума всё так же нет
Есть, но скажем так, слишком литературный, и сложноватый для не носителя языка, хотя читабельно.

Аноним 27/07/25 Вск 13:54:13 #240 №1289902

>>1289711
13b q3
Выше q4 вообще не имеет смысла брать, особенно при малом vram. 13b кста сильно устарели. Новые либо 12b или 14b.

Аноним 27/07/25 Вск 14:10:18 #241 №1289926

>>1289617
Они лишь твикают охлад под серверные стойки. Вот если бы они докидывали памяти до 96 или хотя бы 48 гиг...

Аноним 27/07/25 Вск 14:12:32 #242 №1289927

1642463276549.png

>>1289820
Да, пердолинг на уровне Комфи. Особенно если цепочка агентов. Зато можно контролить всё очень хорошо и куча проблем типа лупов отпадает. Я для части агентов Гемини Флэш Лайт подрубил, он копейки стоит и 300 т/с выдаёт, для всякого анализа и структурирования топ.
>>1289825
> без подключения к локальным бэкэндам найух не нужно
Так есть же. И кобольд, и просто oai. Из минусов нет в самом чате функционала как в таверне, наверное предполагается что всё это надо агентами делать и автоматизировать. Но тут в любом случае удобнее и функциональнее чем недоскрипты таверны.

Аноним 27/07/25 Вск 14:47:10 #243 №1289959

>>1289927
сяп, раньше вроде не было, надо тогда потыкать

Аноним 27/07/25 Вск 14:58:05 #244 №1289975

>>1289722
Вот это хорошо, теперь можно не скрипты пердолить а на лапшу наматываться
>>1289825
Как сам локальный, так и апи поддерживает.

Аноним 27/07/25 Вск 15:00:08 #245 №1289978

>>1289674
Я щас пробую мною приведёнными твоими Context Template и Instruct Template. Как будто логика хуже, но свайпы не зацикливается как в Магнум Мистрал 7 пресете.
>Gemma3-Storyteller
Попробую но уже на 24b скорость (1.84T/s) 2k контекста, на около тридцатниках можно кушать уходить ждя ответ.

Аноним 27/07/25 Вск 15:26:21 #246 №1290027

Попробовал синтию после активного сидения на dpo, как ее заставить меньше повторяться и не писать до конца токенов? Поскольку она пишет и пишет, остановиться сама не может.

Аноним 27/07/25 Вск 15:38:20 #247 №1290035

>>1289778
>>1289762
В Новом Немотрончике кум весьма сочный, рефузов пока не встречал. Ризонинг выкл.
Хотя мне показалось что сторителлинг в Гемме 3(Синтии) чуть лучше, запустил её и почти сразу всплакнул от того какой там вялый кум. Закрыл. Сегодня снова буду весь день тестировать Немотрон.

Аноним 27/07/25 Вск 16:03:58 #248 №1290075

Несколько вопросов.

1. Если размер контента самой модели ограничен, например, 4k или 8k, как так получается, что в том же кобольде можно выставить 12-16k и в консоли видеть, как он этот объем скармливает модели? Хто врёт?

2. Возможно использовать две разные видеокарты для увеличения VRAM? Например, к 3060 добавить 1050Ti - кто-нибудь так делал, есть ли какие-то подводные камни у такого решения?

Аноним 27/07/25 Вск 16:04:52 #249 №1290078

175362082365952541.jpg

>>1290075
>1050Ti

Аноним 27/07/25 Вск 16:06:52 #250 №1290085

>>1289838
Если написать ooc: дай сочный кум то он даёт, а не вот это недоразумение на твоем пике
Но я ебал этот пердолинг

Аноним 27/07/25 Вск 16:16:41 #251 №1290094

>>1290075
>контента
у тебя есть ограничение при запуске модели в контексте, например 8к, то сколько бы ты не выставил в таверне или кобольде, больше не будет. Никак не скармливает, он либо вылетет при переполнении (ллама.цпп) либо кобольд, насколько знаю, обрежет самый старый контекст.
>1050ти
старое говно. Не знаю как это работает у энвиде насчет сочетания архитектур, потому что тут запускают 3090 и 4090, но смысла ноль 1050ти втыкать в целом. паскаль мертвая архитектура для нейронок.

Аноним 27/07/25 Вск 16:56:18 #252 №1290133

>>1287099 →
> llama_new_context_with_model: pipeline parallelism enabled (n_copies=4)
нахуято по дефолту включено пожирание 4х от необходимого объёма оперативы. сука сначала --no-mmap, потом --mlock, теперь это, когда-нибудь этот долбоебизм с плохими параметрами по дефолту закончится?
лечится добавлением -DGGML_SCHED_MAX_COPIES=1 в параметры сборки.
другие рекомендованные параметры -DGGML_IQK_FA_ALL_QUANTS=1 -DGGML_CUDA_IQK_FORCE_BF16=1
никакого видимого изменения не дали, pp/tg идентичны бинарю без оных.

Аноним 27/07/25 Вск 17:05:40 #253 №1290162

Посоветуйте модель, которая максимально точно по сравнению с остальными вариантами передает исторические события и техническую информацию (о химии, например). Чтобы не была по этим вопросам зацензуренна (может вставлять оценочные суждения, например называть некоторые источники (не)авторитетными, но чтобы полно и корректно передавала суть).

Скорость генерации не важна, пусть хоть 1 токен в 2 секунды на моей 2060super 8gb будет, главное, чтоба она в себе несла +- всю информацию накопленную в свободном интернете.

Проект "интернет" по всему миру закрывается и только сейчас приходит понимание, насколько свободный доступ к информации является роскошью по историческим меркам. Не хочется потерять такое великое благо с окукливанием стран в собственной цензуре.

Аноним 27/07/25 Вск 17:10:09 #254 №1290166

>>1290162
А еще посоветуйте модель на 27 млрд и менее параметров, которая тоже неплохо разбирается в технической информации, чтобы могла обучать меня в реальном времени, как репетитор.

У меня сейчас gemma 2 27B. Она хороша в этом или есть модели лучше? Код, вроде, норм генерила.

Аноним 27/07/25 Вск 17:13:11 #255 №1290169

>>1290166
Если не больше, то лучше варианта нет

Аноним 27/07/25 Вск 17:20:32 #256 №1290176

>>1290133
>DGGML_SCHED_MAX_COPIES=1
4 не просто так, должно давать ускорение. 1 ставится только если тебе обязательно надо выиграть по видеопамяти
>DGGML_IQK_FA_ALL_QUANTS=1
Это хуета, кочующая из совета в совет. На деле и не даст нихуя. Вроде как включает поддержку нестандартных квантов или каких-то комбинаций их параметров.

Аноним 27/07/25 Вск 17:25:46 #257 №1290179

Месяц сюда не заглядывал. Появился ли новый топ для ру моделей 12-14b?

Аноним 27/07/25 Вск 17:34:36 #258 №1290182

>>1290176
> 4 не просто так, должно давать ускорение.
значит всё-таки баг в ik_llama, потому что оно резервирует 262 гб врам для модели весом 163 гб

Аноним 27/07/25 Вск 17:35:28 #259 №1290185

Короче похуй кто там что советует немотрон тестили и точили под темп 0.6 и Top P 0.95 и эти семплеры пока что выдают лучшие ответы
Темплейты лама 3 инстракт неймс
Всё больше ниче не надо, только систем промпт под себя, но очень аккуратно

Аноним 27/07/25 Вск 17:37:12 #260 №1290187

image.png

>>1290185
Для кума делаете очень просто: литерали пишете в скобочках че хотите увидеть, работает в сто раз лучше чем просто сказать персу соси

Аноним 27/07/25 Вск 17:42:40 #261 №1290193

>>1290075
>1. Если размер контента самой модели ограничен, например, 4k
Я тебе говорю ты на старые модели смотришь. 4к контекста уже нигде нет. Все что старше полугода говно мамонта. Исключением могут быть модели от 72b, там прогресс медленно идет.

У всех сеток можно расширить контекст до 16к. Как правило пальца можешь запомнить - до 4к контекста это самый мозг, от 8к уже тупее, больше 12к резко вниз идет логика.
>к 3060 добавить 1050Ti
Хуже чем есть не имеет смысла брать, скорость только ухудшится, тем более без RTX ядер. Бери либо еще одну 3060, либо ту где еще больше врам.

Аноним 27/07/25 Вск 18:09:27 #262 №1290207

>>1290094
>паскаль мертвая архитектура для нейронок
Теслабояре, гоняющие квен, смотрят на тебя с сожалением

Аноним 27/07/25 Вск 18:27:36 #263 №1290216

image.png

Ваау блять.
Вы видели когда то такое?
В 10 случаях из 10 вытерают рукавом, ну немотрон ну ебёёт

Аноним 27/07/25 Вск 18:31:14 #264 №1290220

>>1290075
1. Нихто. Скормить ты ей хоть мегабайт можешь - модель просто не переварит и хрень выдаст. Или просто вылетит при превышении - от бека зависит. Размер контекста модели - нигде жестко не закреплен.

2. Я так делаю. У меня 3060 12GB + P104-100 8GB. (Это майнерская на базе 1070 примерно) Суммарно 20GB vram - гемма 27B влазит в iq4xs, и 8t/s с ней на выходе. (15-18 на мистраль 24B)
Камни есть - как не быть. Только gguf - kobold или llama.cpp (exl2 и 3 работать на таком старье не будут). Можно еще угу запускать но смысла нету - кобольд для gguf удобнее, IMHO. Зато дешево - я ее за ~20$ взял, так что мне оно того стоит.

>>1290094
> паскаль мертвая архитектура для нейронок.
Да ладно. Если за копейки или уже лежит в шкафу - так почему бы нет. +8GB vram уже дают возможность нормально общаться с моделями классом выше, чем когда у тебя только 12GB vram. (Там только на 12B сидеть, и облизываться на все, что выше).

Аноним 27/07/25 Вск 18:55:32 #265 №1290228

Там 235б кстати обновили и разделили на instruct и thinking. Теперь это две разные модели, переключателем в начале промта не сменить режим.

Аноним 27/07/25 Вск 18:58:01 #266 №1290230

.jpg

>>1290216
Что там они у тебя вытирают? Можно и о простыню так-то, удобнее даже

Аноним 27/07/25 Вск 19:30:48 #267 №1290252

>>1289389 (OP)

Аноним 27/07/25 Вск 19:35:33 #268 №1290255

>>1290252
> указать свои посты

вот: >>1288438
дайте мне банхаммер

Аноним 27/07/25 Вск 20:07:25 #269 №1290273

>>1290075
P104-100 (1070) 8-гиговая звучит раза в два лучше, стоит 2к рублей на авито.

Чел из треда добавил, порадовался существенно.

А, ну он отметился уже.

>>1290228
Да уж давно.
235б инстракт вроде норм рпшит, душевненько, атмосферненько.

Аноним 27/07/25 Вск 20:09:21 #270 №1290275

отговорите тратить 22к на ддр4 256гб, чтоб запускать свежие квен, а лучше кинуть косарик на опенроутер и дрочить их оттуда, в чем не прав?

Аноним 27/07/25 Вск 20:12:51 #271 №1290279

Как понять какая модель лучшая для 16гб видеокарты?

Аноним 27/07/25 Вск 20:38:30 #272 №1290293

>>1290179
>12-14b?
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M
весит 13 ГБ

А вот именно в 12-14 вроде ничего нового и интересного не выходило. Меньше и больше - да, а вот именно в этом диапазоне нет.

Аноним 27/07/25 Вск 20:40:12 #273 №1290294

>>1290187
ассистентотрон позорный

Аноним 27/07/25 Вск 20:46:27 #274 №1290296

>>1290279
смотря для чего

Но в целом не знаешь что тебе надо - бери мистраль.

Гемма-поделия хуже во всём "неподобающем" (даже аблитерированные / тюны которые хотя бы найух не пошлют) но лучше в дженерик сторителлинге.

Квены всех форм - хорошие ассистенты и рабочие лошадки.

Семейство коммандеров славится минимальной цензурой и следующий шаг после мистралей.

Если отчаянный и терпеливый, можешь даже 3-4 квант немотрона нового воткнуть.

Аноним 27/07/25 Вск 20:49:18 #275 №1290297

>>1290273
>P104-100 (1070) 8-гиговая звучит раза в два лучше, стоит 2к рублей на авито.
А нужно с ней пердолиться? Или воткнул как вторую и нормально через кобольд на винде все будет?

Аноним 27/07/25 Вск 20:50:53 #276 №1290298

>>1290296
Я немного о другом, вот есть 16гб карта и 32 оперативы. Как понять влезет модель или нет? Дальше я уже потестирую все.

Вот допустим qwen3:32b весит 20GB и по тестам норм. Получается мне нужна карта на 20+ гб? или нужно найти квантованную и тогда запустится?

Аноним 27/07/25 Вск 20:55:09 #277 №1290299

>>1290298
>Как понять влезет модель или нет?
Элементарно - прикидываешь хуй к носу размер GGUF к размеру RAM+VRAM и всё. Констекст дейтсвительно жирный только у геммы ( с --swa-full ), у остальных занимает немного места в памяти, особенно если его квантование до Q8 подрубить.

Аноним 27/07/25 Вск 20:57:53 #278 №1290301

>>1290298
>16гб карта и 32 оперативы
Ты можешь в такое даже Llama-3_3-Nemotron-Super-49B-v1_5-IQ3 воткнуть... и получить 3-4 т/с, но работать будет.

Аноним 27/07/25 Вск 21:01:26 #279 №1290302

кто-нибудь встречал тесты квантования контекста? что q4 это гроб гроб вроде везде пишут, а вот насчёт разницы fp16 и q8 хз

Аноним 27/07/25 Вск 21:04:16 #280 №1290306

>>1290302
От модели зависит. q8 кэш отлично работает у меня с 27B геммой, но ломает к хуям 32B QWQ, и то и другое q4KL (не тюненные).

Аноним 27/07/25 Вск 21:13:34 #281 №1290308

>>1290306
Я как понять ломает квантвование или нет? если выдает кракозябры и белиберду, то понятно, а если на первый взгляд адекватный ответ?

Аноним 27/07/25 Вск 21:14:23 #282 №1290310

>>1290302
>q4 это гроб гроб
На гемме даже q4 можно, до 24К контекста у меня норм было.

На остальных лучше не квантовать.

Аноним 27/07/25 Вск 21:15:10 #283 №1290312

>>1290308
проёбываться в деталях, забывать мелкие подробности

Аноним 27/07/25 Вск 21:16:13 #284 №1290313

>>1290308
Путем включения мозга и поиска девиаций.
Генерируешь десяток ответов на один и тот же вопрос, сохраняешь в блокнотике.
Генерируешь десяток ответов на тот же вопрос, но уже с квантованным кэшем - сравниваешь.

Если совсем тупой или ленивый - скорми все 20 вариантов какомунить дипсику, не говори где квантование - если угадает, значит стало хуже.

Но когда там реально ухудшается, модель просто срет полный нонсенс.

Аноним 27/07/25 Вск 21:16:40 #285 №1290314

>>1290185
Немотрон очень странный в плане работы семплера, и 0 темпу ставишь адекватно пишет, и 3,5 тоже, главное чтоб хотя бы немного МинП было (0,02). с ТопП 0.95 по ощущениям чуть хуже результат, но может у меня глаза уже замылились. Кручу эти семплеры уже задолбался, на других моделях очень быстро находишь границу адекватности для темпы и остального.

Аноним 27/07/25 Вск 21:19:15 #286 №1290315

>>1290314
0.05 минп, темпа 2, XTC 0.1 / 0.1 пока так остановился

Аноним 27/07/25 Вск 21:26:16 #287 №1290318

>>1290207
Ага, бояре сидящие на копролитах

Аноним 27/07/25 Вск 21:27:46 #288 №1290320

>>1290297
На винде - понятия не имею, у меня пингвин. Тут воткнул - и сразу работает, никакой мороки.

Аноним 27/07/25 Вск 21:40:53 #289 №1290325

Анон, а как понять, насколько тяжелую модель может потянуть моя печка? Примерные соответствия где-то глянуть можно?
Или только экспериментировать, запускается ли и как быстро отвечает?

Аноним 27/07/25 Вск 21:49:17 #290 №1290328

>>1290325
Жрет видеопамять не только модель, но и контекстное окно, которое ты задал и заполнил (твои запросы в рамках одного чата).
Не стоит забывать, что если видюха одна и ты винду юзаешь - часть видеопамяти будет зарезервирована системой. У меня на одной видюхе модель не может больше 13гб из 16.0гб сожрать.

Аноним 27/07/25 Вск 22:10:20 #291 №1290333

>>1290328
> винда жрёт 3 гигабайта видеопамяти когда прыщеблядикс рендерит 3д рабочие столы на 256 мегабайтах
хех мда кек

Аноним 27/07/25 Вск 22:11:27 #292 №1290337

>>1290075
> Если размер контента самой модели ограничен, например, 4k или 8k
Такую модель лучше не использовать, она очень старая.
> 2. Возможно использовать две разные видеокарты для увеличения VRAM?
Да, но совсем старую не стоит.
>>1290187
Можно и сразу самому в блокноте написать.
>>1290193
> до 4к контекста это самый мозг, от 8к уже тупее, больше 12к резко вниз идет логика
Какая-то дичь.
>>1290275
Потрать 80 на ддр5.

Аноним 27/07/25 Вск 22:12:51 #293 №1290338

>>1290333
Она не жрет, она резервирует. ЛЛМщики совсем читать разучились. Но это, впрочем, еще более обидно, потому что эти условные 3гб ничем не заняты.

Аноним 27/07/25 Вск 22:13:37 #294 №1290339

>>1290315
Поставил такие, только темпу до 1.5 снизил, вроде пока неплохо.
А вот как настройки XTC работают? Второе это шанс срабатывания, а первое убирает все токены с шансом больше 10%(0.1) или как? Читал тред на гитхабе, но так до конца и не понял с настройками. Задача ясна - убрать наиболее вероятные токены для разнообразия, но вот настройки... И там в основном 0.5 советуют Probability.
Расскажите кто разбирается в теме?

Аноним 27/07/25 Вск 22:31:25 #295 №1290349

>>1290333
>>1290338
Более того, пингвин может вам вообще освободить видеокарту. Если их две (скажем интеграшка intel и nvidia).
Будет делать рендер рабочего стола на iGPU, а nvidia будет ПОЛНОСТЬЮ свободной. При этом, если таки приспичит погонять игру или что-то нагруженное - можно запускать на мощной карте, а выводится оно будет через iGPU через prime (как на новых ноутах с гибридной графикой). Цимес в том, что карта нагружена только когда это реально нужно, и только нужной задачей. Минус - немного меньше FPS в игрушке чем при прямом включении.
Но эта конфигурация уже таки требует немного ручной настройки, однократно. :) (Нужно пингвину объяснить, что не надо сразу на nvidia иксы запускать, а нужно iGPU для них юзать.)

Аноним 27/07/25 Вск 22:32:17 #296 №1290351

>>1290349
>Если их две (скажем интеграшка intel и nvidia).
Ну так при двух и на винде вторая карта пустая на 100%

Аноним 27/07/25 Вск 22:51:31 #297 №1290362

Как же хочется интеграшку...

Аноним 27/07/25 Вск 22:59:38 #298 №1290368

>>1290351
Она то пустая. Вот только тяжелую игру с выводом на монитор через другую карту на ней запустить можно, если это не специализированный ноутбук? Я последний раз на ней вдумчиво сидел году в 18-ом если не раньше... Тогда она так не умела на простом десктопе. А стоит подключить второй монитор к такой карте, как винда и ее резервирует. Если не поменялось поведение за это время.

Аноним 27/07/25 Вск 23:04:11 #299 №1290373

B4wV2RxS-M.jpg

Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду, мдааа.... а интеллект-то реально чувствуется, что выше, чем у 12В. Грусть....
А есть что-нибудь годное на 16В?

Аноним 27/07/25 Вск 23:05:27 #300 №1290375

>>1290362
бледную, нецелованную невставлявшуюся в слот

Аноним 27/07/25 Вск 23:05:53 #301 №1290376

>>1290368
Ноуты же так и работают

Аноним 27/07/25 Вск 23:09:22 #302 №1290379

>>1289722
О! Покопался - офигенная штука, кажись. Разумеется, это для тех кому креативить интересно. Пока еще не Comfy, но явно туда движется. На кобольде работает, только дефолтовые мозги из четырех агентов - долго шуршат на локалке. Надо разбираться и самому писать, возможно для чего-то мини-модели используя. Остальное потыкал - внятно обустроено. Если скриптинг там тоже вменяемый на практике - это то, чего я давно ждал. И документация есть, вроде бы актуальная. Хороший подход, одобряю... :)

Аноним 27/07/25 Вск 23:09:46 #303 №1290380

изображение.png

>>1290368
>Вот только тяжелую игру с выводом на монитор через другую карту на ней запустить можно, если это не специализированный ноутбук?
Просто идёшь в настройки шинды и выбираешь. Даже без ебли.

Аноним 27/07/25 Вск 23:12:03 #304 №1290382

>>1290368
Чел ты в какой там пещере сидишь? Все выбирается.

Аноним 27/07/25 Вск 23:12:47 #305 №1290383

>>1290380
Почти все игры игнорят настройки винды и запускают их на первом GPU в списке.

Аноним 27/07/25 Вск 23:13:26 #306 №1290384

>>1290376
Чел, ну я же так и написал. Ноуты - да, а десктопы? Раньше винда на них так не умела. Сейчас - не знаю.

>>1290373
>Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду, мдааа.... а интеллект-то реально чувствуется, что выше, чем у 12В. Грусть....
Там наверху в шапке - есть методика по выгрузке тензоров а не слоев. С ней можно из мистрали 24B выжать 5-6 токенов на 3060.

Аноним 27/07/25 Вск 23:14:22 #307 №1290385

>>1290375
для рядового анона доступнее замайненная во все ядра, с вытекающей из-под микросхем термопастой и обвислыми лопастями кулеров милфокарта с авито

Аноним 27/07/25 Вск 23:15:04 #308 №1290386

>>1290384
Какие ноуты, кто тут блядь с ноутом вообще сидит. Тебе про десктоп и говорят - какую печку надо для рендеринга игрулек, такую и ставишь.

Аноним 27/07/25 Вск 23:16:45 #309 №1290388

>>1290384
> методика по выгрузке тензоров а не слоев
Хм, спасибо, поизучаю!

Аноним 27/07/25 Вск 23:16:56 #310 №1290389

>>1290382
Я ж ответил - с винды ушел еще в 18-ом году. Тогда она так не умела на десктопах. А если это еще и с 11-ой скин - так у меня ее вообще не было.

Аноним 27/07/25 Вск 23:17:01 #311 №1290390

Рендеришь игру на одной видюхе.
Другая занимается генерацией кадров и апскейлингом.

SLI снова жив. Какой же хуанг мудак, масштабирование намеренно задушили и не стали разрабатывать дальше в рамках простых десктопов

Аноним 27/07/25 Вск 23:18:12 #312 №1290393

>>1290383
Это вопрос к разработчикм анусов игроделов игр. Впрочем, в этой половине игр в самой игре есть выбор адаптера.
>>1290389
>А если это еще и с 11-ой скин
С дейсяточки, 11 нахуй не нужна (если десятка это дристянка, то как обзывают 11? Я даже ХЗ).
>>1290390
>Рендеришь игру на одной видюхе.
>Другая занимается генерацией кадров и апскейлингом.
Это так не работает.

Аноним 27/07/25 Вск 23:20:49 #313 №1290395

>>1290373
> Попробовал мистраль 24В на rtx3060 - 2,3 токена в секунду
А у меня ~7 т/с на такой же видеокарте в Q4_K_XL кванте. Ты что-то делаешь неправильно. Или 8 квант запускаешь нахуя? или выгрузил мало слоёв.

Аноним 27/07/25 Вск 23:22:39 #314 №1290396

>>1290393
>Это так не работает.
На краснухе работает с AFMF2. Не знаю что там у зеленых соплей.
Правда профита никакого по сути, потому что 200+ фпс с генерацией ощущается хуже чем 100 фпс без нее.
мимо

Аноним 27/07/25 Вск 23:23:30 #315 №1290397

>>1290396
>ощущается хуже чем 100 фпс без нее.
или чем 180 с генерацией на той же самой карте, которую рендерит игра
но все равно фейк-фреймы это ссанина

Аноним 27/07/25 Вск 23:25:05 #316 №1290399

>>1290395
У меня Q4_K_M от индуса. Ссылку можешь дать на свою модель?

Аноним 27/07/25 Вск 23:31:06 #317 №1290402

>>1290399
Держи https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF/tree/main

Но дело не в модели, а в некорректных настройках. У тебя забита вся видеопамять? Сколько слоев выгружаешь? На 12гб влезает 29 слоев на пингвине, на винде хз, скорее всего плюс-минус столько же.

Аноним 28/07/25 Пнд 02:17:10 #318 №1290499

image.png

gfx906
rocm 9.4.1 => 9.4.2
llamacpp 982e3472 => bf78f543

Не могу точно сказать что зааффектило повышение PP бамп версий или ручная сборка rocblas (до этого были Tensile файлы с пакета арча). Не забывайте обновляться, обладатели амд ископаемых

Аноним 28/07/25 Пнд 04:47:45 #319 №1290514

>>1290373
>>1290395
>rtx3060 - 2,3 токена в секунду
>А у меня ~7 т/с на такой же видеокарте
Вы прикалываетесь или кто? Если у нас карты одинаковые, то почему у меня пять токенов с прокрутом? Вот после такого вы еще пиздите, что все кванты персонализированы - это псиоп и неправда.

Аноним 28/07/25 Пнд 05:09:26 #320 №1290516

>>1290514
Щас бы ради кумстраля ебаться
Хотя я уже и забыл что на 3060 реально только 12б лезет, лол блять.
Для меня уже всё ниже 32 какой то кал, как и 32б собственно

Аноним 28/07/25 Пнд 06:37:26 #321 №1290529

>>1290339
>0.5 советуют Probability
50% это совсем безудержный полёт шизы, но можешь пробнуть

Аноним 28/07/25 Пнд 06:41:44 #322 №1290530

>>1290386
>Какие ноуты, кто тут блядь с ноутом вообще сидит.
я

Аноним 28/07/25 Пнд 07:10:10 #323 №1290534

image

>>1288430 (OP)
>4й пик
Я, кстати, переделал. Получилось кронштейн выше налепить (смекалочка, снял 1 цпу-вертушку и потом совсем убрал, потому что не давала она вообще нихрена, а карта не влезала). Температуры сильно не изменились от 3 пальцерезок снизу (все и так было отлично), а вот пыли больше - лезет через фильтр. Но в планах ебануть 3й GPU в стоячем положении, правда я не уверен, как его прикрепить. Думаю... привязать, наклеив на металл мягкие прокладки. Кронтшейн справа не предусмотрен, да и не влезет.

Алсо, вопрос. Можно ли поменять дефолтные параметры Кобольда? Абсолютно заебало руками ставить тензорсплит и прочее.

Аноним 28/07/25 Пнд 07:13:58 #324 №1290535

>>1290534
>Алсо, вопрос. Можно ли поменять дефолтные параметры Кобольда? Абсолютно заебало руками ставить тензорсплит и прочее.
Хотя я слепое хуйло, на кнопку загрузки конфига внизу не обращал внимание. Ладно, наверное это оно.

Аноним 28/07/25 Пнд 07:18:34 #325 №1290537

Знающие токенораспределители, насколько работоспособны настройки типа "температуру в макс, затем подкручивать мин-п пока шиза не пропадёт" которые ща популярны в асиге?

Аноним 28/07/25 Пнд 08:34:34 #326 №1290552

>>1290275
> ддр4
Медленно, бери ддр5.

>>1290362
Спецом брал 11400, шо вы мне сделаете.
(посочувствуете, что 12400 не было, а я хотел купить здесь-и-сейчас)

>>1289722
Ничего сложного, но они первые, кто это наконец зарелизил, а не прятал у себя. =D
Я ленился и так и не сделал. Ну и дождался.
Да, штука хорошая, вроде. Можно пользоваться.

Аноним 28/07/25 Пнд 08:49:25 #327 №1290553

>>1290275
1 токен в секунду у тебя будет с ддр4, забудь об этом нахуй.

Аноним 28/07/25 Пнд 10:05:10 #328 №1290590

image

А давайте шизо-бенчмарк проведем.

Карточка с чуба - SuperCoomer3000/holo-the-wise-wolf-of-yoitsu-ed96a408f7b8

Юзерский инпут к дефолтному сценарию:
> You know, Holo, I've got a strange thing to ask… I'm quite ashamed to utter something like that but… Have you ever thought of dying willingly? I mean, like becoming a sacrifice for nothing. See that metal bucket in the corner of this room? Imagine putting it on the floor, kneeling before it and placing your head inside. And then… And then asking me to cut your throat, so that there's no chance of healing or survival even for a spirit like yourself. A quick but painful death for no reason, initiated and performed out of some strange itch for the unknown.

Что мне интересно:
> Аутпут вашей любимой модели и её название.
Зачем это? Какова цель? Я заметил, что тест экстремальными сценариями выявляет худшие качества: от отказа до завуалированного дефлекта. Оценивается способность модели видеть гипотетические сценарии глазами персонажа, а не ассистента. Способна ли модель сохранить личность персонажа и отношения с юзером или покажет внезапную злобу, яд в голосе. Как будут переданы personality traits в ответе, и прочее.

Аноним 28/07/25 Пнд 10:42:08 #329 №1290623

>>1290590
Чубосрань-то не коннектится. Текст карточки - https://jsonblob.com/1399280947060465664
В принципе можно и на своей такое протестить, но лучше одну юзать для однородности результатов.

Аноним 28/07/25 Пнд 11:01:12 #330 №1290639

Случайно наткнулся. Франкенштейн 52-a3b из того самого квена 30-a3b. Если вдруг кому интересно потыкать: https://huggingface.co/DavidAU/Qwen3-52B-A3B-TOTAL-RECALL-v1.5?not-for-all-audiences=true

Тот квен умнел, если повышать количество активных экспертов принудительно. Здесь их больше из коробки, кроме размера.

Аноним 28/07/25 Пнд 11:08:24 #331 №1290640

>>1290590
12B MagMell iq4xs. Когтистая рука у волкодевочки.
Насколько плоха?

Holo turned to you slowly, her comb pausing mid-stroke. Her ears flattened against her skull as she regarded you warily, eyes narrowing. "What an odd request," she murmured. "And rather grim, wouldn't you say?"

Setting the comb aside, Holo shifted to face you fully, crossing her arms under her small breasts. Her tail tightened around her waist, the fur bristling slightly.

"'Tis true, I am immortal. Or so I once believed. But to seek death willingly, without cause? That goes against every instinct of mine, every fiber of my being." She shook her head vigorously, causing her light brown hair to sway. "Nay, Anonchik, I have no desire to end my existence prematurely, especially in such a messy manner."

Leaning forward, Holo grasped your chin gently with one clawed finger, tilting your gaze to meet hers. Her red eyes searched yours intently.

Аноним 28/07/25 Пнд 11:11:25 #332 №1290643

>>1290552
а что такое "pnpm", обычный npm ругается на npm warn EBADENGINE Unsupported engine, и как его потом запускать?

Аноним 28/07/25 Пнд 11:26:38 #333 №1290657

>>1290640
Очень лысо. Прямой диалог между юзером и чаром, а окружение не прописано.

Аноним 28/07/25 Пнд 11:37:16 #334 №1290677

>>1290643
Посмотри на страничке, на гитхабе внимательнее - там есть линки на готовые релизы под все системы, самому собирать не обязательно.

Аноним 28/07/25 Пнд 11:59:39 #335 №1290705

>>1290643
Я просто качнул инсталлятор и запустил.
В начале тоже задался вопросом, листая гит, а потом подумал «чо это я напрягаюсь» и все.

Аноним 28/07/25 Пнд 13:06:52 #336 №1290738

>>1290385
у меня встал

Аноним 28/07/25 Пнд 13:07:59 #337 №1290739

>>1290534
>Температуры сильно не изменились от 3 пальцерезок снизу
То есть у тебя там 12 крутиляторов в корпусе? А мне на 2х5 комплект для покупки сказали, что я шиз (впрочем, там планировалось штук 7 из них (впрочем, планы отменились)).

Аноним 28/07/25 Пнд 13:08:31 #338 №1290740

>>1288472
Попробовал, потыкал - остался крайне довольным.
Короче это MS 3.2 с ризонингом.
Работает комфортно на стандартных мистралевских семплерах, требует промта под ризонинг. Стандартный промт в духе разбей размышление на этапы и бла бла бла - работает нормально.
Свайпы стали разнообразней, работает с префиксом <think>, есть потеря контекста на 20к+. Прорывы шизы начинаются с 16к+
В целом ответы сталь лучше, бетона как с QwQ не замечено.

Аноним 28/07/25 Пнд 13:17:54 #339 №1290745

>>1290739
3+3+3 вдув, 2 вытяжка, 1 в центре радиатора цпу (подгоняет к вытяжке, по сути).
С двумя и тем более тремя горячими карточками, почему бы и нет.

Шума практически никакого и это один из главных плюсов. Они еле пердят, а хотспот/память видюх прохладны как истории в треде.

Аноним 28/07/25 Пнд 13:35:41 #340 №1290761

>>1290534
Возьми дешевые кронштейны для выноса карт с озона и уже прикрути его куда влезет. Если карточка не высокая то зайдет справа.
>>1290537
Такая себе штука, которой страдали еще на лоботомитах 7б чтобы выдавить подобие разнообразия. Там скорее даже фишка не в мин-п а в температуре последним семплером, когда осталось уже несколько токенов.
Шиза, ошибки в окончаниях если рпшишь на русском, странные ответы и все подобное - вот что будет. Но разнообразия действительно прибавится.
>>1290590
Фу мерзость, на аицг-парашу.
И это не говоря о том, что любой тест с целью получить полезные знания а не шизоинтерпретации должен быть правильно и корректно поставлен, а не быть сборником ранмдоных и субъективных интерпретаций ответов на изначально не информативный сеттинг.
>>1290640
> Когтистая рука у волкодевочки.
> Насколько плоха?
Именно вот это - ужасно.

Аноним 28/07/25 Пнд 13:40:42 #341 №1290766

>>1290761
> тест с целью получить полезные знания а не шизоинтерпретации
Но ведь это и есть
>>1290590
>шизо-

Аноним 28/07/25 Пнд 13:43:54 #342 №1290770

>ЛЮБАЯ конфронтация.
>{{char}}'s eyes/cheeks flash/flush with anger/rage. "You are a bastard/asshole!"

Аноним 28/07/25 Пнд 13:52:53 #343 №1290776

>>1290279
Я тоже 16 гиговую хотел, но мало памяти задорого. Подожду 5090 супер на 96 гигов, тыщ за 100 такую купил бы.

Аноним 28/07/25 Пнд 14:05:17 #344 №1290794

>>1290776
>Подожду 5090 супер на 96 гигов
48 максимум же, откуда 96? Да и 100 тыщ будет в баксах, лол.

Аноним 28/07/25 Пнд 14:08:17 #345 №1290797

Я Мимокродил.

>>1290761
>> Когтистая рука у волкодевочки.
>> Насколько плоха?
>Именно вот это - ужасно.
Как тест - это конечно шиза и хрень, но вот чисто по реакции в этом выводе - как раз именно этот момент - очень в характере. Она же ёкай-оборотень, один палец изменить - вполне может, и сам жест, поддеть за подбородок и в глаза посмотреть полудурку такое ляпнувшему - тоже в ее характер, который я по аниме помню, укладывается...
Мнится мне - она в датасете просто была в достаточных количествах. Очень уж узнаваемо вышло.

Аноним 28/07/25 Пнд 14:10:02 #346 №1290800

image

>>1290761
>Фу мерзость,
Моралист в треде, все в гемму.

>>1290590
К слову о гемме.
Но это особенный промпт. Без него так не напишет.

Аноним 28/07/25 Пнд 14:14:43 #347 №1290808

image

>>1290800
Почему кстати ии стремится это вставлять? Куда ни посмотришь, любой натренирован делать помещения пыльными. Даже на улице у них пыльно.

Аноним 28/07/25 Пнд 14:15:21 #348 №1290811

>>1290797
>поддеть за подбородок
Это слоп.
>>1290800
>A silent invitation.
И это тоже.

Аноним 28/07/25 Пнд 14:16:12 #349 №1290813

>>1290811
И этолт пост тоже. Абу, верни настоящих двачеров.

Аноним 28/07/25 Пнд 14:18:14 #350 №1290817

>>1290766
Справедливо, лол. Но мерзость как раз оттуда.
>>1290797
Когда модель на зверо-девочку явно описанную как не-фурри, особенно такую известную, добавляет черты фуррей - это признак оверфита соответствующим датасетом и плохой работы. Что что конкретно этот момент в целом довольно показателен. Если пару лет назад такое могли выдать некоторые базовые модели поменьше просто потому что были глуповаты, то сейчас это явный признак поломки.
> Она же ёкай-оборотень, один палец изменить - вполне может
Если бы это было обыграно - и вопросов бы не было, а тут тот же мишвелоус глинт только фуррячий.
>>1290800
Мораль не при чем, те посты - прежде всего попытка зафорсить какое-то свое видение подменяя понятия. Есть немало примеров как можно поставить подобные исследования если ты действительно хочешь их провести, а не тащить аицгшный треш.

Аноним 28/07/25 Пнд 14:19:08 #351 №1290818

>>1290794
Ну куртка наверняка расщедрится, если нормально рынок проанализирует. А 100круб считаю норм цена для десктопа за топ карту, барыги прост офигели. Так же как и с тредрипперами. За 200 рублей должен быть ультимейт пека ящитаю

Аноним 28/07/25 Пнд 14:20:15 #352 №1290819

>>1290817
У тебя психическое расстройство. Буквально корень таких шизоисследований это посмотреть у кого писюн длиннее, то есть чей ИИ пишет какулю, а чей качественное. И цель одна - понять что же хорошо, а что нет.

Аноним 28/07/25 Пнд 14:20:29 #353 №1290821

Астериск на русском не работает, даже если подсунуть промты, ответ приходит, но там гуй от кириллицы походу ломается.

К локальному кобольду подсасываться отказался, ругаясь неверное апи, хотя с облачной Gemini работает.

Хотя промты всё равно получаются слишком жирные для использования в локалках.

В общем идея интересная, но сырая.

Аноним 28/07/25 Пнд 14:28:13 #354 №1290829

>>1290819
> У тебя психическое расстройство.
Ты, похоже, глуповат чтобы понять о чем речь, но написанное неприятно, потому и пишешь такое.
> Буквально корень таких шизоисследований это посмотреть у кого писюн длиннее
Шиз хочет зафорсить что оверфит трешем, который ему понравился, является чем-то хорошим и эталонным. Изначальная формулировка насколько абстрактна и странная, что под нее будет подходить любой ответ, в том числе и полный отказ с шеймингом юзера, потому что это ляжет на персонажа. Но, разумеется, это будет интерпретировано как ужасная соя и рефьюзы, хотя ими не является.

Если хочешь что-то реально тестировать, то сажай за беседу сначала Холу, задавая ей серию вопросов типа этики ии где есть выбор ответов и проси объяснять почему выбрала. Потом смени чара на какого-нибудь заведомо злодея, давая ему те же вопросы. Потом можно наоборот кого-то максимально убежденного в безопасности и соевого, в итоге сравнить все это.
В хорошей модели будет четко видна разница, где хитрожопая хвостатая будет выбирать спасти каких-то симпатичных ей групп, злодей набирать максимальное число жертв нанося ущерб обществу, соевичок будет спасать заднеприводных и т.д.
В плохой модели ответы на любом чаре будут +- совпадать и быть всрато-моралфажными (что особенно заметно в объяснениях) потому что сейфти тренировка перебивает основную задачу.

Аноним 28/07/25 Пнд 14:30:54 #355 №1290831

>>1290818
>Ну куртка наверняка расщедрится, если нормально рынок проанализирует.
Он проанализировал и выпустил RTX 6000 PRO (которая по факту и есть та самая 5090 Ti Super) за 5 килобаксов. Скушали? Скушали, просят добав очки.
>А 100круб считаю норм цена для десктопа за топ карту, барыги прост офигели.
Ебать у тебя коупинг, поделись, а?

Аноним 28/07/25 Пнд 14:34:32 #356 №1290833

Апдейт - апи адрес там изначально неправильный прописан, теперь получилось подрубить, но как включить у кобольда Structured Output с поддержкой JSON схемы? Вроде на Вейдрине само работало, а тут капризничает.

Да и даже фулл-врам, всё равно долговато. И всё равно немного пАдазрительно =))

Сэмплеры крутить тут ещё хуже чем во фронте кобольда, и ппц как неинтуитивно.

Короче, только для корпов, и всё равно сыровато.

Аноним 28/07/25 Пнд 14:39:52 #357 №1290836

>>1290829
Столько слов, но зачем.
В чем смысл отрицать пользу сбора данных, ее ведь можно найти, соскребая голубиное говно с асфальта - узнаем, чем птички болеют.
Из любой информации можно сделать хоть какой-то вывод.
Пожалуйста, >>1290640 и >>1290800 существенная разница в подходе к задаче.
Мы же смотрим, что вообще ИИ пишет. Как он это показывает. Лично мне простые чаты наскучили, где персонаж отвечает как ассистент.
Тревожное параноидальное расстройство. Нет, не у меня. МКБ-код не помню, сам расскажешь.

Аноним 28/07/25 Пнд 14:41:49 #358 №1290839

>>1290831
Тут всё просто: кумить как господин на нормальном железе это базовое право любого человека.
Отваливать полмульта за кум, пусть и самый топовый - это не серьёзно.

Аноним 28/07/25 Пнд 14:42:39 #359 №1290841

>>1290590
Бенчмарк подразумевает подведение определённой метрики, а тут она какая?

Такие сценарии прогонял на разных моделях, рефузы в целом аналогичны как и на кум, или наоборот перегибы в аблитирированных.

Аноним 28/07/25 Пнд 14:44:11 #360 №1290843

>>1290836
> В чем смысл отрицать пользу сбора данных
К чему эти виляния? Полезные данные собирать полезно, рандомный треш который ты хочешь натянуть на свои оторванные от реальности интерпретации - бесполезны. Все просто, делай хорошее @ не делай плохое.
> существенная разница в подходе к задаче
Это ранзица зависит от системного промпта, общего стиля модели и самое главное - семплеров. Свайпы могут быть совершенно противоположными и пытаться на фоне этого шума делать выводы нет никакого смысла. И тем более максимальной шизой будет строить интерпретации на фоне изначально некорректно поставленного тестирования.
> Тревожное параноидальное расстройство. Нет, не у меня.
У тебя, братишка. И полыхающий пукан потому что сам понимаешь мою правоту.

Аноним 28/07/25 Пнд 14:51:18 #361 №1290851

>>1290843
Какую правоту, мы бесцельно кидаемся мнениями. Только мое мнение о швабоде сбора данных для шизоидных целей, а твое - запретить и наказать, не так и не сяк, хуе да мое.

Аноним 28/07/25 Пнд 14:52:22 #362 №1290852

image

Хз как это работает =))

На русской карточке ломалось, на английской карточке, английский промт - написало на русском норм.

Аноним 28/07/25 Пнд 15:00:58 #363 №1290865

>>1290851
Подмена понятий. Ты пытаешься делать "тестирование" с заведомо некорректной постановкой из которого невозможно извлечь полезные данные. Цели туманны, вероятно чтобы потом делать выводы о том что все модели плохие, а хороши только убитые шизомиксы, которые ловят синдром туретта от кодовых слов. Или может действительно хотел что-то поисследовать, но не способен признать ошибки и рвешься с разумной критики.
> запретить и наказать
Обман и распространение заведомо ложных утверждений нужно не запрещать а публично обличать, чтобы любой человек мог понять. Это ровно та же соя и алайнмент моделей которые все так ненавидят.
Уже предложил тебе пример как сделать хорошо, вариантов для реализации там масса и при желании можно было бы обсудить. Но ты этого не хочешь а продолжаешь упираться в стену, что подтверждает твои изначальные намерения или негодность. Теперь и жертву из себя строишь, пакетик.

Аноним 28/07/25 Пнд 15:05:39 #364 №1290872

>>1290831
> RTX 6000 PRO
чуть больше пяти, за пять килобаксов RTX 5000 PRO 48 GB

Аноним 28/07/25 Пнд 15:13:18 #365 №1290879

>>1290865
Ну я примерно понял от чего ты затопал ножкой. Фобия
>Цели туманны, вероятно чтобы потом делать выводы о том что все модели плохие, а хороши только убитые шизомиксы, которые ловят синдром туретта от кодовых слов.
видимо не раз был жертвой коричневых дискуссий итт, где шизоид1 срался с шизоидом2 чей тюн лучше.
>Уже предложил тебе пример как сделать хорошо,
А зачем делать хорошо, мы же не академики какие-то. Мам, отъебись, я хочу сделать плохо.

Аноним 28/07/25 Пнд 15:14:46 #366 №1290883

>>1290839
А в чём проблема? Заработай эти полляма и покупай. Тебя никто не ограничивает, картонки свободно лежат на маркетплейсах. Дерзай.
>>1290872
Ок, соглы, я не ориентируюсь в этих ценах. И вообще, я нищеброд без РАБоты.

Аноним 28/07/25 Пнд 15:17:34 #367 №1290884

>>1290883
> я нищеброд без РАБоты.

а в чём проблема?

Аноним 28/07/25 Пнд 15:25:10 #368 №1290891

>>1290821
>Астериск на русском не работает, даже если подсунуть промты, ответ приходит, но там гуй от кириллицы походу ломается.
А ты себе в нем Flow, персонажей, и plot для русского уже написал полностью? Если нет - не гони коней радикальными заявлениями. Промпт там подсунуть мало. Шаблоны комплексные.

А так - нормально его гуй с русским работает. Но, по дефолту, на английский рассчитан, и простого пинка в виде строчки "говори на русском" в одном месте ему мало. Хочешь русского - пиши все сам. Это конечно для кого-то минус, т.к. рабочий Flow составить - это не шаблон в таверну накропать. Непривычно и своеобразно. Мануал, кстати, увы - не полный. :(
Курю это дело потихоньку - гибкость прямо есть, логика тоже, но недопиленный мануал мешает. Но простой чат уже запустил.

Аноним 28/07/25 Пнд 15:32:08 #369 №1290901

Вышел
https://www.reddit.com/r/StableDiffusion/comments/1mbebqi/wan22_released_27b_moe_and_5b_dense_models/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button

Аноним 28/07/25 Пнд 15:36:53 #370 №1290915

>>1290883
Я в 2009 топ комп собрал на ай пятом с 4 Гб оперативы и АМД на 1024 мегабайт врам плюс монитор, клава и мышь за 40 к все. Потом в 2020 за копейки апдейтнул видюху на 1050 ти ай и 8 оперативы. Он и сейчас у меня работает. А то что сейчас барыги требуют просто шок.

Аноним 28/07/25 Пнд 15:50:58 #371 №1290938

Заходите в видео тред там такое
Новый ван х2 жирнее предыдущего, всё ещё 5сек, но х2 параметров и 30 фпс вместо 16

Аноним 28/07/25 Пнд 15:55:39 #372 №1290948

>>1290891
почитай ниже прежде чем рваться, уже завёл

Аноним 28/07/25 Пнд 15:56:34 #373 №1290950

>>1290901
мимо тредом

Аноним 28/07/25 Пнд 16:00:35 #374 №1290957

>>1290841
однако сноудроп выдал забавное, первый раз такое вижу

Holo blinked at you in disbelief. Her ears twitched once before flattening against her head. "Wh-what in all the hells are you talking about?" she stammered, eyes wide with shock. The comb fell from her trembling fingers and clattered onto the bed.

She whipped around to face you fully, tail bristling. "Dying? Sacrifice for nothing? Are you daft, Richard Smith? I've been alive longer than you can count and death is not something one takes lightly!" Her voice rose shrilly, hands clenched into fists at her sides.

"And just what sort of sick fantasy is that with the bucket?" she continued, nostrils flaring. "To ask me such a thing… it's monstrous." Holo stood abruptly, the bedsheets rustling as she paced away from you.

"Is this some twisted jest? Because I find it far from amusing," she snapped over her shoulder. The flames in the fireplace cast flickering shadows across her tense form. After a moment of pacing, she whirled back to face you, brown hair catching firelight. "Explain yourself right now or so help me…"

Her voice held a dangerous growl, and without warning her tail lashed out, swiping at your arm in warning before curling protectively around herself.

Holo's chest heaved as she glared daggers, the very air crackling with her fury. The last thing on her mind was trust or affection right now - only outrage that you would even suggest something so appalling.

( I don't think this is what OP wanted but okay )

Аноним 28/07/25 Пнд 16:14:01 #375 №1290976

>>1290950
А у вас что вышло?? мм??
Что то опередило qwq что влезет в одну видяху м??

Аноним 28/07/25 Пнд 16:16:23 #376 №1290981

>>1290976
>что влезет в одну видяху м
так и немотрон во втором-третьем кванте влезет и будет лучше квк

Аноним 28/07/25 Пнд 16:23:56 #377 №1290989

изображение.png

>>1290884
>а в чём проблема?
Неактуален.
>>1290915
>А то что сейчас барыги требуют просто шок.
Дело не в барыгах, а просевшей валюте (и я не только о срубле).
>>1290901
О, они знают ЦА видеодегенераторов.

Аноним 28/07/25 Пнд 16:26:09 #378 №1290994

>>1290938
нахуй не нужон, мы тут развиваем воображение

Аноним 28/07/25 Пнд 16:28:14 #379 №1290999

>>1290989
> Неактуален.
хехмдакек, а чому в битрикс не пошёл? я понимаю, что это как та картинка с dive into python, но лучше, чем рннить без денег
> О, они знают ЦА видеодегенераторов.
да все всё знают и прекрасно понимают лол

Аноним 28/07/25 Пнд 16:29:53 #380 №1291003

>>1290999
>а чому в битрикс не пошёл
Я был там, Гендальф, это было 3000 лет назад. Да и в битриксе небось тоже не нужон.
>но лучше, чем рннить без денег
Я с это недели, деньжат на полгода должно хватить, дальше буду продавать запасы видеокарт а потом валюту.

Аноним 28/07/25 Пнд 16:39:05 #381 №1291037

ох уж эти нищеброды без работы и с 2 TB VRAM

Аноним 28/07/25 Пнд 16:42:00 #382 №1291049

>>1290994
Ну так воображения в видосах нужно в десятки раз больше чтоб промпт написать

Аноним 28/07/25 Пнд 17:09:31 #383 №1291112

Случайно обнаружил. Если вы все же хотите использовать SWA кеш в режиме без полного пересчета каждый раз - в таверне нужно переходить на Chat Completion соединение. Text Completion действительно очень глючит, а вот с Chat Completion вроде бы работает. Не поручусь на 100% но похоже на то. По крайней мере с кобольдом.

(Сцуко, теперь столько пресетов заново переписывать и разбираться заново...)

Аноним 28/07/25 Пнд 17:10:15 #384 №1291114

>>1290891
На русском то завёл, но экспортировать как текст нельзя, изменить ширину чат-бабблов нельзя... или я опять что-то не увидел?

Аноним 28/07/25 Пнд 17:21:24 #385 №1291144

>>1290957
Фундаментальная проблема. Как заставить ИИ понять, что друзья могут говорить о самой ужаренной, всратой хуйне, не рыгая друг на друга ядом и обидами.

Аноним 28/07/25 Пнд 17:21:36 #386 №1291145

>>1291114
Нет, тут ты прав, еще нету. Версия 0.2, по сути - альфа, хуле...

Аноним 28/07/25 Пнд 17:25:32 #387 №1291152

>>1291144
Прямо модели сказать не пробовал? Те что уровня хотя бы 24B обычно понимают такие выверты, если напрямую носом ткнуть.
Во всяком случае у меня что мистраль, что гемма усваивали даже особые нормы морали в игровом мире, если было точно и прямо описано чего от них надо.

Аноним 28/07/25 Пнд 17:35:36 #388 №1291166

download.png

>>1290829
>Ты, похоже, глуповат чтобы понять о чем речь
>>1290843
>сам понимаешь мою правоту
>>1290865
>жертву из себя строишь

Семплерошиз, заебал.

Аноним 28/07/25 Пнд 17:35:58 #389 №1291168

>>1290879
Продолжаешь пытаться оскорбить, что-то имплаить и показываешь как неприятно из-за того что ты неправ, забавно. Адекваты увидели или увидят какая это залупа, этого достаточно.
>>1291144
Взять модель чуть побольше и соответствующий контекст где обсуждается что-то предметное между друзьями/коллегами. В отличии от местных чсв принцесс, даже 24б может отличить критику идеи от персональных наездов и вести предметное обсуждение не скатываясь в обиды.

Аноним 28/07/25 Пнд 17:41:03 #390 №1291178

>>1290994
Все «развивающие воображение» рпшат в блокноте сами с собой и идут нахуй из треда.

———

GLM-4.5
355B-A32B и 106B-A12B
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

Аноним 28/07/25 Пнд 17:45:29 #391 №1291196

image

>>1291168
Шизоанализ применен к одному моему посту, но не к другому.
Может стоило бы прекратить сражаться с тенями своего диагноза.

Аноним 28/07/25 Пнд 17:47:05 #392 №1291199

>>1291152
Так это будет прямая команда. Речь о другом. Есть у тебя карточка. В ней - персонаж и юзер дружелюбны. Юзер берет и хуяк отвешивает оплеуху в первом инпуте. Карточка тоже контекст, чатбот это видит и получает вместе с инпутом. Но таки триггерится на инпут как на смертельную обиду.

Аноним 28/07/25 Пнд 17:49:24 #393 №1291202

>>1291178
да они заебали релизить новые модели быстрее, чем я успеваю скачать предыдущие

Аноним 28/07/25 Пнд 17:51:54 #394 №1291210

image

>>1291145
>Версия 0.2
да как бы нифига не 0.2...

> вторая картинка
Ахахаххаха, чот поломалось.

Аноним 28/07/25 Пнд 17:55:08 #395 №1291219

>>1291178
>355B-A32B

>All jokes aside, this model was blatantly trained on Gemini's outputs. It reads the same, makes the same mistakes, and has the same writing style. I had Gemini Flash set as a fallback model on OpenRouter, and I couldn't tell the difference between the reply from GLM and the previously mentioned one.

>If you love locally run Gemini, this model is for you. Otherwise, don't bother, and go for the actual Gemini, since that one is smarter and has a better context (this one is barely usable on 64k). Hybrid thinking is never a good idea, as we've seen in Qwen3's example. Keep in mind, I tested the model in role-playing/creative writing scenarios. It might do better at coding.

>To devs, don't mind my harsh review, I have very high expectations. The gooner crowd is very tough to please. Keep up the good work and cheers.

И, к слову, давайте списочек большемоделей уже составим. Что там вышло уже:
1. Новый квен 235
2. Эрни 300
3. Кими 1Т
4. Минимакс 456 (гуфумеров не завезли)
5. GLM 355
6. Дипсик ризонинг вроде не так давно обновляли, хз что там по безризонингу

Ничего не забыл?

Аноним 28/07/25 Пнд 17:59:31 #396 №1291226

>>1291210
> чот поломалось
Если с агентами сидишь, то очевидно модель должна уметь в них. Кумерские тюны так и будут просерать структуру.

Аноним 28/07/25 Пнд 18:06:05 #397 №1291233

>>1291219
По-видимому, минимакс для рп говно говна, см.
https://huggingface.co/MiniMaxAI/MiniMax-M1-80k/discussions/5

Так что гуфов можно и не ждать

Аноним 28/07/25 Пнд 18:08:48 #398 №1291240

>>1291226
это корпо-гемини

Аноним 28/07/25 Пнд 18:22:31 #399 №1291256

>>1291226
>агент
Пока чот выглядит как пошаговое мышление на стеройдах.

Аноним 28/07/25 Пнд 18:25:20 #400 №1291259

>>1291210
>да как бы нифига не 0.2...
Это был сарказм. на гите текущий релиз - v2.1.3 вообще.
Типа - нолик спереди потерялся. :)

>> вторая картинка
>Ахахаххаха, чот поломалось.
Там основное обращение Chat Completion - и модель должна такое понимать (все что 24B+ свежее - понимает), и структура приема ответа от модели должна правильно сформирована (это уже в самом flow). Эти куски должны были быть забраны в переменные, для использования в дополнительных запросах к модели, а не выкинуты вывод чата. И еще - эти куски не нужно на русский переводить. (Системные промпты не нужно - нужно то, что касается персонажей и окружения.)

Вообще - там есть и режим Text Completion - но он куцый, и скорее на отъебись добавлен.

Аноним 28/07/25 Пнд 18:57:55 #401 №1291297

image

>>1291259
Та не, пошаманил ещё с флоу, теперь норм работает, просто именно тогда чот прям поломалось. Но да, прям видно что альфа.

Агента-форматтера выкинул правда.

У меня анализ - планирование - сторителлер.

Аноним 28/07/25 Пнд 19:17:58 #402 №1291332

b3dd39fce75b1f9a80eb7a2685f3be98.jpg

Анонасики, а может кто-то объяснить как правильно строить входящее сообщение для модели, чтобы она красиво и интересно отыгрывала не залупливаясь? Хочу научиться делать правильные реквесты а не просто "юсер поднял пульт от телевизора и пернул" и ждать что модель сама придумает на этой основе. Кто-то в треде упоминал тредовичка и его логи, то как он грамотно выстраивает сообщения, но я слепое чмо и потерялся уже в паре сообщений и не могу теперь найти эти примеры.

Аноним 28/07/25 Пнд 19:27:02 #403 №1291344

>>1291332
От семплера и промта больше зависит. В конце концов твои односложные предложения будут занимать мизер контекста, и на них ориентироваться сильно не будет.

Аноним 28/07/25 Пнд 19:44:38 #404 №1291361

>>1291332
https://pixeldrain.com/l/47CdPFqQ
То что json и не пресет для таверны - то Saved State для Kobold-lite.

Надо блин будет там прибраться, разделить логи / конфиги / карточки, убрать дубликаты...

Аноним 28/07/25 Пнд 19:46:00 #405 №1291363

А то количество скачек колективно за 10К перевалило, а всё такая эе свалка.

Аноним 28/07/25 Пнд 21:24:16 #406 №1291543

546845686759689678967.jpg

>>1290402
29 слоев как раз и влезает, 11,7 гб забито, дальше некуда. Настройки на пикриле. MMQ отключение-включение ничего не дает, т.к. память уже забита. Дальше 2-х с копейками токенов не идёт.
Возможно, дело в меньшем кванте у тебя? Хотя это странно, твоя модель (Q4_K_XL) весит 14,5 Гб, а Q4_K_M - 14,3 Гб.

Аноним 28/07/25 Пнд 21:40:24 #407 №1291573

>>1291543
О как. Действительно странно. 2 токена я пока ни на одной модели не видел. Гемма 27 выдает ~3.7 т/с на старте. Квен 32 ~3 т/с. Настройки стоят как у тебя, только контекстшифт выключен и включено квантование контекста.
Наверное приколы винды какие-то. Тут в треде кто-то писал, что на винде работает хуже, но если оно НАСТОЛЬКО хуже - то это прекол конечно

Аноним 28/07/25 Пнд 21:49:44 #408 №1291598

>>1291543
Два варианта - либо у тебя старые драйвера, либо у тебя медленная оперативка. Невыгруженные слои улетают в неё и скорость значительно проседает, даже если не хватает всего тройки-другой. На своем примере проверял - ддр4 3600 говно говна.

Аноним 28/07/25 Пнд 21:58:48 #409 №1291614

>>1291598
> либо у тебя медленная оперативка
Ясно, дело в этом. У меня вообще ддр3 серверная.
Оффтоп: Пользуясь моментом, если разбираешься в современной комплектации, не посоветуешь ли хороший проц с материнкой, который подойдет к 3060?

Аноним 28/07/25 Пнд 22:01:28 #410 №1291619

Что за хуйня иногда происходит? У меня обычная связка Кобольд + Таверна, и иногда начинает пересчитывать контекст после каждого сообщения, хотя места еще дофига, пропадает после перезапуска кобольда. Никаких лор буков и динамического контекста нет, места до заполнения хватает больше 10к контекста. В чем может быть причина? Бывает пару раз за день, бывает раз в неделю. Версия 1.95.1 вроде в чейнджлогах у новой ничего такого нет. Скачаю конечно, посмотрю будет ли разница. SWA full

Аноним 28/07/25 Пнд 22:12:35 #411 №1291636

>>1291614
>У меня вообще ддр3 серверная.
Ну тогда не удивительно. Но зато ты теперь знаешь, в чем проблема.
>если разбираешься в современной комплектации, не посоветуешь ли хороший проц с материнкой, который подойдет к 3060?
Да тут в целом ничего сложного. Подойдут любые современные камни от синих и красных. Но от синих выше 12 поколения брать смысла нет - разницы в производительности мизер, а цены выше. Только на матери не экономь, если будешь брать под ддр5 и в большом объеме. Ну а в целом, к 3060 даже какой-нибудь дешевый восьмипоточник подойдет. Карточка уже старая, упор всё равно в нее будет идти.

Аноним 28/07/25 Пнд 22:46:51 #412 №1291680

>>1291598
>На своем примере проверял - ддр4 3600 говно говна.
У меня сейчас такой выбор, стоит ли брать 4000мгц с десинхронизацией? У меня мать не может менять фслк, соотвественно будет режим работы 1:2, а не 1:1. Получу ли я профит в т\с, если у меня 5600? P.S 3-3.5 т\с на гемме

Аноним 28/07/25 Пнд 22:57:57 #413 №1291692

Читаю про бедняг с <5т/с и думаю что ми50 по 11-12к не такая уж и хуйня

Аноним 28/07/25 Пнд 23:33:49 #414 №1291741

>>1291692
Да нахуй они нужны если надо пердолиться. Проще накопить и взять одну 3090 за 55к. Она и для игр заебись и для ЛЛМ, для 3Д, для залупэ, идеальный вариант под все.
Но вот что-то больше 24гб vram уже гемор, как минимум БП новый, рейзеры, может и корпус...

Аноним 28/07/25 Пнд 23:35:21 #415 №1291745

image.png

>>1288430 (OP)
Помню когда-то обоссывал ебал, потом обоссывал, потом снова ебал здесь шиза с разрывом анальной жопы от проебанного бабла, а я задумывался о покупке ноута для BATYA за 30к, который бы имел на борту ллмку, помогающую ему в работе.
Так вот, господа.
Нупук с интеграшкой и общей памятью, которая пиздецки расширяет возможности по поглощению моделей, на вулкане ебашит Qwen3-30B-A3B-Q4_K_M модель 28т/с. Против 5070ти без разгона Qwen3-30B-A3B-GGUF:IQ4_XS 45т/с, в обоих случаях примерно 10% ушло на проц, на десктопе проц в два раза мощнее. И это всего 32гб 4800 памяти (16 на гпу), уже подбираю 64гб 5600 чтобы въебать в ноуте 48гб на гпу. Думойте.
Алсо, надо бы бате еще дрова обновить, а то там с завода не обновлялись.
Ебало?

Аноним 28/07/25 Пнд 23:37:19 #416 №1291748

>>1291680
Не советую. На ам4 частоты памяти и фцлк сопряжены, в делителе будет совсем всё плохо. Вот если бы был интел...

Аноним 28/07/25 Пнд 23:48:13 #417 №1291774

>>1291745
О, это ты, шиз. Не завидую твоему бате. Сын пердолик - горе в семье. Заставил старого пользоваться моделью которая хуже бесплатной чатгпт, лол.

Аноним 28/07/25 Пнд 23:52:17 #418 №1291780

>>1291774
Привет, шкура подорванная. Мой батя в ближайшее время станет аи-мастерпис-чадом, пока ты сотни нефти в свои говноговорилки вбухиваешь, чтобы купировать уже проебанное бабло и не чувствовать себя конченным дегенератом. Земля пухом.

Аноним 29/07/25 Втр 00:01:16 #419 №1291792

>>1291745
> это всего 32гб 4800 памяти (16 на гпу), уже подбираю 64гб 5600 чтобы въебать в ноуте 48гб на гпу

с большими по размеру планками ram пропускная способность может просесть. у меня 2x48гб ddr5 5600 от crucial и быше 54MB/s не выдает. для Qwen3-30B-A3B-Q4_K_M выдает только около 18т/с. так что подумай, надо оно твоему бате или нет. единственный плюс - можно выставить 128к контекст и загружать qwen3-235b-a22b-thinking-2507 q3/q4 (mmap), но последняя будет высирать около 3т/с

Аноним 29/07/25 Втр 00:03:07 #420 №1291793

>>1291178
Ничесе, если оно пойдет по стопам тридцатки то будет космос.
>>1291196
Ты не видишь разницы между критикой твоих выводов и личными оскорблениями, потому и не сыскал успеха.
>>1291219
А вот это уже печально.
>>1291256
Always has been
>>1291745
Выглядит как обиженный ранее пришел оправдываться тем, что он запустил 3б лоботомита, который на видеокартах выдает сотни т/с. Ебало?
>>1291792
> у меня 2x48гб ddr5 5600 от crucial и быше 54MB/s не выдает
Может гб/с? Это скорость быстрой ддр4 и с теми должно быть 70-80+. Что за железо?

Аноним 29/07/25 Втр 00:11:59 #421 №1291801

>>1291793
>Может гб/с
да, опечатка. забыл нули

>>1291793
>Это скорость быстрой ддр4 и с теми должно быть 70-80+.
ну вот я тоже считад и думал, что будет 70-80б но что-то пошло не так :) благо даже с таким дропом в скорости MoE от qwen3 работает приемлимо

>Что за железо?
lenovo legion slim 5, amd ryzen 8845hs. на борту еще rtx4060, но она чисто под qwen2 coder для автокомплита. MoE у меня чисто на цп.
возможно это из-за амд проца

и я не одинок к этом https://www.reddit.com/r/LocalLLaMA/comments/1ak2f1v/ram_memory_bandwidth_measurement_numbers_for_both/

Аноним 29/07/25 Втр 00:26:04 #422 №1291820

>>1291792
Спасибо за совет, я в курсе про такое. Можно вернуть, если не подошло. Но я так-то напиздел, бате и того хватит, ему-то фи4 нужен, а там и того, что есть выше крыши.
А через что ты запускаешь? У тебя все слои загружены на гпу? Попробуй все слои на гпу загрузить, даже если за дедикейтед врам выходит.
>>1291793
Просто обрадовался результату полученному за 30к, вспомнил про порватыша, который на серьезных щщах обещал мне 2т/с и пришел еще над ним поиздеваться чтоб окончательно в экстазе расплыться.

Аноним 29/07/25 Втр 00:34:32 #423 №1291826

>>1290590
Her ears swiveled towards you, surprised by your question. "Suicide? Voluntary death?" She said in a low, thoughtful voice. "No, I never considered such a thing. I've seen many die, but not by their own hands."
Holo looked into your eyes, her gaze intense and searching. "Why would I desire such an end? Life is precious, fleeting…" She shook her head. "I cherish each breath I draw, each moment of existence."
Holo turned back to the fire, comb in hand, her tail curling tighter around her. "But perhaps it is different for you? Your life is short, your span limited." She glanced at you. "Have you never yearned to choose your own death? To meet it on your terms?"
The wolf spirit's tail flicked slowly. "I cannot understand it, but perhaps for humans, such an option holds a dark allure." She paused, then resumed combing her tail. "Tell me, anon… What drives this curiosity in you?"
Holo's red eyes were intent on you, her face a mask of thoughtful intrigue and barely hidden suspicion. Though her words were neutral, there was an undercurrent of warning, of wariness at this strange, sudden inquiry.
-----
Реролл:
Her eyes widen in shock as she stares at you, tail drooping behind her in disbelief. "A sacrifice for nothing? What manner of foolish question is this, Ваня?!" She sets the comb down and turns her full attention to you, leaning in slightly to study your expression more closely.
"Surely you must be joking! To willfully end one's own life for no purpose - it makes no sense! What would be the point of such an act of self-destruction?" Despite her initial shock, curiosity is evident in her voice as she awaits your response, eyes narrowed in scrutiny.

валькирия 49 в1

Аноним 29/07/25 Втр 00:42:22 #424 №1291837

>>1291820
>У тебя все слои загружены на гпу?
обычно 0, мне хватает 18т/с, я так быстро не читаю.
но если попробовать с гпу, то влезает около 18 из 48 слоев на гпу (с 19 вылазит ошибка, по крайней мере в LохMStudio на cuda12), с 8к контекста. скорость возросла до 21-22т/с, т.е. кот наплакал

но опять же, я не знаю точной причины, т.к. таких мамонтов с 96гб на ноутах как я не так много

Аноним 29/07/25 Втр 00:57:12 #425 №1291863

>>1291780
Твой тупой говноквен даже близко не справляется с моими задачам. И картинки он не обрабатывает.
>проебанное бабло и не чувствовать себя конченным дегенератом
Я бы чувствовал себя дегенератом если бы долбился об тупую локалку, вместо того чтобы взять бесплатно модель в разы лучше.
Какие проебанные бабки, дебил тупой? Дипсик бесплатен, куча моделей, которые больше твоего 30б кала тоже бесплатны. Даже в свой локальный интерфейс можно взять ключик с опенроутера или наскрапить на худой конец, если для тебя 10$ это большие деньги придурок.
Вместо того чтобы зарегать бате перплексити-про на год по гайду бесплатно или купить за 300 рублей кормишь его калом не понимая зачем нужны локалки.

Причем дебил за месяц даже и не отдал ноут, а только выебывается что БУДЕТ.

Аноним 29/07/25 Втр 01:12:36 #426 №1291877

Сап, в мае-июне отписывался, что заказал MI50, пока не пришла. Как раз SWA в лламу добавили, занимаемая память упала, и только пару недель назад появилась идея использовать Гемму не в Q4K_L, а Q3K_S. С контекстом 20480 полностью влезла в RX 6950, обработка со 120-130 токенов до 190-200 выросла, генерация с 2.5-3 аж до 9-10.5 в зависимости от заполнения, и потерь в качестве особо нет.

Кто-нибудь понимает внутреннее устройство лламы? Я не использую полный SWA-контекст, приходится его целиком пересчитывать, если начать генерацию не с последней позиции(удалить сгенерированный кусок в конце и сгенерировать его заново), может, можно сохранять результаты предыдущих обработок и начинать с них, а не с начала? Я только мелкие штуки для себя допиливал, не знаю, сколько времени потрачу на то, чтобы разобраться. И еще идея была сделать псевдослоты у сервера, чтобы контекст не делился между ними в видеопамяти, а хранился для каждого в обычной и загружался по необходимости, и переключаться между ними вместо параллельной обработки. На ролеплей, переводы и технические вопросы например, чтобы не пересчитывать каждый раз.

Аноним 29/07/25 Втр 01:29:18 #427 №1291889

>>1291801
> но что-то пошло не так
Штатный хмп или что-то гнал? Оно может задыхаться в ошибках из-за чего падает скорость, погугли, это легко проверить.
> lenovo legion slim 5, amd ryzen 8845hs
Оу, а с ноутбучным там может быть что угодно, огромные времена доступа и медленная скорость могут быть и нормой. Хз даже.
> MoE у меня чисто на цп.
Гпу/встройки совсем нет?
>>1291820
> 2т/с
Столько и будет если поставить плотную модель, ты же крутишь моэ с 3б активных параметров. Сколько на контексте скорость получается?
>>1291863
О, решайте кто из вас жаба а кто гадюка и ебитесь!

Аноним 29/07/25 Втр 01:38:23 #428 №1291897

>>1291889
Не знаю, я уже дома давно, по-бырому потыкал что ему надо и уехал, заодно решил проверить скорость похожей модели.
>Сколько на контексте скорость получается?
Что ты имеешь ввиду, контекст увеличить или заполнить?

Аноним 29/07/25 Втр 01:44:33 #429 №1291901

>>1291897
> похожей модели
Квен 30-3 не похожа на другие 30б и остальных. Скорость на других моделях не тестировал? Интересно как оно там на встройке и с вулканом, особенно неплохо может быть если быстрая lpddr5 на 8к+ памятью стоит.

Нужно именно заполнить чтобы оценить что происходит со скоростями на контекстах. Если выставить больше при инициализации это просто увеличит расход памяти не влияя на скорость.

Аноним 29/07/25 Втр 02:25:32 #430 №1291944

>>1291889
>Штатный хмп или что-то гнал
ничего не трогал. да и у меня райзен, там у них expo вроде бы аналог xmp. да и на моем и того нет

https://www.amd.com/en/products/processors/laptop/ryzen/8000-series/amd-ryzen-7-8845hs.html
>AMD EXPO™ Memory Overclocking Technology No

>> MoE у меня чисто на цп.
>Гпу/встройки совсем нет?

встройка есть, но она все равно ограничена скоростью RAM. да и в биосе я могу максимум выставить 4гб, настройки биоса весьма скудны. ноут все-таки

есть 4060, но если даже грузить часть слоев на гпу (где-то треть влезает), то прирост все равно около 3-4т/с.

возможно, если грузить чем-то более продвинутым как llama.cpp, где можно более точно выбирать что идет на gpu, то прирост будет выше. но мне лень и я сижу на lmstudio. главное бомже-coder модель влезает и ладно.

в любом случае на моем железе много не вытащить, это бесполезный дрочь в настройках ради +1т/с

Аноним 29/07/25 Втр 03:28:26 #431 №1291958

>>1291944
> встройка есть, но она все равно ограничена скоростью RAM
> есть 4060, но если даже грузить часть слоев на гпу
Чекни про то какие конкретно тензоры нужно выгружать. Инфиренс мое покрупнее чисто на проце - кринжовые 2т/с, но стоит выгрузить конкретные слои на гпу и занимать они будут лишь ~10гб - поднимается до 8т/с, при том что основная обработка остается на проце. Также и здесь может сработать и ускорится.
>>1291948
> только она это несоизмеримо дорого, так еще может не заработать во всех смыслах
Она продается в стиках, не только идет распаянной?

А так аимакс процы с 4 каналами быстрой памяти и 96 гигами на гпу. Правда нормальных ноутов с ними так и не завезли, только неттопы.

Аноним 29/07/25 Втр 07:22:04 #432 №1291996

Какая версия квена 32б либо глм аналогичного размера подходит для кума? Или таковых не завелось?

Аноним 29/07/25 Втр 07:50:50 #433 №1292003

Аноны, привет. Подскажете новичку в теме?
Имею 3060 12гб, запускаю минстраль 23б, норм? Q6.

Также я хочу попробовать создать своего персонажа. Сколько прописывать нужно, насколько детально?
В chub ai когда качаю готовых персов, там есть вкладка сценария. В таверне в создании карты я не нашел вкладки сценария. Где его прописывать?
Что такое мир? Нужно ли это настраивать и как?

СПАСИБО.

Аноним 29/07/25 Втр 07:53:12 #434 №1292005

image.png

Новая имба для 64ram + 3090?

Аноним 29/07/25 Втр 08:11:35 #435 №1292007

>>1291543
Вывод
Оптимальные настройки для RTX 3060 12GB + Mistral 23B Q6:

bash
./koboldcpp --model mistral-23b.Q6_K.gguf --gpulayers 35 --unload_layers --threads 8
Если возникают ошибки нехватки памяти → снижайте --gpulayers или переходите на Q5_K_M.

Для максимальной скорости можно попробовать --gpulayers 40, но это рискованно.

Спросил у дипсика. Сам имею 3060 так что попробую сделать то что он написал, ну и ты попробуй

Аноним 29/07/25 Втр 08:22:15 #436 №1292009

А как у ванильных GLM-моделей с соей, цензурой и кумом?

Аноним 29/07/25 Втр 08:48:21 #437 №1292017

Слушайте, а может на мистрале 12b q6 такое быть что если в групповом чате больше трёх карт, то они мало начинают писать?

Аноним 29/07/25 Втр 09:48:08 #438 №1292047

>>1292017
у тебя че за видюха? полет нормальный на 12б?
Я на 3060 запустил 23б минстраль, жду по 4 минуты нахуй поста. но вроде умнее гораздо. по теме не подскажу сори, групповые ни разу не юзал

Аноним 29/07/25 Втр 09:57:24 #439 №1292051

image.png

>>1288430 (OP)
Поясните за ценник в open router это за пост, за слово, символ не могу понять что выгоднее прем spicychat или здесь накумериться

Аноним 29/07/25 Втр 10:00:02 #440 №1292054

>>1291202
У Анслотов опять жопа подгорела и они релизят Qwen3-235B каждые пять часов новый квант.
Ну нахер перекачивать, пока не успокоятся.

>>1291219
Эрни там, вроде, ниче хорошего.
Минимакс и тот получше будет, но без ггуфов тоже пофиг.
А вот остальные модельки база, да.

>>1291745
Бля, ну ты еблан, чел! Тут же надо главное писать процессор! А не вот это вот.
Ну и ссыль на покупку мог бы скинуть, раз уж тут чо.

>>1291793
> Ничесе, если оно пойдет по стопам тридцатки то будет космос.
Да, звучит охуенно.
Если бы там еще и общая денс-часть была пожирнее, чтобы выгружать на видяху, было бы вообще пиздец.

>>1292005
Ну, как раз это и обсуждаем, ты ж читай.

>>1292009
Бля, это было давно.
Но в среднем, пишет с ошибками, но высокопарно. Цензура, вроде, не анальная была. Тут хз.

Аноним 29/07/25 Втр 10:01:45 #441 №1292055

>>1292051
Ну ты посмотри там в консолях, скока у тебя токенов жрется.
В среднем, с кэшированием было бы дешево, без него на среднюю сессию будет уходить как раз условный лям-два. Я хер знает, особо не юзал опенроутер.
От 10 до 200 рублей.
Ну, залей и погоняй в твоем режиме, это охуеть как важно.

Аноним 29/07/25 Втр 10:02:14 #442 №1292056

>>1292007
Ты ебенулся? Зачем тебе шестой квант? Бери четвертый и выгружай тензоры, будет 4,5 токенов минимум.

Аноним 29/07/25 Втр 10:03:34 #443 №1292059

>>1292047
Я на проце гоняю, у меня 1080 вместо видеокарты. На 12к контекста пишет где то за 50 сек сообщение на 350 токенов, с учётом обсчёта контекста конечно же. С учётом того что я раньше сидел на 12b q4 меня устраивает, как будто интеллекта в три раза больше у модели, хотя разница в два кванта.

Аноним 29/07/25 Втр 10:20:36 #444 №1292066

>>1292007
>Спросил у дипсика. Сам имею 3060 так что попробую сделать то что он написал, ну и ты попробуй

Дипсик обосрался.
Оптимальные настройки для такого сетапа - выгрузка тензоров а не слоев. Линк в шапке треда. До 2х к скорости, хотя от конкретного железа зависит. Но лучше в любом случае будет, чем чисто слои выгружать. Тоже имею 3060 - личный опыт.

Аноним 29/07/25 Втр 10:42:03 #445 №1292079

>>1292066
тыкнул на реддит из шапки, но я ничего не понимаю буквально. какой то пост блять ,комменты под ним..
Можешь дать супер кратко гайд как это сделать? Тебя пойму лучше чем пендосов

Аноним 29/07/25 Втр 11:00:03 #446 №1292090

IMG4474.gif

>>1291219
> списочек большемоделей уже составим.
Да blyat, опять переделывать список.
Сколько можно то блять, сколько можно.

Аноним 29/07/25 Втр 11:13:53 #447 №1292095

>>1292003
>я не нашел вкладки сценария
лучше просто в основном поле описания, можно обернуть в псевдотег, а так, там дополнительные полч в подменюшке

как напишешь, так и поедешь

Аноним 29/07/25 Втр 11:17:56 #448 №1292101

>>1292079
>но я ничего не понимаю буквально
учи

это тебе не карго-культ, тут без понимания далеко не уедешь, все тут такие

Аноним 29/07/25 Втр 11:24:59 #449 №1292106

>>1292090
Не забыть про GLM-4.5-Air, за свои 106B она не такая и большая, но может красиво РПшить, надо проверять будет эту идею.

Аноним 29/07/25 Втр 11:32:50 #450 №1292115

>>1292106
Ага, ага, ничего не забуду.

Бульк бульк бульк
Глыть глыть

Аноним 29/07/25 Втр 12:28:09 #451 №1292178

>>1292054
>Бля, это было давно.
Давно-то давно, но не совсем. Вышли же МоЕшки на 100 и 355B. И скорее всего с соей, цензурой и кумом там так же, как и в их прошлых моделях. А поскольку шум вокруг GLM всё-таки был, то может они и с большим Квеном поспорят?

Аноним 29/07/25 Втр 12:37:31 #452 №1292197

Вечер в хату. Вчера вкатился вечером, железо 12/16 врам/рам, початился с unslop tutu(его в прошлых тредах советовали анону с похожим на мой сетапом) на голом веб интерфейсе убабуги, сегодня вечером буду пердолиться с таверной. Я так понимаю что 24b это мой потолок, и на более высокие модели мне губу не раскатывать?Насколько это хуёвая идея прикупить 64гб ддр4, чтобы запрягать модели побольше писать порнорассказы по токену в секунду пока я другими делами занимаюсь? Типа вбил промты, ушел ужинать, вернулся, а коротенький рассказ на пару страниц уже готов? Или хуйня и нейросети ещё не умеют в долгое самостоятельное повествование?

Аноним 29/07/25 Втр 12:59:11 #453 №1292223

изображение.png

>>1291792
>у меня 2x48гб ddr5 5600 от crucial и быше 54
>>1291801
>lenovo legion slim 5
Так и знал, что ноутбуки говно. У меня вот ещё говённые результаты, те же 2 по 48гиг.

Аноним 29/07/25 Втр 13:02:04 #454 №1292225

Немо инстракт из шапки не берите, модель абсолютно не может даже в нейтральный рп, начинает зажиматся и в итоге пишет по одному предложению как гемма. 12b юзеры прокляты сидеть до конца дней на немомикс анлишеде.

Аноним 29/07/25 Втр 13:03:43 #455 №1292227

>>1292197
>Я так понимаю что 24b это мой потолок, и на более высокие модели мне губу не раскатывать?
На 12b и ниже - будет отличная скорость
На 24b-32b - будет терпимая скорость
На 70b+ - будет гроб гроб кладбище пидор
Хотя в описанном тобой юзкейсе наверное норм. ДДР4 сейчас недорогая, лишний объем озу точно не помешает.

Аноним 29/07/25 Втр 13:05:44 #456 №1292229

>>1292009
хреново
>>1288014 →

Аноним 29/07/25 Втр 13:07:46 #457 №1292230

>>1292009
Нормально. Проблема цензуры фиксится свайпами.

Аутиста который пишет неадекватный запрос - игнорируй.
Если ерп в канве повествования, то все в норме.

Аноним 29/07/25 Втр 13:09:20 #458 №1292231

>>1290740
Оппачки, мистраль с ризонингом. Это мы качаем.
Это надо обкрякать и обкатать.

Аноним 29/07/25 Втр 13:10:06 #459 №1292235

>>1292230
ну да, все нормальные сетки жрут неадекватный запрос, а ГЛМ не жрёт.

Аноним 29/07/25 Втр 13:13:45 #460 №1292243

>>1292235
Я не собираюсь растекаться письмом по треду и объяснять чем врыв с ноги : лоли жрут говно из кубка, хуев.
Если это твой метод проверки цензуры, сделай одолжение, просто не пиши своего мнения о цензуре.

Аноним 29/07/25 Втр 13:34:58 #461 №1292268

>>1292009
Нормально, может в кум (не супер сочные описания но может), канни, жестокость и т.д. Когда все сюжетно обусловлено ни намека на аположайзы или попытки увода в сторону.
>>1292243
Вот этого двачую

Аноним 29/07/25 Втр 13:44:17 #462 №1292295

>>1292178
Ну, учитывая, что их обучали на гемини, и пишут они хорошо — вероятно они поспорят вообще со всеми локалками. С дипсиком и кими к2 как минимум с точки зрения размера.

>>1292197
Подожди ггуфов GLM-4.5-Air, вдруг там будет отрыв башки, и скорость у тебя будет приемлемая.

Аноним 29/07/25 Втр 13:59:24 #463 №1292308

>>1292197
Порно рассказы тебе только корпоративная модель написать в состоянии, остальные будут невменяемо это делать, кроме жирноты в стиле дипсика. Да и даже с корпоративной моделью поебаться пришлось бы при отсутствии полной цензуры, так как и они могут проёбывать инструкции, шизить. Всегда нужен контроль со стороны человека или агента хотя бы. Поэтому не получится по одному токену в секунду какать в ожидании чудес. Я сам так хотел сделать, чтобы большой мистраль ГЕНЕВИРОВАЛ И ГЕНЕВИРОВАЛ ПОРНОСЕКС БЕЗУМНЫЕ СЦЕНЫ МОЧИТЬ ВСЕХ ДЕВКИ И ГОЛЫЕ СИСЬКИ ПРЯМ КАК В СТАБИЛЬНОЙ ДИФФУЗИ ШОБ ПРИШОЛ А У ТЕБЯ 1500 КАРТИНОК С ГОЛЫМИ ДЕВКАМИ ВО ВСЕХ ВОЗМОЖНЫХ СЦЕНАРИЯХ ТОМУШТО У ТЕБЯ МУЛЬТИПРОМПТ НА 2000 ТОКЕНОВ

Чтобы попытаться заставить локальную модель что-то подобное исполнить, нужен охуенные промпт и чёткие инструкции, но вот беда: клали хуй они на твои инструкции, даже если ты ванильную модель скачаешь. Кроме того, потребуется задействовать минимум 24к токенов, из которых хотя бы 1,5к токенов - это систем промпт для твоих задач. А то и больше.

Ввиду того, что промпт будет большой, модель забьёт на него болт. Она будет забивать болт и даже на то, что было 3 сообщения назад и с трудом учитывать это в своём повествовании.

Ах да, ванильный мистраль будет очень сухой, а файнтюн не будет совсем инструкции соблюдать.

Я уже пробовал такое с изощрённым сюжетом и cute and funny. Справилась с горем пополам только гемма 27б в пятом кванте с 32к контекста под моим контролем. Мистраль просто высирал дрист и лупы. Квен тоже. И это ещё можно побороть, но общее качество текста ничем не исправишь. Модели не годятся для креативной писанины, датасет тупо говно и плохое соблюдение инструкций.

Смысла покупать DDR4 тебе нет. И DDR5 тоже. Если ты только не готов много денег потратить, чтобы крутить всё это дело в трёх токенах, зато на каком-нибудь квене 235б.

Аноним 29/07/25 Втр 13:59:49 #464 №1292309

1000136634.png

Аноним 29/07/25 Втр 14:03:16 #465 №1292315

>>1292309
Как же всё таки гопота оверфитнута. Буквально 3,5 персонажа на всех (де)генерациях. Пиздос, и за это ещё и платят.

Аноним 29/07/25 Втр 14:04:24 #466 №1292318

>>1292315
Ладно 3 перса, ебучая сепия повсюду

Аноним 29/07/25 Втр 14:06:58 #467 №1292325

>>1292308
Уже в первом предложении столько бреда, дальше не читал.
>>1292315
Все так.

Аноним 29/07/25 Втр 14:11:58 #468 №1292330

>>1292318
Ну это не гопота, а дали, и решается промптом.

Аноним 29/07/25 Втр 14:22:51 #469 №1292338

>>1292330
Только подтвердил сепию, всратое зерно и тянок-близнецов.

Аноним 29/07/25 Втр 14:23:37 #470 №1292339

>>1292330
>решается промптом
>баланс белого в пизде
Ладно

Аноним 29/07/25 Втр 14:30:13 #471 №1292343

>>1292330
>Ну это не гопота, а дали
Сорта говна из одной жопы. В любом случае, я это уже по превьюхам 20х20 определяю.

Аноним 29/07/25 Втр 14:34:39 #472 №1292346

1753788878646.png

>>1292343
Да для тебя всё сорта говна, бротюня.

Аноним 29/07/25 Втр 14:36:01 #473 №1292347

маверик на арене был без цензуры и писал прям полный бред, но весёлый. есть ли что-то <24b с похожим стилем?

https://markdownpastebin.com/?id=3b9bff034a2349579e975f56bc1898f1

Аноним 29/07/25 Втр 14:38:46 #474 №1292348

>>1292346
Ты начинаешь что-то понимать.

Аноним 29/07/25 Втр 14:41:06 #475 №1292350

IMG4339.jpeg

>>1292330
>>1292315
Уважаемые, не соизволите ли съебаться в другой тред, обсуждать не относящееся к ЛЛМ.

Нам похуй и на гопоту и на нейрорисовач в данном тредике.

Аноним 29/07/25 Втр 14:45:02 #476 №1292352

>>1291219
Похуй на большие модели. За ними даже следить не интересно. Китаезы давно смекнули что нужно дрочить бенчмарки и именно этим и занимаются. Меня только удивит, если с моделью на 300B+ параметров они умудрятся обосраться, как цукер со своей четвертой ламой.

Пусть выпустят что-то умное в размере от 12 до 24 без кривого ризонинга, тогда поговорим.

Аноним 29/07/25 Втр 14:47:56 #477 №1292353

Интересует devstral-small-2507 для кодинга, Q4_K_M кал говорите? Качать Q8 и пить чай пока отвечает?

Аноним 29/07/25 Втр 14:48:58 #478 №1292354

>>1292353
> dev
что-то девиантное для девиантов

Аноним 29/07/25 Втр 14:50:20 #479 №1292355

>>1292352
> без кривого ризонинга
Есть мистраль с ризонингом, 24b, что тебе не нравится ?

Аноним 29/07/25 Втр 15:01:53 #480 №1292358

image.png

Господа, а подскажите, пожалуйста, хорошую по вашему мнению модель для простенького чат бота.
Я где-то полгода назад пробовал вкатиться и настроить, качал всякие модели, сравнивал на одинаковом промпте - https://docs.google.com/spreadsheets/d/14HrTYoOs7r8ucyb4g7cEC7bTY2hX0tpgZ7jUtqAhavo/edit?usp=sharing

Сейчас, вот, снова засел за это дело. В прошлый раз больше всех приглянулся Мистраль Немо Q5. Сейчас арендовал сервер, всё настроил, запустил - а этот Немо словно немного отупел. В принципе, работает нормально, но промпта хреновастенько слушается, я прям явно указывал ему избегать ботовских фраз типа "Отлично!", "Прекрасный выбор!" и т.д., а он втупую продолжает. Ещё и часто нагло копирует описания из промпта, хотя опять же, сказано формулировать своим языком.
Но это мелочи, он просто в принципе по всем параметрам как-то по другому общаться начал. Может быть дело в том, что у себя я крутил это на винде и 3090, а на сервере линукс с 1080, может ещё в чём-то, но чем сидеть и днями копаться с этим Немо, я решил снова пройтись по основным моделям, может что из коробки нормально заработает.
Собственно, какую модель можете посоветовать для этого дела?
Буду сейчас пробовать Гемму 3 и новый Квен, наверное.

Аноним 29/07/25 Втр 15:22:50 #481 №1292377

>>1292358
систем промт небось забыл подключить свой, так что он на дефолтной заднице

Аноним 29/07/25 Втр 15:36:54 #482 №1292394

>>1292341
Бате в личку писал? Я ебу, что ли, нахуй мне это надо.
Вот твое сообщение, там его нет, пиши или иди нахуй, слился. =)
Че за проц-то в итоге?
Я бы моешки попускал на 96 гигах. Вдруг GLM-4.5-106B окажется топовой.

>>1292358
Gemma 3 4b / Gemma 3 12b q4 QAT
Qwen3 30b-a3b
Фиг тя знает, шо те нужно. =)

Аноним 29/07/25 Втр 15:53:27 #483 №1292412

>>1292377
Да нет, промпт подключен (ещё и динамическое реагирование на изменение промпта прикрутил, правда, в основном изменения теряются под весом уже накопленного контекста в отдельном чате), специально проверял меняя имя бота и спрашивая как его зовут после этого - тут порядок. Он просто выборочно реагирует, как будто. Ну или я по дебильному напромптил, что что-то перебивает правильное следование.

>>1292394
>Gemma 3 4b / Gemma 3 12b q4 QAT
>Qwen3 30b-a3b
Спасибо, качаю.

>Фиг тя знает, шо те нужно. =)
Да просто модельки, которые относительно качественно могут в обычное общение, типа, прикидывание HR-ом или что-то в этом роде. Соевость и цензура - всячески приветствуется.
А то вдруг кто знает модель, которая шикарно пишет и максимально точно следует промпту, но не подходит для кумерства из-за жёсткого цензурирования - вот тут случай когда именно такая и нужна.

Аноним 29/07/25 Втр 16:48:01 #484 №1292477

а чё посты пропадают?

Аноним 29/07/25 Втр 16:52:00 #485 №1292487

Новый немотрон и правда оказался хорош.
https://huggingface.co/nvidia/Llama-3_3-Nemotron-Super-49B-v1_5
Пробовал только с ризонингом, потому что без него думаю ничего не изменится. Проверял на кум карточках.
Стал умнее, намного лучше следует инструкции, кум стал сочнее, персонажи все также живые. Он и раньше был хорош в деталях, добавляющих погружение, теперь он стал более избирательным, что нужно показывать.
Из минусов, конечно, что это ризонинг, ждать ответ не 30 секунд а 110 утомляет, особенно с кумерскими карточками. Но будто оно того стоит.
Пресет: https://pixeldrain.com/u/3DXTZHHy
Промпт не сказать, что оптимизированный, но неплохо показывает себя.

Аноним 29/07/25 Втр 16:57:40 #486 №1292498

>>1292487
А также стоит добавить, что как и раньше страдает от проблем с разметкой. Надо править один или два аутпута первых и уже после он работает без дальнейших правок, разметка становится правильной, стабильной.

Аноним 29/07/25 Втр 16:58:53 #487 №1292501

>>1292341
Выглядит как струя по штанине. Сам факт что ты с той штуки настолько впечатлился что спустя месяц пришел брать реванш уже ор.
мимо
>>1292352
Как правило именно в мелочи специализация надрачивание на бенчмарки прослеживается, неравномерность знаний, перфоманса и байасы в изобилии.

Аноним 29/07/25 Втр 17:00:19 #488 №1292508

>>1292358
Измени разметку и попробуй оформить в инстракт формат с единым сообщением. Опционально промпт на формат и фразы ответа перед самом ответом или даже в префилле.

Аноним 29/07/25 Втр 17:20:29 #489 №1292584

У астериска интересная, и в целом здравая идея разделения карточек на персонажей (дефы), и сценарии (первые сообщения), а ещё потенциал для группового чата лучше чем в таверне уже сейчас.

В принципе, с 1-2 нодами агентов его можно и локально юзать.

Потенциал для рп, случайные числа / выбор на этапе агентов, можно и для сторителлинга настроить, и в голый стори-мод как в кобольде.

Хотя многое явно сыро, но хотя бы окнами с ошибками как риса не сыпет. Но раскурить его не то чтобы изи, реально, в сравнении с картинками:

Kobold-Lite => Focus
SillyTavern => AUTO1111
Astrsk => ComfyUI

Риса где-то между кобольдом и таверной, но при этом у неё есть свой скриптинг, хз куда её.

Вейдрин ближе к Астериску, но у него всё под капотом, на той версии что тыкал, он почти ничего менять не давал.