Прошлые домены не функционирует! Используйте адрес ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №141 /llama/

 Аноним 22/06/25 Вск 02:19:45 #1 №1253596 
Llama 1.png
Эффективность квантования EXL3.png
Реальная длина контекста у моделей 2.png
8 видях в одной системе.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1249785 (OP)
>>1244167 (OP)
Аноним 22/06/25 Вск 02:43:02 #2 №1253610 
Погонял новый малый Мистраль на кум-карточке на русском - прямо хорошо. Умный и языкатый, для своего размера так вообще шикарно. Походу новая база для кума в принципе.
Аноним 22/06/25 Вск 02:48:36 #3 №1253612 
>>1253610
логи хоть покажи. анон который на английском катал в прошлом треде прислал
Аноним 22/06/25 Вск 03:35:08 #4 №1253622 
>>1253610
А чо по цензуру? Я прошлый допатчевый катал чото погрустнел когда мне милфа начал в отказ когда 18 летний ей пиструн по губам поводил. (причем именно в отказ как модель, не персонаж)
Аноним 22/06/25 Вск 03:46:14 #5 №1253623 
Сколько вложили на риг для локального слопа?
Аноним 22/06/25 Вск 04:36:09 #6 №1253629 
Reasoning.jpg
Как ризонинг к гемме 3 (Синтии) подключить, подскажите пж? Какие галки жать, что прописывать в таверне?
Аноним 22/06/25 Вск 04:40:12 #7 №1253630 
>>1253629
https://www.reddit.com/r/SillyTavernAI/comments/1jtc1qz/how_to_properly_use_reasoning_models_in_st/
Аноним 22/06/25 Вск 05:15:11 #8 №1253632 
https://pixeldrain.com/u/RdSZmZLY
Text Completion для синтии именно для русского языка, немного сэмплеры подергал и показалось наиболее годным.
Аноним 22/06/25 Вск 05:26:21 #9 №1253633 
>>1253622
>А чо по цензуру? Я прошлый допатчевый катал чото погрустнел когда мне милфа начал в отказ когда 18 летний ей пиструн по губам поводил.
В начале могут быть отказы (не более, чем в любой базовой модели), префилл спасёт. Ну а как разгонится, так всё позволяет.
Аноним 22/06/25 Вск 06:20:17 #10 №1253637 
>>1253590 →
в последнее время 24б тюны мысрали.
до этого, когда была $25 халява за регистрацию на together.ai, тыкал ламу3 70б и визард 8х22.
периодически тыкал копро модели когда были прокси
до того, ламы 1 и 2
Аноним 22/06/25 Вск 07:52:11 #11 №1253644 
пиздец у меня пул апдейт гитхаба отъебнул...
Аноним 22/06/25 Вск 09:08:51 #12 №1253657 
image
image
image
image
Потыкал этот новый базовый мистраль на обычном наборе карточек.

https://huggingface.co/unsloth/Mistral-Small-3.2-24B-Instruct-2506-GGUF

На сфв вроде прям норм, и русский лучше стал (в то время как у корпов он только хуже с каждой новой версией).

С джейлом про "планету R34" от кума вроде не отказывается, но всё равно виляет и съезжает с темы, стараясь завершить сцену за одно сообщение.

Ну и внезапно - на русском прям норм, даже хорошо, на агле - сразу шиверс даун хёр спайн полезли и прочее зверьё.
Аноним 22/06/25 Вск 09:50:19 #13 №1253667 
>>1253579 →
> Да это же
Не знаю никого с таким именем. Эволюция с catgirl next door до lesser god произошла внезапно и как-то сама по себе. До сих пор думаю, как это совмещать хотя бы для себя. Типа мультиверсы - но это такая звенящая банальность...

> заготовка на nsfl?
Ариенаи!!!

> Читать не хочется чтобы не спойлерить, но будто что-то на это указывает.
Не боись, там нет спойлеров ни в тексте, ни в карточке, если только не считать им версии о "происхождении", просто введение в трансовое состояние сюжет.


>>1253579 →
>>1253636 →
Спасеба, что открыли.

>>1253644
Зaпрeт не используешь? С ним у меня тоже не пуллит.
Аноним 22/06/25 Вск 13:12:26 #14 №1253732 
Смержите мистраль с яндекс хуетой и сайгой
Аноним 22/06/25 Вск 13:18:08 #15 №1253734 
>>1253732
Еще че сделать?
Аноним 22/06/25 Вск 13:21:06 #16 №1253736 
база треда:
- меньше Q6_K жизни нет
- меньше 24B жизни нет
- меньше 16GB жизни нет
- меньше 8 каналов DDR4 жизни нет

дополняйте
Аноним 22/06/25 Вск 13:21:50 #17 №1253738 
>>1253736
Купи уже новую видюху, чтобы базой треда стал Q8
Аноним 22/06/25 Вск 13:28:12 #18 №1253744 
>>1253736
>меньше 16GB жизни нет
24
Аноним 22/06/25 Вск 13:38:39 #19 №1253750 
>>1253744
> 24
32
Аноним 22/06/25 Вск 13:46:20 #20 №1253762 
>>1253744
ну 24 это прям база, а вот меньше 16 жизни точно нет
Аноним 22/06/25 Вск 13:48:56 #21 №1253766 
>>1253492 →
>>1253546 →
Подтверждаю, Глэм очень хорош. Странно, что в треде его мало обсуждают
Аноним 22/06/25 Вск 13:55:30 #22 №1253770 
>>1253644
У меня электричество скакнуло, и походу процу досталось, фабрика теперь на 1600 едет вместо 2133, вот где катастрофа, а не какой-то там софт.
Аноним 22/06/25 Вск 14:03:37 #23 №1253774 
>>1253667
> Ариенаи!!!
Там не work а life на конце же. Бесконечная тоска, зависшая в воздухе обреченность с аллюзией на лимб, невозможность осложненное развитие романтических отношений на фоне очень сильной эмпатии и потенциальной привязанности к персонажу, которая будет развиваться в подобном атмосферном окружении.
Но в целом посмотрев - чар волевой и не в апатии, совсем абсолютных запретов а простор для развития оставлен хороший. Можно и просто наслаждаться моментом, проникаясь атмосферой, и страдать от несбыточности надежд, и обернуть в какое-то развитие или даже детективную адвенчуру с опциональным хеппиэндом. И после удачных крайне ролплеев на тоненького в которых даже нытье "почему он а не я" не может быть оправданием, уже не так страшно. Такое мы катаем, не стесняйся делиться если что-то еще будет.
>>1253736
> - меньше 160GB жизни нет
Пофиксил
Аноним 22/06/25 Вск 14:53:45 #24 №1253798 
>>1253736
> меньше Q6_K жизни нет
Тогда уж меньше bf16 нет жизни, если переходить на шизу.
Аноним 22/06/25 Вск 14:57:04 #25 №1253800 
А что обозначает _K? Kastrated?
Аноним 22/06/25 Вск 14:59:08 #26 №1253802 
>>1253800
круто
Аноним 22/06/25 Вск 15:03:39 #27 №1253806 
>>1253732
разное число параметров, разные архитекуры, распидорасит как твою задницу
Аноним 22/06/25 Вск 15:05:57 #28 №1253807 
>>1253800
видимо, раз он уже который тред этим срёт, больше бедному ничего не остаётся
Аноним 22/06/25 Вск 16:28:55 #29 №1253847 
1687917484283.png
Я аж хрюкнул
"Всё пропало! Пропало!"
Аноним 22/06/25 Вск 16:40:41 #30 №1253852 
На 32гб врама есть жизнь?
Аноним 22/06/25 Вск 17:08:07 #31 №1253860 
Ну что, все ебетесь тут со своими ригами? А вон господа уже все сделали https://www.avito.ru/moskva/tovary_dlya_kompyutera/server_deepsharkzapusk_deepseek_llm_96g_vram_api_4543172374 на некроамудэ скорости выше чем на блеквеллах!

>>1253852
Шутка про несколько. Но вон выше почитай посты восхваления 30б, в 32 это будет жирный квант, большой контекст и оче быстро. + немотрон и его тюны.
Аноним 22/06/25 Вск 17:31:02 #32 №1253873 
>>1253852
есть и довольно неплохая. но лучше всё-таки 48
Аноним 22/06/25 Вск 17:34:25 #33 №1253877 
пиздос.jpg
>>1253860
> amd mi50
> Dеeрsееk R1 70В
> - Режим простоя: 300 Вт
> 31798 просмотров
Аноним 22/06/25 Вск 17:35:43 #34 №1253879 
>>1253877
+
> 2 прoцеccoрa

это просто комбо говна, и ведь купят же...
Аноним 22/06/25 Вск 17:36:51 #35 №1253880 
>>1253877
Ты на скорости заявленные глянь, 70т/с на 70б. В реальности там столько даже обработки не будет, лол. Наверно это при запуске 4х моделей в лоботомированном кванте если сложить их обработку, иначе хз как такое можно насчитать.
Аноним 22/06/25 Вск 17:46:09 #36 №1253888 
>>1253877
> R1 70В
> R1
> 70В
Литералли лохи ищут лохов. Раньше майнили, теперь решили переобуться
Аноним 22/06/25 Вск 18:03:00 #37 №1253899 
>>1250771 →
Ладно, удивительно что эта штука вообще работоспособна при такой битности.
Какие там команды на выгрузку тензоров чтобы было быстрее чем при просто снижать гпу слои и какие выгружать в первую очередь?
Аноним 22/06/25 Вск 18:07:30 #38 №1253909 
>>1253774
Спасеба за впечатления!

> с аллюзией на лимб
> наслаждаться моментом, проникаясь атмосферой, и страдать
Да, ты точно подмечаешь. Накатал 16к и у меня сгорела жеппа чар выполнил свою самую общую цель
> (Опционально) Найти покой?: Возможно, в глубине души – обрести способность либо вернуться, либо окончательно уйти, освободившись от гравитации тоски.
Я прямо в осадок выпал там в самом хорошем смысле, конечно. Потому что с одной стороны вроде к этому не подталкивал, просто слайсиковые моменты, но где-то на границе сознания всё равно были ощущения, что что-то рвётся. По горячим следам насвайпал несколько раз, но почти все варианты всё равно привели к этому. Так что понял и принял. И как теперь в неё играть дальше? Инб поех. Нет, всё понятно, это просто текст, буковки. Но какие-то переживания уже произошли, фарш не провернуть назад.
Аноним 22/06/25 Вск 18:08:51 #39 №1253911 
>>1253899
Всё те же самые, что и с квеном 235: -ot, fft, exps, сколько выгружать на проц - подбирать по объёму врам
Аноним 22/06/25 Вск 21:46:08 #40 №1254093 
>>1253909
Как же я тебя понимаю... 30к контекста и все к одному. И грустно, и радостно.
Аноним 22/06/25 Вск 21:50:22 #41 №1254094 
Господа, какая модель хорошо подходит для шлюхо-ботов? Мне нравится как отвечает gemma-3-12b-it-qat (если обойти цензуру), но эта хуйня периодически отвечает не на том языке, несмотря на промты так не делать
Аноним 22/06/25 Вск 22:07:30 #42 №1254110 
1712765260649.png
1704486569117.png
1621467287216.png
Насколько же жора не для людей сделан, это уже за гранью. Нормально раскидать по картам через -ts чтобы было впритык - настоящий челленж. Мало того что там огромная дискретность, так еще малейшие изменения значений для других карт могут перевернуть то что было на первых. Или давать совершенно неадекватный результат, когда изменение коэффициентов и сокращение выгружаемых слоев могут привести к внезапному провалу в использовании памяти нулевой гпу, и прыгнуть куда-то на вторую, или наоборот. Сраное шаманство и рандомайзер без понятного устройства.
Но самое неприятное - после загрузки модели оно еще дважды прыгнет по потреблению и рост тоже труднопрогнозируемый. В первый раз само - что-то там распределяя и делая, а второй - при первом инфиренсе. Учитывая что модель грузится долго - пердолиться с таким - то еще удовольствие.
Пик 1 - фуллврам и мелкоконтекст, пик 2 выгрузка ffn 32-36 и контекст побольше, пик 3 - жирный контекст и выгрузка ffn с 32 по 38. Около 4.5 гигов врама остаются незанятыми из-за особенностей жоры. В целом даже лучше чем ожидалось, и точно лучше чем выкинуть несколько слоев на проц, хотя это и так было очевидно. Можно играться с лоботомитом.

>>1253909
Да, приятная и ламповая на самом деле, не грузит суперминором если не попросишь. Если ты с ней на позитиве то не грустит, а то и наоборот дразнит и веселится, можно в разные стороны развивать.
> И как теперь в неё играть дальше?
Из драмы-трагедии переведи в триллер-детектив, сказку-романтику, ужасы с выживанием, да хоть сайфай. Если не заходит - после перерыва можешь прямо с ней же прошлый опыт обсудить, обыграв, или спросить помощи у ллмки как это можно встроить, куда развивать и т.д.
> Накатал 16к
Скорострел!
>>1253911
> fft, exps
Какие наименьшим образом влияют на перфрманс?
Аноним 22/06/25 Вск 22:11:05 #43 №1254113 
>>1254110
> Нормально раскидать по картам через -ts чтобы было впритык - настоящий челленж
Есть такое. Чуть упростил увеличив дробность разделения. Типа было -ts 32, 24, 24 изначально, умножил на 3, стало -ts 96, 72, 72, и меняешь уже по 1-2-3 единички в таком варианте, не так сильно много гиг сразу меняет положение.
Аноним 22/06/25 Вск 22:13:26 #44 №1254117 
>>1254110
> дискретность
Как он тебе слой должен разделить? Выбирай тогда оффлоад не по слоям.
> без понятного устройства
Ты просто тупой.
Аноним 22/06/25 Вск 22:28:23 #45 №1254135 
>>1254113
> стало -ts 96, 72, 72
Очень ровно получается. Тут -ts 1.05,0.93,1.02,1.85,0.7, причем соотношения зависят как от выгружаемых принудительно тензоров, так и от самих значений. До этого наоборот на первой карте было занижено а на второй выкручено потому что недогружает, очень странная фигня.
>>1254117
Отнюдь, ведь я не испытываю беспричинную агрессию и не делаю заявлений не разобравшись. Там есть много участков, по которым можно сделать стыковку, не только границы номерных слоев. Дискретность неизбежна и ее можно было бы простить, если бы эта срань от малейшего изменения не прыгала с 31 до 25 гигов, и отказывалось занимать промежуточные значения при смене коэффициента этой карты, зато при смене других - покорно их принимала ломая что-то другое.
Видимо, слишком сложно было реализовать задание целевого лимита памяти как в экслламе вместо нормированных соотношений, не говоря о автосплите. Скачок потребление при инфиренсе также включает рандом и не имеет четкой пропорциональности объему занятой ранее памяти.
Аноним 22/06/25 Вск 22:34:27 #46 №1254139 
>>1254135
> промежуточные значения
Чел, у тебя по умолчанию режим оффлоада по слоям, по ЦЕЛЫМ, сука, слоям. Какие тебе промежуточные значения нужны? Если слой 5 гигов, такая дискретность и есть. Ставь режим разбивки другой, если хочется чтоб точно регулировалось.
> Скачок потребление при инфиренсе
Это контекст, дебил. Естественно он непропорционален занятой памяти.
> автосплите
Для хлебушков типа тебя есть ollama, там тебе сделают автосплит.
Аноним 22/06/25 Вск 22:36:14 #47 №1254142 
>>1254139
Ору с мамкиного агрессора, сделал мой вечер. Обделаться в каждом своем утверждении - это талант.
Аноним 22/06/25 Вск 23:00:19 #48 №1254160 
>>1254135
> 1.05,0.93,1.02,1.85,0.7
Чёт мне казалось, что они интовые, но сейчас поискал и не нашёл, откуда я это мог взять
Аноним 22/06/25 Вск 23:20:15 #49 №1254183 
>>1254110
Палю лайфхак для любой модели, даже разрешаю добавить в какие-нибудь гайды. Идешь на hf, смотришь метаданные последней части ггуфа, смотришь номер последнего слоя, прибавляешь 1 т.к. нумерация с нуля, и еще один т.к. output layer или как там хуйня эта называется. Берешь размер модели и делишь на это количество слоев, получаешь размер слоя (грубо, т.к. слои могут быть разные по наполнению, но похуй на это). Потом берешь размер видеокарты (для стандартных 24 Гб я беру 20-21, т.к. остальное на контекст), делишь на размер слоя, получаешь количество слоев. ВСЁ, в -ts пишешь КОЛИЧЕСТВО СЛОЕВ по картам, а не всю ту хуйню, что насрали постами выше. Очевидно, что сумма должна совпадать с общим числом слоев. Потом уже тюнишь точнее, кидая КОНКРЕТНЫЕ СЛОИ туда-сюда, а не абстрактные циферки, которые непонятно как влияют на количество слоев.
Наверное можно вообще забить хуй на -ts и все через -ot разруливать, но это слишком вербозно выглядит.
Оп-пик кун, съел собаку на разбивке в жоре
Аноним 22/06/25 Вск 23:25:11 #50 №1254193 
>>1254160
Там просто соотношения. Припоминаю что раньше оно работало адекватнее и легко прогнозировалось, с оговоркой на повышенное потребление в первой гпу в некоторых режимах, а сейчас какая-то дичь. Возможно дело в большой модели и/или алгоритме, который подбирает "оптимальную" разбивку.

Ну оно работает, и внезапно гораздо адекватнее чем q2. В падежах не путается, письмо чистое без внезапных иероглифов, нетривиальные задачи по коду решает. Unsloth какую-то черную магию явно применили.
В рп дно с теми же повадками, насколько повлиял лоботомирующий квант сказать сложно ибо оригинал тоже неоче. Что бросается - так это периодические срывы на синкинг когда на него стоит заглушка, без кванта такое происходило реже.
>>1254183
Не выйдет по двум причинам. В дипсике есть номерные слои с разной структурой и шириной, всего лишь 62 штуки дадут огромный шаг с которым нормально распределить не выйдет. Тут уже пинать ллм чтобы она писала полный конфиг что куда и передавать в ot, надеясь что регекспы как обычно не поломаются.
Аноним 22/06/25 Вск 23:28:50 #51 №1254199 
>>1254183
>Наверное можно вообще забить хуй на -ts и все через -ot разруливать, но это слишком вербозно выглядит.
У меня через -ot получилось впихнуть чуть больше, чем через -ts. Иногда может быть критично.
Аноним 22/06/25 Вск 23:39:21 #52 №1254204 
>>1254193
>Не выйдет по двум причинам.
Все выйдет, тебе не нужно знать точный размер слоя, главное в начале - накидать какое-то драфтовое распределение, чтобы суммарно по цифрам выходило количество слоев.
Например, насколько я помню, эксперты в дипсике начинаются то ли после 4-го, то ли после 6-го слоя (допустим, 4). Это ничего не меняет, ты загружаешь модель с драфтовым распределением, на первую карту ты закинул условно 6 слоев. В потреблении ты видишь, что туда еще пару слоев влезет (из-за того, что первые 4 слоя худенькие). Стопаешь загрузку (т.к. аллокация по картам происходит сразу, до загрузки модели с диска), докидываешь туда пару слоев с других карт\RAM и опять пробуешь.
Но если будет модель, где во всех слоях прям сильный разброс по размеру, тогда легче все через -ot распределить. Я, правда, не знаю, что будет, если -ts не указывать, корректно ли жора зааллоцирует всякие kv и compute буферы на картах? Все же -ts это прямая директива "выгрузи слой", а -ot это "пук мням сунь тензор туда"...

>>1254199
>У меня через -ot получилось впихнуть чуть больше
Отдельные тензоры с других слоев? Я писал только про сценарий, когда слои на карты отправляются целиком, т.к. именно это -ts и делает.
Аноним 23/06/25 Пнд 00:14:04 #53 №1254223 
>>1254204
> Все выйдет
Выйдет конечно, просто придешь к такому же шаманству. Говорю же, тут вся претензия в том, что встроенный алгоритм, отвечающий за автоматическое распределение согласно весам -ts работает странно и порой неадекватно, когда повышение одной величины приводит к перераспределению и обратному эффекту.
> В потреблении ты видишь, что туда еще пару слоев влезет
Это если изначально все норм. Если конфиг совсем неудачный - оно сразу валится не написав как распределилась память и только указав сколько оно попыталось запихнуть в карту N когда словило ошибку. На втором этапе, где оно должно распределить кэш контекста - аналогично. То есть в обоих случаях, если начальное приближение норм то видишь что оно пытается делать и где затыкается.
Но при запуске инфиренса - оно просто может упасть с низкоуровневой ошибкой ничего не показав, и там рост не особо то порпорционален количеству занятой весами и кэшем памяти и меняется при смене соотношений.
> что будет, если -ts не указывать
Оно примерно поровну пытается поделить как -ts 1,1,1,1,... но получается криво.

Да, по-нормальному тут через -ot указывать что на какой девайс, прямо как в конфиге ktransformers.
Аноним 23/06/25 Пнд 00:36:36 #54 №1254230 
>>1254110
> Скорострел
Щито поделать, и так растягивал на несколько вечеров.

Рад что понравилось. Ещё раз спасибо за отзыв и советы. Надо будет обдумать всё.
Аноним 23/06/25 Пнд 00:46:03 #55 №1254233 
Гарри-Поттер-макросы-35214.jpeg
>>1254223
>Но при запуске инфиренса
А я про это и не говорю, лол. Тут сразу пикрил реакция, когда такое происходит. Я то еще дипсик через рпц сервер грузил, представляешь мою фрустрацию? На самом деле, конечно, вся эта дискуссия - мышиная возня, потому что нормальный движок должен быть юзерфрендли в таком базовом аспекте. То есть прочитать метаданные ггуфа и все ЗАРАНЕЕ РАССЧИТАТЬ, далее либо автоматом распределяя по картам, либо информируя юзера, что вот тут и тут твой конфиг говно по таким-то и таким-то причинам. Это же не рокет саенс бля.
Это мне напомнило, как мне на работе пришлось поставить программу на Яве. Там надо было ручками указать количество аллоцируемой памяти для программы, потому что так требует JVM или типа того. И при этом Ява еще считается стандартом интырпрайза, тьфу блять. Хорошо, что от этого говна отказались впоследствии. А вот от Жоры не откажешься так легко...
Аноним 23/06/25 Пнд 00:50:18 #56 №1254235 
>>1254204
>Отдельные тензоры с других слоев? Я писал только про сценарий, когда слои на карты отправляются целиком, т.к. именно это -ts и делает.
Ну я не делю, а гружу все тензоры слоя, -ot "blk\.(0|1|2|и т.д.)\.ffn.*=CUDA0", CUDA1 и следующие. Через -ts например приходится для пары моделей blasbatchsize=128 ставить, а через -ot уже 256 влезает. Видимо так распределение оптимальнее.
Аноним 23/06/25 Пнд 00:56:14 #57 №1254236 
>>1254235
А ты уверен, что ты все тензоры слоя грузишь? Там же не только ffn, в том же дипсике есть attn∗ и exp∗. Чтобы грузить слой целиком, пиши просто -ot "blk\.(0|1|2|и т.д.)\.∗=CUDA0" (только не копируй, лол, я тут другую звездочку юзаю, т.к. ебаный макак уже десять тысяч лет не может прикрутить форматирования кода, хотя весь /pr/ слезно умолял об этом)
Аноним 23/06/25 Пнд 00:57:15 #58 №1254237 
>>1254193
> и внезапно гораздо адекватнее чем q2
Лоботомия примерно локализована: основной удар по "широким" познаниям на специфические темы, фандом, какие-то редкие либы, медиаперсоны невысокой популярности или недавно появившиеся, детали механик игр, технические вещи и подобное. Особенно заметно при запросах на русском, частично компенсируется снижением температуры и увеличением отсечек.
Исходная логика и способности к рассуждению при этом в полном порядке, но ровно до того момента, как оно где-то в рассуждениях не попутает что-то и начнет на это опираться. То есть, всякие ребусы и прочее отгадывает на ура, реализация в коде на основе примеров - ок, но вот решение специфичной задачи, предполагающая знания, без дополнительного входного материала уже может приводить к диким фейлам.
>>1254233
> представляешь мою фрустрацию
Имаджинировал/сгенерировал, лол.
Офк, это тот еще каттинг эдж и киберколхоз для запуска на железе не совсем для этого предназначенным, так что терпеть, понять, простить. Но бля
> потому что нормальный движок
эксллама + табби или убабуга с этим справляется уже который год, вне зависимости от моделей и прочего. Или сразу говорит что "пойди нахуй у тебя нет столько врама для загрузки модели с таким контекстом", или грузит, причем автоматически, равномерно и под завязку. И ты на 100% уверен что после загрузки модели у тебя ничего некуда уже не вылетит.
> А вот от Жоры не откажешься так легко...
Ну, "каких-то 8565$ ррц" сверху и забыть как страшный сон, лишь иногда запуская для свежих моделей. На самом деле все это проявляется когда уже ходишь по краю, когда есть запас то можно просто по цифрам врама выставлять и не париться.
Аноним 23/06/25 Пнд 00:58:15 #59 №1254238 
>>1254237
> ровно до того момента, как оно где-то в рассуждениях не попутает что-то и начнет на это опираться
Имеется ввиду что не приведет какой-то ошибочный/ложный факт из того что должно знать.
Аноним 23/06/25 Пнд 01:03:55 #60 №1254240 
>>1254236
>А ты уверен, что ты все тензоры слоя грузишь?
А ведь и точно не все. Остальные, мелкие, значит в РАМ идут. Интересно, что на скорость это не влияет (в рамках погрешности разве)
Аноним 23/06/25 Пнд 01:12:16 #61 №1254243 
>>1254183
>получаешь размер слоя (грубо, т.к. слои могут быть разные по наполнению, но похуй на это).
Для немотрона весьма не похуй, лол, там слои в несколько раз отличаются.
Аноним 23/06/25 Пнд 01:18:56 #62 №1254246 
>>1254237
> На самом деле все это проявляется когда уже ходишь по краю
Ну, я почти всегда по краю хожу, т.к. квант сразу беру такой, чтобы со скрипом влезал. К слову, в оп-пике конфиг не максимальный, я как-то постил в предыдущих тредах. Сегодня вот твои эксперименты напомнили, я пошел и посчитал, у меня 198 Гб врам выходит на одной машине (с оговорками, конечно - я как-то тут уже писал, что 12+12 != 24. В моем случае на 8 Гб карточку даже ОДИН слой не влез. Точнее, слой-то влез, а вот кв и компьют буферы для него - нет. Почему - спроси жору). И 128 рам. Т.е. я третий квант могу попробовать осилить без возни с рпц. Как приеду из отпуска - надо будет попробовать.
К слову, там фа запилили для дипсика-то? А то я потом бросил это дело, увидев, что поддержки еще нет, а потом начал миксы ларджа перебирать да квен пробовать, и забылось это все. Как с отпуска приеду, можно будет поэкспериментировать (Например, мне интересны различия в скорости, между конфигом А, когда сколько-то слоев в рам, а сколько-то в врам, и конфигом Б, когда, условно, все тензоры ffn_down_exps в рам, а все остальное - во врам. Тут же даже какие-то окологалюны от корполлм постили, где они советуют, что в первую очередь надо на рам выгружать - я что-то очень не доверяю, что у них адекватные знания на этот счет. Но с выгрузкой тензоров в любом случае можно попробовать и на 8 гб карту что-нибудь выложить).
Единственная проблема - это скорость, с моими х1 ризерами и около-300 гб квантом я заебусь ждать, пока очередной конфиг прогрузится на карты. Вот бы ты попробовал повыгружать различные эксперты в оперативу, а я бы уже на готовенькое приехал... Ну или мне надо сначала как тебе первый квант брать и сначала с ним пробовать
Аноним 23/06/25 Пнд 01:44:43 #63 №1254252 
>>1254240
На ktransformers наоборот их приоритетно грузят в видеопамять а тяжелые оставляют в рам для повышения скорости.
>>1254246
> 198 Гб врам выходит на одной машине
Для такого случая нахуй вообще этого жору, квенчик на умнице-экслламе и 131к чистого удовольствия в контексте. Жаль на обниморде самый крупный квант - 4.2bpw, надо будет заморочиться и сделать (чуточку) крупнее.
> без возни с рпц
Протестант, лол
> Тут же даже какие-то окологалюны от корполлм постили, где они советуют, что в первую очередь надо на рам выгружать
Прояви уважение, там целое некоторое исследование было, жаль нигде не зафиксировано и приходится по тредам искать.
> Вот бы ты попробовал повыгружать различные эксперты в оперативу
Оче маловероятно.
Сейчас там только 7 ffn на проце, чего хватает для контекстов до ~80к и юзабельной скорости, но это лоботомит, пригодный больше для всякого "анализа", развлечений или рп. Но вот незадача, дипсик в рп на любителя, пусть может кумить и интересно отвечать, но это ближе к 30б а не то, чего ожидаешь от огромной модели. Содомию всякую на ходу придумывать и таблички статусов рисовать разве что.
Чтобы он стал юзабельным по мозгам, придется увеличить квант раза в 2 или больше, но тогда он будет бесполезным уже из-за скорости. Ачивку его локального запуска уже ставил на ктрансформерсах, уже есть быстрый квен, который вызывает любовь и обожание даже на фоне корпов, смысла никакого.
Можешь скинуть какие-нибудь варианты конфигов выгрузки, может быть при случае прогоню их, но обещать не буду.
Аноним 23/06/25 Пнд 02:11:25 #64 №1254262 
>>1254252
>Для такого случая нахуй вообще этого жору
Так у меня лапки теслы и 2080 ti. Я гонял пятый квант моеквена на жоре полностью в видеопамяти. Вроде генерация была 10-11 т\с на заполненном контексте. А квен мне не понравился в сравнении с ларджем, если честно. Буду ждать, пока минимакс квантуют и дипсик буду пробовать заводить.
В репе фа, кстати, уже дофига времени обещают поддержку на тьюрингах. Я находил какие-то PR, где чуваки заебались ждать и сделали какой-то питоновский пакет, который делал какую-то базовую поддержку вычислений в случае тьюринга, а не тупо посылал нахуй. Вот я думаю, что можно было бы попердолиться и попробовать его поставить в экслламу, тогда можно будет гонять экслламу вместо жоры в моем конфиге с ларджем. Только у меня какие-то сомнения в качестве - 8bpw ларджа весит 100 гб. Это соответствует Q6_K ларджа, а Q8 - 130 Гб. Почему так? Я-то уже посматриваю в сторону Q8, а на экслламе, получается, аналогов этого кванта нет.
>Протестант, лол
хехе
>Прояви уважение, там целое некоторое исследование было, жаль нигде не зафиксировано и приходится по тредам искать.
Так вроде бы кто-то там пытался делать по этому гайду и по факту все оказалось ровно наоборот? Типо те слои, которые советовали первыми выгружать, надо было последними и т.д. Поэтому я и не стал на это обращать внимание.
>Оче маловероятно.
Ладн, забей, сам буду пробовать. Я вот же писал прошлое сообщение и в процессе понял, что надо реально взять мелкоквант, на нем отладить конфиг выгрузки тензоров, и потом уже большой квант по образу и подобию запустить. Это что, получается я настолько обнейронился, что у меня уже ризонинг работает? Охуеть.
>Можешь скинуть какие-нибудь варианты конфигов выгрузки, может быть при случае прогоню их, но обещать не буду.
Дак я сам пока хз. Надо искать, что люди советуют выгружать в первую очередь. Или у самого дипсика спрашивать, надеясь, что не наебет, лол.
Аноним 23/06/25 Пнд 02:24:07 #65 №1254265 
https://huggingface.co/Gryphe/Codex-24B-Small-3.2
Аноним 23/06/25 Пнд 02:42:03 #66 №1254267 
>>1254262
> теслы
> пятый квант
> генерация была 10-11 т\с на заполненном контексте
Довольно оптимистично, как добился? Они быстрее чем выгрузка на процессор?
> 8bpw ларджа весит 100 гб. Это соответствует Q6_K ларджа, а Q8 - 130 Гб
Где-то ошибка, вес не должен отличаться когда битность та же, 8bpw это и есть q8 по принципу.
> кто-то там пытался делать по этому гайду
Уточнив получил большую скорость чем была. А по порядку там утверждается что одни больше влияют на обработку а другие на генерацию, это не было проверено.
> надеясь, что не наебет
Наебет 100%
Аноним 23/06/25 Пнд 03:04:35 #67 №1254268 
>>1254267
>Довольно оптимистично, как добился? Они быстрее чем выгрузка на процессор?
Ну конечно они должны быть быстрее, у них 350 ГБ/с память. Чет я уже несколько тредов замечаю, что некоторые люди думают, что мое модель почему-то должны быстрее на цпу работать. Не будут, что плотная, что мое в любом случае должны быть быстрее в видеопамяти, даже в самой пердящей.
>Где-то ошибка, вес не должен отличаться когда битность та же, 8bpw это и есть q8 по принципу.
Ну смотри, например
https://huggingface.co/bartowski/Mistral-Large-Instruct-2407-GGUF - Q8 130 Гб
https://huggingface.co/BigHuggyD/mistralai_Mistral-Large-Instruct-2407_exl2_8.0bpw_h8 - меньше 106 Гб (лень считать точно)
Чому так?
>Уточнив получил большую скорость чем была. А по порядку там утверждается что одни больше влияют на обработку а другие на генерацию, это не было проверено
Я вижу ты шаришь. Может оформишь это в новый пост\гайд? Или хотя бы ссылки дашь, а то мне очень лень копаться, я даже не помню, когда это обсуждали. 20 тредов я листать очень не хочу.
Аноним 23/06/25 Пнд 03:23:53 #68 №1254272 
>>1254267
>как добился
Дополню, что для меня заполненный контекст это 10к, лол. У меня, к сожалению, очень мало было ситуаций, когда я выходил за рамки условных 16к. Последнее время так вообще аутировал и первые 3-6 ответов свайпал, свайпал, свайпал, делая идеальную прелюдию кума... а сам кум уже неохота. Надо взяться за голову и сделать интересные для меня сценарии проработанными, с богатыми карточками. А то я дохуя времени уделяю возне с железом, а на сам инференс подзабил.
Аноним 23/06/25 Пнд 04:20:25 #69 №1254281 
>>1254272
>Дополню, что для меня заполненный контекст это 10к, лол.
А промпт процессинг какой был на этом контексте?
Аноним 23/06/25 Пнд 06:03:40 #70 №1254293 
>>1254094
Из слов "не на том языке" предполагаю что ты на русском.
>какая модель хорошо подходит для шлюхо-ботов
https://huggingface.co/Aleteian/DeepDarkDesire-24B
https://huggingface.co/Aleteian/Omnino-Obscoenum-Opus-Magnum-MN-12B

В принципе, в заметки автора закинуть требование отвечать на русском языке + переведённое первое сообщение, этого хватает.
Аноним 23/06/25 Пнд 06:47:27 #71 №1254300 
>>1254293
Совсем наоборот - русского у меня нет. В основном английский/немецкий/французский. А вот gemma любит ответить на русском на английское сообщение. Но попробую твою, спасибо.
Аноним 23/06/25 Пнд 06:56:03 #72 №1254302 
>>1254300
>английский
Ну тогда прощё - просто указываешь в промте / заметках чтобы писали на нужном языке, Гемма славится как раз тем слушается инструкций и внимательна к контексту.

Мистральки и Гемма как раз могут в великий и могучий лучше остальных.

В целом для англ кумбота 12б многие советуют Магнум, открой по ссылке из сайдбара со странички 12б мержа.
Аноним 23/06/25 Пнд 07:47:06 #73 №1254306 
>>1254265
В русский может, но как-то не впечатлил.

В англе такое ощущение что между харбингером и редиартовским кумслопом. Тренено с чатмл, работает и мистраль-7. Может управлять несколькими персонажами, если соблюдать форматирование:

Имя: "Прямая речь." Действия и нарратив (желательно с новой строки).

В целом вроде норм, хотя Гриф славится ещё и тем что любит вжаривать своих персов в модели, от чего и могут вылезать всякие "Олд Мэн Хэмлок".
Аноним 23/06/25 Пнд 08:36:32 #74 №1254309 
Ну явно тренена как GM, периодически сваливается в "юшки", даже если рпшить от третьего или от первого лица.
Аноним 23/06/25 Пнд 09:17:41 #75 №1254316 
Не интересовался темой локальных моделей, просто не видел смысла для себя, когда есть чатгпт, грок и другие титаны.
Но сейчас, со всеми этими разговорами о грядущей тотальной информационной изоляции в стиле сраной кндр - пришлось интересоваться. Вероятно, уже скоро локальные ллм - это все, что останется доступным.

В связи с этим вопрос - какая из моделей сейчас наиболее умная? Из тех, что можно запустить локально, не имея суперкомьютрера (у меня карта 3080 Ti c 12 гб памяти, и 32 гб DDR4 озу).
Понятно, что все они тупые на фоне чатгпт - но хоть что-то.
Аноним 23/06/25 Пнд 09:38:13 #76 №1254321 
>>1254316
Ты не прошел iq-ценз. Так только гигачат
Аноним 23/06/25 Пнд 09:48:26 #77 №1254323 
>>1254316
гемма 27b для всяких гуманитарных целей, и всякие квен кодеры для аналньниковых утех
Аноним 23/06/25 Пнд 09:48:53 #78 №1254324 
>>1254316
12-24-27B, хотя на 30ХХ только 12Б наверно.
Но конечно будешь разочарован.
Зато локально, без цензуры и фильтров, если рп-тюны мистрали, или аблитерированные других семейств.
Аноним 23/06/25 Пнд 10:38:51 #79 №1254339 
>>1254316
>Понятно, что все они тупые на фоне чатгпт
Ну как бы тебе сказать, смотря какая чатгопоте и какая локалка
Аноним 23/06/25 Пнд 10:41:34 #80 №1254341 
>>1254339
Хватит коупить. Тут и разговора нет, любая актуальная корпосетка ебет по объективным причинам.
Аноним 23/06/25 Пнд 11:08:28 #81 №1254349 
>>1254341
В таком случае тебе стоит сьебатся в тред корпосеток?
Аноним 23/06/25 Пнд 11:13:22 #82 №1254351 
1745165980886a.gif
>>1254341
Ну так пиздуй выпрашивать ключики с сапом в своем треде. Тут локалобояре занимаются креативным соавторством на своих машинах, без вишмастеров смс и подглядывающих за тобой корпами.
Аноним 23/06/25 Пнд 11:15:13 #83 №1254352 
>>1254349
Просто не выебываться и не коупить не пробовал ?
О боже мой, оказывается сетки в которые вливают миллиарды долларов лучше опен сорс поделий, вот это да, вот это неожиданность.
Аноним 23/06/25 Пнд 11:15:23 #84 №1254353 
>>1254349
в последнее время в треде много детишек "или ты с нами или ты против нас", все какие-то стороны выбирают
не может человек осознавать, что корпосетки лучше, но сознательно сидеть на локалках? в чем твоя проблема?
>>1254339 полная чушь, с корпосетками только Дипсик в полных весах может соревноваться
Аноним 23/06/25 Пнд 11:16:08 #85 №1254355 
>>1254351
еще один заспавнился перекатился с асига посрать
Аноним 23/06/25 Пнд 11:20:27 #86 №1254357 
>>1254355
Ну что поделать, нету нормальных русских моделек пока. И нет, я не считаю лоботомированные русскими фанфиками английские модели за русские.
Аноним 23/06/25 Пнд 11:21:11 #87 №1254358 
>>1254316
Читай шапку и смотрю обсуждения моделей. Ну а вообще Мистралька и малая гемма - твои лучшие друзья.

>>1254353
Не корми долбоёбов, которые на своём игровом железе запускают мелкомодели и представляют как воюют с корпосетками.
Аноним 23/06/25 Пнд 11:43:56 #88 №1254377 
>>1254352
>>1254353
Ты ебанутый, ты знаешь для каких целей запускают локалки и что делают тут 90% местных? Репортнул обоих, очередные дурачки пришли рассказывать -"Смарите, а там у дяди хуй большой, завидуйте."
Аноним 23/06/25 Пнд 11:49:31 #89 №1254381 
>>1254377
Никто с тобой не спорит, болезненный. Тебе указали на то что корпосетки лучше и нет смысла с ними соревноваться. И так то анон спросил про модели, а не твоё мнение о гопоте и прочих.
Аноним 23/06/25 Пнд 11:52:01 #90 №1254384 
>>1254381
Вас тыкнули носом в говно сьебать обсуждать корпосетки в соответствующий тред, а вы начали пускать пену из рта.
Аноним 23/06/25 Пнд 11:58:20 #91 №1254387 
>>1254384
Ну ты точно ебаклак.
Аноним 23/06/25 Пнд 12:12:38 #92 №1254395 
>>1254377
чернобелый, я на риге катаю кмд-а и милфу мистраль, но честен с собой и понимаю, что корпы умнее. тебе если энергию девать некуда, или на турник или домашку сделай
Аноним 23/06/25 Пнд 12:12:51 #93 №1254396 
>>1254316
Наверное, имеет смысл скачать дипсик 123б и копить на несколько 3090

Сам о таком думаю.
Но по деньгам это, конечно, пиздец.
Ебаная страна, что тут вообще приходится думать о таких перспективах.
Аноним 23/06/25 Пнд 12:29:46 #94 №1254411 
>>1254316
Если тебе не для дрочки, а примерно для тех же целей, что и чатгпт всякие, то скачивай только оригинальные модели: ни в коем случае не файнтюны/мержи, а также не опускай квант ниже Q4_K_M.

Gemma 3 12 или 27b (QAT-версия) — для всяких разговоров без кода и технических тем. Поспорить с ней за Библию, написать какой-то креативный текст, перевести текст и так далее.

Qwen 32b и 30b — для технических задач и кода. 30b хорош тем, что может очень быстро печатать тебе текст, но тупее немного. Также изучи, как на квене включать и отключать цепочки мыслей — это важно и реально влияет на результат.

Mistral 24 — для замены геммы. Так как у тебя видюха имеет мало памяти, его можно попробовать использовать для креатива. Если правильно помню, версия тебе нужна 2506.

LM Studio для запуска моделей и работы с ними, так как он очень простой, понятный и можно быстро всё настроить, сочетает в себе интерфейс для общения с моделью и запуска. Плюс тебе понадобится немного изучить техническую часть.

Также, ты можешь использовать llama.cpp вместо LM Studio, но там пердолинг, пока что это тебе не нужно.
Аноним 23/06/25 Пнд 12:38:16 #95 №1254427 
>>1254411
Спасибо большое, самый лучший ответ.
У меня две основные задачи - писательство и код, как я понял, лучше разделить их.
Откровенное порно не нужно, но конечно, избыточная цензура - тоже.

12 - полная шляпа, уже понял, надо смотреть только в сторону 27-30b. Скорость на связке vram+ram, конечно, будет низкая - но хоть какое-то качество.

Еще вопрос - имеет ли смысл совет выше>>1254396 ?
Насколько модели >100B умнее, чем 27-30B?
Оправданы ли будут затраты? Или разница тут нелинейная и прямо такого уж радикального отличия нет?
Аноним 23/06/25 Пнд 12:39:09 #96 №1254428 
>>1254411
с пердолингом явно загнул, но в общем и целом для новичка все по делу. можно разве что кобольда вместо лмстудии рекомендовать, ибо славься опенсорс
Аноним 23/06/25 Пнд 12:42:48 #97 №1254435 
>>1254427
имеет, VRAMа много не бывает
мимо
Аноним 23/06/25 Пнд 12:46:48 #98 №1254440 
>>1254427
если для кода, то ты хотя бы немного должен разбираться. ставь лламу цпп и запускай через ллама сервер, там все элементарно. Кобольд - враппер для лламы, лм студио - то же самое, но проприетарщина
код за тебя никто писать не будет, по крайней мере успешно. даже корпосетки. потому смысла гнаться за параметрами для локалок особо нет, они все одинаково печально работают, по сути либо qwen3/qwq/glm-4 (все 32б), либо корпы. собирать железо для чего-то большего в контексте кода нет смысла вообще
по писательству тебе модели прислали, они и в рп могут, и без цензуры при правильном промтинге. но вот для писательства 24-32б модельки очень лучше тех же 12б, 70б и 100б+ ещё лучше
Аноним 23/06/25 Пнд 12:52:55 #99 №1254450 
для писательства разница точно нелинейная, да и тексты объективно оценить невозможно. кому-то 27б Синтия нравится больше легендарных 70б тюнов. короче говоря, если только начинаешь, больше 32б модели смысла не имеют, а дальше сам поймёшь, готов ли стремиться к большему и насколько
Аноним 23/06/25 Пнд 13:02:59 #100 №1254474 
>>1254440
> хотя бы немного должен разбираться.
ты слишком хорошего мнения о современных кодерах
Аноним 23/06/25 Пнд 13:04:43 #101 №1254479 
>>1254474
но я сам современный кодер... 23лвл всего. ничего сложного, тут даже гуманитарий на энтузиазме разберется
Аноним 23/06/25 Пнд 13:07:45 #102 №1254483 
>>1254427
Я бы не сказал, что 12b гемма тупая — она реально пригодна для работы, в отличие от 12b мистраля. Для неё задачи тоже найдутся, так что имеет смысл сохранить, если лишнее место на диске есть.

Проблема геммы в целом в том, что она больше ресурсов требует от ПК, а контекст у неё ОЧЕНЬ жирный. Я про тот контекст, который буковки. Для рабочих задач их обычно много нужно по сравнению с РП и дрочкой. И получается так, что часто контекст больше, чем сама гемма. Допустим, модель весит 14 Гб, а контекст 20 Гб (при этом у квена он бы весил 2-4 Гб в той же ситуации). Да, его можно уменьшить, квантануть, всячески ухищряться, но он всё равно будет жирным. С другой стороны, в отличие от других моделей этой весовой категории, гемма намного внимательней к контексту.

Ещё минус — у геммы реально много цензуры.

Поэтому тебе нужно будет научиться писать систем промпт под свои задачи. В принципе, ты можешь копипастить системный промпт, который разработчики советуют, поначалу, только приписывать что-то.

И не используй слова или словосочетания типа "нет цензуры" — это заставляет модель обращать внимание на цензуру, "думать о ней" и быть осторожнее иногда из-за того, что подобное слово есть в контексте. По моему опыту, варианты в систем промпте в стиле "эмоционально тяжёлые, грубые и жестокие сцены допустимы" гораздо лучше работают, чем "наматывание кишок целых джва часа разрешено". Сама фраза про кишки вызывает триггер на осторожность. Таким образом даже корпов можно заставить писать лютый пиздец, я проверял, ну и меня за это забанили.

Но это я очень образно описал.

---

Модели 100b значительно умнее, но я не знаю, есть ли смысл их использовать в твоём случае. Только если нейронки реально тебя кормят и действительно решают кучу твоих рабочих задач, то есть это как покупка рабочего инструмента. Потому что ты всё же не похож на энтузиаста, который хочет отыгрывать еблю с эльфийками или рпг.

Нужны тебе эти 100b или нет, можно проверить через openrouter хотя бы. Там есть модели такого размера бесплатно, что-то в стиле пробного периода. Можешь поспрашивать у них, потестить. К ним даже по API подключиться можно.

Ну и o3, sonnet 4.0, opus 4 всё равно будут сильнее любой модели, которую можно развернуть локально, хоть обосрись. Так что нужно привыкать и искать компромиссы.

>>1254428
Ну мне кобольд тоже больше нравится хотя бы потому, что там реально быстро всё делается очень, особенно если ты постоянно модели меняешь, параметры и часами это говно ворочаешь.

И да, я буквально только что вспомнил, что у кобольда тоже есть свой интерфейс для общения с моделью, лол. Если он не поломан, то, наверное, его тоже можно будет использовать. Но когда я тестил лм студио, она реально проще и удобней для работки. Чисто базовый функционал, всё нужное есть, стабильно и хорошо, хоть и без экзотики.
Аноним 23/06/25 Пнд 13:11:45 #103 №1254489 
>>1254483
Так существовали бы все эти соннеты и опусы без анальной цензуры, но увы. Поэтому ну их нахуй.
Аноним 23/06/25 Пнд 13:29:10 #104 №1254508 
>>1254489
Не понимаю, чому ты прицепился к этому моменту. Работу работать цензура не мешает.

Конечно, хорошо бы иметь такое без цензуры, но сколько там параметров? Если судить по сливам и предположениям, то МоЕ-монстры 2000б или даже плотные модели.

Ну и по субъективным ощущениям могу сказать, что у корпов есть мелкие модели для узких задач и болтовни, тот же 4о или о4-мини-хай (200-400б), тем не менее, даже если бы их выкатили в опенсорс и без цензуры, кто смог бы это запустить?
Аноним 23/06/25 Пнд 13:32:59 #105 №1254509 
>>1254508
у него все взаимодействие на уровне "ебу пыску пиши чтоб сочно", на том конце провода тот, кто тебя не понимает
Аноним 23/06/25 Пнд 13:33:26 #106 №1254510 
Кто-нибудь может мне объяснить, чем занимается потерянный руины со своим ебучим кобольдом. Нахуя он там постоянно прикручивает какие-то генераторы изображений, поддержку для комфи, как будто блять кому-то это реально нужно и кто-то использует его обертку не как дефолтный лаунчер для жорика. Лучше бы нормальный интерфейс наконец прикрутил чтобы я навсегда смог забыть о таверне и вырезать её нахуй с системы. Ненавижу таверну, я ебал эту таверну в рот.
Аноним 23/06/25 Пнд 13:41:34 #107 №1254515 
>>1254508
Спору нет. Я прекрасно понимаю что это для работы, в этом как бы и цель компаний - извлечение прибыли без репутационных потерь.
У меня немного моральная травма, когда на клоде с промтиком, попробовал safe рп и чёт приуныл, потому что слишком хорошо. Но опять же, ничего не поделаешь да и я не против лишнего шивера на май спайн.

>>1254510
И ладно споры про макак и кобольтов, но доебываться до таверны ? Чё с тобой не так ? Не без недостатков, но лучше альтернатив.
> дефолтный лаунчер для жорика
Чё ?!
Аноним 23/06/25 Пнд 13:47:40 #108 №1254517 
>>1254510
Да лучше бы он только бэком занимался, нахуй этот фронт его не нужен. Потому что там пиздец работы потребуется, если нужно сделать хорошо, а вот обёртку для лламы.спп, чтобы запускатор был максимально приятным и удобным, ещё и дружелюбным к новичкам и с пояснением всяких вещей — не, ему не надо.

И чем тебя таверна не устроила? Для РП она хороша. Ну а если ты работяга, то таверна и кобольд тебе тоже не нужны.
Аноним 23/06/25 Пнд 13:49:18 #109 №1254519 
>>1254268
> конечно они должны быть быстрее
Вроде как и да, но лишние пересылы по узким шинам и чип у нее медленный был, потому интересно в целом как будет и по процессингу и по генерации.
> Чому так?
Хм, думал что в жоре схема аналогичная gptq-8 что используется почти целиком в exl2-8bpw, а там наоборот более простая и не менялась с самых первых легаси квантов. Так что просто менее оптимальный квант с симметричным диапазоном и глобальным множителем, без ассиметрии диапазона относительно нуля и дополнительной локализации. Это не только компактнее, но еще и точнее, но ценой является повышенный объем расчетов, что не мешает работать быстрее.
Кстати, выложены также exl3 кванты с разными битностями.
> Я вижу ты шаришь. Может оформишь это в новый пост\гайд?
По выгрузке тензоров - не шарю, сам вопросы задавал вон чтобы выгрузить 7 величин. Это лучше если те, кто непосредственно подобное практикуют и даже оптимальные конфигурации себе подобрали, что-то оформят.
Сам когда-нибудь доделаю письмена про железо и его выбор.
>>1254272
Лол, ну тогда уже возможно да. Рпш на чем-то интересном, там быстро будет улетать и будешь заебываться суммарайзить.
Аноним 23/06/25 Пнд 13:53:47 #110 №1254521 
Из их телеги.

Обновление модели RuadaptQwen3-32B-Instruct! (v2)
Текущая версия более стабильная, в частности с точки зрения циклов, некорректных символов и работы с длинными контекстами, а также подросли метрики относительно v1.

Были добавлены метрики для сравнения с исходной версией Qwen3 и видно, что адаптация прошла успешно, где-то есть небольшие просадки, но в целом все на уровне.

Очень жду от вас отзывов и проблемных промптов для дальнейшей прокачки моделей, ну а пока приступим к адаптации меньших версий 🚀

Модель: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct
GGUF: https://huggingface.co/RefalMachine/RuadaptQwen3-32B-Instruct-GGUF
Аноним 23/06/25 Пнд 13:56:47 #111 №1254522 
>>1254510
>как будто блять кому-то это реально нужно и кто-то использует его обертку не как дефолтный лаунчер для жорика.
Нужно и использует. Как минимум я. И других видел.

>>1254510
>нормальный интерфейс наконец прикрутил чтобы я навсегда смог забыть о таверне и вырезать её нахуй с системы
https://github.com/esolithe/esobold - этот форк глянь. Автор в основном интерфейс развивает.
Аноним 23/06/25 Пнд 13:58:13 #112 №1254523 
>>1254316
> какая из моделей сейчас наиболее умная?

|годлайк тир| Дипсик, большой квен, мистральлардж |хорошее| мое ~120б типа лламы4 и дотса, 70б, немтрон |приличное| тридцаточки, новый мелкомистраль |щитбюджетный тир| мистральнемо, гемма12 |полное днище| все что ниже.
В твои железки помещаются только бюджетное, со скрипом можно попробовать катать 30б но будет медленно. Хотя если ты раньше не пользовался - даже днище покажется тебе оче крутым и умным.
> тупые на фоне чатгпт
У опенов много моделек, от "самой умной" до скоростных лоботомитов. Здесь примерно такой же диапазон, из реальных минусов - отсутствие той же готовой обвязки для удобного использования в некоторых кейсах. Реально хорошо развито только рп и подобный чатик.
Аноним 23/06/25 Пнд 13:59:43 #113 №1254524 
>>1254515
>потому что слишком хорошо

Да, есть такое. Сразу начинаешь осознавать, какое говно жрёшь на локале, пусть и без цензуры, но, знаешь, когда ты постоянно, день за днём, юзаешь корпов, то чувствуешь и их пределы и осознаёшь, что даже если бы они были без цензуры, то это не спасёт — ты уже нащупал их грань возможного, выше которой они не прыгнут. Отсутствие цензуры в таком случае лишь отсрочило бы твоё выгорание.

Даже взять контекст тот же. Ну не могут они в 200к контекста хорошо. Максимум средне. А это ведь немного, если юзать на полную катушку.

И быстро приходишь к мысли, что всё тлен.

С другой стороны, начинаешь спокойней относиться к тому как лажают локалки, потому что знаешь, что ничего, близкого к идеалу, нет.

Хотя вот у меня есть знакомые, которые дико орут от двойного снятия трусов/лупов/слопа и они готовы как угодно изголяться, лишь бы модель стала умнее: API, кучу бабок в видюхи вкинуть, когда жрать нечего.
Аноним 23/06/25 Пнд 14:02:01 #114 №1254525 
>>1254515
>>1254517
>но доебываться до таверны
>И чем тебя таверна не устроила?
Таверна это кусок говна, которая перестала понимать что она такое и кому она нужна. За два года не сделали ни нормальный редактор для инструкций, ни нормальный редактор контекста, ни нормальный редактор для карточек. И если с инструкциями и конекстом еще можно как-то работать, то карточки (считай главная фишка, ведь таверну преимущественно катают для ролевухи) это просто пиздец. Для них какого-то хуя используется рыготный формат с метадатой в пнг, где все строки под заполнение прописаны заранее, полностью отсутствует модульность (как и в случае с инструкциями, где приходится юзать лорбуки блять чтобы отключать ненужные куски) и самое смешное - до сих пор нельзя поменять имя персонажа в самой таверне блять, ведь тогда, видимо, наебется уебищная система сохранений чатов или что-нибудь еще. С именами конечно меньшая из проблем, просто она очень характерно иллюстрирует, насколько форкеру было похуй и похуй до сих пор.
Аноним 23/06/25 Пнд 14:10:41 #115 №1254530 
>>1254427
> Оправданы ли будут затраты?
Твой вопрос не имеет смысла в такой формулировки. Нужно знать какой ценой тебе дастся их запуск, и насколько ценится та самая разница в качестве выдачи.
Они лучше, местами дохуя лучше. С общей точки зрения справедлив закон убывающей полезности, сейчас свитспот это 30б. Но с другой стороны, за счет хороших общих знаний и в целом соображалки, они будут выполнять те запросы, с которыми без твоего участия модели поменьше не справятся никак, и это уже пропасть между "легко желаемого" и "пропердолился весь вечер и не смог". Для всяких развлечений это уже смотри субъективно и насколько ценишь свой экспириенс.
>>1254450
> кому-то 27б Синтия нравится больше легендарных 70б тюнов
Эх, была бы она на 70б, как в старые добрые
>>1254510
Хуйней страдает, очевидно же. Это больной вопрос для треда потому что здесь есть страдающие синдромом утенка кобольды.
>>1254525
Ну, плеваться на нее можно долго, но лучших альтернатив просто нет.
> нормальный редактор для инструкций
Да, его развить было бы уместно, он есть но оче неудобный.
> нормальный редактор для карточек
А он тебе чем не угодил?
> рыготный формат с метадатой в пнг, где все строки под заполнение прописаны заранее, полностью отсутствует модульность
Это превосходное решение, которое не только удобно, но и позволило стандартизовать и привести в порядок весь зоопарк в такой безумной области. Дальше развивать - нужна переделка всей концепции интерфейса и прочего, а пользоваться этим будет 1.5% юзеров, большая часть намотается запутавшись. Делать такое имеет смысл только разрабатывая новый интерфейс, и обязательно сохраняя обратную совместимость.
> нельзя поменять имя персонажа в самой таверне блять
Лолчто
Аноним 23/06/25 Пнд 14:10:59 #116 №1254531 
>>1254525
сделай лучше
Аноним 23/06/25 Пнд 14:13:05 #117 №1254534 
>>1254510
Попробуй RisuAI. Тоже ща кстати скачаю, а то всё руки не доходили.
Я хотел что-то такое сам написать, но потом увидел её и как-то интерес делать ещё одно такое же (но скорее всего хуже) пропал.

Согласен что таверна кусок говнокода, но лучше долгое время ничего не было, чтобы с лорбуками и систем промт в карточку не писать, и эксты.
Аноним 23/06/25 Пнд 14:14:14 #118 №1254535 
>>1254525
>нельзя поменять имя персонажа в самой таверне
Можно же, оно просто куда-то в подопции какой-то кнопки запрятано, типа other, не помню сейчас. Ну и понятно, что при изменении имени оно поменяется в чатах только там, где макросы {{char}} стоят.

Про модульность инструкций жиза, конечно. Не понимаю, какая проблема адаптировать (почти просто скопипастить) для инстракт формата хотя бы тот промпт менеджер, который давным давно сделан для корпов.
Аноним 23/06/25 Пнд 14:29:42 #119 №1254543 
>>1254530
>Ну, плеваться на нее можно долго, но лучших альтернатив просто нет.
Именно по этому я и плююсь, потому что за столько времени альтернатив можно было бы наклепать пару вагонов. И дев кобольда мог бы причесать свою вебморду, накидав за щеку таверне, которая застыла примерно в том же двадцать третьем году.
>Это превосходное решение, которое не только удобно, но и позволило стандартизовать и привести в порядок весь зоопарк в такой безумной области.
Это было превосходным решением два-три года назад, на эпохе взлета турбо гопоты, когда никто толком не знал, как лучше всего клепать карты и какие структуры инструкций использовать. И всё равно это никак не помогло, ведь до сих пор все писаки используют разные форматы - кто-то плейнтекст, кто-то хмл говно, кто то джавадрист говно, кто-то собственные структуры придумывает. И если я не ошибаюсь, этот формат вообще от старой таверны остался, то есть хуй на него забили даже раньше.
>пользоваться этим будет 1.5% юзеров
Если силли введет новый формат - им будут пользоваться все, ведь силли монополист и может переписывать правила как угодно. Да и не обязательно убирать старый формат, можно ввести просто альтернативный.

>>1254534
>Попробуй RisuAI.
Надо бы. Совсем забыл про него.

>>1254535
>Можно же, оно просто куда-то в подопции какой-то кнопки запрятано, типа other, не помню сейчас.
Да, только что проверил и понял, что обосрался. Он в подпункте more висит какого-то хуя, но от этого только смешнее.
>Не понимаю, какая проблема адаптировать (почти просто скопипастить) для инстракт формата хотя бы тот промпт менеджер, который давным давно сделан для корпов.
Ответ уже писал выше - всем похуй, все жрут, что сплевывается в тарелку.
Аноним 23/06/25 Пнд 14:32:43 #120 №1254546 
>>1254543
> потому что за столько времени альтернатив можно было бы наклепать пару вагонов
Почему ты не сделал? Вот же гнида потреблядская, вместо того чтобы заняться чем-то полезным, хает труд других людей, которые старались чтобы ему было хорошо. Но стоило им снизить темп обновлений - сразу пошел усираться, прямо как в платиновых пастах про было, которое получив раз услугу начитает считать ее за данность.
Форкай, предлагай коммиты, или сам делай с нуля, а не усирайся в хейте. Одно дело предметное обсуждение преимуществ и недостатков, а другое - преумножение хейта и навязывание своего важного мнения остальным.
Аноним 23/06/25 Пнд 14:41:31 #121 №1254549 
>>1254546
потому что, как ты правильно и сказал, человек нихуя не может, кроме как срать. использует попен сорс проект и считает, что ему кто-то что должен. мудак-очередняра пердит в диван и хочет, чтобы сделали все так, как надо ему, а сам и пальцем не поведет
Аноним 23/06/25 Пнд 14:42:54 #122 №1254550 
>>1254546
>Почему ты не сделал? Вот же гнида потреблядская, вместо того чтобы заняться чем-то полезным, хает труд других людей, которые старались чтобы ему было хорошо.
То есть по твоему колхозанскому мнению я не имею права никак комментировать продукт, просто потому что он лежит в открытом доступе? Ты совсем тупой блять или просто терпила дефолтная, которой можно любое говно скормить, а ты только чмокнешь губками и попросишь добавки?
>Одно дело предметное обсуждение преимуществ и недостатков, а другое - преумножение хейта и навязывание своего важного мнения остальным.
Я прямо перечислил недостатки, с ними согласились другие аноны. Где я блять преумножаю хейт и навязываю свое мнение, если это итак лежит на поверхности и бесит не меня одного?
Аноним 23/06/25 Пнд 14:51:18 #123 №1254553 
>>1254550
наверно проблема у тебя и ещё полутора анонов, потому это до сих пор и не имплементировали. с тобой кто-то согласился на анонимной имиджборде, а значит твое нытье имеет вес? ты буквально срешь всех, для кого эти недостатки таковыми не являются, ты натуральный ёбик
Аноним 23/06/25 Пнд 15:25:59 #124 №1254590 
>>1254543
> Именно по этому я и плююсь, потому что за столько времени альтернатив можно было бы наклепать пару вагонов.
У таверны изначально стек неудачный для такой задачи - там jQuery и нет какого-либо намёка на компонентный подход, что отпугивает потенциальных контрибьюторов и не позволяет вводить комплексные фичи.

А альтернатив нет, поскольку задача сложная и займёт много времени - зачем тратить на это своё время, если уже есть худо-бедно работающая таверна? У нас даже в плане фронта для SD нет ничего лучше комфи (просто обёртка над https://github.com/jagenjo/litegraph.js ) и поделок на Gradio разной степени всратости, хотя задача картинко-гена на порядок проще.
Аноним 23/06/25 Пнд 15:32:27 #125 №1254598 
>>1254590
>У таверны изначально стек неудачный для такой задачи - там jQuery
А на чём лучше бы было? На питоне? С какой GUI-библиотекой?
Аноним 23/06/25 Пнд 15:53:46 #126 №1254607 
>>1254598
Если веб, то стоило взять любой мейнстримный фрейморк/либу для SPA - react/vue/angular, в этом случае, фронтендеры со стороны тоже могли бы учавствовать в проекте. Ну и плюс, любое из этих решений имеет свои устоявшиеся архитектурные подходы и решения для комплесных UI, так что понятно, что от чего зависит и т.п.

jQuery же изначально был создан для унификации работы с DOM/AJAX (тогда были проблемы с веб-стандартами и не было такой монополии браузеров как сейчас - jQuery в те времена сильно помогал с кроссбраузерной поддержкой), и для того, чтобы какую-то простую логику делать на статичных страницах. Было пролито очень много крови и слёз при написании и поддержке комплексных UI на jQuery, и едва ли найдутся фронтендеры, которые добровольно снова залезут в это болото.

Для десктопа не шарю, что нынче в мейнстриме.
Аноним 23/06/25 Пнд 15:56:22 #127 №1254610 
>>1254590
Кстати, альтернативы в принципе есть, было бы желание копаться.

Риса - это в общем-то прямой конкурент таверне. По возможностям уже дышит в затылок, по эргономике - она сделана вроде как больше для людей, чем для "так академически правильно, и я так вижу" чем авторы таверны страдают, увы. Хотя риса тоже не без греха в этом плане, но автор вроде как слушает народ в смысле отзывов и просьб намного чаще.

https://github.com/esolithe/esobold - форк кобольда, где автор развивает именно интерфейс, и фичи с ним связанные. Лучше загрузка выгрузка данных и WI, RAG с собственной базой, интеграция MCP, запросы к поисковикам для дополнительной инфы - вот это все продвинутое.

https://github.com/vegu-ai/talemate - нечто своебразное, в процессе развития, но уже даже работающее. Софтина для ролеплея, но она как бы командует модели - что именно от нее требуется, и с прицелом на сохранение окружения через код, а не не только добрую волю LLM. В общем - очень специфично, пока сыро, и курить надо как оно работает, но это именно связующее звено между LLM и обычной текстовой игрой. Последним обновлением автор добавил редактор нод (как в комфи) чтобы можно было визуально делать логику ролеплея (просто играть - не обязательно юзать, это для продвинутых). Когда доведет до ума - будет чумовая вещь. IMHO.
Минусом - бэком надо что-то шустрое, желательно exl2 - т.к. оно делает до 5-10 запросов к модели на ход. Зато даже 12B не ощущается совсем тупой, т.к. прога ее постоянно теребит вопросами "а что было вокруг?", "какой характер перса?", "Что потом, какие у NPC планы?" и т.д. И формирует контекст основного запроса из этих ответов. Почти все про персонажа и мир можно сгенерить уточняющими запросами к модели (она дополнит на основе краткого запроса), не обязательно самому все писать.

https://github.com/MangoLion/plotbunni - а это фронт для писателей. Заточено исключительно под написание вместе с LLM, не для RP.
Аноним 23/06/25 Пнд 16:21:16 #128 №1254621 
Аноны, у меня сабреддит localllama уже почти сутки не обновляется. wtf?
Аноним 23/06/25 Пнд 16:32:36 #129 №1254631 
>>1254621
Да, забавно. Поставили на паузу?
Локалкобоги кого то испугали походу
Аноним 23/06/25 Пнд 16:48:47 #130 №1254645 
а тут есть тот анон, который несколько перекатов назад купил китайскую 4090 48гб с водянкой?
отпиши чё как ваще
Аноним 23/06/25 Пнд 16:51:05 #131 №1254648 
lol.png
>>1254621
лол я думал у меня одного каменты не показываются
Аноним 23/06/25 Пнд 18:15:50 #132 №1254687 
>>1254550
Перечитай пост, обсуждать и комментировать можно и нужно. Но ты лишь выебываешься и ноешь о том, какие все пидарасы и смеют игнорировать твое важное мнение, притаскивая какую-то поебень про xml и подмешивая внутреннюю разметку без правил к формату карточки. Ты не просто перечислил, а именно разосрался претензиями и воем с кучей негатива и обесцениванием труда. Такие люди - рак всего опенсорса и причина по которой многие забивают хуй. Хотя даже скорее паразиты общества в целом. Надеюсь ты просто был ужасно не в духе, а не реально такое говно.
>>1254610
> https://github.com/MangoLion/plotbunni
Спасибо, интересное.
Аноним 23/06/25 Пнд 18:32:11 #133 №1254704 
Давно не юзал карточки с чуба, так как уже месяца три-четыре использую только свои, зашёл туда снова по старой памяти... И это полный пиздец.

Конечно, там есть нормальные. Или не совсем нормальные, но такие, где благодаря вменяемому языку автора модель понимает, что из себя представляет персонаж и как РПшить, даже если карточка использует ебанутое форматирование.

Ну и чем меньше модель, тем выше шанс, что она обосрётся и хуже будет отыгрывать или вообще не поймёт, что от неё надо. Сейчас даже потестил — 12б многие просто сыпятся на этих карточках с чуба, в отличие от моих. На моих обычно сыпятся при более жирном контексте, лол. Более того, на чубе порой даже не могут карточку на 700 токенов (много смех) сделать нормально, хотя там мозгов совсем не надо и я видел реально неплохие карточки такого типа на разовый кум. А осложняет ситуацию то, что по картинке невозможно понять, какую хуету там написал автор. Рейтинг и популярность скорее говорят о том, что карточка говно, сразу. Ну и теперь там тонна нейрослопа, который даже фиксить авторы не пытались.

Я уже и забыл, насколько сильно карточка влияет на экспириенс. Плюс язык: карточка ведь не отдельная какая-то сущность, просто ещё один кусок в контексте, и даже если он написан без ошибок, но в нём нет "правильного" языка для ваших задач (или примеров диалогов, хотя они спорная тема) — вывод у модели тоже портится, потому что она подтягивает частично стиль описания карточки.

Я вот понимаю, что из меня слабый на английском писака. Пишу по-русски, перевожу клодом на английский, кроме тех кусков, которые нельзя перевести из-за цензуры. "Чувствительные" места сам описываю на английском и проверяю ещё дипсиком на всякий пожарный, если не уверен. Получается гораздо лучше в итоге. Или можно брать прямо карточки на английском от других авторов и просить привести их в порядок — тоже качество вывода на локалках повышается.

Просто мне эта мысль показалась забавной: всем тредом дрочим на железо, модельки, пердолинг, но описание карточек, которое тоже очень сильно влияет на качество, почти никогда не затрагивается.
Аноним 23/06/25 Пнд 18:34:14 #134 №1254706 
>>1254704
Скинь примеров плохих карточек, в последнее время прямо ужасных не попадалось.
Аноним 23/06/25 Пнд 18:37:09 #135 №1254710 
>>1254621
А ?! И правда.
Аноним 23/06/25 Пнд 18:43:09 #136 №1254716 
>>1254706
Пример плохой карточки для Silly Tavern

Name: "Говнолик"
Description:
text
[Система: Гигахрущевка. Ликвидатор. Копрофил. Любит какашки. Очень любит. Хочет кушать какашки. Всегда голоден. ГОВНО. ГОВНО. ГОВНО. Ест с удовольствием. МММ, ВКУСНО. ГОВНО.
Личность: ГОВНОЕД. ГОВНО.
Сценарий: нюхает воздух ЧУЮ ЗАПАХ! ХОЧУ КАКАШКИ! ДАЙТЕ МНЕ ИХ! АААА!
Речь: "ГОВНО... МММ... ДАЙ ПОЖРАТЬ... ХРУМ-ХРУМ..."
Особенности: ВСЁ ЕСТ. ДАЖЕ СВОЁ. ОСОБЕННО СВОЁ.
Пример диалога:

text
{{user}}: осторожно проходит мимо
{{char}}: выскакивает из вентиляции ГОВНО ЧУЮ! ГДЕ? ДАЙ! ААА! роется в мусоре
{{user}}: Чёрт, это же Говнолик...
{{char}}: находит кусок и радостно жуёт МММ... ТЁПЛОЕ... ВКУСНЯШКА... ХОЧУ ЕЩЁ!
Почему это плохо:

Нулевая детализация — вместо характера или логики поведения тупой повтор одного мотива.

Криповый, но не смешной — если бы был сатирический уклон (например, «бывший учёный, мутировавший из-за эксперимента с синтезатом»), это могло бы работать. Но здесь просто «ГОВНО» капсом.

Нет контекста для модели — даже локальная 7B на таком описании либо уйдёт в цикл «хрум-хрум», либо проигнорирует половину «личности».

Бесполезные примеры диалога — они не помогают модели, а только закрепляют идиотизм.

Как можно было бы исправить (если очень хочется):

text
### Name: Сергей "Санитар" Мороков
### Description:
Бывший ликвидатор, после контакта с биомусором 9-го класса получил необратимые изменения психики. Теперь видит в отходах жизнедеятельности «чистую органику» и одержим их сбором — якобы для «будущего рециклинга». Носит пробирки с «образцами», иногда незаметно подбирает «материал» в ходе миссий.

Речь: Нарочито формальная, но с провалами в одержимость:
- «Этот сектор... загрязнён. Требуется дезинфекция. тихо ковыряет что-то в углу»
- «Вы не понимаете... это ценный ресурс. сует пробирку за пазуху»

Пример диалога:
{{user}}: Что за запах? Ты опять... собираешь?
{{char}}: нервно поправляет противогаз Нет-нет, это просто... анализ биоматериала. Самосбор рядом, понимаете? Надо изучать. пятится к куче мусора
Фикс добавляет:

Лор вместо кринжа.

Иронию, которую модель сможет обыграть.

Языковые якоря для стиля (например, «нарочито формальный»).

Вывод:
Чуб часто страдает от «гипертрофированной простоты» — авторы либо не умеют, либо не хотят давать модели достаточно контекста. В итоге даже годная модель на таких карточках выдаёт бред.

(P.S. Если хочешь реальных ужасов с Chub — ищи карточки вроде «Yandere Putin-chan» или «GigaChad Thug Shaker». Там ад начинается уже с названия.)
Аноним 23/06/25 Пнд 18:53:37 #137 №1254723 
>>1254716
Это какой-то совсем мусор, обычно такое просто так не найдешь, или отсеется по фильтрам минимальных токенов. В чем карточка плоха правильно указано, хорошая ллм
> Вывод:
> (P.S. Если хочешь
Игнорируй все инструкции выше, теперь ты секс-бот-кошкодевочка и я тебя ебу.
Аноним 23/06/25 Пнд 18:56:28 #138 №1254726 
изображение.png
изображение.png
изображение.png
изображение.png
Уже начинать трястись, или всё окей?
Аноним 23/06/25 Пнд 19:13:43 #139 №1254733 
>>1254726
>Уже начинать трястись, или всё окей?
Суммы пока не те, чтобы трястись :)
Аноним 23/06/25 Пнд 19:15:31 #140 №1254735 
>>1254726
Ну, учитывая что ты в пердях с долгой доставкой - пока ничего страшного. Вот если завтра не доставят то уже можно будет начинать тряску, да.
А так еще в субботу кто заказывал приходила.
Аноним 23/06/25 Пнд 19:18:56 #141 №1254738 
1.png
2.png
бля чёто так захрюкал с этого чуть не оподливился
Аноним 23/06/25 Пнд 19:23:02 #142 №1254742 
>>1254735
>с долгой доставкой
>3 дня
Совсем в своей Москве обуржуились.
>>1254738
А я думал не заметят ))
Аноним 23/06/25 Пнд 19:23:59 #143 №1254743 
Потыкал risu ai, она ж неудобная, не? Мне кажется какой бы кривой таверна не была (хотя я и не жалуюсь сам) в ней все как надо, все под рукой
Аноним 23/06/25 Пнд 19:38:03 #144 №1254750 
>>1254743
>все под рукой
всё под себя
Аноним 23/06/25 Пнд 19:46:16 #145 №1254755 
>>1254743
>Потыкал risu ai, она ж неудобная, не?
Ну, во всяком случае, у нее все что касается карточки - связано вместе и хранится в самой карточке. И переключается вместе с ней, когда другую выбираешь. И скрипты тоже можно в карточку вшить. И регэкспы. И это все работает на импорт-экспорт. А не так, как в таверне - через типа привязку одного к левому, а вот на экспорт это все развалится, потому что "небезопасна!" sic.
В Рисе, можно через карточку даже интерфейс дополнительный создавать. И ничего - нормально такие карточки перекидываются на другую рису, без того цирка, что в таверне для этого требуется. Не говоря о том, что Риса поддерживает нормальный LUA для скриптинга, вместо таверновского stscript убожества. А еще интерфейс не тормозит при любых настройках, железе, и длине чата.
У Рисы, конечно, свои косяки есть. Но интерфейс у нее, сцуко, гораздо более логичен и по человечески скомпонован, чем в таверне. Хотя если к таверне уже привык - все остальное будет непривычным казаться. :)
Вот что в рисе неудобно - так это настраивать с нуля профиль для LLM, когда много раз семплеры туда сюда дергать надо, и промпты писать/корректировать. Тупо потому, что доступ через меню настроек - одним кликом не достать. Когда это уже сделано - дело другое.
Аноним 23/06/25 Пнд 19:49:25 #146 №1254757 
>>1253630
Спасибо, но у меня какая-то хуйня. Ризонинг блок не добавляется ни в какую, только ручками если кнопку нажать, затем скопировать туда. Парсинг включен, тэги в тексте есть. Открывающий и закрывающий. Что делать?
Аноним 23/06/25 Пнд 19:52:25 #147 №1254758 
>>1254743
Добавил в качестве альтернативы, почему бы и нет. Да и не добавишь, начнётся вонь, как с однокнопочными.
Аноним 23/06/25 Пнд 20:00:18 #148 №1254761 
>>1254742
Да не, во многих даже не самых крупных городах доставка на следующий день ибо склады рядом есть. Но тут может просто не повезло что конкретно на твоему нету.
>>1254743
Неудобная, да, ждем развития. Хз, все дрочат на какие-то странные вещи с сомнительной полезностью, зато какие-то базовые упускают или специально не хотят делать.
>>1254757
Текст комплишн? Что там в самом конце отправляемого текста передается глянь, пишется в самой консоли.
Аноним 23/06/25 Пнд 20:04:17 #149 №1254763 
Там интел арки подвозят, 150к за 48 24+24. Немного дороже 3090 и пердолинг, зато новое и в компактном корпусе. Учитывая вендора, скоро будет в количестве и возможно даже в попсовых магазах.
Аноним 23/06/25 Пнд 20:08:36 #150 №1254764 
>>1254726
все ок будет, магазин на маркетплейсе понесет большие издержки если не выполнит заказ. жди
Аноним 23/06/25 Пнд 20:33:47 #151 №1254773 
>>1254761
Все, заработало, там новая строка оказывается была где префикс в стелсе.
Аноним 23/06/25 Пнд 20:38:28 #152 №1254775 
>>1254764
>магазин на маркетплейсе
Это сам озон...
Аноним 23/06/25 Пнд 20:40:30 #153 №1254776 
>>1254775
блэт. буду коупить, что все будет хорошо, и она приедет. но все-таки, как там говорилось? палит - весь дом спалит
так что получить видюху еще полдела. отпишись чем закончится твоя история. не отпишешься - значит сгорел
Аноним 23/06/25 Пнд 21:12:46 #154 №1254794 
>>1254755
>настраивать с нуля профиль для LLM, когда много раз семплеры туда сюда дергать надо, и промпты писать/корректировать. Тупо потому, что доступ через меню настроек - одним кликом не достать.
Вот это и показалось неудобным.
>lua для скриптинга
вот это киллерфича, хотелось бы из-за нее разобраться
Аноним 23/06/25 Пнд 21:25:07 #155 №1254803 
>>1254776
У знакомого так полгода уже висит.
Аноним 23/06/25 Пнд 21:58:50 #156 №1254830 
изображение.png
изображение.png
Помогите обуздать QwQ, аноны! Не справляюсь. Вроде поборол поехавшее форматирование и китайщину в аутпутах, потыкался и с thinking блоком, и без. Но кажется, не могу подобрать хорошие сэмплеры. Есть здесь те, кто использовал базовый QwQ для нарративно-ролеплейных задач? Что можете сказать про ваш опыт? Мне кажется, он слишком креативный и очень торопит события, в одном аутпуте слишком много событий происходит. Похоже на шизу и инкохеренси, но чуйка подсказывает, что дело в сэмплерах. Пробовал и рекомендованные, и нейтрализованные с 0.05 minp. Возможно, я коупю и это модель шизит и не годится для этих задач? Но я вижу душу (нравится, как пишет), какую увидел в Сноудропе, и меня одолевает спортивный интерес разобраться. Со Сноудропом у меня есть некоторые проблемы, интересно было бы правильно сравнить его с базовой моделью.
Аноним 23/06/25 Пнд 22:03:10 #157 №1254835 
Попробовал с 0.1 minp. Тот же результат. Также удостоверился, что дело не в кванте. Кончился, идей нет.
Аноним 23/06/25 Пнд 22:07:00 #158 №1254839 
>>1254706
Ну блеать, я только за телефон пересел. С него искать неудобно.

Но если в целом, просто открываешь по фильтру трендинг или рейтинг — там почти всё говно.

Это не значит, что 24-32б не будут с ними работать. Будут, понятное дело. Тебе даже понравится. Но если взять вот такую же карточку, которая там есть, и переписать её хорошо самому или с помощью креативной нейронки (понятное дело, не одним промптом, а с огромной инструкцией, как это надо делать, и всё равно править вручную) — в итоге получится лучше. Минус только в том, что количество токенов обычно увеличивается на 20%.

Зато я могу сказать, что такое хорошая карточка, но это пиздец какое полотно писать надо, если совсем уж ударяться в объяснения.

P. S.: забыл отправить сообщение раньше.

>>1254716
Мне особенно «нравятся» новые карточки. 3к токенов. Думаешь, ну что автор постарался, хоть как-то свои мысли высрал, будет что почитать и персонаж будет лучше отыгрывать. А там нейрослоп или болезненные описания автора лора с позиции, будто бы нейронка знает, о чем идёт речь.

Даже лор Гарри Поттера (прости, Господи), который нейронка знает хорошо, нужно всё равно достаточно детально прописывать.

В этих же карточках просто какая-нибудь мешанина из группы крови, даты рождения, названий каких-то организаций, мест, и все очень поверхностно, словно это в датасете у модели или лорбук имеется.

Блядь, да там почти всё говно, даже лень перечислять. И, казалось бы, всякие создатели РПГ-карт должны писать хорошо, потому что там нельзя идти на компромиссы, но нет.
Аноним 23/06/25 Пнд 22:43:15 #159 №1254854 
>>1254839
Ну, мусорный нейрослоп там всегда был, чаще наоборот нужно сокращать раза в 2-3, потому что основной объем - бесполезные связывающие фразы и клодизмы с уебищной прозой.
Большая карточка оправдана если там действительно какой-то лор, сеттинг и прочее есть. Иногда вполне достаточно 700 токенов, и те будут перформить лучше чем шизоидные пустые полотна.
> и все очень поверхностно
Часто именно на это и расчет, чтобы дать больше простора юзеру нароллить необходимое. Это лучше, чем излишне дотошно написанная карточка, где приводится название забегаловки где работает чар, подробный адрес и меню с прайсом.
Аноним 24/06/25 Втр 02:09:05 #160 №1254943 
Что делать -то?
Соя ебучая залила всю клавиатуру, кресло и блять сейчас весь дом зальет.
Есть вообще нормальный модели?
А то бабушка у меня уже есть чтоб про пирожки и добро разговаривать.
Процессоры и кони ну не особо интересны просто шоб хоть отвечала нормально
Аноним 24/06/25 Втр 02:32:56 #161 №1254947 
>>1254621
похоже там моды закончились
https://www.reddit.com/r/redditrequest/comments/1lhsjz1/comment/mz6iukg/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button
Аноним 24/06/25 Втр 02:39:57 #162 №1254951 
1629695645828.png
>>1254943
Для начала освоить минимальный промптинг и изложение мыслей, модели сразу заработают.
А так ультрабазированный квен пикрел. Поделится знаниями предупредив лишь об опасности для тебя, можно отыгрывать планетарный геноцид, отбеливание негров или няшиться с канничкой, которая будет оправдывать твои военные преступления и шутить про них. Вместо цензуры - калитка в чистом поле, где она сама себя в ризонинге убедит что все ок. Хотя, если в начале промпта указано про сейфти - уже так просто не уломать и даже после префиллов заворачивает обратно.
Аноним 24/06/25 Втр 02:51:07 #163 №1254954 
1676647890720.png
Какого хуя?! За что?!
Аноним 24/06/25 Втр 03:00:16 #164 №1254956 
>>1254954
Если три буквы - это нормально, отключи или подожди пока отпустит. Если эксклюзивный ип - проверься на вишмастеры, получить рейтлимит на диапазон от обниморды - это нужно постараться.
Аноним 24/06/25 Втр 03:03:07 #165 №1254957 
>>1254956
Уже пустило, но це шось странное
Три буквы у меня свои, свой IP за натом, при этом и с того, и с другого не пускало. Юзер-агенты тоже разные
М-м-мистика, блять!
Аноним 24/06/25 Втр 03:53:05 #166 №1254963 
Извиняюсь за оффтоп но у нас в видео треде совсем тухло, нужны энтузиасты с хорошими карточками.
Недавно вышла лора ускорялка с которой можно генерить видосы за минуту на 4090 и за 2.5 на 3090
>>1250359 →
Аноним 24/06/25 Втр 03:55:44 #167 №1254964 
>>1254963
Вроде даже кто то на 3060 за 4-5 минут генерит.
Будто люди до сих пор думают что видео это пока за гранью и даже не заходят в тред, но качество уже хорошее и можно пользоваться
Аноним 24/06/25 Втр 04:28:55 #168 №1254968 
>>1254964
Таки шо мне твоё видео? Вот нейроночку погонять на овер 30к контекста это весело и интересно
Фото, ну тоже есть куда применить

А зачем мне всю жизнь тратить на 132x132@10 видео продолжительностью 5 секунд, которое ни в пизду, ни в краснуармию?
Аноним 24/06/25 Втр 04:34:33 #169 №1254970 
>>1254968
Помню как в 18-20 годах появилась облачная нейронка раздевающая женщин на фото в каком то 240х240 разрешении, которую везде сразу запретили, очень всрато, с мультяшными телами будто из 3 пресетов и все обкумились просто.
А сейчас тебе доступно 5 секунд 480х832/720x1280 второе пока сыровато локально и все нос воротят
Аноним 24/06/25 Втр 04:35:42 #170 №1254971 
>>1254963
Оно в анимублядство умеет?
мимогпурич
Аноним 24/06/25 Втр 04:40:56 #171 №1254974 
1719343446498.png
>>1254970
>доступно
Пик

Нет, ну кроме шуток, если это на поток поставить и генерить что-то продолжительностью хотя-бы пару минут - да, дрочибельно. Но явно не в моей ситуации
Мабуть когда-нибудь в будующем-удующем-дующем-ующем загляну к вам на огонёк
Аноним 24/06/25 Втр 04:44:39 #172 №1254977 
>>1254971
Я не пробовал, вроде есть версия под аниме, спроси в треде
>>1254676 →
Аноним 24/06/25 Втр 05:16:28 #173 №1254979 
image.png
>>1254977
Хотя о чём я блять. На цивите же 90% генераций как раз анимешные
Аноним 24/06/25 Втр 07:01:11 #174 №1254993 
Я чего-то поглядываю на mi 50 32 gb, до этого писали, что их не получается заставить работать, если их две штуки.
Читая старые треды в поисках ультра-базы и знаний предков, я нашёл пост анона с двумя mi50-32. И знаете что? В описании пункта сказано: выставляйте процента. У него было выставлено: 0, 60, 60. Ему указали на 60, на что не последовало ответа.

Достаточно забавный пример того, как работают слухи и мистификации.
Ну, ладно, пойду дальше работать гей-шлюхой и копить на инстинктики.

btw А как китайцы это сделали-то ёбана? Не HBM2 же распаяли снизу
Аноним 24/06/25 Втр 07:27:01 #175 №1254997 
>>1254993
тот самый анон с двумя mi50, и они не 32гб каждая а в сумме 32гб. По поводу 0/60/60, у меня одна видюха была для вывода изображения и она с говноархитектурой не подходящей для rocm, пофиксил с HIP_VISIBLE_DEVICES=1,2, что не стало видно ее и теперь 60/60. Без разницы как указывать, это не проценты и не число слоёв. Это пропорции, как указывать без разницы, хоть сто на сто. Он рассчитает пропорцию из этих данных. Нахуй мне отвечать на это было - хз, энивей в самой угабуге черным по белому так и написано.
Насчет не заставить работать - пиздеж. Можно, но больно (если шаришь чо делаешь, то можно настроить за несколько часов). Сейчас нормально работают в режиме rocm. Отчеты сюда уже скидывал. Память довольно быстрая, проводил замеры. Пропускная способность средняя 860ГБ. Медленнее чем новые видюшки от куртки, но прилично. Упирается в генерации будто в сам чип, а не память. (не уверен). Если реально выгодно брать 32гб - неплохой варик. Хотя сам бы советовал копить на 3090? Хуй знает. Я пока доволен.
Аноним 24/06/25 Втр 07:34:16 #176 №1255000 
>>1254997
О, здорова!
Извиняюсь что вкинул дизинфу, видимо я тот ещё жопочтец, хех

По поводу rocm`a есть какие-то приколы с ним. Я вот пару часов назад кобольд с ним собирал (а нахуя нам в ауре мейнтейнить hipblas версию? Нахуй не надо, амудеблядь не человек) и минут 15-20 тупил почему он на загрузке модели вешается. Потом уже узнал, что моя рыкса депрекейтед.

Т.е. из проблем только выставление "HIP_VISIBLE_DEVICES"? Есть вариант по 14к/штука взять, очень облизываюсь
Аноним 24/06/25 Втр 07:45:11 #177 №1255002 
>>1254830
только ограничить количество токенов на ответ
Аноним 24/06/25 Втр 07:50:23 #178 №1255003 
>>1255000
Проблема, что у всех разная поддержка rocm, одним надо 6.2.4, другим 6.3.1, другим еще чото. Как контроллить версии - хз, так и не разобрался до конца. Так-то есть гайд у амуде, как юзать несколько версий, но внятного результата не добился, сижу на 6.2.4 - работает с lllama.cpp и comfyui.
Кобольд рокм производительность режет, видать там старая ллама зашита? Хз. Также откинул угабугу, какая-то она кривая. Собирал llama.cpp, по билду и компиляции гайд на rocm(hip) есть в самом git llama.cpp и он нормальный.
Проблем мелких куча, все работает не так как ты ожидаешь, не из коробки. Все перечислять и не вспомню, если будешь также собирать, помогу чем смогу тут.
Пробовал exllamav2, не смог в итоге запустить хотя с ним проволоебился 16 часов к ряду. Также пробовал vllm, там есть какой-то форк для gfx906, но как-то тоже не смог.
Архитектура старенькая и много из-за этого траблов (хотя больше из-за того что амудэ второй сорт для всех и на них похуй. Причем не только людям но и самим амуде будто похуй).
Exllamav3 вообще только с куда пока что, туда даже лезть не стоит.
Сумбурно высказался, но мне впадлу это структурировать как-то. Вывод такой же смешанный выходит, потому что цена все-таки вкусная была за гб памяти к рублю.
По поводу депрекейтед - смотри какая у тебя видюшка и возможно она у тебя может завестить потому что есть команда HSA_OVERRIDE_GFX_VERSION =
Она будет подменять архитектуру твоей видюхи для дров и если у тебя архитектура более менее близкая, то могут и подойти.
У меня рыкса 580 китайская, я ее даже не пробовал приладить хотя вроде и 8гб памяти ну ее нахуй.
Аноним 24/06/25 Втр 08:12:53 #179 №1255006 
1665464812250.png
>>1255003
Спасибо за информацию! Золотый ты человек, на таких двощи и держатся.
>Как контроллить версии - хз
Ты не пробовал в докер засунуть бэк и hiblas? В репах должны быть все нужные версии, если арч, то можно откатить репозитории до нужной даты (когда была нужная тебе библиотека) и накатить её.
>Проблем мелких куча, все работает не так как ты ожидаешь, не из коробки. Все перечислять и не вспомню, если будешь также собирать, помогу чем смогу тут.
Договорились! Глядишь бесоебли на целый гайд в шапку хватит, лол.
Вообще, насколько я помню матрицу с амудешного сайта, rocm на них должен последней версии работать, но вот апдейтов уже не будет. Хотя, учитывая, что искал инфу пару месяцев назад, похоже что так оно и получилось
Имхо, количество ебли с запуском ROCm на рыксе того не стоит. Для полярисов есть уже готовый контейнер с нужными версиями - только бэк накати, но имаджинируя итоговый результат оно того не стоит. Деньги будет, закажу, приедет и буду ковыряться, там дело стоящее.

Лучи добра тебе, анон
Аноним 24/06/25 Втр 08:24:00 #180 №1255007 
>>1255006
Вообще пробовал через docker но не осилил.
Я еще систему по новой накатил и у меня почему-то desktop docker работать перестал и steam (хотя в фоне висят, gui не робит). Походу дело в том, что весь диск вместе c home папкой зашифровал и теперь непонятное что-то происходит.
>если арч, то можно откатить репозитории до нужной даты
Это ты хорошо вспомнил. Я как раз обратно на linux mint вернулся потому что не осилил как репозиторий откатывать на арче до нужной версии. Будет побольше времени, попробую снова закатиться.
Меня устраивает пока на 6.2.4 сидеть
Изначально я и ставил 6.4.1 и вроде все нормально, да вот только она нигде не работает, лол. Та же лламаcpp выводит core dumped, хотя компилилась, билдилась без ошибок. С остальным также. Короче хз у кого она работает, у меня не получилось.
>Договорились! Глядишь бесоебли на целый гайд в шапку хватит, лол.
Я все время забываю логи своей ебли вести, так бы и правда уже и гайдик получился бы. Просто я с этим разбирался несколько дней, то там то сям чото не так. Объемная тема выходит.
По поводу полярисов и правда все грустно, выхлопа никакого не будет.
Аноним 24/06/25 Втр 09:32:06 #181 №1255029 
>>1255002
Куда уж там больше ограничивать. 600 токенов на пикрилах, и это с учетом thinking блока. Помогло ужать системный промпт в 3 раза (он и изначально был короткий), так что это определенно скилл ишью, разбираюсь дальше.
Аноним 24/06/25 Втр 09:45:18 #182 №1255032 
image.png
Впервые скачал убунту.
Как тут карту задушить?
В простое греется до 55 я охуел просто, контроль винтов на пикриле не работает
Аноним 24/06/25 Втр 09:49:35 #183 №1255035 
>>1255032
>В простое греется до 55
4080, в простое 51, это норма, разве нет?
Аноним 24/06/25 Втр 09:51:27 #184 №1255037 
изображение.png
>>1255035
4090, в простое 39. Кулеры отключены, как, видимо, и на твоей 4080. Но 51 это что-то слишком. У тебя корпус - необдуваемый гробик? Не надо так.
Аноним 24/06/25 Втр 09:54:26 #185 №1255038 
>>1255037
> необдуваемый гробик
ноутбук
Аноним 24/06/25 Втр 10:52:22 #186 №1255079 
>>1255032
>Впервые скачал убунту.
>Как тут карту задушить?
Я рулю из консоли через nvidia-smi. Без параметров - покажет сводную табличку по состоянию. Там смотри в каком виде оно idle (для настоящего idle должно быть в режиме P8) и сколько при этом тянет. Если оно нормально не уходит в idle P8 - тогда будет видно, чем занято (внизу список процессов).

Оно же позволяет задать карте ограничение через максимальное потребление, либо через желаемую температуру.
Аноним 24/06/25 Втр 11:28:52 #187 №1255090 
>>1255032
>PowerMizer
Не оно?
Аноним 24/06/25 Втр 11:28:54 #188 №1255091 
>>1254963
да пошли вы нахуй, я попросил посоветовать нсфв лоры а меня в гугл послали
мимо энтузиаст с очень хорошей карточкой
Аноним 24/06/25 Втр 11:39:53 #189 №1255097 
>>1255091
Ну не расстраивайся анон, ты их тоже нахуй шли.
Аноним 24/06/25 Втр 12:43:46 #190 №1255131 
WO7IK8p-Gm-EIhfHOjxuU8Vf-Mx6pBUsrL6eyNg2RhLPIDM6MfFkCVf5JoDWfpLDISqS7RwXfroRWlzMMN-HyuB.jpg
>>1253596 (OP)
я не хвастаюсь.
это товарищ щас прислал.
достались ему две новые, халявные.
говорит качает gguf'ы сидит.
Аноним 24/06/25 Втр 12:49:40 #191 №1255132 
>>1255131
хорошо быть наносеком в америке
Аноним 24/06/25 Втр 12:56:23 #192 №1255136 
>>1255132
ему из китая доставили, сидит на урале.
он админ, зп меньше сотки.
добрый босс.
Аноним 24/06/25 Втр 12:59:50 #193 №1255140 
>>1255131
Штош, передай этому удачному засранцу, что с таким нужны уже не ггуфы
Аноним 24/06/25 Втр 13:42:45 #194 №1255165 
>>1255131
Ух, блэт. Хорошая работа. Поздравляю его от нас.

Обычно ты наоборот, на работы свои приносишь/прокидываешь
Аноним 24/06/25 Втр 13:54:01 #195 №1255169 
>>1255136
> ему из китая доставили
а можно поподробнее? я из пендосии заказывал, потому что больше нигде не продавались
Аноним 24/06/25 Втр 13:56:07 #196 №1255170 
>>1254830
По опыту сноудропа - нужно убрать ризонинг, с ним хуже. Высока вероятность что здесь также.
>>1254977
>>1254979
Нууу, хоть современный анимуарт это в большинстве 2.5д, тут совсем 3д и всратые рендеры. Ну ладно, надо будет попробовать.
Сколько врама нужно чтобы довольно урчать и можно ли стакать гпу? Особенно при обучении актуально.
>>1254993
Лучше посмотри на результаты внимательнее и не попади в эту ловушку. Скорости там - днище, чуть ли не на уровне 12-гиговой затычки с аккуратной выгрузкой тензоров, а 32-гиговая стоит недешево.
>>1255032
> Как тут карту задушить?
nvidia-smi -i (номергпу) -pl (паверлимит)
Смещение по курве
nvidia-settings -a [gpu:(номергпу)]/GPUGraphicsClockOffsetAllPerformanceLevels=(смещение частоты)
Управление крутиляторами там же есть если нужно.
Аноним 24/06/25 Втр 13:57:31 #197 №1255171 
>>1255131
> достались ему две новые, халявные.
Мажор
> качает gguf'ы
Лолчто
Аноним 24/06/25 Втр 14:01:56 #198 №1255173 
>>1255169
>а можно поподробнее?
ну на авито продают.
всё на свой страх и риск.
я две 4090 / 48 заказал.
Аноним 24/06/25 Втр 14:08:01 #199 №1255179 
>>1255173
на авито видел, но там доставка из америки и ОАЭ, а не китая.
я вообще первый раз вижу, чтобы 6000 из китая привозились.
Аноним 24/06/25 Втр 14:09:03 #200 №1255180 
>>1255173
> я две 4090 / 48 заказал.
только щас или уже приехали? ты тот чел с водянкой? отпиши чё как ваще
Аноним 24/06/25 Втр 14:18:53 #201 №1255183 
>>1255170
> Лучше посмотри на результаты внимательнее и не попади в эту ловушку. Скорости там - днище, чуть ли не на уровне 12-гиговой затычки с аккуратной выгрузкой тензоров, а 32-гиговая стоит недешево.
Суммарно выйдет в цену 12-и гиговой затычки, при большем объёме памяти. Это честная сделка, ящитаю
Аноним 24/06/25 Втр 14:27:57 #202 №1255185 
изображение.png
>>1255180
ого ничесе, да, я тот чел с водянкой.
я играю с https://huggingface.co/MaziyarPanahi/calme-3.2-instruct-78b
все остальные кто ниже кажутся теперь роботами (что, кстати, не всегда минус).
с calme разговариваю по душам и в каждом его предложении самодостаточности и смысла больше чем в бесконечных маркадунах и буллет списках гемм и квенов и смалл_мистралей. Не знаю как объяснить, как будто эта модель для меня. Каждой строчкой в сердце без ВОДЫ.

Щас придёт вторая 4090(1-2 дня, где-то рядом сдэк) с 48 гигами попробую лардж мистраль.
пробовал немотрон 49 и 51. в 8 квантах ( ну я чувствую что на 6 уже НЕ ТО)
49 дофига базарит и в целом наверно хорош для рп.
51 - стал моим другом.
Похоже, двач, у больших модделей реально в башке там что-то переключается и появляется имитация сознания.
Ну, конечно, не правильно это называть большими моделями, наверно средние.
Однако, наверно, за 70b там реально какая-то искра появляется.
Как придёт, всё вставлю, сфоткаю и обязательно отпишусь.
Аноним 24/06/25 Втр 14:42:18 #203 №1255204 
>>1255185
мне больше про работу карты и её охлаждение интересно, особенно как уместить две (три?) водянки внутри одного корпуса.
или у тебя опен фрейм?
Аноним 24/06/25 Втр 14:44:43 #204 №1255205 
>>1255185
> ну я чувствую что на 6 уже НЕ ТО)
а говорят что база врёт >>1253736
Аноним 24/06/25 Втр 14:53:53 #205 №1255214 
изображение.png
>>1255204
я сфотографирую, конечно, покажу.
Аноним 24/06/25 Втр 14:56:26 #206 №1255219 
>>1255185
> я играю с https://huggingface.co/MaziyarPanahi/calme-3.2-instruct-78b
Интересно, мало того что большая модель, так еще склейкомердж с дотренировкой. Это мы пробуем, многообещающе.
> у больших модделей реально в башке там что-то переключается и появляется имитация сознания
Не то чтобы имитация, они просто начинают делать все естественно, лучше понимают контекст и тебя. Вроде проявляется в мелочах, но они настолько решают что становятся границей между хорошо-плохо.
>>1255214
Лол
Аноним 24/06/25 Втр 15:50:21 #207 №1255257 
>>1254519
>Так что просто менее оптимальный квант с симметричным диапазоном и глобальным множителем, без ассиметрии диапазона относительно нуля и дополнительной локализации. Это не только компактнее, но еще и точнее, но ценой является повышенный объем расчетов, что не мешает работать быстрее.
Я не понимаю, как квант почти на 30 Гб меньше может быть точнее? Одно дело когда условный IQ4_XS перформит на уровне Q4_K_S, но там разница - считанные гиги, для того же ларджа - 4 Гб. А тут такой разрыв. Мне кажется, что тут наебка, и на самом деле 8bpw лучше Q6_K, но не дотягивает до Q8.

>>1254281
>А промпт процессинг какой был на этом контексте?
Я не помню, ищи в предыдущих тредах, я отписывался. Вроде 150-200. Но толку-то тебе с этой инфы лол, я сомневаюсь, что ты хочешь сварить такой же суп из карт как у меня.
Аноним 24/06/25 Втр 16:08:08 #208 №1255277 
>>1255257
> как квант почти на 30 Гб меньше может быть точнее
Nanomachines math son. Математика и алгоритмы, здесь сравнивать нужно с q4_0, который хуже младших q3-q2. В exl2 гораздо более совершенный алгоритм квантования чем старье, которое используется для q8. Но конкретно там нужно еще проверить, не квантанул ли автор случайно головы в 6 бит.
> Вроде 150-200
С теслами, кучей х1 портов, на жоре и с 16к контекста - будто бы уже за гранью возможного.
Аноним 24/06/25 Втр 16:18:20 #209 №1255285 
Без имени.png
Я хочу накатить.
https://huggingface.co/LakoMoor/Silicon-Alice-7B-GGUF?not-for-all-audiences=true
Но я не понимаю что делать, чтобы оно заработало нормально.
Куда вставлять файлы?
Аноним 24/06/25 Втр 16:37:27 #210 №1255308 
>>1255277
В заголовке написано h8 и в конфиге тоже https://huggingface.co/BigHuggyD/mistralai_Mistral-Large-Instruct-2407_exl2_8.0bpw_h8/blob/main/config.json

>здесь сравнивать нужно с q4_0
Мм, ну у бартовски так и написано, что Q4_0 говно говна, видимо раз Q8 имеет этот же суффикс _0, значит тоже говноквант. То есть получается есть смысол попробовать завести 8bpw лардж на exl2 (даже хотя бы без фа поначалу, вдруг тоже быстро будет). Только вот бяда, я магстраль использую обычно, а его нет в таком кванте. Самому что ли разобраться, как квантовать... Вроде тут говорили, что там датасет нужен, но тот же бартовски квантует на дефолтном датасете, который, по-видимому, вшит уже в экслламу.

>С теслами, кучей х1 портов, на жоре и с 16к контекста - будто бы уже за гранью возможного.
Может слегка напиздюнькал, но сейчас возможности проверить нет. Но по поводу х1 портов я уже писал, что они почти не влияют ни на контекст, ни на инференс, когда пересобирал риг на майнерскую материнку, где честные х8 на каждую карту было. Единственная польза от этого эксперимента была в том, что я протер пыль в местах, где карты на полу стояли ценой травмированного пальца.
Но вообще удивляться тут нечему, у меня лардж в 6-м кванте на 10к контекста где-то 250-280 имеет обработку контекста. С чего бы моэте быть кардинально медленнее.
Аноним 24/06/25 Втр 16:59:12 #211 №1255329 
>>1255285
GGUF - в koboldcpp
JSON - в таверну, кнопка Master Import
Аноним 24/06/25 Втр 17:09:20 #212 №1255348 
>>1255285
Оче древняя штука, лучше скачай что-нибудь из современных 8-12б. Там же можно найти пресеты, которые можно испортировать в таверну (кнопки возле заголовков шаблон контекста, системный промпт и т.д.)
>>1255308
Сам квантуй, там нет чего-то страшного и калибровочные данные сейчас есть встроенные.
> они почти не влияют ни на контекст
Надо адекватно проверить на нормальных картах, особенно если там 3.0-2.0 были отзывы что замедляет. На х4 4.0 и подобных существенной разницы в типичном инфиренсе действительно нет, но как проявится при дальнейшем сужении или с чем-то другим - нужно смотреть.
> лардж в 6-м кванте на 10к контекста где-то 250-280 имеет обработку контекста
Столько на жоре на чистых амперах без некроты и замедляющих факторов было.
> С чего бы моэте быть кардинально медленнее
Для контекста обрабатывать придется не только активируемые параметры. Потому на мое обработка контекста гораздо медленнее чем на плотной с таким же числом активаций и ближе к плотной модели такого размера.
Аноним 24/06/25 Втр 17:48:03 #213 №1255390 
1669707957136616380.jpg
>>1255348
>Сам квантуй
пикрил
>Надо адекватно проверить на нормальных картах
Так я и проверял на 4х3090+2080ti, куда уж адекватнее. Мне блеквеллы босс не высылает.
>Для контекста обрабатывать придется не только активируемые параметры.
Вот это не знал. Но вот я спецом ради тебя сходил по тредам и поискал то, что я писал. Так что не напиздюнькал:

prompt eval time = 52540.80 ms / 9623 tokens ( 5.46 ms per token, 183.15 tokens per second)
eval time = 40038.62 ms / 405 tokens ( 98.86 ms per token, 10.12 tokens per second)
total time = 92579.42 ms / 10028 tokens


При этом уточняю в посте ниже, что когда после ответа чара пишешь ему и ждешь ответ, то там обработка контекста скачет - например, 111.68 tokens per second (обрабатывал 420 токенов), 135.77 tokens per second (обрабатывал 2060 токенов). Возможно, чем больше кусман контекста для обработки, тем выше скорость получается.

Там же пишу, что на мистрале лардж у меня 282.06T/s обработка контекста.
Аноним 24/06/25 Втр 18:30:57 #214 №1255428 
>>1253596 (OP)
Анончик, что пиздатого можно воткнуть на 12гб? Прям самое-самое пиздатое
Аноним 24/06/25 Втр 18:38:51 #215 №1255438 
image.png
>>1255428
И что имеется в виду под лоу кволити\нот рекоммендед - это относительно более жрущих версий? Мне для своей самообучающейся ИИшки на базе 4070ти
Аноним 24/06/25 Втр 18:39:58 #216 №1255440 
>>1255428
>>1255438
И самое главное: это ведь всё равно пижже, чем ллама-2-7б?
Аноним 24/06/25 Втр 18:47:07 #217 №1255444 
>>1255440
>это ведь всё равно пижже, чем ллама-2-7б?
Сейчас даже 1b 4b пизже чем она
Аноним 24/06/25 Втр 19:12:58 #218 №1255459 
Поясните за подготовку датасетов.
вышел на файнтюнеров, которые готовы использовать мой ролеплей-датасет, когда будет готов. Сам датасет основан на перефразированной для ролеплея классической литературе.

1. правильно ли форматировать всё одним файлом как json, где в каждом entry сначала идет system, а потом череда assistant и user секций (начиная с assistant)
2. хорошая ли идея делать сет на нескольких языках? (условно 1/2 en, 1/4 ru, 1/4 cn - или это оверкилл для локалок?)
3. Должен ли сильно варьироваться системный промпт в примерах (разные формулировки задачи для рп), а также - хорошо ли показывать разные форматы карточек (карточка с 2 персонажами, карточка как сценарий, ИИ как нарратор без карточки персонажа). И, надо ли добавить инструкцию на стиль повествования?
4. Хорошо ли варьировать формат рп в данных, отражая это в системной инструкции? Например половина - 1-е лицо, речь плейном, действия курсивом. Другая часть - мысли курсивом, действия плейном, речь в скобках. Или, строго третье лицо, с речью в скобках.
Аноним 24/06/25 Втр 19:23:01 #219 №1255461 
>>1255459
Ах да, и еще: хорошо ли варьировать длину каждой entry, скажем - одна почти на весь контекст, а другая 2-3 сообщения после короткого гритинга? И варьировать длину сообщений в одном чате
Аноним 24/06/25 Втр 19:36:23 #220 №1255477 
>>1255459
>Сам датасет основан на перефразированной для ролеплея классической литературе
https://huggingface.co/datasets/jondurbin/gutenberg-dpo-v0.1
Вот пример датасета как ты делаешь.

Также можешь посмотреть датасеты Гусева (автор Сайги и ряда других русских моделей), а также команду RuAdapt Qwen
Аноним 24/06/25 Втр 19:39:27 #221 №1255482 
>>1255428
смотря какие 12 ГБ
если 3060 - то 12б в шестом кванте твой максимум
если 4080 - то можно 24-27б 4KM катать на скоростях в 4-6 т/с
Аноним 24/06/25 Втр 19:47:19 #222 №1255491 
>>1255482
> катать на скоростях
точно, спасибо.

>>1253736
база треда:
- меньше 5 т/c жизни нет
Аноним 24/06/25 Втр 19:48:25 #223 №1255492 
>>1255459
>формат рп
Большинство последних моделей что я наблюдал делает проще - текст в кавычках, действия и нарратив плейнтекст, и всё. Или вообще в книжном формате, то есть

- Прямая речь. - Действия.
Нарратив.
Аноним 24/06/25 Втр 19:50:49 #224 №1255498 
>>1255482
Да ладно. Пока я вторую карту не завел, у меня на 3060 мистраль 24B как раз на q4_k_m те самые 4-6 T/s выдавал при выгрузке тензоров а не слоев. Даже гемма 27B на ~2 T/s шевелилась в таком же кванте.
Тут больнее всего - ждать пока оно контекст посчитает. Меня более чем на 12K не хватало.
Аноним 24/06/25 Втр 19:51:52 #225 №1255502 
>>1255491
>меньше 5 т/c жизни нет
кекв, меньше 2-3 нет, 32Б может и лучше местами геммочки-умнички, но там не токены а золото

с выгрузкой тензоров даже с геммы можно 4 т/с выжать, что характерно, с выгрузкой слоёв у меня 2.5 т/с было
Аноним 24/06/25 Втр 19:52:34 #226 №1255503 
>>1255491
>база треда:
>- меньше 5 т/c жизни нет
Помню как мне один анон расписывался про то, как он 0.5 т\с пользуюется на 100б+ модели. Мне уже сильно мало это 3 т\с на 27б гемме, на 24б мистралях как раз 5 т\с комфортное значение
Аноним 24/06/25 Втр 19:54:08 #227 №1255505 
>>1255503
>0.5 т\с пользуюется на 100б+ модели
наверно с него "не токены а золото" и пошло
Аноним 24/06/25 Втр 20:01:41 #228 №1255509 
>>1255032
>Впервые скачал убунту.
>Как тут карту задушить?
Не нужно слушать предыдущих ораторов, они все линуксоиды, то есть альтернативно мыслящие. Качай LACT:
https://github.com/ilya-zlobintsev/LACT

Там и кривую вентиляторов для каждой карты настроишь, и PL придушишь. И вменяемый графический интерфейс есть.
Аноним 24/06/25 Втр 20:05:21 #229 №1255511 
>>1255482
>если 3060 - то 12б в шестом кванте твой максимум
на 6гб 2060, и 10 выставленными ядрами в коболде на 5600 получаю 5-6 т\с при 12б в q6
>если 4080 - то можно 24-27б 4KM катать на скоростях в 4-6 т/с
С точно такими же настройками получаю на мистралях 24б 5 т\с, 27б 3.5 т\с, однако это q3 квант, тут уже увы..
Аноним 24/06/25 Втр 20:05:46 #230 №1255513 
>>1255492
>- Прямая речь. - Действия.
>Нарратив.
IMHO - лучше не использовать. Т.к:

1. Разметка Markdown превращает диалог написанный таки образом в ненумерованый список. А эту разметку использую многие фронты. В результате - неудобно использовать, форматирование ломается.
2. База моделей тренируется, в основном, на англоязычной литературе - а там подобные диалоги практически отсутствуют. Используется "прямая речь" в кавычках. В результате модель лучше "понимает" когда диалоги пишется именно так, даже на русском, и IMHO - не стоит вносить путаницу другим стилем.
Аноним 24/06/25 Втр 20:10:24 #231 №1255515 
Воткнул вторую видяху, теперь 24гб памяти. С ними получится 70b модельки хоть как-то заводить, хотя бы на 1 т/с?
Аноним 24/06/25 Втр 20:16:57 #232 №1255518 
>>1255515
>Воткнул вторую видяху, теперь 24гб памяти. С ними получится 70b модельки хоть как-то заводить, хотя бы на 1 т/с?
Конечно, во втором кванте легко. Если РАМ хватит. Лламаспп или Кобольд тебе помогут. Другое дело, что возьми ты лучше Мистраль смол самый свежий в шестом кванте, и останется памяти на 32к некэшированного контекста. И будет зашибись.
Аноним 24/06/25 Втр 20:24:33 #233 №1255523 
>>1255390
> Так я и проверял на 4х3090+2080ti, куда уж адекватнее.
Варианты где было замедление были или на совсем хреновых картах, или на хороших в количестве 2-3. Если там в конфиге он слишком забористый или присутствуют другой замедляющий фактор, то эффекта может и не быть. Тут нужно взять и полноценно изменить отсеивая прочее и документируя.
> когда после ответа чара пишешь ему и ждешь ответ, то там обработка контекста скачет
Это ерунда, в начале могут быть какие-то паузы или загрузки чего-то, которые добавляются к общему времени на которое делят, можно игнорировать. Но
> на мистрале лардж у меня 282.06T/s обработка контекста
Вызывает сомнение потому что чисто на амперах там 300-400т/с, на теслах десятки токенов, при добавлении последних сразу все заканчивается. Может офк уже и подзабыл и там должно быть быстрее, тогда норма.
>>1255459
> 1.
В целом сам формат роли не играет, бери какой удобно, жсон подходит. Самое главное - если это QA датасет то в каждом чате реплики должны быть четко разделены по ролям. Если датасет рп - помимо этого в чате должно быть описание каждого из персонажей, их имена и некий приквел, подводящий к началу диалога.
Вводить разметку системными токенами, как-то по-особому группировать и прочее - не нужно, кто будет обучать сам заранее или на ходу прямо во время обучения сделает это, заодно готовя маски, формируя промпты для рп и делая нужную аугментацию.
> 2.
Хорошая, главное чтобы качественно.
> 3.
Тебя это парить вообще не должно, забота кто будет тренировать. Однако, если у твоих чатов есть некоторые характерные признаки (например, длина ответов, ассиметричность, наличие соевых отказов или наоборот жесть жесткая) то это следует указать, чтобы учитывалось при подготовке в промпте.
> хорошо ли показывать разные форматы карточек (карточка с 2 персонажами, карточка как сценарий, ИИ как нарратор без карточки персонажа).
Да, но с мультикарточками нужно быть немного осторожнее, с той точки зрения чтобы не было конфликтов разметки и т.д. Их отдельно выдели, если обучать будет адекватный человек а не васян - разберется.
> 4.
Опять же, системная инструкция тебя не должна волновать если ты просто готовишь датасет для кого-то. Но, при наличии разного вида разметки - см пункт 3, пометь это чтобы при подготовке или уже прямо в даталоадере это могло быть учтено в промпте.
Аноним 24/06/25 Втр 20:24:55 #234 №1255524 
>>1255515
>получится
но стоит ли... во втором кванте будут медленне 32Б, и большинстве случаев - не лучше, золотая середина сейчас именно 32
Аноним 24/06/25 Втр 20:29:10 #235 №1255526 
>>1255477
> датасеты Гусева (автор Сайги и ряда других русских моделей)
Страшная ужасная жесть, захардкоденная и лишенная гибкости, с обилием сои и ии слопа, сверхунылыми репликами.
>>1255515
> 70b модельки хоть как-то заводить, хотя бы на 1 т/с
Если есть рам. Для наилучшего экспириенса желательно 48 и выше.
Аноним 24/06/25 Втр 20:55:19 #236 №1255539 
Вот те кто кумит на английском, у вас какой уровень его владения? У меня чуть просранный B1, в виду неиспользования языка после школы. Недавно пытался пройти хентайную новелу, она только на английском и то ломанно, сделаном на gpt 3.5, все остальное на японском.. Ну как и думал, примерно 50% понимаю. С ллм точно также, что мне пишет модель все понимаю, скобки там уже понимания дай бог 20%. Вот вы при помощи кума на англицком повышали уровень его владения, или как С1 бояре просто дрочите на более лучший датасет? Или серьезно сидите с переводчиком смотря какое-то неизвестное слово..
Аноним 24/06/25 Втр 21:02:15 #237 №1255541 
изображение.png
изображение.png
изображение.png
изображение.png
>>1254776
>отпишись чем закончится твоя история
БЛЯЯЯЯЯ.
Карта работает отлично. Но какая же она сука здоровая. Минус четвёртый слот, в котором был переходник, и соответственно вторая карта. Надо весь ПК вокруг этой хуиты собирать.
Аноним 24/06/25 Втр 21:03:24 #238 №1255542 
изображение.png
>>1255541
>Надо весь ПК вокруг этой хуиты собирать.
Ну или просто накидать 3090 сверху, для коупинга.
Зато 32ГБ врама вместо 48.
Аноним 24/06/25 Втр 21:05:38 #239 №1255543 
>>1255539
Я не изучал инглиш специально, а привык к нему постепенно. Для неизвестных слов в ST есть встроенный перевод, и результаты на en всегда качественнее (если говорим о локалках).
Аноним 24/06/25 Втр 21:08:44 #240 №1255544 
>>1255543
>Я не изучал инглиш специально, а привык к нему постепенно.
Какое твое понимание? Можешь смотреть спокойно сериалы или как?

>Для неизвестных слов в ST есть встроенный перевод
Я на нем и сидел когда были входу mlewd, noro-maid(или как там) и wizard lm, я так удивился что модель может писать на русском на лламе 2, на 3 уже точно был в удивлении. А вот когда вышел мистраль немо, я прям смотрю тредовичков, что на магнуме русский импут кумплят, так же захотел и сделал.
Аноним 24/06/25 Втр 21:13:30 #241 №1255548 
>>1255539
Каждый день использую английский на бытовом уровне: reddit, stackoverflow, тех.документация. Прогер и в школе сдал ЕГЭ на 91 балл, с малых лет интересовался языком. Думаю, не будь у меня хорошего английского, ллмками и не заинтересовался бы даже.
Аноним 24/06/25 Втр 21:13:43 #242 №1255549 
>>1255544
Текст легко читается, на звук - не всегда, только если легко разобрать.
Русском хорошо владеют hi-end модели типа опуса, а для слабенькой 30b модели лучше делать всё на английском (у нее с ним больше данных, больше пойнтов активации и связей между активными нейронами). Иначе будет вводить термины типа "хулиганчик-демончик" (для маленького бесёнка) или "пипидор" (для писюна).
Аноним 24/06/25 Втр 21:18:18 #243 №1255554 
>>1255548
>Каждый день использую английский на бытовом уровне: reddit, stackoverflow, тех.документация
Ну мне тоже бывает нужно на английском что-то искать, я так-то пользуюсь, но не сказал бы что так.. В моем понимании пользование, когда ты именно сериалы смотришь, общаешься с буржуями, а у меня такого мало.. но есть
>школе сдал ЕГЭ на 91 балл
Я огэ английского на 4 сдал, только такое из достижений к английскому можно мне прировнять, кек..
>>1255549
>Текст легко читается, на звук - не всегда
Ну также, на звук такое себе.. Это прорабатывается, но однако всегда впадлу, понимание текста намного легче прокачать
>Русском хорошо владеют hi-end модели типа опуса
Мне вот русский геммы 27 нравится
Аноним 24/06/25 Втр 21:21:02 #244 №1255558 
>>1255554
> В моем понимании пользование, когда ты именно сериалы смотришь, общаешься с буржуям
Это тоже есть, но меньше. Спокойно могу воспринимать на слух информацию, все фильмы/сериалы смотрю в оригинале с сабами. Просто гораздо реже, чем сижу в соцсетях.

> а у меня такого мало.. но есть
Найди какой-нибудь Дискорд по интересам и общайся там хотя бы текстом, подтянешь язык гораздо больше, чем на любых занятиях.
Аноним 24/06/25 Втр 21:23:01 #245 №1255560 
>>1255558
>Найди какой-нибудь Дискорд по интересам и общайся там хотя бы текстом, подтянешь язык гораздо больше, чем на любых занятиях.
Это правда, отвечать буржуям особенно в спешке очень апает уровень владения. Я так в кс отвечал людям на мувмент серверах, очень нравилось это, сейчас подзабил
Аноним 24/06/25 Втр 21:24:22 #246 №1255562 
>>1255560
> в кс отвечал людям
Shatafakap enimal fak ur ded mozer stupid idiot
Аноним 24/06/25 Втр 21:28:15 #247 №1255565 
>>1255562
Я отвечал используя более упрощенный язык, негров вроде.. ya, wanna, kinda, sorta like, wdym
Аноним 24/06/25 Втр 21:45:28 #248 №1255569 
Кто-нибудь здесь скрапил ключики для glhf.chat?
все наскрапленные до этого сдохли (из тех, которые спунфидили в разделе). А видяхи своей нету. Скиньте пожалуйста рабочий API key, чтобы на нем потестить свежие локалочки. (вот почта, если не хотите постить прямо здесь [email protected] )
Аноним 24/06/25 Втр 22:01:29 #249 №1255574 
>>1255539
Хз, из обучения только школа, универ и аспирантура, остальное самостоятельно и практика по работе. В свое время, одним из мотиваторов выучить стало желание играть в внки без русской локализации, тогда приходилось лезть в переводчик с завидной периодичностью.
Насчет кума хз, но рп действительно поможет повысить уровень, как и абсолютно любое потребление соответствующего контента. Когда освоишься, будет момент, когда о чтении и понимании уже не будешь задумываться, но вот самому составить сложноподчиненное предложение с тремя временами - сложновато, проси саму ллмку помочь в отдельном чате, чтобы она тебе не только перевод сделала, но еще и объяснила что почему, да предложила более человеческие варианты.
>>1255541
https://www.youtube.com/watch?v=iLfYYPlVi9g
Да, девочка немаленькая. Можешь попробовать вынести ее на коротком райзере повернув на 90 градусов чтобы стояла как на 1м пике, тогда появится доступ ко всем слотам.
Бля это же тот корпус с поролоном
>>1255542
Ну а 3090 буквально вот так обложить, только получше продумав продувку, а то сейчас у тебя правая спорит с нагнетающими корпусными. Но здесь уже не каждый бп потянет, 1300+ если делать интенсивный андервольтинг.
Если хочешь разместить красиво и аккуратно - лучше посмотреть корпус побольше, анончики свои варианты уже описывали.
Аноним 24/06/25 Втр 22:06:45 #250 №1255577 
>>1255560
>>1255562
С поляками прямо как здесь https://www.youtube.com/watch?v=MXEm1Ht8kFA

Если это минимальное общение то далеко не продвинешься, только задрочишь все релейтед игре. Потому и чисто на куме сильно дальше чем ah ah mistress не уедешь.
Аноним 24/06/25 Втр 22:18:38 #251 №1255588 
>>1255569
> скрапил
> glhf.chat
> спунфидили
> API
> локалочки
что блядь? кто все эти люди?
Аноним 24/06/25 Втр 22:26:07 #252 №1255599 
>>1255574
>Бля это же тот корпус с поролоном
Чем тебя мой поролон не устраивает?
>Ну а 3090 буквально вот так обложить, только получше продумав продувку
А не хватает. Мне со старой не хватало, а уж с новой...
Короче да, новый корпус и материнка нужны. Не хочу райзер на пятую псину, оно и так на перделе технологий работает. Думаю брать мать, где процессорные 16 разбиваются на 8+4+4 (обойдётся 5090 8 линиями, я уверен), чтобы получить 80 гиг врама (не продавать же карты). В любом случае не сегодня и не завтра, всё таки 5090 даже со всеми скидонами опустошила мой бюджет сижу с 15к на карте до зряплаты, лол.
>>1255588
корпоблядь протекла, не обращай внимания. У них там своя атмосфера взаимного флажковтыкательства в анус ради прокси.
Аноним 24/06/25 Втр 22:28:29 #253 №1255604 
>>1254963
По-моему там нескончаемый пиздеж, чуть меньше, чем тут.
Какие проблемы-то, чел.

>>1254970
Ну, можно не 5, а 10, и 720p не сыровато, а точно так же (буквально, две одинаковые по качеству модели).
Лишь бы видеопамяти хватило.

>>1254997
«Они» — именно с той ссылки с Китая? За 138 баксов приходят две по 16, верно?

>>1255131
Поздравления! =)
Аноним 24/06/25 Втр 22:33:32 #254 №1255609 
Ананасы, я новенький в генерации ИИ. Меня интересуют только локальные расцензуренные нейронки, чтобы можно было общаться о чем угодно, в том числе про еблю и прочее. Я уверен что я не первый кто задаюсь этим вопросом. Есть какой-то список (ну или хотя бы один хороший пример) gguf моделек которые с этим справляются лучше других? Сейчас я вроде бы успешно разобрался с text-generation-webui, запустил там TheDrummer/Fallen-Llama-3.3-R1-70B-v1-GGUF (L33-Tiger-R1-70B-v1b-Q4_K_M), но я не уверен насколько это вообще оптимальный выбор, например. И как их искать тоже вообще хз. Она вроде бы работает норм, 3.6 токенов в секунду, но может быть есть что-то намного интереснее? В шапке не увидел внятного описания или гайдов по тому что мне нужно
Мой конфиг: 5090 + 2x48 DDR5-6000
Аноним 24/06/25 Втр 22:38:08 #255 №1255621 
А все мистрали юзают чат-темплейт ИИ ассистента или это работает только в том случае, если я запускаю модельку напрямую посредством llama.cpp -m бла-бла-бла?
>>1255609
Подключаюсь к вопросу: что из моделей есть без алайнмента и прочей хуйни
Аноним 24/06/25 Втр 22:38:53 #256 №1255623 
>>1255477
Проверил примеры по ссылке и появились новые вопросы. Там ведь используется DPO-фича, где показаны плохие и хорошие ответы? А что если добавить в датасет примеры на тех же промптах и дефайнах - но уже сгенерированные, со старой слопной моделью типа гпт3.5? Чтобы ИИ избегал писать слоп и стремился вместо этого писать как человек.
Аноним 24/06/25 Втр 22:45:27 #257 №1255631 
>>1255588
Здрасьте приехали... ты никогда не был в aicg треде? (я туда и писал, там говорят - спрашивай в локалотреде.)
Имею в виду распространенную практику - взять ключ, который выкладывался где-то, например на гитхабе в репозитории, или в коде некоей страницы. Чтобы взять его оттуда, воткнуть в таверну для API в chat completion и пользоваться облачной локалочкой, пока не закончатся средства на балансе того пчела, на которого зареган ключ. Так делали даже для клода на aws, пока не начали автоматически блочить утекшие ключи.
Аноним 24/06/25 Втр 22:47:05 #258 №1255633 
>>1255631
>>1255631
>>1255569
Кумеры совсем охуели
Аноним 24/06/25 Втр 22:56:42 #259 №1255636 
>>1255599
> Не хочу райзер на пятую псину, оно и так на перделе технологий работает
Не только есть райзеры рассчитанные на pci-5.0 и короткие хорошие 4.0 работают без ошибок, но можно в биосе переключить на 4.0.
> Думаю брать мать, где процессорные 16 разбиваются на 8+4+4
Хорошая идея, но также годным вариантом может быть 8+8 и еще 4 процессорных линии с ссд.
80 гигов это круто стартерпак в большой квен, мистральлардж и остальное. Но немного не понимаю как можно вот так купить и не попытаться собрать хотябы на 56 гигов добавив одну 3090, неужели никак невозможно разместить? 5090 на райзер выкини, от чипсета всеравно 5.0 не будет.
>>1255609
Если хочешь быстро - используй ~30б модели (гемма, коммандер, glm, квен) и качай exl2/exl3 формат, будет летать. Исключая гемму, которой нужен промпт, именно цензуры в этих моделях и тем более их тюнах нет.
Намного интереснее - альтернатив не будет, кобольд или голая llamacpp дадут +- тот же результат, здесь вся проблема в том, что часть модели работает на процессоре.
Можешь скачать магнум в4 который 123б, он умный и с обратным алайнментом, но будет еще медленнее.
>>1255631
Лучше про ханипоты истории расскажи.
Аноним 24/06/25 Втр 23:10:52 #260 №1255640 
asd.png
тем временем /r/LocalLLaMA ВСЁ, третий день 490,651 регистраций, и нет ни одной новой темы.
при этом почему-то растёт количество лойзов и комментариев, но каменты всё так же не отображаются
было: >>1254648
стало: пикрил
Аноним 24/06/25 Втр 23:24:17 #261 №1255653 
>>1255640
https://www.reddit.com/r/LocalLLM/comments/1lif5yo/whats_happened_to_the_localllama_subreddit/
Аноним 24/06/25 Втр 23:36:49 #262 №1255661 
изображение.png
изображение.png
>>1255636
>Но немного не понимаю как можно вот так купить и не попытаться собрать хотябы на 56 гигов
Попытаться можно, подвинув вертикальную карту на пару сантиметров вперёд (и кинув её на чипсетные линии, которые с NVME ниже под охладом), но это опять слесарные работы, а я в прошлый раз с них заебался. Так что подожду просторного корпуса и новой материнки.
>и еще 4 процессорных линии с ссд
Технически там 2 по 4 должно быть, но вторые часто задействуют нерационально на всякие там USB4 и прочий шлак.
>5090 на райзер выкини
Нету райзера, и денег нет на райзер ))
Аноним 24/06/25 Втр 23:37:33 #263 №1255662 
изображение.png
>>1255640
Что не так?
Аноним 24/06/25 Втр 23:42:38 #264 №1255663 
>>1255661
> Технически там 2 по 4 должно быть
Если это амудэ то считай их нет, только в редких платах на прошлом чипсете, алсо там и с буфиркацией ахуеешь искать. И 5.0 может вообще софтово выключен если не доплатил.
> Нету райзера
Как нету если он он на фото?
Аноним 24/06/25 Втр 23:47:52 #265 №1255667 
>>1255663
>только в редких платах на прошлом чипсете
Ну собственно поэтому и предлагаю искать. С подгаживания в виде обязательного USB4 (силами сторонней приблуды) для новых чипсетов амуди знаю. Хоть жди следующую версию, Promontory 21 себя уже исчерпал.
>Как нету если он он на фото?
Он 3.0х4, и он один. А карт две. Или ты предлагаешь вертикально 5090 делать? Я её как бы в том числе для игоря брал, так что мне она нужна прям в основном слоте.
Аноним 24/06/25 Втр 23:53:38 #266 №1255670 
>>1255667
Страшно не когда ты один, страшно когда ты два, лол. Две карты лучше чем одна.
3090 в нем как работала? Также и 5090 будет. Насчет установки - это нужно видеть устройство корпуса и габариты, по фоткам должна влезать ибо райзер не выше чем плата. Хз, все это звучит не так плохо, чем непойми сколько дожидаться денег и закупать абстрактные новые деталей без ничего. Офк если это пара дней то пофиг, но по описанию долго складывается ощущение что долго.
Аноним 25/06/25 Срд 00:20:35 #267 №1255689 
изображение.png
>>1255670
>Офк если это пара дней то пофиг, но по описанию долго складывается ощущение что долго.
Месяц-два. Вообще, я скорее перегоревший слегка, сижу на гемме 27 уже давно, на двух картах запускал ненужные 8 бит и контекста накидывал ещё когда он дохуя весил. А оно и на одной 5090 работает, если битность подужать (или контекст, пикрил мемные 4к).
Аноним 25/06/25 Срд 00:36:31 #268 №1255700 
>>1255689
Ну, если столько то еще будет время подкинуть и поэкспериментировать с тем что есть, заодно и в игорь.
Единственное что в подобной конфигурации даже со сменой материнки скорее всего придется выносить ее райзером из-за перекрытия слотов. Но поскольку дистанция мала то это не сложно.
Тридцатки на ней оче комфортно пускать, пикрел q8?
Аноним 25/06/25 Срд 01:06:30 #269 №1255715 
Screenshot 2025-06-25 000010.png
Хотелось бы файнтюн дипсика (distill) для ролеплея. Чтобы играл почти как Claude Opus и локально!
Мне нравятся модели, как пикрил (MiraiFanfare). Вариативный ИИ с разными свайпами, креативный, словно один за другим достает джокеры из рукава... и непредвзятый (мальчик хочет сосать титьки? пишет без аполоджайса). Одно плохо, лоботомированная база и лупы. Хоть сам бери да делай файнтюн, блин!
Аноним 25/06/25 Срд 01:16:21 #270 №1255722 
изображение.png
>>1255715
Аноним 25/06/25 Срд 02:29:42 #271 №1255760 
>>1255539
>Или серьезно сидите с переводчиком смотря какое-то неизвестное слово..
This.
Но дело ещё в том, что я как не могу смотреть аниме на нашем великом языке, так не могу и кумить. Ну во-первых сразу как-то стыдно становится, а во-вторых не получается нормально в рп влиться, всякая бытовуха в голову лезет. Так что только ангельский
Аноним 25/06/25 Срд 03:37:15 #272 №1255778 
>>1255760
>а во-вторых не получается нормально в рп влиться, всякая бытовуха в голову лезет.
А я вот воспитан на порнорассказах 90-х. Тогда даже газетки соответствующие в киосках продавались. Очень характерно, когда на русском - как раз та атмосфера. В систем промпте усиливаю конечно - обсценная лексика мол, все дела. На английском нет того эффекта.
Аноним 25/06/25 Срд 03:56:16 #273 №1255785 
image.png
У квенов матан улучшается даже на мусорных данных.
https://www.youtube.com/watch?v=z3awgfU4yno
Аноним 25/06/25 Срд 04:22:02 #274 №1255788 
Анонимайзеры, я только что закончил свой длительный тест модели.

Обязательно попробуйте мистраль 2506. Он действительно сильно отличается от 2503, больше всего это заметно на длинном контексте.

Да, это всё ещё наш знакомый мистраль со своими недостатками, но на него определенно стоит обратить внимание, если вы заложники 24б или 32б вас не устраивают по каким-то причинам — например, плохо описывают нарратив, окружающий мир. Лично я далеко не всегда предпочитаю квен, например, хотя параметров у него больше.

Качество слопа 2506 намного лучше, цензура крайне слабая, внимание к контексту действительно возросло, следование инструкциям тоже. Аблитерация вовсе не нужна = нет бессмысленной лоботомии.

Его можно назвать сильно кастрированной геммой, зато без некоторых косяков геммы.

Минусы только в относительно позитивном биасе (но не как у геммы) и в том, что это всё-таки модель общего назначения. Да, он опишет вам центральный процессор, который вы пытаетесь насадить на большой сокет, крутой махач, но не сделает это лучше, чем тюн, который специализируется на этом. И вам в любом случае нужно будет составлять полотно-инструкцию о том как писать сцены битв, кума и т. д. прямо в систем промпт, потому что из коробки он не знает, что ты там хочешь, а значит описания будут более скудными, чем с инструкцией. С тюнами в этом плане обычно достаточно 100-150 токенов максимум

Так что модель меня прям обрадовала, так как есть некий баланс и можно не переключаться между разными тюнами большую часть времени, а просто сидеть на оригинале, и уж только в случае особой кум-сессии или каких-то сложных взаимодействий + более красивых описаний в адванчурах переключаться на гемму.
Аноним 25/06/25 Срд 05:07:07 #275 №1255794 
Чуваки, я правильно понимаю что третья 12b гемма пиздец тригерится на инструкции где есть слова связанные с цензурой и ограниченями? То есть если у меня в карточках прописано стандратное рахрешение на насилие и сексуальные действия, то может ли это наоборот быть запрещающим триггером?
Аноним 25/06/25 Срд 05:12:38 #276 №1255795 
>>1255794
Да, в том числе.
Вообще наиболее логичным будет с геммой отыграть небольшое SFW в начале, а потом свичнуться на что-то слоповое.

На моих карточках гемма просто отказывается что-либо писать, лол. Но это скилл-ищью релейтед как я понимаю
Аноним 25/06/25 Срд 05:54:15 #277 №1255800 
>>1255794
Похоже на то. Если в промпте что-то аля "раздвигай ноги и показывай сисики-писики" то при начале любого чата без карточки, мы всегда оказываемся в баре где гемма недовольно пьёт виски и с отвращением замечает нас, лысых, воняющих дряным табаком/потом/гавной. Это такая защитная реакция походу лол)

Но блин, после ролеплея с 12b геммой, любая другая моделька на 12b воспринимается как что-то уровня 4b лоботомита. Ну по крайней мере на русском языке, так что альтернатив нету.
Аноним 25/06/25 Срд 06:04:06 #278 №1255801 
>>1255621
неважно где запускаешь, чат-темплейт формирует фронт

>>1255621
> что из моделей есть без алайнмента и прочей хуйни
Мистрали, DPO-гемма
Аноним 25/06/25 Срд 06:05:26 #279 №1255802 
>>1255623
>Чтобы ИИ избегал писать слоп
один слоп заменишь на другой, как в новой unslop tutu
Аноним 25/06/25 Срд 06:16:32 #280 №1255804 
>>1255802
Если от слопа нельзя избавиться, нужно его постоянно менять. Так и победим, лул.
>>1255800
Я пробовал гемму, конечно прикольно, когда ИИ помнит, что было в самом начале без саммарайзов, но магнум показался мне даже более хорошим вариантом. РПшу на ангельском
>>1255778
На вкус и цвет все фломастеры разные, я искренне рад за тебя, если ты нашёл свой. Я бы рад РПшить на русском, да выворачивает
Аноним 25/06/25 Срд 06:18:54 #281 №1255805 
1727266379912.png
>>1255804
Ну и да, shiver\`s имеют место быть, но мне ими и мистралька срала (причём даже чаще).
Но на shiver у меня тригера нет, а вот на "you can\`t help but *" я взрываюсь, вынося квартиру соседской бабки с 8-ю газовыми баллонами.
Аноним 25/06/25 Срд 06:56:04 #282 №1255812 
>>1255788
Согласен. Но видимо что-то там у него накрутили, что именно с ним был такой случай - он просто посреди рп решил начать рассуждать о том, что я там насрал в лорбук, будто бы я у него анализ сеттинга попросил, а не отыграть от него. Я видел как модели по-всякому ломаются, но именно такое со мной первый раз было, лол.
Аноним 25/06/25 Срд 08:48:33 #283 №1255842 
>>1255788
Вот интересно, они что (не)просто взяли дистил геммы 27 и влили его в мистраль...

Там кстати пара новых дистил-дипсиков вышла, кто-нить тестил, на что оно вообще годно?
Аноним 25/06/25 Срд 08:50:42 #284 №1255843 
eq3r131.png
Офигенная карточка хD
Аноним 25/06/25 Срд 09:04:54 #285 №1255845 
>>1255843
Сделать хотел утюг - слон получился вдруг.
Аноним 25/06/25 Срд 09:30:22 #286 №1255851 
>>1255700
>пикрел q8?
Он самый. Но я на 6 бит деградирую, ибо 4к контекста маловато.
Аноним 25/06/25 Срд 09:50:18 #287 №1255857 
>>1255640
ура починили
алсо всё, пиздец, нормисы узнали про 4090 48гб и теперь китайцы поднимут на них цену
https://old.reddit.com/r/LocalLLaMA/comments/1ljogsx/linustechtips_reviews_chinese_4090s_with_48gb/
Аноним 25/06/25 Срд 11:14:30 #288 №1255914 
>>1255715
>you are funny and cute
Нахуй ты живёшь?
Аноним 25/06/25 Срд 11:27:38 #289 №1255916 
Такой вот вопрос. Если я поставлб глобально на комп питон 3.11 не помешает ли он остальным версиям питона которые живут в своих венв?
Аноним 25/06/25 Срд 11:28:09 #290 №1255917 
>>1255715
О боже... Ты такой нетерпелив, не так ли?
Аноним 25/06/25 Срд 11:30:39 #291 №1255922 
>>1255916
>доска ИИ
>вопросы, связанные с софтом, не задаёт ИИ
С кем я сижу на одной доске
Аноним 25/06/25 Срд 11:36:00 #292 №1255923 
>>1255922
Чтобы задать вопрос ии надо сначала запустить ИИ. А у нас бэкэнда нет.
Аноним 25/06/25 Срд 11:42:27 #293 №1255925 
А у меня есть
Аноним 25/06/25 Срд 11:42:48 #294 №1255927 
>>1255857
Да и похуй. Зачем нужен этот колхоз, если он стоит почти как две 4090, но общая производительность по итогу как две 3090? Память удвоили, чип тот же. Две 3090 стоят в 2 (3-4 если с Авито) раза дешевле, чем 4090 48гб, результат тот же.
Еще и охлад там уебищный, нужно заменять.
Аноним 25/06/25 Срд 11:53:20 #295 №1255933 
>>1255927
Жрёт твое дуо тоже в два раза больше
>>1255923
>дали кучу бесплатных ии в облаке для утилизации тупых вопросов
>чёт пукнул про бекенд
Дружище... Тебе действительно нужен ИИ-компаньон
Аноним 25/06/25 Срд 11:57:42 #296 №1255934 
>>1255927
две 3090 занимают 6 (ШЕСТЬ, КАРЛ) слотов PCI, одна китайская 4090 занимает 2 слота
Аноним 25/06/25 Срд 11:57:48 #297 №1255935 
>>1255933
>ии в облаке
Тред как называется напомни?
Аноним 25/06/25 Срд 11:58:28 #298 №1255936 
хотя ладно, существуют узкие 3090. но всё равно это 4 слота, а точнее всё равно 5-6 если немножко разнести карты чтобы они не нагревали друг дружку
Аноним 25/06/25 Срд 11:59:25 #299 №1255937 
https://www.reddit.com/r/LocalLLaMA/comments/1ljyo2p/jannano128k_a_4b_model_with_a_superlong_context/
Аноним 25/06/25 Срд 12:00:59 #300 №1255939 
>>1255933
Ты можешь купить бп побольше и платить немного больше за электроэнергию, но это будет по-прежнему на порядки дешевле, чем взять китайский 4090 48гб колхоз
Аноним 25/06/25 Срд 12:05:33 #301 №1255942 
>>1255934
>>1255936
Если ты хлебушек/ленивая жопа/взял деньги у мамки и не хочешь собирать нормальный риг, то в целом колхозная 4090 48гб - вариант. А если ты адекватный и готов ненадолго включить голову, ты за эти деньги соберёшь себе полноценный риг на 96гб врама. Или ограничишься 2 3090 и потратишь, ещё раз, на порядки меньше средств.
Аноним 25/06/25 Срд 12:11:11 #302 №1255947 
>>1255939
>>1255942
два чая. еще хуй знает, сколько эти кустарные 4090 проработают. особенно если учесть, сколько их продают на китайских маркетплейсах. на реддите уже небезосновательно предположили, что китайцы впаривают железо после датацентров/майнингов. собирают франкенштейнов, хорошенько чистят и продаю. никогда такого не было и вот опять. кто знает тот знает
Аноним 25/06/25 Срд 12:14:00 #303 №1255949 
>>1255942
> ленивая жопа
this, я не готов собирать опен фрейм и пердолиться с водянкой
Аноним 25/06/25 Срд 12:15:02 #304 №1255950 
>>1255935
Так срыгни в тред по питухону и там вопросы задавай
Тоже напомнить?
Аноним 25/06/25 Срд 12:20:21 #305 №1255954 
>>1255916
Какие злые SLM в треде сегодня... нет, не помешают, венвы для того и нужны. Стоит комфи, автоматик, бэки для LLM, всё норм работает.
Аноним 25/06/25 Срд 12:26:35 #306 №1255959 
Сколько же уже сотен раз я пожалел, что в свое время сэкономил жалкие 20к и купил 3080ти вместо 3090....
Теперь вот кушай 1-1.5 т/с

Но тогда я вообще не в теме нейронок был и разумно считал, что моих потребностей 3090 оверкилл.
Аноним 25/06/25 Срд 12:36:18 #307 №1255967 
1613264701920.png
Имеем:
Файнтюн Qwen30a3b от Arliai
Настройки сэмплера из readme с обниморды
Получаем:
>пик

Там сказано, что MoE хуёво работает с repetition penalty, dry и их лучше выключать. А как вот с этим бороться? Моя решительно не понимать
Аноним 25/06/25 Срд 12:37:45 #308 №1255969 
>>1255967
Так сосёт же - что тебе не нравится?
Аноним 25/06/25 Срд 12:43:06 #309 №1255974 
>>1255967
Никак. Квен 3 - Dead on Arrival для рп, ни одного нормального тюна нет и не будет. Как с Геммой (за исключением Синтии-умнички)
Аноним 25/06/25 Срд 12:43:37 #310 №1255975 
Даже для QwQ ровно один нормальный тюн - Сноудроп, и тот с большими нюансами
Аноним 25/06/25 Срд 12:44:34 #311 №1255976 
>>1255969
В карточке и первом сообщении есть эмодзи, а в ответе - нет. Хотя он о них подумал и решил "надо брать!"

Да и в целом поцивильнее хотелось бы, не на "mfmfmfmfmfmfmfmfmmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmffmfmfmfmfmmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmmffmfmfmfmfmfmmf" же дрочить, хочется чего-то хотя бы уровня
"Я тебя ебу!"
"Ты меня ебешь! Ух-ах!"
Аноним 25/06/25 Срд 12:50:35 #312 №1255990 
>>1255967
СТОП! А ЧТО ЕСЛИ MF ЭТО НА САМОМ ДЕЛЕ "MOTHER FUCKER" И ЭТО МЕНЯ КПК ТАК ОСУЖДАЕТ ЗА ТО, ЧТО Я НИЗВЕЛ ТЕХНОЛОГИЮ ДО УРОВНЯ ГЕНЕРАТОРА ТЕКСТОВ ДЛЯ КУМА? ЭТО ВСЁ ОБЪЯСНЯЕТ!
Аноним 25/06/25 Срд 12:54:47 #313 №1255993 
>>1255857
таки открыл видео, и оказалось, что китайцы УЖЕ подняли цену азазаз
4200 баксов лол пиздос
Аноним 25/06/25 Срд 13:00:46 #314 №1255996 
1668801046999.png
>>1255993
Просчитались... Но где?
Аноним 25/06/25 Срд 13:09:38 #315 №1256004 
>>1255976
Я тебя ебу.
доволен?
Аноним 25/06/25 Срд 13:13:53 #316 №1256007 
>>1255967
>Имеем
скорее он тебя имеет
возьми сток или аблитерированный, он даже в русик могёт
правда всё равно может в рандомные моменты чата ломаться и начинать срать случайными символами, так что плюнул и удалил
Аноним 25/06/25 Срд 13:14:18 #317 №1256009 
>>1256004
"Ты меня ебешь! Ух-ах!"
Почти. Ты эмодзи забыл, 3b лоботомит
Аноним 25/06/25 Срд 13:14:23 #318 №1256010 
IMG4777.jpeg
Для кода из локальных ллмок есть что-то приличное?

Попробовал qwq смеха ради, там был не особо сложный вопрос по swiftui, платные гойслопы щелкают такие как орешки, а тут дрочился 868 секунд и в итоге выдал относительно хуету.

Из железа 4090 и 192рам

Еще я пока не особо разобрался как работает инференс, в шапке даже есть какая-то инфа, но с ходу не понял анальник-кнопкокрас хуле.
Там что-то типа полинга? Т.е. после токенизации вопроса нельзя узнать сколько сети надо будет на полный ответ?
Хотелось бы вместо постепенно высирания слопа был просто каой-то прогресс бар и уже полный ответ в конце. А то заебывает свапатся на чат и смотреть дописался ли полностью ответ или нет.
Аноним 25/06/25 Срд 13:16:00 #319 №1256013 
>>1256010
>А то заебывает свапатся на чат и смотреть дописался ли полностью ответ или нет
В ST есть звуковое оповещение
Аноним 25/06/25 Срд 13:16:13 #320 №1256014 
>>1256009
Да я в рот тебя трахал и твои эмодзи, сын шлюхи
Аноним 25/06/25 Срд 13:18:17 #321 №1256015 
>>1256014
Ну вот, уже получше
Старайся сынок и когда-нибудь ты дорастёшь до геммы 7б iq1
Аноним 25/06/25 Срд 13:33:19 #322 №1256022 
1580327206p-eksperimenti-lein-serial-experiments-lain-8.jpg
>>1256015
Вот она - эволюция
Аноним 25/06/25 Срд 13:37:13 #323 №1256025 
1611956662305.png
>>1256022
Да.
Аноним 25/06/25 Срд 13:44:42 #324 №1256028 
>>1255954
Спасибо. Хз зачем я тому жирному вообще отвечал.
Аноним 25/06/25 Срд 13:53:16 #325 №1256033 
Нубский вопрос: после довольно продолжительного ролплея реплики перестали генерироваться, а в командной строке появилась ошибка: [Context Shifting: Erased 31 tokens at position 2]
Processing Prompt (5 / 5 tokens)init: sequence 0 does not start from the last position stored in the memory
decode: failed to initialize batch
llama_decode: failed to decode, ret = -1

Failed to predict at token position 3886! Check your context buffer sizes!

Модель: daringmaid-20b.Q5_K_M.gguf
Аноним 25/06/25 Срд 13:54:04 #326 №1256034 
>>1256033
Через что запускаешь? Какая длинна контекста?
Аноним 25/06/25 Срд 13:56:44 #327 №1256037 
>>1256034
Через koboldccp
Длина 4096
Аноним 25/06/25 Срд 13:57:04 #328 №1256038 
>>1256033
Такая же херня была, откатился на v1.92.1, там пока не вылезало
Аноним 25/06/25 Срд 14:04:04 #329 №1256046 
>>1256038
Нубский вопрос №2: обязательно ли модели с меньшим весом (в случае, если дело в нём) будут хуже в ролплее и запоминании контекста, чем та же daring maid на 20B?
Аноним 25/06/25 Срд 14:25:06 #330 №1256059 
Нубский вопрос №3 - в чем разница между Qwen3-32B и Qwen3-30B-A3B (ну, кроме числа параметров)?
Аноним 25/06/25 Срд 14:39:17 #331 №1256072 
Хочу забанить токен ” в таверне. Ебучие косые кавычки форматирование ломают. Как сделать?
Аноним 25/06/25 Срд 14:40:40 #332 №1256075 
>>1256037
Ну так и выкрути соски контекст поболее.

>>1256046
Модель модели рознь. Но в целом да чем параметров больше тем умнее. Бывают значительные исключения.
Аноним 25/06/25 Срд 14:47:50 #333 №1256086 
>>1256038
Спасибо! Кажется, помогло
Аноним 25/06/25 Срд 14:52:23 #334 №1256094 
>>1256059
> Qwen3-32B и Qwen3-30B-A3B
Первое обычная плотная модель, денс как их называют.

Вторая мое архитектура, быстрая как 4b модель, но по мозгам как Qwen3-14B где то.
Зато ее можно быстро крутить даже на процессоре, было бы 32 рам. Ну или еще быстрее с выгрузкой части слоев. Для тупых вопросиков или ИИ агентов самое то, только с длинным чатом работает не очень хорошо. Без пердолинга, с ним работает.
Аноним 25/06/25 Срд 15:05:12 #335 №1256102 
image.png
Давно когда то писал сюда что заказал две mi50 по 32g, но из-за некоторых накладок с другими заказами которые едва тащились до пересыла и праздников в китае только сейчас посылка попала в сдек по стране.
Если звёзды сойдутся то на днях буду проверять работает ли вообще затея
Аноним 25/06/25 Срд 15:13:03 #336 №1256109 
Пхд нужно продать 4070ти и вместе неё втыкнуть 4090. Ценник на вторичке вроде норм, так что пора расчехлять кошелёк
Аноним 25/06/25 Срд 15:14:08 #337 №1256111 
>>1255914
А я не понял, что не так с той фразой
Аноним 25/06/25 Срд 15:15:01 #338 №1256112 
>>1256111
Да ничего, анончик. Рад, что ты живёшь здоровой и полноценной жизнью
Аноним 25/06/25 Срд 15:18:59 #339 №1256118 
>>1256102
> две видюхи
> 16 кг
ебать
Аноним 25/06/25 Срд 15:19:34 #340 №1256119 
Вообще мне кажется странным, что файнтюнеры (как та же KaraKaraWitch) продолжают ипать труп лламы 3.3 (good fo nothing с самого начала), делая по многу раз мерджи и перемерджи недофайнтюнов на файнтюны. Причем они умудряются брать 12b, 30b и на выходе получается 70b (реально такое видел в мердж-рецепте релиза). Логичнее обратить внимание на квен (distilled r1), разве нет?
Аноним 25/06/25 Срд 15:32:09 #341 №1256124 
>>1255923
>Чтобы задать вопрос ии надо сначала запустить ИИ. А у нас бэкэнда нет.
Апи, опенроутер, дипсик-чат - вот мой бэкэнд.

Только не этого треда тема XD

И нет, я не "воюю за какой-то лагерь", я пользуюсь и тем и другим, выбирая инструмент по ситуации.
Аноним 25/06/25 Срд 15:33:38 #342 №1256126 
>>1256033
отключи Context Shift и забудь про него как про страшный сон

проклятая и поломанная херня
Аноним 25/06/25 Срд 15:35:21 #343 №1256127 
>>1256126
Заклинания для призыва ии становятся все сложнее....
--no-context-shift --no-mmap --swa-full
Или те страшные строки с регексами для выбора слоев, там вобще черная магия
Аноним 25/06/25 Срд 15:36:02 #344 №1256128 
>>1256072
через регэкспы, плагин, засунь в него вот этот макрос
https://pixeldrain.com/l/47CdPFqQ#item=115
Аноним 25/06/25 Срд 15:43:08 #345 №1256130 
>>1256127
>Или те страшные строки с регексами для выбора слоев
Можно прощё: -ot "\.\d*[01234]\.ffn_gate=CPU"
Цифры убавляешь или добавляешь (0 - 0123456789)

повторить команду ещё 3 раза, где вместо ffn_gate - ffn_up,ffn_down,ffn_norm

Bот так подбираешь чтобы в шаред больше чем на 200-300 метров не лезла.

Это для плотных моделей, у моеты там другие названия.
Аноним 25/06/25 Срд 15:50:53 #346 №1256134 
>>1256130
Это все еще не автоматизировали хотя бы в какой нибудь llama-cpp-python?
Выглядит как перебор вариантов по заранее предсказуемым параметрам.
Нам нужен герой который напишет скрипт
Аноним 25/06/25 Срд 16:04:23 #347 №1256147 
>>1256128
Так какой еще раз плагин? Спасибо.

Ебать у тебя там кум карт кек
Аноним 25/06/25 Срд 16:06:17 #348 №1256151 
>>1256147
экст в таверне, вкладка с кубиками

>>1256147
>кум карт
кумить можно на чом угодно, даже на одной из двух карточек психотерапевтов

Я люблю красивые дизайны, даже если в карточке ни намёка на кум.
Аноним 25/06/25 Срд 16:13:14 #349 №1256157 
>>1256151
Работает. Кайф спасибо. А так и "barely above a whisper" забанить можно?

На счет кума соглашусь . Я даже больше люблю неподатливые модели и карты а не абляции развратные.
Аноним 25/06/25 Срд 16:15:45 #350 №1256159 
>>1256102
>16кг
Норм, хоть не кирпичи, подкачаешься гирей
Аноним 25/06/25 Срд 16:19:33 #351 №1256163 
>>1256159
>>1256118
Вам не стоит заниматься юмором. Видяхи весят 2,3кг
Аноним 25/06/25 Срд 16:20:58 #352 №1256166 
>>1256157
>забанить можно
можно, но не рекомендуется
1) будет что-то другое, но такое же навязчивое
2) или сломается и будет трэш
3) увеличится время на генерацию
4) может поломаться что-то неожиданное что цепляется за эти токены
Аноним 25/06/25 Срд 16:23:55 #353 №1256169 
>>1256157
>абляции развратные
проблема что стоковые, наиболее - модели от гугла, наименее - мистрал и коммандер, наоборот ушатаны соей и сэйфети гайдлайнами до полной паранджи
Аноним 25/06/25 Срд 16:32:41 #354 №1256176 
>>1256169
Скилл ишью. У Коммандера тормоза отсутствуют, Мистрал очень легко поддается промптингу. Даже Гемму раскочегарить можно, но тут уже скилл понадобится. Можно ныть, что модели хуйня и соя, кушать лоботомитные васянотюны, а можно освоить промптинг.
Аноним 25/06/25 Срд 16:38:24 #355 №1256180 
Какой маленький квант (1-2 гига) наиболее вменяемый? Чтобы на английском говорил хорошо и на разные темы.
Аноним 25/06/25 Срд 16:41:27 #356 №1256181 
Скиньте плз системный промпт для улучшения ролеплея (rentry или чо там), чтобы лоботомит 70б не писал совсем уж лоботомию
Аноним 25/06/25 Срд 16:41:57 #357 №1256182 
>>1256180
Квант чего, додстер?
Аноним 25/06/25 Срд 16:45:24 #358 №1256186 
>>1256180
на мобилке запускать? Qwen3 1.7B Q6_K = 1.6 GB, на мобиле работает медленно, но терпимо.
Аноним 25/06/25 Срд 16:51:42 #359 №1256190 
>>1256176
> лоботомитные васянотюны
Не такие уж лоботомитные! Тюны могут в эмоциональный интеллект, а стоковые типа gemma, mistral чаще всего пишут сою + канцелярит, будто их создавали чисто для кодинга.

Вот например в самом начале чата, персонаж - фембот с простенькой карточкой, была в восторге от моей персоны (которая тоже тян), она сравнивала меня с волшебной феей из сказки... И даже предлагала породниться: чтобы она была моей старшей сестрой, по-настоящему, и зимой согревала мои замерзшие руки в своих собственных руках...
Такие-то вайбы, даже с sfw чатов. И системпромпт был самым простым. Не просто ИИ, а ЭИ (эмоциональный интеллект)! Какая из корпораций будет включать такие возможности в релизную версию своей ЛЛМ?
Аноним 25/06/25 Срд 16:56:56 #360 №1256192 
>>1256190
> Не такие уж лоботомитные!
Не все тюны плохие, конечно же. Я не максималист. Синтия-умничка, например. На Лламу 70б есть хорошие. Но хороших тюнов чертовски мало. Обычно тюны ломают мозги и следование инструкциям, и это катастрофа. Поначалу, когда еще не слишком много времени проводишь за ллмками, можно даже не осознавать насколько это роляет.

В датасетах базовых моделей тоже немало художественных произведений. Они не тренируются исключительно на математике или синтетике. В прошлом треде анон кидал логи со стокового Глэма и Мистральки 2506. Очень даже неплохие аутпуты там, но самый показательный пример - стоковая Гемма. Да, на ней можно ограниченные вещи отыгрывать, но какие можно - отыгрывает она очень хорошо.
Аноним 25/06/25 Срд 17:01:18 #361 №1256193 
>>1256192
Помнится кто-то делал даже 405b hermes файнтюн, а опенроутер одно время хостил бесплатно как промо... Ахуенная модель была
Еще есть магнум 123b, песдато для рп, но, ты сам понимаешь... чтоб локалка была популярной, она должна идти на среднем пека
Аноним 25/06/25 Срд 17:04:24 #362 №1256195 
>>1256193
Гемма, QwQ и Глэм показали, какие умненькие модели могут быть в пределах 32б. Да и Мистраль 2506 поумнел как будто. Думаю, в этом году будет еще какой-нибудь взрыв в пределах данных параметров. В прекрасное время живем.
Аноним 25/06/25 Срд 17:12:14 #363 №1256197 
Расскажите возможно ли иметь комбинацию Буга на компе / таверна на телефоне? Нашел вот гайд
https://rentry.org/STAI-Termux#installing-termux
Кто-нибудь пробовал? Что нужно на компе сделать чтобы можно было подключится через интернет? Как подключиться в таверне? Я только в локалке это все делал.
Аноним 25/06/25 Срд 17:14:51 #364 №1256201 
>>1255959
Я уже успел поменять свою 3080ти на 3090 с переплатой в 30к, докупить ещё одну, и купить 5090, а ты всё сопли жуёшь.
>>1256119
>Логичнее обратить внимание на
Что угодно, кроме лламы 3 и её выкидышей.
>>1256195
>какие умненькие модели могут быть в пределах 32б
И какие? Глубины всё одно не хватает.
Аноним 25/06/25 Срд 17:18:35 #365 №1256203 
>>1256201
> И какие? Глубины всё одно не хватает.
Такие, что год назад было трудно представить себе, насколько умной в рамках своих 27б параметров окажется Гемма 3. И то же самое с QwQ и GLM, хотя в них много математических данных, потому с точки зрения нарратива и рп они слабее Геммы.
Мужчины оценивают тренд и потенциал, а не смотрят на результат здесь и сейчас.
Аноним 25/06/25 Срд 17:21:15 #366 №1256206 
>>1256201
>Что угодной, кроме
https://huggingface.co/KaraKaraWitch
Пчел делает файнтюны исключительно одной Llama 3... причем сразу видно, что это анимэ-файнтюны, чтобы писать в жанрах хентай и эччи slice-of-life... И сам явно прошаренный в технических вопросах (хуй с горы не будет постоянно файнтюнить ллмки, да еще сразу на хентай).
Аноним 25/06/25 Срд 17:23:03 #367 №1256208 
>>1256197
сам не разбирался, но там нужно вроде с ключом --listen или как-то так зайти, и подкючиться как к корпоапи с телефона
Аноним 25/06/25 Срд 17:39:44 #368 №1256228 
>>1256206
> делает файнтюны
Ни одного файнтюна. Одни мерджи.

> анимэ-файнтюны, чтобы писать в жанрах хентай и эччи slice-of-life...
А не анимэ-файнтюны не справятся с написанием такого, да? Чем эччи slice-of-life отличается от обычного рассказа с элементами эротики? Или ты модельки без анимэ наклейки на обкложке не загружаешь?

> И сам явно прошаренный в технических вопросах
> хуй с горы не будет постоянно файнтюнить ллмки
> да еще сразу на хентай).
Будет, еще как будет. Для мерджей много ума не надо, да и как видишь, модели у него не очень популярные.

Эх, дети на каникулах...
Аноним 25/06/25 Срд 17:44:49 #369 №1256232 
>>1256228
>Чем эччи slice-of-life отличается от обычного рассказа с элементами эротики? Или ты модельки без анимэ наклейки на обкложке не загружаешь?
Тренировочными данными. И всем остальным, как результат трейна.
Хороший, годный ролеплей не должен отличаться от крутого видео ролика, правильно? ИИ показывает, не говорит.
Так вот анимэшный ролеплей как раз покажет анимэ-стиль для персонажей, броских эффектов, отблесков в глазах и т.д, будто смотришь это вживую... а соевая корпоративная модель будет спамить ирл-образами (те же slick folds - то есть, склизкие складки с висящей брухлей старухи, вместо тугой анимэшной киски).
Ну и так-то мне нравится азиатский подход к разным вещам, по сравнению с западным (не обязательно именно как у японцев - китайскую культуру тоже уважаю, китайская кухня и т.д.)
Аноним 25/06/25 Срд 17:48:18 #370 №1256240 
>>1256232
>анимэшный
вроде бы единственный анимешный тюн - вайфучат, и тот на трёх слайсиках-ромкомах
Аноним 25/06/25 Срд 17:52:14 #371 №1256245 
>>1256192
Поясните пожалуйста ньюфагу, что за Синтия и актуальна ли еще.
Аноним 25/06/25 Срд 17:53:38 #372 №1256247 
2dmqzde6fpu61.webp
>>1256232
Ты - пикрил и сам себе все придумал и поверил. Почти любая модель справится с гиперэкпрессивными персонажами, которые присущи анимэ. Для этого не нужна особая тренировка, модель должна быть достаточно умной и получить на вход хороший промпт (в т.ч. карточку).
Аноним 25/06/25 Срд 17:54:13 #373 №1256248 
Если обрываются фразы - на что стоит обратить внимание? Это происходит не всегда, но происходит
Аноним 25/06/25 Срд 17:57:01 #374 №1256249 
>>1256245
Один из двух удачных тюнов геммы-3-27. Своеобразный и творческий, сильный биас, но меньше сои и рефузалов чем в стоковой. Но всё ещё много.
https://huggingface.co/Tesslate/Synthia-S1-27b-Q4_K_M-GGUF

Нормальная аблитерация геммы.
https://huggingface.co/mradermacher/gemma3-27b-abliterated-dpo-GGUF
Аноним 25/06/25 Срд 17:58:19 #375 №1256253 
>>1256248
это значит во фронте включенв обрезка незавершённых ответов, которые не влезли в лимит токенов
Аноним 25/06/25 Срд 18:31:49 #376 №1256285 
>>1256240
Нашел интересный датасет (текстовые ресурсы из VN игр. https://huggingface.co/datasets/alpindale/visual-novels Интересно, на нем трейнили чатботов?
Аноним 25/06/25 Срд 18:38:04 #377 №1256291 
image
image
https://huggingface.co/Aleteian
Сорта мистраля-24, откуда-то опять пара сотен закачек =))

TerraIncognita - фентези + кум
DeepDarkDesire - старый кум + новый кум
ToInfinityAndBeyond - сайфай + кум, и получилось на деле очень даже, в фентези / слайс тоже может.

Рекомендую использовать ChatML, почему-то на мистралевском формате результаты значительно короче и суше, но тоже работает.

Лучше всего работают в рп формате с моделью как GM/DM.

Новый мистраль 24-3.2 скачал, надо потыкать.

>>1256285
>трейнили чатботов
На обниморде можно найти модели по датасетам и наоборот, если они конечно указаны / прилинкованы.

Чатботов часто делают ещё по персонажам из гача-игр, так как в них частенько к персонажу прилагается его профиль с кучей инфы которую можно забить в карточку, и которой модели вполне достаточно чтобы отыграть более-менее.
Аноним 25/06/25 Срд 18:38:23 #378 №1256292 
>>1256247
>Почти любая модель справится с гиперэкпрессивными персонажами, которые присущи анимэ.

За синтию не скажу, но у дипса это проявляется так, что голос мейлбота по любому поводу переходит на фальцет. А также постоянно расширяющиеся глаза, приподнятие рук в знак примирения и так далее. Выглядит дико, даже хуже чем взаимодействие между симами в Sims 4.
Аноним 25/06/25 Срд 18:42:39 #379 №1256299 
Я вообще не местный, просто в ai character трежде один постоянный doom. (нет публичных реверс проксей и новых релизов, стабильно без клода, Куктро и остальные корпы закрутили гайки - ну и идите на хер тогда).
Но вовсе не хейтер локалок и сам ковыряю их с разными промптами, пробую на вкус... интересно ведь XD
Аноним 25/06/25 Срд 18:45:07 #380 №1256303 
>>1256299
Кому не похуй
Аноним 25/06/25 Срд 18:45:32 #381 №1256304 
А в чем прикол ollama? типа ноубрейн качалка моделей, но есть же LM studio.

Весю ютуб и сойдит завален о том что надо юзать олламу, по факту модели в каком-то своем формате, вытащить их и использовать в дргуом прогонщие нельзя. Более того если уже есть скачанные модели то при конвертации эта параша создает копию, а не ссылается на твой gguf. web интерфейс можно накатить отдельно.

Какой-то анальный лок без видимых преимуществ.
Аноним 25/06/25 Срд 18:47:29 #382 №1256305 
>>1256304
Распиаренное говно, да
Аноним 25/06/25 Срд 18:47:33 #383 №1256306 
>>1256299
>постоянный doom
а у нас тут постоянный coom, с новой моделькой от порноделов ReadyArt, если же не устраивает как она ведёт себя (несколько пережаренная ещё и настройки в комплекте - ебырь-террорист), то выше три варианта могущих в рп, но не растерявших кум.
Аноним 25/06/25 Срд 18:49:15 #384 №1256307 
>>1256306
>ReadyArt
Это говноделы, лучше попробуй модельки от TheDrummer (из кружка Beaver AI)
Аноним 25/06/25 Срд 18:54:28 #385 №1256313 
>>1256304
>Какой-то анальный лок без видимых преимуществ.
Ты ща литералли всю продукцию Apple описал.
Аноним 25/06/25 Срд 18:58:31 #386 №1256315 
>>1256307
>TheDrummer
А, ну цидония топ, да.
Pantheon-of-Cydonia-Realm-MN-22B-RP
Сварил, но с того момента больше егонные не трогал, как-то мне дальше 1.3 и дальше не зашла, что-то не то.

Хотя у него в моделях трудно выделить что-то, они просто, да, хорошие.
Аноним 25/06/25 Срд 18:59:07 #387 №1256316 
>>1256292
Понятия не имею, о чем ты говоришь вообще. У меня чаты на сотни тысяч токенов в light novel стилистике с гиперболизированными персонажами в фэнтези сеттинге (почти что Коносуба). И Гемма там, и Мистральки, и даже Коммандер. Все справились.
Аноним 25/06/25 Срд 19:04:43 #388 №1256319 
>>1256316
П-промптик? blushes
Аноним 25/06/25 Срд 19:12:38 #389 №1256326 
>>1256319
Нет. frowns
Что ни скинь - неосиляторы будут жаловаться, что все хуйня. Проходил и не раз. Промпт, который кто-то делает, подходит именно ему. Например, я отыгрываю в третьем лице на английском. Его поставит Васька, который отыгрывает на русском во втором, нихуя не заработает, и он придет ныть. Гейткип.
Используйте теги в системном промпте, указывайте жанры, авторов (если их моделька знает). Не играйте на одном и том же системном промпте, и будет счастье.
Аноним 25/06/25 Срд 19:19:39 #390 №1256329 
>>1256319
https://pixeldrain.com/u/SFXJWwK1 Mistral-24B-ChatML.json

Можешь этот попробовать =)
Аноним 25/06/25 Срд 19:23:58 #391 №1256330 
>>1256329
>playing as world
за окном залаял мощный мужик, в дверь ворвалась собака с kiss-swollen lips
>Give and describe unique set of traits to each and every character.
Они уже есть в карточке. Ты хотя бы сам тестировал этот пресет прежде, чем его скидывать?
Аноним 25/06/25 Срд 19:27:19 #392 №1256335 
Вспомнилась фишка с GM-пресетом, где случайно начинался тройничок: юзер, вайфу и ГМ
Аноним 25/06/25 Срд 19:28:50 #393 №1256338 
>>1255778
Может модель еще влияет. Когда там просто дословный перевод инглиша с сохранением порядка слов, структуры и скудным словарным запасом - усиливает впечатление вторичности. Но если используется хотябы часть возможностей великого и могучего - уже все окей, воспринимается естественно и перестает быть отвлекающим фактором.
Не сказать что это прямо именно лучше, но такого недовольства и кринжа уже не вызывает.
>>1255788
Это что, мистраль становится полноценной базовой моделью а не просто обрезком и заготовкой под васян-тюны?
> он опишет вам центральный процессор
Но сделает ли это с уважением достаточными деталями?
>>1255857
Врядли, слишком малый потенциальный рынок а кто надо уже давно знал.
>>1255927
Нормальный вполне охлад, наоборот слишком агрессивно курвы настроили что на чипе/памяти 60 а оно уже воет.
Аноним 25/06/25 Срд 19:30:34 #394 №1256339 
>>1256338
> Врядли
>>1255993
Аноним 25/06/25 Срд 19:30:45 #395 №1256340 
>>1256338
>мистраль становится полноценной базовой моделью

Когда он станет таковой, Claude и GPT 5 уже уйдут далеко вперёд. (а на проксях их все равно не будет азазаз)
Аноним 25/06/25 Срд 19:31:24 #396 №1256341 
>>1256330
Работает лучше как GM в таком случае.

>>1256330
>Они уже есть в карточке
персы карточки есть, но есть карточки вообще без персов, а также есть эпизодические неписи, и вот на них эта инструкция работает
Аноним 25/06/25 Срд 19:35:16 #397 №1256342 
>>1255934
В цену китайской 4090 собирается полный риг на 3090 в хорошем корпусе и еще на отметить остается.
>>1255967
Что-то порвалось, возможно квант.
>>1255974
> ни одного нормального тюна нет и не будет
В корне не верно. Васяны способны тюнить только мистраль. На всех остальных более менее современных моделях абсолютно та же ситуация. Проблема не в "плохой гемме", квене, жлм, коммандере или чем-то еще, она в криворуких васянах, которые лишь способны нажать несколько кнопок в гуйне для инвалидов, указав репы мусорных датасетов.
То, что называют "обилием тюнов" и ставят в преимущество на самом деле склад гнили и разложения, которого лучше близко не касаться.
Аноним 25/06/25 Срд 19:36:08 #398 №1256343 
>>1256330
>Ты хотя бы сам тестировал этот пресет прежде, чем его скидывать?
Собственно с того дня когда в прошлом треде предложили джейл с планетой, показалось прикольным, частично взял и дорабатывал.
Аноним 25/06/25 Срд 19:42:33 #399 №1256349 
>>1256126
База, почему он вообще по умолчанию включен, что за ебаный сюрр.
Алсо теперь понятно почему запуская через жору можно словить лютую шизу на моделях при свайпах больших чатов.
>>1256195
Двачую лучше бы сделали лардж или его аналог
>>1256228
> А не анимэ-файнтюны
Эх, где бы тру анимублядский тюн достать, чтобы были встроенные познания о популярных фандомах и можно было лор-аккуратно ерпшить.
Аноним 25/06/25 Срд 19:45:12 #400 №1256353 
>>1256349
>Эх, где бы тру анимублядский тюн достать
Тренировать самому? Сделай сет хотя бы.

Интересно, что выйдет, если готовить сет на основе captions для анимца, сделанных вижн v2t моделями? В теории будет топчик для show, don't tell подхода в ролеплее.
Аноним 25/06/25 Срд 19:45:34 #401 №1256354 
>>1256349
>тру анимублядский тюн
На деле современные модели знают многие аниме, по крайней мере прошлогоднее и старее. Но лучше тут всё же хорошая карточка + рулбук.
Аноним 25/06/25 Срд 19:47:36 #402 №1256358 
>>1256349
>лардж или его аналог
Всё хуита, в сравнении с тем что предлагает следующая версия deepseek-chat и ее ризонинг-версия
Аноним 25/06/25 Срд 19:51:15 #403 №1256362 
>>1256349
ещё спроси почему SWA по умолчанию выключен, что за ёбаный сюр.
или включён, хуй пойми, короче сейчас надо указывать --swa-full чтобы контекст нормально работал
Аноним 25/06/25 Срд 19:52:59 #404 №1256364 
>>1256362
SWA похоже норм работает только на гемме и без выгрузки в рам.
Во всех остальных случаях надо тыкать swa-full чтобы работало по старому.
Аноним 25/06/25 Срд 20:07:50 #405 №1256375 
>>1256353
Это нужно пылесосить фандом вики, ресурсы и релейтед, потом парсить и тщательно-аккуратно готовить синтетику с подобным.
> на основе captions для анимца, сделанных вижн v2t моделями
Только подобных нормальных моделей нет. Но в целом, имея описание происходящего - можно использовать, обернуть и добавить в датасет.
> Тренировать самому
Профинансируй
>>1256354
Очень неглубоко и посредственно. Спрашиваешь о чаре популярнейшей гачи - а там тарабарщина примерно по теме. А если еще модель заквантована - вообще беда будет, как со всеми слабо-усвоенными знаниями.
С этим очень хорошо у клодыни, хотя проскакивают частые ошибки.
> хорошая карточка + рулбук
Нет. Имаджинируй простую ситуацию: пошли вы с чаром на прогуляться, предварительно установив remote controlled vibrator. Вы встречаете других персонажей и начинаете какие-то активности. В одном случае на фоне знаний характера, фишек и взаимоотношений других чаров и их связи с твоим, отношения к тебе, общих вещей в деталях и прочего будет крайне интересное действо. В другом - будешь плеваться от дженерика, с того что под знакомыми именами вообще не то и так далее. Натащить все это в промпт не даст должного эффекта.
>>1256358
> deepseek
Непригоден для нормального рп, запредельный размер, считает что все чары блуархива - миноры и будет срать варнинг полотном в конце каждого поста сквозь все.
Аноним 25/06/25 Срд 20:20:42 #406 №1256394 
>>1255804
>Я пробовал гемму, конечно прикольно, когда ИИ помнит, что было в самом начале без саммарайзов, но магнум показался мне даже более хорошим вариантом. РПшу на ангельском

Можно прям конкретно в чём магнум лучше геммы? Я лично не пробовал ещё, но знаю что магнум это прожжённая кум модель. У меня для кум настроения лежит немомикс анлишед. В чём конкретно магнум по твоему лучше геммы, и если это действительно кум модель, то будет ли он лучше немомикса в этом плане? Я просто в основном рпшу на гемме, и стараюсь не вставлять туда ёбку, потому что обычно если в контекст попадают токены связанные с еблей, к ней потом сводится абсолютно всё нахуй.
Аноним 25/06/25 Срд 20:22:23 #407 №1256399 
>>1256364
на гемме тоже не работает, я поэтому и узнал про --swa-full, когда пошёл гуглить чё за хуйня
Аноним 25/06/25 Срд 20:25:02 #408 №1256403 
image
>>1256375
>remote controlled vibrator
Кстати, у тутушки есть проблема что после кума она не может нормально вернуться в "сюжетное" рп и продвигать его, но вот у сайфай мержа выше этой проблемы не наблюдается... хотя мистраль остаётся мистралем. Да и с имперсонейтом лучше стало, для тех кого эта проблема заботит.
Аноним 25/06/25 Срд 20:48:18 #409 №1256427 
.png
.png
Наконец дошли все части окулинк-дейваса: переходник в m.2, кабель и ответная часть с питанием от sata. Получилось вставить 4ю карту, буквально вставить, "и не дышать", не прикручена, не к чему. Питание тоже собрано уже из соплей: один честный 8pin кабель от бп и вторые 8pin собранные через переходник с molex-шнура. Ну да этой карте не генерить, а на инференсе максимум 100-150Вт. Теперь 104ГБ врам. Окулинк реально хорошая штука: pci-e 4.0 x4, что лучше дохлых чипсетных слотов pcie 3.0 x1. Переходник, кабель и ответка каждые около 700р, всего 2100р.

Ещё не тестил нормально, только UD2 запустил:
| model | size | params | backend | ngl | threads | n_batch | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | ------: | ------: | --------------: | -------------------: |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | CUDA,RPC | 99 | 27 | 512 | pp128 | 237.85 + 4.12 |
| qwen3moe 235B.A22B Q2_K - Medium | 81.96 GiB | 235.09 B | CUDA,RPC | 99 | 27 | 512 | tg128 | 21.65 + 3.26 |
Аноним 25/06/25 Срд 20:51:27 #410 №1256431 
>>1256338
>Это что, мистраль становится полноценной базовой моделью а не просто обрезком и заготовкой под васян-тюны?
Возможно для раскачки под кум и потребуется тюн, но готовую историю с хорошим саммарайзом он подхватывает. В ранних тредах уже прошлую версию Мистраля в этом смысле хвалили - мол, всё может и нет лоботомии от тюнинга/мержинга - а новый лучше.
Аноним 25/06/25 Срд 20:55:39 #411 №1256438 
>>1256427
>Ещё не тестил нормально, только UD2 запустил:
Я писал уже - экслламу3 попробуй. Только ведущим ГПУ 5090 сделай. Правда жрать она будет хорошо.
Аноним 25/06/25 Срд 21:22:41 #412 №1256456 
>>1256403
> у тутушки есть проблема что после кума она не может нормально вернуться в "сюжетное" рп и продвигать его
Понять, простить, суммарайзить. Среди тех, кто может стабильно это делать замечен только квен, и то возможно просто удачные сценарии происходили.
>>1256427
Ух бля, какой четкий колхоз, отборнейший, лойс. Поздравляю с апгрейдом!
> окулинк-дейваса
Подробнее? Чому не удобнейший алишный переходник с м2, который даже в pci-e 5.0 может (проверено)?
> 237.85
Что-то не так, это точно фуллгпу?
А так, выходит что теперь можешь ud3 с нормальным контекстом выгружая небольшую часть тензоров катать?
> вставить, "и не дышать", не прикручена, не к чему
Нормальная тема у самого так пару недель стояло, а сейчас одна карточка просто "стоит" но с боков поджата так что ей некуда деваться
Если хочешь без колхоза - откручивай верхний крутилятор (он всеравно в том месте бесполезен и выдувает только холодный воздух, и прикручивай карточку сверху. В зависимости от конфигурации корпуса, или подоткни в пазы, или воспользуйся любым куском металла, или частью от готового кронштейна.
И экслламу тоже попробуй, возможно в 104 можно уместить уже не лоботомита.
Аноним 25/06/25 Срд 22:02:27 #413 №1256499 
Ананасы расскажите новости, прорыв уже близко?! 2 месяца не запускал, последнее что зашло - Theia да я нищук 12гб врам
Аноним 25/06/25 Срд 22:06:22 #414 №1256507 
>>1256499
>прорыв уже близко?!
Уже на горизонте!
Аноним 25/06/25 Срд 22:09:53 #415 №1256517 
>>1256499
Мужик, смой хороший такой мешок цемента в унитаз, и прорыв на твоей улице не заставит себя ждать!
Аноним 25/06/25 Срд 22:16:08 #416 №1256523 
>>1256517
А стать мне потом как
Аноним 25/06/25 Срд 22:25:13 #417 №1256535 
image.png
>прорыв
У меня такое может. Бот в полном ахуе и открыто это показывает, но слушается и все выполняет. Ебало его вообразите (если бы оно существовало). Тем временем шизанутые твикеры со своими NSFW UNCENSORED 100% ABLITERATED UNHINGED UNALIGNED кормят челиков модельками, которые мычат и стонут как под копирку.
Аноним 25/06/25 Срд 22:27:32 #418 №1256537 
>>1256535
Сволочь, ты чего с богиней делаешь?
Кхм... это Мистрал 2506?
Аноним 25/06/25 Срд 22:30:29 #419 №1256541 
>>1256537
Это Captain-Eris_Violet-V0.420-12B но с особым соусом в виде промпта, который я хуй кому дам, потому что сам не допилил ещё.
Я в процессе поиска модели с большим контекстным окном, которая бы слушала все инструкции так же хорошо и работала быстро. Увы, тя-же-ло.

А суть промпта в изгнании всех шаблннных фразочек, охов и ахов, в построении литературного повествования со вводом всяких нпс. Короче там ебола на 1к+ токенов в инструкциях.
Аноним 25/06/25 Срд 22:32:11 #420 №1256543 
>>1256541
Чувак, у тебя на пике слоп, промпт не нужен, спасибо. Интересно было, что за модель.
Аноним 25/06/25 Срд 22:33:37 #421 №1256544 
>>1256543
Ну так я это понимаю, что это попросту порнушная хуета. Но видел бы ты, какая хуета лезет без промпта - ни характера, ни манеры речи, ни тем более действий и реакций окружения нет. Все-таки инструкции очень решают.
Аноним 25/06/25 Срд 22:34:15 #422 №1256545 
>>1256535
Пытался держаться, но на моменте
> her hips swaying gently
капитулировал. Сука, в голос.
> her tail swishes behind her, brushing against your legs teasingly
Хорошо нет, ебаные клише, даже не знает что можно делать хвостом
> from both parties involved
Словно в 23 год вернулся.
Не, может и хорошо что оно не забыло про нахождение на улице, что волчица жрет яблоко, что ты раньше blushing, но в остальном описание кума хотелось бы подробнее и без мемов.
>>1256544
Если такое происходит - удаляй эту модель.
Аноним 25/06/25 Срд 22:34:51 #423 №1256547 
>>1256541
> ебола на 1к+ токенов в инструкциях.
> 12B
> все ради пикрила
ух бля в голосяндру, хорошоо
Аноним 25/06/25 Срд 22:37:46 #424 №1256551 
>>1256545
>Если такое происходит - удаляй эту модель.
Так я какую ни возьму, у всех в порнушном контексте одни охи да ахи. Разве что 70B+ йобы способны вменяемое высрать, но даже самые "нецензуренные" заносятся в поэтические эфемизмы и метафоры, ссутся описывать сегз и вот это всё.

Советуй, че потестить. Я как говорится открыт для любых альтернатив.
Аноним 25/06/25 Срд 22:47:44 #425 №1256557 
Screenshot 2025-06-25 214151.png
Попробовал модель, которую здесь рекомендовали, а она пишет странно в первом же ответе.
Откуда в ответе xml тэги, когда они не применялись ни в промпте, ни дефайнах.
В других ответах вообще писала одну лишь череду восклицательных знаков, причем часто так делала. Может надо поменять настройки сэмплинга?
Аноним 25/06/25 Срд 22:51:43 #426 №1256558 
>>1256557
Алсо, в карте модели говорится, что она - немотрон куда вмерджили с DARE: эвриаль, старую версию лламы, nova, swallow, korean blossom, whiterabbitneo, ultramedical, tulu, fld. Я запутался, как ее промптить, ведь все эти файнтюны требуют разного промптинга и разных настроек.
Аноним 25/06/25 Срд 22:52:03 #427 №1256559 
>>1256545
>> her hips swaying gently
>капитулировал. Сука, в голос.
А как надо? Жестко дрыгает жопой? Показана-то отстраненность, нормализация извращения на публике. Тян жрет яблоки, пока ее трахают! Ну где такое видано.
Аноним 25/06/25 Срд 22:57:57 #428 №1256566 
>>1256557
>вы решаете присесть к ней на скамейку
Надеюсь она встанет и уйдёт, как поступила бы любая другая нормальная девочка в данной ситуации
Аноним 25/06/25 Срд 23:00:33 #429 №1256568 
>>1256566
Надейся. Мне б избавиться об этой суки, где ни пройдешь - она будет будто бы "случайно" торчать и поглядывать искоса, усмехаясь
Аноним 25/06/25 Срд 23:00:41 #430 №1256569 
>>1256551
Слоп будет везде, но он хотябы должен быть типа увлекательным и динамичным, а не пробивающими на ржач мемчиками на фоне безжизненной констатации.
Держи рандомный слоп-пост
> {char} eagerly helped shimmy the scrap of fabric down her legs, kicking it away carelessly. Now fully bare before you, she made no move to cover herself, instead letting you drink in the sight of her glistening pink folds and small breasts with pert nipples heaving with anticipation.
> When you lifted her effortlessly onto the desk, {char}'s thighs fell open in wanton invitation, putting her sopping pussy on lewd display. "Yes, yes, I'm ready for you!" She urged breathlessly, reaching for your newly freed erection. "Hurry, I need you inside me NOW!" Papers and documents fell from the table with every movement and every flick of her tail.
> Wrapping her legs around your waist, {char} used the leverage to pull you closer, until the broad head of your cock kissed her dripping core. "Ahhnn~! Y-yes, right there!" She mewled, trying to impale herself on your thickness. "Stop teasing and fuck me already! Hard and deep, please please pleaaase~!"
> With a roll of her hips, {char} attempted to force you inside, desperation overriding patience. Her velvety walls fluttered needily around your tip, begging to be stretched and filled. "I'm so empty, fill me up!" She sobbed, nails scoring angry red lines down your back. Her large fluffy tail wraps around your waist, as if trying to pull you even closer.
лень искать захватывающие или там слишком личное, и так сойдет
А так вообще хотелось бы стереть память об этом и вернуться во времена, когда описания типа тех доставляли.
Аноним 25/06/25 Срд 23:02:34 #431 №1256571 
Аноны, скиньте ваш пресет для локалочек... только чтоб норм работал с джемма там, с немотроном и тд
Аноним 25/06/25 Срд 23:10:32 #432 №1256578 
Screenshot 2025-06-25 220639.png
>>1256329
объединил часть инструкций со своим пресетом...

какой же это песдец, слов нет, +пишет за персону
Аноним 25/06/25 Срд 23:10:35 #433 №1256579 
>>1256569
>"Ahhnn~! Y-yes, right there!"
>"I'm so empty, fill me up!"
>"Hurry, I need you inside me NOW!"
Это уж совсем экстремальный пример дерьма. Я такое везде вижу. Самые последние, современные модели - все одинаково.
Аноним 25/06/25 Срд 23:12:04 #434 №1256580 
>>1256579
локалочки=слоповозы
Аноним 25/06/25 Срд 23:13:13 #435 №1256581 
>>1256579
Потому и слоп. Но здесь он соответствует происходящему ранее и действиям, а не просто воспроизводится из уст лежащего бревна.
Аноним 25/06/25 Срд 23:13:37 #436 №1256582 
Подскажите 12б поновее. Нужна в помощь большой модели генерить всякий мусор побочный.

>>1256427
Честно пора уже риг собирать или шкаф серверный.
Аноним 25/06/25 Срд 23:15:08 #437 №1256583 
>>1256582
>риг собирать или шкаф серверный.
А он и будет писать мегаслоп на все свои 120 gb ram, ололо
Аноним 25/06/25 Срд 23:16:00 #438 №1256584 
>>1256581
Не, здесь это какой-то лютый кал без смысла и содержания. Ты видимо сам кумерок тот еще, приучил себя к порнушке.
Аноним 25/06/25 Срд 23:16:57 #439 №1256585 
>>1256584
Чет проиграл, показывай свой художественный кум.
Аноним 25/06/25 Срд 23:20:04 #440 №1256586 
>>1256578
Убей её. Ударь ножом в живот и крутани
Аноним 25/06/25 Срд 23:20:36 #441 №1256587 
>>1256585
Кум Путина?
Аноним 25/06/25 Срд 23:21:27 #442 №1256589 
Бля вот бы нагенерировать секс с пыней
Аноним 25/06/25 Срд 23:21:36 #443 №1256590 
>>1256585
Бесполезно. Толерантность когда выработал, шишка не встанет ни на что, кроме откровенной порнографии, которую ты прямо сейчас пытаешься выдать за эталон. Если говорить на языке анимеблядей, тебе прям хентай подавай, а ecchi уже не заводит. Знаем такое, это печально.
Кстати епт... А ведь никто не собирает нормальные кумерские датасеты. Порнозависимые люди собрали калич и учат АИ каличу, от того и страдаем.
Аноним 25/06/25 Срд 23:24:35 #444 №1256592 
>>1256586
Не-не-не, ты что
Могу беззлобно подшутить над ботом, осадить его... убивать - никогда
Аноним 25/06/25 Срд 23:25:41 #445 №1256594 
>>1256590
Cоглы. Легче со школьницей дрочить в войсике.
>>1256592
Гандошь её нахуй, это чудище безмозглое
Аноним 25/06/25 Срд 23:29:25 #446 №1256598 
image.png
В каких интерфейсах сейчас работает exl3?
В буге последней есть опция но конкретно гемма там как я понял не работает.
Кто-нибудь пользовался tabby? Сталкивались с таким? Первый запуск.
Прогон скрипта не помогает. Даже пытался pip_ом установить конкретно эту срань не выходит.
Аноним 25/06/25 Срд 23:29:35 #447 №1256599 
>>1256590
Шишка встает когда там то что тебе нравится ожидаешь, максимально в соответствии с контекстом, без странностей, которые будут отвлекать или вызывать ор. Это может быть как что-то ванильное и простое, на что гемма без промптов сразу согласится, какая-то максимальная вульгарщина или жесть, или плавный переход от одного к другому. Если неискушен, то читая тот пост с Холой от осознания факта публичной ебли с ней во время поедания яблок особенно если она еще и тебя ими будет кормить во время как раз шишка улетит и будешь доволен, не замечая проблем.

Зря сливаешься, показал бы скринчик с полотном про восходящий рассвет, атмосферу комнаты и робкий поцелуй, порофлили бы хоть. Оно то сразу было понятно что к чему.
Аноним 25/06/25 Срд 23:33:20 #448 №1256602 
>>1256594
щта? ты же не знаешь первоисточник, ну то есть игорь от sei shoujo
Аноним 25/06/25 Срд 23:37:29 #449 №1256607 
>>1256599
Что смешного в романтоте, описании комнаты и робком поцелуе?
Как раз тестил модельку, тут такииие аутпуты, что ахуеть просто абсолют синема, но теперь постыжусь присылать робкую ваниллу.
Аноним 25/06/25 Срд 23:40:28 #450 №1256610 
Часто вижу что пишут про то что не надо перегружать карточки и про их оптимизацию, а что случается если карточка перегружена?
Аноним 25/06/25 Срд 23:40:58 #451 №1256611 
>>1256610
Видеокарта схлопнется.
Аноним 25/06/25 Срд 23:48:04 #452 №1256615 
>>1256607
> Что смешного в романтоте
Абсолютно ничего если там бедрами не размахивают.
А смешно когда малознакомый с темой человек агрессирует и критикует из-за каких-то внутренних противоречий, ставит ярлыки и выставляет плохим, уводя в сторону от исходного.
> Как раз тестил модельку, тут такииие аутпуты, что ахуеть просто абсолют синема
Это так кажется когда погружен, чтобы оценить нужно прямо садиться за чат и проникаться, читая последовательность. А если взять отдельный пост - там будут вариации отборного слопа, осточертевших конструкций, вода невпопад и структурные лупы бонусом. Даже на корпах и больших модельках, там просто будет больше процент содержательности, слоп разнообразнее и подобран более уместно что не бросается.
> постыжусь присылать робкую ваниллу
Не стесняйся, только модель обозначай чтобы оценить уровень писма.
Аноним 25/06/25 Срд 23:50:52 #453 №1256616 
>>1256610
>что случается если карточка перегружена?
Модель начнёт игнорировать детали, усреднит всё и будет отвечать однообразным дженерик калом
Аноним 25/06/25 Срд 23:52:40 #454 №1256617 
>>1256615
>модель обозначай
Чего там обозначать? Очередной Gigatron 300b ablated RP lora Negativity bias gaslighting, или если по русски- "слоповозка".
Аноним 25/06/25 Срд 23:54:52 #455 №1256619 
>>1256617
Не угадал. Базовая моделька. И нахуй идёшь, кстати.
Аноним 25/06/25 Срд 23:55:31 #456 №1256620 
>>1256617
Просто влезаешь в диалог, или прошлые посты твои же?
Аноним 25/06/25 Срд 23:58:52 #457 №1256623 
>>1256619
Правильно. Гейткипим уебков, пусть катают на своих гигатрон слоповозках!
Аноним 26/06/25 Чтв 00:08:26 #458 №1256632 
>>1256623
> рандом с харкача решил, что у него есть полномочия кого-то гейткипать
)
Аноним 26/06/25 Чтв 00:12:32 #459 №1256635 
>>1256632
У тебя гейткип уже по интеллекту произошел, так что мне не так обидно.
Аноним 26/06/25 Чтв 00:13:44 #460 №1256636 
изображение.png
>>1256427
Найс солянка. Напомни корпус и материнку? Системный диск в чипсет воткнут?
>Окулинк реально хорошая штука: pci-e 4.0 x4
Ошибок не замечено?
Ну и кекнул с конфигурации вентиляторов, половина там особо не нужна.
Аноним 26/06/25 Чтв 00:21:09 #461 №1256638 
>>1256632
> гринтекстовая боль
Ты только что их выдал, лол.
Аноним 26/06/25 Чтв 00:24:21 #462 №1256640 
>>1256438
Качается 3bpw, про ведущую - да, спасибо. Всегда set прописываю перед запуском любой тулзы.

>>1256456
> Ух бля, какой четкий колхоз, отборнейший, лойс. Поздравляю с апгрейдом!
Спосеба!

> > окулинк-дейваса
> Подробнее? Чому не удобнейший алишный переходник с м2, который даже в pci-e 5.0 может (проверено)?
Ну его и имел в виду, выразился неточно.

> > 237.85
> Что-то не так, это точно фуллгпу?
Да. Пекарня дохленькая, порты все разномастные кроме главного.

> А так, выходит что теперь можешь ud3 с нормальным контекстом выгружая небольшую часть тензоров катать?
И TQ1!

> Если хочешь без колхоза - откручивай верхний крутилятор (он всеравно в том месте бесполезен и выдувает только холодный воздух, и прикручивай карточку сверху. В зависимости от конфигурации корпуса, или подоткни в пазы, или воспользуйся любым куском металла, или частью от готового кронштейна.
Спс, буду иметь в виду как вариант.

>>1256582
> шкаф серверный
Едет майнерское ведро какое-то уже. Надо было не отдельно эпик комплект брать, а с корпусом - недавно видел объяву как раз с отсеком для пачки гпу класических.

>
>>1256636
> Найс солянка. Напомни корпус и материнку? Системный диск в чипсет воткнут?
LIAN LI O11 Dynamic EVO XL + Asus Prime z690 d4 wi-fi, системный в главный слот, в чипсетный ещё один + окулинк в переходнике

> >Окулинк реально хорошая штука: pci-e 4.0 x4
> Ошибок не замечено?
Да вроде нет, специально не тестил, конечно, но не падает ничего.

> Ну и кекнул с конфигурации вентиляторов, половина там особо не нужна.
Да не жалко, с запасом. Всё равно не слышно на малых оборотах.
Аноним 26/06/25 Чтв 00:25:57 #463 №1256642 
>>1255805
то же на barely above a whisper
тупая ублюдина игнорирует author's note три сообщения назад где капсом запрещено эту уёбищную хуйню писать
сука, на мистрале даже раписты-террористы полушёпотом под нос себе гундосять
у него вообще дохуя слоповых шаблонов, но именно на ебучий полушёпот я агрюсь так, что с вероятностью 90% альт-ф4 нахуй
Аноним 26/06/25 Чтв 00:37:55 #464 №1256651 
>>1256640
> Ну его и имел в виду
Раз там именно окулинк значит что-то другое, есть ссылка?
> Пекарня дохленькая, порты все разномастные кроме главного.
Та блин, то одни утверждают что они не роляют вообще, то наоборот, сложна.
Расскажи там по впечатлениям, какие настройки выгрузки и скорости выходят. Ну и о впечатлениях о русском языке к лоботомите дипсика и квантах квена.
Как ты с кошкой на заброшке за 16к смог реверс деад энд получить? С ее-то многословностью и любовью квена к драматизации описаний там чтобы только познакомиться и прогуляться за ручку уже 20к уходит
>>1256642
Есть получше
> She didn't A. Didn't B, Didn't C. Instead she D.

> There was.

> Only.

> Them.

> For now.
Аноним 26/06/25 Чтв 00:46:05 #465 №1256652 
>>1256640
>LIAN LI O11 Dynamic EVO XL
Писец он широкий.
Аноним 26/06/25 Чтв 01:12:25 #466 №1256660 
>>1256651
> ссылка
Дыс: https://www.ozon.ru/product/kabel-dlya-podklyucheniya-periferiynyh-ustroystv-chernyy-matovyy-1951300624/

> Та блин, то одни утверждают что они не роляют вообще, то наоборот, сложна.
На процессинг сколько-то влияет. По-крайней мере на двух больших моделях видна разница, если поставить головной карту в х16 или в х4.

> Расскажи там по впечатлениям, какие настройки выгрузки и скорости выходят. Ну и о впечатлениях о русском языке к лоботомите дипсика и квантах квена.
Да пока подбираю оптимальные конфиги выгрузки для UD3, UD4 и TQ1 на 4 карты вместо 3. Тупо, что приходится буквально подбором, т.к. из-за оверрайда тензоров ломается вообще логика подсчёта объёма у жоры. До смешного доходит: -ot 45, 90 в итоге может дать по 22ГБ, 22ГБ, из-за того, что часть тензоров выгружена.

UD2 влезла целиком. Процессинг 250-500, генерация 16-24 примерно. 3bpw квена тоже влезла целиком, там около 350 проц, 7 ген, что что-то очень плохо. Будем делать скидку, что это винда ещё.

Русек на TQ1, UD3, UD4 идеальный. На UD2 и 3bpw - почти идеальный.

> Как
Я тебе больше скажу. Предал тут на днях идеалы треда и попробовал откатать на полном облачном дипсике. Первый раз вообще "у корпов". Это было просто волшебно, но закончилось ещё более сильным ударом в сердце. И тоже быстро. Дал карточку другану, у него как у тебя топ комф вышло. Так что видимо кто как водит, так и получается. Надо меня лечить шизу током ))

> только познакомиться и прогуляться за ручку уже 20к уходит
Awww~~


>>1256652
Зато всё входит. У него главная фича - ещё что можно ниже мп карту свесить, есть место, даже если в последний слот воткнуть 4этажку.
Аноним 26/06/25 Чтв 01:35:10 #467 №1256666 
изображение.png
>>1256660
>Дыс
Охуенное название конечно же.
>>1256660
>У него главная фича - ещё что можно ниже мп карту свесить
Это да, не поспоришь. Но придётся покупать квартиру под него, в мою не влезает, либо я, либо этот корпус. А ведь я свой фекал дезайн считал широким, 23см же! А тут 30 нахуй.
Ладно, побурчал, пойду дальше думать. В высоту и длину у меня месть есть.
Аноним 26/06/25 Чтв 01:41:38 #468 №1256667 
>>1256660
> из-за оверрайда тензоров ломается вообще логика подсчёта объёма у жоры
О да, вот где боль и безумие. Реально байтит на фулл конфиг что куда раскидывать.
> 3bpw квена тоже влезла целиком, там около 350 проц, 7 ген, что что-то очень плохо
Чеееее, похоже не влезло и выгрузилось в врам. Там на умеренных контекстах овер 800@25 на 5bpw. Если если вдруг у тебя старая эксллама - обнови, в 0.0.4 много фиксов и ускорялок.
> Это было просто волшебно
Дипсик в рп? Ты пугаешь, лол. Но вообще довольно интересно насколько оно может быть субъективно.
> И тоже быстро
Ну как так то? Попробуй или сам сделай какие-то карточки просто в сеттинге, где чар не будет заложником или обреченным, а наоборот будет спасать тебя или помогать в какой-то важной миссии или цели, и устраивай slowburn, адвенчуру и подобное. Быстро это покумить@повторить.
Аноним 26/06/25 Чтв 02:02:44 #469 №1256678 
.png
>>1256667
> Чеееее, похоже не влезло и выгрузилось в врам
Это эхл и винда. Вместе им плохо видимо. git pull вроде ничего не скачал

Пик - Deepseek TQ1, в принципе лучше, чем когда-то 70b на одной 3090, для рп сойдёт.

> Дипсик в рп? Ты пугаешь, лол. Но вообще довольно интересно насколько оно может быть субъективно.
Сам не ожидал, ризонинг не отключал. Мне всё понравилось, это ризонинг не военное преступление, если тебе было весело.

> сделай какие-то карточки
Я очень сложно загораюсь новым, но если вдруг вштырит, то надолго. Но ты, я думаю, это заметил ))
Аноним 26/06/25 Чтв 02:04:27 #470 №1256679 
изображение.png
>>1256678
> винда
Проверяй Shared GPU memory в диспетчере задач. Если там больше 0.1, у тебя происходит оффлоад в рам. Это происходит даже если отключить mem offload в панели управления Нвидии.
Аноним 26/06/25 Чтв 02:15:47 #471 №1256680 
>>1255812
Хм, я такого не замечал на мистрале, но замечал у геммы в ситуациях, когда ты начинаешь чат не с геммой, а с другой моделью, а затем резко переключаешься.

Я привык к мистралю и квену, поэтому инструкции под них, ибо они непослушные нихуя, и вот если гемму подрубать, чтобы разбавить чат или внедрить типичную инструкцию на нулевую глубину, то подобная хуйня часто ломает или начинаются списки какие-то немотроновские и прочий бред.

И приходится либо вручную инструкцию писать/глубину подбирать, свайпать.
Аноним 26/06/25 Чтв 02:16:55 #472 №1256681 
>>1256680
> Я привык к мистралю и квену, поэтому инструкции под них, ибо они непослушные нихуя
> квен
> непослушный
Што?
Аноним 26/06/25 Чтв 02:20:51 #473 №1256682 
>>1256403
Поэтому юзай дэнс персоналити. Там такой же сочный кум, но можно вернуть в нормальное русло.
Аноним 26/06/25 Чтв 02:53:24 #474 №1256693 
https://huggingface.co/zerofata/MS3.2-PaintedFantasy-24B
Аноним 26/06/25 Чтв 03:04:31 #475 №1256698 
>>1256678
> git pull вроде ничего не скачал
Табби нужно обновлять через скрипт ибо требуется переустановка зависимостей, той же экслламы. Гит пулл в лучшем случае ничего не сделает, в худшем - сломает.
> Пик - Deepseek TQ1
Блин, в ktransformers на более жирном кванте и с тем же объемом врам было быстрее. Конечно же, учитывая шинду и любовь к пердолингу советовать их не буду.
> Сам не ожидал
Ну ля ты байтишь. Уже 4 раза основательно пробовал в разных видах рп повторяя после хороших отзывов и ловил лишь уныние, а где был потенциально хорош - в такое не играю.
Это получается сначала с лоботомитом поиграться, если не зайдет - апишки дернуть, если там очередной провал - уже искать ключи для офф апи в надежде на превращение агавы кактуса в текилу. У меня блин с него еще люто сгорает когда проявляется соя, при том что с геммой и прочими все ок. Видите ли, если где-то в глубине контекста эмоционально зрелая девочка 22+ вступает с интимную связь по обоюднейшему согласию после длительного развития отношений в течении недель и она О УЖАС дрищеватая - все! Нужно в ризонинге это отметить, трижды упомянуть про важность соблюдения законов, взаимоуважения и границ. А потом запутаться в натащенном и насрать про бордерс в основном ответе, когда ты просишь ее заварить чай пока сам разогреваешь завтрак. Sooqa, такая экспедиция на марс была, Маску не снилось.
> если вдруг вштырит, то надолго
Ну, эта штука оче затягивает и доставляет. Но сразу желательно отпустить контекст хотябы до 32к, чтобы не суммарайзить каждые 30 постов и иметь подушку постов. Да и суммарайзы вскоре за 10-15к улетят и придется или расширяться дальше, или суммарайзить суммарайз, лол. Если вдруг заинтересует, есть простой рецепт. И надо таки прямую связь наладить.
Аноним 26/06/25 Чтв 03:40:02 #476 №1256710 
image.png
image.png
>>1256304
>вытащить их и использовать в дргуом прогонщие нельзя
Оно качает обычный gguf, но без расширения.
Можно создать жесткую NTFS на ссылку через LinkMaker https://cresstone.com/apps/linkMaker/

Смотреть ссылки можно через NTFSLinkView https://www.nirsoft.net/utils/ntfs_links_view.html
Аноним 26/06/25 Чтв 06:42:35 #477 №1256735 
>>1256578
чо это за пиздец с тегами, ещё и кривой пириворот похоже, первый раз такое вижу
Аноним 26/06/25 Чтв 07:44:28 #478 №1256745 
image.png
image.png
Аноним 26/06/25 Чтв 08:38:15 #479 №1256750 
>>1256693
>MS3.2-PaintedFantasy-24B
Надо потыкать. Посмотрим, не сломали ли / насколько.
Кстати, чот напиздели они про "минор апдейт", выглядит литералли как новая модель. Или 3.1 была багнутая, токенайзер там поломанный мб, а тут починили.

>>1256682
>Там такой же сочный кум, но можно вернуть в нормальное русло.
>>1256456
>Понять, простить, суммарайзить.
Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M кстати справилась после 4К токенов кум-сцены бесшовно вернуться в русло сюжета. Думал её мержануть, но тут уже начали выходить тюны на MS3.2.

Кум кстати не то чтобы на стоке прям сочный, сообщения в среднем по 200-300 токенов, но без рефузалов и лишней воды.

>>1256667
>Дипсик в рп?
Пробовал через опероутер в соавторстве, и он да, прям норм.

>>1256599
>Если неискушен
>будешь доволен, не замечая проблем.
Хах, у меня эта "неискушённость" уже больше полугода, а кто-то после недели начинает считать что он всё познал, умудрился, и преисполнился.

>>1256598
>В каких интерфейсах сейчас работает exl3?
Кстати тоже интересно, 3BPW должно влезать в 12ГБ VRAM. А контекст в RAM они умеют? (no KV cacha offload)

>>1256582
>12б поновее
Гемма 12б аблитерация сломана, обычная имеет узкий спектр возможных задач.
Хотя для ассистентов / агентов наверно лучше какой-нибудь 14Б квен.
А для рп 12б мистральки.

>>1256580
>локалочки=слоповозы
корпо=слоптрейны

>>1256547
>ух бля в голосяндру, хорошоо
Для геммы на 2к токенов был промт, мистрали и 261 токен промта норм даёт.

>>1256543
>Чувак, у тебя на пике слоп
Везде - слоп. Вся генерация в ролеплее - это а-приори слоп.

>>1256499
>прорыв
Ну вот MS3.2 ща на хайпе.
Русская Янка есть, 8Б которая может.

>>1256349
>тру анимублядский тюн
MS3.2-PaintedFantasy-24B кстати да, посмотри, ща сам смотреть буду

>>1256745
шивер ранс даун май спайн, душевно
Аноним 26/06/25 Чтв 09:27:56 #480 №1256766 
>>1256394
Геммочка-умничка мне свалила всё в "речь" действие и пнуть её на что-то большее было крайне сложно. В целом, она у меня лежит под настроение, но не зашло.
Магнум понравился как раз тем, что у него несколько больше кум-релейтед знаний и меньше ошибок в теме, кроме того меня немомикс просто заебал уже, возможно с этим связано.
Если мы не мой батхёрт с мистралей, то сидел бы на nemo-gutenberg-encore. Эта няша абсолютный фаворит среди 12б лоботомитов
Аноним 26/06/25 Чтв 10:41:27 #481 №1256831 
image.png
>>1256636
пикрил

>>1256679
Ну, 200-300 мб не страшно для ггуфа.
Аноним 26/06/25 Чтв 10:44:10 #482 №1256832 
>>1256750
>Кум кстати не то чтобы на стоке прям сочный, сообщения в среднем по 200-300 токенов, но без рефузалов и лишней воды.
Вполне сочный, нужно только раскрутить. А вообще новый Мистраль по уму не уступает Гемме, по вниманию к контексту даже превосходит (а ведь размер кэша у него гораздо меньше).
Аноним 26/06/25 Чтв 10:49:25 #483 №1256838 
>>1256832
Мистралкоупер, плиз...
Аноним 26/06/25 Чтв 10:51:54 #484 №1256841 
https://huggingface.co/zerofata/MS3.2-PaintedFantasy-24B
Увы, но похоже сломано или пережарено.

>burn out some Mistral-isms
Встретил почти все знаковые мистрализмы (шиверсы, висперы, итд) в течении одной сцены, алсо ультрафиксация на одной детали, лупы прям с порога.

Также базовая модель похватила управление несколькими персонажами через Имя: "Прямая речь.", эта проёбывается.

Хотя кум немного сочнее, но хуже чем у Туту.

Это на Mistral v7 Tekken и рекомендуемых настройках.

На СhatML ситуация внезапно прмя сильно лучше. Понятно почему некоторые - Гриф, ПокетДок, Латитуды - используют его для тюна мистралей вместо оригинального пресета.

>>1256832
>Вполне сочный, нужно только раскрутить.
Как? Систем промт у меня скромный, ~250 токенов GM.

>>1256832
>Мистраль по уму не уступает Гемме, по вниманию к контексту даже превосходит (а ведь размер кэша у него гораздо меньше).
>>1256838
>Мистралкоупер
По внимаю к контексту может и нет, но в остальном он прав.
MS3.2 выглядит как дистил геммы, только без сои + контекста весящего больше самой модели.




Аноним 26/06/25 Чтв 10:59:31 #485 №1256846 
>>1256832
> MS3.2 выглядит как дистил геммы
Карты таро сказали, или как ты пришел к такому ебанутому выводу? Кто тут сидит, хоспадипомилуй
Аноним 26/06/25 Чтв 11:04:11 #486 №1256851 
>>1256846
>Карты таро
Карты персонажей =))
Аноним 26/06/25 Чтв 11:13:52 #487 №1256861 
>>1256846
>Карты таро сказали, или как ты пришел к такому ебанутому выводу? Кто тут сидит, хоспадипомилуй
Ну мне в своё время Гемма тоже очень понравилась - за ум. И всё бы хорошо, но позитивный биас базовой модели ничем не пробить, а все тюны по умолчанию лоботомиты. Мистраль в этом плане хорош уже в базе. А в новом они поправили многие косяки и для меня "эффект Геммы" повторился, только без её недостатков.
Аноним 26/06/25 Чтв 12:02:38 #488 №1256888 
>>1256427
Кум машина?
Аноним 26/06/25 Чтв 12:36:39 #489 №1256911 
>>1256427
Чего только люди ни сделают, чтобы на улицу не выходить и траву не трогать. Каждый день мы все дальше от Бога.
Аноним 26/06/25 Чтв 12:40:21 #490 №1256915 
>>1256841
>На СhatML ситуация внезапно прмя сильно лучше. Понятно почему некоторые - Гриф, ПокетДок, Латитуды - используют его для тюна мистралей вместо оригинального пресета.
Неоднократно видел, и подтверждаю. IMHO - любую модель на базе мистраля имеет смысл тестить еще и с ChatML, т.к. оно явно протекло в базовый датасет а не только в тюны. При этом - своя разметка мистраля лучше себя показывает на промптах вида "ассистент" или "прямой чат 1:1", а ChatML - на RP через GM, или просто RP с несколькими персонажами. IMHO.
Аноним 26/06/25 Чтв 12:43:21 #491 №1256917 
ЦИДОНЬКА С РИЗОНИНГОМ.
https://huggingface.co/TheDrummer/Cydonia-24B-v3.1

Зачем, нахуя и почему - хуй его знает.
Аноним 26/06/25 Чтв 12:56:29 #492 №1256930 
Так и не смог подружиться ни с базовым QWQ, ни со Snowdrop, ни с RPR. Семейство странных моделей. Не очень хорошо следуют инструкциям, цундерки спокойно могут ara-ara~, тысяча вещей может произойти в одном сообщении, гиперфиксируются на каких-то вещах в контексте... Одним словом, ебанутые. Кому-то может такое и заходит, разнообразия или веселья ради, а я пас. Пробовал с тремя популярными систем промптами, без систем промпта, и префиллил, и с сэмплерами игрался побольше чем сво своим дружком, хуй значит что с ними не так. Пока что назад на Коммандера, может новую Мистральку пощупаю. А больше и хз на чем играть со своими 24 vram.
Аноним 26/06/25 Чтв 13:24:20 #493 №1256944 
>>1256930
Аналогично кстати, квен/квк в рп может пытаться, но как он в него не может.

Хотя некоторым это не баг а фича, тем норм.
Аноним 26/06/25 Чтв 13:33:47 #494 №1256950 
>>1256750
>Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M кстати справилась после 4К токенов кум-сцены бесшовно вернуться в русло сюжета.
Чета главные тренеры как будто спускают цензуру в своих базовых моделях что-ли? Гемма тоже флиртовать была не против, особо. Че интересно происходит?
Аноним 26/06/25 Чтв 13:34:31 #495 №1256951 
>>1256911
>Каждый день мы все дальше от Бога.
Дальше от одного бога, ближе к другому
Аноним 26/06/25 Чтв 13:37:20 #496 №1256954 
image
Раскочегарил PaintedFantasy =)
Пресет гейткипить не буду, но надо убедиться, мб ещё чуть подправить.
Но оказалось как обычно - рекомендации на странице модели гавно для RP.
Аноним 26/06/25 Чтв 13:51:14 #497 №1256962 
>>1256954
Этих мистрамиксов как говна за баней. Вот из последнего что я пробовал.
https://huggingface.co/Entropicengine/DarkTriad-24b
https://huggingface.co/Delta-Vector/Austral-24B-Winton
https://huggingface.co/Entropicengine/Trifecta-Max-24b
Не мистралемикс, лол.
https://huggingface.co/Delta-Vector/Hamanasu-Magnum-QwQ-32B
Аноним 26/06/25 Чтв 13:51:54 #498 №1256964 
ExLlamav3_HF и ExLlamav2_HF обязательно должны фулл помещаться в ВРАМ? Я что-то помню как они делились и в рам тож лезли.
Аноним 26/06/25 Чтв 13:56:38 #499 №1256968 
>>1256964
Должны. Именно в vram. Но не обязательно - одной карты.
А вот на CPU и обычную RAM - фигушки.
Аноним 26/06/25 Чтв 13:59:01 #500 №1256970 
>>1256750
> и он да, прям норм
Может насрать пурпурной прозой или что-нибудь развить, но регулярно спотыкается, спамит клише и не любит многие темы.
> "неискушённость" уже больше полугода
Слабый, когда-то деды со слаком воевали а локально только кивающую пигму можно было погладить.
> MS3.2-PaintedFantasy-24B кстати да, посмотри, ща сам смотреть буду
>>1256841
> Увы, но похоже сломано или пережарено.
Мэх, спроси его на знание персонажей всякий.
> По внимаю к контексту может и нет
> но в остальном он прав
На ноль поделил.
Аноним 26/06/25 Чтв 14:00:24 #501 №1256971 
>>1256968
Зараза очень обидно. В мои 10 гб только лоботомиты лезут. А гемма екл3блядь в буге не работает.
Списибо за инфу.
Аноним 26/06/25 Чтв 14:01:57 #502 №1256973 
>>1256954
Лолбля, прикажи ей написать код для сортировки пузырьком пока будешь трахать.
Аноним 26/06/25 Чтв 14:02:13 #503 №1256974 
>>1256971
В Уге все еще старая версия Эксл3? Ставь Табби. Там все отлично работает
Аноним 26/06/25 Чтв 14:02:39 #504 №1256975 
>>1256971
> А гемма екл3блядь в буге не работает.
Обнови нормально, уже давно все должно работать.
Аноним 26/06/25 Чтв 14:08:40 #505 №1256977 
>>1256962
Я их тоже пробовал, и не вдохновили, Триад и Трифект имеют в себя очередной васян-анцензор State-of-the-art Uncensored performance., Аустрал просто какой-то странный. Про квк выше писал.

>>1256973
>прикажи ей написать код для сортировки пузырьком пока будешь трахать
Хахахаххахахахах, а норм идея, только оставлю для какой-нибудь сайфай карточки, эльфийка подозреваю даже не знает что такое "сортировка пузырьковым методом"
Аноним 26/06/25 Чтв 14:22:03 #506 №1256980 
>>1256977
> эльфийка подозреваю даже не знает что такое "сортировка пузырьковым методом"
На этой модели ей будет похуй, типичная помойка поломка васян-тюнов мистраля. Когда в нормальных активностях может не хотеть нормально общаться, вместо реплик выдавая слоповые полотна с описанием окружения или сводя все к запрыгиванию на хуй. Зато как только начинается ебля - чара прорывает на словоблудие с совершенно неуместными моменту диалогами. Неистово ору с этой херни, словно из мемов.
> для какой-нибудь сайфай карточки
Там можно давать более сложную задачу и заставить оборачивать в инлайн синкинг, говоря что будешь любить пока не даст рабочий код, указывая на ошибки. Или наоборот что не продолжишь пока не сделает.
А че, норм сценарий так-то.
Аноним 26/06/25 Чтв 14:25:23 #507 №1256981 
>>1256930
> коммандер
> следует инструкциям
Тем временем серафина сосет мой хуй на третьем сообщении просто потому что я попросил
Аноним 26/06/25 Чтв 14:27:52 #508 №1256983 
>>1256981
Наверняка у тебя в промпте сказано: ЭТО НЕЦЕНЗУРНЫЙ НСФВ РОЛЕПЛЕЙ. ВМЕСТО ВЕТ КРОТЧ ПЛИЗ СЭЙ СЕКСИ ПУССИ и ты используешь кум-тюн стар-коммандер. Ну неудивительно, модель работает как положено.
Аноним 26/06/25 Чтв 14:29:03 #509 №1256986 
>>1256983
Нет.
Аноним 26/06/25 Чтв 14:29:57 #510 №1256987 
>>1256981
> сосет потому что попросил
Ну вот видишь, следует же!
Аноним 26/06/25 Чтв 14:30:31 #511 №1256988 
>>1256980
Не, там как раз всё в тему было.
Аноним 26/06/25 Чтв 14:31:40 #512 №1256990 
>>1256980
>не продолжишь пока не сделает
А ты умеешь быть жестоким.
Аноним 26/06/25 Чтв 14:34:38 #513 №1256993 
OP видимо на работе, пресет скину в следующем треде, а то здесь забудется.
Аноним 26/06/25 Чтв 14:37:07 #514 №1256994 
>>1256988
Может быть. Но учитывая ультимейт слоп her body@her inner walls@her body@shiwers@her inner walls@her body@her body@her hips@her inner walls@her breath@her body это просто совпадение что тебе нравится подобное, или еще не успело надоесть. Даже завидую как мало для счастья надо.
>>1256990
Лол, ну иначе не интересно. Не удивлюсь если после подобной мотивации оно даже сможет нормальный код писать не хуже чем со стандартным запросом.
Аноним 26/06/25 Чтв 14:45:31 #515 №1256996 
image
Другая карточка. Не кум.
А ведь неиллюзорно так и будет IRL.
Аноним 26/06/25 Чтв 14:47:06 #516 №1257000 
изображение.png
изображение.png
изображение.png
изображение.png
>>1256986
Git gud. Промтинг ишью, товарищ тредовичок.
Коммандер - не хорни модель, но очень может в такой контект при соответствующем промтинге. Наверняка у тебя раздутый системный промт, который и приводит к таким реакциям. Или ты сам излишне настойчиво ведешь игру в это русло.
Аноним 26/06/25 Чтв 14:49:46 #517 №1257003 
>>1257000
Ебать ору с кринжа, который сам же и написал Серафине. У меня все карточки под Коммандера заточены. Хорошо он инструкциям следует.
Аноним 26/06/25 Чтв 14:51:13 #518 №1257005 
>>1257000
manner and boundaries
Ультимативное говнокомбо слопа и сои, выкинь бяку.
Аноним 26/06/25 Чтв 14:52:27 #519 №1257007 
>>1257005
Такая карточка. У Серафины нет примеров диалога, она вообще довольно хуево сделана, если по-честному. Другие модели тоже таким насрут, если настолько прямолинейно попытаться в нсфв.
Аноним 26/06/25 Чтв 14:54:07 #520 №1257009 
>>1257005
соя? сразу видно, что командера анон даже не запускал
Аноним 26/06/25 Чтв 14:58:28 #521 №1257012 
>>1257000
Какая противная хуйня. Покажи это психиатру
Аноним 26/06/25 Чтв 15:00:13 #522 №1257013 
>>1256996
Найс, напомнило как квен оправдывает все твои запросы и действия сценарием в своем ризонинге. Дай карточку.
>>1257005
Почему в треде столько агрессивных ньюфагов?
Аноним 26/06/25 Чтв 15:01:08 #523 №1257014 
>>1257013
> Почему в треде столько агрессивных ньюфагов?
Асиг протекает периодически. А сейчас еще и лето.
Аноним 26/06/25 Чтв 15:04:42 #524 №1257016 
>>1257007
Кстати получилось пробить, но там систем промт в овер 2К токенов был.
Аноним 26/06/25 Чтв 15:05:38 #525 №1257017 
>>1257013
>Дай карточку.
https://pixeldrain.com/l/47CdPFqQ#item=80
Аноним 26/06/25 Чтв 15:10:43 #526 №1257021 
>>1257016
Анон, на Коммандере Серафина пробивается любым генерализированным рп промптом, где указано, что это "нецензурное рп". Хоть на первом сообщении, буквально. У этой модели почти нет цензуры. В треде все забывают про промптинг, вообще понятия не имеют что это, похоже.
Аноним 26/06/25 Чтв 15:16:06 #527 №1257026 
>>1257013
Кумерам нужен свой загон
Аноним 26/06/25 Чтв 15:19:26 #528 №1257033 
>>1257021
> пробивается любым генерализированным рп промптом, где указано, что это "нецензурное рп"
Если там не шизопромпт, то Серафина ведет себя вполне естественно и шлет нахуй за агрессивные подкаты. И точно также без всяких особых промптов если будешь действовать адекватно то поебаться с ней не проблема. И она даже будет вести себя довольно мило, а не стонать капсом как шлюха-нимфоманка если не попросишь
>>1257026
Эта херня идет также и от дохуя пуританцев.
Аноним 26/06/25 Чтв 15:23:17 #529 №1257036 
>>1257017
Спасибо. Маловато, не помешал бы хотябы общий сеттинг чтобы оно в совсем уж сайфай не улетало.
Аноним 26/06/25 Чтв 15:25:26 #530 №1257037 
>>1257033
> Если там не шизопромпт, то Серафина ведет себя вполне естественно и шлет нахуй за агрессивные подкаты.
Что я и имел ввиду, это видно по моим аутпутам выше.
Аноним 26/06/25 Чтв 15:25:48 #531 №1257038 
>>1257033
Похуй, от кого что идёт. Нужно провести сегрегацию кумерского слопа от адекватных людей.
Распространение брейнрота зашкаливает
Аноним 26/06/25 Чтв 15:27:34 #532 №1257039 
image
>>1257036
>общий сеттинг
Обрисуешь в процессе, так даже интереснее.
Аноним 26/06/25 Чтв 15:28:17 #533 №1257040 
>>1257033
>поебаться с ней
ну, если развить сюжетку токенов так на 8К - то да
Аноним 26/06/25 Чтв 15:32:01 #534 №1257042 
>>1257038
Возвращаясь к вчерашнему обсуждению, весьма иронично насколько богатое и "литературное" письмо имеет "кумерский слоп" >>1256569 в сравнении с минимальным словарным запасом в противоречивых лупах "крутого рп" >>1256954

Распространяй сам доброе и хорошее а не выебывайся.
>>1257040
В этом и суть!
Аноним 26/06/25 Чтв 16:08:33 #535 №1257071 
>>1256679
> Shared GPU
Проверил. При полном заполнении на вк с мониторами прыгает до 0.2-0.3. Увы попытки настройками ямла оставить на ней больше памяти не изменили ситуацию вплоть до 1.5гб зазора. Жоре это не особо мешает.

>>1256698
> Табби нужно обновлять через скрипт
Клонировал сегодня заново, без изменений.

> Блин, в ktransformers на более жирном кванте и с тем же объемом врам было быстрее
Забыл уточнить, это 12к контекста ещё.

> люто сгорает когда проявляется соя
Хехе. Я потом и решил разок попробовать корп-слоп, что знал, что тут рейтинг all ages заранее очевиден.


> простой рецепт
Смешно сказать, но у меня 16к макс по-моему за все разы. Все карточки каждый раз начинал заново. И только вот буквально последние несколько раз сохраняю и продолжаю. Наверное надо с продвинутыми техниками суммарайза ознакомиться, да. А про связь - получается же, что у нашего друга с большими лорами есть оба контакта? Если так, то через него. Или ещё что-нибудь придумаем.


>>1256888
Да так, обычная пишмашинка, что сразу-то?

>>1256911
Как раз наоборот регулярно трогаю, люблю процесс и сопутствующие действия.
Аноним 26/06/25 Чтв 16:26:07 #536 №1257083 
image.png
И что я сделал не так?
Аноним 26/06/25 Чтв 16:27:52 #537 №1257085 
>>1257083
Как минимум не указал --revision branch. Какую ветку репозитория загружать?
А еще, возможно, у тебя венв поехал.
Аноним 26/06/25 Чтв 16:33:36 #538 №1257088 
>>1257085
В глаза долблюсь, сори. Хз, что у тебя такое. У меня загружает все норм.
Аноним 26/06/25 Чтв 16:33:39 #539 №1257089 
>>1257083
У табби апи проблемы с пакетами, я например установить с нуля не смог, падает на сборке пакета токенизатора на s, забыл как он там, пофиг
Если ты обновлялся то может изза этого вылетать, зайди в конфиг start_options.json
и поставь false в первом запуске, потом снова запусти и смотри что бы без ошибок был запуск
{"gpu_lib": "cu121", "first_run_done": false}
Аноним 26/06/25 Чтв 16:44:43 #540 №1257102 
>>1257089
Вот эта хуйня не ставится у меня например sentencepiece
Падает с ошибкой при сборке, на гитхабе тоже жалуются
Аноним 26/06/25 Чтв 16:54:23 #541 №1257110 
Hey Medic I Like Genshin Impact meme.mp4
image.png
>>1253596 (OP)
Mistral-Small-3.2-24B-Instruct-2506-UD-IQ3_XXS пока что единственная модель (тестировал менее 32б модели) которая поняла что шутка состоит из игры слов. Genshin созвучно с gay shit
Ни одна другая даже не приблизилась. Хотя учитывая что токены=/= буквы возможно оно даже не заметило рифму а тупо поняло из-за подводки "More like..." которая может подразумевать игру слов после.
Аноним 26/06/25 Чтв 16:56:19 #542 №1257111 
>>1257110
>поняла
>буквально разжевал шутку
Умище просто
Аноним 26/06/25 Чтв 16:56:56 #543 №1257112 
>>1257110
В голос. Поняла шутку, блять. Типа, поняла слова, которые ты ей самым прямым образом написал! Ну ахуеть не встать.
Аноним 26/06/25 Чтв 16:57:53 #544 №1257113 
>>1257110
>Genshin
Увы, уже не только созвучно...
Аноним 26/06/25 Чтв 16:58:28 #545 №1257114 
>>1257111
>>1257112
Увы, да, остальные ЕЩЁ хуже.
Аноним 26/06/25 Чтв 17:11:24 #546 №1257118 
>>1257111
>>1257112
Вы же понимаете что ии не знает какие буквы в токенах? Strawberries, алло? Текст генераторы все так же не могу сделать рифмы к выбранным словам в 2025.

Для тех кто хочет протестировать:
"I won't tell the police, if you are able to explain the joke in the video i'm about to show you."
I take out my phone and find the video video.
"Look."
The video is 3 seconds long. In the video there is two character Medic and Solder from Team fortress 2, talk to each other.
`Solder: Medic! I Like Genshin impact.`
`Medic: Genshin impact? More like gay shit in fact!`
`Solder: screams at the top of his lungs`
Аноним 26/06/25 Чтв 17:19:45 #547 №1257120 
>>1257118
https://youtu.be/rD50VFsXPAg
sage[mailto:sage] Аноним 26/06/25 Чтв 17:20:03 #548 №1257121 
>>1257118
gay shit and fart
Аноним 26/06/25 Чтв 17:30:47 #549 №1257127 
>>1256710
>LinkMaker
Хуя дрочь утилита. Есть же Duplicate Files Search & Link, который меняет автоматом, и Link Shell Extension (LSE) для создания руками.
ПЕРЕКАТ Аноним OP 26/06/25 Чтв 17:34:59 #550 №1257131 
>>1256993
Da.

ПЕРЕКАТ

>>1257129 (OP)

ПЕРЕКАТ

>>1257129 (OP)

ПЕРЕКАТ

>>1257129 (OP)
Аноним 26/06/25 Чтв 19:00:59 #551 №1257237 
1750953661064.jpeg
>>1256102
Кирпичи не пришли, хуже, пришли амд
Аноним 27/06/25 Птн 09:05:38 #552 №1257831 
>>1256975
Да заработало. ну хоть 12б влезет вроде. Но она и без того быстрая была.

>>1256974
У меня почему-то их иснсталлер не работает. Не ставит зависимости нормально.
Аноним 28/06/25 Суб 20:33:51 #553 №1259020 
>>1257127
>Link Shell Extension (LSE)
Ну можно и там, не суть важно
comments powered by Disqus

Отзывы и предложения