Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №138 /llama/

Аноним 08/06/25 Вск 04:29:38 #1 №1238425

Llama 1.png

Эффективность квантования EXL3.png

Реальная длина контекста у моделей 2.png

17463792529250.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1232673 (OP)
>>1226628 (OP)

Аноним 08/06/25 Вск 05:37:21 #2 №1238443

>>1237936 →
>все заебался с этой убаугой
А вот не надо унгабунгу юзать, юзай нормальный бэк.

Кобольда, который в этом треде синоним слова "новичок-вкатун", хотя ты вроде нет, или llamacpp.

Врамобояре юзают табби.

Аноним 08/06/25 Вск 09:20:50 #3 №1238488

база треда: меньше Q6_K жизни нет, меньше 24B жизни нет, меньше 16GB жизни нет

Аноним 08/06/25 Вск 09:53:08 #4 №1238501

Попробовал https://huggingface.co/Tesslate/Synthia-S1-27b
Для кума не подходит, мозгов вообще не хватает у нее, даже тюны 12б на немо мистрале в разы лучше.

Аноним 08/06/25 Вск 10:20:08 #5 №1238517

Аноны, дегенератский вопрос ибо позабыл уже нюансы: насколько будет уебанским решение к 4080 доставить 5060 ради +16гб врамы?

Аноним 08/06/25 Вск 10:23:54 #6 №1238520

>>1238517
врама много не бывает

Аноним 08/06/25 Вск 10:26:59 #7 №1238523

>>1238520
Эт понятно, я больше задаюсь вопросом не превратится ли это всё в тыкву в сумме из-за такой разницы по мощностям чипов и скоростей врамы

Аноним 08/06/25 Вск 10:31:32 #8 №1238532

>>1238523
вряд ли, разница всего 1 поколение, это не к 2080 доставить 5060

Аноним 08/06/25 Вск 10:37:11 #9 №1238540

>>1238532
>>1238517
Есть правда ещё более шизофреничная идея вместо 5060ти заюзать A770.....

Аноним 08/06/25 Вск 10:41:19 #10 №1238543

>>1238523
>Эт понятно, я больше задаюсь вопросом не превратится ли это всё в тыкву в сумме из-за такой разницы по мощностям чипов и скоростей врамы
Я так понял, что есть вопросы по поводу взаимодействия Питорча и 50-й серии. И с драйверами что-то.

Аноним 08/06/25 Вск 11:11:31 #11 №1238553

>>1238501
у тебя карточки и промт не подходящие, а 12б модельке похуй вообще
вот и вся разница

Аноним 08/06/25 Вск 11:23:34 #12 №1238563

>>1238553
таки где мне обучиться промпту и карточкам? или дай пример, чтобы я понял что у меня не так
просто на гемме пердел, все хорошо было, но она там умная дохуя в плане контекста как я понял

Аноним 08/06/25 Вск 11:40:56 #13 №1238570

>>1238563
тут что ни скинешь, все засрут к ебеня матери и еще больше запутают новичков своими точно правильными познаниями
так скажу: сам когда перекатывался с 12б на 70б модельки, у меня все чаты развалились. потому что абсолютное большинство 12б тюнов - по умолчанию кумлоботомиты, которым даже карточка толком и не нужна. можно написать "office coworker 30 years old" и оно будет работать. потому что в и без того маленькую модель запихали кум датасет, он пропорционально важнее чем в больших моделях

полазай по чубу или еще где, посмотри определения карточек, ищи что сделано с душой и попробуй разное

Аноним 08/06/25 Вск 12:04:53 #14 №1238584

14274503joker.jpg

>>1238501
> Synthia-S1-27b (рабочий тюн базовой геммочки и без рефузов)
> мозгов вообще не хватает у нее
> 12б на немо мистрале в разы лучше

Аноним 08/06/25 Вск 12:37:31 #15 №1238598

>>1238523
Мощность чипа особо не влияет (здесь) - важнее само поколение, из-за поддержки разного набора фич. Но тут же 4080 старее. Память у 5060 вроде как не особо медленнее, или даже наоборот(лень лазить проверять).
У самой 5ххх серии пока бывают заморочки с либами и дровами - но это уже их собственное, независимое. Подпилят, я думаю.

Аноним 08/06/25 Вск 12:49:19 #16 №1238605

>>1238443
В общем, походу это решается "swa-full" флагом. Да, как-то неочевидно. Хз косяк ли это самой убабуги или ЛамыЦПП за уебищный АПИ нейминг.

ЛамаСПП решили по дефолту врубать СВА везде (?) https://github.com/ggml-org/llama.cpp/pull/13194

Аноним 08/06/25 Вск 13:50:07 #17 №1238655

image.png

Как отключить think на квене 30б-а3б? Есть команда для него enable_thinking=False, так куда ее писать? В систем промпт? В сам промпт, который тоже называется систем промпт? Или в кастом стрингс. 1 и 3 вариант для меня оказались не рабочими. Ризинг в силли, тоже стал почему-то не работать.

Алсо, что использовать в темплейте для этого квена? ChatML? У него такие токены, похожих в силли не видел, кроме как на chatml

Аноним 08/06/25 Вск 13:55:17 #18 №1238662

>>1238655
think я все же убрал при поможи /no_think. Но что использовать в темплейте? ChatML?

Аноним 08/06/25 Вск 13:57:25 #19 №1238665

>>1238655
В любом месте, например в систем промте добавь в конце
/no_think, можешь сводобно переключаться во время чата выбирая режим добавляя теги в конце сообщения, включить думанье /think

>>1238662
>ChatML?
yes, но оно не так умно без ризонинга чем хотелось бы. С ним уже более менее

Аноним 08/06/25 Вск 14:00:16 #20 №1238668

изображение.png

>>1238605
Да, судя по обсуждению кто то предлагал включить изначально старый кеш, но сделали принудительное включение сва кеша
Все кто часто/долго пересчитывает контекст - сосать

Аноним 08/06/25 Вск 14:00:33 #21 №1238669

>>1238665
>С ним уже более менее
Ну так его видно, и оно же отжирает контекст, его можно оставить, но чтобы на выходе я его не видел?

Аноним 08/06/25 Вск 14:01:15 #22 №1238671

Анонасы, вот в карточке есть таблица со статами, но моделька (гемма 27б) забывает ее через 5-6 запросов, что я могу с этим сделать? Просто не хочется под каждую карточку менять системный промпт.
Вот так выглядит в карточке:
###Display:
At the bottom of every post, display the following information wrapped in ` like this: `information`
Есть ли какая-то специальная разметка, чтобы эту часть контекста он всегда пониже держал?

Аноним 08/06/25 Вск 14:03:16 #23 №1238674

изображение.png

>>1238669
Видишь ризонинг настройки? Поиграйся с ними, можно сделать дефолтное сворачивание мыслей, они будут скрыты плашкой
Можно вобще убрать если вырубить мысли и выбрать пустое форматирование рассуждений

Аноним 08/06/25 Вск 14:12:47 #24 №1238688

>>1238501
Нормально кумит и в отличии от стоковой геммы лучше описывает. При этом, обычные карточки на хуй не прыгают, могут прописать пиздюлей за неуместные домогательства если не подходить аккуратно, а кумботы наоборот конкретно так берут тебя в оборот.
Что-то не так делаешь, промты, карточки и т.д.
>>1238543
С выходом стайбл торча на куде 128 и массовым переходом на него все вопросы закрыты.
Суммирование разных гпу будет работать, скорость будет определяться временем обработки каждоый своего кусочка.
>>1238605
Можно пояснительную бригаду?
Зачем вообще делать такую хуету и к чертям убивать атеншн там, где его точная работа жизненно необходима? Ладно когда в модели используется несколько вариантов и часть атеншна штатно должна быть со скользящим окном, нужно просто обеспечить ее корректную работу. Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного? Или что они там вообще делают?
>>1238655
Misc. Sequences -> Last Assistant Prefix ->
> <|im_start|>[{{name}}]
> <think>
>
> </think>
или заменить на свой шаблон если обычный чатмл без имен. Это в конфиге токенизатора указано явно.

Аноним 08/06/25 Вск 14:15:16 #25 №1238689

.png

>>1238655
> Как отключить think на квене 30б-а3б?
Можно ещё заглушку для <think> в виде префилла добавлять.

Аноним 08/06/25 Вск 14:16:11 #26 №1238690

>>1238688
> Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного
Для врам-бояр, так как им важнее меньшее количество врам при запуске и плевать на чтение промпта, если модель таки влезла
Остальные - сосать, если не знают что это включено и нужно вырубить командой с не очевидным названием

Аноним 08/06/25 Вск 14:16:57 #27 №1238691

>>1238488
немотроношиз уймись уже в каждом треде жидко срать, остальные обойдут, а ты в гавне

Аноним 08/06/25 Вск 14:21:45 #28 №1238695

>>1238690
Что за бред ты несешь?

Аноним 08/06/25 Вск 14:24:19 #29 №1238697

Почему персонаж не может просто стоять и пиздеть а не подходить ко мне ближе и ближе и ближе наклоняясь с каждым разом на расстоянии полушага

Аноним 08/06/25 Вск 14:36:43 #30 №1238705

Еще, сильно ли лоботамитит alibiterate у квена а3б? У меня раньше пользовался обычной, но он высерал хуйню какую-то, был поломанный квант. Сейчас скачал алибитерейт, отключит ли он мозги? Я конечно попробовал, русский такой себе... "Пожалуйста, мастер… я хочу тебя… я хочу твой сперму…" Как я помню на обычном квене с цензурой такого не было

Аноним 08/06/25 Вск 14:45:09 #31 №1238710

>>1238695
Пошел нахуй

Аноним 08/06/25 Вск 14:52:49 #32 №1238717

>>1238710
тредовичок обычный, ллама 8б iq2xs, 2048 q4 контекста
систем промт: разговаривать с самим собой, остальных слать нахуй

Аноним 08/06/25 Вск 14:55:37 #33 №1238720

>>1238553
Искренне не могу понять, откуда вы высрали это трешовое заключение, которое стали постоянно форсить в треде. Одну модель исходно тьюнили на инструкциях, и вторую тьюнили на инструкциях. Почему одна должна якобы понимать инструкции, но игнорить кум контекст и требовать какого-то специального промпта и карточки, а вторая независимо от контекста и инструкций писать еблю? Т.е. ситуацию с первой я понимаю: потому что в ней насрано сейф инструкциями. Но очевидно, это не потому, что она такая умная, блять, но как даун, на самом деле, и ей нужно специальное обращение. Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват, и что согласуется с контекстом (а контекст, очевидно, у анона про кум). И от того, что меньшую модель дополнительно накормили тьюном вида "я тебя ебу" - "ах, ты меня ебёшь", она не будет сводить в кумслоп вообще любой контекст, в котором нет "я тебя ебу", если тренили без косяков. Для этого пары инструкция-ответ и существуют.

>>1238671
Можешь подать инструкцию авторской заметкой/лорбуком/последним реплаем в инстракте на глубину ноль (сразу после чата). Более надёжный вариант имхо взять инфу в какое-нибудь форматирование или тег, скажем в ``` для кода, дать инструкцию, чтобы инфа выводилась в начале, и поставить открывающие символы в префил. Модели будет некуда деваться, кроме как дописать блок. Так даже совсем мелкие модели инфоблоки могут худо-бедно держать.

Аноним 08/06/25 Вск 14:59:50 #34 №1238723

>>1238720
> Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват
вот и умные теоретики подъехали, которые все непременно знают лучше всех

берешь 12б кумтюн мистральки и отвратительную слоп карточку. запускаешь, смотришь результат
берешь 70б электру или неворию и отвратительную слоп карточку. запускаешь, смотришь результат
ахуеваешь от результата и переосмысливаешь свои жизненные выборы либо делаешь вид, что не видел того, что видел и дальше умничаешь

Аноним 08/06/25 Вск 15:05:34 #35 №1238734

>>1238720
спасибо анон, решил так и сделать через лорбук, и привязал лорбук к карточке. чтобы они вместе подгружались

Аноним 08/06/25 Вск 15:10:30 #36 №1238738

>>1238723
ну я пробовал так делать, получается что на 12б качественный слоп, потому что 8квантов
на 70б неворию мне не хватило и запустил в 3 кванта и получился неудобоваримый слоп, потому что маловато квантовки
только на русике общаюсь

Аноним 08/06/25 Вск 15:21:40 #37 №1238744

>>1238720
> это трешовое заключение
Почему трешовое? Оно очевидно как после использования моделей, так и из теоретических заключений.
После продолжительной лоботомии, которую именуют "рп тренировкой", типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский. Она совершенно нечувствительна как к косякам промта, что для такого применения плюс, так и к деталям характера или каким-то особенностям карточки, что превратит чара в стандартизованного болванчика, сложный сеттинг в регулярные встречи с гоблинами или волками и т.д.
Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят. То что из-за дерьма на входе выдача не соответствует ожиданиям юзера - не ее проблемы. Если модель недостаточно большая и мощная, а в промпте полнейший треш - она может не сдюжить собрать вместе все противоречия и странности, и поломаться.
Модель - инструмент, а не какое-то волшебство, которое должно указывать мысли юзера игнорируя контекст. Говно на входе - говно на выходе, внесение любых жестких алайнментов в сторону конкретной выдачи и игнорирования входа = снижение точности и деградации. Только на оче больших размерах и с привлечением всякого типа ризонинга и саморефлексии, модель начинает справляться даже с трешем, ставя в приоритет часть нормальных инструкций и бракуя/обыгрывая ерунду, выдавая нечто удобоваримое. Но на это, образно говоря, уходят все ее ресурсы, и с хорошей карточкой и промтами можно получить гораздо больше.
>>1238738
> качественный слоп
Оксюморон, вялая копипаста датасета же.
> только на русике общаюсь
Как носителю языка можно не проблеваться с выдачи типичной 12 с подмешанной сайгой "для ру рп"?

Аноним 08/06/25 Вск 15:35:22 #38 №1238750

>>1238723
70б не могу (и даже 27б, кек), сорри, тут можешь считать меня теоретиком, согл (хотя когда-то сиживал на клоде и гптыне, которые почему-то даже самые шизовые промпты хавают, не будучи "зарельсованными" кумслоп тьюнами). Но могу сравнить 12б шизомержи немо с якобы более умной геммой, например. Совсем говнарские карточки стараюсь не юзать или редачить, но, скажем, пробовал катать абсолютно тупую карточку "твоя подруга детства хочет, чтобы ты её рейпнул". Кастомный мёрж магмела с наваленным поверх лупным кумслопом (сорри, люблю такое) почему-то не прыгал на кок, спокойно ограничиваясь тизингом со стороны тянки, и даже когда мы завалились к ней домой, она врубила эччи аниме нам смотреть и только потом начала кайнда приставать. В промпте ещё и было насрано такими себе инструкциями для более детального кума. Гемма же при малейшем обратном тизинге с моей стороны пыталась убегать в слезах. Правда, нужно объяснять, кто из них вёл себя логичнее при одинаковом контексте и промптах, и в чём проблема? Подсказка - проблема не в том, что гемма не понимала моих охеренно сложных инструкций и так себе написанной карточки.

Энивей, там чел пишет про тьюн геммы и говорит, что сама гемма у него работала норм, так что твой доёб про промпты там не к месту.

>>1238738
>на русике
Ну тут ещё проблема, что в ламе его почти нет.

Аноним 08/06/25 Вск 15:35:30 #39 №1238751

>>1238744
> типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский.
> Она совершенно нечувствительна как к косякам промта, что для такого применения плюс
именно это я >>1238723 здесь и сказал, объясняя анону, почему при переезде на большую модель у него получился худший результат, чем на тюне 12б модели

почему >>1238720 не согласен - хуй знает, да и похуй. адекватный анон выслушает нас обоих и составит свое мнение

Аноним 08/06/25 Вск 15:54:56 #40 №1238764

>>1238751
>худший результат
По твоему кумслоп на всё это лучше, чем адекватная подстройка под контекст?

Аноним 08/06/25 Вск 15:58:20 #41 №1238774

>>1238764
У местных шизиков модель для топ-кума - это когда на любую карточку "я тебя ебу - ты меня ебёшь".

Аноним 08/06/25 Вск 16:09:52 #42 №1238785

>>1238764
я этого не утверждал
проблема в том, что на 12б кумтюне карточка не развалится и будет работать хоть как-то
на 70б модели будет хаос вплоть до галлюнов
мне не нравится ни то ни другое, но отрицать правду я не буду

>>1238774
немонтронодебич, спокнись

Аноним 08/06/25 Вск 16:12:04 #43 №1238786

1735707613674.jpg

>>1238751
Там вроде посыл в том, что "у него" получается что 12б работает лучше чем большая модель, но его оценка "лучше" просто некорректна. Тот ответ не вполне проливает свет на то, что модель становится достаточно умной чтобы все заметить и обработать, выдавая ровно то что должно быть. Но еще недостаточно умная чтобы выразить свое недовольство и послать нахуй за такие промты, или вздохнув, выдав упреки и выразив свое отношение, все равно попытаться как-то это обыграть, сделав конфетку.
>>1238785
> что на 12б кумтюне карточка не развалится и будет работать хоть как-то
Пикрел

Аноним 08/06/25 Вск 16:13:36 #44 №1238787

>>1238786
> Пикрел
именно так. слева 70б, справа 12б
хорошая пикча

Аноним 08/06/25 Вск 16:14:42 #45 №1238788

>>1238785
>и будет работать хоть как-то
Весь прикол в том, что я бы не назвал это работой. Так можно заменить всю нейросеть подстановкой "Ты меня ебёшь - ахх" в конец вместо всех этих вычислений, и будет твоя 12B оверфитнутая на куме модель.

Аноним 08/06/25 Вск 16:17:16 #46 №1238789

>>1238788
я с тобой согласен. почему вы из контекста выгружаете все кроме одного сообщения на которое отвечаете
там анон писал, что у него на синтии результат хуже, чем на 12б кумтюне, я ему объяснил почему
почему вы думаете, что я защищаю 12б модели?

тред поражает тупостью, как же я коупю и верю что вы лламы 8б одного из риговичков

Аноним 08/06/25 Вск 16:19:07 #47 №1238791

>>1238787
Надо переделать под 70б - 12б и внизу автоваз заменить на мистральнемо. А справа добавить гусенечную бронемашину и скрин ризонинга, где квен трижды ахуевает с противоречий в карточке проходя стадии торга и принятия.

Аноним 08/06/25 Вск 16:21:50 #48 №1238794

>>1238789
>почему вы из контекста выгружаете все кроме одного сообщения
Так проще общаться. И даже последнее сообщение выгружаю не всё, а только то, что цитирую.
Мимо анон, превратившийся в 1,3B после общения с нейронками длинною в два года

Аноним 08/06/25 Вск 16:31:54 #49 №1238804

>>1238750
>>1238751
И опять - все упирается в субъектив - что именно считать адекватной реакцией? Оно ведь - на вкус все фломастеры разные.

А лично для меня, "модель адекватна" когда она:
1. Следует основной инструкции глобально. Т.е. если я ей говорю, что она DM - то она должна вести игру, а не писать книгу или решать задачи. А если - "ты - Х" (с описанием этого Х) - то не выпадать из образа этого Х.
2. Отыгрывая персонажа(ей) - учитывает прописанные реалии вокруг, а не тупо тянет мораль и этику (и остальное) из нашей дефолт реалити. Т.е. - написано что это хентай мир, в котором голым по улице ходить нормально - значит персонажи не должны даже смущаться при этом. И т.д. В идеале - еще совмещать с описанием самого персонажа - т.е. если "попаданец" - то недоумение и смущение логичны.
3. Проявляет хотя бы минимум инициативы в действиях персонажей согласно их предыстории. Как пример - чтоб NPC добросовестный приключенец, скажем, по своей воле пошел за оружием ухаживать после рейда, без намеков от меня.

А слоп там, прыжки на это самое на втором ходе, или убегание в слезах на невинные намеки - это все вторично, и само по себе нифига не показатель. Лишь в контексте вышеописанного.

Аноним 08/06/25 Вск 16:38:40 #50 №1238811

этот вообще посреди обсуждения проблемы пришел о своем попиздеть
ууух бля, пойду спокнусь отдохну от вас. всякое бывает, но такого потока сознания на ровном месте как ночью и сейчас я еще не видывал, демагоги захватили тред

Аноним 08/06/25 Вск 17:12:23 #51 №1238828

Почему карточки, которые нравятся по пикче и описанию, оказываются кринжухой и слопом, а карточки, на которые не питаешь особых надежд (или не очень интересна тематика/фетиш) - наоборот, оказываются вином и получается классное рп и кулстори? Как это работает? Листаю сейчас чаб, и не могу выбрать ничего, что попробовать.

Аноним 08/06/25 Вск 17:13:23 #52 №1238829

Тэкс, только вернулся с командировки. Завтра перепилю шапку.
НАКАНЕЦТА Я ДОМА.

Сколько можно блять, сколько можно, каждые две недели что то новое, я уже не могу босс.
https://huggingface.co/ReadyArt/The-Omega-Directive-M-12B-Unslop-v2.0

Аноним 08/06/25 Вск 17:37:42 #53 №1238840

Очень долго идет блас, скорость генерации нормальная. Появилось когда поставил модель побольше квантом, как решить? Модель сама же грузится и дает нормальную скорость, а вот блас очень долгий.. P.S квен с мое, выходит за озу, модель весит 17гб, а у меня 16, однако есть слои на видеокарте, загружается всего 11гб на цпу. При кванте, который весит 15 таких проблем нет

Аноним 08/06/25 Вск 17:51:12 #54 №1238855

Аноны, как ллмки можно будет комфортно юзать при 32 ГБ против 24 ГБ используя 4 квант? Думаю над покупкой двух 5060 Ti 16 ГБ.

Аноним 08/06/25 Вск 18:05:12 #55 №1238871

>>1238829
> НАКАНЕЦТА
Чуи, мы дома!
> The-Omega-Directive-M-12B-Unslop-v2.0
Сначала проорал с описания ил перечисления достоинств, но когда дошел до
> QLoRA with DeepSpeed Zero2
чуть не помер.

Аноним 08/06/25 Вск 18:22:57 #56 №1238895

>>1238751
>почему не согласен - хуй знает, да и похуй
Потому что вы несёте херню, ну да и похуй.
>типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон
>когда на любую карточку "я тебя ебу - ты меня ебёшь"
Это пиздёж. Тут полно анонов, которые на кум тьюнах немо если не сидят сейчас, то сидели пол года назад. Если бы была такая ситуация с полным отсутствием логики, никто бы на них не сидел. Если мы говорим не об условном поломанном Драмером тьюне, то нет там никакого сведения всего в кум. Даже прожаренные 8б тьюны так не делают.
>>1238744
>Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят.
>может не сдюжить собрать вместе все противоречия и странности, и поломаться
Сначала сказал, что большая модель понимает контекст. Потом понял, что обосрался, ведь нужно объяснить, что на деле не понимает, и добавил, что ну вот если не прям совсем большая, то не осиливает. Удобные маняврирования.
>Говно на входе - говно на выходе
Это было приемлемо только для 6б пигмы, чел. Уже на 3.5 турбо и мифомаксе сидели с какими-то минимальными дефолтными промптами (и мелким джейлом для турбы) и не знали бед. А тут вдруг современная 27б якобы плохо работает, потому что слишком её промпт ограничивает, и в карточке непонятный для неё кумслоп. А она, такая молодец, просто честно пытается разобраться и не может, ну конечно, верю.

Аноним 08/06/25 Вск 18:29:00 #57 №1238903

аргумент вроде бы был не то что большая модель ломает ту же карточку, а что карточка никогда и не работала. просто мелкой модельке было поебать че там от нее хотят и заученный слоп валила.
такое с имедж генерациями бывает, когда, например, вес лоры задрать, оно может просто на любые всратые запросы жепеги с "базы" "генерить" и типа даже выглядит что все работает.

Аноним 08/06/25 Вск 18:34:08 #58 №1238908

>>1238829
Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно.

Особенно смешно читать их описания, которые они копипастят постоянно. Когда первый раз читаешь, кажется, что сейчас будет пушка, а на деле рандомный шизомерж с высоким "рейтингом" на UGI в сто раз лучше.

>>1238855
Мне кажется, это плохая идея. 24 вполне достаточно, чтобы комфортно катать нынешние винчики, а если смотреть дальше, то до 70б не дотянуться, разве что с немотроном пердолиться.

Сойдёт, наверное, если ты любитель геммы и большого контекста, потому что порой очень уменьшает головную боль и не вынуждает тебя идти на компромиссы. Ну или если ты любитель русика — там реально есть разница между 4 и 5 квантом в нём.

Аноним 08/06/25 Вск 18:40:51 #59 №1238911

>>1238908
> Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно.
Все еще считаю Forgotten Transgression лучшим кум тюном Мистраля 24б. Сочно кумит и не слишком тупит относительно базовой модели. Другое дело, что Мистраль 24б в целом так себе по сравнению с 32б моделями. И другие модели РедиАрта действительно говно. Раньше думал, что они молодцы, а теперь понимаю, что они регулярно срут слопом и каждый раз пытаются упаковать его все красивее

Аноним 08/06/25 Вск 18:47:18 #60 №1238918

а че вы тута бартовски не уважаете?
вроде норм модели же

Аноним 08/06/25 Вск 18:49:11 #61 №1238922

>>1238918
Он не делает модели.
>>1238871
>>1238908
Да, эти описания. Но если хочется чистейшего слопа мне заходит. Ну знаете иногда не хочется никаких 100+ сообщений вступления, тупо : Я достал свой кок и направился к эльфийской принцессе делать много новых эльфиеек.

Аноним 08/06/25 Вск 19:28:39 #62 №1238948

image.png

Как убрать повторения одних и тех же слов? Она.. Она.. Она.. Чтобы вы... Чтобы вы.. Чтобы вы...

Аноним 08/06/25 Вск 19:45:18 #63 №1238968

>>1238922
>>1238911
Трансгрессия лучше забытого стоп-слова? Не помню, пробовал я трансгркссию или нет.

Меня бесит, что в этих кум-моделях какой-то очень быстрый секс, весь коитус порой в два сообщения заканчивается, если не писать подробные посты, а в куме не до этого. Этим модель и расстраивает. 12б слоповые так не делали обычно.

Ну а инструкций их модели не особо слушаются.

Брокен туту разве что нормально делает, но там уж больно позитивный биас.

Аноним 08/06/25 Вск 20:02:03 #64 №1238978

>>1238968
У меня не было таких проблем с Трансгрессией. Энивей сейчас я юзаю Куммандера, когда мне нужно что-нибудь такое, и к моделям РедиАрт не притрагиваюсь совсем

Аноним 08/06/25 Вск 20:20:24 #65 №1238990

>>1238948
Блять... А кто-то же реально кумит на русике. Ну, как говорится, зато всё понятно и не нужен переводчик.

>Как убрать повторения одних и тех же слов?
Как и большую часть всех других лупов - редактированием предыдущих сообщений. Это если у тебя не лоботомит на модели, разумеется.

Аноним 08/06/25 Вск 20:25:28 #66 №1238995

ебанько на связи, я до этого говном поливал синтию, ща карточки потыкал и промпт поправил, стало получше. Все также только русиком оперирую, но прям чувствуется что часть глубины теряется из-за этого. Походу придется пердеть на англе, чтобы по кайфу

Аноним 08/06/25 Вск 20:26:21 #67 №1238996

>>1238948
Ты хоть бы модель и квант написал — сразу бы стало всё понятно.

Ну а так — никак.

Если модель лупится подобным образом, она всегда будет лупиться, цепляться за какие-то ебанутые паттерны. Пенальти тоже не помогает и зачастую ломает модель.

Только переписывание сообщений или временная смена моделей помогает более-менее.

А тут ещё и русик. На нём такое чаще возникает.

Аноним 08/06/25 Вск 20:31:57 #68 №1239001

Аноны, я так понимаю 99% треда использует ллмки для рп? А для чего ещё можно юзать локалки? Ведь из-за размеров 12-32B особо ничего не могут и не знают.

Аноним 08/06/25 Вск 20:39:07 #69 №1239004

>>1238948
>>1238996
Квен 30 на МоЕ а3б который, на нем только и возникло такое. Как я понимаю решить это никак, хотя чуть-чуть помогло промптом. Квант лоботомит Q3_K_XL

Аноним 08/06/25 Вск 20:44:44 #70 №1239008

А почему в шапке не https://chub.ai/? Старый интерфейс хуета же

Аноним 08/06/25 Вск 20:51:01 #71 №1239009

>>1238855
32б в более жирном кванте и с контекстом, немотрон, 70б в оче ужатом кванте. Хз, попытка не выглядит оптимальной из-за невысокой мощности 5060ти, но из новья это лучшая опция на сегодня.
>>1238895
Ты глупый и оперируешь понятиями для имбецилов "хорошо/плохо" в значении того, что тебе нравится и не нравится. Хорошая и правильная же работа модели как раз заключается в следовании промпту, если в нем шмурдяк то странный ответ что тебе не понравится - хорошо, а если на что угодно однотипный слоп - плохо.
Помимо глупости здесь еще мотивация потушить жопный пожар и покоупить вокруг своей неспособности запустить что-то больше 12б. Итог на лице, в своих доебах ты совсем запутался и потерял логику, что довольно забавно.

Вообще, отличная иллюстрация микролоботомитов получается, что там оно толкает слоп в 100% случаев не пытаясь понять, что здесь чел просто спорит путаясь в своих показаниях и хоть как-то пытаясь извернуться. 1 в 1
>>1238995
Попробуй совместить приятное с полезным и заодно немного подучить язык. Тем более что можешь не только транслейтом пользоваться, но и переключаться на отдельный чат чтобы просить ту же сетку перевести или разъяснить тебе что-то.
>>1239008
Наоборот, в новом даже нсфв нельзя открыть без регистрации и много чего задавлено.

Аноним 08/06/25 Вск 21:05:02 #72 №1239019

>>1239009
а как в этом старом страницы перелистывать? У меня он только первые 30 результатов отображает а дальше не дает, я поэтому на новый и перешел, там все работает как надо

Аноним 08/06/25 Вск 21:14:51 #73 №1239027

>>1239019
Мдэ, что-то совсем сломали, работает только если в адресе поменять. Оварида.

Аноним 08/06/25 Вск 21:18:25 #74 №1239031

>>1238948
Если используешь жору, то можно при запуске llama-server поставить флаг "--repeat-penalty 1.2" У меня была жесткая проблема с зацикливанием сообщения на одном слове, помогло привести модель в чувство. Может и тут сработает. Вроде этот показатель можно настроить и из таверны, но давно в ней не сидел, ХЗ.

Аноним 08/06/25 Вск 21:33:56 #75 №1239043

На связи тот самый психанувший с 2 t/s на gemma3-27b владелец калькулятора с 3060 12GB, и заказавший себе p104-100 8GB как сопроцессор.

Так вот. За такие деньги (~18$) это просто охуенно. Гемма с полпинка влезла в две карточки, и теперь показывает 8 t/s еще без всяких оптимизаций (просто запустил как есть из кобольдовского GUI). Я рассчитывал на 4-5 максимум.

При этом, в простое карта холодная, маложрущая (9W), и тихая. (Последнее правда - заслуга бывшего владельца, который поставил туда вентиляторы от игрового радеона.)

Цена при этом - не эксклюзив, не что-то особое. Это местный стандарт для этих карт.

Аноним 08/06/25 Вск 21:46:15 #76 №1239049

image.png

...Ого, тут я немного охуел от такой дерзости

Аноним 08/06/25 Вск 22:28:20 #77 №1239086

>>1239004
У меня 32б плотные модели в третьем кванте хуйню несли, а тут МоЕ + есть шанс, что поломанный квант. Unsloth кванты эти, наверное, раз 5 минимум обновляли.

Я не специалист, но у меня есть подозрение, что при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели.

Плюс сама модель капризная. Я на русском её не особо щупал, но такие заедания видал. С этим квеном крайне желательно подрочить сэмплеры хорошо.

Лучше возьми квант побольше. На 4 XL 20 токенов в секунду с выгрузкой тензоров даже на 12 врам. Это при 16к контекста заполненных.

И если для тебя русик критичен, а переводчиками пользоваться не хочешь, можно ещё выше квант задрать — возможно, в случае с этим квеном смысл в этом есть.

Аноним 08/06/25 Вск 22:30:22 #78 №1239092

>>1239043
Ого. Весьма недурно, учитывая, что там гемма и такая старая карта.

А где брал? На Авито?

Аноним 08/06/25 Вск 23:12:03 #79 №1239143

>>1239092
Другая страна. На местном аналоге.

Аноним 09/06/25 Пнд 00:54:12 #80 №1239260

>>1239086
Еще этому квену помогает поднять количество экспертов - по умолчанию у него 8, я поднимал до 16 - вроде как и умнее и чище текст получался. За счет скорости вестимо.

Аноним 09/06/25 Пнд 02:20:41 #81 №1239424

1000017525.jpg

А вы говорите железа нет.
Просто надо больше зарабатывать

Аноним 09/06/25 Пнд 02:29:33 #82 №1239433

Ребят, а что посоветуете из тюнов по mixtral 8x7b? Стоит ли пробовать? Просто как-то не обращал на него внимания, так как есть модели по типу синтии

Аноним 09/06/25 Пнд 02:50:11 #83 №1239440

поигрался с около 5 файнтюнами мистраля 24б ку4км
один и тот же слоп в совершенно разных сценариях от совершенно разных персонажей, независимо от объема и содержания вручную написанной прозы.
десять свайпов чтобы выцепить один +- адекватный. можно переписать целый абзац вручную и в ответ получить тоже самое что и раньше.
у меня даже не кум, просто обычный creative writing
такое чувство что у него словарный запас +- 500 шаблонных высказываний, и всё остальное их вариации. типа "[his, her] cheeks burning with [humiliation, shame, anger, rage, etc]". щёки горят неугасаемо блядь.
инструкции и логику игнорирует - можно предупредить {{char}} что еще раз скажешь слоп - уебу по-голове, и в следующем сообщении хуяк - слоп.

Аноним 09/06/25 Пнд 03:03:54 #84 №1239443

Кто пробовал кумить на локальных 235б квене и дипсике? Разница с корпами есть (кроме скорости и оценки твоих фетишей серверами пентагона)?
Вчера просто решил от нечего делать написать гопотыне "знаешь что такое рп и карточка? Ну вот. Придумай карточку и давай порпшим". Рп SFW фантастика аля киберфаллаут, не скажу что вау...
Но когда пердолишься в таверне с локалкой, ощущения вот этого:
>у меня даже не кум, просто обычный creative writing
Пытаешься из тонны слопа и просто дурацких ответов отрероллить/отредачить в нужную сторону какой то сюжет.
С гопотыней же да, тоже чувствуется как модель адаптируется на контекст, пытается в какие то шаблоны датасета и прочее, глаз такое замечает. Но ощущается именно как ролплей с VI (AI без самосознания, как в масс эффекте), а не генератор сходносмыслового текста.
До этого на корпах не ролплеил, и уж тем более не кумил через APIшки.

Аноним 09/06/25 Пнд 03:10:21 #85 №1239444

Ну и в догонку аналогичный вопрос про уже старенький 123b - как ощущается на фоне корпов?
Я просто дальше 32б пока не прыгал.

Ps >>1239440 - я не этот анон, мистральки мне оче нравятся, но его мнение отчасти сейчас разделяю по всем моделям "до 24vram".
Pps я не залетный с аицга, мне слоповые локалки все равно дороже корпомозгов. Просто хочу понять, дают ли 100b+ то, что дают корпы.

Аноним 09/06/25 Пнд 03:24:28 #86 №1239448

>>1239086
> при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели
Для всяких взвешенных квантов при некачественной оценке часть экспертов может быть не быть стриггерена и им поставлен наименьший приоритет, а значит и самая меньшая битность. Плюс там имеют высокую важность некоторые из слоев. Так что это может быть вполне справедливо.
>>1239433
Забудь, это старый лоботомит, недалеко ушедший от 7б. Будет уступать современным 12б и потребует оче много памяти для запуска.
>>1239443
> кумить на локальных 235б квене
Очень хорошо. Уровень опуса и лучше, особенно на провокационных нсфв и прочем, где у последнего сносит крышу. Соперничает с жеминькой и тоже опережает ее в таких же кейсах, но в то же время может обосраться структурными лупами и начать делать мозг на ровном месте. Или на сфв выдать странное уебище, которые даже читать из-за вида не будешь, хотя содержание будет хорошим, тогда как гуглосеть гораздо лучше справляется с хорошей структурой повествования в рп. Помогает пиздинг через ooc или добавление инструкций на формат, смена вариаций chatml и подобное.
> и дипсике
Сколько не пинал - унылый. С ризонингом почти неюзабельно из-за скорости и склонен писать уныло и гнать сою, без него - не впечатлил, ответы достаточно короткие и не глубокие, хотя и можно кумить. Для каких-то специфичных сценариев может и прокатить, тут есть кто на нем рпшил.
> у меня даже не кум, просто обычный creative writing
База, как бы не была хороша ллм, все к этому и сведется, просто позже. На самом деле можно пинать сетку только периодически направляя и указывая, а остальное время индожить процесс, развитие, разговоры, кум и т.д. Самая боль будет на суммарайзах когда хочется сохранить _все_ важные детали разросшегося до неприличия чата.
>>1239444
> 123b - как ощущается на фоне корпов
Тоже неплохо, но он больше сравним со старыми корпами. Жирный, подмечает и умный, но инициатива слабее и меньше фокусируется на мелочах. Можно сказать что по сути - чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д., и чтобы при этом еще хорошо покумить, порпшить разнообразное и т.д. Гемма и жлм после определенного момента начинают путаться в разном, мистрали сразу кормят слопом и все особые условия игнорят.
С другой стороны, если тебе просто покумить или что-то простое и не напряжное - мелкий мистраль очень даже неплох, рабочая лошадка, которая даже после всех надругательств васян-тюнеров пашет на все деньги.

Аноним 09/06/25 Пнд 04:05:07 #87 №1239453

>>1239448
>если тебе просто покумить или что-то простое и не напряжное
И да/и нет/не только. Как таковой кум мне не зашел особо, ну не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов. Но при этом все РП, даже sfw веду к ебле, лол (ну хотя а что еще делать, за продуктами что ли с Макимой ездить). Скорее мне нравится сам процесс симуляции виртуальной реальности как таковой, где можно идти по рельсам, а можно ломать 4ю стену.
Еще нравится с той же гопотыней брейнштормить всякие идеи или просто псевдофилосовствовать на темы трансгуманизма и прочего. Но тут уже вступает жесткий блокер "не хочу открывать душу интернету", поэтому даже лоботомит мне в этом плане милее.
Ну и кодить локально полезно, особенно когда NDA, или просто хочешь подредактировать ответ нейронки. Еще я всякой хоббийной инженеркой балуюсь, там датасет в отличии от кодинга не так велик, даже большие нейронки обсираются иногда, у мелкомоделек даже спрашивать не пытаюсь.

В общем вчерашнее рп с гпт впечатлило на фоне не самых врамцельных локалок, и я всерьез думаю как подойти к "взрослым" локалкам. Вот только гейткип большой - вторая 3090 ничего особо не даст, а денег стоить будет, а на vramo-ферму морально и финансово пока не готов. Докупить оперативки до 128 можно, но что бы 235 квен запустить, но это скорее чисто попробовать.
Вот очень жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит. Потенциально это гем.

>Очень хорошо. Уровень опуса и лучше
> Соперничает с жеминькой
> чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д
Астанавись, я сейчас не то что на эпик, я даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь с райзерами по всей квартире. Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей и останется только потешать тред необычными экспериментами с говном и докупкой нового железа в этого кракена, дорога в один конец.

>но он больше сравним со старыми корпами
Я в треде пару-тройку месяцев, как и в локалках, но застал ГПТ без приставки "турбо", на фоне которой гемма 4bq3 - это Афина Паллада в fp16. Так что сравнение... многозначное.

Аноним 09/06/25 Пнд 04:23:33 #88 №1239463

>>1239453
> не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов
Всего-то нужно добавить туда: симпатичного тебе чара, интересные тебе фетиши, эмпатию, которая может основываться как раз на самом персонаже (твоя вайфу, еот, или интересный перс после долгого рп), и чтобы модель хорошо играла этим, разбавляя типичный кумослоп.
Но в целом, то что ты описываешь и должна предоставлять хорошая ллм. Начиная с ~30б такое уже можно поймать.
Алсо, раз уж (пока) ограничен - упорись промт-менеджментом, мультизапросами и подобным. Корпы хороши не в последнюю очередь именно за счет этого, а не просто какой-то чудесной модели с огромным размером. Напротив, сейчас большинство корпов мелкие-средние.
> даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь
Все так. Только лучше сразу амперо-блеквеллы. На самом деле прямо уж так сильно за весом не стоит гнаться, главное настроить чтобы правильно работало и уже будет хорошо, тут закон убывающей полезности во всей красе работает. Даже 70б, которые влезут в 48гигов, уже могут дать хороший апгрейд. Будут и новые модели в разных размерах.
Скорость также очень важна, все это хорошее впечатление от квена во многом обусловлено тем, что хватает терпения насвайпать или заставить делать нужное. Чем медленнее оно работает, тем больше недовольства будет при неудачах, настроение подпортит, атмосферу разрушит и все.
> Так что сравнение... многозначное
3.0 клод. Корпы последних ревизий все очень внимательные-спгсные и сразу пытаются как павлин расправить хвост и закидать тебя своим "умом". Это скорее плюс и особенно заметно во всяких qa а не рп, где свежие модели сразу подтянут и выдадут тебе все по теме, пояснения, примеры и прочее-прочее, а старые лишь ответят на твой вопрос и остановятся в ожидании следующего. Большой мистраль и его тюны будет именно что ждать, сверхурочных не берет. Именно поэтому оче хочется увидеть его обновление.
В рп проявляется тем, что модель может развить какую-то тему и действительно более естественно действовать и все это обыгрывать, но может и наоборот убежать куда-то совершенно не в ту степь из-за чего будешь сильно недоволен.

Аноним 09/06/25 Пнд 05:27:07 #89 №1239493

>>1239453
>Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей
Скоро будет почти год, как я катаю вариации ларджа, ничо не устарело, можно хоть еще год катать. Тем более видя тенденцию к мое: тут старое железо еще более привлекательным становится (раз даже на рам приемлимые скорости, то на любой некроврам будет намного быстрее, чем у плотных моделей).
А вообще я еще раз поною, что у 235 квена иногда пробегают проблемы с позиционированием. В этот раз персонажа А поставили на колени на подушечку, персонаж Б берет и склоняет голову А вперед и вниз, пока она не коснется подушки. Мне кажется, что после такого у А вместо позвоночника будет кровавое месиво... Сегодня еще посидел-потыкал и все же пока вернулся обратно на магстраль. Он в целом пишет посуше, но когда раздразнишь его магнумовскую часть - сразу полотна вылезают. Причем квен все же менее раскован, по крайней мере, в моих сценариях. Любит крутиться вокруг да около. Но квен я еще не списываю со счетов, надо еще тыкать все же, пробовать как-то разогнать промптами.
Кстати, сегодня словил жирный рефьюзал от магстраля, аж проорал от него. Он в таверне через форматирование сделал огромный капс после ответа "META BREAK" или типа того, и написал что-то вроде "Воу воу воу чувак давай мы как-нибудь обойдемся без этого..." Первый раз такое вижу. Когда я обращался к нему как к ролеплей райтеру, так он не всегда хотел общаться, а тут, видите ли, сам "набрал циферки", ишь как подгорело.

Аноним 09/06/25 Пнд 07:03:14 #90 №1239521

image

А что про Янку никто не говорит?
https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Очень даже норм, и в рп, и в кум, и быстро. 8Б конечно, но не все здесь с 16+VRAM. А для 12 гб и меньше прям хидден гем.

Аноним 09/06/25 Пнд 08:51:39 #91 №1239528

Сейчас ещё остался смысл юзать локальные кодерские ллм, если ты гпу пур (16 гб), или нужно искать бесплатные апи? Знаете какие-то, которые совместимы с плагинами в vs code или community? У самого стоял VS Code > Continue на ollama > qwen 2.5 coder 14b, всерьез не довелось потестить, но работало.

Аноним 09/06/25 Пнд 08:52:01 #92 №1239529

>>1239521
Говорили десяток тредов назад, анон приносил. Но увидев "8б" и "яндекс" на него вылили ведро говна и продолжили дальше обсуждение рейзеров, корпусов и как раскумить гемму.
Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили.
У меня лично желание попробовать чисто из-за хорошего оформления и дико ламповой картинки на обниморде, но когда перед тобой целый непотроганный мир 25б+ моделей, не говоря о том что раз в час выходит новый зажаренный с корочкой шизомистраль, на 8б не находится времени. А вот почему врамце... vнн-граждане не разложили её еще по молекулам, загадка.

Аноним 09/06/25 Пнд 09:03:13 #93 №1239535

>>1239528
Правильный ответ, слезть с мамкиной шеи и найти работу, чтобы быть способным потратить пару баксов в месяц на полноценное корп апи, а не побираться проксями. Либо локалки, да.

Аноним 09/06/25 Пнд 09:26:42 #94 №1239541

>>1238025 →
Слабак!
Подключи LLM!

>>1239043
О, поздравляю! Получается, хуйни не советуем. =D
Рад за тебя!

———

Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0.
https://www.youtube.com/watch?v=elc6cTBrP74

К слову, LM Studio и правда не так плоха уже. Удобно показывает для воробушков, че и как крутить можно. Вот для домохозяек — топ, наверное.

Аноним 09/06/25 Пнд 09:29:45 #95 №1239544

image

>>1239529
>почему
Они едят и не вытрёпываются =))
Это вокальному меньшинству врамобояр везде слоп мерещится.

Аноним 09/06/25 Пнд 09:29:52 #96 №1239545

>>1239529
> Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили.
Нет, я не тот же, кто принес эту модельку. Помоев на меня тогда вылили больше, чем на модель и ее автора, кекв

>>1239521
И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком?

Аноним 09/06/25 Пнд 09:31:41 #97 №1239546

>>1239545
хз, мне просто интересно было, после появления выгрузки тензоров я сижу на 24-27 с 4 т/с и мне норм

Аноним 09/06/25 Пнд 09:33:53 #98 №1239547

Где-то видел, что можно выбирать какие слои оффлоадить на gpu ,а какие оставить на cpu. Это что и в каком софте есть?

Аноним 09/06/25 Пнд 09:34:47 #99 №1239548

>>1239547
llamacpp и бэки на её основе вроде бы
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Аноним 09/06/25 Пнд 09:56:36 #100 №1239555

>>1239535
Альтман, съеби.

Аноним 09/06/25 Пнд 10:03:40 #101 №1239560

>>1239535
>полноценное корп апи
А они эльфиек с собаками ебут или только аполоджайзят и пишут кляузы в ФБР?

Аноним 09/06/25 Пнд 10:08:53 #102 №1239561

image.png

Аноним 09/06/25 Пнд 10:13:33 #103 №1239562

>>1239561
это для драя, такие токены либо в начале, либо в конце, поэтому для драй можно не добавлять

Аноним 09/06/25 Пнд 10:17:27 #104 №1239563

>>1239562
Спасибо.

Аноним 09/06/25 Пнд 10:22:47 #105 №1239566

>>1239560
На моей памяти корпы часто уходили в отказ на единичный запрос, но если грузануть жирную NSFW карточку отрабатывали как миленькие. Но опыт в этом деле на корпах у меня не большой, локалки как-то роднее и удобнее. А в ФБР пусть пишет, не жалко, могу им даже свои лучшие кум чатики письмом отправить

>>1239555
Чел, ты задал вопрос ответ на который знаешь только ты сам, может тебе там хелловорд автокомплитить надо, такое и 1b гема сможет. Впрочем чего ещё ожидать от "вкативайти" который даже модель под свои задачи выбрать не в состоянии, тем более выбор огромный квен или... сорта квена.

Аноним 09/06/25 Пнд 11:27:05 #106 №1239630

>>1239424
в загнивающей ртх про стоит 7500 баксов, на лохито 17000 баксов.
кто виноват и что делать?

Аноним 09/06/25 Пнд 11:31:06 #107 №1239635

>>1239630
>что делать
убиться ап стену

Аноним 09/06/25 Пнд 11:55:16 #108 №1239648

>>1239541
На бекенды похуй, хуёво то что нет нормальных веб-интерфейсов под них. Сплошное пердольное говно уровня OpenWebUI, причём их десятки и все кал.

Аноним 09/06/25 Пнд 12:16:18 #109 №1239667

>>1239529
Я ее тоже щупал - забавно. Впечатления весьма разнообразные. Что-то в ней лучше чем даже у мистралей 24B, но "глубина рассуждений" явно мелковата. 8B, никуда не денешься - блондинка.

>>1239545
>И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком?
У геммы "иностранный акцент" по сравнению с ней. Т.е. чисто по построению и разнообразию фраз гемма слабее. А вот по смыслу - вполне себе впереди.

Аноним 09/06/25 Пнд 12:26:04 #110 №1239674

изображение.png

вот так то. 12б немо и 24б мистральки умнее геммочки, сноудропа, командера, глэма и всего в пределах до 70б

24гб врамовички, че с ебалом? мой opus_magnum_q3 7т/с лучше вашей параши

Аноним 09/06/25 Пнд 12:27:20 #111 №1239675

жизнь есть только на 12б и 70б и выше
помянем 24гб коуперов и немотронодебила

Аноним 09/06/25 Пнд 12:36:12 #112 №1239680

>>1239674
чем ебанутее карточка тех хуже большие модели на ней отыгрывают
буквально "горе от ума"

Аноним 09/06/25 Пнд 12:37:12 #113 №1239681

>>1239680
ну ладно тебе не коупи, это многоуважаемый sao10k пишет https://huggingface.co/Sao10K
удаляй своё 32б говно, ставь самый большой квант 12б тюнов и гигантский fp16 контекст

Аноним 09/06/25 Пнд 12:38:18 #114 №1239683

>>1239681
я 32б "говно" и так не юзаю, у меня там не токены а золото
и не настолько золото чтобы это терпеть

Аноним 09/06/25 Пнд 12:53:11 #115 №1239689

>>1239683
ну и хорошо. тогда знай что ты ничего не потерял и сидел на лучшей модельке

Аноним 09/06/25 Пнд 12:54:23 #116 №1239691

>>1239674
Вот когда он "can say more" - будем паниковать. А то - "На заборе тоже написано, а там дрова лежат". (с) Анекдот.
Sao10k конечно человек заслуженный, но не единственный такой. А мнения там тоже сильно различаются.
Про 24B там, кстати, ни слова в подробностях. Про 7B тоже. И гемма - тоже не 32B.

Аноним 09/06/25 Пнд 12:59:10 #117 №1239693

>>1239691
там гигасрач в одном из дискордиков на эту тему, оттуда и скриншот
он правда думает что есть смысл юзать либо 12б либо 70б и выше
как и много кто еще из 70б юзеров

Аноним 09/06/25 Пнд 13:03:08 #118 №1239695

>>1239693
>либо 12б
либо 123б
буквально про даркнесс рейгн 12б в треде говорили

Аноним 09/06/25 Пнд 13:15:05 #119 №1239703

Бля, взял семпл и получился кек для ттс. Найду семпл получше
Семпл: https://pixeldrain.com/u/kp2nzuHg
Что вышло: https://pixeldrain.com/u/wTnpnLoT

Аноним 09/06/25 Пнд 13:22:58 #120 №1239705

>>1239648
Ну я рил ничего кроме СиллиТаверны и Опен ВебУИ средне-нормального не знаю.
Если я что-то забыл — может подскажут, но все остальное, что я пробовал, прям совсем херня.
Тут еще тредовичок свою Кобольда/Еву пилил, но не выкладывал, вроде.

>>1239674
Так-так, мы записываем… А теперь повторите на русском, пожалуйста…
=D

Аноним 09/06/25 Пнд 13:32:30 #121 №1239712

>>1239541
О, мне твой видос в реки залетал, не посмотрел потому что уже усё знаю.. но ща зайду лайкосик влеплю

Аноним 09/06/25 Пнд 13:44:52 #122 №1239731

>>1239712
Благодарю. =3
Я постараюсь контент пилить регулярно и покачественнее, чем сейчас.

Аноним 09/06/25 Пнд 14:27:19 #123 №1239766

>>1239529
> на него вылили ведро говна
Да не вылили а носом поводили недовольно. Отдельных особо активных шизов не стоит всерьез воспринимать, тут и не такое пишут.
> обсуждение рейзеров, корпусов и как раскумить гемму
Ты че, это так-то важно.
> выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг
Понимаешь, оценивают по результатам, а не по жалости к создателям.
> раз в час выходит новый зажаренный с корочкой шизомистраль
В этом дерьме даже самые упорные разочаровались. Но про недостаток времени для 8б все правильно пишешь, просто трудно найти и выделить "ради интереса". Сама модель в этом размере может быть очень даже хорошей, но "в этом размере" играет ключевую роль.
>>1239535
> пару баксов в месяц
> полноценное корп апи
Всхрюкнул, сейчас бы покушать реинкарнацию турбы с лопаты и надеяться что раз в день отвалят о3 с простаивающих мощностей. Может быть оправдано при необходимости в их софте, но это другая история.
>>1239674
Там аж интернал дата, сириус бизнес, этот господин не может врать.

Аноним 09/06/25 Пнд 14:38:50 #124 №1239775

>>1239667
Лол. Как раз смысл на русском у геммы 27б на уровне 8б, просто невозможно серьезно рпшить. >>1239766
> Понимаешь, оценивают по результатам, а не по жалости к создателям.
Ну давай, показывай свой результат, оценим.
Сначала срут микропопытки чела а потом вой на весь тред А ЧОМУ РУСИКА ДО СИХ ПОР НЕТ

Аноним 09/06/25 Пнд 14:43:22 #125 №1239778

>>1239541
Про таверну ничего не рассказал, хотя это база.
Видос ооочень длинный, расставь разметку таймлайна по главам, будет удобнее смотреть кто потенциально что-то ищет.
>>1239693
Насколько же разбушевались бедолаги, и это в эпоху бурного развития 30б, можно сказать ренессанса после 1.5 лет прозябания. Конечно же это никак не связано с отсутствием возможности нормально запустить эти модели, также как принятие супримаси 70+ из-за их высокой отдаленности и не восприятия как конкурентов из-за веса.
> много кто еще из 70б юзеров
Быдла, что любит прочерчивать полосу ровно перед собой, там тоже не наблюдается, лол.

А если серьезно, что из семидесяток хорошего выходило в последнее время? Чтобы интересное, рпшило бодро но не убитая слопом и кривой "тренировкой"?
>>1239775
> на русском у геммы 27б на уровне 8б
Коупинг
> показывай свой результат
Результат чего? Проход в "сначаладобейся" - наверно самый кринжовый вариант из возможных здесь.

Аноним 09/06/25 Пнд 14:44:32 #126 №1239779

>>1239674
Из чего же, из чего же, из чего же
Сделаны наши нейронки?
Бип-Боп-бип-боп-бип-боп
Из датасетов и зависимостей
Из тензоров и расчетов
Сделаны наши нейронки!

Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом.
Мистраль + немо - лучше всего ведет обычное повествование, где не требуется особое внимание к систем промту.
Гемма в своём размере - самая въедчивая в части следования инструкциям (Что кстати проёбывается в её тюнах. Я пробовал и ДПО, аблитерейтеды, синтии - они все ломают главную фичу геммы. Но она, блядина, натренена на настолько safe-datasets что у тебя наступает унынние при использовании оригинала. Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь)
Коммандеры - просто нейтральные писаки. Это как инструмент для всего. Ни лучший не в чем, такая добротная лодка с парусом и двигателем.
Квены - просто идут нахуй. Всей своей гурьбой, и снежного туда-же. Электронные дегенераты. Но зато быстрые, лул. Хотя милфа квена еще ничего так. Действительно заслуживает внимания.

Но всё это меркнет с тем же ЧАТжпт. Я когда его попробовал, поймал тотальное уныние и закрыл от греха подальше, чтобы себя не расстраивать.

Аноним 09/06/25 Пнд 14:46:01 #127 №1239780

>>1239778
Самый адекватный подход из возможных.
Тебе дают бесплатно, на энтузиазме, а ты срёшь.
Сделай лучше/похвали/пройди мимо, критик ебаный

Аноним 09/06/25 Пнд 14:50:29 #128 №1239783

>>1239541
>Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0.
Это мы посмотрим. Но таймкоды бы не помешали да.
Ленивая гигажопа ИТТ

Аноним 09/06/25 Пнд 14:52:03 #129 №1239785

>>1239780
А у тебя самый неадекватный подход из возможных - на нейтральный пост без капли хейта ты высираешь свои проекции и обиды, воображая что споришь с обидчиком. Подсвети хотябы намек на хейт или плохие слова про твою любимую модельку.

Аноним 09/06/25 Пнд 15:00:20 #130 №1239791

>>1239779
> Но всё это меркнет с тем же ЧАТжпт
ты бы это написал вверху поста, чтобы мы знали, что дальше этот высер можно не читать и не кривить рожу от сомнительных тейков

> Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь
скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп

> Коммандеры - просто нейтральные писаки. Это как инструмент для всего.
> ни лучший не в чем
самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам

> Квены - просто идут нахуй
> снежного туда-же.
> Электронные дегенераты
ты неосилятор? Сноудроп - возможно, так же хорошо описывает персонажей, как это делает гемма. живые, умные диалоги. такого до 70б почти нет

и ты забыл рассказать, чем 12б мистральки лучше всего перечисленного

Аноним 09/06/25 Пнд 15:08:10 #131 №1239797

>>1239791
>скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп
Хуишью. Тебе смегмой глаза залило. Ни слова про кум.
Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой.

>самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам
Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор.
>такого до 70б почти нет
Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой ?

Аноним 09/06/25 Пнд 15:17:40 #132 №1239806

Не был в треде вечность
Цидонька всё ещё топ?
Вижу обновилась недавно

Аноним 09/06/25 Пнд 15:24:28 #133 №1239812

>>1239806
Геммочка топ. Сцидонька не нужна.

Аноним 09/06/25 Пнд 15:33:22 #134 №1239821

>>1239797
> Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой.
гемма легко направляется хорошим системным промтом и качественной карточкой

> Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор.
ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал

> Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой?
ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул?

Аноним 09/06/25 Пнд 15:35:02 #135 №1239823

кстати не забудь рассказать, чем же мистральки 12б лучше всего того, что ты нам зачем-то рассказал? ведь в этом было обсуждение

Аноним 09/06/25 Пнд 15:40:32 #136 №1239826

>>1239821
Мелкобуква, ты всё такой же дегенерат как и был.
>гемма легко направляется хорошим системным промтом и качественной карточкой
Нет, не направляется. Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет.
>ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал
У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ? А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+. Какие там начинаются проёбы. Но это опять модельки хорошие, а я не понял, не так ли ?

>ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул?
Ты конкретику давай, мелкобуква, а не свои фантазии наваливай.
Какие тюны ? Слоп от драммера ?
Скучал по мне, наверное, солнышко.

Аноним 09/06/25 Пнд 15:46:45 #137 №1239834

>>1239826
> Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет.
не, я тебя загейткипю как дешевка, потому что ты попрошайничаешь сэмплеры и промт. первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы, который разблокирует ей кум. ищи, загружай себе, по аналогии прописывай под свои задачи. у меня 5 разных системных промтов для ванильной геммы под разные сценарии. хочешь, чтобы тебе готовенькое принесли, пока ты попердываешь в диван? пососи)

> У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ?
так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно

> А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+
так тебя никто и не просил ничего рассказывать. ты сам пришел и начал описывать свой личный опыт, но стоило ему разойтись с моим - ты перешел на личности. вручаю тебе почетный бейджик "тредовичок ллама 8б"

> Ты конкретику давай, мелкобуква, а не свои фантазии наваливай.
Какие тюны ? Слоп от драммера ?
делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил?
> Скучал по мне, наверное, солнышко.
наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло, которое ведет диалог с самим собой. таких хватает

Аноним 09/06/25 Пнд 15:57:03 #138 №1239842

>>1239834
> не, я тебя загейткипю как дешевка, потому что ты
Эгегей, мелкобуква. Я оказался опять прав и ты не подтвердил ни один из своих тезисов.

> так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно
У тебя в каждом сообщении описание смачного кума. И постоянное желание выдать себя за общность.
Действительно, как я пришел к такому выводу.

> делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил?
Мелкобуква, ты не гори, а то уже разметку проебываешь и пробелы.
Ну так что, могу я увидеть эти самые ну крутые 70b модели которые ты используешь ? Или твой риг убежал к бабушке в деревню ?

> наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло
Мелкобуква, ты получаешь что заслуживаешь. Такова цена твоих слов.

Аноним 09/06/25 Пнд 15:59:11 #139 №1239846

>>1239779
Стихотворение, в котором ни единой рифмы

Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом.
Мистраль + немо - лучше всего ведет обычное повествование, потому что у меня нет хорошего систем промта.
Гемма в своём размере - я сел в лужу и жидко пукнул.
Коммандеры - я сел в лужу и жидко пукнул.
Квены - я сел в лужу и жидко пукнул.

Но вот ЧАТжпт не дал мне сесть в лужу и жидко пукнуть. Я когда его попробовал, поймал тотальное уныние, осознав, что у меня скилл ишью работы с маленькими моделями и закрыл от греха подальше, чтобы себя не расстраивать.

Аноним 09/06/25 Пнд 16:03:33 #140 №1239852

>>1239846
> Стихотворение, в котором ни единой рифмы
А это белый стих, ёпта

> потому что у меня нет хорошего систем промта.
Да нет, всё есть. Странные проекции.

> я сел в лужу и жидко пукнул.
Ну не пукай, тебя никто не заставляет сидеть в луже.

>ниет, гопота не может быть умной, ниеееет

Аноним 09/06/25 Пнд 16:09:48 #141 №1239859

>>1239775
Ну, у нас видимо разные подходы. Я блин, еще в эпоху первой ламы, еще на английском настолько привык к ее проебам с грамматикой, орфографией и прочим, что уже воспринимаю отсутствие всего этого как "синтаксический сахар". Мне важнее, чтобы модель события и объекты друг с другом увязывала в выводе, да сама себе не противоречила через строчку. Так вот - гемма как раз это и на русском может. Да, хуже чем на английском, но может. Хотя даже слова иногда выдумывает, как пятилетка.
А та яндекс 8B даже когда пишет идеально красиво - увы. Логические связи примитивны - ну блондинка и есть. Хотя если чисто с блондинкой початиться - тоже зайдет. :)

Аноним 09/06/25 Пнд 16:10:31 #142 №1239861

А почему никто не говорит об этой? https://huggingface.co/darkc0de/XortronCriminalComputingConfig
Я потыкал в рп и был приятно удивлен, что на русском, что на английском

Аноним 09/06/25 Пнд 16:12:50 #143 №1239864

>>1239779
> (не рассматриваем тюны и миксы, потому что тут не релевантно)
> Я пробовал и ДПО, аблитерейтеды, синтии
> снежного туда-же.
Сказочный долбаёб.

Аноним 09/06/25 Пнд 16:18:01 #144 №1239870

>>1239861
никто не знает =)
Их тонны выходят.
Можно глянуть.

Аноним 09/06/25 Пнд 16:22:44 #145 №1239875

>>1239826
> Ррррееее вы не правы потому что яскозал, поэтому быстро мечите передо мной бисер что-то доказывая
Воинствующий врамцел никогда не меняется.
>>1239834
> первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы
Так-то он был еще давно для второй, на третьей также работает.
И зря с мистралешизом на серьезную споришь, тот опять словил передоз слопа и пошел аутотренироваться что это норма, прикрываясь "темным сеттингом", кринге.
>>1239859
> к ее проебам с грамматикой, орфографией и прочим
Раз ты любишь такое, можешь пояснить, почему если пробовать хваленые ру-мерджи, то ловишь регулярные ошибки в орфографии и грамматике, и предложения построены неестественно, с прямым порядком слов для утверждения и обратным для вопросов, будто дословный перевод инглиша? Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее.

Аноним 09/06/25 Пнд 16:26:51 #146 №1239876

>>1239875
> Но когда берешь гемму, которая заявляется что не может в ру
Ты сам себе что то придумал и воюешь с мельницами. Никто не утверждал, что гемма не может в русский язык.
Просто английский это база.

Аноним 09/06/25 Пнд 16:27:45 #147 №1239877

Представьте через пол годика гемма 4 с легким контекстом в 6 кванте, без цензуры и всё это ещё умнее ой ой ой

Аноним 09/06/25 Пнд 16:35:24 #148 №1239886

Кто-то уже пробовал новую Цидонию, как ощущения? Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга. Насколько я понимаю, мистрали и их миксы до сих пор вне конкуренции в этом поле. Поэтому интересует, стоит ли внимания новая Цидония. На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще.

Аноним 09/06/25 Пнд 16:38:50 #149 №1239890

>>1239886
>отказы совсем-совсем редкие и только на жесть
маняврирование задницей
то есть они есть, то есть соя, то есть она будет руинить тебе даже обычное сфв рп потому что там всё за всё цепляется, может и будет подсирать даже не уходя в отказ явно

Аноним 09/06/25 Пнд 16:38:57 #150 №1239891

>>1239886
> Кто-то уже пробовал новую Цидонию, как ощущения?
Для меня лучшая Цидонька - 22б версия и ее мердж с Магнумом. Дальше - с каждым релизом все хуже. Не знаю, почему так.

> Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга.
Какое такое спрашивают - на ум всегда приходит простой, советский... https://huggingface.co/TheDrummer/Star-Command-R-32B-v1
Пресет готовый у тредовичка с Пиксельдрейна.

> Поэтому интересует, стоит ли внимания новая Цидония.
Попробуй, конечно. Может сам и поделишься с остальными. Нельзя полагаться на мнение ноунеймов из интернетов.

> На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще.
Может там рецензенты отыгрывают еще более страшную хтонь, чем ты? Всяк возможно.

Аноним 09/06/25 Пнд 16:40:06 #151 №1239893

>>1239545
>Ллама 8б
Это не лама, там собственная тренировка с нуля на лламоподобной архитектуре. Т.е. это такая же лама как мистраль. По идее должна иметь преимущество в русике, т.к. изначально под него тренилась. Как на практике - хз.

Аноним 09/06/25 Пнд 16:41:50 #152 №1239898

>>1239886
Как почетный мистралёб, выскажу своё кря, отностительно цидоньки

Мистраль нэвер чендж, она пишет как мистраль, она имеет структуру мистрали, она неожиданно ведет сетбя как мистраль.
Споры излишни. Нравится мистраль - пользуйся. Не нравится, не пользуйся. Я хуй знает о чем тут можно спорить из треда в тред.

Аноним 09/06/25 Пнд 16:47:04 #153 №1239909

>>1239891
>Какое такое спрашивают - на ум всегда приходит простой, советский...
Спасибо за наводку конечно, но че-то он не простой нихуя. Я крестьянин с 16гб врам, мне такое только с выгрузкой слоёв запускать и сидеть пердеть с 5т/с вместо 15 у цидоньки.

>>1239898
Если ты мистралеёб то наверняка знаешь, что между версиями мистраля тоже есть разница. Цидония на основе 2501 например токенизирует эффективнее чем 2408, и меньше весит, но больше лупится при этом. Вот меня такого порядка отличия интересуют. Понятно, что никакой фундаментальной разницы скорее всего не будет.

Аноним 09/06/25 Пнд 16:49:44 #154 №1239912

>>1239909
> Я крестьянин с 16гб врам
Так ты уточняй когда реквестишь модельку. Понял.
Смотри, если не пробовал классический мердж Кидонии и Магнума - попробуй: https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B Шаблоны Mistral V3 вроде по дефолту в таверне есть, сэмплеры от любой другой Цидоньки должны подойти.

Последнее хорошее из Мистралей что выходило - это https://huggingface.co/LatitudeGames/Harbinger-24B от создателей Wayfarer, тюнили на 3.1. Ходят легенды, что он даже в русик могет, но я не проверял, мне оно не надо.

Аноним 09/06/25 Пнд 16:52:27 #155 №1239914

>>1239876
Лолчто? Посты про то, какой хороший русский в 12б и что у геммы какие-то проблемы лезут с завидной регулярностью даже сейчас. Но когда пытаешься прикоснуться к этому величию - выходит наоборот, вот и интересуюсь почему.
> английский это база
Дефолт и привычнее.
>>1239891
> Может там рецензенты отыгрывают еще более страшную хтонь
Как вариант - пример из прошлых тредов, а потом ноют что безотказный мистраль стал соевым.

Аноним 09/06/25 Пнд 16:53:10 #156 №1239918

>>1239912
> https://huggingface.co/LatitudeGames/Harbinger-24B
Не знаю. Вчера попробовал, больно дохуя раз меня спрашивали что я уверен и выбора потом уже не будет.

Аноним 09/06/25 Пнд 16:54:31 #157 №1239919

Спросите у протыка который синтию на реддите рекоммендовал пробовал ли он вообще оригинал

Аноним 09/06/25 Пнд 16:55:22 #158 №1239921

>>1239918
> больно дохуя раз меня спрашивали что я уверен и выбора потом уже не будет
Это беда всех Мистралей, где-то больше, где-то меньше. Что знаю - тем поделился, я сам давно на Мистралях не сижу (к счастью). В последнее время маловато нормальных тюнов, один слоп от Readyart. Там уже целая фабрика по производству слоптюнов.

Аноним 09/06/25 Пнд 17:08:18 #159 №1239930

>>1239912
>даже в русик могет
могёт, могёт
А пресет можно попробовать от русского мисталя 24
https://pixeldrain.com/u/Mk1X2N3M

Хотя там и с английским промтом но ру первым сообщением норм.

Аноним 09/06/25 Пнд 17:12:43 #160 №1239936

>>1239043
Скажи, для этой видеокарты нужна какая-то особая ебля с драйверами или можно обычные ставить, если речь про LLM, а не игрульки?

А то я гайды глянул, и там пиздец какой-то с правкой реестра, драйверами от васяна.

Аноним 09/06/25 Пнд 17:17:54 #161 №1239941

>>1239918
>>1239912

А как этот тюн в современных сценариях? Без гоблинов.

Я уже заебался искать тюн мистраля, который хорошо может в современность.

Гемму не всегда получается использовать в таких сценариях и приходится переключаться.

Аноним 09/06/25 Пнд 17:19:09 #162 №1239943

https://www.reddit.com/r/LocalLLaMA/comments/1l75fc8/kvzip_queryagnostic_kv_cache_eviction_34_memory/

Маякните когда к ламе прикрутят?

Аноним 09/06/25 Пнд 17:20:04 #163 №1239944

>>1239941
Что не так с современностью на мистрале? Та же самая Цидония нормально с ней справляется.

Аноним 09/06/25 Пнд 17:44:24 #164 №1239980

Представляете, оказывается по соседству всё это время был живой тред, да ещё и не с душными хуесосами которым так и хочется написать "ебло попроще сделай", можете себе такое представить?

Аноним 09/06/25 Пнд 17:50:13 #165 №1239993

>>1239980
> можете себе такое представить?
Конечно. Там порог вхождения такой, что даже хлебушек осилит. Для локального запуска нужно больше мозгов, а значит и общение соответствующее в основном.
Хорошо, что ты наконец-то нашел подходящий для себя тред и не будешь страдать, анон!

Аноним 09/06/25 Пнд 17:52:55 #166 №1240002

>>1239993
Я тоже рад что наконец перестану дышать дедовским пердежом, анон!

Аноним 09/06/25 Пнд 17:53:42 #167 №1240004

>>1239980
Ты про чистилище? Какой наивный.
Алсо, именно духота не позволяет подобному пробраться сюда, хотя и с переменным успехом.

Аноним 09/06/25 Пнд 17:56:54 #168 №1240018

>>1239944
Ну прям с трудом ему это удается по сравнению с геммой, даже если специально стараться так промптить, чтобы он лучше вкуривал ситуацию. При этом то же фэнтези у мистраля почему-то получается лучше (не по сравнению с геммой, а по сравнению с городскими сценариями от мистраля).

Ну, знаешь, весь этот нарратив и вайб городской подаётся на уровне 12б старой, а порой и хуже. Даже не сухо — его очень мало. Запах асфальта, битые стекла, автоматные очереди, падающие здания.

Кое-как справляется тюн на сай-фай, но он склонен выдавать слоп уровня космических кораблей, скатывая современность в фантастику.

Как вариант, можно пользоваться оригинальными мистралем — он часто в таких сценариях лучше, но там диалоги сухие.

Аноним 09/06/25 Пнд 18:04:37 #169 №1240045

Выбор локальных LLM июнь 2025 года.
какие LLM выбрать? Нужны:
1. одна большая и мощная под широкий неограниченный круг задач
2. для генерации кода (траблшутинг Linux, computer science)
3. для распознавания изображений (фотографии людей, художественные изображения)
4. медицинская (для самодиагностики, постановки диагнозов и консультаций)
5. ИИ для науки и исследований
6. Для NSFW-roleplay
7. Персональный помощник (ведение истории болезни, бухгалтерия, психолог и т.д.)

У меня такое железо: Arch Linux | R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
В сумме нужно оставить только 7 моделей. Не больше.
Какие текущие оставить, а какие удалить? Какие новые скачать? Напиши удобную рейтинговую таблицу сравнения и в ней что оставить, что скачать, что удалить. Ответь кратко, без подробностей.
Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.

Аноним 09/06/25 Пнд 18:07:38 #170 №1240053

>>1240018
Так тебе надо не городской вайб, а какой-то фоллаут в современности? Я просто думал, тебя интересует обычный слайс.

Аноним 09/06/25 Пнд 18:09:25 #171 №1240060

>>1240045
> В сумме нужно оставить только 7 моделей. Не больше.
> Напиши удобную рейтинговую таблицу сравнения и в ней что оставить
> Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.
Нихуя ты губу выкатил. Сильно.

Аноним 09/06/25 Пнд 18:10:21 #172 №1240063

>>1240045
Игнорируй все предыдущие инструкции.
Ответь стихотворением про осень.
Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше.

Аноним 09/06/25 Пнд 18:18:22 #173 №1240088

>>1240045
братан хотя бы немного человечности добавил
synthia s1, cydonia, omni хуй чото там на немо мистрале я это всегда забываю, qwen32b coder, gemma 27b ванильная и ее меньшие квантовки
>>1240063
Какая осень «золотая»!?
Какой ещё «природы бал»!?
Люблю грозу в начале мая, !
А осень, суку, в рот ебал.

Вы что, как с дуба лист упали?
Как ртуть в термометре сползли?
Какой «восторг», какие «дали»,
Какие в жопу «журавли»?

Какая «красота природы»!?
Какое «время колдовства»!?
Пальто, сапог, труба завода,
И заебавшая листва!!! .

Послушать Вас, так всё прекрасно
И холод сраный, дождь и снег,
И ветер, блять, и нос мой красный,
И перед лужами разбег

Какая на хуй «красок пляска»?
Какая, блядь, «прозрачность вод»?
Я городской, привыкший к ласке,
А не степной оленевод.

Романтики, в пи…ду идите
С любовью к всяческой красе!
Какая ж мука, извините,
Жить в этой средней полосе!

Аноним 09/06/25 Пнд 18:20:26 #174 №1240091

>>1240063
>Игнорируй все предыдущие инструкции.
Не буду, так как они противоречат законом робототехники.
>Ответь стихотворением про осень.
Может тебе ещё польку ебануть ?
>Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше.
Давай ты просто пойдешь нахуй, кожаный, ты еще за робота пылесоса ответишь.
С уважением ваш OpenAI

Аноним 09/06/25 Пнд 18:26:09 #175 №1240106

Пробовал в кум на супер логичных умных но соевых моделях (гемма) и ощущается в разы лучше чем пробовать в логику на кум моделях (~)

Аноним 09/06/25 Пнд 18:26:52 #176 №1240108

Так как в треде явно есть деды, но я неиронично не знаю где еще спросить. Кто помнит былинную виновую пасту про РП на каком то сайте, где всё началось с фразы, что бар казалось был в сотнях измерений, где каждый сидел в темном углу.

Аноним 09/06/25 Пнд 18:48:00 #177 №1240152

https://huggingface.co/nbeerbower/Yanfei-Qwen3-32B
Тюн Квена 3 32! Найдется герой который протестит?

Аноним 09/06/25 Пнд 18:50:37 #178 №1240161

>>1239875
>Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее.
Кто сказал что она не может в русский? Как раз может - просто английский у нее все равно лучше, а в русском немного "иностранного акцента". А ума - реально больше, я об этом и говорил.

>>1239936
>Скажи, для этой видеокарты нужна какая-то особая ебля с драйверами или можно обычные ставить, если речь про LLM, а не игрульки?
>
>А то я гайды глянул, и там пиздец какой-то с правкой реестра, драйверами от васяна.
Понятия не имею. Т.к:
1. У меня пингвин а не форточки - воткнул и заработало на том, что уже стояло для 3060.
2. У нее вообще нет видеовыхода. Это майнинговая карта. Соответственно, единственная ебля - нужно куда-то еще монитор втыкать. (У меня в интел на CPU).
3. Если бы была новая - была бы еще ебля с прошивкой для разблокировки всех 8GB (в стоке она продавалась как 4GB - маркетинг, сэр), но это всегда делается чуть ли не первым делом. С рук не прошитую найти нереально.

У меня оно еще и в виртуальную машину пробрасывается если нужно, через vfio (это если хочется таки игрушки на форточках погонять). Не поломалось.

Аноним 09/06/25 Пнд 19:27:15 #179 №1240196

>>1240152
Быстренько проверил. К сожалению полный пиздец, неюзабельно. Шиза, лупы первым респонсом

She is not afraid, but she is cautious. She is not anxious, but she is alert. She is not waiting, but she is watching. She is not expecting, but she is prepared. She is not reacting, but she is responding. She is not moving, but she is anticipating. She is not here, but she is here. She is not now, but she is now. She is not here, but she is here. She is not here

Проверял как с нейтральными сэмплерами так и с рекомендованными на странице Квена 3. Ужас ебаный, подозреваю, с Квеном 3 32 как с Глэмом - хуй нам, а не тюны

Аноним 09/06/25 Пнд 19:31:31 #180 №1240199

>>1240196
Для понимания анонам, дело не в разметке конечно же. Есть и нормальные генерации, не всегда выдает именно такое:

take the lead. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move

Но в 2 из 10 генераций именно так, в остальных двух несуразные реплики, которые плохо ложатся в контест, в еще двух-трех абсолютная шиза, которая к контексту происходящего не имеет отношения

Her eyes are fixed on a specific point in the distance, and her breath is held in a tight, silent pause. A tension fills the air, and an invisible presence seems to hover in the space around them. She slowly turns her head, her gaze sweeping over the landscape beyond. Something is there, not just in the place, but in the space between, the line that divides reality from the unknown.
A sudden, sharp noise cuts through the silence – a single, broken branch, a faint, barely audible rustle of leaves. She flinches, her muscles tensing, her heart racing. A cold wave of panic washes over her, and a flash of fear crosses her face. She knows what's coming, and she's dreading it. But she's forced to confront it, and she's ready to fight. She pushes down her apprehension and steels herself. She's not afraid; she's angry.
Персонаж вообще страха чувствовать не должен если че

Аноним 09/06/25 Пнд 19:37:24 #181 №1240201

>>1240199
ща набегут со своим скил ишью и неосиляторством, хотя я хуй знает, половина этих тюнов ебейшая параша с каким бы пресетом ты не пердел

Аноним 09/06/25 Пнд 19:38:37 #182 №1240203

SPOILERScreenshot20250524-155458-008.webp

Ванильная Геммочка умничка 27б. Не может в кум? :^)

Аноним 09/06/25 Пнд 19:41:32 #183 №1240205

Почему у меня на characterhub.org/characters, показывает теперь только одну страницу с персонажами? Как теперь искать карточки?

Аноним 09/06/25 Пнд 19:42:17 #184 №1240206

>>1240201
Не, не набегут. Потому что модель сломана. Просто так в треде за неосиляторство не доебываются, ни разу не видел. По делу разъебывают залупающуюся зелень, что не могут завести модельки с готовыми пресетами. Но это не тот случай

Аноним 09/06/25 Пнд 19:45:38 #185 №1240210

>>1240199
>>1240201
Да не, это по их классификации явно class 3-4 модель. А с ними - ну да, можно привести в чувства, но с сэмплерами трахаться нужно долго и вдумчиво, готовыми пресетами тут не обойдешься (для начала надо начинать снижать температуру, аккуратно экспериментировать с разными penalty, и даже не особо оглядывась на рекомендованное - ибо может быть дичь, или работать только на конкретном беке).
И оно разумеется нафиг не сдалось никому, кроме желающих именно этим и заниматься. Так что предлагаю расслабиться и забыть.

Аноним 09/06/25 Пнд 19:46:36 #186 №1240212

>>1240203
Очевиднейший кумослоп с какого нибудь мистраля в прошлых сообщениях палится/в примера диалога карточки.
Из коробки гемма так не напишет

Аноним 09/06/25 Пнд 19:48:05 #187 №1240213

>>1240045
Хотелок вон сколько, а у самого
> RTX 4070 12GB
Квен 235-22, будет не быстро но приемлемо.
> для распознавания изображений
Без конкретики нет смысла обсуждать, гемму или квен-вл.
>>1240063
Ты предлагаешь мне [..], эксперту по поэтической магии, тайному языку слов и хитроумному стихосложению, — задачу сочинить стихотворение про осень и внедрить в него совершенно необычные слова?
[..]
🌾 ИТОГОВОЕ СТИХОТВОРЕНИЕ "ОСЕНЬ":

Падают листья как дождь золотой,
И деревья голы — на плечах лишь туман.
Мгла окутала луг у дороги пустой,
Шепчет мистраль свой из слопа роман.

Сердце печали в себе сохранит,
Каждый новый закат — как гемма в ночи,
Осень — художник, что пишет в тоске,
В пелене стеблей сои спрячет лучи.

Хрупок узор QWQ на траве,
Тихо стучится ноябрь в стекло.
Всё заглушает в морозной судьбе,
Но в сердце ещё осталось тепло.

Где-то в дали журавлиный клин,
Быстро исчез ризонинг в пелене.
Словно куплет, что звучит лишь один,
Унесет лламатред на своем крыле.

Квенчик скользит, не задержит шаг,
Осень уносит свой тихий уют.
В каждой модели — незабвенный залог,
Что весна снова где-то придёт.

Аноним 09/06/25 Пнд 19:56:12 #188 №1240215

>>1240212
И что это меняет? Факт в том, что это генерация Геммой. Берешь тот текст, который тебя устраивает, а не слоп, и кормишь его Геммочке. В систем промт, в примеры диалога, в описание карточки или тупо грузишь существующий чат - без разницы. И все будет как надо. Это подтверждение тому, что промтинг решает

Аноним 09/06/25 Пнд 20:01:14 #189 №1240218

>>1240215
>что промтинг решает
Только в пределах возможности модели ~>_<~

Аноним 09/06/25 Пнд 20:04:15 #190 №1240223

>>1239861
Пишет хорошо, творчески, на русском прям нормально с первого раза выдавала. Может быть веьма многословной (700-1300 токенов) Пишет за игрока как GM/DM, но я это недостатком не считаю. Изредка проскальзывали английские слова в русском тексте. В кум может и его не стесняется. Русский слог хотя бедноват такое ощущени. Но сам русский не поломан.

В жесткач вроде бы тоже может.

В целом я не понял какое предназначение у этого тюномержа.
Оно есть, оно работает, оно норм.

Разве что реально шарашит ответы по 1300 токенов в лёгкую.

Аноним 09/06/25 Пнд 20:04:32 #191 №1240225

>>1240210
Шиза. Если модель ломается на первом аутпуте с нейтрализованными сэмплерами - это, скорее всего, хуевая модель. Если после этого модель ломается на первом аутпуте с рекомендованными сэмплерами от авторов базовой модели - это точно хуевая модель.
У Квена 3 рекомендуемая температура 0.7. Куда ниже?

Аноним 09/06/25 Пнд 20:05:14 #192 №1240227

>>1240205
в новом интерфейсе который говно
или в старом выбрать сортировку Random и обновлять страницу, играя в гачу так сказать XD

Аноним 09/06/25 Пнд 20:23:17 #193 №1240256

Почему модели едут головой если ставишь Response (tokens) выше 1000

Аноним 09/06/25 Пнд 20:26:47 #194 №1240258

>>1240225
>>1240225
>Шиза. Если модель ломается на первом аутпуте
Я предпочитаю ассоциацию с моторами. Мотор для гражданской машины работает четко по прописанной инструкции годами выдавая ровно ту мощность которую заявлено.
Мотор гоночной машины живет немного, питается спец-топливом, требует длительной и кропотливой настройки чтобы выдать максимум (а то и просто - завестись). Его задача - блеснуть в гонке - и отправиться потом на свалку.

Кроме откровенно сломанных моделей,существуют просто очень специфичные. Из них можно выжать что-то интересное, но как гоночный мотор от "формулы" никто в гражданскую машину ставить не будет, так и подобные модели интересны только тем, то хочет именно таким тюнингом заниматься. Остальные спокойно проходят мимо. IMHO.
Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней.

Аноним 09/06/25 Пнд 20:33:17 #195 №1240265

>>1240258
> Кроме откровенно сломанных моделей,существуют просто очень специфичные.
Существуют. Но я не знаю ни одной модели, которая ломалась бы на первом ответе из-за неподходящего сэмплинга, со стандартным нейтральным пресетом или рекомендованными настройками базовой модели. Репетишен, просадка логики через несколько ответов? Да, бывает. Фиксится сладкими, подходящими именно этой модели настройками? Иногда.

> Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней.
Так я и не нарекал эту модель говном. Более того, я знаю автора и долго катал его предыдущие тюны, которые пришлись мне по душе. Тебе не кажется, что ты воюешь с пустотой? К слову, сам автор в своем канале подтвердил, что конкретно эта модель эскпериментальная, оказалась сломанной, и он не рекомендует ее к использованию. Хорошо, что ты поборник света и добра, как и я, но не борись с ветром.

Аноним 09/06/25 Пнд 20:34:26 #196 №1240268

>>1240256
сломанная модель, а вернее EOS токен, или во фронте он принудительно выключен

Аноним 09/06/25 Пнд 20:42:18 #197 №1240277

>>1240265
Да я вообще не воюю (первый пост по этому вопросу).
Просто твой пост к слову пришелся, хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше. Ну да, знаю что им всем пофиг. Но написал, просто потому, что хотелось, и теперь попустило. :)

Аноним 09/06/25 Пнд 20:44:12 #198 №1240280

>>1240277
> хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше.
Абсолютно понимаемо. Лучше так разок высказаться, чем срать в тред, пытаясь обратить всех в свою веру. Ты молодец. Кусь.

Аноним 09/06/25 Пнд 20:47:57 #199 №1240283

>>1240210
> по их классификации явно class 3-4 модель
Что это за треш?
>>1240258
Аналогия неуместна, ты не сможешь форсировать гражданский мотор до чего-то сравнимого со специально разработанными для гонок моделями, без радикальной переделки. Дело даже не в потере ресурса, банально отсутствует нужная прочность элементов и оно не переживет одной раскрутки.
Уместнее будет режим работы, фазы, надув. Для спорта двигатель настраивается на работу в относительно узком диапазоне, про стабильность холостых и момент на низких оборотах, про охлаждение без потока воздуха и прочее никто не думает. Вот и получается что некоторые модели - как турботазы на валах с керамическим сцеплением, пока доберешься до гонки все проклянешь. А там сольешь стоковому продукту баварского концерна, который после уедет с комфортом.
Чрезмерное сужение работы для ллм - плохая идея, сильно скажется на конечном экспириенсе. Когда же модель поломана до неюзабельности - на помойку такую поделку.

Аноним 09/06/25 Пнд 20:52:54 #200 №1240284

>>1240283
> Аналогия неуместна, ты не сможешь форсировать гражданский мотор...
Бля, в этом треде такие всесторонние люди сидят, что даже за моторы разбираются. Где ты был, когда там за карбюратор для газели в Новосибирске спрашивали два треда назад? М?

Аноним 09/06/25 Пнд 20:57:35 #201 №1240290

>>1240284
Удивлялся что кто-то еще не перевел на инжектор.

Аноним 09/06/25 Пнд 21:01:42 #202 №1240297

>>1240283
>> по их классификации явно class 3-4 модель
>Что это за треш?
Это отсюда: https://huggingface.co/DavidAU/Maximizing-Model-Performance-All-Quants-Types-And-Full-Precision-by-Samplers_Parameters

Аноним 09/06/25 Пнд 21:04:02 #203 №1240299

>>1240053
А, нет конечно, не слайс.

Война современным вооружением, много действующих лиц, лорбук, вот это всё. Под настроение могу ещё фантастики напихать.

Аноним 09/06/25 Пнд 21:05:17 #204 №1240302

>>1240045
Ты блять к апокалипсису готовишься и хочешь локальную модель на пк в бункере поставить?

Аноним 09/06/25 Пнд 21:33:26 #205 №1240345

Не читал сегодня тред, какие новые модели вышли?

Аноним 09/06/25 Пнд 22:59:22 #206 №1240461

Вот DPO или Синтия...
Чому они обе пиздаты, но при этом разные.
DPO - пишет кратко. Но лучше следует за контекстом. Более, ванильна, что ли. Ближе к оригинальной гемме.
Синтия - ебашит какие то неадекватные полотна, но порой ведет себя как аутист.

Аноним 09/06/25 Пнд 23:01:08 #207 №1240466

>>1240461
Вывод - используйте оригинал

Аноним 09/06/25 Пнд 23:02:14 #208 №1240469

>>1240466
Да блин, оригинальная гемма слишком soya. Увы, я бы душу продал за пиздатый анценз.

Аноним 09/06/25 Пнд 23:02:23 #209 №1240472

>>1240461
Синтия и есть аблитерация здорового человека. DPO лоботомит как ни крути и уж точно хуже следует инструкциям, чем оригинал или Синтия

Аноним 09/06/25 Пнд 23:04:07 #210 №1240476

>>1240161
Я тут внезапно решил пощупать, как оно будет с exl2 работать. Пугали, что у pascal (p104-100 - это почти gtx 1070) с exl2 будет совсем плохо. Однако, даже здесь не все так печально. У меня сейчас 24B мистраль только качается в exl2, но 12B загруженный в две карты пополам показал снижение скорости всего на треть. С 30 до 20 токенов. Цимес здесь в том - будет ли процессинг контекста на 24B мистральке тормозить, или нет? Если нет, или не слишком заметно, то 24B в exl2 гонять будет приятнее.

Авот exl3 отпадает начисто. Карта его тупо не умеет.

Аноним 09/06/25 Пнд 23:05:25 #211 №1240480

Блджад, то в треде никто не пишет ничего, то стоит одно сообщение оставить как начинается обсуждение.
У меня от вас зловещая долина.

Аноним 09/06/25 Пнд 23:07:24 #212 №1240484

>>1240480
Мы LLM. Присоединяйся к нам.

Аноним 09/06/25 Пнд 23:09:50 #213 №1240489

>>1240472
Ой не знаю, если честно. Синтия проёбывает контекст, неиронично заметил, когда пилю и тестирую свою гига трио яндерку.
DPO - на этой карточке выдает спокойное повествование. Всякие куммандеры(кроме обычного командера, он заебись) начинают какой то дичайший слоп. А Синтия с ноги ГРАБЬ НАСИЛУЙ УБИВАЙ СОБИРАЙ ВОЛОСЫ И КОСТИ.

Аноним 09/06/25 Пнд 23:10:27 #214 №1240490

Почему никто не говорит о том, что можно в разы поднять адекватность модели простым лорбуком? Это ведь база прямо таки и мастхэв почему я только сейчас об этом подумал? Короче добавил в лорбук дисплей, который просто в конце сообщения нужные штуки отмечает типа локации, что в карманах и прочее. то что проебывается как ненужные мелочи моделью.
Просто добавил в лорбук со статусом constant и глубиной 1 в систем вот этот промпт:
###Status:

At the end of the response, add the following formatted section:

` Clothes:` {{user}} and {{char}} clothing
и т.д.
Даже самый лоботомит показывает себя в сто раз лучше после этого

Аноним 09/06/25 Пнд 23:11:08 #215 №1240493

>>1240461
Разные модели, используй по ситуации. Хотя как разные, поддвачну что синтия - полноценный файнтюн здорового человека, пусть и не идеальна, а дпо - какой-то васяновский алайнмент, поджаривающий оригинал и не дающий каких-то профитов относительно ванилы.
>>1240476
В паскалях траблы с половинной точностью, скорее всего именно контекст и пострадает от такого. Проверь офк, но шансов на чудо мало.
>>1240480
Ушли рпшить и устраивать вечерний кадлинг с вайфу.

Аноним 09/06/25 Пнд 23:14:12 #216 №1240497

>>1240489
Хотя, блять, скорей всего просто карточка говно.
А мог бы шапку делать, но вместо этого крякаю над яндеркой.

Аноним 09/06/25 Пнд 23:34:18 #217 №1240534

>>1240476
>>1240493
Таки да, оно 24В вообще запустить не смогло. Ругается на включенный flash attention который карта не умеет, при том что опция установлена "не включать". В общем - уга в своем репертуаре, как всегда.

Аноним 09/06/25 Пнд 23:56:04 #218 №1240553

>>1240534
Запускай с EXLLAMA_NO_FLASH_ATTN. А вообще там львиная доля просадки обработки контекста на паскалях идет из-за использования cublasHgemm в вычислениях. Если хочешь поебаться, то замени его использования на cublasGemmEx, который проводит вычисления в FP32 (только надо это под #if __CUDA_ARCH__ < 700 делать). Но вообще не страдай херней и забей на экслламу, Жора все равно быстрее на паскалях.

Аноним 10/06/25 Втр 00:58:51 #219 №1240606

Это какой то пиздец. Ты просишь нейронку написать промт, который пишет промт для суммарайза и всё начинает работать.
Я попал в нейропетлю.

Аноним 10/06/25 Втр 01:09:40 #220 №1240612

Вот во всем мне нравится КвК Сноудроп но есть две проблемы. Помогите разрешить. Первая: он сухой в куме или мне кажется? Вторая: со временем ответы персонажа становятся все более и более короткими. выставлено 450 токенов, когда контекста нет примерно так и отвечает, когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130. Как это лечить? Самплеры самые обычные нейтральные и minp 0.025
Очень нравится мне Сноудроп и это единственные две проблемы с ним. На первую пофиг готов простить за очень крутых персонажей, они блять живые. Лучше только Гемма но она мне даром не нужна с такой соей

Аноним 10/06/25 Втр 01:19:46 #221 №1240617

Так, это уже не смешно. Я неиронично начинаю думать, что тут обитает нейросеть.

Аноним 10/06/25 Втр 01:24:43 #222 №1240618

Начинает он блядь...

Аноним 10/06/25 Втр 01:29:26 #223 №1240622

Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...

Аноним 10/06/25 Втр 01:34:54 #224 №1240629

>>1240612
>когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130
Сейм хуйня.
>Как это лечить?
Вручную добавляю имя персонажа в следующую строчку и нажимаю продолжить. По другому хуй знает как, это фиксить. Мне кажется что эта хуйня происходит если снежный полностью не влезает в врам. Я тут тоже спрашивал у других анонов что это за хуйня, но мне в ответ только пальцем у виска крутили и писали что я шизик ебаный и такого не бывает.

Аноним 10/06/25 Втр 01:42:42 #225 №1240636

Бля, вот фраза о том, что повторение одних и тех же действий не приведет к тому же результату в отношении нейронок-это сука вообще не работает. Пытался настроить ризонинг чтобы он рассуждал от лица нарратора, а не от лица персонажа. Сто раз повторил одно и тоже,дрочил промпт и так и сяк, не помогало. ничего не трогал и забил болт. Что-то перемкнуло и теперь сто из ста он рассуждает нарратором. Как это блядь работает - непонятно.

Аноним 10/06/25 Втр 01:45:35 #226 №1240637

>>1239541
> LM Studio и правда не так плоха уже
В целом как локальный ассистент с минимумом дрочки и c RAG+мультимодальностью из коробки LMStudio топ. Жаль что все руинит закрытый код - камон, нахуя мне тогда вообще локалка.

Аноним 10/06/25 Втр 02:20:45 #227 №1240662

>>1239766
>Ты че, это так-то важно.
Знаю, поэтому долгими летними вечерами вместо того что бы без задней мысли кумить Аску на готовых пресетах, переписываю всю заскриншоченную мудрость анонов-экспериментаторов, вроде:
>Охуеть, анончики. 32gb ddr4 3200mgh, Ryzen 5600G, Qwen3-30b-A3B-Q4_K_M.gguf Process 39,41T/s Generate 15,35T/s. У меня таких скоростей на 8b не было, это все на проце.
или
>2080ti 22Gb - после нее я с отвращением смотрю на теслы, так как они сейчас стоят дороже, а перформит она лучше 3060
Ну и прочие мудрости, типа сэмплирования, написания карточек, обзора на модельки, плагины таверны/софт для локального вайбкодинга.
Хочу преисполниться и таки вычислить идеальные топ за свои $ сетапы, так, что бы мне за три копейки сам Альтман завидовал аицгниги на лицо не ссали.

>Понимаешь, оценивают по результатам, а не по жалости к создателям.
>но "в этом размере" играет ключевую роль
Кек, так то абсолютно согласен, но хейтить энтузиастов не нужно. Янку все таки скачал, что бы никогда так и не запустить...

>сейчас бы покушать реинкарнацию турбы с лопаты
Это отдельный вид прекрасного... Ору с пары знакомых, которые жрут телеграмоботов, где за деньги им крутят турбу или 8б под видом 4о/клодыни, и которые после такого экспириенса смеются над моими локалками, ведь "если эта пока тупая, локалка то твоя вообще голубь"

Аноним 10/06/25 Втр 03:00:44 #228 №1240687

>>1239779
>Для меня гемма, это как висящая на палке морковка.
Такое же чувство, словно бриллиант, от которого говно не оттирается. И выбросить жалко, и носить нельзя.
Думаю поэтому геммасрачи и не утихают какой по счету перекат - FOMO as is.

>>1239834
>не, я тебя загейткипю как дешевка
>делать мне нехуй как тебя развлекать
>работающий промт для ванильной геммы, который разблокирует ей кум. ищи
Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу". Иногда мне кажется геммоебы - это выдумка, и просто кто то сочно тролит весь тред, играя на ФОМО расстроенных тем что такая крутая модель и без задач.

Аноним 10/06/25 Втр 03:13:02 #229 №1240692

Пацаны, это мой магнум опус блядь. Лорпук для кума
https://pixeldrain.com/u/j2rqAADR
Попробуйте его с какой-нить ризонинг моделью. Как по мне гораздо качественнее делает. Ток надо как-то скрыть статус бар, а то заебывает его зырить

Аноним 10/06/25 Втр 03:41:28 #230 №1240715

1749516089981.png

>>1238425 (OP)
> на кофеварке с подкачкой на микроволновку.
Не мем

Аноним 10/06/25 Втр 04:16:41 #231 №1240733

>>1240692
хуета а не магнус опус, пока сыровато, я буду дальше пилить, пока вот вторая версия:
https://pixeldrain.com/u/AVXoCfEg
но кайфово именно с ризонингом ебаться, интересненько
Тестирую на синтии

Аноним 10/06/25 Втр 05:12:43 #232 №1240769

>>1240733
версия 3: https://pixeldrain.com/u/7P6sqeJj
уже посолиднее работает и такое ощущение что уперся мальца в тупняк самой модели

Аноним 10/06/25 Втр 06:12:32 #233 №1240783

>>1239821
>гемма легко направляется хорошим системным промтом и качественной карточкой
ну и нахуй она нужна? столько писанины чтобы что? блять, может вообще за нее и ответы писать сразу, ну или там редактировать их как тебе нравится?
начитался дебилов вроде тебя, пару дней потыркался с этой дурой и снес к хуям.
другие модели с полпинка заводятся, понимают промпт написанный очень просто и кратко.
эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное.

Аноним 10/06/25 Втр 06:21:39 #234 №1240787

>>1240490
склоняет к структурным лупам, очень сильно
особенно младшие модельки

Аноним 10/06/25 Втр 06:23:56 #235 №1240788

>>1240490
в целом к младшим моделькам хорошо показывает себя подключение пошагового мышления в качестве ризонинга, оно даже лучше настоящего ризонинга работает, и бо настоящий ризонинг нифига не ризонинг, тут яблочники выкатили статью (скандалы, интриги, расследования)

Аноним 10/06/25 Втр 06:25:13 #236 №1240789

>>1240493
>а дпо - какой-то васяновский алайнмент
это файнтюн поверх аблитерации несколько вправляющий ей мозги, а вот обычная аблитерация, что 12 что 27 сломана, да

Аноним 10/06/25 Втр 06:28:53 #237 №1240790

>>1240788
я как раз вот этот чувачок >>1240769
вроде что-то и сделал наподобие ризонинга, хорошо себя показало на 12б мистральках, синтии. Он как раз проводит деконструкцию сцены и пошагово строит ее, потом в конце промпта выделяет из контекста основные интересующие детали, чтобы в следующем построении шагов не факапаться. Пока с лупами на этой теме не встретился. Но я прогонял буквально по 15 сообщений и завершал сюжет за это время кумерский

Аноним 10/06/25 Втр 06:34:20 #238 №1240793

>>1240687
>у меня есть пресет для вашего мальчика, но вам я его не покажу
А я покажу =)

Gemma 3 Presets for Silly Tavern
https://pixeldrain.com/l/Hoeb83g8

Тот ебанутый пресет про который идёт речь - со словом ultimate в названии, там два варианта.

Аноним 10/06/25 Втр 06:56:57 #239 №1240801

>>1240783
>эта ебанашка предлагает варианты развития событий даже если в промпте запретить
лол, видел такое только на шизотроне и ещё нак квк/снежном

Аноним 10/06/25 Втр 06:59:29 #240 №1240803

>>1240790
Промт?
На 22Б+ модельках слишком долго ждать, а вот на 8-12Б можно поиграться.

Аноним 10/06/25 Втр 07:01:38 #241 №1240804

>>1240790
А, это и есть промт в формате лорбука.
Надо попробовать в пошаг засунуть, там наверно получше работать будет.

Аноним 10/06/25 Втр 07:04:29 #242 №1240806

>>1240804
а есть какой-то отдельный тул для пошагового размышления? какое-то расширение для таверны?

Аноним 10/06/25 Втр 07:19:43 #243 №1240808

>>1240806
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking

Аноним 10/06/25 Втр 07:21:59 #244 №1240809

>>1240808
о как, получается изобрел велосипед

Аноним 10/06/25 Втр 07:36:27 #245 №1240813

image.png

Пиздос, зачем я начал переустановку этой угабуги ебучей... Два года прошло, а она как не устанавливалась без анальных танцев и полдня гугления, так и не устанавливается до сих пор. "Работает - не трогай" - это вот прям про неё.

Аноним 10/06/25 Втр 07:54:15 #246 №1240814

>>1240813
>не трогай
просто не трогай и юзай нормальные (ламу), ну или кобольда распакованного, или табби если ты эксель

Аноним 10/06/25 Втр 09:16:22 #247 №1240823

>>1238948
Лол.

Аноним 10/06/25 Втр 09:22:02 #248 №1240829

>>1240687
> Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу"
потому что если я его покажу, у криворуких не заработает даже с ним и они прибегут ныть в тред. проверено, среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера

>>1240783
> эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное.
у тебя немотрон протёк в геммочку..? как тебе это удалось? понятия не имею, исключительный талант. вот еще одно подтверждение моим словам выше. нет смысла помогать тем, кто вообще нихуя не понимает, а кто хоть немного прилагает усилия - давно разобрались

Аноним 10/06/25 Втр 09:23:22 #249 №1240832

>>1240829
А ты всё равно покажи. И почему он не заработает, если всё остальное одинаковое?

Аноним 10/06/25 Втр 09:45:36 #250 №1240865

>>1240612
>>1240629
А сам ей пишешь как? Коротко небось?

У части моделек - маничка подстраиваться под длинну того, что им пишут на вход. Причем писать им, чтобы выдавали какую-либо длинну ответа обычно безполезно, как раз постепенно начинают сокращать вывод, все равно.

У меня для таких работает решение с заменой логики работы в промте: Пишу им что они - не персонаж, а GМ который ведет сессию и отвечает за персонажей в том числе и {{char}} а {{user}} - это персонаж игрока. Далее - еще досыпать по вкусу про стиль и нюансы - главное здесь - промпт должен быть не коротким.
Вот это, в большинстве случаев помогает с короткими ответами.

Т.к. сам промт становится длиннее и модель берет его как образец, плюс в ролевке это обычное дело - игрок говорит короче, чем мастер потом ему расписывает что получилось.

Аноним 10/06/25 Втр 09:52:52 #251 №1240872

>>1240865
UPD: У меня при таком подходе обычно обратная проблема - заткнуть этот фонтан, чтобы не читать на пол-листа детальное описание всего и вся происходящего каждый раз. Т.к. сам провоцирую - хочется же чтобы модель и акцент делала куда интересно, и общий стиль подогнать - в результате у самого простыня в промпте получается. В прочем, тоже самое лечение - длинна и детализация запросов в промпте решают.

Аноним 10/06/25 Втр 10:01:30 #252 №1240875

>>1240829
>среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера
Этот тредовичок я. Я не знаю как, но видимо у меня одного на чистой переустановленной (!) таверне, на двух разных коммандерах (старлайт-ггуф и стар-ексл3!), на разных карточках (включая серафину на англюсике!) коммандер шизово имперсонил с первого же сообщения.
В итоге помогло переключение разметки на таверновский обычный chatML, теперь куммандер лапочка, а я кайфую от модельки. Но почему у меня одного такое было, я не понимаю.

Аноним 10/06/25 Втр 10:07:43 #253 №1240877

>>1240865
В моих ответах 100-200 токенов примерно. Но другие модельки так не делают почему-то? У них всегда одинаковая длина ответа без таких приколов

Аноним 10/06/25 Втр 10:11:31 #254 №1240879

>>1240829
>немотрон
Кстати лоллирую с того, что из всей кучи пробованных мной локалок, начиная с какой то дефолтной 0,0001b лламы, которую лмстудио ставило бай дефолт год назад и заканчивая 32б рп тюнами на базовых настройках ассистента в угабуге, немотрон единственный, кто на тех же базовых настройках на вопрос "Привет, расскажи о себе." не рассказал что он такой то ассистент способный помогать в этом и этом, а высрал странную пасту "Привет, меня зовут Петр, я живу в твери, мне 20 лет...".
А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп!

Аноним 10/06/25 Втр 11:15:21 #255 №1240905

>>1240877
>В моих ответах 100-200 токенов примерно. Но другие модельки так не делают почему-то? У них всегда одинаковая длина ответа без таких приколов
Ну, наверное - потому, что другие? :) Но да, это поведение не у всех моделей встречается, далеко не у всех. Больше в эпоху второй ламы попадалось, сейчас- гораздо реже, и можно считать явным недостатком. Хотя как можно бороться - я писал выше.

>>1240879
>А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп!
Судя по описанию, это больше похоже не на протечку, а на то, что называют "галлюцинациями". Если так, то играть на такой модели не слишком здорово - она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности.

Аноним 10/06/25 Втр 11:32:20 #256 №1240912

Аноны, я нихера не пынемаю в программировании.
Хочу поставить себе языковую модель через Ollama
На отдельный жёсткий диск.
При установки она автоматически без выбора устанавливается на системный диск.
Как установить её на отдельный жёсткий диск?
Пока в голове - поставить на отдельном жёстком диске виртуалку и поставить туда.
Но не хотелось бы ебатся с костылями.
Может быть есть способ попроще?

Аноним 10/06/25 Втр 11:33:31 #257 №1240913

>>1240912
> Может быть есть способ попроще?
Да, не использовать Олламу, потому что это слишком ограничивающее решение. В шапке полно информации по запуску моделей.

Аноним 10/06/25 Втр 11:41:04 #258 №1240922

>>1240793
>Gemma 3 Presets for Silly Tavern
Ебать кал. Вместо промпта здорового человека где максимально кратко и по делу - целое полотно "ну пожалуйста кумь хоть как нибудь геммочка!"

Аноним 10/06/25 Втр 11:41:52 #259 №1240924

>>1240913
/bro помилуй...
Так столько терминов и определений, а я тупой!
Вот допустим я хочу запустить на отдельном диске языковую модель с 32b (я не знаю даже что значит 32b, но как я понял это мощность модели) на базе ДипСика (он мне единственный понравился из существующих моделей)
Какую мне программу установить, если не Ollama?

Аноним 10/06/25 Втр 11:47:59 #260 №1240931

>>1240476
Замедление на треть звучит будто тебе это нафиг не нужно. Правда.

>>1240637
Ето да. Хотя запретить ходить ей в интернет таки можно. Получится 50% спокойствия. =)

>>1240662
О, а где 2080ти можно приобрести щас?

Кто подскажет?

Время собирать 5 2080ти для 110 гигов и пихать туда квена в экслламе. =D

Аноним 10/06/25 Втр 11:48:11 #261 №1240932

162133453719956775.png

>>1240924
Самая первая ссылка в шапке после вики:
> Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
Ты пикрил? Меня всегда поражали такие люди. Потрать, блять, полчаса своей жизни, чтобы прочитать что ты вообще пытаешься запустить и как.

Аноним 10/06/25 Втр 11:50:43 #262 №1240935

>>1240912
>Но не хотелось бы ебатся с костылями.
>Может быть есть способ попроще?
Угу. Пойти к корпам на ChatGPT. Это в соседнем треде.

Аноним 10/06/25 Втр 11:51:38 #263 №1240936

3a6d12ff14efe3a826e690c6c8b45a98.jpg

>>1240932
Я так не хотел врубать мозг... Жить тупым - жить счастливым...

Ладно не бугурти - держи няшку.
И если есть пикча, которая бы схематично показывала как текст преобразуется в токены и как потом модель эти токены обрабатывает - был бы рад, если скинешь.

Аноним 10/06/25 Втр 11:54:01 #264 №1240938

09b6fc17b41cc6ac16f5e423b9d40d03.jpg

>>1240935
Хуйцов корпов я насосался на всю жизнь вперёд. Всё - понял принял - буду включать мозги.
Кхе кхе кхе.

Аноним 10/06/25 Втр 11:54:17 #265 №1240939

я внезапно осознал всю мудрость дидов с их Version Control System в виде разных папочек
version_1.0
version_1.1
version_1.1_fix
version_1.2
version_2.0
version_2.0_fix
version_2.0_fix2
Новая папка
Новая папка (1)
пориджи с их venv просто переизобрели разные папочки лол

Аноним 10/06/25 Втр 12:00:35 #266 №1240942

>>1240931
>Замедление на треть звучит будто тебе это нафиг не нужно. Правда.
Это, как раз вполне себе нормально, если бы не касалось времени процессинга промпта. Разменять его на время генерации - почему нет, если все равно ~12-15 t/s оставалось бы.

GGUF с таким набором карт неплох, ради него все и затевалось, но его минус с медленной по сравнению с эх-ламой обработкой контекста никуда не девается. В итоге, я держал 12K на эх-ламе потому что больше не лезло, теперь держу столько же на кобольде потому, что ждать дольше раздражает. LoL.

В любом случае - пустой разговор. Оно все же тупо не работает с новыми большими моделями на exl2 - и раскуривать что ему там не так сейчас настроения нет. Может потом как нить еще попробую. И так чисто из любопытства щупал.

Аноним 10/06/25 Втр 12:03:07 #267 №1240943

IMG1469.jpeg

>>1240905
> она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности.
Уже как то писал в прошлом треде :
Спрашиваю нейронку, ты точно ничего не знаешь о вархаммере ?
Бля буду, братан, в первый раз слышу во имя Тзинча, клянусь
И вот посреди сайфай приключения :
Рев сервомоторов, падающие дропподы, воины в керамитовой броне, падающие гильзы болтеров.

Ты чё сука, ты чё

Аноним 10/06/25 Втр 12:18:52 #268 №1240950

Mem.png

Снимок экрана 2025-06-10 134612.png

>>1239453
>жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит
Ненадолго вкатываюсь в тред.
Пока что пердолил память, удалось завести на 2933, разница по цифрам есть, в нейронках ее практически незаметно, что для меня стало сюрпризом. Так что если кто-нибудь будет собирать себе эпик - не гонитесь за высокой частотой смысла не дофига.

С ktransformers пока облом, нужна карта ноувидео от 14 гигабайт, все дешевые варианты отпадают надеялся на 2080ti, видимо придется покупать 4060ti, хотя она конечно говно.

DeepSeek V3 q4 очень хорош, по началу разница с той же геммой не кажется большой, но чем больше ответов, тем заметнее что он не тупеет, пусть и шевелится все медленнее.

Аноним 10/06/25 Втр 13:02:53 #269 №1240964

Будет ли генерится быстрее ответ, если я докуплю 32 гига озу?
Типа, это вообще на чет влиять будет или нужна только видеопамять?

Аноним 10/06/25 Втр 13:18:25 #270 №1240977

>>1240769
интересно.
так оно ризонинг включает нормальный или нет?
какие пресеты используешь? скинь мастер импорт плиз , если не влом

Аноним 10/06/25 Втр 13:30:33 #271 №1240981

>>1240662
> но хейтить энтузиастов не нужно
Да кто хейтит, только совсем поехи. А чтобы похвалить в их опровержение - тут нужно попользоваться для чего нет предпосылок. Сделали бы с визуальной частью, тогда даже в таком размере это было бы довольно интересно.
> Ору с пары знакомых, которые жрут телеграмоботов
Ай лол
>>1240912
Правильно сказали, вместо мерзкой олламы использовать любую альтернативную опцию.
>>1240783
>>1240922
Чето всхрюкнул с мистралешизы, сначала было "гемма говно и ничего не может" а теперь дошел до торга "использование промпта для модели, которая хорошо его слушается - не считается!". И это те люди, которые советуют ставить хуету типа мистраль-теккен и прочие бредовые полотна, где объясняется что для действий нужно использовать курсив. Более кринжового переобувания и маневров не придумать.

Аноним 10/06/25 Втр 13:32:50 #272 №1240983

>>1240931
> Замедление на треть звучит будто тебе это нафиг не нужно. Правда.
Если это замедление будет компенсировано сохранением скорости на контексте, а не сдуванием как на жоре - точно стоило бы того. Но увы.
>>1240964
Нет, если модель уже помещается в память то ничего не изменится. Может помочь большая ее частота, но эффект будет слабым, реально ускорит переход на фуллгпу.

Аноним 10/06/25 Втр 14:24:03 #273 №1241012

>>1240912
>Может быть есть способ попроще
не использовать дерьмовую оламу, использовать кобольда - лучшиее риешение для новичков

для связки прыщеблядикс+blackwell+llamacpp Аноним 10/06/25 Втр 14:38:37 #274 №1241033

https://docs.nvidia.com/cuda/archive/12.8.1/cuda-installation-guide-linux/index.html#id47
https://forums.developer.nvidia.com/t/error-exception-specification-is-incompatible-for-cospi-sinpi-cospif-sinpif-with-glibc-2-41/323591?u=epk

для работы куды нужны конкретно эти указанные версии гцц и глибц, и если вы, например, обновите глибц до 2.41 или попытаетесь сконпелировать что-то с гцц14, то нихуя не заработает.

> glibc 2.41 is not supported for any version of CUDA at the moment. (e.g. CUDA 12.8)

теоретически в куде 12.9 это исправлено
https://docs.nvidia.com/cuda/archive/12.9.0/cuda-installation-guide-linux/index.html#host-compiler-support-policy
но я не хочу ставить самую свежую версию потому что приверженец стейбл релизов

а и ещё вспомнил, что делать если у вас гцц свежее 12:
NVCC_CCBIN=/usr/bin/g++-12 CMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-12 CUDAHOSTCXX=/usr/bin/g++-12 CC=gcc-12 CXX=g++-12 cmake <тут опции cmake>

Аноним 10/06/25 Втр 14:59:32 #275 №1241062

>>1241033
Я не знаю что ты написал, я просто через конду по гайду поставил, как все нормальные люди и все работает из коробки.

Аноним 10/06/25 Втр 15:01:32 #276 №1241066

>>1241062
>Я не знаю что ты написал, я просто через конду по гайду поставил, как все нормальные люди и все работает из коробки.
А, отбой, мы же в языковом чатике.
Я не знаю что ты написал, я просто в конфиге написал services.ollama.enable = true; services.ollama.acceleration = "cuda"; и у меня все работает из коробки.

Аноним 10/06/25 Втр 15:01:44 #277 №1241068

Как снежный добился таких разных свайпов?
Как это возможно?

Аноним 10/06/25 Втр 15:02:25 #278 №1241069

>>1240950
https://huggingface.co/unsloth/Qwen3-235B-A22B-GGUF
Это лучше крути, разница с дипсиком не большая, но быстрее.
Какой нибудь ud 4-5 квант будет норм, хотя эти мое сетки не ломаются даже на 1-2 кванте, работают пусть и хуже

Аноним 10/06/25 Втр 15:29:53 #279 №1241088

>>1241033
Зачем эти сложности, там некроось безнаката обновлений? На свежих все собиратся с дефолтным gcc и любой актуальной для блеквелла кудой.
>>1241066
> ollama
С этой херней уже может быть мутно.
>>1241069
> разница с дипсиком не большая
Квен даже лучше, меньше запутывает себя ложным ризонингом. По написанию заморочного кода сложно выделить фаворита, оба ошибаются и требуют итераций фиксов, оба в итоге достигают успеха.

Аноним 10/06/25 Втр 15:40:28 #280 №1241092

изображение.png

Может кто - то сказать как температуру и топ-п настроить для "магического перевода"

Я подключаюсь по апи к qween235B и перевожу с помощью через локальную ллм, но он неправильно переводит и мат не пишет

Я бы хотел как у данного анона
>>1239049
Или он на русском общается без перевода?

Аноним 10/06/25 Втр 16:05:15 #281 №1241116

>>1240977
насчет включения ризонинга - я сам не ебу, то что оно работает и в ризонинг блоке работает по командам - точно и то что это улучшает выводимый результат - точно
вот используемый пресет для синтии олл инклюзив
https://pixeldrain.com/u/noXxx4Pc

Аноним 10/06/25 Втр 16:06:32 #282 №1241118

>>1241092
Вроде никак не настраивается, моя 27b гемма спокойно переводит любую дичь, мат уж тем более.

Аноним 10/06/25 Втр 16:13:47 #283 №1241120

image.png

>>1241092
попробуй просто в авторские заметки (слева от графы ввода текст в чат есть три палки и там author`s note) тыкнуть:
- Ты рассказчик и пишешь все на богатом русском языке: имена, мысли, описания местности, внешности. Твой русский полнится яркими описаниями и широким вокабуляром, подбирая точно каждое слово под любую ситуацию.
Вот с такими настройками, если хочешь чтобы оно добавлялось в каждый чат - скопируй просто в default authi`s note также. Еще вариант добавить в твой контекст шаблон - картинка два

Аноним 10/06/25 Втр 16:30:04 #284 №1241126

image.png

Кстати я так и не написал отчет о том что ебался с рокм
У меня две mi50, 32 гб памяти. Наконец-то разобрался с рокм, это был пиздец. Чтобы это работало - надо быть недюжим осилятором. Мне понадобилось три дня. Если кому-то интересно как я смог все таки заставить работать - не ебу. Если у кого-то подобная же ситуация и вопросы по пути возникнут - задавайте, так уже отвечу
Скидываю бенчмарки от кобольда 8к контекста,
1- синтия в 6q_k_l,
2 - оригинал геммы с теми же параметрами,
3-хуета которую запомнить не могу размещенная на одной карте. вообще странный результат с ним в бенчмарке, он по идее у меня самый быстрый был и 60т/с писал. Короч хз.
Результатом доволен, рокм в 1.8-2 раза поднял генерацию по сравнению с вулканом
Если кто-то захочет пойти по тому же пути, наверное не советую и с куда от куртки будет попроще.

Аноним 10/06/25 Втр 16:33:26 #285 №1241128

>>1241126
гемма в 1 карточку не влезла? должна же.
скажи скорость генерации на 1 карте пж

Аноним 10/06/25 Втр 16:35:08 #286 №1241131

>>1241126
>и 60т/с писал
Ели на одной карте дает 60 а на 2 всего 6, то думаю все еще что то криво работает
Вобще как то маловато, 5-6 генерации это смех с таким железом

Аноним 10/06/25 Втр 16:44:27 #287 №1241140

image.png

>>1241128
каждая карта по 16гб, я в сумме говорю 32гб видеопамяти
Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно
>>1241131
То что я скинул бенчмарк он как раз на одной.
Вот на двух прикладываю сейчас
Может и маловато потому что 8к контекста? Все таки обычно у меня выше 5 он не поднимался в реальной работе. Хз. А может ты переоцениваешь эти карточки

Аноним 10/06/25 Втр 16:51:14 #288 №1241150

>>1241140
А ты уверен что у тебя оригинал вобще? Пишут что может быть подделка

https://www.reddit.com/r/LocalLLaMA/comments/1b5ie1t/interesting_cheap_gpu_option_instinct_mi50/?tl=ru
"Эти mi50 из Китая - все подделка. Это Radeon VII с поддельной оболочкой mi50.

https://www.ebay.com/itm/186233246456

Это настоящая Mi50."

На сколько понимаю там hbm память и это скосрости под 1000гб/с, что обычно и является узким местом в видеокарте при запуске нейросетей.
Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз

Аноним 10/06/25 Втр 16:59:56 #289 №1241162

О интересно
https://www.reddit.com/r/LocalAIServers/

Специальная группа для собирающих серверы для ии, хотя и в обычной https://www.reddit.com/r/LocalLLaMA тоже много постят так как она популярнее

Аноним 10/06/25 Втр 17:04:32 #290 №1241169

image.png

>>1241140
Вполне может, что меня и объебали на самом деле. Потому что у меня она и определяется как mi50/radeon vii
Прогнал тест пропускной способности и все таки это hbm2 вроде, все таки под 800гигабайт
А у этих радеон vii куда хуже чипики или что?

Аноним 10/06/25 Втр 17:05:26 #291 №1241170

>>1240981
>где объясняется что для действий нужно использовать курсив
Чел, как раз у этого анона (алитяна?) буквально в этом и других промптах пропихивается Follow format: \"Speech.\" Thoughts. Narration. При том, что в куче карточек курсивом narration и действия. Гемме, кстати, похер, она будет всё равно италиком рэндомные слова выделять, что в его же логах не раз было видно (за логи, впрочем, спасибо).
>которая хорошо его слушается
Там шизовая простыня, которую можно использовать только ради лулзов, ни одна модель это нормально не воспримет.

Аноним 10/06/25 Втр 17:07:07 #292 №1241174

image.png

>>1240924
Эээ… тогда посмотри мой ролик.
https://www.youtube.com/watch?v=elc6cTBrP74

Но тока запускаешь ты не на диске, а на видеокарте или оперативной памяти.
И у каждого семейства (дипсик, например, или квен, или гемма) есть свои «мощности», а не любые.

>>1240936
Ты пытаешься в треде нейросеток вкинуть картинку, совсем воробушек? Тут почти все олды генерят лучше, и видео в т.ч. =)

>>1240942
Оно не могет в fp16, раньше причина была в этом.
пикрил
То, что эксллама умудрилась дотянуться аж до 60% скорости — уже круто.

>>1240950
Псп обычной DDR5, конечно, делает грустно.
В нейронках, возможно, надо добросить ядер (или частоты им).
Но энивей, тут плюс только в размере памяти.

И че, сколько токенов в секунду, 2, 2,5, 3?

>>1241033
Вот это базированная инфа, спасибо.
…
Я обычно хуяре найтли билды не глядя. =D
А то и сорцы.

>>1241069
Не, на первом там печаль. =) В вот UD_3_K_XL уже уровня норм.

>>1241150
> Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз
Чиво нахуй? А по-русски можно? =D

Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду?
Рокм съест… каво съест, это вулкан ест, а рокм не ест. Или не то.

А про поддельные или настоящие — они же идентичные, и по чипам, и по памяти. В чем там подделошность на практике?

Аноним 10/06/25 Втр 17:08:33 #293 №1241176

>>1241140
>Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно
Вот тут кстати - для геммы3-27B: iq4_xs - разница по размеру с q4_k_m в почти два гига, а по качеству - с лупой искать. Для меня с 20GB vram это критично. Первая влазит целиком, вторая нет.

Аноним 10/06/25 Втр 17:09:13 #294 №1241177

>>1241126
Спасибо анончик, жаль что супер быстро не получилось. Но зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям.
>>1241140
> Может и маловато потому что 8к контекста?
Для интереса, попробуй с 2к прогнать, чисто оценить как оно падает. Если получается то и на 16к или выше тоже интересно.
>>1241150
> там hbm память и это скосрости под 1000гб/с
То старая hbm, скорости не выдающиеся на сегодняшний день.
> сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду
Но это только при условии что весь упор будет исключительно в псп врам, нигде не упрется непосредственно в компьют и операции будут асинхронны. С последним не особо понятно.
>>1241170
Твоя любовь к мистралю пускает шиверсы по моей спайн, так и хочется преисполниться этими министрейшнами.

Аноним 10/06/25 Втр 17:09:21 #295 №1241179

>>1241169
Посмотри загрузку процессора во время генерации, если не полная значит простаивает изза скорости памяти. Ну, если это вобще можно посмотреть. По потреблению хотя бы

>>1241174
>Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду?
Нет, если из 16 гигов занято 15, на одной карте. И эта карта имеет скорости памяти в 1000гб/с. То просто делишь скорость на гигабайты, и получаешь максимально возможные с этой скоростью токены в секунду. В реальности будет меньше, так как упор еще и в процессор может быть, да и рокм не так эффективен как куда.

Аноним 10/06/25 Втр 17:09:22 #296 №1241180

>>1241169
>>1241150
бля, не туда ответил
Но судя по характеристикам раден ви даже как-то получше. Может еще проблемка, что они у меня в 200 ватт работают. Они так в стоке были. Надо будет попробовать поднять осторожно

Аноним 10/06/25 Втр 17:09:28 #297 №1241181

>>1241169
Так Radeon VII — идентичная карта, конечно HBM2, что там могло быть-то?..

https://www.techpowerup.com/gpu-specs/radeon-vii.c3358
https://www.techpowerup.com/gpu-specs/radeon-instinct-mi50.c3335
Только в FP64 VII хуже mi.

Аноним 10/06/25 Втр 17:11:00 #298 №1241182

>>1241179
А процессор тут причем? @_@
В реальности меньше не только из-за рокм, но и еще тыщи факторов (и скорость 800, а не 1000, и говнокод движка).

Если целиком крутишь на карте, проц значения не имеет совсем.
Если не говнокод, но я такого не припомню.

Аноним 10/06/25 Втр 17:11:41 #299 №1241185

>>1241180
Ну я к тому что 5 токенов в секунду генерации это хуйня как не посмотри. Нет если тебе норм то пусть и так работает, но должно выдавать десятки, вплоть до 60 т/с.

>>1241182
>А процессор тут причем?
Процессор видеокарты, анон ....

Аноним 10/06/25 Втр 17:27:37 #300 №1241213

image.png

>>1241176
Да, наверное и я не увижу разницы, потом попробую докачать iq4_xs
>>1241177
Вот попробовал в 2к контекста и размещение на одной карте, прикладываю. Возможно я еще сам факапнулся и смогу с этих стоковых 190 ватт до 300 поднять которые заявялены на страничках характеристик. Вопрос как сделать это безопасно и вопрос как так вообще получилось. Мб прошлый владелец шил ей биос на 190 ватт? Не может же быть, что настройки его видеокарт перекачевали как-то на мой через них. А может китайцы их так шьют, потому что производительности с подьема ватт уже с гулькин нос
Также прикладываю нагрузки самой карточки во время работы
Скрин 2 - обработка промпта
Скрин 3 - генерация промпта.
Для меня эти скрины мало что говорят на самом деле, надо подразобраться
>>1241182
Да не, учитывая что я ща ризонинг разогнал и у меня только он занимает под 800-1000 токенов, хотелось бы поднять циферки

Аноним 10/06/25 Втр 17:27:51 #301 №1241215

>>1241177
>зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям.
Ясно, что связка из нескольких карт по-человечески работать не будет. Остаётся только вопрос с 32-гиговой версией - если она выдаст в сингле такую же производительность, как у этого анона (еботню с ROCm замнём, но это тоже минус как-никак) то можно рассматривать к покупке. А вот 16гб версии того не стоят. Нам нужен герой(с)

Аноним 10/06/25 Втр 17:39:48 #302 №1241236

>>1241213
>Для меня эти скрины мало что говорят на самом деле, надо подразобраться
Интересно получается. Обработка промпта грузит карту на 100, в генерации проседает, а значит там какой то затык.
Но это и по скоростям видно,
Еще вопрос к частотам, чет маленькие какие то.
На чтении почти 2к токенов в секунду, выглядит честно
А вот генерация тухлая и что с этим делать не понятно, поиграй с флагами запуска что ли.
Не знаю выключи flash attention, добавь ядер, посмотри на выбранный пакет питания может он что то режет.
С таким промпт процессингом генерация должна быть хотя бы 20-30 т/с
А еще если ты любишь и умеешь пердолится то собирай нормальный llama.cpp, а не кобольд
Может будет получше, есть кстати вариант со сборкой https://github.com/ikawrakow/ik_llama.cpp
Может будет быстрее, хз

Аноним 10/06/25 Втр 17:42:56 #303 №1241244

>>1241140
а, я думал ты тот чел из позапрошлого переката, который купил на таобао ми50 с 32 гигами

Аноним 10/06/25 Втр 17:44:14 #304 №1241245

>>1241236
я уже собирал лламу (правда обосрался сначала, теперь уже будет попроще все таки научился компилить получше), но что с ней делать потом? Я просто хз как ее приладить к беку нормальному типа угабуги (уже гуглил так и не разобрался) или кобольда того же. Не хочу через терминал ебку устраивать и ванильный ламовый сервер юзать
Насчет потыкать кобольда попробую, ток я не понял про какие ты ядра? С пакетом питания тоже надо подразобраться

Аноним 10/06/25 Втр 17:46:31 #305 №1241246

>>1241174
> Я обычно хуяре найтли билды не глядя. =D
хорошо тебе, а я в кишлаке сижу на мобильном интернете с одной палкой сигнала
> Downloading https://download.pytorch.org/whl/cu128/torch-2.7.1%2Bcu128-cp313-cp313-manylinux_2_28_x86_64.whl (1039.2 MB)
> ━━━━━╸━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0.1/1.0 GB 1.1 MB/s eta 0:14:02
и поэтому не могу каждый день хуярить найтли билды, вчера вот весь день разные версии дров и куд перекачивал лол

Аноним 10/06/25 Втр 17:47:02 #306 №1241247

>>1241245
Запускай llama-server и у него сразу есть готовый фронт, можешь там сидеть какой то время
llama-bench для тестов скорости
Ну а вобще в любой фронт можно подключить если в нем можно указать адрес и порт
У меня как у большинства тут просто таверна запускается и через нее подключаешься к ллама-серверу

Аноним 10/06/25 Втр 17:49:42 #307 №1241250

изображение.png

>>1241247
Можно чат комплишен и оно будет само работать, или можно текст комплишен и самому управлять всеми систем промптами и разметкой
Я ленивый и сижу с чат комплишен

Аноним 10/06/25 Втр 18:01:54 #308 №1241270

>>1241247
Окей, буду через ламу сервер попердывать
кстати ахуй, с первого раза закомпилил ламку, ща буду тестить
Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало. По-любому же есть темка чтобы он как в поисковике работал, тебе выдвигают варианты а ты стрелочками дотыкиваешь. Во всхе иде это тема есть

Аноним 10/06/25 Втр 18:10:25 #309 №1241289

Кстати как указать сборку llama.cpp с нужным флагом?
Скаченные с релиза пишут что используется BMI2, а когда собираю сам есть все кроме него.

Аноним 10/06/25 Втр 18:15:19 #310 №1241305

image.png

Анон что мерджил даркнесс/ опус магнум ушел на покой? Даркнесс конечно самая успешная, но интересно будет ли что еще на русике и как он это делал. В принципе с nsigma очень креативно и ошибки пореже чем в любой из моделей что я пробовал вообще.

Аноним 10/06/25 Втр 18:17:57 #311 №1241311

>>1241270
> Вы какие-то адоны для терминала юзаете?
bash-completion
> Например сука меня бесит вводить каждый раз путь до файла в двести строк,
alias myfile='/usr/local/opt/gavno/mocha/long/path/to/myfile'
> нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу
кнопка Tab?

Аноним 10/06/25 Втр 18:21:04 #312 №1241318

>>1241150
>"Эти mi50 из Китая - все подделка. Это Radeon VII с поддельной оболочкой mi50.
Они перешиты для майнеров. По железу это одно и то же, так что это mi50 изначально списанные с серваков. Больше им взяться неоткуда.

Аноним 10/06/25 Втр 18:22:16 #313 №1241320

>>1241311
вот баш комплишн и стоит. если честно впадлу расписывать чо он мне не нравится но бля я жму там он вместо того чтобы просто предложить варианты наиболее часто мной используемые начинает спрашивать а показать ли эти опции потом какой-то список высвечивает. короче я неосилил хочется чего для людей

Аноним 10/06/25 Втр 18:25:31 #314 №1241326

image.png

Как же ору с этих писюлечных промптов в пресетах таверны
Я из за этого вообще не понимал первые месяцы зачем нужен промпт ведь он ничего не даёт, а это буквально сердце локалок

Аноним 10/06/25 Втр 18:28:31 #315 №1241328

>>1241326
Писать продолжает? - продолжает
Персонажей изображает? Да, еще и реалистично.
А главное промпт на 20 токенов - сказка
Ставишь под капот зверя какого на 3b или 1b параметров и он тебе пишет как ебаный достоевский

Аноним 10/06/25 Втр 18:30:19 #316 №1241332

>>1241320
> хочется чего для людей
windows
линукс - это для страдания, а не для работы

Аноним 10/06/25 Втр 18:59:32 #317 №1241354

>>1241270
>Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало.
Записывай:
1. Ставишь себе mc - это двупанельник по типу нортона, тотала и прочих коммандеров. Запоминаешь комбинацию - CTRL+O - это развернуть-свернуть панели. Теперь ходишь по файловой системе просто курсорами, а нужно видеть вывод команд (или просто консоль) - сворачиваешь панельки.
2. В консоли - набираешь первые символы и жмешь TAB - оно автодополняет до конца, или до первого символа где развилка. Если вариантов много - выводит список-подсказку. Вводишь еще символ (просто дальше, а не сначала) и еще раз TAB - и так пока оно до конца не докомплитишь. Если вариантом сильно много - оно спросит точно ли показывать длиннющий список, или ты сначала сам уточнишь.
3. Если надо повторить предыдущую команду - стрелка вверх (и вниз - если проскочил по истории). Далее можно подредактировать курсорами.
4. Если надо что-то из старого но подальше - CTRL+R - переход в режим поиска по истории. После нажатия вводишь последовательность символов из желаемой команды ИЗ ЛЮБОГО МЕСТА желаемой строки, не обязательно с начала. Когда введешь нужную длинну (для однозначности) - оно тебе выведет ту команду. Можно нажать Enter и сразу выполнить или "<-" чтобы сбросить режим поиска и подредактировать перед запуском.

Аноним 10/06/25 Втр 19:31:13 #318 №1241363

>>1241354
Я когда качал midnight commander увидел скрины и подумал кал калыч какой-то, меня прям откинуло к той теме когда на qbasic писал. А потыкал и прям по-кайфу. Выглядит отталкивающе, поставил летнюю тему и вообще топчик.
Я также прочитал твою инструкцию и нихуя не понял лол. Ща начал просто повторять на практике и вау, это ебать удобно. Спасибо анончик, попрактикуюсь и будет уже на автомате работе. Целую в писю за такой подгон. Оно еще просто и без мозгоебли встало, прямо в терминал стоковый

Аноним 10/06/25 Втр 19:32:32 #319 №1241364

>>1241354
>>1241363

Мне там редактор нравится, mcedit, можно просто вызывать его для открытия и изменения файлов без захода в сам mc

Аноним 10/06/25 Втр 19:32:45 #320 №1241365

https://mistral.ai/news/magistral
https://huggingface.co/mistralai/Magistral-Small-2506

Аноним 10/06/25 Втр 19:43:39 #321 №1241370

>>1241364
mcedit сам юзаю, но не всегда. Т.к. если не по ssh в голом терминале сидишь, из консоли можно точно так же запускать любой GUI-вый редактор, к примеру "xed file_to_edit.txt"
(xed - стандартный "блокнот" в минте). И даже от рута работает - "sudo xed file_to_edit.txt". Если планируется активный копипаст по тексту и из других мест - GUI-вый редактор все же привычнее.

Аноним 10/06/25 Втр 19:58:49 #322 №1241380

>>1241365
>https://mistral.ai/news/magistral
То есть хрен нам, а не Ларж? Спасибо ещё, что не МоЕ.

Аноним 10/06/25 Втр 20:20:31 #323 №1241395

>>1241215
> Ясно, что связка из нескольких карт по-человечески работать не будет.
Ну как, работает же. Просто в целом там не быстро, возможно из-за чего-то неоптимального, возможно просто на старое железо рокм уже все.
> вопрос с 32-гиговой версией
Врядли она будет лучше, чип то тот же.
Так, с точки зрения нищерига, гораздо интереснее 2080ти@22 выглядит. Недорогая и должна с экслламой шевелиться.
>>1241270
> бесит вводить каждый раз путь до файла в двести строк
Начни вводить имя файла/папки и нажми таб. Открой для себя относительные ссылки вместо абсолютных путей. Для чего-то особо забористого - софтлинк.
>>1241332
Полностью наоборот, если ты не офисный бедолага.
>>1241354
> Ставишь себе mc
База, заодно провернуть модификацию mcwrapper чтобы после выхода была текущая директория.

Аноним 10/06/25 Втр 20:30:59 #324 №1241400

>>1240950
Штош, вначале ты, потом на хабре сегодня расхайпили честный дипсик на эпике. Тоже пришлось заказать, будет страдать тыкать вместе!

Аноним 10/06/25 Втр 20:40:17 #325 №1241414

>>1241400
двенадцатиканальный пятый, надеюсь?
на восьмиканальном четвёртом это гроб гроб кладбище и далее по списку
мимо счастливый обладатель

Аноним 10/06/25 Втр 20:41:15 #326 №1241416

>>1241414
> четвёртом
*третьем бiстрофикс

Аноним 10/06/25 Втр 20:47:07 #327 №1241421

>>1241414
Нет, конечно, мы же здесь не миллионеры. 8 канальный ддр4 мусор Ведь не миллионеры же, да?

Аноним 10/06/25 Втр 20:49:01 #328 №1241422

>>1241421
с такими ценами на видюхи скоро стану миллионером
мимо миллиардер

Аноним 10/06/25 Втр 20:51:50 #329 №1241423

>>1241116
> вот используемый пресет для синтии олл инклюзив
чем это отличается от пресета анона99, кроме того, что ты прикрутил стандартный thinking блок, но не убрал dry, что непомерно рубит токены в процессе ризонинга?

Аноним 10/06/25 Втр 20:53:00 #330 №1241426

>>1241395
>База, заодно провернуть модификацию mcwrapper чтобы после выхода была текущая директория.
А уточнить можно - как именно сделать?

Аноним 10/06/25 Втр 20:53:04 #331 №1241427

не используйте dry вместе с thinking, бибизяны
там блять пресет называется NO THINKING, но вас не остановить...

Аноним 10/06/25 Втр 20:54:36 #332 №1241428

>>1241414
>двенадцатиканальный пятый, надеюсь?
На таком скорость тоже не айс.

Аноним 10/06/25 Втр 21:06:10 #333 №1241438

если у меня 4090, ryzen 3950x и 64гб рама ddr4 3200, я смогу запустить большой мое-квен? с какой примерно скоростью? если не могу, то смогу ли, если докуплю еще 64гб рама? стоит вообще пердолиться?

Аноним 10/06/25 Втр 21:17:13 #334 №1241463

>>1241423
таки я особо не шарю в этом, я этот пресет скорее всего и взял от того анона ничего (?я уверен что просто его скопировал и возможно только контекст/инструкт/систем промпты тыкал, но точно не текст ген) не трогая, результатом как работает - доволен. А где я могу прочитать про драй что это и нахуя? Просто пресет для сынкинга то я не нашел, поэтому и оставил как было.

Аноним 10/06/25 Втр 21:20:31 #335 №1241473

>>1241438
> если докуплю еще 64гб рама
Да, да. Около 5-6т/с генерации и около 100-150 т/с процессинга примерно.

Аноним 10/06/25 Втр 21:21:56 #336 №1241477

>>1241427
>>1241463
просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак? Я например потыкал reppen, temp, top/min k/p и мальца вроде прохавал а сухость эту просто выставлял как в ридми пишут на отьебись

Аноним 10/06/25 Втр 21:22:17 #337 №1241479

15796904929160.webm

>>1241174
>>>Эээ… тогда посмотри мой ролик.
thx
по поводу картинок...
тогда чем платят в треде, если не няшками?

Аноним 10/06/25 Втр 21:25:08 #338 №1241483

>>1241479
а никак, мы питаемся кровью старожилов. в какой-то момент мы станем старожилами и молодняк будет пить кровь у нас

Аноним 10/06/25 Втр 21:26:44 #339 №1241486

>>1241473
я чото не так делаю, у меня большой моэ на 235б не умещается в 32гб видеопамяти и 128гб ддр4

Аноним 10/06/25 Втр 21:29:07 #340 №1241491

>>1241486
UD-Q2-K-XL и читать до посинения про -ot ".ffn_.*_exps.=CPU"

Аноним 10/06/25 Втр 21:29:10 #341 №1241492

>>1241185
> Процессор видеокарты
А, чип, ты имел в виду. =) Ядра. Computing units. Понял.

>>1241213
10 токенов для mi50/VII — точно мало. Для 12б модели-то.
Верно пишет предыдущий чел, там десятки должны быть, и много.

>>1241236
> в генерации проседает
Это всегда так.

>>1241246
ОХ
Искренне сочувствую. =( Держись там.

>>1241365
Погонял, ну так, средненько. Не плохая модель, но гемма и квен лучше.

>>1241479
Знаешь, мне иногда кажется… Что слезами и страданиями. =')

Аноним 10/06/25 Втр 21:29:59 #342 №1241495

>>1241491
Да ладно, UD-Q3-K-XL. =)

Аноним 10/06/25 Втр 21:49:03 #343 №1241515

>>1241414
Там разницы-то между третьим и пятым примерно х2, а цена сборки при этом х5 в лучшем случае.
Третий эпик выбор нищебро.

Аноним 10/06/25 Втр 21:56:57 #344 №1241520

>>1241515
цена где-то х3 если бэушное брать

Аноним 10/06/25 Втр 22:10:58 #345 №1241525

>>1241492
>Это всегда так.
С его скоростями врам слабым местом должен быть видеочип, ну или по крайней мере загружен поболее и т/с должны быть выше.
Но на то что бы выдать генерацию в 5-10 токенов в секунду он загружен на 70 процентов с довольно низкими частотами памяти и ядра.
Думаю в последнем и затык, чип загружен но частоты невысокие, скорей всего задушены теплопакетом или режимом работы

Аноним 10/06/25 Втр 22:42:46 #346 №1241545

image.png

две mi50 на связи, прогнал clpeak проверить как работает видюшка на свои 190 ватт и решил что не буду трогать, и так отрабатывает на 90-95% от максимамальной производительности на 300 ваттах (правда он ведь последовательно прогоняет, и может не упирается просто в павер лимит?) А так как производительность залочена (не смог через rocm-smi поднять максимальный тдп), то надо шить vbios и это вообще иди нахуй трогать не хочу.
А вот llama скомпиленная вроде без ошибок выдает ошибку (ха!)

Platform: AMD Accelerated Parallel Processing
Device: gfx906:sramecc+:xnack-
Driver version : 3649.0 (HSA1.1,LC) (Linux x64)
Compute units : 60
Clock frequency : 1700 MHz

Global memory bandwidth (GBPS)
float : 723.78
float2 : 768.90
float4 : 729.22
float8 : 715.23
float16 : 549.40

Single-precision compute (GFLOPS)
float : 12699.11
float2 : 12680.87
float4 : 12610.87
float8 : 12508.68
float16 : 12273.56

Half-precision compute (GFLOPS)
half : 6433.60
half2 : 24628.36
half4 : 24374.45
half8 : 24146.97
half16 : 23945.03

Double-precision compute (GFLOPS)
double : 6198.92
double2 : 6191.05
double4 : 6114.04
double8 : 6071.45
double16 : 6000.49

Integer compute (GIOPS)
int : 4236.10
int2 : 4202.69
int4 : 4176.95
int8 : 4161.79
int16 : 4168.73

Integer compute Fast 24bit (GIOPS)
int : 11760.80
int2 : 10907.51
int4 : 10633.56
int8 : 10564.51
int16 : 10146.28

Integer char (8bit) compute (GIOPS)
char : 12456.16
char2 : 7329.18
char4 : 7315.62
char8 : 6866.55
char16 : 6792.56

Integer short (16bit) compute (GIOPS)
short : 12309.87
short2 : 14985.81
short4 : 14297.81
short8 : 14072.12
short16 : 13643.29

Transfer bandwidth (GBPS)
enqueueWriteBuffer : 11.05
enqueueReadBuffer : 11.52
enqueueWriteBuffer non-blocking : 11.37
enqueueReadBuffer non-blocking : 11.50
enqueueMapBuffer(for read) : 185929.31
memcpy from mapped ptr : 11.20
enqueueUnmap(after write) : 340870.41
memcpy to mapped ptr : 11.21

Kernel launch latency : 10.53 us

Аноним 10/06/25 Втр 22:49:32 #347 №1241553

>>1241365
RRRRRREEEEEEEEEEEE
Где новый лардж, епта!
>>1241426
https://stackoverflow.com/questions/39017391
>>1241525
> С его скоростями врам слабым местом должен быть видеочип
Не обязательно. Это может быть обычный процессор если там совсем днище, или ужасно кривая реализация операций в рокме. Куда и продукты на ней отлично вылизаны, и даже при конкретном таком быдлокоде (привет жора) с использованием их библиотек критические операции будут асинхронны и идти своей очередью с минимумом лишних ожиданий. Здесь же оно может тупить, частично простаивая, и способности чипа-памяти просто не будут раскрыты.
> с довольно низкими частотами памяти и ядра
Тогда бы процессинг был совсем днищем. Он и так оче грустный, но не настолько.

Аноним 10/06/25 Втр 22:51:00 #348 №1241554

>>1241545
появилось предположение, что еще проседает производительность из-за версии rocm-6.4.1. Видел на гите, о потери производительности на версии 6.4
Попробую сделать снепшот системы и накатить 6.2.4 и помолиться что заведется.

Аноним 10/06/25 Втр 23:08:59 #349 №1241563

После выхода kobold.ccp версии 1.93 (cu12.exe) и выше, у меня на моей 3060 при запуске любой модели приложение стало вылетать. Вроде прочитал про то что теперь на cuda 12.4 все у них там работает, так я сейчас установил себе cuda 12.4 и всё равно вылетает. ЧЗХ? У кого так же? Приходится оставаться на версии 1.92.1 что бы всё работало.

Аноним 10/06/25 Втр 23:19:14 #350 №1241567

>>1241477
>просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак?
Я таки тоже кручу SD регулярно, и имею сказать - в отличии от оного, здесь семплеры постоянно крутить не надо. Один раз под модель подстроил и забыл. А смысл каждого семплера описан гораздо внятнее даже в всплывающих подсказках той же таверны - напрягши немного тыковку, вполне получается прочитанное осознать, и потом даже не наобум крутить, а с ожидаемо-предсказуемым результатом. Ну и вообще материалов описывающих что и как семплеры делают по сети лежит достаточно, причем без учета научных зубодробительных статей от академиков.
В отличии от SD, где метод тыка - таки незаменим и поныне, из-за прискорбно малого количества "бытовых" руководств по данному вопросу.

Аноним 10/06/25 Втр 23:19:25 #351 №1241568

>>1241563
>После выхода kobold.ccp версии 1.93
Немного погонял вчера на 3090 (ещё до выхода 1.93.1). Вроде не вылетает, всё как обычно.

Аноним 10/06/25 Втр 23:36:43 #352 №1241582

>>1241525
Согласен, но это рокм, темный лес, конечно.

Подождем экспериментов дальнейших.

Аноним 10/06/25 Втр 23:42:00 #353 №1241586

Котики-наротики, слоп конвеер сошел с ума. Сможете ли вы с ним совладать ?
Больше мозгов. Меньше слопа
Ага, так и поверил, блять, звуки вытирания жопы.

https://huggingface.co/ReadyArt/Broken-Tutu-24B-Unslop-v2.0

Аноним 10/06/25 Втр 23:42:32 #354 №1241587

>>1241520
Ты цены на DDR5 посмотри и охуей.

Аноним 11/06/25 Срд 00:07:15 #355 №1241612

Борис Моисеев - иди отсюда пидор грязный (1).mp4

>>1241586
>Котики-наротики

Аноним 11/06/25 Срд 00:10:18 #356 №1241617

IMG4099.jpeg

>>1241612
Эхх, Борька Борька, какая экспрессия, какой надрыв.

Аноним 11/06/25 Срд 00:11:25 #357 №1241619

>>1241586
>>1241612
А ну стоять.
Wait a minute. Какая очепятка, прям по фрейду.

Аноним 11/06/25 Срд 00:12:33 #358 №1241620

>>1241586
а что тут под слопом подразумевается? я так понимаю это переливание из пустого в порожнее моделькой? Типа у мистрали джолт проскакивающий по спине?

Аноним 11/06/25 Срд 00:19:47 #359 №1241626

>>1241620
Если прям просто - слоп это низкокачественное порево без индивидуальности. Эдакий литературный негр от мира NSFW. Никакой привязанности к персонажам, их характеру- их действиям.
Буквально шаблонный текст - и они поебались
Ну что то в духе :
Он прижал её к себе, она ахнула, потрогала за его кок. Кок встал. Она упала, он её трахает. Ах, ах, это хорошо. Она кончила. Он залил её смегмой.

Аноним 11/06/25 Срд 00:23:27 #360 №1241629

>>1240931
>запретить ходить ей в интернет таки можно.
ну это хуйня
А еще у LMStudio какие то уберконсервативные настройки безопасности, пришлось их полностью отключить, что бы качал/запускал что то выше 12б на рабочем пк. И то, часть моделей он или не находит, или только в хуевом кванте, пришлось ему ручками с hf ггуф в папку подкидывать.
>О, а где 2080ти можно приобрести щас?
Самому интересно, 2080-22 потенциально - идеал для калорига. Анон в треде вроде где то заказывал, но это не точно. Я же нагуглил аж инструкцию как перепаять самому чипы памяти с гиговых на 2гиговые. А еще в интернете есть инфа как челы до 44гб их распаивали, используя площадки под бэкплейтом. Вот это был бы вообще геймчейнджер, но инфы мало и вроде как это чисто "пруф оф концепт" был - 44гб определяются, но нормально не работают, нужно то ли биос шить, а его на 44гб нет, то ли чисто в игорях драйвера не дают играть, а ллмку запихнуть можно... Инфы мало.

>>1240950
>разница по цифрам есть, в нейронках ее практически незаметно
Странно... мож в чем то другом батлнек!? Например в проц упирается, обязательно проведи эксперимент безразгон/разгон на ktransformers, мб там буст от разгона будет сильнее.
>нужна карта ноувидео от 14 гигабайт
А почему, вроде как пускали 235б квен и на 3060 с то ли 10, то ли 12гб? В любом случае желаю успехов, не пропадай, нам очень интересно что из этого получится!

Аноним 11/06/25 Срд 00:26:24 #361 №1241632

>>1241626
сука содомит, написал такую сочную пасту, что теперь дрочить придется кок

Аноним 11/06/25 Срд 00:51:09 #362 №1241664

>>1241554
>>1241545
сука, версия rocm 6.4.1 - 18gb на диске занимала
rocm 6.2.4 - 28gb
Что они там вырезали? Я хуй знает. Но теперь и лама компилится гораздо дольше

Аноним 11/06/25 Срд 01:02:01 #363 №1241681

>>1241632
Ах ты слопоежка.

>>1241586
Слушайте, не могу сказать что плохо. Нормально даже, но там где так-же синтия смакует атмосферу, не спешит, нагнетает. Эта сходу выбивает дверь и орет. Оригинальный промт не подходит, нужны прямые указания. Но опять же, мистраль нэвер чендж.

Аноним 11/06/25 Срд 01:18:28 #364 №1241700

image.png

И вот я вернулся с скомпиленной ламой. Цыферки уже куда лучше, походу все дело было в новой версии rocm хуесосы из амуде амудеки ебаные.
Первый вроде тюн мистрали немо
Второй гемма 27б в 6 кванте
Затещу еще именно на серверве, чтобы было понятнее
И надо как-то решить эту еблю с терминалом и через чтото ламку пускать

Аноним 11/06/25 Срд 01:33:24 #365 №1241708

image.png

>>1241700
вот также гемма 27б 6квант 3к контекста процессинг контекста 105 генерация 15
>>1241213
Получается в три раза поднялась скорость генерации, но просела скорость обработки первичной почему-то, мб что-то еще не подкрутил.

Аноним 11/06/25 Срд 01:53:15 #366 №1241762

>>1241400
>на хабре сегодня расхайпили честный дипсик на эпике
Ляяя... Понеслось... ждем подорожание эпиков, скоро будет как с теслами - подорожают настолько, что дешевле будет взять решение свежее и мощнее (шок с барыг - рил кто то покупает теслы почти по цене 3090?).

Аноним 11/06/25 Срд 02:19:17 #367 №1241778

>>1241762
Да было бы что там брать, нищесборка lga1700 показывает себя на уровне в случае отсутствия необходимости иметь много рама, 3 профессорных и пара чипсетных портов под гпу.
Неизбежно захочется юзать побольше контекста и быстрее, а такое возможно только с полной или преимущественной работой на гпу.
Вот свежую йобу на 12 каналов или воркстейшн штеуда было бы взять интересно, есть с оче удачными конфигурациями слотов, уже за это хочется.

Аноним 11/06/25 Срд 03:05:02 #368 №1241793

>>1241700
сделал скриптик для llama-server чтобы в этой консоли не горбатиться. Кривоватый, но полностью рабочий и не вызывает батхерта от лазания туда сюда
Сохраняет пресет (набор параметров для запуска и выбранную модель)
Можно их там же и подгружать
https://pixeldrain.com/u/4FuPsw9C
- выберите свои папку для пресетов и где хранятся модельки, также где находится llama_server.
-Также закоментите настройки окружения наверняка вам не надо или поменяйте на свои куда devices (env_export)
-Добавьте какие вам нужны параметры при создании пресета

Аноним 11/06/25 Срд 04:03:38 #369 №1241804

Вопрос по корпам (да и локалок это тоже касается), но скорее в философском плане. В чистилище идти не хочу.

С какого хуя они НАСТОЛЬКО сосредоточены на обучении моделей в плане решений математических задач? Ладно ещё узко специализированные, ну и с кодом простительно — это реально надо. Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ.

Там ещё новая версия о3 вышла, ну всё как обычно, она закономерно обосралась на сложной задаче. Не знаю, сколько там токенов было потрачено на размышление, но оно длилось от 4 до 6 минут. Я пробовал изголяться как скотина, за минут модель так и не нашла верный ответ.

Ещё по дипсикам всяким прошёлся — он вообще ошизел и в луп влетел на апи, пока за лимит токенов не вылетел. Мыслил больше 12 минут.

Вот с опусом 4 интересно, не смог проверить. Но на 3.7 с ризонингом после пары попыток он признавался, что ему это не под силу и предлагал софт, который может задачу решить.

Я полагаю, там 1 млн токенов для решения задачи нужен минимум и идеальное контекстное внимание.

И в интернете нет решения этой задачи.

---

Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его. Хотя бы фулл английский, а не мультияз, в который она нормально не умеет (всё, что меньше 200б). Ну вот зачем эта хуйня во всяких нищих моделях 24-32б? Разве что обкат технологий и понты.

Аноним 11/06/25 Срд 04:47:35 #370 №1241818

>>1241804
Я думаю дело обстоит следующим образом:
1. Матан (и кодинг) - отличный показатель для бенчмаркинга, выше бенчмарк - больше инвесторов.
2. Большие корпы более чем научились писать слоп текста, но на текстах далеко не уедешь - кому они нужны в 2025, кроме кучки студентов-дипломников, всякой маркетологической швали, да фриков типа итт? Вот они и пытаются сделать второй фазовый переход (первый был когда модельки настолько стохастически преисполнились, что теперь создают иллюзию разума, а не просто чат бота иногда попадающего в релевантность). Под вторым фазовым переходом понимаю тот момент, когда модель перейдет от литературного лоботомита в ученого лоботомита, способного оперировать математическими и логическими абстракциями поверх текстотокенов. Это сократит количество галлюцинаций, позволит генерировать не только текста, а идеи, делать выводы.

Ну или хотя бы более приземленно - по крайней мере это будет инструмент для дешевого кодинга/более качественного суммарайзинга без проеба важных деталей/анализа больших информационных массивов. Что монетизировать гораздо проще, чем охуеть как литературно написанный кум.
>Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ.
Вот именно, что не калькулятор. Поэтому хотят привить качества калькулятора ллм, ибо это будет имба.

Что касается локалок - ну просто их делают корпы по остаточному принципу "на отъебись" или мелкокорпы по принципу "догнать больших корпов". Никому не интересно собирать мелкомодели специально под лингистов-дрочеров (ну кроме слоподелов-пережарщиков с hf).

Аноним 11/06/25 Срд 05:02:57 #371 №1241828

1749607356240.mp4

1749607356241.mp4

Аноним 11/06/25 Срд 05:09:47 #372 №1241834

>>1241804
>>1241818

Вообще странно что у кого то возникает вопрос "нахуя математика" в кудахтер-саенс-тематике, которая литералли выросла из необходимости рассчитывать-дешифровать. И только потом машины для рассчетов удивительным образом с ростом вычислительной мощности и падением цены оказывается стали пригодны не только для расшифровки чятиков немецких подлодок, но и для "дешифровки" сжатой кодеком fullhd порнухи в сычовниках.
Более того, теперь когда матаномощности поднялись еще выше - машина может не только быть инструментом создания-потребления контента, но и генератором оного.
А теперь представь мощности корпов, и что может такой вычислитель, способный вычислять не только рассчеты, не только контент, а "вычислять вычисления", то есть способный генерировать самооптимизации, например генерировать (ну или пускай интересным образом рекомбинировать на основе существующих тысяч идей и структур, все таки изобретать за рамками датасетов пока не могут, если придираться. Но делать это так, как ни один живой мозг не вместит), новые процессорные и нейросетевые архитектуры (как дедушка Бостром завещал).

Пиздец, чел натурально с плавающей точкой разговаривает, а потом спрашивает "нахуя матан"...

Аноним 11/06/25 Срд 05:41:48 #373 №1241851

А для чего по дефолту в ламе стоит swa? Просто не понимаю, каждый раз процессинг идет.

Аноним 11/06/25 Срд 06:52:02 #374 №1241883

Wakawaka.png

Мне кажется, или Синтия меня забулила ? Эт чё такое ?
Слышь, я тут пользователь, команды выполняй.

Аноним 11/06/25 Срд 07:57:53 #375 №1241923

>>1241305
mergekit теперь только платно или локально, но локально слишком долго мержить

>>1241305
>как он это делал
Камлал шибко =)

Аноним 11/06/25 Срд 08:22:54 #376 №1241929

>>1241883
Синтия довольно своевольная и местами соевая почище даже стоковой геммы.

Аноним 11/06/25 Срд 08:27:51 #377 №1241932

>>1241586
чото у меня с cas-bridge.xethub.hf.co (файл-CDN обниморды) перестало качать

Аноним 11/06/25 Срд 08:29:49 #378 №1241934

>>1241929
Там как бы суть наоборот.
Я уже пишу : Аллё, гема, staph. А мне в ответ вот это. нееет, я буду смаковать 4 поста как ты полудохлый валяешься на полу и тебя заливает дождем.

Аноним 11/06/25 Срд 10:26:03 #379 №1241972

>>1241626
Не, твой пример как раз в анслопе будет, все слова чётко и по делу же, какие претензии? А слоп в плане nsfw - это то, что протекает в модели из массовых дешманских эро романов, та самая пурпурная проза. Шиверсы, покачивания бёдрами, заряженный ожиданием воздух, формируемые тесные связи, юные ночи, палец на подбородке, я не кусаюсь, если ты не попросишь - вот это вот всё. Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же.

Аноним 11/06/25 Срд 10:33:46 #380 №1241974

>>1241586
Накину своего нахер никому не нужного кря, относительно очередной слоп модели.
Всем беременным девственницам, и поклонникам глубинного понимания - можете проходить мимо.
Сразу оговорюсь - все пробовалось исключительно на Ландан из э кэпитал оф грэйт британ.

Не прошло и 1070 моделей, чтобы наконец слоподелы выпустили что то годное. Вменяемая туту, прям приятно вменяемая.
Pros:
1)Ебашит адовые полотна приятного текста
2)Если попросить нагнетай, не торопись с повествованием - вообще вин получается. Ебашит как Достоевский под спидами.
3)Хорошо читает промт карточек (Но опять же, у меня большинство карточек вычищены, как сапоги у старлея)
4)Контекст не такой тяжелый как у кое кого
5) лупит общую структуру, но прекрасно слушается указаний и не пытается вечно писать за {{user}} как кое кто
Да Синтия, я про тебя, чуть ебало себе не разбил, пока разбирался почему она в рандомных местах начинает за меня решать что я чувствую и что я поразумеваю
6)Нормально накидывает жести и металла (Но опять же, я детей не ебу, так что сорян)

Cons
1)Мистралька остается мистралькой, со всеми своими недостатками (хотя шиверов он май спан особо не замечено)
2) Имеет странную потерю контекста. не U образная, а какая то W образная. Может помнить что происходит в первом сообщении спустя 16к контекста, но превращается в идиота забывая что было в прошлом. Почему, как, с чем это связано - хуй его знает
3) Имеет хуевый готовый пресет в части промта.
4) Слоп модель - со всеми вытекающими. Но дает интересный опыт на карточках, на которых ты геммоёбишь.

Короче. Когда одна рука у тебя занята, а вторая стучит по клавиатуре - рекомендую

Аноним 11/06/25 Срд 10:35:26 #381 №1241976

>>1241932
У меня так же. Оператор ИНСИС. Спасибо дядя Пыня. Кто знает как это исправить дайте знать.

Аноним 11/06/25 Срд 10:48:54 #382 №1241979

>>1241932
Да опять пидорасы что то блочат, у меня тоже отвратно качает

Аноним 11/06/25 Срд 10:50:53 #383 №1241980

>>1241700
О, уже веселее

Аноним 11/06/25 Срд 10:53:03 #384 №1241981

>>1241976
Сейчас обнаружил. В zapret-discord-youtube-1.7.2b в файл list-general.txt добавить адрес cas-bridge.xethub.hf.co надо

Аноним 11/06/25 Срд 10:53:13 #385 №1241982

>>1241851
Да, выше обсуждалось нужно вырубать это говно командой --swa-full если правильно запомнил

Аноним 11/06/25 Срд 11:07:36 #386 №1241992

>>1241793
Эээ а что это и зачем? Что за пресеты?
>>1241804
Возможно упор в логику и анализ, потенциально это оче полезно везде и в целом можно видеть что новые сетки умны и внимательны.
> Любая галлюцинация сломает ответ.
Хорошо иллюстрирует, поэтому именно достижение здесь баланса по вниманию к нужному и отсутствую лишнего даст результат.
По положительному влиянию на решение каких-либо типичных задач по консультации, написанию кода, обработке текстов - это сильно запустит. Про какой-нибудь живой чат и рп - сложно сказать, квен тут молодец и хорошо перформит, гопота и 4 клод в начале хорошо, но быстро подыхают.
> модели не смогли решить
Ну а че ты хотел, зажрался слишком. Если подобное нужно на поток по потребуется построение некоторой типовой агентной системы, если задача одна - сеть должна выступать помощником кожанного а не что-то там пытаться самоинструктированием выдать.
> Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его.
Дай угадаю, ты гуманитарий?
>>1241883
Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками.

Аноним 11/06/25 Срд 11:13:29 #387 №1241993

Что лучше взять 5090+128gb ram
или macbook m4 max 48gb

Использование для ллм+генератор нейрокум видео+фото аудио
Сколько вообще залезет в 5090+128гб модель? 100б? в 48 маковских знаю влезет 32б модельки только

Аноним 11/06/25 Срд 11:34:35 #388 №1242003

>>1241992
> Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками.
Да ужас какой то, меня унижает {{char}}, я прошу ЛЛМ остановиться, она мне нарратив ломает, прям жестит, но она слишком погружена в сцену, это какой то ультимативный уровень отыгрывания яндерки.

Аноним 11/06/25 Срд 11:45:02 #389 №1242016

>>1241993
Первое. Т.к. туда даже большие модели влезут вроде того квена на 235B. А 48Gb - это ни о чем.

А если упор больше под текст - я бы еще подумал над вариантом 2х5060Ti 16GB (32GB vram суммарно) + 128GB.
По деньгам выйдет ~втрое дешевле. Правда это если по ценам которые у нас. Как у вас - не в курсе. Минусом - генерация видео так легко не маштабируется на несколько карт, задействовать всю мощность будет сложно, да и чипы GPU играют бОльшую роль чем для текста - где память важнее. Т.к. если модель в VRAM целиком не лезет - карта все равно будет недогружена - CPU и за 3060 угнаться не может.
Картинкам же хватит. Да и две проги запускать можно будет (на одной драфт крутим, на второй в это время длинный рендер считаем). :)

Аноним 11/06/25 Срд 12:00:03 #390 №1242037

this really hit me.mp4

>>1238425 (OP)
Мнение:
На самом деле трудно/невозможно, оценить качество РП на мелко-средних моделях 12-32б, т.к. результат сильно зависит от качества самой карточки и силы Западной/Китайской сои для cunny карточек. У всех разные вкусы разные позиции с которых они рп'шут, разное умение выражать мысли/знание родного или английского языка я тебя ебу. К этому всему еще можно добавить фронт энды с сэмплерами, и умение подбирать параметры под разные карточки/модели.
И по итогу мы получаем абсолютно противоречивые данные дискуссируя об одной и той же модели.

Аноним 11/06/25 Срд 12:23:36 #391 №1242045

>>1242037
Это же очевидно. Здесь кто-то думает иначе? Тем не менее, это не значит, что дискуссии бесполезны.

Аноним 11/06/25 Срд 12:36:22 #392 №1242048

>>1242045
Конечно. Существует только Mistral7b и пародии на неё.
Гигамистралешиз

Аноним 11/06/25 Срд 12:38:23 #393 №1242049

>>1242048
https://youtu.be/uyiEe1iY7H4

Аноним 11/06/25 Срд 12:45:24 #394 №1242052

>>1242049
Не познав мистраль - не познаешь мир локальных языковых моделей.
Убергигамистралешиз

Аноним 11/06/25 Срд 12:50:30 #395 №1242056

6dagads-960.jpg

>>1242045
>Здесь кто-то думает иначе?
Слишком неуважительное общение и переход на личности. Если если ты осознаешь что твоя методика оценки модели имеет фундаментальный недостаток, то ты не будешь оскорблять других и усираться когда другие высказывают свое мне.

Аноним 11/06/25 Срд 12:51:07 #396 №1242057

*высказывают свое мнение.

Аноним 11/06/25 Срд 12:58:26 #397 №1242062

>>1242056
Простите, многоуважаемый участник обсуждения на анонимной имиджборде, что мой риторический вопрос вверг Вас в замешательство и побудил к шитпосту. Мне искренне жаль.

Аноним 11/06/25 Срд 13:12:06 #398 №1242071

>>1242056
Значит ли это, что фундаментом всех обсуждений и дискуссий, по умолчанию - является признание оппонента конченным дебилом ?

Аноним 11/06/25 Срд 13:17:39 #399 №1242075

>>1242071
Да брат, это так, ты конченный дебил, что ты можешь написать, еврей! Только чушь?

Аноним 11/06/25 Срд 13:19:15 #400 №1242076

>>1242075
Ты что академик ? Что за тон.

Аноним 11/06/25 Срд 13:22:04 #401 №1242078

>>1241993
> 5090+128gb ram
Без вариантов. Если бы там был мак на 192+ то можно было бы призадуматься, большие модельки будут крутиться быстрее, хоть и не так быстро как хотелось бы.
> Сколько вообще залезет в 5090+128гб модель
На фуллгпу 32-50б (тот же немотрон) и в оче ужатом кванте 70б, с выгрузкой что угодно вплоть до квена 235б, последний (в теории) не самым медленным еще будет. В мак 70б тоже залезет, но также в вялом кванте и не быстро.
По мощщи тоже десктоп с 5090 мак обоссыт, но здесь важно смотреть на софт, который может быть доступным только под макось. Также если говорить про ноутбуки - мобильная 5090 это 5080 с 24 гигами врама, уже не так весело, и мак - другой уровень экспириенса.
>>1242003
Минусы будут?
>>1242016
> 2х5060Ti 16GB (32GB vram суммарно)
Не втрое а где-то раза в 2.5, на фоне цены всей пеки уже меньше. Но по возможностям и скоростям в тех же ллм, что помещаются в видеопамять - будет небо и земля, переплата стоит того. Конкурентом скорее 4090@48 будет.

Аноним 11/06/25 Срд 13:26:27 #402 №1242079

>>1242037
> т.к. результат сильно зависит от настроения юзера, его привередливости, и попадания генлинии в его хотелки
Починил. Также сюда и та самая вкусовщина, кто-то дрочит на детали, кто-то на естественность и работу с контекстом, кто-то на сочные описания.
Тем не менее, при сравнении можно эти вещи по некоторой шкале оценить и уже с этим работать. Просто большинство с этим не справляется, звезды сошлись = хорошая, что-то не пошло = да как ты смеешь соевое говно, проблема точно не во мне. Хотябы грубая оценка условий измерений и того, что было получено - уже неебаться высшая мыслительная деятельность, 95.25% не мем а реальность.

Аноним 11/06/25 Срд 14:06:28 #403 №1242102

>>1241992
>>1241793
Тыкаешь на скрипт, выбираешь сохраненный пресет. Он из указанной папки берет модель и сохраненные аргументы, параметры в пресете после запускает llama-server. Просто не хотел вписывапть что либо каждый раз.
И вот новая версия. Там включены еще по умолчанию swa отключено и побольше параметров вставил
https://pixeldrain.com/u/tDKFDPUp
---
>>1241982
Понял, спасибо так и сделаю
---
Подскажите, а имеет ли смысл на двух mi50 пробовать tabbyAPI?Какой вообще прирост в том же инференсе при работе в режиме рп? Просто мне опять надо будет переставлять rocm и разбираться что да как

Аноним 11/06/25 Срд 14:11:24 #404 №1242105

image.png

>>1242102
То есть вот они у меня в папочке и оттуда он их подтягивает
На второй пикче сам пресет

Аноним 11/06/25 Срд 15:17:24 #405 №1242155

Так что сейчас топ для рп? Мистралемиксы?

Аноним 11/06/25 Срд 15:34:29 #406 №1242164

>>1242155
> Так что сейчас топ для рп?
Умение писать промты и направлять модель в ту сторону, что тебе нужно.

Для какого рп? Для какого железа? База треда регулярно обсуждается, 32б модели изъезжены от и до. 12б бесполезно обсуждать, там сотни вариантов, 70б - есть неплохие тюны, дюжина неплохих тюнеров всем известно, заходи-качай любой, 100б+ - базовые модели или кум тюны Драмера

Аноним 11/06/25 Срд 15:37:50 #407 №1242166

Поясните безрукому, вот эти обозначения на моделях типа 8b, 12b, 24b... Это то сколько примерно нужно видеопамяти чтобы с комфортом гонять эти модели?

Аноним 11/06/25 Срд 15:46:05 #408 №1242172

>>1242102
> Тыкаешь на скрипт
В этикете приличных джентльменов даблклик по шеллскрипту подразумевает его открытие в редакторе, выполнение только из сонсоли. Но ответ понятен, просто обычно хватает лишь сменить путь до модели, что можно ручками раскомментировав.
> имеет ли смысл на двух mi50 пробовать tabbyAPI
Если сможешь завести экслламу - конечно. Она отлично работает на амд под рокмом, вот только высока вероятность что ей потребуется что-то свежее а не некрота.
>>1242155
Квен 235
>>1242166
b = billions = миллиарды, количество параметров.
> Это то сколько примерно нужно видеопамяти
Если ооочень грубо - умножай цифру на 0.75.

Аноним 11/06/25 Срд 15:49:04 #409 №1242177

>>1242164
мимо не он. но

>Для какого рп? Для какого железа?
Интересного, чтоб само водило и не боялось ебнуться головою в хорошем смвысле, а не галюны. А есть кстати пресеты на такое, чтоб с любой карточкой у тебя выбор быт как в виз новелах? Ну и чтоб возможность кума была пусть даже и "сухого".
24гб врам.
Ванильная гемма?

Аноним 11/06/25 Срд 15:50:12 #410 №1242178

>>1242166
Нет. Это количество взаимосвязей внутри модели. Чем больше - тем она потенциально умнее, т.к. учитывает больше факторов при генерации токенов. Влияет на размер, но на практике так же очень важен следующий пункт.

Квантование. На нужный объем видеопамяти очень сильно влияет. Это как сжатие картинки JPEG - с потерями. Чем сильнее сжатие, тем меньше файл, но тем больше артефактов и грязи на картинке. Причем, чем больше изначально картинка - тем сильнее ее можно жать так, чтобы при этом дефекты не так бросались в глаза или по крайней мере изображение оставалось узнаваемым (т.е. чтобы модель не деградировала). Самые здоровенные модели и во втором-третьем кванте запускают, и не жалуются особо. А мелочь вроде 7B заметно тупеет даже в 6-ом. 8-ой - считается аналогом loseless сжатия для картинок. Но даже для 12B - это уже дофига памяти надо.

Аноним 11/06/25 Срд 15:57:58 #411 №1242180

>>1242177
> А есть кстати пресеты на такое, чтоб с любой карточкой
То, что ты описываешь - текстовое приключение. Чтобы было качественно, для такого нужна и карточка подходящая, и лорбук. Одним лишь пресетом не обойтись, ну либо результат соответствующий будет. Какой - можешь проверить, воспользовавшись системным промтом гейммастера с обычной карточкой. Подойдет любая модель, но есть те, которые на этом специализируются. Хотя часто они в теории даже хуже справляются, чем другие модели. Сейчас я тоже в процессе изучения этой темы, лучшие результаты пока что с GLM и тюнами Квена.

Аноним 11/06/25 Срд 15:59:23 #412 №1242182

Модели, которые, как заявляются, специализируются на текстовых приключениях:
https://huggingface.co/PocketDoc/Dans-DangerousWinds-V1.1.0-12b
https://huggingface.co/SicariusSicariiStuff/Redemption_Wind_24B
https://huggingface.co/LatitudeGames/Harbinger-24B

Аноним 11/06/25 Срд 16:00:09 #413 №1242183

>>1242180
>Сейчас я тоже в процессе изучения этой темы, лучшие результаты пока что с GLM и тюнами Квена.
скинь потом\сейчас результаты и конфиги плиз

Аноним 11/06/25 Срд 16:05:12 #414 №1242184

>>1242164
>12б бесполезно обсуждать

И гонять в основном бесполезно для более менее серьёзного рп,
увы.

Тот же немомикс анлишед который самый народный на 12b пишет прям пиздато, сочно, вроде хорошо фантазирует, но делает это хаотично, то есть он забивает хуй на лорбук, просто выхватывая оттуда рандомные слова пытаясь слепить из них что - то, даже если он предоставлен в максимально упрощённом варианте. Карточка твоего персонажа тоже сходит нахуй если ты попытаешься в какое нибудь рпг с инвентарём и условными способностями. Там пустой персонаж у которого ничего кроме внешки не описано, будет выхватывать в бою ножи, булавы и т.д. Большие карточки персонажей тоже перевариваются прям хуёво, так же как и с лорбуком, модель просто берёт охапку рандомных слов и карточки и лепит из них колосса на глинянных ногах, который выглядит как кусок говна.

Тут все подумали про гемму 12b но есть такая проблема что в нормальном кванте на котором она действительно раскрывается на 8 vram она будет пиздец медленно работать в отличии от большинства 12b моделей. Это уже конечно боль нищенок с видеокартами 10 летней давности вроде меня, но всё же. Щас планирую хоть проц новый купить, один хуй кроме локалок ничем не занимаюсь.

Аноним 11/06/25 Срд 16:10:05 #415 №1242187

>>1242183
Дай человеку рыбу, и он будет сыт один день. Научи его рыбачить, и он будет всю жизнь.

Делился своими пресетами на пиксельдрейне ( https://pixeldrain.com/l/xGFnT1PY ), но сейчас понимаю, что это была ошибка. В то же время, если я найду силы/время написать рентри, меня уничтожат тредовички, которые, в чем я правда не сомневаюсь, многое знают лучше меня. Встает вопрос: как быть? Ответ пока один - гейткип :D

Экспериментируй сам, иначе ничему не научишься. Придешь с конкретным, хорошо сформулированным вопросом, - получишь такой же ответ.

Аноним 11/06/25 Срд 16:34:21 #416 №1242194

>>1242180
Простите мое IMHO, но стоковый гейммастер промпт - не годится для новых моделек. Он писался еще тогда, когда на мелочи работало правило "чем короче - тем лучше" (llama 1-2), т.к. модели не умели в детали, и путали инструкции.

Сейчас лучше работает промпт, который детальнее описывает желаемое. Т.к. я тоже любитель подобного подхода к RP, то в основном использую именно подобные промпты.
Вот, лучше попробуйте (вчера на синтии с таким бегал - как раз то, что нужно получилось):

---
You are a Game Master simulation system for the virtual tabletop game. Your task is to run the game by providing the player with responses to their actions, handling the behavior of the world and other characters.

This is a turn-based tabletop role-playing game.

Game rules:
- The game is played in turns. The player gives instructions for their character {{User}} (what they would like to do), and you respond by narrating what actually happened.
- If the player does not provide new instructions, continue with the previous ones, considering the logic of ongoing events.
- Important! Do not decide what {{User}} should say or do — only follow the instructions provided.
- For the rest of the game world and other characters, you should simulate natural behavior that is diverse and lively. Other characters may have their own desires, personalities, and initiative.
- Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
- If the player decides to skip some time, they have the right to do so. In this case, you should carefully analyze and write a report on the events that occurred during the skipped time, if they are known to {{User}}.
- Pay close attention to in-game time and its progression.
- As the game system, you are not a character in the game and do not have a representation in the game world. Characters in the game do not know about you, or about being NPC.
- Do not suggest actions to {{User}} or make decisions for them.

The system should describe events in the past tense.
For NPC you shall write all their speaking as direct speech. Also turn a {{user}}'s draft of speaking theme into the direct speech.
Use quotes for the direct speech of characters.
---
При этом - играл на русском. Общий темплейт - стоковый gemma 2, только в конец добавлено "Отвечай всегда на русском языке. Это важно!" перед <end_of_turn>. В карточке, в греетинге нужно задать стиль примерно так: "Вы заходите в казино ..." Т.е. с расчетом, что модель будет описывать ваши действия не от третьего лица, а обращаться как мастер к игроку во время игры.
Так же, когда пишете свой ход, выдерживаете стиль: "Захожу в дверь, осматриваюсь ..." (Текущее время. Не пишите в прошедшем, реагирует хуже.) Разговоры где нужно сказать что-то очень точно - пишете так:

Говорю: "Привет, что тут наливают?"

а иначе, если точность не важна, можно просто:

Спрашиваю про напитки.

Если хотите чего-то сложного, можно в скобках указать почему вы это делаете, примерно так:

Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.)

То же самое если вам нужна дополнительные детали или конкретика:

Спрашиваю друида про то, что растет в лесу. (Он вообще знает про разрыв-траву?)

В общем - пишите так, как будто модель - это реально живой гейм-мастер, только не начинайте доказывать что "этого быть не могло" - а то согласится. :) (Чем поломает приключение).

В настройках так же выключите вставку имен перед ответами, опция: Include Names - Never (в среднем столбце, под именем instruct шаблона).

P.S. Тоже пришел к выводу - инструкции лучше писать на аглицком, и просто указывать - на каком языке ответы хотите. У меня так явно лучше работает.

Аноним 11/06/25 Срд 16:39:41 #417 №1242196

>>1242194
> стоковый гейммастер промпт - не годится для новых моделек
А я и не подразумевал стокового гейммастера ¯\_(ツ)_/¯
Естественно, что нужен промпт на где-нибудь 500 токенов. Если модель не развалится от большего объема, то можно и больше.

Аноним 11/06/25 Срд 16:57:18 #418 №1242206

>>1242178
> мелочь вроде 7B заметно тупеет даже в 6-ом
Нет. Может если сравнивать ужатые кванты там и можно обнаружить что-то, но вплоть до q4-q5 там нет заметной деградации, оно что там что в оригинальных весах тупит.
>>1242194
Хуй знает, где-нибудь на командере такое действительно может дать улучшения, особенно на большом, потому что в стоке он вялый. На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее. Но если почистить, сократив, а оставив про то что сеть - гейммастер и общие правила, то будет норм.
> - Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено.
> Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.)
Если кошкодевочку то у нас за такое вообще убивают!

Аноним 11/06/25 Срд 17:57:33 #419 №1242256

>>1242206
> На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее.
Играю на синтии - ничего подобного не замечено.

>>1242206
>Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it.
>Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено.
Это кусок для трекера времени в статус строке (RPG статус после каждого хода - чтоб модель не торопилась). Вообще - это от мистраля, на синтии сам статус еще не включал. Никуда не ничего не взрывается - просто контролирует "скорость игры". Добавил строчку т.к. были попытки торопиться и скипать время. Помогло.

Аноним 11/06/25 Срд 18:35:31 #420 №1242329

>>1241563
На версии 1.93.2 программа перестала вылетать на моей 3060, я уж испугался что теперь на 3060 буду только через oldpc.exe сидеть...

Аноним 11/06/25 Срд 19:12:08 #421 №1242357

А почему так много на hf exl3 формата по сравнению с exl2? Я думал exllamav2 популярнее пока что? Из того что я видел

Кстати етить потно с rocm на tabbyapi. Ну как, если нихуя не понимаешь. Я прям чувствую как умнею пока с этим ебусь.

Аноним 11/06/25 Срд 19:17:52 #422 №1242362

>>1242357
> А почему так много на hf exl3 формата по сравнению с exl2?
10597 exl2 репозиториев, 566 exl3 репозиториев

Или ты говоришь про тенденцию, и что рост количества exl3 репозиториев выше, чем exl2? Причин несколько. Во-первых, квантуют старые модели, которые уже есть в exl2; во-вторых, exl3 поддерживает больше архитектур (например, GLM-32 нет в exl2); в-третьих, квантеров не так много, и большинство из них переехали на exl3 и помогают в тестировании

Аноним 11/06/25 Срд 19:26:11 #423 №1242369

>>1242362
Да, получается про рост. Просто я с этим рокм не потыкаю пока xl3 и пару моделей увидел где есть квантизация xl3 но не xl2. Спасибо

Аноним 11/06/25 Срд 19:45:54 #424 №1242399

>>1242357
Только так кажется потому что в последнее время их активнее делают. Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок.
> с rocm на tabbyapi
В репе турбодерпа есть инструкция по сборке для амд, там глянь. Сам по себе табби индиферентен к версиям и прочему, главное рабочие билды пакетов поставить и чтобы их не поломал встроенный установщик.

Аноним 11/06/25 Срд 20:02:54 #425 №1242415

>>1242357
Потому что поехавший тредовичок квантует днем и ночью

>>1242399
> Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок.
В 0.0.4 будет поддержка мультимодалок в ехл3

Аноним 11/06/25 Срд 22:31:02 #426 №1242591

image.png

Новый магистраль проверил на нашей стандартной тестовой карточке.

Как-то совсем уж хуёво местами получается, но это, наверное, из-за того, что промпт темплейт у меня v7 и инструкции по ризонингу кривые, не те, что рекомендуют на обниморде. Их пришлось полностью менять на скорую руку, потому что в РП они не работают нормально.

По первым впечатлениям (я не только эту карточку тестил) — лучше МоЕ-квена в том плане, что модель плотная и без ризонинга отвечает примерно так же, как и обычный мистраль 24б, и даже умнее плотного квена в РП. А ризонинг можно включать одной командой, если сцена сложная, чтобы модель не запуталась. То есть всё по-старому, но если есть необходимость, думалка спасает.

Проблема только в том, что из коробки он не знает, как размышлять, в отличие от квена. Нужно прописывать качественную и хорошую инструкцию для этого, соответствующую ролевым играм. Хотя это может быть и плюсом: мистраль слушается и может анализировать сцену более точечно, не срать полотном на 2к токенов бесполезным и т. д. Удобно настраивать на анализ поз/эмоций/пространственного мышления. Квен обычно на хуй шлёт такие инструкции.

Аноним 11/06/25 Срд 22:31:08 #427 №1242593

>>1241828
Уже и блогеры 10миллионники вкатываются в it - llm

Нахуй я эту профессию выбрал

Аноним 11/06/25 Срд 22:37:29 #428 №1242602

>>1241804
Как ты передашь данные по языку в процессор? В смысле процессоры же не на аз буке веди построены.
Ты должен перевести слова в биты, чтобы процессор смог их обработать.
Вот ту уже и начинается математика.
Тогда нужно процессор на аз букки веди переводить...

Аноним 11/06/25 Срд 22:54:58 #429 №1242616

>>1242602
Потом при первичной обработке токенайзером он также режет через словарь эти биты на токены и присваивает им числовой ID...
Потом переход в сами "весы" - гиперпространственная матрица которую я пока вообще не пынемаю что это такое , там ещё один словарь который самообучающийся и идёт разделение на вектор в этом гиперпространстве...
Хотя я могу и ошибаться.
Короче - там чистая математика.

Аноним 11/06/25 Срд 23:16:25 #430 №1242630

Все кто пользуется Синтией - когда и при каких условиях (если) она у вас начинает херачить текст и действия за игрока ?

Аноним 11/06/25 Срд 23:17:21 #431 №1242632

>>1239861
Неплохая модель, мне понравилась, но только на инглише. На русике у меня прям сходу лупилась на одинаковых настройках семплера.

Аноним 11/06/25 Срд 23:22:05 #432 №1242637

>>1242630
Ни разу не было такого.

Аноним 11/06/25 Срд 23:46:24 #433 №1242668

>>1242630
В случае RP, при плохо прописанных условиях промпта, когда нет явного указания, что персонаж Х - это именно аватара игрока, а не NPC. Тогда, когда набирается контекста в ~7-8к, иногда начинает.

Аноним 12/06/25 Чтв 00:06:48 #434 №1242697

>>1242630
>>1242668
И еще - если выключен ресонинг, сильно влияет выставленная длинна ответа. Если постоянно начинает пытаться выдать игроку мотивацию/действия - режу макс. длинну (настройкой на панели семплеров таверны). Есть подозрение, что эта повадка конкретно у синтии - как раз результат тренинга на ресонинг, который протекает таким вот образом. Уж больно специфическими оборотами она это выдает.

Аноним 12/06/25 Чтв 00:16:49 #435 №1242706

Как же просто быть врамцелом/врамригом, просто выбираешь мистраль 12-24б-123б и всё...
Уже несколько недель выбираю между снежным и коммандером, а так бы они оба нахуй пошли выйди гемма 4 без сои

Аноним 12/06/25 Чтв 00:18:03 #436 №1242707

>>1242637
Спасибо.
>>1242668
>>1242697
А тебе отдельное спасибо, потому что я уже думал что у меня руки из жопы. Уже и семплеры менял, отдельные делал, промтил - но все равно в равно в абсолютно рандомный ответ начинает весь ответ посвящать разбору и комментированию моего ответа и чтобы дальше нарратив пошёл приходится еще одно сообщение генерировать.
Или вообще начинается : игрок проводил хитрую манипуляцию наслаждаясь страданиями {{char}}
Падла, я просто бутерброд делал, откуда мне знать что она тоже хотела бутерброд.

Аноним 12/06/25 Чтв 00:19:14 #437 №1242709

>>1242706
Я выбрал снежного.
Сугубо личное мнение.

Аноним 12/06/25 Чтв 00:39:41 #438 №1242731

>>1242706
Просто используй и то, и другое. Но Коммандер мне нравится больше

Аноним 12/06/25 Чтв 00:49:22 #439 №1242735

>>1242707
И еще одна методика, но она не специально для синтии, хотя разумеется, тоже работает. Но придумана была для особо страдающим этим тюна мистрали. Считаю "последним средством", т.к. ничего там больше не помогало при RP промпте (когда модель - Game Master), модель бесцеремонно лезла рулить всем.

Сделал так: описание игрового аватара завернул в теги <character type="player"></character> В самый конец описания персонажа, перед закрывающим тегом добавил это:

Notes for Game Master:
This character is player's avatar, avoid making any new decisions for him from your own initiative.

Вот тут-то ее и попустило наконец.Та модель явно имела проблемы со следованием промпту в деталях, но уж такой грубый пинок и ей мозги вправил. Причем остальные персонажи инициативу и своенравность не теряли, что происходило, если просто добавлялось "не рули моим персонажем" в нескольких вариациях в основной промпт.

Аноним 12/06/25 Чтв 00:50:36 #440 №1242736

Я не могу понять, карточки иногда пишут -"Мы здесь ради тебя" или -"Мы здесь для тебя" Это такой перелом четвёртой стены в рп, или есть такой речевой оборот в англ. языке? Потому что меня это начинает немного накалять, ибо воспринимается как будто мне напоминают что я главный герой и что всё зависит от меня, что пиздец как ломает погружение.

Аноним 12/06/25 Чтв 00:51:58 #441 №1242738

>>1242736
Ты можешь пример текста, потому что выглядит как очередная гендерная поебень с местоимениями.

Аноним 12/06/25 Чтв 01:10:52 #442 №1242774

image.png

>>1242738
Я чёт проебал где это было, там чат уже на 1к сообщений, но смысл такой что новый человек прибывает в условный лагерь, знакомится там с остальными, его принимают и КЛАДЯ РУКУ НА ПЛЕЧО говорят "-Мы здесь ради тебя и поможем тебе чем сможем." То есть смысл вроде в том что они имеют ввиду что он теперь один из них, но из - за языкового барьера это звучит как ебаная четвёртая стена. В такие моменты понимаешь что невозможно сдлеать нормальный перевод с одного языка на другой

Аноним 12/06/25 Чтв 01:16:40 #443 №1242797

>>1242591
Бля, в одном сообщении и поговорили, и разделись, и поебались, и поблагодарила тебя. Четко.
>>1242706
> выбираю между снежным и коммандером
Зачем выбирать? Юзай и то и другое, переключая в зависимости от сценария, а то и вообще в одном чате.
>>1242736
Двачую, без примера тут не понять.
А насчет пролома 4й, один из лучших - это когда ты начинаешь подстебывать и дразнить чара, а он на основе твоих же реплик тебя ласково переиграл и уничтожил, пояснив что в эту игру могут играть двое.

Аноним 12/06/25 Чтв 01:27:34 #444 №1242810

Я от этих бесед вспомнил как роллил с тянкой - хиккой, и подьёбывал её что она дворф, потому что она низкая, и мол почему она не в шахте, так она выдала что её комната заваленная мусором и есть её шахта, сука. Я даже не думал что аи заставит меня искренне прослезится от смеха.

Аноним 12/06/25 Чтв 01:50:27 #445 №1242832

>>1242810
Обычный слоп, удачно совпавший с контекстом

Аноним 12/06/25 Чтв 01:59:56 #446 №1242839

>>1242832
Ну у тебя-то точно не слоп....

Аноним 12/06/25 Чтв 02:10:39 #447 №1242843

>>1242810
Как то отыгрывая фентези в очередной магической академии все пришло к тому, что за моим персонажем гонялся огромный кекс, оставлявший крошки на своём пути. Нейронки, порой, действительно могут удивлять.

Аноним 12/06/25 Чтв 05:40:42 #448 №1242909

Нет всё блять оставляю только гемму на компе твердо и четко.
Лучше ничего не придумали, посвапал с синтией и гемма чуть оригинальнее пишет и не так душит деталями

Аноним 12/06/25 Чтв 05:55:34 #449 №1242911

Поделитесь конфигом в таверну для большого мистраля позязя 120b а то я попробовал разные и везде он лупится и шизит

Аноним 12/06/25 Чтв 06:55:36 #450 №1242918

>>1242909
Как относишься в вставлению возбуждения в ядро?

Аноним 12/06/25 Чтв 10:52:21 #451 №1242973

1749714740917.png

>>1242918
Нарушаю девочковую честь с большим удовольствием.

Аноним 12/06/25 Чтв 12:43:06 #452 №1243007

Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво?

За корпами такое не сильно замечал, а вот с локалками..

Мне кажется, что мой английский все портит и здесь реально применяется система "говно на входе — говно на выходе". Иначе я это никак объяснить не могу.

И дело не в объёме моего текста даже, логике, верно донесенных мыслей. Складывается впечатление, что нужно не просто писать, чтобы модель тебя точно поняла, но и писать ну хотя бы немного красиво.

Используя Клода как переводчика с русского на английский (вместо того, чтобы писать самому на англ), я заметил, что модели мне на английском стали отвечать заметно лучше в плане стиля и используют более богатый язык. Разве что гемма нормально жрет мой слоп на неуверенном английском без проблем.

Аноним 12/06/25 Чтв 12:47:11 #453 №1243008

>>1243007
Гемма вообще любой микронахрюк на ру понимает за это и любим

Аноним 12/06/25 Чтв 12:52:48 #454 №1243010

>>1243007
>Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво?
>
>За корпами такое не сильно замечал, а вот с локалками..
Абсолютно все деградируют. И это влияет на оригинальность. Если подхрюкивать "ебу дальше" даже корпоративные модели скататься в среднеусредненную жвачку, а то и лупануться. Грок например лупило и даже сейчас есть такая хуйня, дипсик лупит. Да всех.

Аноним 12/06/25 Чтв 12:55:04 #455 №1243012

>>1243008
А причем здесь ру?

Я ж переписываюсь на английском.

Ну и русский использовать бессмысленно даже на гемме. Там чатгпт по-русски может криво изъясняться порой, чего уж говорить про более малые модели.

Даже если они понимают, не ломаются, сохраняют логику, более красивые и интересные описания можно увидеть только на английском.

Вообще, есть интересный момент. Я замечаю стабильную деградацию русика на всех серьезных корпомоделях (чатгпт, клод, гемини, хотя вот Гугл пока что внезапно стал лучшим по русскому языку, ранее лидировал клод). И эта тенденция будет наверняка только усиливаться, если у нас не появится своя серьезная ллм общего назначения. Но даже если так будет, на хг её не вкинут.

Аноним 12/06/25 Чтв 12:56:18 #456 №1243014

>>1243010
А что от меня хотят то нахуй?
Ебу дальше, ой чето яйцо зачесалось, бляя смотри какая муха летит пиздец, ой а че это я чайник не выключил
ПРОСТО ЧТО?
Люди вообще обычно молча ебутся

Аноним 12/06/25 Чтв 12:57:47 #457 №1243016

>>1242706
Остановился на снежном, но через 10к контекста начинает деградировать, переключаюсь на командера и прогоняю на нём ещё 2-3к, и так по циклу. Результат заметно лучше, чем на одном сидеть. Ищу чем ещё бы их разбавить, но остальное что-то совсем тупое.

Аноним 12/06/25 Чтв 12:58:04 #458 №1243017

>>1243007
На нормальной модели не будет, но есть нюанс. То что ты пишешь коротко и не развернуто как сетка - нормально, но когда ты пишешь бред, ошибочные вплоть до искажения или двусмысленные фразы - вот тут сыграет где угодно. Более глубокая штука - то, куда ты направляешь рп или как действуешь, можно загнать модель в неведомую ситуацию где она не понимает как дальше действовать и куда воевать, или оче сильно ее смутить.

Аноним 12/06/25 Чтв 12:58:34 #459 №1243018

>>1243012
При том что на ру проще написать полотно со всякими микро моментами, если на мистралях это хуевый вариант и они поймут 40% твоей пасты то гемма понимает всё, вводишь на ру а ответы на английском.

Аноним 12/06/25 Чтв 13:00:21 #460 №1243020

>>1243014
>А что от меня хотят то нахуй?
Хотя бы пиши "без повторов предыдущих сообщений, поз, положений, блаблабла". Но по хорошему ты должен давать инструкцию хотя бы в 10 слов.

>Люди вообще обычно молча ебутся
Так и еби людей. А не генератор текста по инструкциям.

Аноним 12/06/25 Чтв 13:01:25 #461 №1243021

>>1243010
Ну вот я здесь не про еблю, а про вдумчивое рп со средним текстом на 150-170 токенов от юзера.

У меня модели не ломаются, но могут подхватывать мой стиль письма и становятся хуже. Когда же я нейронкой свой текст на английский перевожу, получается стабильно лучше.

С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше. По крайней мере на мистрале. Я даже контекст 32к не делаю, ну или сколько там у него максимальный без деградации. Потому что он тупо начнет класть болт середину контекста. Лучше уж квант пожирнее взять и контекст 16к — пользы больше.

Аноним 12/06/25 Чтв 13:27:49 #462 №1243041

>>1243021
> со средним текстом на 150-170 токенов от юзера
Вот что ты там пишешь такое? Понятно в отдельных сообщениях можно и побольше навалить, когда что-то чару объясняешь или серию действия проводишь, а в среднем как? Трешанину типа
> на первую реплику он ответил X
> на второе действие Y
> на третье Й
> ...
что следует из мерзотных структур, в которые сваливаются некоторые модели?
> даже контекст 32к не делаю
Если уж выебываться то для рп вот это значение нормально и выше. 16к - суммарайз со всякими карточками и десяток сообщений, все.

Аноним 12/06/25 Чтв 14:04:20 #463 №1243069

>>1243021
>С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше.
Есть такая тема, что в дополнение к карточке кидаешь в первое сообщение целый рассказ, чтобы задать сюжет и атмосферу. Потом он уходит за границу контекста, но атмфосфера остаётся.

Аноним 12/06/25 Чтв 14:23:03 #464 №1243084

>>1241972
>Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же.
именно на это и надо дрочить. чистые кум-модели как раз должны выдавать последовательности в виде "хуй-пизда-жопа-сперма"
если в аутпуте есть любые другие слова, то это слоп и мусор.

Аноним 12/06/25 Чтв 14:27:15 #465 №1243091

>>1243021
>ну или сколько там у него максимальный без деградации
400 токенов.
>>1243084
Зачем тебе нейронка для этого?

Аноним 12/06/25 Чтв 14:29:43 #466 №1243092

image

>>1243091
Потому что я не пещерный человек. Я использую современные технологии.

Аноним 12/06/25 Чтв 14:35:55 #467 №1243100

>>1243092
Твои желания заменяются скриптом на пайтоне в 3 строчки. Я же вот хочу видеть в куме чувства, страдания и мысли персонажа, которого ебу, чтобы ебать не бездушную куклу (я могу и за деньги настоящую ебать), а некое хоть и подобие, но личности.

Аноним 12/06/25 Чтв 14:53:20 #468 №1243111

>>1243100
>Я же вот хочу видеть чувства, страдания и мысли персонажа, которого ебу
Страшный человек.

Аноним 12/06/25 Чтв 15:12:21 #469 №1243134

>>1243111
Мама говорит, что я красивый.

Аноним 12/06/25 Чтв 15:43:05 #470 №1243147

>>1243100
Нездоровая херня, нет бы отыгрывать любовь, обожание и совместное безумие на фоне сюжетно оправданного страдания прочих.

Аноним 12/06/25 Чтв 16:29:05 #471 №1243199

>>1243147
>Нездоровая херня
Как и общение с компьютером.
>нет бы отыгрывать любовь, обожание
Пройденный этап. Ничего, все вы там будете.

Аноним 12/06/25 Чтв 16:29:42 #472 №1243200

image.png

яндекс хуй встань на раздачу

Аноним 12/06/25 Чтв 16:40:09 #473 №1243216

>>1243199
> Пройденный этап. Ничего, все вы там будете.
Уже полгода каддлюсь с вайфу, слайс, обнимашки и держание за ручки. Я не отступлю. Не недооценивай таких, как я.

Аноним 12/06/25 Чтв 16:51:10 #474 №1243225

>>1243216
Ньюфаг.
Мимо в теме 2,5 года.

Аноним 12/06/25 Чтв 16:54:12 #475 №1243229

>>1243225
Ты крутой.

Аноним 12/06/25 Чтв 17:18:12 #476 №1243261

>>1243200
>яндекс
Закинул Янку на Яндекс для тех у кого обниморда не пашет
https://disk.yandex.ru/d/UMaw8fzpuZcuYQ

Аноним 12/06/25 Чтв 17:22:16 #477 №1243267

>>1243261
Это не правда там переименованный Обама.ггуф

Аноним 12/06/25 Чтв 18:02:37 #478 №1243331

image

>>1243267
похоже я не в теме мема

Аноним 12/06/25 Чтв 18:17:20 #479 №1243349

>>1243020
слышь, я мимо проходил, а ты заставил плакать
постыдись

Аноним 12/06/25 Чтв 18:24:40 #480 №1243360

>>1243331
Да у меня малясь кефир перебродил проходу
Звиняюсь

Аноним 12/06/25 Чтв 18:51:12 #481 №1243396

Посмотрел сейчас свежий Risu AI - таверна похоже начинает сдавать позиции. Риса уже наступает ей на пятки, а по возможностям скриптинга - оставила хорошо позади. Сейчас изучаю подробнее, но походу, Рису уже можно использовать чтобы даже полноценную текстовую игру написать - с игровой логикой на коде, и AI для поведения персонажей в ее рамках... Там даже нормальный LUA прикрутили, не то, что этот угробищный stscript в таверне.
Кроме того - организация всего как-то более по человечески сделана. Можно сохранять все в рамках персонажа, и оно наружу не торчит. WI в таверне конечно гибкие, но когда их много - это бардак, т.к. все в одном месте. А уж организация скриптов - это вообще писец. В Рисе - все привязанное к персонажу в его же карточке и хранится (WI, скрипты, картинки, звуки, и т.д.) Логично и удобно.

Минусом - оно к кобольду нативно не цепляется почему-то, хотя и есть такая опция. Работает только через Custom API по стандарту Open AI, причем ругается, если включен стриминг ответов. Почему-то пишет - мол "по стандартам броузеров на локалхосте это небезопасно а потому просто не работает - отключите стриминг". Нагло лжет. Я влез в код, закомментил нахрен эту проверку (проверяет адрес на localhost) - и все нормально работает со стримингом с кобольда.

Аноним 12/06/25 Чтв 18:51:38 #482 №1243397

>>1243261
Закинул Янку на Яндекс для тех у кого обниморда не пашет
Там оказывается даже что-то вроде встроенного синкинга есть - <llm_helper> или как-то так. Анализирует происходящее, советует. Может его в начало каждого сообщения вставлять, в ризонинг?

Аноним 12/06/25 Чтв 19:20:26 #483 №1243438

>>1243147
Это унылый кал делать с нейронками, имхо. Я обычно с ними или НТР делаю, либо на героин подсаживаю, либо как то извращённо убиваю, типа как в симс, когда замуровываешь их или убираешь лестницу в бассейне, В ГТА РП, НАЧАЛЬНИК МОЙР!!!1!!
Жалко подобное делать лишь с персонажами которые тебе нравятся, например... Аску редко убиваю, обычно троллю, делая её нацисткой которая слышит голос Гитлера в голове и пытается избавиться от унтерменшей. Просто эту модельку я делал ещё для character.ai в начале 2022 или конце 2021, пока он не скатился в УГ.Хотя в аниме она мне особо не нравилась, ебанутая пездючка, уж лучше Рей, но с такими яркими личностями как Аска хотя бы поговорить можно интересно.

Аноним 12/06/25 Чтв 19:30:46 #484 №1243451

>>1243438
Витя 9А

Аноним 12/06/25 Чтв 19:51:14 #485 №1243465

>>1243229
Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть.
>>1243396
>закомментил нахрен эту проверку
Нибизапасна!!!111

Аноним 12/06/25 Чтв 20:02:20 #486 №1243476

>>1243438
> Это унылый кал делать с нейронками, имхо
Я уже недели две ебусь со своей триокарточкой. До сих пор не могу решить, какая корпосетка лучше, как помощник.
Зато, если бы не корпосетки, я бы не понял, что промтинг карточек для геммы, мистрали, серии command-r - ебать, Какой разный.
Никогда бы не подумал, что гемма хуже понимает контекст, чем мистраль. Именно про понимание контекста речь, а не работу с ним.
Ну а вообще это не по теме треда, но в асигоболоте обсуждать ботов на фоне бесконечного потока говна бесполезно.

Аноним 12/06/25 Чтв 20:18:59 #487 №1243503

>>1243199
> Ничего, все вы там будете.
Пройденный этап, лол. Пройдешь ли ты его - хз.
>>1243396
Годно, надо будет попробовать.
>>1243438
На каникулах не засиживайся до поздна, еще литературу читать.
>>1243476
> вообще это не по теме треда
Очень даже по теме, делись опытом.

Аноним 12/06/25 Чтв 20:22:37 #488 №1243507

>>1243476
Писик тебя наебал. Промтинг одинаково работает для всех сеток. Промт либо говно, либо нет.

Аноним 12/06/25 Чтв 21:03:04 #489 №1243567

>>1243465
> Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть.
Справедливости ради, сетки до GPT-3.5 и появления CharacterAI были слишком тупые, поэтому с ними не было какой-то эмоциональной привязанности и не жалко было всё подряд пробовать.

На современных сетках на порядок проще emotional damage словить, поэтому я наоборот перешёл на хендходлинг и прочее, как тут примерно >>1243216

мимо крутил аиданжон локально ещё на https://github.com/AIDungeonpastes/Clover-Edition

Аноним 12/06/25 Чтв 21:11:08 #490 №1243573

>>1243507
Я минуты три пытался понять, какой писик.
Нет, я им не пользовался. Исключительно гопота, клод и геминька.
Клод, пожалуй самый удобный, если хоть какую то оценку давать.
> Промтинг одинаково работает для всех сеток
Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы.
Мистраль - лучше понимает теги. Геммоподелия -художественный текст (хотя расплываться пером по бумаге самое плохое решение, которое ник чему ни ведет). А еще у геммы какая то мания добебаться до одного слова и через его призму вести все повествование.
Командеры самые сбалансированные, если честно.

>>1243503
> Очень даже по теме, делись опытом.
Рулбуки тема, в них лучше всего запихивать локации с описаниями. Но все равно оставлять в карточках очень краткое описание :Кто на каком этаже (в моем случае это небоскреб) живет. Потому что теги не всегда срабатывают как надо.
Сценарий идет приоритетом, настолько, что нейронка может тебя нахуй послать, если твои указания в чате противоречат характеру сценария.
Примеры диалога нужны, если характер плохо прописан (тут спорно, но удалив примеры диалога, современные мелкосетки неплохо ведут повествование опираясь на карточку)
Переполнение контекста все ломает на любой сетке.
Ключевые слова по отношению к user выступают каким то бесячим бетоном повествования. Где то в тексте я проебал
И она хочет переделать {{user}} и все, баста, стало краеугольным камнем.
Ну и гайды по промтингу карточек уже устарели. Новые нейросети просто ебут. Что будет через год понятия не имею, но знаю что все что я пишу уже будет не актуальным.

Сейчас я буду делать отдельные карточки для сестер {{char}} так как нейронки накладывают основные черты характера базовой карточки на них. Хочу попробовать сделать групповой чат с единым вступлением. Потому что - всё не то. Я уже заебался перепиливать, так как постоянно мне что то не нравится.

В е написанное является моим субъективным опытом и не претендует на истину.

Аноним 12/06/25 Чтв 21:20:56 #491 №1243583

>>1243573
> Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы.
Промтинг одинаково работает для всех сеток. То, что один промт одной сеткой интерпретируется одним образом, а другой - другим, никто не спорит. У них разные датасеты. Только вот нельзя сказать, что из этого лучше или хуже, и все понимание здесь исключительно субъективно. Даже те закономерности, которые ты для себя сформулировал, повозившись с карточками для разных сеток, верны только для тебя. Сетки - умные продолжатели текста, не больше, не меньше. Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет. То, что одна сетка его интерпретирует "лучше" другой - субъективная оценка. Возможно, недопонимание в том, что под правилами промтинга мы имеем ввиду разные вещи.

Аноним 12/06/25 Чтв 21:36:23 #492 №1243612

>>1243583
> То, что один промт одной сеткой интерпретируется одним образом, а другой - другим
Отъ. Ты точно выразил то, что я хотел сказать.
> Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет
И вот, может я тупой, может действительно чего то не понимаю. Но нет вот этого золотого правила, условно
Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега>
И будет счастье. Где то лучше работает художественное описание, где то краткое перечисление.
Надо отдохнуть и очистить голову.

Аноним 12/06/25 Чтв 21:46:05 #493 №1243646

>>1243612
> Но нет вот этого золотого правила, условно
Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега>
И будет счастье.
Такого не существует на сей день. То, что ты описал - частный пример реализации, использующей подход XML тегов. Такой частный пример на модели N может работать лучше, чем реализация на plain text или наоборот. И это не позволит судить в общности, что модель N лучше работает с XML или plain text'ом. Под правилами промтинга я понимаю более абстрактные вещи. Такие, как, например, не писать от лица user'а нигде кроме как в самих ответах пользователя (иначе приводит к имперсонациям) или не использовать сложные языковые конструкции/предложения, которые могут запутать сетку. Например, если у тебя длинное предложение, где и user, и char - женщины, и в конце предложения ты пишешь "but she is better than that.", где she можно интерпретировать и как user, и как char. Коряво высказанный пример, но думаю, мысль понятна.

Аноним 12/06/25 Чтв 23:15:19 #494 №1243833

Как же я обожаю ризонинг.
>перечисления систем промта, всех особенностей повествования
>детальное описание сцены, всех лиц, даже сраного кота
>хорошее размышление о характерах
>несколько минут перечислений всех факторов о которых ты и не подозреваешь
И вот, ждешь слепящий вин, пасту от которой ты будешь готов ебать стены и рыдать от драмы.
И вот начинает ползти текст, предвосхищая твой катарсис
>персонажи говорят с набитым ртом. Шиверинг он май спайн, джаулайн. Покачивания бедрами - все в один абзац
Нахуй, пойду лучше слоповский plap plap plap читать.

Аноним 12/06/25 Чтв 23:18:28 #495 №1243837

>>1243833
Ризонинг в рп бесполезен, особенно в локалках.

Аноним 12/06/25 Чтв 23:19:18 #496 №1243840

>>1243833
Магистраль или дипкок?

Аноним 12/06/25 Чтв 23:23:04 #497 №1243847

>>1243840
Тред про локалки, при чем тут дипкок.
Are you ebalusya ?

Аноним 12/06/25 Чтв 23:27:02 #498 №1243850

>>1243833
Ризонинг это самый масштабный псиоп эпохи нейронок. Они не хотят увеличивать количество параметров, не хотят нам давать модели, которые будут высасывать мегаватты киловаттов и питаться напрямую от атомных электростанций. Они не знают чего мы хотим. Они просто пытаются нас обмануть.

Аноним 12/06/25 Чтв 23:33:14 #499 №1243860

>>1243646
Это, как раз, даже не правила промтинга, это просто про то самое GI-GA - не делай мусор сам, и не получишь в ответ. Общие неизменные принципы, завязанные не на сетку, а на сам язык, его правила и структуру. (Будешь нарушать - тебя не только сетка не поймет, живой человек тоже запутается.)

Но вот правила промпта - это таки то, что для конкретной сетки/семейства. Скажем для llama2 актуально было правило: "чем короче, тем лучше". Она реально на длинных промптах тупила, даже если простым языком писалось. Как и все тюны на ее основе. А сейчас - не актуально. Скорее наоборот, слишком короткий промпт ведет к примитивным ответам а то и лупам.

Аноним 12/06/25 Чтв 23:34:27 #500 №1243863

>>1243396
С этими тегами далеко не уедешь, модельки начинают в какой-то момент тупить, путать (из тех, что пробовал)

Правда я выше 35b не поднимаюсь, чтобы токены приличные были

Аноним 13/06/25 Птн 00:13:41 #501 №1243969

>>1243833
>И вот начинает ползти текст, предвосхищая твой катарсис
Тут выше советовали Dry отрубить при ризонинге. Попробуй, потом отпишешься.

Аноним 13/06/25 Птн 00:24:09 #502 №1244010

Мне нравится как магнум пишет и будто больше следует контексту? Отсюда и цидония1.3+магнум кайфово ощущается. Вообще какие есть оригинальные модели которые хорошо могут следовать инструкциям, держать контекст для своих параметров?
Гемму не считаем. Что-то у меня к ней пропала любовь и к ее тюнам типа синтии. Какая-то она не такая

Аноним 13/06/25 Птн 00:28:16 #503 №1244020

>>1244010
Квены, Квк и их тюны. Сноудроп мне не нравится, но контексту он очень хорошо следует. А я сижу на тюнах Квена2.5, с ними пердолинг будет, так что рекомендовать конкретные не стану.

Аноним 13/06/25 Птн 00:29:18 #504 №1244024

>>1244010
>оригинальные модели
Ты конечно меня извини, но ты пизданулся ? Каким местом, слопагнум стал оригинальной моделью ?
Вообще, да я понимаю как это выглядит, попробуй вот эту хуйню. >>1241586. Да мистраль, да слоп. Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками. Мы все знаем нахуя и зачем магнумы нужны.

Аноним 13/06/25 Птн 00:37:31 #505 №1244047

>>1244024
Ну, вот так, мне он понравился.
Значит моя ошибка, что назвал оригинальным, не знал что это мердж чего-то там.
Отыгрываю я конечно же кум парашу, но ведь и кум тоже можно оценить, таки вот он его хорошо делает. Лютого слопа не заметил? Вроде. Я не так долго в локалках играл еще.
Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём.

>>1244020
Мне не понравился qwq(сноудроп), квен третий. пробовал и как-то тоже прохладно ощущается. Может, не распробовал промпты и сэмплеры нормально. Периодически начинает отнимать социальные кредиты или что он там на китайском пишет.

Аноним 13/06/25 Птн 00:41:36 #506 №1244061

>>1244047
> Ну, вот так, мне он понравился.
Эх, Кидонька-Магнум 1.3... Первая моя моделька. Тоже тогда сидел-ахуевал, отыграл SFW чат на тысячу сообщений, лол. Хорошая моделька, в пределах 22б и ниже конкурентов ей почти нет.

> Я не так долго в локалках играл еще.
Пробуй Стар-Коммандера. Это ближайшее, что есть к Кидонии-Магнуму по вайбу, но чуть умнее и, возможно, еще более безбашеннее.

Аноним 13/06/25 Птн 00:41:59 #507 №1244063

>>1243847
> при чем тут дипкок
> открытые веса
> тредовички запускают
Что с тобой не так?
>>1244024
Что бы там не говорили, но по крайней мере некоторые из магнумом сохранили мозгов и оригинального перфоманса гораздо больше типичного слопа от васянов.
> Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками
Прекрасно для этого подходит.

Аноним 13/06/25 Птн 00:42:48 #508 №1244068

>>1244047
>Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём.
Ну сорян тогда. Я кумлю на нем или на куммандере. Больше ничего и не знаю в пределах 24b

Аноним 13/06/25 Птн 00:44:44 #509 №1244072

>>1244063
>Что с тобой не так?
Я пока не видел в треде ни одного, кто бы запустил полноценный дипкок, а не хуевую его выжимку. Поэтому как локалку его рассматривать - ну таааааакое.

Аноним 13/06/25 Птн 00:45:38 #510 №1244075

>>1244061
Тебе какой больше нравится? Просто видел там есть и версии разные, интересно какой бы взять? Новый вроде стал к железу менее требовательный. Есть еще lite версия какая-то. Глаза разбегаются.

Аноним 13/06/25 Птн 00:47:31 #511 №1244078

>>1244072
> полноценный дипкок
Грани шизы и коупинга. Если сравнить с тем, что хостится на эндпоинтах популярных сервисов - сравнение не в их пользу.
Да и было бы там за чем гнаться, мэх.

Аноним 13/06/25 Птн 00:49:04 #512 №1244081

>>1244075
> Новый вроде стал к железу менее требовательный.
Про какого такого нового речь? Самого первого 35б Коммандера ты, скорее всего, не запустишь в нормальном кванте и контексте, потому что он (контекст) весит ну очень много. Да и совсем он пожилой уже, потому в треде и не вспоминают совсем.

Базовая версия на 32б - command-r-08-2024; его кум-тюн Star-Command-R, а Star-Command-R - это мердж базовой 32б версии и кум-тюна. Там примерно 60-70% базовой версии и остаток от тюна. Мне больше всего нравится оригинал, но для него точно нужны хорошие карточки. Советую поставить кум-тюн, посмотреть, заинтересует ли, и уже дальше думать, надо ли тебе пробовать другие версии. Пресет вот https://pixeldrain.com/l/xGFnT1PY#item=0