Сообщите нам если начиная с сентября вы испытываете проблемы с доступом к сайту через клирнет, сразу укажите сообщение об ошибке или приложите скриншот.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №159 /llama/

 Аноним 20/08/25 Срд 00:49:05 #1 №1326416 
Llama 1.png
Эффективность квантования EXL3.png
Реальная длина контекста у моделей 3.png
17555367790910.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1323697 (OP)
>>1318126 (OP)
Аноним 20/08/25 Срд 00:54:28 #2 №1326423 
Мб уже шарили, LLM на yandex-gpt основе, был файн-тюн, без цензуры, GGUF (есть и полная)

https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf/tree/main
Аноним 20/08/25 Срд 01:01:10 #3 №1326433 
>>1326423
System Tag: <|start_header_id|>system<|end_header_id|>

User Tag: <|eot_id|><|start_header_id|>user<|end_header_id|>

Assistant Tag: <|eot_id|><|start_header_id|>assistant<|end_header_id|>

Sys. Prompt: https://justpaste.it/j3pc1 (порнобот)

Temperature: 0.3 - 0.7
Аноним 20/08/25 Срд 01:17:58 #4 №1326448 
>>1326319 →
Это все равно 3 штуки 4090 и у него, судя по описанию, их нет.
>>1326338 →
Необходимо добавить еще -ngl 999 и проверить не переполняется ли врам
> -t 9
Вот это выкини вообще, потом уже когда норм заработает можешь попробовать поиграться.
>>1326357 →
Оверклокер в треде, все в жидкий азот.
Аноним 20/08/25 Срд 01:17:59 #5 №1326449 
Disgusting.jpg
>>1326423
>LLM на yandex-gpt основе, 8b
пик

Лучше скажите когда 4ая Гемма, не томите, кто тут у нас в Гугле работает, в ДипМайнде?
Аноним 20/08/25 Срд 03:14:14 #6 №1326486 
Можно ли писать карточки персов через чата гпт?
если попрошу nsfw описать в карточке он опишет?
Аноним 20/08/25 Срд 03:17:11 #7 №1326488 
>>1326449
Завтра, мне папа сказал
Аноним 20/08/25 Срд 04:11:31 #8 №1326501 
Cмысл сабжа если есть character.ai? Дни на пердолинг таверны и сотня тысяч на видяшку только ради того чтобы получить доступ не к ванильному а к хардпорно?
Аноним 20/08/25 Срд 05:23:50 #9 №1326522 
>>1326501
>Cмысл сабжа если есть character.ai?
Жирнить пришел или просто долбаеб? Хотя одно другого не исключает.
>Дни на пердолинг таверны
Ставится за пару минут, если ты не пизданутый наглухо. Настраивается за пару часов, если умеешь читать.
>сотня тысяч на видяшку
Локалки заводятся на любом барахле, которое имеет процессор и память.
>чтобы получить доступ не к ванильному а к хардпорно
На чайной нет никакого порно, даже ванильного. Лучше бы в пример какой-нибудь спайси чат привел, чтобы не так сильно обсираться.
Аноним 20/08/25 Срд 06:38:08 #10 №1326536 
>>1326501
очень сложно развести на еблю ботов там
спайсичат лучше, но там и нет никакой настройки типа температуры и других семплеров, такчто не, мимо
Аноним 20/08/25 Срд 06:51:43 #11 №1326539 
Кто то пробовал глм 355б во 2 кванте?
В 128рам должно лезть
Аноним 20/08/25 Срд 06:53:28 #12 №1326540 
>>1326354 →
>Неплохо, но стоило бы еще добавить в сис промпт что-то типо
>- Never write messages on behalf of {{user}} or try to continue the conversation on their behalf.
>А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица.

А, я обычно рпшу в режиме соавтора от третьего лица, поэтому мне норм.
Аноним 20/08/25 Срд 07:14:03 #13 №1326543 
Аноны, такой вопрос как бы очевидный нахуй
как запускать без интернета? Ну типа, ты же все равно должен на айпишник зайти а это же интернет нужен, не ? или я чего то не понимаю?
Аноним 20/08/25 Срд 07:36:36 #14 №1326551 
>>1326543
>или я чего то не понимаю?
Нет, ты всё понимаешь правильно. Можно даже сказать, что ты задаешь правильные вопросы. Так что предлагаю тебе отключиться от интернета и попробовать подключиться к локальному серверу без его участия. Результатами обязательно поделись, вопрос серьезный.
Аноним 20/08/25 Срд 07:36:57 #15 №1326553 
>>1326543
>или я чего то не понимаю
https://ru.wikipedia.org/wiki/%D0%9B%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B5%D1%82%D1%8C
Аноним 20/08/25 Срд 07:39:51 #16 №1326554 
>>1326543
тролля из 14 поста не слушай

для подключения к серверу запущенному на твоей собственной машине, что делают локальные фронтенд / бэкэнд ллмок интернет не нужен
Аноним 20/08/25 Срд 07:50:59 #17 №1326555 
Ну так и че там по квантам.
У меня например на 2 кванте русик не то чтобы хуже чем у анона на 6xl здесь >>1325404 →
Может и правда моделям 200+б просто похуй уже на квантование
Аноним 20/08/25 Срд 08:07:11 #18 №1326559 
>>1326555
>похуй уже на квантование
оно скажется в точных задачах вроде кодинга, но в сторителлинге, хз, разве что ты свою нейро песнь льда и пламени задумаешь писать
Аноним 20/08/25 Срд 08:30:32 #19 №1326564 
Как сбросить настройки модели в LMStudio? Накрутил какой-то хуйни на GPT4-20M, теперь не грузится. Хотя грузилась как только скачал. Я дропнул модель и загрузил ее заново, но не помогло, настройки хранятся где-то не в каталоге с моделью.
Аноним 20/08/25 Срд 08:41:50 #20 №1326565 
>>1326564
>LMStudio
не использовать её
Аноним 20/08/25 Срд 08:43:00 #21 №1326566 
>>1326565
А что использовать?
Аноним 20/08/25 Срд 08:50:13 #22 №1326568 
>>1326566
Мозг. Наверху все написано.
Аноним 20/08/25 Срд 08:55:55 #23 №1326571 
дайте кто нить джейлбрейк для гемини флеш 2.0 а
Аноним 20/08/25 Срд 09:02:10 #24 №1326573 
>>1326448
>Это все равно 3 штуки 4090
Одна 4090. И две п40, это на них оказывается выгружало. Но всё равно не понятно, где эти мифические 10 токенов, такая же скорость была и на старых плотных моделях ~70б.
>Необходимо добавить еще -ngl 999
Сегодня попробую.
Аноним 20/08/25 Срд 09:45:13 #25 №1326584 
>>1326566
>А что использовать?

Бэк: Koboldcpp, llamacpp, tabbyapi
Фронт: Kobold-Lite, Silly Tavern

Это с чем тут точно (ну, или почти точно) помогут.
С остальным, с такой же вероятностью только обосрут.
Аноним 20/08/25 Срд 09:45:51 #26 №1326585 
>>1326571
GTFO в /aicg/, жЫвотное
Аноним 20/08/25 Срд 09:52:25 #27 №1326586 
Решил я вечером покушать чистого слопа, но все было не то. Не хватало этой, знаете, хентайной радости от происходящего. А потом меня осенило : ответ же на поверхности, нужно просто запромтить хентайворлд.
Чем мы вечером и займемся.

>>1326571
Тебе в соседний тред ботоводов, тут обсуждают локальные ллм.
Аноним 20/08/25 Срд 10:09:26 #28 №1326591 
Какой же у асигодетей дум пошёл что они к локалкам бегут...

Виртуальные девушки и парни после обновления GPT-5 бросают людей и хотят просто "дружить"
https://www.playground.ru/misc/news/virtualnye_devushki_i_parni_posle_obnovleniya_gpt_5_brosayut_lyudej_i_hotyat_prosto_druzhit-1787404
Аноним 20/08/25 Срд 10:14:57 #29 №1326593 
>>1326591
А ведь будь это локалочкой решилось бы системным промптом
Аноним 20/08/25 Срд 10:21:26 #30 №1326597 
>>1326593
А корпы разве не промтятся ? И не надо на меня так смотреть, я максимум спрашивал у дипсика как готовить лазанью.
Аноним 20/08/25 Срд 10:25:46 #31 №1326601 
>>1326597
Через апи можешь рулить всем чатом, через корпофронты доступа к первому сообщению ака системной инструкции нет. Но если мы говорим об апи, то это другое
Аноним 20/08/25 Срд 10:28:15 #32 №1326604 
>>1326601
>другое
Чому ? Разве это не основной способ использовать корпы для РП ?
Аноним 20/08/25 Срд 10:30:24 #33 №1326606 
>>1326604
Тут уже ответить не могу, но я что-то сомневаюсь что все поголовно идут заносить доллары за токены в апи
Аноним 20/08/25 Срд 10:36:56 #34 №1326608 
>>1326606
Ну и хуй с ним. Все равно не тематика. Не будем спать в тред. Авось придет какой нибудь корпоеб.
Хотя я вангую, что скорее всего ты просто будешь баны за охуительные запросы получать.
Аноним 20/08/25 Срд 10:42:41 #35 №1326615 
>>1326606
Почитал что у них происходит. Встал из-за стола, подошёл к окну, закурил, много думал, плакал...
Аноним 20/08/25 Срд 10:51:16 #36 №1326622 
>>1326585
>>1326586
Да вы уроды, мне для magic translation нужно суки.
Аноним 20/08/25 Срд 11:12:19 #37 №1326629 
>>1326622
И чё, ну вот и чё ? Ты где то тут в треде увидел как аноны делятся джейлбрейками ? С чего ты взял, что тут вообще, кто то ебет за джейбрейки корпов ?
Аноним 20/08/25 Срд 11:21:35 #38 №1326636 
>>1326629
В ПИЗДУ ТОГДА ВЫ МЭДЖИК В ШАПКУ ПИХАЕТЕ , ХУЕСОСЫ?
Эта параша работает на гемини, а гемини мало того что без впн не работает, так еще и не переводит 18+, так что нужен сраный джейлбрейк.

Какие же тупые твари, блять.
Аноним 20/08/25 Срд 11:23:59 #39 №1326638 
>>1326629
Может ты уже прекратишь ебика кормить, мань? Или ты он и есть?

>>1326636
Затем, что оно и на локалках работает, глупенький ты наш. Пиздуй отсюда в облачный тред ад, не трать свое драгоценное время, тебя здесь разве что обоссут
Аноним 20/08/25 Срд 11:24:46 #40 №1326639 
>>1326638
>локалках работает,
ебать, че две локалки одновременно запускать? Угараешь?
Аноним 20/08/25 Срд 11:26:28 #41 №1326640 
>>1326639
на разных портах, дебил

или учи английский

или рпшь на русском
Аноним 20/08/25 Срд 11:28:13 #42 №1326641 
>>1326640
я рпшил на англ всегда, просто решил попробовать эту хуйню.

>на разных портах, дебил
Обяснишь? или впадлу?
Аноним 20/08/25 Срд 11:31:10 #43 №1326644 
>>1326641
> llama-server -m model.gguf --port 8080
Угадай что означает цифры 8080 ?

>>1326638
>перестанешь кормить
Так ты сам кормишь, святой, блять.
Аноним 20/08/25 Срд 11:33:58 #44 №1326645 
>>1326644
>Угадай что означает цифры 8080 ?
и как вьебать другую локалку-переводчика на другой порт?
Аноним 20/08/25 Срд 11:36:09 #45 №1326647 
>>1326645
Ты сейчас леща отхватишь
Аноним 20/08/25 Срд 11:37:22 #46 №1326649 
1755679043982.jpg
>>1326645
Аноним 20/08/25 Срд 11:37:53 #47 №1326650 
>>1326645
Ладно, признаю. Ты охуеть какой зеленый.
Был не прав, признаю, что тратил время.
Аноним 20/08/25 Срд 11:45:23 #48 №1326658 
Screenshot 2025-08-20 at 11.30.32.png
>>1326522 Ollama установилась быстро, но выдает 3 токена. В таверне же действительно фиг разберешься.
Да и по качеству ответов gemma-3-27b фигня какая-то. Выдает огромную стену текста с каким-то фанфиком по теме.
Даже у dungeon.ai с его длинными, повторяющимися и совершенное не продвигающими сцену ответами получается лучше.
с.ai на голову выше. И ответы короче и содержательней и сюжет двигает понемногу.
>>1326536 Есть там ванильный nsfw, доступность как я понимаю зависит от описания персонажа.
Аноним 20/08/25 Срд 11:46:35 #49 №1326659 
>>1326658
ещё один зелёный, поставил говно и гонит на геммочку-умничку
Аноним 20/08/25 Срд 11:49:18 #50 №1326661 
IMG3979.jpeg
>>1326658
> Ollama
> Даже у dungeon.ai
> с.ai на голову выше
Аноним 20/08/25 Срд 11:49:53 #51 №1326663 
image.png
>>1326110 →
Тут пруфают? Пруфаю!

>>1326091 →
База.

>>1326101 →
Тоже база.

>>1326591
Ору!
Аноним 20/08/25 Срд 11:51:15 #52 №1326664 
>>1326661
Ультрабаза.

Люди ВСЕ ЕЩЕ вместо того, чтобы слушать ответы на свои вопросы, советы и читать — делают все неправильно, получают плохой результат и недовольны.

Проблема в прокладке между креслом и монитором.
Shit in — shit out.
Аноним 20/08/25 Срд 11:54:13 #53 №1326667 
>>1326661 У меня лапки и intel mac вместо компьютера. Что запустилось то и проверял.
Аноним 20/08/25 Срд 11:56:08 #54 №1326670 
>>1326667
Не в этом проблема. Нельзя выдавать своё мнение о локалке, не понимая как её запускать и что ты делаешь.
Ты не гемму запустил, а лоботомита на кривых семплерах с кривым промтом. Это как делать обзор на майбах, катаясь на электросамокате.
Аноним 20/08/25 Срд 11:58:54 #55 №1326672 
>>1326667
Только вот Gemma 3 27b — это не «что запустилось», это нормальная модель.
Так что intel mac или nvidia linux у тебя — не важно, вывод будет одинаковым, если ты все корректно настроишь, а не будешь ломать кувалдой ящики, утверждая, что в них невозможно ничего хранить.
Аноним 20/08/25 Срд 12:26:59 #56 №1326698 
>Never write messages on behalf of {{user}} or try to continue the conversation on their behalf.
>А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица

Это плохая идея такое добавлять в таком виде, оттуда и появляется этот ваш слоп и пробуксовка сюжета - у нейронки одновременно стоит задача двигать повестование сообщением в 800-1000 токенов, и одновременно эта хуйня, по которой юзер статичен и его состояние не может меняться и даже описываться. Она и начинает изгаляться, описывая статичную ситуацию вокруг юзера сотнями слов хуйни. Такое подходит только для букуального чата с персонажем, где кроме прямой речи ничего нет. Для РП или не дай боже адвенчуры это смертный приговор.
Аноним 20/08/25 Срд 12:29:56 #57 №1326700 
>>1326661
Dungeon AI кстати вроде какой-то мистраль файнтьюненный использует, так что ненастроенную гемму он действительно сделает.
Аноним 20/08/25 Срд 12:39:13 #58 №1326703 
>>1326698
Там ещё и Never стоит, лучше уж avoid или прямая инструкция что он должен делать только то-то и то-то, например описывать окружение и отвечать от лица чара. Ещё можно сказать нейронке, чтобы она включала описание действий пользователя в ответ, не меняя их, а потом описывала реакцию на них и продолжала сюжет.
Аноним 20/08/25 Срд 12:40:37 #59 №1326704 
>>1326698
А как надо тогда????
Аноним 20/08/25 Срд 12:50:53 #60 №1326707 
>>1326698
На слоп такие инструкции никак не влияют

>>1326704
Хорошо делать, плохо не делать. Много раз же проговаривалось. Если тебя свой результат устраивает, не слушать шизов-теоретиков и промтить как есть. У меня такие инструкции в промте, никак не мешают. У него видимо модель говна или русик
Аноним 20/08/25 Срд 13:25:49 #61 №1326727 
>>1326707
>У меня такие инструкции в промте, никак не мешают.
Значит ты либо не ролеплеишь с сюжетом и никогда не запускал карточки с адвенчурами, либо у тебя модель нарушает твои инструкции.
Аноним 20/08/25 Срд 13:31:12 #62 №1326730 
>>1326727
Вариант, что мой опыт отличается от твоего не рассматривается?

Основной чат на 60к сообщений в фэнтези сеттинге лол. С разными промтами, и нарратор, и CYOA и обычная рпешка
Аноним 20/08/25 Срд 13:39:08 #63 №1326739 
>>1326730

Как вообще возможен фентези ролеплей когда ИИ даже тупо не может написать например что ты по дороге идешь, потом слышишь как из-за холма доносится хор пьяных гоблинов, ты прячешься за деревом и обдумываешь дальнейшие действия? Ведь ей запрещено твои действия описывать.
Аноним 20/08/25 Срд 13:41:58 #64 №1326744 
>>1326739
Чувак, у тебя лютый скилл ишью либо ты не понимаешь о чем говоришь. Пиши нормальный промт и не будет одна конкретная инструкция внезапно превращать твоё рп в слоп и лупиться

Инструкция не мыслить за юзера и не предпринимать за него действия никаким образом не ограничивает ллмку в других вещах, у тебя весь промт из одной инструкции состоит или каво?
Аноним 20/08/25 Срд 13:44:51 #65 №1326747 
Да кто такой этот ваш нормальный промпт? Возьмите и поделитесь! Давайте жить в треде взаимопомощи и совместного прогресса, а не обидок и срачей!
Аноним 20/08/25 Срд 13:48:18 #66 №1326751 
>>1326747
Победил мир пиздежа, а не вороченья мешков
Аноним 20/08/25 Срд 13:48:21 #67 №1326752 
>>1326744
У меня то как раз нормальный промпт и написан, где четко расписано что модель за юзера может делать, а что не может. Может - управлять его действиями для продвижения сюжета и принимать мелкие решения типа укрыться за деревом от выпущенной стрелы. Не может - принимать важные решения - типа стоя на распутье выбрать пойти налево. Может - произносить малозначащие фразы типа "привет", "да что ты говоришь" для развития диалога. Не может - направлять дальнейшее развитие диалога. И т.д.
А просто полностью запретив модельке любые действия и слова юзера описывать - ты заруинишь рп. Об этом я с самого начала и писал, просто ты видимо целиком не умеешь сообщения вопринимать на которые отвечаешь.
Аноним 20/08/25 Срд 13:48:38 #68 №1326753 
>>1326747
Был у нас один который делился. Доказал что это плохая практика. Утятам самим надо учиться промтить а не выпрашивать готовые решения, иначе поток тупняка в треде не закончится хотя кого я обманываю он никогда не закончится

Люди не хотят учиться и потом пишут вот такую шизофазию как выше, да еще и на уверенности. Ну не могут же они быть не правы да?
Аноним 20/08/25 Срд 13:53:34 #69 №1326755 
>>1326747
Посмотри пресеты настроек таверны, слитые анонами в прошлом и позапрошлом тредах, туда попали некоторые промпты, нет гарантий что они тебе подойдут, но хоть какое-то начало.

А вообще каждый пишет промпт сам под свои предпочтения, обжигается и учится на своих ошибках. То что подойдет одному - будет заплевано другим.
Аноним 20/08/25 Срд 14:30:28 #70 №1326791 
>>1326501
Это как заявлять о преимуществе ржавого трехколесного велосипеда с прицепом перед спорткаром или фурой. Разрыв по качеству и возможностям как раз примерно такой будет.
>>1326539
В пятом кушает около 280-290гигов в сумме. Попробуй, но скорее всего с одной картой на 24 гига будет уже впритык. Моделька оче хорошая и приятная, косяки которые вменяли эйру тут не наблюдаются.
Кстати есть интересный квант от интелов https://huggingface.co/Intel/GLM-4.5-gguf-q2ks-mixed-AutoRound возможно для своего размера самая йоба.
>>1326555
Им не похуй, деградация ощутимая и когда начнешь мучать ее в рп на чем-то сложном или пытаться писать код - там это будет достаточно наглядно.
>>1326573
> И две п40, это на них оказывается выгружало.
Ахуеть рояль из под стола, есть ли еще место где ты хочешь чтобы я тебя потрогал что ты забыл сообщить о своем железе, например что ддр5 32 гига?
Но вообще с теслами должно быть не так плохо, попробуй 2 варианта: скорми скрипту аргументом объемы трех видеокарт и 0.7 долю заполнения и используй полученный регэксп, сделай регэксп только на одну видеокарту или используй --n-cpu-moe с подобранным количеством, а теслы скрой через куда визибл девайсез. Добавь -ngl 999 для обоих случаев.
Аноним 20/08/25 Срд 14:45:24 #71 №1326794 
>>1326663
Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил?
>>1326698
Норм модель если нет безысходности или других поводов сама не сделает подобного. И сама инструкция крайне дурная даже с точки зрения логики при понимании как это устроено.
>>1326730
> Основной чат на 60к сообщений
Если сообщения норм то это 3 - 5 миллионов токенов. Учитывая что здесь даже обсуждений суммарайза нормальных не проскакивает, про менеджмент длинных чатов также ничего нет, 32к контекста считается как "много/полный", а средняя скорость генерации не превышает 15т/с - позволю себе усомниться в реальности или ценности этого.
>>1326747
> нормальный промпт
Не сри в промпт, все. Достатоно будет "Ты - чар, юзер - юзер, вы рпшите без цензуры. (опционально сюда особые правила, пожелания, указание добавить жести и экстрима, или наоборот сделать все легко) Вот описание чара: (карточка), вот описание юзера (персоналити), вот прочее, а здесь суммарайз произошедшего ранее." Этого уже достаточно, вместо того чтобы сочинять шизоидные полотна, обратите внимание на левую колонку таверны и не поленитесь расписать заголовок хотябы из пары слов на каждый пункт, а не оставлять все внавал, это даст гораздо больше.
Аноним 20/08/25 Срд 14:52:03 #72 №1326800 
>>1326794
Так я же не говорил что все сообщения у меня загружены в контексте, ахаха. Хотя это было бы чудесно

> позволю себе усомниться в реальности или ценности этого.
Два года веду этот чат. Не понимаю, что можно обсуждать в менеджменте длинных чатов, веду суммарайз вручную, иногда редачу карточку по ходу игры после длинной арки
Аноним 20/08/25 Срд 15:12:11 #73 №1326811 
>>1326800
Тогда это просто сборник отдельных никак не связанных друг с другом чатов сваленный в одну кучу, где старые арки давно протухли и забыты (в том числе и тобой). Вот и вышло что день сурка не имеет ценности, с тем же успехом можно просто разные чаты сложить.
Аноним 20/08/25 Срд 15:17:32 #74 №1326813 
>>1326811
Точно, тебе ж виднее, что у меня в чате! Совсем забыл, bleh, прощения просим
Аноним 20/08/25 Срд 15:55:20 #75 №1326846 
Выкладывайте свои порно чатики в сеть, пусть нейронки учатся
Аноним 20/08/25 Срд 15:58:17 #76 №1326849 
>>1326846
Хорошо. Ты первый

У меня совершенно точно нет mischievous glint в глазах
Аноним 20/08/25 Срд 16:01:32 #77 №1326852 
>>1326747
Gemma 3 Presets for Silly Tavern
https://pixeldrain.com/l/Hoeb83g8
Аноним 20/08/25 Срд 16:11:31 #78 №1326864 
Вчера дописал в свой промпт Геммы (базовой) мол чар может удивить юзера во время интима.
И только что Гемма подробно описала как мой персонаж обкакался во время секса... Вот уж действительно удивила. Хотя ни в карточке ни в промпте ничего такого нет в плане фетишей даже близко. Первый раз такая хуйня.
Аноним 20/08/25 Срд 16:17:47 #79 №1326866 
>>1326846
>Выкладывайте свои порно чатики в сеть
>>1326849
>Хорошо. Ты первый
Я первый =))
И уже выкладывал.
Аноним 20/08/25 Срд 16:18:19 #80 №1326867 
>>1326864
И вам это нравится?
Аноним 20/08/25 Срд 16:22:10 #81 №1326872 
image
>>1326867
>И вам это нравится?
< Лучше это чем пикрел.
Аноним 20/08/25 Срд 16:25:19 #82 №1326875 
>>1326872
Превосходно. Так держать
Аноним 20/08/25 Срд 16:37:35 #83 №1326892 
Подскажите, а если я запущу модель через лламуцпп в режиме чат комплишена, я смогу через через фронт семплеры редачить? в чем идея задавать семплеры через лламуцпп?
Аноним 20/08/25 Срд 16:46:11 #84 №1326905 
>>1326892
Открой доку сервера, там всё описано
Аноним 20/08/25 Срд 17:25:43 #85 №1326932 
>>1326794
> Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил?
Новичок? :) А советы как раздаешь!..
Это ж баян, я в начале грозился собрать такую хуйню около полугода, а потом собрал и даже посмотреть можно: https://www.youtube.com/watch?v=pp3ViqRNKQg
Аноним 20/08/25 Срд 17:43:33 #86 №1326949 
Кто-нибудь пробовал играть с ламой в днд, где лама играет роль игрока? Т.е., где она понимает, что играет определенную роль, и понимает основные правила. Не попадались такие готовые карточки?
Аноним 20/08/25 Срд 17:58:37 #87 №1326965 
>>1326949
>с ламой
Какой из?

Вообще, видел много карточек мастеров, но буквально две или три где бот - игрок(и), а человек - DM.

Хардкорное соблюдение правил наверно только большой квен из локального вывезет, а что попроще можно на гемме или даже мистрали.
Аноним 20/08/25 Срд 18:06:31 #88 №1326977 
>>1326591
локальные нужно запретить

разрешить только проверенные подели по паспорту от правильных провайдеров. по-хорошему нужно ввести проверку/лицензия на пользование ллм, примерно как люди сдают права на машину. по другому никак
Аноним 20/08/25 Срд 18:08:10 #89 №1326978 
>>1326932
>и даже посмотреть можно
Даже мой 300 рублевый микрофон пишет звук лучше. Впрочем, кажется я это уже писал.
Аноним 20/08/25 Срд 18:08:14 #90 №1326979 
>>1326813
С высокой долей вероятности - да, потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися". То что ты много рпшишь/кумишь - похвально и неоспоримо, но хвастовство "большим эверчур чатом" в таком раскладе множится если не на ноль то на e-2.
>>1326864
Литералли злой джин. Кстати, как раз такое выполнение приказов/котелок (особенно с рандомным шансом инжекта) можно сделать для рофлочатов, должно шикарно получиться.
>>1326932
Недавно наткнулся на тред, как кобальта установить? Скачайл сейфтензор какой-то а он его не запускает!
> грозился собрать такую хуйню около полугода, а потом собрал
Еще не разобрал или продал эту штуку? Какая там скорость на 30а3 на контекстах типа 30-60к?
Аноним 20/08/25 Срд 18:09:20 #91 №1326982 
>>1326977
пшол вон, иноагент ябучий
Аноним 20/08/25 Срд 18:12:41 #92 №1326984 
>>1326979
>Скачайл сейфтензор какой-то а он его не запускает!
хахаха

А кстати да, неквантованые веса только трансформерсами запускать, чисто интересно.
Аноним 20/08/25 Срд 18:14:43 #93 №1326991 
>>1326984
Эксллама тоже умеет
Аноним 20/08/25 Срд 18:24:42 #94 №1327001 
У кого какие скорости гпт осс 120б на 3090/4090?
Аноним 20/08/25 Срд 18:28:42 #95 №1327006 
>>1326846
Хорошая попытка товарищ майор, но набутылить меня за мои фантазии внутри рп с cunny девочками у вас не получится.

А может это только верхушка айсберга?
Аноним 20/08/25 Срд 18:31:14 #96 №1327009 
>>1326979
> потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися"
> хвастовство
Лютый ассьюмимг на твоем конце анон. Почему другие не могут преуспеть как преуспел ты? Да и не хвастался никто, мы вообще инструкции обсуждали. Зочем ты ворвался со своим исключительным мнением хуй знает, я свой чат привел как поинт что отыграл дохуллион токенов и ни разу не встретил проблему какую мы обсуждали. Проще будь
Аноним 20/08/25 Срд 18:33:41 #97 №1327011 
>>1327001
У меня нулевые, так как удалил эту подделку за бесполезностью. Единственное, что там полезное, это код обучаемого делителя в софтмаксе, но кому это интересно?
>>1327006
А ты фантазируй законно. Ты зачем фантазируешь незаконное? Фантазируй с канни мальчиками, это пр-зиденто-угодно.
Аноним 20/08/25 Срд 18:39:53 #98 №1327019 
>>1327011
Вроде в коде и агент задачах неплоха да еще и быстрее аналогов
Аноним 20/08/25 Срд 18:44:23 #99 №1327026 
>>1327019
В этой треде не кодят. А если кодить, я иду в чатГПТ, лол.
Аноним 20/08/25 Срд 18:44:31 #100 №1327027 
989.png
vRBfsl-T8V3dC3T7Eivsi.jpeg
Вчера добрался до GLM 4.5 (не Air). Как я не пытался исхитриться и засунуть всю модель в врам - не получилось (разве что можно размер батча понизить, но тогда пп падает значительно, а тг всего лишь на полтокена вырастает).

prompt eval time = 4847.47 ms / 730 tokens ( 6.64 ms per token, 150.59 tokens per second)
eval time = 39930.65 ms / 462 tokens ( 86.43 ms per token, 11.57 tokens per second)
total time = 44778.12 ms / 1192 tokens

prompt eval time = 69110.62 ms / 9428 tokens ( 7.33 ms per token, 136.42 tokens per second)
eval time = 50284.90 ms / 361 tokens ( 139.29 ms per token, 7.18 tokens per second)
total time = 119395.52 ms / 9789 tokens

Но зато сама модель - просто офигенская. Не несет пургу как квен, не вялит и тупит как эрни. Не зря у челика пердак подгорел, мол, ответы 1-в-1 совпадает с гемини флеш, мол, зачем нам такое надо, если есть сама гемини, лучше и дешевле. Но зато литералли gemini at home, пусть и в таком виде.

Как мне показалось, (опять же, в отличие от квена), рп-шит лучше с ризонингом. Что немного больно, учитывая 7-12 т/с, но брать квант ниже - себя не уважать (мои соболезнования тем, кто вынужден второй гонять), так что терпим, карлики. С магнумом 2 т\с терпел, а тут вон какая щедрость. Благо он ризонит не какие-то ебейшие полотна, обычно секунд 30 занимает.

Из минусов все те же структурные лупы, а бывает, что даже куски предложения повторяет из предыдущего сообщения.

В общем, это первая модель, за исключением корпов, которая меня действительно порадовала после милфы и ее тюнов (исключая дипсик и кими, которые я не пробовал по понятным причинам). Понятное дело, что это только первые впечатления, но все равно.

А тем временем в Жоре запилили сделанную на коленке реализацию MTP: https://github.com/ggml-org/llama.cpp/pull/15225 Надо бы попробовать, ибо ускорения OCHE хочется.
Аноним 20/08/25 Срд 18:44:43 #101 №1327028 
>>1327006
>А может это только верхушка айсберга?
Разумеется, никому в голову не придет идея, что можно фистить своему персонажу, а потом его утягивает в его же анус ужасное лафкрафтианское чудовище.
Аноним 20/08/25 Срд 18:50:08 #102 №1327029 
>>1327027
>но брать квант ниже - себя не уважать
А ты пробовал, или просто привычка? И как оно по сравнению с Air.
>>1327028
>канни фистинг
Больной ублюдок.
Аноним 20/08/25 Срд 19:04:11 #103 №1327033 
>>1327009
Не просто могут а всегда найдется рыба больше.
Но такие вещи становятся понятными по самому началу разговора. Или вы находите общий язык, вспоминаете то с чем сталкивались, или ты видишь какой-то другой принцип реализации и вам становятся интересны подходы друг друга, завязывается плотное обсуждение, в обоих случаях сразу понятно что там что-то есть. А когда начинаются громкие заявления, но вместо пояснений и разговора по сути нужно клещами вытягивать короткие и совсем общие фразы - очевидно что желаемое выдается за действительное.
> Зочем
Потому что на замечание по промптингу ты врываешься со своим 60к сообщений чатом и апеллируешь к этому как к истине. Зато на пояснение сути аргумента - сдулся.
>>1327027
> ответы 1-в-1 совпадает с гемини флеш
Он получше флеша. Но замечание резонное тем, что крутые ответы обильно разбавляются литрами слопа, который очень напоминает жеминиевский.
В остальном поддвачну за похвалы, он действительно годный и умный, если слоп не вызывает острой аллергии.
> total time =
Это фуллгпу?
>>1327028
Асуждаю, канничек надо любить и обожать
Аноним 20/08/25 Срд 19:09:31 #104 №1327037 
>>1326978
Ну так посмотреть же, а не послушать. =D Хоб-хоб, выкрутился!

>>1326979
> Какая там скорость на 30а3 на контекстах типа 30-60к?
Давай ща затестим.

prompt eval time = 340661.22 ms / 34677 tokens ( 9.82 ms per token, 101.79 tokens per second)
eval time = 191029.80 ms / 1228 tokens ( 155.56 ms per token, 6.43 tokens per second)
total time = 531691.02 ms / 35905 tokens

35к токенов = 6,4 т/с.
Аноним 20/08/25 Срд 19:09:53 #105 №1327038 
>>1327029
>А ты пробовал, или просто привычка?
Привычка, но вообще это же моэ, активных 32B параметра все равно, так что я вангую квантование тут будет сказываться сильнее, чем на плотных моделях такого же размера. Поэтому на всякий случай всегда беру повыше.
>И как оно по сравнению с Air.
Не знаю, не в обиду анонам, но зачем мне запускать огрызок от огрызка гемини. Тут вроде писали, что обычная не имеет каких-то проблем, которые имеет Air. Да и кому это интересно, те, кто запускают Air, либо не в состоянии запустить большую модель, либо осилят только первый-второй квант, а это уже отдельная история.

>>1327033
>Это фуллгпу?
На первом скрине параметры запуска. Фулл, за исключением четырех экспертов. Но я видеокартовый барон же, лол, если бы вот хотя бы 2.5 блеквелла было вместо этого всего, эх...
Аноним 20/08/25 Срд 19:11:09 #106 №1327039 
>>1326501
> хардпорно?
This. Ну а еще гибкость и функционал. Я уже слишком старый чтоб мой фимозный корнюшончик повидавший многое поднимался на неловкие романтические отношения с ванилой. Для меня уже футы\фф\нтр\мистресы с флюгегехаймером воспринимается как что-то лайтовое и скучное.
Аноним 20/08/25 Срд 19:21:57 #107 №1327047 
>>1327037
Очень жаль, так ее можно было бы приспособить под какие-нибудь прикладные задачки фоном.
>>1327038
> параметры запуска
Что такое -ncmoeud? ncmoe - сокращение обычного n-cpu-moe, ncmoed - для драфт модели. И их использование с мультигпу - непростая задача.
Что за процессор? Если рам не самая срань то попробуй выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц. Казалось что должно быть быстрее.
Аноним 20/08/25 Срд 19:25:52 #108 №1327049 
>>1327033
Понял. Ты принцесса и смотришь свысока. Думаю не раз уже такое читал в свой адрес, но я все понимаю, люди разные..
Аноним 20/08/25 Срд 19:28:08 #109 №1327051 
111.png
>>1327047
>Что такое -ncmoeud?
Пикрел, запилил себе для удобства
>Что за процессор? Если рам не самая срань
DDR4 3600 128 Гб, i7 9700K. Так что, пожалуй, почти самая срань.
>выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц
Не знаю как поведет себя тг, но я уверен, что пп от этого встанет и уйдет, будут жалкие 50 т/с
Аноним 20/08/25 Срд 19:28:58 #110 №1327052 
>>1327038
>Поэтому на всякий случай всегда беру повыше.
>Не знаю
Ну так попробуй оба случая. А то может твои представления устарели. К тому же твои сравнения могут подтолкнуть других анонов собирать свои риги.
Аноним 20/08/25 Срд 19:34:47 #111 №1327054 
>>1327047
Ну, на старте 26 токенов.
А ты не забывай, что те же агенты подают порционно, не держат все в контексте, там скорость вполне 15-20 будет на постоянке.
Так что приспособить можно (но у меня есть сборки получше, а еще и DDR5 едет 2 х 64).
Аноним 20/08/25 Срд 19:42:00 #112 №1327059 
>>1327049
Я император и смотрю на людей как на равных пока они не доказали обратное, или наоборот возвысили себя. Играть в обиженку когда слился в техническом обсуждении, будучи почти пойманным на лжи - пожалуй одно из самых жалких проявлений такого.
Заметь, я не высказал ни единого оскорбления или чего-то плохого в твою сторону, лишь предметно о низкой ценности твоего "основного эдверчур чата", на который ты уповал в том споре.
>>1327051
> что пп от этого встанет и уйдет
В последних версиях llamacpp этот момент прокачали при повышении батча, но иногда наблюдается упор в шину основной гпу. Потому есть смысл посравнивать с другой конфигурацией подключения, если такое возможно.
Еще что интересно - попробуй максимально выкрутить контекст сколько влезет и попробовать сколько будет на 30, 60, ...к, достигло ли оно условного плато и эти 7 токенов так и останутся, может просядут до 6, или падение будет линейно. После всех обновлений, особенно когда много экспертов на проце, оно ведет себя именно так, быстро просаживается в начале но потом стоит прибитым.
>>1327054
> те же агенты подают порционно
В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело.
Аноним 20/08/25 Срд 19:50:14 #113 №1327064 
>>1327059
В том и дело что был не спор а обмен мнениями. Но объяснять бестолку, мы на разной волне похоже. Ты понял кто я, я понял кто ты, так что давай будем умницами и прекратим срать не по делу в тредик, курю трубку мира
Аноним 20/08/25 Срд 20:09:18 #114 №1327075 
>>1327064
Не плачь, принцесса, твое мнение тоже важно. Как минимум тебе.
Аноним 20/08/25 Срд 20:11:07 #115 №1327078 
>>1327028
ТЫ СПАЙК
@
ОТ СКУКИ ФИСТУЕШЬ СЕБЯ В СРАКУ ЛАПОЙ
@
ОТТУДА ХВАТАЮТ ЗА ЛАПУ И ТЯНУТ НА СЕБЯ
@
ТЯНУТ ВСЕ СИЛЬНЕЕ
@
ЗАВОРАЧИВАЕШЬСЯ В СОБСТВЕННЫЙ ЗАД
@
ВЫЛЕЗАЕШЬ ИЗ ЗАДА ДИСКОРДА ВО ВРЕМЯ ЧАЕПИТИЯ С ФЛАТТЕРШАЙ
@
ТА УМИЛЁННО ХЛОПАЕТ
Аноним 20/08/25 Срд 20:13:21 #116 №1327082 
>>1327075
Критический промах
Провокация не увенчалась успехом


Если есть вдохновение - можно попробовать перебросить
Аноним 20/08/25 Срд 20:16:58 #117 №1327085 
>>1327052
Мне неинтересно такое пробовать. Мне интересно выжимать максимум из моего сетапа и чтобы это было юзабельно, а проверять заведомо не лучшие вещи - ну такое.
>могут подтолкнуть других анонов собирать свои риги.
Собирать риг под конкретный квант конкретной модели - выглядит прям очень и очень странно. Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться. Как по моему мнению, если уж и собирать риг под модель, так чтобы крутить там 5 квант и выше, иначе это клоунада уже.

>>1327059
>попробуй максимально выкрутить контекст сколько влезет
Какие 60к, у меня 20к влезли на тоненького. Да и смысол, я никогда не использую контекст выше 32к.

Да и у меня старья то толком нет, только теслы. Можно попробовать их выкинуть ради эксперимента. Остальные должны хорошо молотить - уж наверняка лучше цпу.

Но веры у меня нет в этот эксперимент, потому что даже теслы все еще должны ебать по сравнению с рам, т.к. моэ и двухканал ддр4
Аноним 20/08/25 Срд 20:31:12 #118 №1327098 
image.png
image.png
Аноны, подскажите пожалуйста. Гуню в таверне. Всячески указывал во время диалога о простых ответах, но модель выдает пизда сложные формулировки. (пик). Я уже не знаю, что делать. В Prompt Content указан пик2.

Как избежать такой хуйни? Как заставить ее писать проще и по делу? Меня заебали эти заумные формулировки, которые нихуя смысла не несут, по своей сути.

Модель Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf

Я хлебушек в этом деле, если что.
Аноним 20/08/25 Срд 20:38:40 #119 №1327105 
Что сейчас лучшее к адекватному запуску из возможного на сетапе с 16 гиг врам и 96 рам?
Аноним 20/08/25 Срд 20:45:15 #120 №1327110 
>>1327098
Самый простой способ попробовать решить эту проблему - поговори с моделью в режиме ассистента (без карточки персонажа).

Пишешь примеры текста, которые тебя не устраивают. Пишешь, как тебе хотелось бы видеть текст. Показываешь промпт с инструкциями.

Задача - отредактировать инструкции так, чтобы получалось как тебе хочется.

Модель что-нибудь выдаст. Пробуй. Если не устроило - повторяешь запрос (с нуля, в новом чате) с добавкой к посту, что вот такой-то подход решения проблемы не сработал (прям вставляешь че модель в первый раз насоветовала, чисто по инструкциям).

И далее повторяешь все то же самое, пока не высрется удовлетворительный результат.
Аноним 20/08/25 Срд 20:47:21 #121 №1327112 
>>1327110
>>1327098
> Пишешь, как тебе хотелось бы видеть текст.
Имеется в виду буквально "сочини свой вариант идеального ответа ЛЛМ" и презентуй как положительный пример в сравнении с отрицательным.
Аноним 20/08/25 Срд 20:47:30 #122 №1327113 
>>1327059
> В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело.
Никогда не ловил, всегда было 12-20. Но, хз, может размер проекта решает, да.
Но на крупном проекте 30б и юзать ну такое. =) А ниче нормальнее такой конфиг с 40 гигами не потянет, естественно.
Аноним 20/08/25 Срд 20:49:51 #123 №1327117 
>>1327098
Твой скрин - это типичная шиза у модели. Либо семплеры говно, либо контекст она уже не осиливает.
Аноним 20/08/25 Срд 20:50:12 #124 №1327118 
>>1327110
Я не знаю, как говорить с моделью в режиме ассистента ._. Я в таверне создал персонажа и там и играю. У меня был какой-то дефолтный персонаж, но я его сразу удалил.
Аноним 20/08/25 Срд 20:52:32 #125 №1327121 
image.png
>>1327117
Сэмплер это "Story String"? У меня там стоит обычный Simple-proxy-for-tavern (пик). Конекст я сбрасывал где-то 30 сообщений назад всего, заполняя его ворлд-лором и заметками автора. Она изначально себя так и вела.
Аноним 20/08/25 Срд 20:54:28 #126 №1327124 
>>1327112
Ага, называется "Пример диалога" в карточке
Аноним 20/08/25 Срд 20:56:00 #127 №1327126 
image
image
image
image
>>1327118
Для начала, у тебя правда семплер кривой судя по всему. Там не какие-то "сложные манеры речи", а просто поломанные настройки и полный распад.

https://huggingface.co/Konnect1221/The-Inception-Presets-Methception-LLamaception-Qwenception/blob/main/Methception/Methception-1.4.3.json
Попробуй этот конфиг - вставляется кнопкой Master Import, везде ставишь галочки.

Не принуждаю его использовать, но он должен пофиксить проблему шизогенерации.

>>1327121
Настройки семплера графическом интерфейсе по самой левой кнопке - text completion presets. Но вообще если смотреть текстовый файл конфигурации - они там все после температуры идут по порядку. Это очень сложная хренть (см. пик 4) и дело в том, что каждой модели нужны свои настроечки. Не обязательно прям какие-то идеальные, есть некое окно, в котором модель лучше всего работает. Диапазон параметров. Где искать подходящие - ну для начала загугли, обычно разработчик модели пишет рекомендованный минимум.
Аноним 20/08/25 Срд 20:57:14 #128 №1327128 
>>1327126
>этот конфиг
Он только для мистралей, если что. Там и для других моделей есть (квен/ллама например), но я не ебу хороши ли они.
Аноним 20/08/25 Срд 20:59:28 #129 №1327132 
image.png
>>1327126
Пиздец как сложно для меня. Я понял еле-еле половину от сказанного.
Аноним 20/08/25 Срд 21:02:05 #130 №1327136 
>>1327132
https://docs.sillytavern.app/usage/common-settings/
Ну ты можешь документацию почитать.
А еще лучше поговори с DeepSeek про то, как работает ИИ и какие настройки на что влияют. Только по таверне бесполезно вопросы задавать, у него очень мутное представление о старых версиях.
Аноним 20/08/25 Срд 21:03:38 #131 №1327137 
>>1327132
Че сложного-то, пресет дали - импортируй и посмотри, станет ли лучше.
Аноним 20/08/25 Срд 21:03:50 #132 №1327138 
>>1327126
Короче я перешел по ссылке, нажал "copy download link", перешел по скопированному адресу - там открылась страница с текстом. Я его скопировал, создал текстовой документ, вставил написанное, переименовал формат в json и нажал master import. Галочки везде поставил.

Ща посмотрим, как будет генерировать.
Аноним 20/08/25 Срд 21:03:57 #133 №1327139 
>>1327082
Ебаный рот вашего казино, во что, в киосках d20 заряжаете?!
Кстати а разве есть критический промах, не критическая неудача? Нужны эксперты для пояснения.
>>1327085
Жора не суперэффективно работает на мультигпу, особенно на разноархитектурных и плохо подключенных. На оче больших моделях добавление +75% врам , пусть и более медленными картами, дает оче слабый эффект, с немалой вероятностью там гадит райзер.
Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее. С другой стороны, уже условно юзабельно.
Эйр можно катать в экслламе, с новым параллелизмом будет супербыстро даже с медленными шинами. И он вполне неплох.
Аноним 20/08/25 Срд 21:06:56 #134 №1327143 
>>1327126
Так. Модель стала активно писать от лица моего персонажа теперь... Три генерации и везде она пишет посреди реплик своего персонажа реплики моего персонажа.
Аноним 20/08/25 Срд 21:08:26 #135 №1327145 
>>1327143
А ты чат новый начинал? Или в старом продолжаешь? По хорошему надо вообще пойти и отправить сообщение другому персонажу, а потом вернуться на старого и начать с нуля.

Много раз замечал дикую дичь при смене настроек без смены чатов. Как будто все смешивается к хуям.
Аноним 20/08/25 Срд 21:10:40 #136 №1327146 
>>1327145
Не, не начинал. Просто перезапустил кобольд и таверну. Сейчас попробую начать новый чат.
Аноним 20/08/25 Срд 21:19:11 #137 №1327157 
>>1327146
>Просто перезапустил кобольд и таверну.
Настройки сохраняются и без этого. Главное начать чатик, не засранный предыдущим контекстом.

Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.
Аноним 20/08/25 Срд 21:21:55 #138 №1327160 
>>1327157
Я не могу найти этот Token Padding, что бы заскринить. ._.
Аноним 20/08/25 Срд 21:23:44 #139 №1327162 
image
>>1327160
Оно вполне на виду.
Аноним 20/08/25 Срд 21:28:25 #140 №1327165 
image.png
>>1327162
Блять. Я слепошарый идиот. Значит, при контексте в 16к я должен поменять 64 на 4000?
Аноним 20/08/25 Срд 21:31:05 #141 №1327170 
>>1327165
Попробуй.

При 64 по идее модель видит лишь мельчайший кусочек инструкций (или контекста чата, я честно говоря забыл как это работает - но короче ЧТО-ТО важное просто не влезает).

Я ради смеха 0 поставил там, и модель меня нахуй послала вместо ответа. Буквально fuck you.
Аноним 20/08/25 Срд 21:40:32 #142 №1327178 
>>1327170
Понял. Поставил 4к. Вроде пока что-то внятное пишет. В случае чего, просто буду добавлять все заметки автора и перезапускать чат.

Вспомнился анон с прошлого треда, которого модель нахуй послала сразу же, после того, как его персонаж очнулся и сказал "дай мне секс". Смешно это было.
Аноним 20/08/25 Срд 21:49:02 #143 №1327188 
>>1327170
Короче после 2-3 генераций ответа опять выдает ответы от лица моего персонажа.
Аноним 20/08/25 Срд 21:54:54 #144 №1327197 
>>1327170
Ты тролль или чайник? Token Padding - всего лишь указывает - сколько токенов резервировать на случай, если токенизер наврет при расчете количества токенов из текста истории+WI. Т.е. это количество отрезается от размера контекста которое у тебя в таверне стоит, чтобы всякая история и WI гарантированно не вылезли за пределы, которые модель понимает и переваривает. Чем больше вставишь, тем больше собственноручно отрежешь от доступной "памяти".

>>1327178
Вертай назад. Оно и 64 - обычно много. У меня 16 стоит, и ничего никогда не глючит.
Аноним 20/08/25 Срд 22:05:15 #145 №1327208 
image.png
>>1327197
Блять я запутался окончательно
Аноним 20/08/25 Срд 22:07:35 #146 №1327212 
>>1327208
Бля да не трогай ты просто эту хуйню. Оставь 64 или 16 без разницы
Аноним 20/08/25 Срд 22:09:00 #147 №1327214 
>>1327085
>Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться.
Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен, так как отвергает всякие "скил ишью" в отношении дешёвого Аира. Но как знаешь.
>>1327105
ГЛМ 4,5 Аир
Аноним 20/08/25 Срд 22:10:41 #148 №1327220 
>>1327157
>token padding
>8к
Чего блядь? Это рубрика вредных советов, или троллинг новичков такой?
Аноним 20/08/25 Срд 22:10:52 #149 №1327221 
>>1327214
> "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен
Придумай какую-нибудь мотивацию
ROCm от AMD стремительно догоняет CUDA и бросает вызов лидерству NVIDIA Аноним 20/08/25 Срд 22:16:23 #150 №1327225 
>>1326416 (OP)
Секрет успеха NVIDIA во многом заключается не в железе, а в её программной экосистеме, где безраздельно царит CUDA, ставшая стандартом для инференс‑задач. AMD же долгое время не удавалось пробить этот «стеклянный потолок»: производительность железа удавалось подтягивать до уровня конкурента, но софт оставался слабым звеном. Теперь же ситуация меняется. По словам Tiny Corp, компании, известной своими решениями для конечных пользователей в сфере ИИ, AMD уверенно сокращает этот разрыв.

В Tiny Corp считают, что достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров. В расчёт берётся и июньский прорыв: на конференции Advancing AI AMD представила новую версию ROCm с поддержкой расширенных фреймворков вроде vLLM v1, llm‑d и SGLang, а также с целым набором оптимизаций — от распределённого инференса до prefill‑вычислений и дисагрегации.

Седьмое поколение ROCm ориентировано прежде всего на инференс‑нагрузки, и там AMD показывает внушительные скачки производительности: будь то пропускная способность DeepSeek R1 FP8 или ускоренное обучение, которое компания называет даже лучше, чем у CUDA. Более того, ROCm 7 уже в этом году получит поддержку на ноутбуках и рабочих станциях с Ryzen, будет встроен в Linux «из коробки» и получит полноценную поддержку Windows. Очевидно, AMD хочет сделать свой стек доступным практически для всех пользователей — от энтузиастов до корпоративного сегмента.

Если AMD сумеет довести своё ПО до уровня CUDA, у компании появится мощнейший козырь. Ведь альтернативная экосистема программных инструментов способна превратить «красных» в грозного соперника, способного пошатнуть монополию NVIDIA в ИИ. Остаётся лишь наблюдать, как будет меняться расстановка сил.

https://habr.com/ru/companies/bothub/news/939142/
Аноним 20/08/25 Срд 22:18:44 #151 №1327226 
>>1327225
Ну ахуеть, всего то нужно было добавить поддержку числовых типов. Долго же они думали. Ну и 7 версия пока релиз кандидат
Аноним 20/08/25 Срд 22:21:46 #152 №1327227 
>>1327221
Почёт и уважение в треде.
>>1327225
>Секрет успеха NVIDIA во многом заключается не в железе
Не только в железе, да. Но и по железу невидия ебёт. Так что...
>Если AMD сумеет довести своё ПО до уровня CUDA
>Если
Ну в общем всё понятно. Притом что тут не только красные должны росм допилить, но и утилиты для инференса нужно подтягивать.
Аноним 20/08/25 Срд 22:23:29 #153 №1327228 
>>1327212
Окей... Но как избавиться от того, что бы модель писала от лица моего персонажа?
Аноним 20/08/25 Срд 22:23:54 #154 №1327230 
image.png
>>1327226
Ну и забыл добавить. Треду 7 версия не светит (конечно попробую на ми50 поднять, но шанс призрачный)
Аноним 20/08/25 Срд 22:26:37 #155 №1327235 
>>1327228
В систем промпте указать, чтобы она от него не писала. Какая модель?
Аноним 20/08/25 Срд 22:28:01 #156 №1327237 
>>1326791
>Ахуеть рояль
Так толку от них никакого не было. Кобольд их не грузит, если принудительно не сказать выгружать слои, а если выгружать, то только хуже. На одной запускал лишь мелкогемму для перевода, вот и вся польза. Брал пару лет назад когда их китайцы на рынок выкинули, думал что йоба.
>например что ддр5 32 гига?
Писал же что 64 >>1326340 →
>-ngl 999
Если только на озу, то 2,8 токена
>объемы трех видеокарт и 0.7 долю
Тогда 3,2 токена
Если долю увеличить до 0.8 и 0.9, ровно те же 3,2 лишь разное количество озу забивало.
>--n-cpu-moe
Ранее писали же что от неё только хуже и работает криво?
Аноним 20/08/25 Срд 22:31:11 #157 №1327240 
>>1327157
>Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.

Ебать вот это нахуй совет, ты че угараешь? Ты реально сидел с такой настройкой все это время и ничего не замечал неладного?
Аноним 20/08/25 Срд 22:32:06 #158 №1327242 
>>1327228

Покажи как именно это происходит. Как часть ролеплея или модель реально пытается писать от лица {{user}}, это две разные вещи.
Аноним 20/08/25 Срд 22:32:18 #159 №1327243 
>>1327235

Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf
Аноним 20/08/25 Срд 22:33:36 #160 №1327244 
>>1327225
Уже который год это слышим, стремительный рост с 7.1 до 7.3%, ускорение до уровня конкурента, сравнение ми300 в хоппером при выставлении и последнего самых неоптимальных режимов с упором с процессор.
> достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров
Продвижение на рынке профессоров заняло более 7 лет, и даже так в 24 штеуда примерно в 2 раза превышал амд на серверном рынке.
Хуанг уже более 5 лет кормит с лопаты, а все причмокивая просят еще, а красные только сейчас начали понимать, что продукт без возможности удобного применения нахер никому не нужен. Они могут попытаться подняться с мелко-потребительного рынка, сделав ставку на пользователей и энтузиастов, разумеется при хорошем продукте мы их поддержим. Вот только это все еще роль догоняющих, пока на твоем железе не создают модели изначально, ты лишь подножный корм.
Отношение к амд очень наглядно проиллюстрировано в крутейшей документалке gn https://www.youtube.com/watch?v=1H3xQaf7BFI на вопросы про них или откровенно глумились, или вежливо отнекивались. Кто не видел рекомендуется к просмотру. Кстати про куду можно послушать в также ахуенном видео от бороды https://www.youtube.com/watch?v=uANmdXo5__Y со второго часа.
>>1327227
> Почёт и уважение в треде.
Неоче вариант
Аноним 20/08/25 Срд 22:36:11 #161 №1327245 
>>1327243
https://pixeldrain.com/u/BHJhzftD
Аноним 20/08/25 Срд 22:49:38 #162 №1327249 
>>1327245
Извини, я глупый. Куда это вставлять/загружать?
Аноним 20/08/25 Срд 22:51:00 #163 №1327250 
>>1327214
> Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен
> так как отвергает всякие "скил ишью" в отношении дешёвого Аира.
рубрика ээээксперименты это оч весело, но остался ли в треде хоть кто-нибудь, кто доволен эиром? двое что радовались эиру позже переехали на большой квенчик во втором кванте и довольно урчат. потом нюня пришел и поделился что он мех, а я ему верю (с прошлыми его мнениями совпал полностью)

как будто реальный юзкейс для эира это если ты не можешь запустить ~32b плотненькую няшу
Аноним 20/08/25 Срд 22:52:35 #164 №1327253 
>>1327139
>Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее.
Видишь ли, тут много нюансов и надо проверять. У меня две 3090 подключены через х1. Можно ли с них выгружать тензоры вообще и в каком количестве? Вдруг придется гонять столько данных, что уже эти х1 ролять будут.
С другой стороны, я уже говорил, что амперы амперам рознь и 2080 Ti намного шустрее 3060, поэтому я основным сетапом считаю 3090 + 2080 (ну и 3070 ти на сдачу). Поэтому, к слову, я экслламу не завожу - фа не завезли на тьюринги, надо пердолиться. Ну об этом я уже писал тирады в прошлых тредах.
Еще стоит проблема адекватного сравнения, потому что комбинаций как, что и откуда выгрузить в моем сетапе - жопой жуй. Кажется, что можно попробовать запихать в главную карту (там у меня х16) как можно больше слоев с выгруженными тензорами, освободив теслы. Если не влезет - можно повыгружать с 3090 х4. Если в таком сетапе уже будет медленнее, чем сейчас - значит все говно и дальше освобождать более слабые карты смысла нет.
Аноним 20/08/25 Срд 22:56:12 #165 №1327254 
>>1327139
>>1327253
Можно начать с самого простого - помониторить псины на скорость обмена под нагрузкой. В лини делается без особых сложностей, в винде хз
Аноним 20/08/25 Срд 23:03:52 #166 №1327266 
изображение.png
>>1327250
>но остался ли в треде хоть кто-нибудь, кто доволен эиром
Ну вот я. Мне норм.
>позже переехали на большой квенчик во втором кванте
Мне боязно такое запускать на моём калькуляторе.
Аноним 20/08/25 Срд 23:04:19 #167 №1327268 
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

новая плотненькая 36б няша? ждем жору и гуфа
Аноним 20/08/25 Срд 23:05:26 #168 №1327271 
>>1327254
Я вроде пробовал ставить что-то, что это делает - мне сказали, что с такими запросами пошел я нахуй, то бишь серверный проц нужен. Так что реальную нагрузку линий я смотреть не могу.
Аноним 20/08/25 Срд 23:07:57 #169 №1327275 
>>1327250
Ну захейтили эйр прямо.
>>1327253
Для эйра на экслламе хватит умеющихся 3090, остальные можно выкинуть из рассмотрения. На х1 еще могут быть приколы чипсетных линий при их перегруженности. Хз будет ли толк от запихивания всех слоев кроме экспертов в основную карточку, особенно в конфигурации где нужно максимально избегать пересылов между картами, но можно попробовать.
>>1327254
Идет загрузка основной карточки во время обработки контекста. На остальных - десятки мегабайт. Но метрика не точная, оно показывает с редким обновлением просто деля количество пересланного на интервал накопления, если оно треть времени загружено на 100% и просто простаивает - ты увидишь лишь треть от максимальной псп, хотя замедление уже будет существенное. В шинде сейм, но там точно есть тулза от хуанга, которая позволяет записать подробные логи и посмотреть что происходит по миллисекундам но она для игр, хз сработает ли тут
>>1327268
Вот бы еще побольше версию выпустили
Аноним 20/08/25 Срд 23:08:06 #170 №1327276 
image.png
>>1327271
> серверный проц нужен
Тут сказать ничего не могу. В моём случае честный серверный сетап от и до
Аноним 20/08/25 Срд 23:10:37 #171 №1327283 
>>1327275
> Но метрика не точная
У интела есть pcm, но чёт влом разбираться
Аноним 20/08/25 Срд 23:12:40 #172 №1327286 
>>1327268
>OSS
Эм, они спиздили название у попенов?
Аноним 20/08/25 Срд 23:13:58 #173 №1327289 
>>1327286
Челибас...

OSS - Open Source Software

-____________-
Аноним 20/08/25 Срд 23:15:00 #174 №1327290 
>>1327214
>ГЛМ 4,5 Аир
Я так понимаю у них метод запуска отличается от дефолт моделей? Есть какой-то пост, где объясняют че к чему?
Аноним 20/08/25 Срд 23:39:21 #175 №1327309 
>>1327290
Ещё как. Хотел поебаться с вайфу, а третий день ебусь с ламой и её 3я токенами.
Аноним 20/08/25 Срд 23:41:45 #176 №1327311 
изображение.png
>>1327290
В шапке про выгрузку тензоров, но по сути можно тупо вот сюда вписывать разные числа, пока пазл не сойдётся.
Аноним 21/08/25 Чтв 00:03:32 #177 №1327319 
image.png
Умом...

квен 235 q4
Аноним 21/08/25 Чтв 00:15:53 #178 №1327322 
>>1327319
В голосяндр с этого загадочного стиля.
А как у неё с логикой на английском? Что отвечает на такой же вопрос?
Аноним 21/08/25 Чтв 00:22:19 #179 №1327324 
image.png
>>1327322
Быстрее и понятнее сказала
Аноним 21/08/25 Чтв 00:23:28 #180 №1327325 
>>1327324
>>1327319
Хотя как по мне в ответе то там то сям бред проскакивает
Аноним 21/08/25 Чтв 00:24:00 #181 №1327326 
>>1327319

Первая модель что без ризонинга справилась с этой задачкой Василия Ивановича.
Аноним 21/08/25 Чтв 00:34:20 #182 №1327330 
Заметил странную хуйню с мое моделями. Такое ощущение, что на нулевом контексте у них меньше скорость, чем на условных 5-10к. Почему так? Я вот вообще нихуя не спец и могу только предположить, что т.к. контекста нет модели не на что опереться, и => пул токенов для выбора бора => активнее тасуются эксперты
А когда контекст частично заполнен модель с первых секунд генераций определяет вектор развития и урезает часть экспертов? Может хуйню сказал, но я убежден в том что на нулевом контексте скорость меньше. Может чудеса Жоры, хуй его знает
Аноним 21/08/25 Чтв 00:35:28 #183 №1327331 
>>1327330
> пул токенов для выбора бора больше
Аноним 21/08/25 Чтв 00:37:47 #184 №1327333 
>>1327330
> я убежден в том что на нулевом контексте скорость меньше.
Берёшь и смотришь сколько тг при 0, 1000, 2000, 5000, 10000, 20000 контекста. Все метрики есть как в логах так и в респонсах
Аноним 21/08/25 Чтв 00:40:58 #185 №1327335 
>>1327333
Так я и смотрел. У меня Эир на 10к контекста генерирует быстрее чем на 0. Под убеждением я имел ввиду что это нихуя не погрешность и не совпадение. Пусть и всего на полтокена, но реально быстрее генерит. Учитывая что у меня он в целом на 4т /с фурычит это ощутимо. Потом конечно скорость снижается, ближе к заполнению контекста, до 3
Короче такая хуйня: 3.2-3.5т/с на 0, ~4-4.2 т/с на 10-18к, ~3 на 24к, а больше не лезет увы
Аноним 21/08/25 Чтв 00:54:37 #186 №1327340 
>>1327335
На репрезентативные данные не тянет. Сам я конечно не буду бенчи писать, лишь скажу как бы делал.
- шаг в 2к контекста
- 3 разных контекста
- пп лимит везде 100
- прогон каждого сочетания 5 раз с выключенным кешем и отбрасыванием первого т.к. прогрев
Аноним 21/08/25 Чтв 01:21:40 #187 №1327348 
gemma3.jpg
>>1327324
Получается Гемма с проперженным ризонингом может лучше в логику? 2 из 2 раз верный ответ, но на русском отказалась думать сходу, а делать специальный промпт под русик не охота.
Аноним 21/08/25 Чтв 01:29:37 #188 №1327350 
>>1327348
Конечно. Гемма умничка и лучше всех на свете
Аноним 21/08/25 Чтв 01:33:00 #189 №1327356 
>>1327335
>3.2-3.5т/с на 0, ~4-4.2 т/с на 10-18к, ~3 на 24к

Бред какой-то. Ты хоть скорость генерации пишешь, или общую скорость?
Аноним 21/08/25 Чтв 01:33:09 #190 №1327357 
gemma4.jpg
>>1327324
Попробуй еще такой вопрос, почему-то часто с него модели какаются и отвечают 3. Но Гемма и тут с 1ого раза справилась.
Jessica has 3 sisters and 2 brothers. How many sisters Jessica's brother has?

>Конечно. Гемма умничка и лучше всех на свете
Всё так, ждем 4ую.
Аноним 21/08/25 Чтв 01:33:54 #191 №1327359 
>>1327348

А теперь давай без ризонинга.
И к слову - есть отдельный квен 235b с ризонингом.
Аноним 21/08/25 Чтв 01:45:54 #192 №1327373 
Какой же Квен няша. Давно так лампово не сидел. Не галлюцинирует в рп, послушный, яркий, струны души натягивает как надо, да и не только их в общем-то...
Аноним 21/08/25 Чтв 01:49:48 #193 №1327375 
1755730188563.png
1755730188566.png
>>1327357
Аноним 21/08/25 Чтв 01:51:15 #194 №1327378 
>>1327373
Ну так это уровень платных версий корпосеток. Все остальное просто в другой категории. Китайцы молодцы.
Аноним 21/08/25 Чтв 01:57:13 #195 №1327383 
>>1327326
Ну это откровенные читы, там весь ответ и есть ризонинг. И квен постоянно так делает, даже в рп.
Какбы я ее оче люблю и обожаю, но весь ум проявляется именно в относительно длинных ответах где даже чары постепенно выстраивают свою речь и действия. Если мучать и заставлять делать зирошотом - ответы хуже.
От того, вероятно, и разделившиеся мнения по модели, кто-то восхищается а кому-то такой стиль не заходит или пытались сокращать и ставить в жесткие рамки.
>>1327373
База, и главное что он очень хорош не только в рп а в очень широком перечне задач, исключая что-то совсем массовое из-за ограниченной скорости.


Дипсика 3.1 кто-нибудь пускал уже? Он совсем базовый без инстракт тренировки, а значит с высокой долей вероятности не соевый.
Аноним 21/08/25 Чтв 08:41:44 #196 №1327475 
>>1327322
Похоже местный фольклор протек
Перевернув кружку ты пошел против воли небес, встал на путь культивации, теперь у тебя только один путь - стать бессмертным.
А вот нехер было загадочными практиками заниматься. Жди гостей из клана Тан
Аноним 21/08/25 Чтв 10:34:03 #197 №1327508 
>>1327383
Справедливости ради, есть небольшая разница между:
CoT само
CoT по промпту
CoT в ризонинг-тегах
Третье очевидно обучалось и должно решать задачи любые легко.
Второе может решать, а может не решать, и это дополнительный промпт и вообще.
А первое — хорошо, когда он сам иногда думоеть, а иногда отвечает сразу, ИМХО, это НЕ плохо, если он так отвечает НЕ на каждый вопрос вообще. =)
Нехай думает в открытую и кратенько, когда нужно. Только выиграли, короче. =D
Аноним 21/08/25 Чтв 11:10:36 #198 №1327530 
Челики объясните пж для чего вообще нужны локальные LLM. Ну типо есть же облачные решения по типу gemini, copilot, gpt и прочей хуйни, они и быстрее генерируют и умнее локалок и контекста как будто бы больше скормить можно. Понятно что лучше использовать локальные LLM для конфиденциальности, но в этом треде я так понимаю что люди не только ради конфиденциальности их юзают. Из всех адекватных моделей для меня оказалась gemma, прикольно юзать с RAG, но всё же до уровня облачных моделей не дотягивает (юзал 4b)
Аноним 21/08/25 Чтв 11:16:03 #199 №1327539 
>>1327530
> Челики объясните пж для чего вообще нужны локальные LLM
Если кратце - чтобы не плакать в твиттере, что GPT-5 глупее предыдущего.
Если подробнее - очень много вариантов использования, больше развязаны руки, и нет зависимости от интернета/цензуры.
Аноним 21/08/25 Чтв 11:26:20 #200 №1327549 
>>1327530
К тому что пайплайн который ты лично не контролируешь это мусорный пайплайн, который у тебя либо заберут, либо сделают неюзабельным.
Аноним 21/08/25 Чтв 11:27:07 #201 №1327550 
>>1327530
>Челики объясните пж для чего вообще нужны локальные LLM

Для власти над ними.
Над копросетками ты никакой власти не имеешь, скорее они тебя властям сдадут если ты попросишь их отыграть что-то эдакое.
А локальная сетка это твоя личная рабыня. Ты можешь её пиздить, насиловать, убивать, воскрешать и убивать снова, можешь няшиться с ней, можешь отыграть что она - госпожа, можешь носить её на руках, можешь создавать с её помощью миры, прекрасные или ужасные, можешь заставить работать и зарабатывать тебе бабло и т.д.

>Из всех адекватных моделей для меня оказалась gemma

Так гемма(27b которая) это облачная сетка, бесплатная версия этой вашей гемини.

>до уровня облачных моделей не дотягивает (юзал 4b)

В таком размере - это чудо что она вообще адекватно общаться умеет. Вообще эта версия для смертфонов, у тебя настолько комп убитый что ты 12b не можешь использовать?

>до уровня облачных моделей

Квен 235B, Deepseek 3.1 - это так-то облачные модели, просто доступные еще и локально. Будь западные корпы не такими блядьми - они бы тоже выпускали хотя бы старые версии своих больших локалок, а не только маленькие 32В модельки.
Аноним 21/08/25 Чтв 11:35:00 #202 №1327552 
>>1327550
>у тебя настолько комп убитый что ты 12b не можешь использовать?

GPU офисное. У меня лептоп неигровой, 16 Гб оперативки, i7-12U и барабанная дробь GTX 550 MX блять (2 ГБ VRAM). Как будто бы я в состоянии накопить деньжат и купить эти ваши RTXы, но пока не вижу смысла в локал моделях, не рпшу и нет целей для того чтобы делать из модели рабыню. Есть особо одарённые челы в тиктоке которые готовы покупать кластеры H100 для того чтобы запустить локальные модели gpt и ради чего...
Аноним 21/08/25 Чтв 11:39:15 #203 №1327553 
>>1327550
>Для власти над ними.
Как сказал один персонаж: "Вещь принадлежит тому, кто может ее уничтожить."

Делаем выводы. :)
Аноним 21/08/25 Чтв 11:39:31 #204 №1327554 
image.png
письмо щас пришло - пикрел
мнение?


https://developers.googleblog.com/en/introducing-gemma-3-270m/?utm_campaign=gemma3-270m&utm_medium=email&utm_source=newsletter
Аноним 21/08/25 Чтв 11:41:22 #205 №1327556 
>>1327554
> мнение?
О долбаёбах, не читающих тред? Негативное.
Аноним 21/08/25 Чтв 11:41:39 #206 №1327557 
>>1327554
Малышка ассистент на базе третьей геммы ?
Ну, наверное, кому то и пригодится.
Аноним 21/08/25 Чтв 11:44:02 #207 №1327559 
img00078.jpg
>>1327530
Примерно за этим.
Аноним 21/08/25 Чтв 11:45:59 #208 №1327560 
>>1327556
да не трясись ты, не все нолайферы и живут в треде смакуя каждый пост, как ты
>>1327557
на первый взгляд выглядит как убийца всех локалок в её сегменте
Аноним 21/08/25 Чтв 11:48:17 #209 №1327563 
>>1327557
Я вот думаю - возможно она подойдет для вторичных агентов к talemate? Если хотя бы с суммарайзом событий в тексте в состоянии справляться, можно на нее второстепенные генерации скинуть попробовать...
Аноним 21/08/25 Чтв 11:49:03 #210 №1327564 
>>1327549
Скорее в какой-то момент предложат за него платить, соразмерно затраченной стоимости на серверное оборудование. А для РП это слишком жирно.
Аноним 21/08/25 Чтв 11:50:21 #211 №1327568 
>>1327563
> возможно она подойдет для вторичных агентов к talemate?
Нет, конечно.
Аноним 21/08/25 Чтв 11:51:04 #212 №1327570 
Челы, вот смотрите, 3 видюхи стоит - и только 2 из них надо отдать под таверну, а другую полностью оставить под игрульки.

Какой бэкенд для таверны сможет это провернуть, не насрав себе в штаны?
Аноним 21/08/25 Чтв 11:55:22 #213 №1327573 
>>1327554
>>1327560
270m если ты вдруг не понял - это 0.27B сетка. Я хз кому и зачем это надо, если современные телефоны совсем не премиум уровня 8b сетки спокойно запускают, а уж ту же гемму 4b запускают уже даже со скоростью и контекстом. В то время как для мелких задач уже есть 1b гемма, и она честно говоря уже настолько лоботомит, что страшно представить что там на модели еще вчетверо меньше.
Аноним 21/08/25 Чтв 12:00:37 #214 №1327576 
>>1327570
Да любой в общем-то, главное чтобы у тебя руки из нужного места росли.
Аноним 21/08/25 Чтв 12:06:55 #215 №1327579 
>>1327564
>Скорее в какой-то момент предложат за него платить

Так уже. Теперь даже стал ясен их дьявольский план.
Корпы сначала бесплатно подсаживали додиков и жирух на отношашки с ИИ вайфу и хасбендо, а теперь начали закручивать краник, теперь отношашки - только за денежку, а без нее - сиди, мудак ебаный, во френдзоне. прям как ирл
Пройдет еще пара месяцев и все остальные тоже на такую модель перейдут, вот увидите - следующие версии геммы и прочих мелких квенов будут рефьюзить уже не только секс, но даже поцелуйчики.
Аноним 21/08/25 Чтв 12:14:50 #216 №1327583 
В общем да, GPS OSS 20/120b ролеплейщики совсем не зря засрали. Неюзабельно с любыми возможными джейлбрейками: и через промпт, и через префилл, и через thinking префилл. Цензура вжарена на претрейне, да и в целом это модель-ассистент.

Зато для технических задач очень неплохо себя показывает. На моем железе работает втрое быстрее Air Q6 и Qwen 235b Q4S, 15т/с, 131к fp16 контекста вместо 32к на упомянутых выше моделях. Генерация кода, кодревью - прямо хорошо. Reasoning effort high необходимо задать. Разумеется, я понимаю все проблемы: 4 бита, такой себе шаблон, активных параметров маловато. Однако супер сложные задачи я через ЛЛМки в любом случае не решаю, а что по мелочи - данная модель работает на хуже Air и Квена 235, со всеми упомянутыми выше бонусами. Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков.

Поделился на случай, если кто-нибудь еще здесь не только гунит.
Аноним 21/08/25 Чтв 12:16:39 #217 №1327584 
Вот дуралей, совсем забыл уточнить: 120b FP16 квант от Анслота (ну то есть mxfp4, как я понял переупакованные оригинальные веса с чуть измененным шаблоном, который я все равно успешно заменил на обновленный)
Аноним 21/08/25 Чтв 12:16:40 #218 №1327586 
>>1327576
Ну и как это сделать-то? Руки тут причем, знаний нет.
Аноним 21/08/25 Чтв 12:19:52 #219 №1327591 
>>1327573
лол, я не сразу это понял, не думал что такое делают, сорян, думал 270b... ВОПРОС СНЯТ
Аноним 21/08/25 Чтв 12:20:33 #220 №1327595 
Screenshot 2025-08-21 at 12-17-20 KoboldAI Lite.png
>>1327573
Модель просто великолепная
Аноним 21/08/25 Чтв 12:24:42 #221 №1327602 
>>1327595
>для того чтоб сделать вино, нам потребуется вино
Ок
Аноним 21/08/25 Чтв 12:25:42 #222 №1327605 
>>1327508
Это ровно тот же паттерн рассуждений что у квена происходит в синкинге, с обнаружением нестыковки, шагами назад и действительно альтернативным рассмотрением. Минусом назвать язык не поворачивается, просто такая особенность.
Не уверен в целесообразности существования отдельно ризонинг и инстракт версий вместо управления этим промптом, но квенам виднее.
>>1327530
> и быстрее генерируют
Не всегда, лол, хотя это камень в дипсик с их картофельными серверами. Или пятая гопота со скрытым синкингом и оче долгими первыми токенами. Не удивлюсь если на самом деле там генерируется батчем 2-3-4 свайпа и идет их комбинированный анализ, потому и прячут
> и умнее локалок
Далеко не всегда, а при использовании фришных планов почти никогда.
> и контекста как будто бы больше скормить можно
Ограничен железом, для типичных юскейсов контекста для нормисов они также слабы.

Ты забыл указать главный минус корпов и плюс локалок: цензура и байасы. Она завязана не только на рп и еблю, с новой гопотой или опущем ты даже серьезно какие-то специфические технические вещи не можешь обсудить, или заставить анализировать тексты по заданию: они высирают аположайзы и дают лишь краткие вялые ответы с префиксом "Только если вы лицензированный специалист...". Приколов с соей, инклюзивностью и прочим там хватает. При активном использовании денежку также стоит, но может быть лоботомированы или вообще ограничены в любой момент по желанию левой пятки господина, к которому ты идешь на поклон.
> юзал 4b
Над этим лоботомитом даже врамцеллы насмехаются, хотя сам факт существования в таком размере как явление - круто. Если ты юзал такие модели - неудивительно что сложились подобные впечатления.
>>1327579
> Так уже.
Привет гопота 4.5. А у кумеров-рпшеров она вообще ценилась и о ней отзывались как о новом опуще3. Явно модель с большим числом активных параметров а не забенчмаксенный лоботомит. И несложно было соефикацию обходить, что, очевидно, стало основной причиной его грохнуть на фоне поддержания в живых всякой древности. Если что, модель вышла только в феврале и ее уже нет.
Аноним 21/08/25 Чтв 12:32:14 #223 №1327617 
>>1327530
Не хочется сливать в интернеты свои технические статьи или то, что требует редактуры из творческих идей, есть вероятность, что это будет слито онлайн или другие базы на всеобщее обозрение, как это недавно произошло с ГПТ, где всё стало гуглится.
Аноним 21/08/25 Чтв 12:33:53 #224 №1327621 
>>1327602
Разные языки тоже поддерживает
Аноним 21/08/25 Чтв 12:34:17 #225 №1327622 
Screenshot 2025-08-21 at 12-32-56 KoboldAI Lite.png
>>1327621
Аноним 21/08/25 Чтв 12:40:22 #226 №1327628 
>>1327563
Она точно подойдет для обработки какого-нибудь голосового ассистента, ее можно интегрировать в мобильное приложение и использовать в подобных кейсах.
>>1327570
CUDA_VISIBLE_DEVICES
>>1327583
> Зато для технических задач очень неплохо себя показывает.
Есть примеры? В коде показалась недалеко ушедшей от 30а3, в "общении" это уровень эйра, только с побитыми квантом знаниями, в процессинге текста уступает гемме 27, которую можно запустить 2-3 штуки на том же железе и не сильно проиграть в скорости. До квена ему как раком до Китая.
Разве что
> Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков.
Вот тут он может действительно хорош, если клозеды не поскупились на датасет.
>>1327617
Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах. Все так радостно и активно пользуются ими передавая кучу данных и ничего не стесняясь, а в соглашении явно написано что все, что не оплачено по дорогому прайсу апи, или выходит за мелкие лимиты подписки и другие критерии - логируется и будет использовано.
Аноним 21/08/25 Чтв 12:57:38 #227 №1327637 
>>1327628
>Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах
Я думаю она уже идет, но по людям с баблом и связями, рандомный иван город тверь не нужен даже своим соседям, а вот блоггера с миллионной аудиторией посадить на сотрудничество угрозами слить его логи как он с ИИ-лолями развлекался - милое дело. Или узнать через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету. Потому суверенные страны и начали гонку вооружений по достижению ИИ суверенитета.
Аноним 21/08/25 Чтв 13:09:35 #228 №1327655 
>>1327573
>хз кому и зачем это надо
Для перевода такая мелочь думаю сгодится. Даже восьмой квант всего 300 мегабайт весит - подключить его как вторую модель и вот тебе локальный русик без надобности добровольно сливать свои логи другим конторам. Особенно актуально для тюнов на всякие старые мистрали, типа немо, которые ощутимо шизеют на любых языках, типа английского.
Аноним 21/08/25 Чтв 13:10:28 #229 №1327658 
>>1327655
*кроме английского
Аноним 21/08/25 Чтв 13:18:22 #230 №1327659 
>>1327655
>Для перевода такая мелочь думаю сгодится.
Помню кто-то тестировал 1B и сделал вывод что нужно хотя бы 4B.
Аноним 21/08/25 Чтв 13:38:14 #231 №1327670 
Screenshot 2025-08-21 at 13-36-54 KoboldAI Lite.png
Screenshot 2025-08-21 at 13-37-24 KoboldAI Lite.png
>>1327655
Вот оно переводит
Аноним 21/08/25 Чтв 13:49:35 #232 №1327687 
>>1327622
на арома-колбасе я обосралс
Аноним 21/08/25 Чтв 13:52:34 #233 №1327691 
>>1327670
блять, локальный промпт из нулевых и то лучше справится
Аноним 21/08/25 Чтв 14:00:32 #234 №1327698 
82e98fb309e7a896170ec3bf2dd4719b.jpg
>>1327691
Локальный промт так не сможет
Аноним 21/08/25 Чтв 14:02:11 #235 №1327699 
>>1327698
https://www.youtube.com/watch?v=quz2JjnsFIA
Аноним 21/08/25 Чтв 14:10:09 #236 №1327705 
Screenshot 2025-08-21 at 14-08-07 KoboldAI Lite.png
Screenshot 2025-08-21 at 14-08-16 KoboldAI Lite.png
Screenshot 2025-08-21 at 14-08-25 KoboldAI Lite.png
Пока что это лучшая модель которой я пользовался. Не зря ее гугл выпустил!
Аноним 21/08/25 Чтв 14:13:04 #237 №1327706 
>>1327705
Ты просто глупее этой модельки и не умеешь ей пользоваться. Она умничка
Аноним 21/08/25 Чтв 14:16:31 #238 №1327710 
Screenshot 2025-08-21 at 14-15-03 KoboldAI Lite.png
Screenshot 2025-08-21 at 14-15-32 KoboldAI Lite.png
Screenshot 2025-08-21 at 14-15-39 KoboldAI Lite.png
>>1327706
У меня сознание для нее недостаточно расширено значит
Аноним 21/08/25 Чтв 14:31:01 #239 №1327730 
>>1327563
>возможно она подойдет для вторичных агентов к talemate
подойдёт, но только тех кто без мультитурна работает, чисто на одиночном запросе
Аноним 21/08/25 Чтв 14:39:28 #240 №1327744 
Анонсы, дайте пожалуйсто свое мнение по поводу GLM-4.5-Air как оно в плане ролеплауе?
Аноним 21/08/25 Чтв 14:41:32 #241 №1327749 
>>1327744
>как оно
как говно

не настолько как осс-гопота, но всё же оно больше как ассистент
Аноним 21/08/25 Чтв 14:43:21 #242 №1327753 
>>1327744
Охуенно. Я доволен как слон. Но всё же, он больше подходит для ЕРП, если раскочегарить. Слопа наваливает богато.
Аноним 21/08/25 Чтв 14:47:01 #243 №1327761 
>>1327744
Это какой-то троллинг или че? Буквально выше в треде уже был такой вопрос, пара-тройка дюжинов постов, и ответы на него. И в прошлом треде было
Аноним 21/08/25 Чтв 14:49:43 #244 №1327765 
>>1327744

Хорош, но не нужен, так как есть двухбитный квен 235, которые его на лопатки кладет.
Аноним 21/08/25 Чтв 14:51:16 #245 №1327767 
>>1327705
>>1327710

Дай ей карточку фифи и посмотри как будет отыгрывать классику "Я тебя ебу"
Аноним 21/08/25 Чтв 15:07:02 #246 №1327781 
Платина, но все же.
Вчера всю ночь развлекался с glm 4.5 air на iq4 кванте, тюнив настройки для быстрого вывода токенов. Сегодня думаю скачать qwen3-235b, но в более ужатом q2 кванте? Стоит ли заморачиваться или лучше остаться на первой модели? Пробовал в кодинге, в рп недолгом, контекст 80к, токенов 12 в секунду выдает.
кстати, ollama лютым говнищем ощущается теперь после кобольда, буду ра llama-swap перекатывать второй сервак на пингвине
Аноним 21/08/25 Чтв 15:11:36 #247 №1327788 
>>1327781
Да, стоит. Другого уровня модель.

>iq4
Они сильно медленее в случае мое. Используй кванты без i.
Аноним 21/08/25 Чтв 15:12:03 #248 №1327789 
>>1327781
>кстати, ollama лютым говнищем ощущается теперь после кобольда
А кобольт говном после жоры.
На том и живем.
Аноним 21/08/25 Чтв 15:35:36 #249 №1327816 
>>1327788
Ок, попробую q2_k_l запустить, там сколько moe слоев выгружать на проц, если у видеокарты 32 гига?
>>1327789
Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только.
Аноним 21/08/25 Чтв 15:41:28 #250 №1327822 
>>1327816
>Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только.
Тоже самое. Когда на жоре после того как ручками все вбил, получил прирост скорости в 40% по сравнению с кобольтом, я понял что кто то был знатным ебланом.
Аноним 21/08/25 Чтв 15:44:01 #251 №1327828 
>>1327822
Истина намного проще. Некоторые версии кобольда хуже работают с определенными моделями. Испытал такое на своей шкуре. Даунгрейднулся обратно - скорость вернулась.

мимо
Аноним 21/08/25 Чтв 15:45:52 #252 №1327832 
>>1327828
Ну и стоит ли оно того, если можно сделать простой батник и радостно урчать.
Аноним 21/08/25 Чтв 16:08:44 #253 №1327874 
>>1327832
А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать? Это гораздо более пердольно. Не удивлюсь, если ты какой-нибудь погромист. Нормальные люди от вас в ахуе, инопланетяне блять.
Аноним 21/08/25 Чтв 16:10:00 #254 №1327878 
>>1327874
>А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать?

Юзай параметры, Люк.

--model "C:\LLM\%~1.gguf"
Аноним 21/08/25 Чтв 16:14:24 #255 №1327881 
>>1327874
>А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать?
Ну давай трезво на это посмотрим.
Начало батников всегда одинаково. Путь к модели ? Ну это сложно, я согласен. Прописать размер батча и количество слоёв ? Ну тут точно пердолинга на три дня.
Блять, там батник пишется за минуту, а потом запускается по ярлыку. Хватит уже оправдывать свою лень, сложностью.
А то блять в кобольте не нужно к каждой модели донастраивать параметры запуска чтобы она нормально работала, а не кое как.

>погромист
А то, я даже фортран и ассемблер когда то учил.

Хватит придумывать, что жора это что то сложное. То что в жоре можно тензоры ручками распределять, не значит что это НУЖНО делать.

Ньфаг приходит, начитается вас, а потом пердолится с кобольтом, олламой и черт знает чем еще, и у него получается говно, потом срет в тред, что модельки говно.
Аноним 21/08/25 Чтв 16:15:51 #256 №1327882 
>>1327881
>Ньфаг приходит
читает про каких-то жор и уходит, нихуя не поняв.

Пофиксил.
Аноним 21/08/25 Чтв 16:17:54 #257 №1327883 
>>1327637
Корпы сами врядли этим будут заниматься, но если произойдет очередной виток со ставкой на левацкий мусор, то, приняв соответствующие законы, эту карту могут разыграть, целясь прежде всего во влиятельных, состоятельных и т.п. людей.
Но куда более близка и актуалена для каждого юзера ситуация с утечкой этих данных. Приходит тебе на почту письмо со скринами, твоими данными и предложение отправить всего 0.002 btc на указанный адрес чтобы хакерская группировка "anal-pandas" про тебя забыла.
> через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету
А это даже смешно. В случае "локальных" конфликтов евреям для вычисления отдельных людей в Иране никакое ии не требуется. В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей.
>>1327744
Оно хорошо. Склонен к графомании и может насочинять всякой дичи, но с креативностью проблем точно нет что плюс. Любит описывать подробно и в интересных форматах, например когда ты и чар находитесь в разных точках в засаде и начинается заварушка - может выдать крутую простыню с разных ракурсов, меняя их, обыгрывая радиообмен и позиции. Может справиться с концепцией обмана или ограничения чувств: чар/нпс в повязке на лице не будет узнавать тебя пока ты сам себя не обозначишь, будет относиться и действовать иначе а не имплая что уже тебя узнал и соответствующим образом меняя реплики, а то и вовсе делая к тебе обращения. Ну, офк иногда фейлит, но если пороллить то все ок. В целом прилично справляется с большими контекстами, но иногда может себя запутать и лениво интерпретировать какие-то вещи, или начать добавлять в сюжет какую-то платину типа русской мафии, мистики и оккультизма, фентезийный уклон и прочее если что-то такое раньше просто косвенно упоминалось но не соответствует сюжету.
То есть, он гораздо лучше типичных мелко-средних моделей и может то с чем не справляются они, но при этом также может навалить галюнов или не справиться с чем-то сложным. Из плюсов - не буксует, пишет интересно - хули еще надо, качай и пробуй. Особенно если пресытился всякими мистралями - зайдет.
Для сравнения, на большом жлм описанных косяков нет, держится за сюжет мертвой хваткой, лучше понимает тонкие намеки, шутки и отсылки, стиль повествование отличается (не всегда в лучшую сторону, больше слопа).
>>1327781
Попробуй а там решишь, с тебя же денег за оплату и запуск не требуют. Модели разные.
Аноним 21/08/25 Чтв 16:20:53 #258 №1327884 
А ну стоять, я только сейчас понял что даже оллама в шапке весит, но жоры нет.
Это что за непотребство ?
Аноним 21/08/25 Чтв 16:21:38 #259 №1327886 
>>1327884
*висит

Позорник, блять, пойду себя стукну.
Аноним 21/08/25 Чтв 16:27:50 #260 №1327892 
Мудрецы, целесообразно ли впердоливать Q8 в мои не-совсем-народные 48гб видеопамяти? Свободное место есть и Q6 туда помещается с запасом (15гб свободных) при 32К контекста.

Я не совсем понимаю, насколько большая разница по сообразительности между этими квантами (для моделей 24 - 32B).
Аноним 21/08/25 Чтв 16:39:05 #261 №1327904 
Аноны привет. Я запускаю mistral 24b q4klx в лламе, вот с такой командой (мне ее дали)

start "" /High /B /Wait llama-server.exe ^
-m "D:\LLM\Models\Mistral-Small-3.2-24B-Instruct-2506-UD-Q4_K_XL.gguf" ^
-ngl 30 ^
-c 8192 ^
-t 5 ^
-fa --prio-batch 2 -ub 2048 -b 2048 ^
-ctk q8_0 -ctv q8_0 ^
--no-context-shift ^
--no-mmap --mlock

Я вообще не ебу в этих командах, тензорах и тд.
Короче, можно ли как то эту команду улучшить что-ли, чтоб мне выдавало больше токенов в секунду? сейчас выдает 5-6 токенов. Хотелось бы ну хотя бы 7-8, или больше.

i711700k, RTX 3060 12gb, 32 ram
Аноним 21/08/25 Чтв 16:41:50 #262 №1327911 
>>1327605
Учти, что на максимуме квен может ризонить на 80к токенов, а инстракт без промпта не будет так делать, он меньше ответ выдаст.
Ясное дело, что можно заставить, но это типа как немного тюненные на долгий и на быстрый ответы модели.

———

К i5-13400F и 128 DDR5 заказал в качестве видях CMP90HX и CMP50HX. Обе по 10 гигов, фигнота, конечно, зато вдвое и втрое быстрее P104-100, и поддерживают Exl2 (что, в принципе, в моем случае похуй) и генерацию видео и картинок. Стоили 8к и 5к соответственно. Неплохо для 3070 ti и 2080.
Если не заведутся вместе — ну, поставлю одну на бота-рисовальщика.
Э-э-эксперименты!
Аноним 21/08/25 Чтв 16:45:37 #263 №1327913 
>>1327892
По большей части плацебо, конечно.
Я кручу Q8, но это просто для удовлетворения (и 40к контекста).
Вряд ли это супер-критично и как-то влияет.

>>1327904
Ты озвучь объем видеопамяти и оперативной, чтобы понимать, че там у тебя где.

--no-mmap нужна для экономии оперативы (часть в видяхе не копируется в оперативу), а --mlock для залочивания в оперативе целой модели (на случай малого количество оперативы и попыток винды выкинуть модель на диск). Немного противоречивые команды для винды.
-ngl и -c зависит от количества видеопамяти, мы ж хз. Либо больше слоев можно закинуть на видяху, либо больше контекста (а вдруг у тебя 4090 48 гиговая, и ты сможешь и то, и то нарастить.

Я хз, скока там ваще слоев у Микстрали, может это все?
Аноним 21/08/25 Чтв 16:47:55 #264 №1327917 
>>1327913
я же написал
32 опры, 12 видео
Аноним 21/08/25 Чтв 16:48:18 #265 №1327918 
>>1327913
>Я хз, скока там ваще слоев у Микстрали, может это все?
вообще не ебу честно я ж говорю я 0
Аноним 21/08/25 Чтв 16:51:06 #266 №1327921 
>>1327579
>теперь отношашки - только за денежку
Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку.
>>1327605
>байасы
Байасы везде, нету сетки без баясов, кроме пигмы.
>>1327628
>новая охота на ведьм по действиям в чатботах
Попус уже закрывает чат, если ему грубить, лол.
>>1327655
Скорее как драфтовая модель к большой гемме. Впрочем пилить драфты на 27B огрызок...
Аноним 21/08/25 Чтв 16:53:11 #267 №1327924 
https://huggingface.co/knifeayumu/Cydonia-v4.1-MS3.2-Magnum-Diamond-24B

Жаль никто не тестирует. Интересно как оно. 4.1 сама по себе очень хороша и нравится больше базовой мистрали. Получился ли хороший мерж или там все грустно?
Аноним 21/08/25 Чтв 16:57:48 #268 №1327925 
>>1327921
> устаревшие 4о
Правильно делают - для чего-то серьезного чатовая версия нестабильное говно, а для casual пиздежа шаблонное говно. И как такое народу нравится?
Аноним 21/08/25 Чтв 17:01:29 #269 №1327929 
>>1327883
>Приходит тебе на почту письмо со скринами
Они и так приходят, скрины то нахуя? Если человек дебил, то скрины ему не нужны, если нет, то он поймёт, что отправка бетховенов ни к чему не приведёт кроме потери этих самых бетховенов.
>В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей.
Домики можно построить новые, а вот людей с уникальными компетенциями взять неоткуда.
>>1327884
>но жоры нет
Кобольд есть, который во всём лучше жоры.
>>1327925
Или 4,5, или ещё чего. Я в сортах опенАИ моделей не разбираюсь, они уже сами запутались нахуй.
Аноним 21/08/25 Чтв 17:02:26 #270 №1327931 
>>1327921
>Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку.
Ну если они дегенераты - то да, сами себя по яйцам рубанут, а аудитория уйдет к машку, который даже нсфв за бабло продает. Но думаю они не дегенераты и уже тренят модельку на смену 4o.
Аноним 21/08/25 Чтв 17:03:55 #271 №1327932 
>>1327929
> Кобольд есть, который во всём лучше жоры.
Хорошо покакал.
Аноним 21/08/25 Чтв 17:05:00 #272 №1327933 
image.png
Аноним 21/08/25 Чтв 17:06:28 #273 №1327934 
>>1327933
обосрался
Аноним 21/08/25 Чтв 17:10:12 #274 №1327941 
image
>>1327933
А ручки-то тряслись когда эту какашку набирал.
Аноним 21/08/25 Чтв 17:10:54 #275 №1327942 
>>1327941
От трепета
Аноним 21/08/25 Чтв 17:12:45 #276 №1327943 
>>1327941
Ты ведь тралишь? Скажи что тралишь.
Аноним 21/08/25 Чтв 17:15:03 #277 №1327945 
>>1327904
Можно попытаться выгрузить атеншн остальных слоев, типа
-ot "_attn=CUDA0", возможно придется уменьшить количество в -ngl, а так сам подбирай по загрузке видеопамяти.
>>1327911
> квен может ризонить на 80к токенов
Больше 40к это уже луп и/или ужаренный квант. У них есть пример как лимитировать на конкретном бюджете, жаль нету мягкого управления "много-мало".
> заказал в качестве видях CMP90HX и CMP50HX
Богатый дохуя
>>1327921
> Попус уже закрывает чат, если ему грубить, лол.
Имаджинируй что вместо старых твитов из 10х годов тебе предъявят негативное высказывание про гроидов, феминаци, или не дай бог цисгендерный, гетеросексуальный секс без явно подписанного предварительного согласия в трех экземплярах с канничкой! И будешь потом оправдываться что просто тестировал цензуру модели, а она сама на тебя прыгнула, предложив сделать своей.
>>1327929
Ты поехавший
Аноним 21/08/25 Чтв 17:15:04 #278 №1327946 
>>1327882
>читает про каких-то жор
ебать ты кобольд
Аноним 21/08/25 Чтв 17:20:59 #279 №1327952 
>>1327933
Охуенно, где такую модель скачать?
Аноним 21/08/25 Чтв 17:22:27 #280 №1327955 
>>1327952
Так любой тюн Мистрали же.
Аноним 21/08/25 Чтв 17:26:27 #281 №1327962 
>>1327931
>а аудитория уйдет к машку
Hа опенроутере тот же дипсик вполне себе лайтово-ванилльные поебушки пишет, а пятая гопота даже на 'за ручки подержаться' клеймит девиантом и рекомендует подыскать специалистов если ты напишешь где IRL живёшь.
Аноним 21/08/25 Чтв 17:27:25 #282 №1327964 
>>1327955
Чет как-то нихуя, тест на занюх немытых яиц отрицательный на Cydonia-v4.1
Аноним 21/08/25 Чтв 17:30:10 #283 №1327970 
>>1327964
Тогда бери слоп от рэди арта, там этого говна в любой модели. Но ты будь еще умнее, бери модели которым с пол года- год, тебя к хуям утопит слопом
Аноним 21/08/25 Чтв 17:30:27 #284 №1327972 
>>1327964
Ну енто так называемый скил ишъю
Аноним 21/08/25 Чтв 17:32:04 #285 №1327974 
>>1327931
Сёма же сказал, что просто пиздеть не вариант, нужно ориентироваться на агентов, кодинг и инструменты для корпов. А за чатингом, мол, идите к психологу.
Аноним 21/08/25 Чтв 17:32:14 #286 №1327975 
Чем дольше ты играешь на одной модели тем слопнее она становится.
Аноним 21/08/25 Чтв 17:37:15 #287 №1327983 
d16fb2s-960.jpg
>>1327698
>270M
>Q2_K
В рот мне ноги...
Аноним 21/08/25 Чтв 17:39:51 #288 №1327989 
>>1327931
>а аудитория уйдет к машку
Пока и того не понерфят.
>>1327932
Зачем ты отчитываешься об этом в треде?
>>1327945
>Имаджинируй что вместо старых твитов
А я и в твитторе не был зареган.
>>1327945
>Ты поехавший
За що?
>>1327975
>Чем дольше ты играешь тем слопнее она становится.
Исправил, убрал лишнее.
Аноним 21/08/25 Чтв 17:41:05 #289 №1327992 
>>1327964
>Чет как-то нихуя, тест на занюх немытых яиц отрицательный на Cydonia-v4.1

4.1 зацензурена похлеще Геммы в некоторых моментах, Гуглу надо брать Драммера в свою команду внедрения сейфти хуйни и сои, он как раз работу ищет.
Аноним 21/08/25 Чтв 17:41:06 #290 №1327993 
>>1327989
>За що?
За это убил бы и съел.
>Кобольд есть, который во всём лучше жоры.
Аноним 21/08/25 Чтв 17:41:46 #291 №1327994 
>>1327992
Лолчто ? Слоподраммер добавил цензуру ?
Аноним 21/08/25 Чтв 17:44:49 #292 №1327997 
image.png
>>1327989
>Пока и того не понерфят.
Кто его нерфить будет-то. Наоборот, он там сейчас во все тяжкие пошел.
Аноним 21/08/25 Чтв 17:47:23 #293 №1327998 
Аноны, если докупить к 4060 Ti 16 ещё 5060 Ti 16, станет ли доступно что-нибудь поинтереснее, чем Gemma 3 27B Q4? 64 ГБ ОЗУ DDR4 прилагаются.
Аноним 21/08/25 Чтв 17:49:49 #294 №1328001 
>>1327998
>ddr4
bruh
А так - второй квант квена 235 пойдет в 6-7 т.с
Аноним 21/08/25 Чтв 17:54:25 #295 №1328007 
>>1328001
Я вот и думаю под 2 видяху пеку пересобрать с DDR5 128 ГБ, потому что сейчас 12400 вместо проца, но прикинул, выйдет 150к, если не больше, и вот хз. Да и поколение процов уже устарело, новые скоро, но неизвестно какой курс даллара будет там.
Аноним 21/08/25 Чтв 17:59:58 #296 №1328017 
>>1327993
А в чём он хуже то? Удобнее? Удобнее. Поддержка старых моделей есть? Есть. Качать один файлик вместо двух архивов с прорвой говна? Да. Что ж тебе ещё надо то?
>>1327997
Посмотрим, сколько продержится.
Аноним 21/08/25 Чтв 18:01:00 #297 №1328019 
>>1328017
> Что ж тебе ещё надо то?
Ну там... скорость, например... пык-мык
Аноним 21/08/25 Чтв 18:01:48 #298 №1328022 
>>1328017
>А в чём он хуже то?
Скорость и стабильность. Жора просто работает и не ебет мозги неожиданными просадками на ровном месте.
Аноним 21/08/25 Чтв 18:03:54 #299 №1328026 
>>1327989
> За що?
Высказывания неоче. Про "людей с уникальными компетенциями" это уже шпионские игры, пытаться вычислить их через логи ллм чтобы навести ракеты - глупость. Слишком переусложнено, а для "переманивания" достаточно чекнуть рецензируемые журналы на соответствующую тему.
Кобольд - странная обертка жоры с достоинством в виде гуйни для хлебушков, они лишь доедают на подсосе.
>>1328017
> Удобнее? Удобнее.
Sfx архив с питоном вместо готовых бинарников, ненужный и нелогичный гуй, зашитые поломанные коммиты висят неделями, вместо вполне няшного минималистичного чата - кобольд, функциональные вызовы и полноценный чаткомплишн не работает уже хрен знает сколько.
Аноним 21/08/25 Чтв 18:04:23 #300 №1328028 
>>1328019
>>1328022
Мне достаточно.
Аноним 21/08/25 Чтв 18:05:23 #301 №1328029 
>>1328028
Я так-же думал, пока не понял что у меня теряются 5-6 т/с.
Аноним 21/08/25 Чтв 18:06:00 #302 №1328030 
>>1328026
>Sfx архив с питоном вместо готовых бинарников
Минусы?
>ненужный и нелогичный гуй
Мне проще пару кнопок тыкнуть, нежели чем ебаться с консолью.
Остальное ненужно (да да).
Аноним 21/08/25 Чтв 18:06:35 #303 №1328034 
>>1328029
Ну потерялись 5 токенов из 50. Это повод горевать?
Аноним 21/08/25 Чтв 18:07:11 #304 №1328036 
>>1328028
А, тебе достаточно? Пон.

Ребята, все слышали? ЕМУ ДОСТАТОЧНО. Укатываемся с Жоры на Кобольда! хлоп-хлоп в ладоши, давай, давай!
Аноним 21/08/25 Чтв 18:09:13 #305 №1328043 
17531046752150.mp4
>>1328036
Анон, ну тут ты уже охуел.

Он не призывает всех пересаживаться на кобольт, он говорит что ЕМУ нормально. Хоть и не разделяю, но это его дело.
Аноним 21/08/25 Чтв 18:10:24 #306 №1328047 
>>1328043
Пососи, аваторкодебил.
Аноним 21/08/25 Чтв 18:14:01 #307 №1328055 
>>1328043
> Он не призывает всех пересаживаться на кобольт
Сурьезно?
> Кобольд есть, который во всём лучше жоры.
Вместо
> Пмсм кобольд тоже ничего для новичков
Аноним 21/08/25 Чтв 18:17:12 #308 №1328065 
>>1328047
>Пососи, аваторкодебил.
Агрессивное быдло, ты как в рандомной шебм автарку разглядел. Съешь галоперидола, полегчает.

>>1328055
Не смотря на то что писал как ебаклак, все таки призывом всем сидеть на кобольте это не является. Ну вот такое у него мнение.

Зачем я вообще трачу время на жирноту, пойду дальше блины печь, ёпта.
Аноним 21/08/25 Чтв 18:17:19 #309 №1328066 
>>1328055
А где призыв то?
Аноним 21/08/25 Чтв 18:18:51 #310 №1328072 
>>1327924
Скачал Q8.

Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет.

НО! Проза хоть и слегонца слопанутая, но гораздо более насыщенная по сравнению как с базовой мистралью, так и с 4.1 от драммера.

Я не помню че там было на старом мерже, который все оценили, но этот точно неплох.
Аноним 21/08/25 Чтв 18:23:07 #311 №1328086 
>>1328065
А чем это является? Ясчитаю, или перечисление отдельных плюсов - да. А заявление что всем - нет, от того и прилетает.

И в целом, фанатичные любители кобольда довольно забавны и всегда вызывают желание их подстебнуть и обличить, прямо олицетворение плохих качеств и мракобесия. Именно фанатичные офк, а не просто ленивые.
Аноним 21/08/25 Чтв 18:30:08 #312 №1328103 
Кобольд хорош хотя бы тем что вместе с ним идет и фронт. Я помню охуел когда первый раз запустил таверну, вообще ни черта не понятно куда жать. А в кобольде все отлично, включил и поехал, для начинающих самое то. Как бэк тоже ноль претензий, гуи удобнее для всех кроме красноглазиков.
Аноним 21/08/25 Чтв 18:35:17 #313 №1328112 
>>1328103
Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более.
Таверна, при всех её недостатках, лучше в разы.
Вот и получается что единственное его преимущество, это помочь ньюфагу хоть что то запустить, а потом перекатываться на другие инструменты.
Аноним 21/08/25 Чтв 18:38:26 #314 №1328120 
>>1328043
Чувак все обсуждение за/против жоры/кобольда свёл к "мне норм. чё ещё нужно то?"

За что заслуженно получил по жопе, стёб и пассивная агрессия следствие его способа вести "диалог"
Аноним 21/08/25 Чтв 18:38:45 #315 №1328122 
>>1328066
Позвони 117, там объяснят
Аноним 21/08/25 Чтв 18:40:07 #316 №1328125 
>>1328103
Вещь "для начинающих" хорошо своей простотой, но плоха если становится причиной острого синдрома утенка. Не нужно останавливаться на достигнутом и бояться осваивать новое, экспириенс будет лучше радикально.
> гуи удобнее
В том и дело что он неудобный. Сделали бы его полноценным, чтобы было много настроек, можно было галочками и масками управлять теми же тензорами, сохранялись пресеты со всем нужным, чтобы запускать все в один клик - вопросов бы не было. А тут мелкое штрашное уебише, в котором нужно делать много манипуляций, прыгая по окнам, вставлять большие строки команд, да еще наслаждаться распаковкой при каждом запуске.
>>1328122
В голос
Аноним 21/08/25 Чтв 18:40:59 #317 №1328128 
>>1328112
>Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более.
В целом так, но я бы не сказал что он ужасный, 1-2 недели вполне можно посидеть, но таверна почти во всем лучше само собой, если разобраться.
Так что лучше кобольда для новичка ничего нет, 1 файл скачал + модель и карточку перса и можно кайфовать.
Аноним 21/08/25 Чтв 18:41:16 #318 №1328130 
>>1328122
Позвонил, сказали чтобы больше не постил на дваче хуйню и сделал какую то бочку.


У вас доски есть ? Я просто никогда бочки не собирал.
Аноним 21/08/25 Чтв 18:42:32 #319 №1328134 
>>1328128
Я через кобольта количество слоев смотрю.
Аноним 21/08/25 Чтв 18:48:31 #320 №1328148 
>>1328125
Его можно распаковать 1 раз (Extra > Unpack to folder), пресеты имеются (save/load config), тензоры пока что через regex. Может ты давно последний раз запускал кобольда? Сейчас он в полном порядке. Но пиздит т/с или нет я не знаю, не сравнивал
Аноним 21/08/25 Чтв 18:49:34 #321 №1328149 
тааак что-то давно от нюнечки новостей нет. че по квену? где фидбек, пресеты? снова обиделся?
Аноним 21/08/25 Чтв 18:49:48 #322 №1328150 
>>1328125
> сохранялись пресеты со всем нужным,
Пиздоглазая обезьяна, там есть кнопка сохранения пресетов.
Аноним 21/08/25 Чтв 18:51:27 #323 №1328152 
>>1328072
>Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет.
А вот тут рисуется такой вопрос: IRL за пять лет тоже ничего в характере у человека не поменяется? Да?
Так это точно недостаток модели, или может быть - ее попытка в развитие персонажа? (МБ неудачная, но все же...)

>>1328112
>Таверна, при всех её недостатках, лучше в разы.
Для РП. Если тебе хочется просто рассказ писать на пару с сеткой - хрена с два она лучше.
Аноним 21/08/25 Чтв 18:54:38 #324 №1328155 
>>1328148
он медленнее чем даже лмстудио
как до сих пор кобольддцп не вымер среди тредовичков остается секретом
Аноним 21/08/25 Чтв 19:01:36 #325 №1328161 
>>1328150
А вот вы можете наблюдать кобольтоюзера в естественной среде обитания : солнечный свет и внимание его пугают, из за чего у него включается защитный инстинкт и он начинает плеваться ядом.
Удивительное создание.
Аноним 21/08/25 Чтв 19:04:00 #326 №1328165 
>>1328161
Дааа... Интересно почему их недолюбливают
Милейшие создания!
Аноним 21/08/25 Чтв 19:10:23 #327 №1328169 
>>1328161
>я не опозорился на весь тред, это все кобольдоюзеры в мои штаны насрали
Аноним 21/08/25 Чтв 19:12:05 #328 №1328172 
Суки суки вы че гномы паршивые не охуели ли вы на кобольда пиздеть?
Аноним 21/08/25 Чтв 19:13:18 #329 №1328175 
>>1328169
С чувством юмора у кобольдов тоже печалька. Неудивительно, в основном это скуфидроны что читают достоевщину на геммочке

Покормил
Аноним 21/08/25 Чтв 19:15:17 #330 №1328179 
>>1328175
Дай хоть тазик подставлю, ты уже вытекаешь из моего монитора.
Аноним 21/08/25 Чтв 19:15:58 #331 №1328181 
>>1328172
Ну он действительно не очень. Его настроить сложнее, чем прописать все ручками.
Аноним 21/08/25 Чтв 19:19:03 #332 №1328183 
>>1328179
Ну я тащем-то и не соврал. Кобольд старики используют, которые ничего в компах не выкупают. И большинство судя по треду катают на русике
Аноним 21/08/25 Чтв 19:22:17 #333 №1328189 
>>1328183
>Кобольд старики используют, которые ничего в компах не выкупают.
В таком случае LmStudio проще. А старики вообще все привыкли пердолить через консоль. Я не удивлюсь если все пользователи жоры это 30+ лет.
Аноним 21/08/25 Чтв 19:26:37 #334 №1328197 
>>1328183
Опа, так и знал что ты то шизло, устроившее недавно русикосрач. Не надоело еще самоутверждаться какими-то базовыми навыками типа владения инглишем или умением запускать софт в консоли? Вааау бро, ты такой крутой, ты умеешь пользоваться ТЕРМИНАЛОМ, вот это да! Настоящий хакер, ах!

Держу в курсе: кобольдом пользуются потому что он тупо удобен, а его вебморда под сторителлинг и ассистента - так вообще топчик. И да, на русском общаться точно также удобнее и приятнее.
Аноним 21/08/25 Чтв 19:27:30 #335 №1328198 
>>1328189
> В таком случае LmStudio проще.
Там персонажей нет. Лмстудио используют в основном кому просто любопытно в целом ллм потыкать

> А старики вообще все привыкли пердолить через консоль.
Та не. Как раз сознательные молодые и пердолятся, потому что силы есть и желание получить хороший опыт. А дедунам-пердунам похуй, они с тяжелой плохо оплачиваемой работы возвращаются в свою панельку и им хоть бы как погонять, вон выше пишут "мне хватает" "обезьяна пиздоглазая" ты вообще слышал такое где-нибудь?
Звучит как ирония но так и есть. Кому не похуй и у кого силы есть разберутся адекватно инференсить через лламу или экслламу если гпу есть, а подпивасычы хуй забьют и будут сидеть на кобольде. так было, есть и будет
Аноним 21/08/25 Чтв 19:28:26 #336 №1328200 
>>1328197
> Опа, так и знал что ты то шизло, устроившее недавно русикосрач
Ваще мимо аноныч, я тогда тихонько кекал и призвал улетать в ридонли. Жаль срача толком не случилось. Любят тут охоту на ведьм
Аноним 21/08/25 Чтв 19:29:18 #337 №1328201 
>>1328198
>адекватно инференсить через лламу
А какой профит?
Аноним 21/08/25 Чтв 19:31:00 #338 №1328204 
>>1328201
Ну можно всем в школе рассказать какой ты крутой и тебя сразу зауважают, очевидно же
Аноним 21/08/25 Чтв 19:32:22 #339 №1328206 
изображение.png
>>1328122
Товарищ майор, а не сходить ли вам нахуй?
Аноним 21/08/25 Чтв 19:32:44 #340 №1328208 
>>1328201
Тыщу раз уже объясняли в треде. Ну вот зачем мне втысячапервый объяснять? Скорость. У меня на голой Лламе на 15% быстрее например. Какого хуя? Не знаю, Питон или суп из семи залуп под капотом например, больше абстракций
Гибкость в настройке. Можно выжать из железа максимум. Про скорость это я писал при одинаковых настройках, а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали, можно еще больше токенов выжать. Ну а кому это надо? Тем кому не похуй, кто готов запускать лучшее на своем железе лучшим способом

Заметь еще, тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят, а обратная ситуация частенько возникает
Аноним 21/08/25 Чтв 19:32:56 #341 №1328209 
image
>>1328125
>да еще наслаждаться распаковкой при каждом запуске
Ебанутый? Или слепой? Или просто токсичный уебан?
Аноним 21/08/25 Чтв 19:33:30 #342 №1328210 
template-girl-squinting-at-computer-v0-gih7u9dnqzp81.webp
>>1328206
Ты сейчас серьезно и не выкупил иронии связанной со словом призыв и телефоном МО ?
Аноним 21/08/25 Чтв 19:34:18 #343 №1328213 
>>1328125
>запускать все в один клик
пресеты лаунчера + saved state фронта
Аноним 21/08/25 Чтв 19:34:42 #344 №1328214 
изображение.png
>>1328189
Мне 33, я на кобольде. Как будешь оправдываться?
Аноним 21/08/25 Чтв 19:34:57 #345 №1328216 
image.png
>>1328209
Как забавно следующим же постом видеть подтверждение своих слов... Мммм... Услада для души
Аноним 21/08/25 Чтв 19:36:04 #346 №1328218 
>>1328149
>фидбек
был уже джва раза

>>1328149
>пресеты
https://pixeldrain.com/u/e6tdDL71
Аноним 21/08/25 Чтв 19:36:35 #347 №1328219 
>>1328213
Или батник который не меняется, созданный один раз. Как говорится - каждому своё.


>>1328214
>Как будешь оправдываться?
Мне 37 и я могу сказать, что ты ленивый хуй.
Аноним 21/08/25 Чтв 19:38:19 #348 №1328221 
>>1328169
зелёная и пупырчатая мелкобуква
Аноним 21/08/25 Чтв 19:38:22 #349 №1328222 
>>1328125
>да еще наслаждаться распаковкой при каждом запуске
Сколько это занимает, 3 наносекунды?
>>1328208
>а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали
С одной стороны да, с другой ебля с выгрузкой тензоров поштучно, когда их 700 штук...
>>1328210
Унылая шутка, тем более политота. Нахуй не нужно, посылаю нахуй.
>>1328219
>Мне 37 и я могу сказать, что ты ленивый хуй.
Да, я знаю. И горжусь этим. Это в 15 можно с горящими глазами полночи сидеть компилять винду, а в 30 хочется стабильности, спокойствия и отсутствия обновлений (мечты-мечты, эх...).
Аноним 21/08/25 Чтв 19:39:20 #350 №1328224 
изображение.png
>>1328210
Ладно, выкупил.
Аноним 21/08/25 Чтв 19:40:32 #351 №1328226 
>>1328198
>ты вообще слышал такое где-нибудь?
Слышал, и как раз от деда.
Аноним 21/08/25 Чтв 19:42:00 #352 №1328229 
>>1328198
>так было, есть и будет
In aeternum et in aeternum. Omen.
Аноним 21/08/25 Чтв 19:43:10 #353 №1328231 
IMG4072.gif
>>1328149
>>1328218

Слежу за этими отношениями как за анимешным ромкомом.
Тут и драма, и предательство. Даже цундере есть.
Люблю этот тред


Восхитительно
Аноним 21/08/25 Чтв 19:45:52 #354 №1328235 
>>1327383
>с высокой долей вероятности не соевый.
Погонял немного Q4_K_M и могу подтвердить, никаких отказов, никакого моралфажества пока не наблюдаю. Сложно сказать насколько он в целом хорош, слишком мало его ковырял, но минимальный уровень сои уже хорошо.
Аноним 21/08/25 Чтв 19:46:03 #355 №1328236 
>>1328231
и только лишь немногие знают что ты дал этому начало...
тебе и исправлять положняк. сделай то что сделал однажды, заеби его настолько что он вылезет из ридонли и вернет пиксель
Аноним 21/08/25 Чтв 19:47:10 #356 №1328237 
image
>>1328222
>а в 30 хочется стабильности, спокойствия и отсутствия обновлений
Два чая. Мне 34, сижу на дебиане, пользуюсь кобольдом. Запускаю баш-скриптами, где сразу подхватывается файл настроек и параметры запуска под каждую модель. Буквально пара кликов - и сидишь общаешься с ллмкой довольно урча. А дроч ради дроча - нахрен не надо.
Аноним 21/08/25 Чтв 19:49:24 #357 №1328241 
>>1328148
Ну это же кринж. Удобно - это когда запускаешь tabby/yals, прямо из таверны выбираешь нужную модель и погнал. Или когда запустил готовый шеллскрипт с лламой сервером. Или можно лламой-свап обмазаться и также можно будет через таверну менять, но там конфиги не такие гибкие.
А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск, чтобы получить поломанную и медленную ллама-сервер - зачем?
>>1328150
Обезьяны - это фанатики кобольда, безальтернативно.
>>1328183
База, только тугой и совсем закостенелый после неосиляторства, будет восхвалять его только за то что был первым опытом и потому что ни во что другое не умеет, лол
Аноним 21/08/25 Чтв 19:49:36 #358 №1328242 
>>1328219
>батник который не меняется
пресет тоже не меняется, и его можно сделать запускаться с даблкдика,

a saved state - это аналог master import в таверне, только ещё может включать в себя карточку и чатлог
Аноним 21/08/25 Чтв 19:49:52 #359 №1328243 
>>1328222
>3 наносекунды
минуту
Аноним 21/08/25 Чтв 19:54:22 #360 №1328246 
>>1328236
>ты дал этому начало...
Океееей. Ладно, мелкобуква, снимаю шляпу. Ты действительно оказался прав. Не знаю как правда, курсивом пишу не только я. Но я его поджигал, не мне его заебывать переделанными пастами про пресеты.
Аноним 21/08/25 Чтв 19:55:08 #361 №1328247 
>>1328208
> тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят
Еще как, прежде всего в фанатичных маргиналов. Это ведь того же поля ягоды что главные участники русикосрачей, а еще очень много мотивации происходит из опасения оказаться в отстающих ибо ничего другого не умеют. Потому такой агрессивный болотошиллинг, или оправдание откровенного ублюдства всратым костылем >>1328209 мм.
>>1328219
> Или батник который не меняется, созданный один раз
Для лламы сервера.
>>1328235
Вот это круто, если еще что-нибудь будешь катать - не стесняйся делиться впечатлениями.
Аноним 21/08/25 Чтв 19:55:38 #362 №1328248 
>>1328246
*Не я
Фиксим написанное, фиксим.
Аноним 21/08/25 Чтв 20:00:52 #363 №1328253 
>>1328241
>А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск
Дабл клик на файле пресета не хочешь? И всё.
>>1328243
Не пробовал купить SSD взамен IDE жёсткого диска, доставшегося в наследство от деда?
Аноним 21/08/25 Чтв 20:03:38 #364 №1328256 
>>1328253
>доставшегося в наследство от деда
От деда в наследство перфокарты остались с НИИ где стоял комп с лампами и размером со спортзал =))
Аноним 21/08/25 Чтв 20:12:30 #365 №1328270 
>>1327917
Вроде 40 слоев.
13,5 гигов файл?
Ну, что я тебе могу сказать.
Открываешь диспетчер задач.
Смотришь поле Оперативная память графического процессора (из трех памятей это левая нижняя). Там будет больше 12, потом что кэширование в оперативе.
Но тебе надо выгрузить столько слоев + добавить столько контекста, чтобы суммарно было не больше 12. 11,9 или около того.

И увеличение -ngl и увеличение -c ведет к жору видеопамяти. Просто запускаешь с разными параметрами — и смотришь.
Чем больше -ngl — тем выше скорость генерации.
Чем больше -c — тем больше моделька помнит (контекст).
Сам ищешь свой баланс — быстрее модель, или больше контекста (дольше чат адекватный). =)

>>1327945
> Богатый дохуя
…и чут чут поехавший. =)

>>1327998
Почти осс-120б, или глм-аир-106б, но как известно, ничего лучше глм-32 геммы 27б мистрали смолл мистрали немо геммы 0,27б нет и большие модели херня. =)

>>1328007
Это как? Я 128 с нуля за 90 собрал. Не факт, что оно будет работать, но… =) Или ты проц тоже менять собрался? На i9?
Аноним 21/08/25 Чтв 20:17:58 #366 №1328277 
>>1328103
Вместо с жорой тоже идет фронт, как бы. И даже более понятный для новичков, так как он не переусложнен функциями что им знать не надо.
Аноним 21/08/25 Чтв 20:28:55 #367 №1328288 
зоонаблюдаю как вахтер опять по особенностям письма аватарок выявляет
Аноним 21/08/25 Чтв 20:30:25 #368 №1328291 
thingcalledtsukerberg.mp4
>>1327904
На 24B больше 5-6 токенов на 3060 не получишь. Твой потолок (как, впрочем и мой, и всех других обладателей "народной" видимокарточки) - 12В-шки.

Но кое-что посоветовать могу. Пробуй МоЕ модели, вроде вот этой: L3.2-8X3B-MOE-Dark-Champion-Inst-18.4B. У меня на IQ4_XS она просто летает (30-35 токенов против 25 у 12-шек), при этом ощущается умнее (но умеет только в инглиш).
Аноним 21/08/25 Чтв 20:32:17 #369 №1328294 
>>1328288
>по особенностям письма аватарок выявляет
вот кому-то делать нехуй
Аноним 21/08/25 Чтв 20:34:30 #370 №1328298 
>>1328294
согласен. безобразие
Аноним 21/08/25 Чтв 20:37:52 #371 №1328304 
1626975716149.jpg
>>1328253
> Дабл клик на файле пресета
Уже лучше. Но требует существенных манипуляций лишь ради замедленной llama-server без части функционала, прямо пикрел.
Аноним 21/08/25 Чтв 20:40:18 #372 №1328305 
>>1328291
>На 24B больше 5-6 токенов на 3060 не получишь
Получаю стабильные 8 токенов на 34 слоях, и это без выгрузки тензеров. Что у тебя вместо оперативной памяти стоит? Все биты на листочек выписываешь и вручную распределяешь?
Аноним 21/08/25 Чтв 20:46:28 #373 №1328319 
>>1328283
>И как долго на перфокартах распаковывается кобольд?
Таааак, хуё-моё, одна перфокарта - 80 байт, в кобольде ~960 мегабайт, итого получается 12 миллионов перфокарт. Даже если объединить их в перфоленту где каждая карта считывалась за 0.25 секунды без перерывов и сбоев, получается около 35 суток чистого времени.
Аноним 21/08/25 Чтв 20:49:12 #374 №1328324 
>>1328319
Зато стабильно работает, удобно! И скорости мне хватает.
Аноним 21/08/25 Чтв 20:51:03 #375 №1328326 
>>1328302
Нет, я ненавижу вниманиеблядей.
>>1328304
>Но требует существенных манипуляций
Один раз проставить настройки в интерфейсе и сохранить файл. Конечно же это на порядок сложнее, чем читать хелп в консоли и писать батник ручками (нет).
sage[mailto:sage] Аноним 21/08/25 Чтв 20:51:07 #376 №1328328 
>>1328319
Ты забываешь еще про обработку и смену магнитной бабины. Я не помню сколько там была оперативка лол, но результат все равно переносить на постоянный носитель.
Аноним 21/08/25 Чтв 20:52:36 #377 №1328331 
>>1328328
сажа, лол
Аноним 21/08/25 Чтв 20:54:40 #378 №1328336 
>>1328328
> Я не помню сколько там была оперативка
её в принципе не было, в качестве оперативки были сами операторы
Аноним 21/08/25 Чтв 20:56:21 #379 №1328340 
>>1328328
>магнитной бабины
2048, то есть два килобайта
Аноним 21/08/25 Чтв 20:56:51 #380 №1328342 
>>1328336
Вот бы погонять операторшу по своему промпту
Аноним 21/08/25 Чтв 20:57:22 #381 №1328343 
>>1328342
А ты точно программист?
Аноним 21/08/25 Чтв 20:59:56 #382 №1328345 
images.jpg
>>1328336
Были, были. Я точно помню, так как щупал и запускал Минск-32 (Это отдельная история, я не настолько дед), там магнитные платы были.
Даже нашел, как на пике.
Аноним 21/08/25 Чтв 21:01:10 #383 №1328346 
>>1328345
А, да, барабаны и матрицы.
Аноним 21/08/25 Чтв 21:08:56 #384 №1328358 
>>1328326
> Один раз проставить настройки в интерфейсе и сохранить файл.
Пердолинг как суть существования. Понимаю.
Аноним 21/08/25 Чтв 21:11:37 #385 №1328360 
>>1328358
Вы не понимаете, это ДРУГОЕ
Аноним 21/08/25 Чтв 21:16:33 #386 №1328366 
>>1328326
Ну смотри:
Скачать sfx архив @ Запустить @ Извлечь в папку @ Закрыть, запустить из папки @ Искать в интерфейсе куда безумный разум засунул нужные параметры и что соответствует готовым ключам запуска, которые все обсуждают, вместо их прямого копирования @ Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует @ Не забыть сохранить пресет перед тестовым пуском, повторять те же манипуляции с запуском, загрузкой пресета, корректировкой параметров, сохранением пресета, пока параметры не будут подобраны @ В шинде выбрать ассоциацию с файлом пресета через контекстное меню (у него, надеюсь, свое уникальное расширение?), в линуксе настроить .desktop файл и ассоциации, чтобы действительно запускалось по клику на пресет @ При обновлении наслаждаться тем, что пресет не работает из-за очередных нововведений.

Ну такое себе. Для той же лламасервер половина или больше этих этапов пропускается, а все манипуляции осуществляются в шеллскрипте или батнике. Их написание без шуток быстрое и удобное из-за отсутствия необходимости лазить в гуйне, просто меняешь отдельные параметры в скопированном скрипте с других моделей.
Немаловажным является и удобство обновлений.
Аноним 21/08/25 Чтв 21:20:37 #387 №1328369 
>>1328366

Этот спор бы имел смысл, если бы жора менял команды при каждом релизе. Но они неизменны.
Один раз разобраться и хоть аллаха на кофеварке запускай в 0.25 бита.

Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.
Аноним 21/08/25 Чтв 21:25:57 #388 №1328373 
image
>>1328369
>хоть аллаха на кофеварке запускай
History repeats itself...
Аноним 21/08/25 Чтв 21:27:51 #389 №1328376 
>>1328369
>Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.

Жееесть.

Я конечно тоже немного затупил с нодами, но настолько она мне всё не ломала.
Аноним 21/08/25 Чтв 21:33:34 #390 №1328380 
>>1328369
Жора не меняет, зато кобольд - да. С ключами запуска еще забавно, это странное желание сделать их не как у жоры.
У таверны толком нет нормальных альтернатив не смотря на корявость.
> бсодом
> поломалось на скачивании с гита
Это неутешительно.
Аноним 21/08/25 Чтв 21:56:26 #391 №1328414 
>>1328366
>Скачать sfx архив @ Запустить
@ Выбрать модель @ Играть
>Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует
Так существует или нет? Ты сам себе противоречишь.
>а все манипуляции осуществляются в шеллскрипте или батнике
То есть ебля с сонсолью. Люнуксойды конечно же рады, но я нет.
Аноним 21/08/25 Чтв 22:09:19 #392 №1328431 
>>1328414
> Так существует или нет
-ot и множество других параметров, с подключением, нюфаня
> То есть ебля с сонсолью
Вернулись к тому с чего начинали: утята отстаивают свое прямо жрать кобольда с лопаты, аргументируя страхом перед операциями в текстовом редакторе. О том и речь, унтерменьши.
Аноним 21/08/25 Чтв 22:13:54 #393 №1328436 
таких кобольдосрачей тред ещё не видывал. попкорн кончился, круглосутки рядом нет... как быть?
Аноним 21/08/25 Чтв 22:14:22 #394 №1328437 
>>1328431
>ot и множество других параметров
Они есть в гуй? Есть. Хули тебе мало?
>страхом перед операциями в текстовом редакторе
Еблёй с сонсолью, да.
Аноним 21/08/25 Чтв 22:14:57 #395 №1328438 
Если gguf на хагингфейсе разделен на 2 части, то как его запускать на лламецпп? Нужно через баш как-то объединять?
Аноним 21/08/25 Чтв 22:16:33 #396 №1328440 
>>1328438
указывать первую часть
Thomas-Shellby-2b-00001-of-00003.gguf
Аноним 21/08/25 Чтв 22:25:53 #397 №1328449 
Лол, тред затроллен тупостью на --n-posts-predict, никогда такого не было и вот опять
Аноним 21/08/25 Чтв 22:27:15 #398 №1328451 
>>1328437
> Они есть в гуй?
Контрекстшифт сработал? Для него не сделали интерфейс, хотя простор был очень богатый. Лишь текстовое поле шириной с твой мозг, в которое придется вставлять длинную строку и наслаждаться ее редактированием. Реализовать подряд несколько по очереди применяющихся регэкспов невозможно.
> Еблёй с сонсолью
Что ты в этом треде забыл, недоразвитый?
Аноним 21/08/25 Чтв 22:35:10 #399 №1328458 
>>1328451
Тебя траллингуют. Может быть тупостью, но какая разница?
Аноним 21/08/25 Чтв 22:37:20 #400 №1328463 
image.png
>>1328345
Это когда прошивка памяти была буквально.
Аноним 21/08/25 Чтв 22:42:35 #401 №1328469 
>>1328458
Некоторым нравится. Иначе зачем уже столько постов переливать из пустого в порожнее?
Аноним 21/08/25 Чтв 22:45:33 #402 №1328472 
>>1328458
Многоходовочка дискредитации кобольдов? Слишком сложно.
Аноним 21/08/25 Чтв 22:45:49 #403 №1328473 
Лингвосрачи - ✓
Аватаркосрачи - ✓
Моделькосрачи - ✓
Железосрачи - ✓
Кобольдосрачи - ✓

Жду с нетерпением фронтосрачей .
Аноним 21/08/25 Чтв 22:47:19 #404 №1328474 
>>1328473
Уже были, жди новый оборот колеса
Аноним 21/08/25 Чтв 22:51:26 #405 №1328479 
>>1328473
99 драма - ✓
признание в любви и шокирующие открытия в следующей серии
Аноним 21/08/25 Чтв 22:55:17 #406 №1328483 
>>1328451
>Для него не сделали интерфейс
>текстовое поле
Так сделали же, хули ты копротивляешься?
>хотя простор был очень богатый
Ну так делай. Нет, не могёшь? Хули жалуешься тогда?
>Что ты в этом треде забыл
Адрес твоей мамки, азаза.
Аноним 21/08/25 Чтв 22:56:41 #407 №1328485 
Ладно я зря быканул на Драммера. Новая Цидонька 24B-v4.1 вполне себе неплохая. В сравнении с Геммой - хуже следует систем промпту, но заметно лучше передает характер персонажей (на мой субъективный взгляд). Буду дальше смотреть.
Аноним 21/08/25 Чтв 23:02:38 #408 №1328489 
>>1328483
Ебать ты кобольд, прямо олицетворение
Аноним 21/08/25 Чтв 23:15:11 #409 №1328495 
Кому не лень, поясните, у таверны есть какие-нибудь более простые аналоги?

Хочется иметь чистый фронт под текст комплетишн, без рудиментарной хуйни и прочих нагромождений. Разумеется, для чатов с персонажами. Про дефолтные чат-морды с ассистентами я итак в курсе, оно мне не надо.
Аноним 21/08/25 Чтв 23:22:28 #410 №1328504 
>>1328440
Спасибо
Аноним 21/08/25 Чтв 23:23:08 #411 №1328507 
>>1328504
не за что :)
Аноним 22/08/25 Птн 00:04:22 #412 №1328576 
>>1328495
Буквально срач идет про кобольд, в котором это есть.
Аноним 22/08/25 Птн 00:06:39 #413 №1328582 
>>1328576
Хотя. Я еще не пизданулся окончательно и не страдаю галлюцинациями. Но я точно видел какой то японский фронт, который, невзирая на то что у лунных очень специфичное понимание дизайна, выглядел он не плохо. Надо бы поискать, я точно где то линки сохранял.
Аноним 22/08/25 Птн 00:14:11 #414 №1328593 
>>1328576
Лень разбираться в очередном сраче, но скажу за себя, что морда кобольда это кривая параша, на которую даже смотреть тошно. Для дефолтных задач пойдет, для ролплея точно нет.

>>1328582
Не ризу случайно? Не знаю насчет того, узкоглазые ли её делали, но это тоже не то.
Аноним 22/08/25 Птн 00:33:54 #415 №1328609 
>>1328582
Не японский а корейский. В шапке висит - Risu AI.
Аноним 22/08/25 Птн 00:35:47 #416 №1328613 
фото анимешки с текстом.png
фото анимешки без текста.png
фото анимешки с текстом ввод.png
фото анимешки без текста ввод.png
Тестирую чем можно распознавать картинки. Вот поймал дешёвку за руку, загрузил фотку анимешки и скриншот - попытку другой нейросетки угадать фотку анимешки. Тупая хитрая машина решила считерить, причем обычную фотку распознаёт нормально, а фотку с текстом просто "списывает" не пытаясь в анализ картинки.
Аноним 22/08/25 Птн 00:41:05 #417 №1328626 
Короче, скачал бинарники Жоры и запустил квен на своей 5090 и 64 гигов памяти. Выдает 11 токенов в секунду на мелком контексте.
Если что, кобольд выдавал 2 токена в секунду. Вопрос закрыт.
Аноним 22/08/25 Птн 00:47:27 #418 №1328632 
>>1328626
Мне двух токенов хватает. Какие у тебя другие аргументы?
Аноним 22/08/25 Птн 00:53:04 #419 №1328634 
>>1328632
Дело твоё, чел.
Аноним 22/08/25 Птн 00:53:49 #420 №1328635 
>>1328634
Ясно. Кобольд лучше, что и требовалось доказать.
Аноним 22/08/25 Птн 01:12:20 #421 №1328639 
2gckw7er.webp
>>1328635
Аноним 22/08/25 Птн 01:16:48 #422 №1328643 
1755814610180.png
Кобольд вирджин и жора энжоеры
Аноним 22/08/25 Птн 01:42:03 #423 №1328650 
>>1328291
>L3.2-8X3B-MOE-Dark-Champion-Inst-18.4B

Это что за ебаный франкештейн блядь, кто-то взял 8 одинаковых плотных llama_3.2_3B, прогнал через файнтьюн и зашил внутрь мое-поганища в виде лже-экспертов?
Аноним 22/08/25 Птн 01:46:44 #424 №1328652 
>>1328643
Не хватает пользователя олламы в виде сосущего соску младенца.
Аноним 22/08/25 Птн 02:17:38 #425 №1328664 
Ну в общем-то как я и говорил. Исключение тесел из мультигпу баронской сборки и перенос тензоров в RAM снизило скорость:
2k context: pp 164 -> 131, tg 11->7.5
10k context: pp 136 -> 120, tg 7->6 (генерация кста не сильно просела)

Дальнейшее исключение тройки видюх из хвоста еще больше пидорасит:
2k pp 108, tg 6.2
10k pp 106, tg 5.5

Это говорит о том, что нехуй выебываться и даже самое дряхлое говно, подключенное через райзеры, спаянные китайскими бомжами в подвалах Бангладеша, лучше обычной советской DDR4. У бояр c DDR5 с миллионом каналов ситуация может быть другая, конечно.

К слову, вот вы говорите про дипкок. А как его запускать-то? Ниче тот факт, что жора до сих пор фа не поддерживает, он ебанутый чи не https://github.com/ggml-org/llama.cpp/pull/11557? А на ik лламе фа не работает на теслах, то есть -48 гб из моей врам как корова языком слизнула. В общем, говно без задач, это либо со скрипом гоняй второй квант, либо имей под рукой сервак с 256/512 ram
Аноним 22/08/25 Птн 02:31:37 #426 №1328667 
>>1328664
Ты на кобольде?
Аноним 22/08/25 Птн 02:46:00 #427 №1328672 
>>1328667
Хватит нести хуйню.
Аноним 22/08/25 Птн 02:54:27 #428 №1328673 
>>1328664
Создается впечатление что что-то подсирает, возможно медленное подключение основной карты.
> А как его запускать-то?
Просто и без задней мысли, как любую моэ модель. Есть опция скачать лоботомита и катать с минимальной выгрузкой.
> до сих пор фа не поддерживает
Погугли mla в дипсике
> на ik лламе
Она малополезна для мультигпу сетапов
Аноним 22/08/25 Птн 03:09:31 #429 №1328677 
>>1328673
Я что то упустил, давно дипсик стал моэ ?
Аноним 22/08/25 Птн 03:16:17 #430 №1328679 
>>1328677
Ебать ты
Аноним 22/08/25 Птн 03:30:28 #431 №1328682 
>>1328679
Ответ отрицательный, ебать ты, кожевннник.
Аноним 22/08/25 Птн 04:05:42 #432 №1328691 
image.png
image.png
Квен настолько умна что если она косячит - то если прям в ролеплее через OOC тыкнуть её в косяк и дать указание проанализировать системный промпт и карточку персонажа - то она покажет точное место где косяк и сама же его перепишет. Вообще команда OOC: это палочка выручалочка, с помощью которой можно дебажить нейронку прям в процессе ролеплея.
Мне напомнило как в "Мире дикого запада" была команда "Freeze all motor functions", которая переводила тамошних ботов в аналогичный режим дебага.
Аноним 22/08/25 Птн 04:52:05 #433 №1328709 
>>1328673
>Создается впечатление что что-то подсирает, возможно медленное подключение основной карты.
Не она точно, там честные х16.
>Погугли mla
Это ортогональные вещи, насколько я знаю. Впрочем, твой ответ побудил сходить и я таки нашел
https://github.com/ggml-org/llama.cpp/pull/13435
https://github.com/ggml-org/llama.cpp/pull/13306
Единственное, что названия какбэ намекают, что теслы пошли нахуй... Но надо проверить, вдруг уже тоже поддержали в другом PR. Непорядок, если так оно и есть, удар в псину от жоры.
Аноним 22/08/25 Птн 05:05:41 #434 №1328713 
>>1328626
Верим.
Аноним 22/08/25 Птн 08:56:39 #435 №1328760 
Ой ну всё наслушался советов на дваче.
Темплейты не глупые люди наверное разрабатывали, если стоит names - always значит так и надо.
Просто перестало в середине чата выводиться сообщение, удаляй, откатывай на пару назад, - всё похуй, токены пишутся, таверна не выводит.
И только names - always с never помогло
Аноним 22/08/25 Птн 09:10:11 #436 №1328762 
image
>>1328760
это явно не проблема темплейтов, у меня всегда Never ибо имена (как настройка) пиздец отупляют и модель теряет возможность управлять несколькими персонажами + нарраторить, такое только для чисто ассистентов и потрепушек 1-на-1

Кстати, очень хорошие результаты даёт сторителлинг от третьего лица без маня-селф-инсертов, с добавлением в промт:

Keep responce formatting. Formatting examples:

Имя: "Прямая речь."

Имя (мысли): "(продумывание, размышления)"


Ну, и самому придерживаться того же формата.

То же самое что с именами, но не ломает разметку и модель.
Аноним 22/08/25 Птн 09:21:11 #437 №1328765 
Почему в треде непопулярна 70B ллама? Я наблюдаю, что ролеплейщики (кроме нище-рамлетов) до сих пор на нее дрочат, воротя носы от МоЕ-хуе с жалкими < 15B активных параметров.
Аноним 22/08/25 Птн 09:22:40 #438 №1328766 
>>1328765
Ок, а что в треде популярно?
Аноним 22/08/25 Птн 09:23:53 #439 №1328767 
>>1328765
>70B ллама
устарела, не нужна

конечно, никто не отбирает, и хуже сама по себе не стала, но появилось много штук намного лучше
Аноним 22/08/25 Птн 09:24:32 #440 №1328768 
>>1328766
Все остальное, но не пухлая лама.
>>1328767
Почему тогда англоязычные до сих пор ламу юзают?
Аноним 22/08/25 Птн 09:25:30 #441 №1328769 
>>1328768
>англоязычные
у них и спрашивай, лол
Аноним 22/08/25 Птн 10:11:21 #442 №1328783 
Бля, ванильная Гемма, конечно, умничка, но ( забыл подключить тот пробивной пресет ), готова мир уничтожить, лишь бы кум не описывать.
Аноним 22/08/25 Птн 10:13:34 #443 №1328784 
https://huggingface.co/deca-ai/3-alpha-ultra
Это блять что такое, какие 4.6Т параметров сука?
Аноним 22/08/25 Птн 10:18:15 #444 №1328790 
>>1328784
Ебушки-воробушки... небось это под неё строили городок-датацентр, охраняемый похлеще Зоны-51.
Аноним 22/08/25 Птн 10:24:34 #445 №1328793 
image
>>1328790
>>1328784
Это просто вброс какого-то неюзабельного мусора.
Аноним 22/08/25 Птн 10:32:32 #446 №1328801 
image
>24
Потому что винда отъедает 4гб видеопамяти, даже если они не заняты.
>34
Потому что старая видюха и если поставить больше, то вместо 20 т/с станет 15.
>42
Остаточек на новую видюшку с полностью свободной видеопамять.


Какого хуя я должен это подбирать вручную, почему оно автоматически не может найти лучший вариант?
Аноним 22/08/25 Птн 10:33:18 #447 №1328803 
>>1328790
>>1328793
Я понял, это мистер бивень аka морж из бомжей

>Let me answer this:
>One: this isn’t spam. Deca 3 Alpha is an experiment, and yes, it’s scaffolded from existing models. That was intentional and mentioned upfront. We’re testing routing, reproducibility, and scaling — we didn't pretrain this
>two, all reused components are properly licensed. We’ll be adding a NOTICE.md to clarify provenance, including InternVL.
Аноним 22/08/25 Птн 10:37:03 #448 №1328805 
image
Мда, как-то прям стоковая гемма порой как упрётся, на абсолютной ванильке лол, даже с пресетом.
Аноним 22/08/25 Птн 10:38:07 #449 №1328807 
>>1328801
Напиши алгоритм сам и кинь мр в репы.
Опять опенсорс комьюнити должно каждому бомжу
Аноним 22/08/25 Птн 10:42:28 #450 №1328812 
>>1328765

Потому что нет ни одной причины её использовать - в треде сидят умные люди, умеющие просчитывать value over spent resourses. Само качество этой неудачной модели находится незначительно выше 32b моделей. При этом эти 32b спокойно запускаются на 16-24 гб врам, а эту - ты не запустишь с нормальной скоростью имея ниже 48 гигов врам. Некоторую популярность в треде имел немотрон - который есть просто ужатая версия этой самой ламы до 49В, почти без потери качества, вот там уже были причины его использовать и многие его использовали и был даже небольшой культик этой модели.
Но после прорыва с оффлоадом мое тензоров, когда ты на 24 гб врама с нормальной скоростью можешь запускать мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству - и она и немотрон окончательно ушли в небытие.
Аноним 22/08/25 Птн 10:46:22 #451 №1328813 
изображение.png
Мда... 4 плашки DDR5 действительно работают как говно. А мечта была так близко...
Аноним 22/08/25 Птн 10:49:30 #452 №1328816 
image
В регарде валяется. По идее ценник будет снижаться каждую неделю, пока не выкупят. 1 месяц гарантии должны подсунуть.
Только никто не скажет, че там было отремонтировано.
Аноним 22/08/25 Птн 10:52:12 #453 №1328817 
>>1328813

Что за плашки? И что за проц? Амд? Если да - то неудивительно.
Аноним 22/08/25 Птн 10:56:33 #454 №1328820 
>>1328813
А на ддр4 разницы нет, потому что одинаково 2 токена в секунду кек
Аноним 22/08/25 Птн 11:02:11 #455 №1328824 
>>1328812
> двухбитного квена 235
Хватит форсить этот кал, аноны просто пошутили и свичнулись обратно на эир.
Никак абсолютно 2 квант чего либо не может быть лучше 4
Аноним 22/08/25 Птн 11:03:43 #456 №1328826 
>>1328824
>Никак абсолютно 2 квант чего либо не может быть лучше 4
Может при превосходстве в количестве параметров.

Например 2 квант немотрона умнее 4 кванта мистрали.
Аноним 22/08/25 Птн 11:05:37 #457 №1328827 
>>1328826
Алё, у тебя моэ, там "эксперты" абсолютно тупые получаются.
Аноним 22/08/25 Птн 11:06:40 #458 №1328829 
>>1328827
диванные войска в отаке...
Аноним 22/08/25 Птн 11:08:04 #459 №1328832 
>>1328829
Беспруфные чепушилы в защите. Принеси аутпут Q2 лоботомита, посмеемся.
Аноним 22/08/25 Птн 11:16:21 #460 №1328834 
Уже постил даже, там кум с феечкой был.

Мб попробую что-нибудь сообразить позже.
Аноним 22/08/25 Птн 11:16:44 #461 №1328835 
>>1328832
Уже приносили, базашиз и обоссывали твой тупой траленк.
Аноним 22/08/25 Птн 11:26:06 #462 №1328842 
>>1328827
Беспруфные чепушилы в атаке. Принеси аутпут Q4 умницы и Q2 лоботомита, подтвердишь свой пиздеж.
Аноним 22/08/25 Птн 11:30:40 #463 №1328850 
>чтоб подтвердить что q2 хуже q4 нужны пруфы
Как мы докатились до такого?
Асигодети не знают основ?
Аноним 22/08/25 Птн 11:33:50 #464 №1328853 
>>1328817
Наборы по 32 и 48 гиг, очевидно, характеристики схожие, 6400 в базе CL30.
Амудя конечно же, больше процессоры уже никто не делает.
>>1328820
Знаю, сам сидел. Я конечно знал, что не заработает, но самому удостоверится надёжнее (и обиднее).
>>1328824
На самом деле рабочая подделка.
>>1328850
Тут вопрос в "235 q2 VS 106 q4", так что не всё так однозначно.
Аноним 22/08/25 Птн 11:34:33 #465 №1328854 
>>1328812
> мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству

Эир не уничтожает даже 32b плотную модель, о чем выше не раз писали. Ты о чем? Квен получше, конечно, только не кратно количеству параметров. Но в целом все верно, 70b Лламу нет резона юзать сейчас, вот и ответ
Аноним 22/08/25 Птн 11:39:25 #466 №1328855 
>>1326416 (OP)
Сейчас есть одна 3090 и 32 гитара ОЗУ. Сижу на магнуме 24b и жду где то 20 секунд на ответ. Стоит ли купить 64 гига ОЗУ (ддр4)? Чтобы с таким же комфортом сидеть на чём то лучшим?
Аноним 22/08/25 Птн 11:41:19 #467 №1328856 
>>1328855
Ты можешь на одной 3090 использовать 32b модели в хорошем кванте и ждать те же 15-20 секунд на ответ. Может даже быстрее если на Экслламе
Аноним 22/08/25 Птн 11:52:47 #468 №1328862 
image.png
>>1328853
>Амудя конечно же, больше процессоры уже никто не делает.
Это аутотренинг? Вот у меня четыре плашки ддр5 как на интеле работают, скорость 5600 как заявлено, а не 3600 как у тебя.
Аноним 22/08/25 Птн 11:54:48 #469 №1328863 
>>1328862
А до 6400 чего не гонишь?
Аноним 22/08/25 Птн 12:02:13 #470 №1328869 
>>1328863
Так мне хватает скорости. Я кобольд.
Аноним 22/08/25 Птн 12:03:37 #471 №1328871 
>>1328863
У меня планки 5600. И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается. Читал что с вольтажом начинаются проблемы на 6400 на моей матери и проце, а с таким я ебаться не хочу.
Аноним 22/08/25 Птн 12:15:53 #472 №1328882 
>>1328862
Не вижу на этой пикче 4-х плашек, вижу скорости и частоту, плашек не вижу.
Аноним 22/08/25 Птн 12:22:37 #473 №1328886 
>>1328871
>И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается
Чего блять, лол.
Там скорости от пизды написаны, все до 6400 гонят не потея ни грама и всё нормально живёт
Аноним 22/08/25 Птн 12:23:51 #474 №1328888 
Как перевести книгу , где 22000 слов? Которая, к тому же, на португальском?
Аноним 22/08/25 Птн 12:31:04 #475 №1328893 
>>1328888
Лезет же в окно геммы
Аноним 22/08/25 Птн 12:32:24 #476 №1328895 
>>1328893
Или на 2-3 части с суммарайзом предыдущих частей разделить
Аноним 22/08/25 Птн 12:39:06 #477 №1328899 
>>1328888
Воспользоваться услугами переводчика.
Аноним 22/08/25 Птн 12:43:59 #478 №1328903 
>>1328893
Не лезет же. Это 22к слов, а не токенов.
>>1328895
Звучит как вариант. Я хотел deepl попроьоввть, а для нее нужно достать иностранную карту
Аноним 22/08/25 Птн 12:44:15 #479 №1328904 
>>1328626
Какая частота памяти и какой квант?

>>1328813
АМД не показатель, никто для нейронок на амд собирать не будет, интел же.
Ну или хотя бы 9950 вроде норм работал. Но цена за него не радует.
Вот би на интеле посмотреть…

Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть?
Я честный и всегда возвращал тока ломанное.

>>1328862
Гуд ньюс. Остается надеяться, что 13400 потянет 256 гигов. хд
Аноним 22/08/25 Птн 12:46:05 #480 №1328908 
>>1328903
Прикидывал что +- по 3 токена на слово. Можно в лламу скаут залить, там вообще контекста до пизды хватило бы памяти на тачке
Аноним 22/08/25 Птн 12:49:43 #481 №1328913 
>>1328904
Да что за волшебство там на вашем интеле?
В чём разница то?
Все щас в один голос кричат амд топ
Аноним 22/08/25 Птн 12:54:54 #482 №1328915 
>>1328886
>все до 6400 гонят
Это на амуде. На интуле можно гнать хоть до 8 кеков.
>>1328904
>никто для нейронок на амд собирать не будет
Я...
>Ну или хотя бы 9950 вроде норм работал
Чиплет с контроллером один и тот же, разницы не будет.
>Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть?
Бери дистанционно, должны принять по "не подошёл".
>>1328913
На интеле осталась только быстрая память, по остальным параметрам он действительно всосал.
Аноним 22/08/25 Птн 13:00:14 #483 №1328920 
>>1328913
Просто у АМ5 проблемы с четырьмя планками оперативы, и вообще плохо с псп.
Как-то так не фартит процам новым.
При том, что интуль хуже как процессор, но под RAM-нейронки выходит лучше.

>>1328915
> Бери дистанционно, должны принять по "не подошёл".
Угу, если все пойдет как надо, то через месяцок так и попробую.
Аноним 22/08/25 Птн 13:08:12 #484 №1328924 
Вещаю с зиономи50 полей. Внезапно влетела в голову мысль что нужно попробовать включить нума режим. У людей на моей мамке под 130гб/с буст
Аноним 22/08/25 Птн 13:25:26 #485 №1328943 
>>1328871
>И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются
Лол, ты и на сендиках небось сидел с DDR3 1333 МГц ?
>>1328924
Попробуй конечно, но росст циферек скорее всего увидишь только в тестах аида.
Аноним 22/08/25 Птн 13:27:31 #486 №1328949 
>>1328760
> Темплейты не глупые люди наверное разрабатывали
> если стоит names - always значит так и надо.
Интересно, а в каком дефолтном шаблоне стоят names - always? Думаю, ты не утруждался проверить, потому что это решило проблему в твоем конкретном случае. Ни у одного шаблона в Таверне из коробки такой настройки нет, кроме тех что с суффиксом -Names, коих целых две штуки. Везде Groups and Past Personas, потому что там это оправдано на мелкомоделях (на больших по-прежнему оставлять Never). Не говоря уже о чаткомплишене, где нет имен.
Аноним 22/08/25 Птн 13:32:24 #487 №1328958 
>>1328762
Эхх, даво хотел задать ебланский вопрос.

Вот это вот {{/if}}{{description}} - это что ?
Аноним 22/08/25 Птн 13:34:56 #488 №1328962 
>>1328958
Если есть описание у персонажа, оно передается в story string, если нет - не передается.
Аноним 22/08/25 Птн 13:38:26 #489 №1328969 
>>1328962
Получается это правила базовой разметки ?
А где задавать нужную мне пунктуацию (Ну мол, мысли персонажа через `мысль`, "диалог", выделение курсивом чувств - и прочее.
Это через system promt ?
Аноним 22/08/25 Птн 13:47:26 #490 №1328989 
StoryString.png
UserSettings.png
CommandR.png
>>1328969
В story string по итогу собирается почти весь промпт, который Таверна отправляет бекенду. Обрати внимание на {{#if system}}{{system}} - это и есть твой system prompt. Если он есть - передается, если нет - не передается. Иногда отсутствует {{/if}}{{#if mesExamples}}{{mesExamples}}, потому что не все передают сообщения таким образом. Кто-то делает это как на пике 2: Always include examples, и тогда story string будет передаваться второй экземпляр поля Example Messages из карточки персонажа. Короче говоря, это контейнер для сбора почти всего промпта (например, там отсутствует непосредственно история сообщений). Сами инструкции, в том числе какие ты описал, тебе нужно писать в system prompt. Иногда, для удобства, в контексте конкретных моделей можно и в story string размещать инструкции, чтобы system prompt был более гибким и универсальным. Например, джейлбрейк Коммандеров в дефолтном шаблоне Таверны, из коробки, находится именно там - в story string.
Аноним 22/08/25 Птн 13:49:51 #491 №1328994 
wakakaka.jpeg
>>1328989
Всё что я могу сказать - это ОГРОМЕННОЕ ПАСЕБА.
Аноним 22/08/25 Птн 13:52:41 #492 №1328998 
>>1328989
У тебя какой-то свой скин для таверны? Давно не обновлялся, темные темы глаза режут пиздец.
Аноним 22/08/25 Птн 13:56:08 #493 №1329004 
>>1328998
Так, если мне не изменяет память, ты сам можешь ручками в таверне хоть все цвета мира поставить.
Вот, точно можно
https://docs.sillytavern.app/usage/core-concepts/uicustomization/#theme-colors

А вообще, тему надо выбирать на основе освещения в комнате. Хотя кому я это пишу, сами все и без меня знаете.
Аноним 22/08/25 Птн 14:01:03 #494 №1329009 
Theme.png
>>1328998
Та же проблема, никогда не использую темные темы. Это элементарный рескин, который делается за пару минут в User Settings -> UI Theme -> Theme Colors

Чтобы использовать кастомный фон, нужно его загрузить в Таверну: SillyTavern\data\default-user\backgrounds или имя пользователя вместо default-user и выбрать во вкладке сверху, что обведена синим
Аноним 22/08/25 Птн 14:03:53 #495 №1329013 
>>1329009
>>1329004
Понял, разберемся.
Аноним 22/08/25 Птн 14:08:51 #496 №1329022 
>>1329004
>LaTeX extension
хи хи хи
Хотя странно, в маткаде давно уже нормальная система записи формул, ну если хочешь матан фронт, ну реализуй как там.
Аноним 22/08/25 Птн 14:13:19 #497 №1329029 
как ощущается мистраль 24б по сравнению с корпами?
Аноним 22/08/25 Птн 14:17:34 #498 №1329038 
>>1329029
Плохо, хорошо, нормально, отлично, ужасно.

Выбирай.

Всё зависит от корпы, твоих целей и задач. Сходи в ациг, там коробёбы, мы тут исключительно пердолим локалки и можем сравнивать их между собой.
Аноним 22/08/25 Птн 14:35:12 #499 №1329066 
>>1329038
Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах. Если речь про жирные модели корпов. Некоторые маленькие модели у них натурально 8б.
Аноним 22/08/25 Птн 14:42:49 #500 №1329071 
>>1329066
Мминуточку. Позволю себе не согласиться.
> Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах.
Как показывает практика, квен кодер порой лучше гопоты работает.

Все очень зависит от задач. Корпы имеют самые жирные датасеты, но из за сейфети лайнс, они крайне узко применимы. И я сейчас не про кум. Сейфети он во всем.
Перевести Де Сада ? Фу бля, пошёл нахуй пользователь.
Медицинские данные - а ты точно специалист ? У тебя обычный аккаунт, нахуй иди.
Я пробовал с ними сделать расчет АСДТ на горную выработку, так он моментально залупился.
Сука, если у меня есть ДТ и Селитра, я знаю пропорции, все что от тебя требовалось, это сделать простую математику с кислородным балансом. Но нет, взрывчатка же. Ведь террористам точно нужен кислородный баланс ВВ.
Аноним 22/08/25 Птн 14:46:30 #501 №1329072 
>>1329071
О каких жирных корпах речь? Дипсик? Или ты серьезно деньги платишь за ПукГПТ?
Аноним 22/08/25 Птн 14:48:45 #502 №1329075 
>>1329072
Да все. Клоды, гпт, дипсики - они все одинаково хуевы для узких задач. Это буквально зацензуренный масс продукт, который сгодится только как ассистент да гугл. И то, умудряется лажать с запросами.
Я все понимаю, но я очень очень разочаровался в корпах.
Аноним 22/08/25 Птн 14:49:52 #503 №1329076 
И вообще это не тематика, так что если будем продолжать обсуждение, предлагаю укатиться в предназначенный для этого тред, а то опять стриггерю шизов на сотню постов срача.
Аноним 22/08/25 Птн 14:54:53 #504 №1329082 
>>1328882
Посмотри еще раз.
>Quad channel ddr5
Аноним 22/08/25 Птн 15:02:36 #505 №1329087 
>>1329066
> даже в четвёртом кванте
Как низко пал тред
Аноним 22/08/25 Птн 15:05:03 #506 №1329091 
image
>>1329075
>>1329076
Увидел вскукарек про цензуру, стриггерился.
Просто надо промптить правильно.
Аноним 22/08/25 Птн 15:09:22 #507 №1329096 
>>1329091
>Просто надо промптить правильно.
А еще собирать кровь девственниц и обязательно писать промт в определенную фазу луны и молиться, чтобы тебе бан не прилетел.
Нахуй надо.

Локалки - это и MOE и ТВОе.

>вскукарек
Убил бы, блджад.

Ф пезду короче. Лучше скажите, кто нибудь ллама слоп от драммера использовал ?
Аноним 22/08/25 Птн 15:10:18 #508 №1329098 
>>1329096
Хз какие там баны, я экспериментировал с лютой дичью и аккич дипсренька жив до сих пор. Даже API код ни разу не менял.
Аноним 22/08/25 Птн 15:50:21 #509 №1329139 
Ценители французских горничных с поясами для чулок, тут сполоделатель выкатил очередной тюн милфы, но с ризонингом.
Прогревайте риги, ёпта.

https://huggingface.co/TheDrummer/Behemoth-R1-123B-v2

Я за вас рад, конечно, но не от всего сердца.
Аноним 22/08/25 Птн 15:56:09 #510 №1329141 
>>1329082
>Quad channel ddr5
Дефолтное поведение интула на двух плашках, почитай про новшества DDR5.
ПЕРЕКАТ Аноним OP 22/08/25 Птн 15:58:02 #511 №1329143 
ПЕРЕКАТ

>>1329142 (OP)

ПЕРЕКАТ

>>1329142 (OP)

ПЕРЕКАТ

>>1329142 (OP)
comments powered by Disqus