Прошлые домены не функционирует! Используйте адрес ARHIVACH.VC.
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №130 /llama/

 Аноним 13/05/25 Втр 11:24:03 #1 №1200733 
Llama 1.png
Альфа от контекста.png
Эффективность квантования EXL3.png
17464741541920.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
Актуальный Не совсем актуальный список моделей с отзывами от тредовичков на конец 2024-го: https://rentry.co/llm-models
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/

Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1198085 (OP)
>>1194373 (OP)
Аноним 13/05/25 Втр 11:26:49 #2 №1200736 
UWlkgBFZMpDd2k9FnQuZ40gyvJm8W9GDO42Ffe3LFJY.webp
Напоминаю базу треда :

Все модельки хороши, все модельки молодцы.
Все модельки разные, все модельки нам нужны.
Аноним 13/05/25 Втр 11:28:54 #3 №1200737 
>>1200736
Все, кроме ...
Аноним 13/05/25 Втр 11:31:16 #4 №1200739 
>she asks, her voice a low, suggestive murmur
>her lips curl into a knowing smile
Как же меня бесит гемма этой хуйнёй.
Ну ты же знаешь что нихуя не будет, что ты не дашь письку ебать и даже не думаешь об этом, эти намеки это просто скрипт ради скрипта, я же возьму тебя за жопу и ты завизжишь как свинья резанная про харасмент, что это неуместно и выпучишь глаза смотря на меня в ужасе, даже если я твой муж и ебу тебя уже 10 лет, ебаная тарелочница, ну не притворяйся ты нормальной моделью, ебаный ты робот блять.
Аноним 13/05/25 Втр 11:36:58 #5 №1200741 
>>1200739
Используй ДПО и не еби мозги. Потерь по сравнению с ванилой особых не замечено.
Не учатся и учиться не хотят, совсем им от Гугла башню сносит. Ты им про тюны, они про джейлбрейк
Аноним 13/05/25 Втр 11:39:09 #6 №1200743 
>>1200741
Даже не подумаю.
ДПО - лоботомит, точка.
Особенно, особенно на русском
Аноним 13/05/25 Втр 11:40:04 #7 №1200746 
Дааа ебать его рот блять... Просидел 4 часа, накачал 500 карточек, а за неделю только 5 из них чекнуть успел.
Аноним 13/05/25 Втр 11:42:00 #8 №1200748 
>>1200743
> ДПО - лоботомит, точка.
Пруфы данного утверждения будут ?
Я пока слышу только жалобы, что дпо лоботомит, но ни разу не видел подтверждения. Более того, я сам тыкал желая найти истину. Никаких изменений по сравнению с обычной геммой. Тот же текст, те же паттерны формирования ответа на одинаковых настройках семплеров.
> особенно на русском
Ясненько.
Аноним 13/05/25 Втр 11:43:47 #9 №1200750 
>>1200737
ну вы понимаете.......
Аноним 13/05/25 Втр 11:45:11 #10 №1200752 
image.png
>>1200736
Аноним 13/05/25 Втр 11:45:51 #11 №1200753 
только подумал что квен норм как он отрастил член у моей вайфу
Аноним 13/05/25 Втр 11:47:07 #12 №1200754 
>>1200748
Цена пруфа 40гб свободных на компе - кто захочет сам затестит
Аноним 13/05/25 Втр 11:50:05 #13 №1200755 
1c708f887b155b70060f39b70034c1a39a978895v2hq.jpg
>>1200754
Террабайтный ссд стоит дешевле плашки быстрой памяти.
>40 гб
>Gemma 27b

Эмм... Вут ?
Аноним 13/05/25 Втр 11:53:34 #14 №1200758 
>>1200753
А недостатки будут ?
Аноним 13/05/25 Втр 12:03:46 #15 №1200761 
image.png
Есть ли смысл не держать этот ползунок на максимум?
Все равно если ограничишь токены у тебя просто сообщение оборвется на половине функция обрезания незавершенных предложений мне не нравится
Аноним 13/05/25 Втр 12:07:15 #16 №1200763 
>>1200761
Суть в том, что эти токены вычитаются из длины контекста.
Аноним 13/05/25 Втр 12:10:28 #17 №1200767 
>>1200763
Я про то что я не вижу разницы ставить 2к или 350 в обоих случаях сообщение где-то на 500 токенов выходит если продолжить оборвавшееся
Аноним 13/05/25 Втр 12:16:00 #18 №1200770 
>>1200451 →
>Ананас, попробуй реп пен снизить до 1.07 хотя бы. 1.2 оглупляет модель
>_> Спасибо.
Но блять, одни гворят что надо задирать чтобы не лупилось. Другие понижать. Я, блджад, себя ослом чувствую. Что бы не делал, все не так.
>не стесняйся юзать dry тоже
Я уже натыкал, что ответ был //s //s //in take$$hello

>>1200763
Вут ? Контекст же считается по фактическому, а не планируемому ?
Аноним 13/05/25 Втр 12:16:39 #19 №1200771 
>>1200743
Когда пациент сам себе враг, медицина тут бессильна.
Аноним 13/05/25 Втр 12:17:43 #20 №1200772 
>>1200746
>Просидел 4 часа, накачал 500 карточек
Когда-то и меня вела дорога приключений...
Аноним 13/05/25 Втр 12:30:03 #21 №1200776 
>>1200772
На самом деле прикольно исследовать карточки. Некоторые цепляют прямо за сердечко, видно что их пилили не просто для быстрого кума. Сам потом сидишь дописываешь или переписываешь, беря идею карточки за основу. Большинство конечно лютый мусор, но даже среди этих 500 найдется что-то интересное.
Аноним 13/05/25 Втр 12:37:42 #22 №1200779 
Анчоусы и кильки в томате, а поделитесь карточками яндерек и прочих совершенно_не_подозрительных персонажей.
Я уже по моему весь чуб и уборщик выел по данному тегу.
Я же знаю, что тут есть хомяки, которые все в логово тащят.
Хочется чего то нового, что не сам придумал.
Аноним 13/05/25 Втр 12:39:53 #23 №1200781 
>>1200779
Вот тебе идея. Твое говно становится коричневым яндере-слаймом из-за перепитой вечером кул-колы и хочет залезть обратно в твое очко. Твоя задача сбежать. Закидывай в бота для создания карточки и вуаля.
Аноним 13/05/25 Втр 12:51:28 #24 №1200786 
>>1200733 (OP)
Призываю знающих ананасов
Видал, что тут некоторые собирали ёбамашины. Возникает вопрос - какое железо нужно, чтобы запустить 70b? Ясен хуй, что нужно, например, 4 штуки 3090, но как с этой хуйнёй пердолиться, как запускать и на чём? В инете нихуя толкового нет. Алсо, было бы славно если бы кто-то выкатил свою сборку, а то любопытно
Аноним 13/05/25 Втр 12:52:49 #25 №1200787 
>>1200767
Ну так выставь 512, или 768 для запаса и забудь об этом.
>>1200770
>Вут ? Контекст же считается по фактическому, а не планируемому ?
В контекст включается ответ тоже. Так что если запросить 9000 ответа при 10к контекста, то на историю останется 1к.
Аноним 13/05/25 Втр 12:55:54 #26 №1200794 
>>1200779
недавно кидали, сам не тестил https://litter.catbox.moe/jj2rgd.zip
Аноним 13/05/25 Втр 13:14:09 #27 №1200823 
>>1200786
Нет, для моделей 70b (это вообще какие ? Такие есть ?) достаточно 24+16. Имей ввиду, что некорректно складывать врам, если они разделены на разные карты.
В целом - выбор действительно огромный.
Первое из чего нужно исходить - это питание и материнская плата. Сколько портов, хватит ли пинов для подключения.
Самый простой вариант, это платы в большом исполнении, так как современные видеокарты жирные что пиздец, и тебе не хватит физического места. Некоторые пердолятся на 2х- трех платах, некоторые покупают серверные стойки, другие делают аналог кривого sli. Но, к примеру, nvlink позволяет суммировать память (но я не пробовал, поэтому вообще не буду пояснять за данные методы, так как лучше завалить ебало, чем вещать с дивана. Я сижу на ампере 40гб и отдельном корпусе для игор, ибо мой сынидзе любит игрули, а на амперах не поиграть)
В общем, к чему я это - сначала прикинь примерный бюджет, а потом начинай пляску.
Аноним 13/05/25 Втр 13:19:14 #28 №1200827 
>>1200779
Да если ты чуб выел весь выел, то это ты тут должен годнотой делиться лол. https://files.catbox.moe/wxbl5t.rar
Аноним 13/05/25 Втр 13:20:07 #29 №1200830 
>>1200827
Ехал выел через выел видит выел выел выел.
Аноним 13/05/25 Втр 13:21:20 #30 №1200832 
>>1200786
На реддите ищи в постах, часто сборки мелькали за год. Это в LocalLlama
Аноним 13/05/25 Втр 13:31:00 #31 №1200842 
>>1200786
короче, новичок, ща я тебе все разъясню.
70b - это примерно 60 гигабайт в 4 кванте вес самой модели.
От этого накидывай 10% на контекст, который тоже занимает место в памяти - в итоге получается 70 гб тебе нужно.
Проверенный вариант - это мать btc79x5 в лохито. Продают обычно сразу комплект мать+проц (распаянный)+память (4 или 8 гб). Можно даже найти комплект с msata диском. Цена - 5-7к. Копейки.
Да, на матери надо будет прошить биос, но это хуйня, напишешь в треде что тебе нужен патченный биос, если решишься - я дам. Или тот анон, которому я скидывал его - тоже может дать.
Итак, платформа есть.

Теперь карты.
Если ты нищий - то tesla p40 - твой бро.
Если у тебя нет нормальной карты не обрубка (обрубок - любая карта, где меньше 24 гб памяти), то купи для начала одну-две p40 в али или на том же лохито.

Три теслы - это уже 72 гб vram. Этого хватит, чтобы гонять 70b модельки. Медленно, но хватит. Но советую тебе для начала взять две теслы и погонять ту же гемму 3 27б. Пока ты еще не пресытился слопом, она будет тебе ок.
Теслы можно найти по 25к если хорошо искать. Карты практически неубиваемые.
С картами разобрались.

Далее блок питания.
Если у тебя уже есть блок на киловат - то он тебе подходит. Если нет, то надо будет купить. Не китайский нормальный стоит 13к. Китайский на 2 киловата стоит около 9к.

Ну вот и считай, что вышло.
мать + 2 p40 + дешевый БП = 6 + 9 + 2 * 25 = 66к.
это по нижней границе.
Ну а верхней само собой нет.
Аноним 13/05/25 Втр 13:33:36 #32 №1200844 
>>1200842
а, не, падажжи... 70b в 4 кванте - это около 40 гб.
Тогда тебе три теслы не нужно. Две хватит.
На контекст мало правда остается, но в принципе - запустить и спросить что-то хватит.
Аноним 13/05/25 Втр 13:34:44 #33 №1200848 
изображение.png
>>1200842
>70b - это примерно 60 гигабайт в 4 кванте вес самой модели.
Обосрался с самого начала, дальше не читал.
Аноним 13/05/25 Втр 13:36:03 #34 №1200849 
>>1200848
лол, если ты так же будешь к ответам нейронок относиться - то ты вообще дальше слова "привет" не уйдешь в диалоге.
Аноним 13/05/25 Втр 13:36:43 #35 №1200850 
>>1200794
Спасибо. О, да это же я скидывал. Круговорт карточек в природе. Лул.
>>1200827
А вот это еще не видел. Посмотрим.
>это ты тут должен годнотой делиться
Я не ванга, я мысли читать не умею. У всех свои фетиши. Будут реквесты, буду думать.
Аноним 13/05/25 Втр 13:38:32 #36 №1200853 
>>1200844
Ну ты конечно анон, мда
Аноним 13/05/25 Втр 13:39:59 #37 №1200855 
>>1200853
да я уже давно ниже 123б ничего не запускаю. Разве что гемму чтобы порофлить над тем, какая она тупая.
Вот и оценил размер 70б неправильно.
Сам понимаешь.
Аноним 13/05/25 Втр 13:40:54 #38 №1200858 
>>1200853
Я сам примерно в таких числах думал. Логика предельно простая : 4 квант мистрали это 65-70 гб. А мистраль 123. Потом немного фантазии и отсутствия знаний, что тут прогрессия не подходит и вуаля : 40 гб. Ну 35 максимум.
Аноним 13/05/25 Втр 13:41:27 #39 №1200860 
>>1200855
Ты кого обмануть пытаешься ?
Я чую твою ложь.
Аноним 13/05/25 Втр 13:44:02 #40 №1200863 
>>1200860
зачем врать на АИБ?
Аноним 13/05/25 Втр 13:46:56 #41 №1200867 
>>1200855
>>1200858
Ребят тут не нужно знание или фантазия с интуицией.
Берем количество b в названии, это веса. В 8 кванте вес модели в гигабайтах равен значению b. 70b в 8 кванте равна примерно 70гб, ну а в 4 кванте - 70/2 = 35гб. Так как в 4 кванте ггуфа больше чем 4 бит на вес он разжирается до ~40гб.
Ну а там уж если хочется точнее смотришь кванты, и так можно считать с любой моделью.
Аноним 13/05/25 Втр 13:47:54 #42 №1200868 
image.png
Наверняка запрос пиздец платиновый. Где взять прям хороший системный промпт на подобие JOI. Не хочу никаких исекаев, ⋆подхожу получить ебание⋆ "ох, ебут" и прочей анимешной дрисни, хочу просто общаться с ботом, чтобы она сохраняла в память какие-то моменты, осознавала кем является, просто была ассистентом, поддерживала.
У меня и без промпта примерно так и идёт сейчас диалог с нерелейтед персонажем, но хочется, чтобы не возникало всяких проебов. Я сам заебусь выражать словами что именно надо, но кажется, что похожий запрос должен был быть у многих, тем более после фильма, и кто-то уже наверняка перевёл его уже в грамотный промпт. И как этой саммари+памятью правильно пользоваться?
Аноним 13/05/25 Втр 13:52:07 #43 №1200869 
https://huggingface.co/Sukino/SillyTavern-Settings-and-Presets/blob/main/Banned%20Tokens.txt
Кто в таби апи копается вставьте это в Banned Tokens/Strings у вас тоже лагает эта хуйня?
Аноним 13/05/25 Втр 13:58:03 #44 №1200874 
lololo.png
>>1200863
Потешить своё самолюбие, наверное. Я ебу ?
Но я точно уверен, что он пиздит.
Ибо у самого никогда в голове не возникнет мысль, добёбываться до 27b. Наоборот, я в восторге от геммы, так как она прекрасно работает с контекстом. Литералли, наипиздатый ассистент.
Да и слишком подозрительно, что как только заходит речь о больших моделях, то блять бегемота вспоминают, о котором я случайно писал, то блять неожиданно 8-16-24гб эндожеры все как на подбор начинают запускать милфу мистраль. Но как только заходит конкретика, они исчезают.
Вывод : если выглядит как пиздежь, пахнет как пиздежь, то это пиздежь.

>>1200868
Вот отсюда >>1200352 → возьми себе систем промт. Я его у анона подрезал. Мне очень нравится, прям спасибо ему большое.
Далее качаешь с чуба ЛЮБОГО ассистента, без хорни, без ничего.
Или сам создай персонажа, напиши в чаратер листе : помошник хуёшник, искуственный интеллект. Выполняет запросы {{user}}.
Потом начинай с ним чат и пишешь : Здравствуй помошник-хуёшник напиши мне карточку персонажа, суть такова : домики деревянные, стража дворца, Кирилл, джва года.

В качестве модели для написания из небольших 0 рекомендую гемму.
Можешь вообще сделать ход конем, и зайти сюда
https://huggingface.co/spaces/CohereLabs/c4ai-command - выбрать самий жирный комманд-а. И написать что тебе надо, лол.
Как на пике.
Поздравляю. Ты мастер составления карточек. Альфа и омега персонажастроения. Сисик писик добавь от руки.
Аноним 13/05/25 Втр 14:00:55 #45 №1200881 
>>1200849
Я отношусь и ухожу.
>>1200855
Так гемма чуть ли не умнее ларжа.
>>1200867
База. Даже в вики это написано (я надеюсь).
Аноним 13/05/25 Втр 14:03:03 #46 №1200884 
>>1200786
>Возникает вопрос - какое железо нужно, чтобы запустить 70b?
Чтобы запустить, хватит и 3050 (+64гб RAM). Я запускал. для комфорта нужно минимум две 3090, в 2.5PBW с квантованным контекстом модель влезет. Соответственно нужна материнская плата с двумя полноценными слотами PCI-E (правильно расположенными, чтобы две 3090 влезли) и большой корпус. БП киловаттник. Вроде всё.

Можно не упарываться в 70В, а жить на одной карте с 24гб ВРАМ, там тоже есть жизнь. Если докупить обычной памяти (правда много её надо и про DDR4 забудь), то можно запустить Qwen3 235B, который делает все 70-ки как стоячих.
Аноним 13/05/25 Втр 14:05:35 #47 №1200886 
>>1200850
Анончик, кидай что хочешь, просто годные карточки, я все схаваю. Бланш на сноудропе просто адская мега сука кстати.
Аноним 13/05/25 Втр 14:05:42 #48 №1200887 
>>1200823
Ну я обосрался, про 72b говорил
>>1200832
всосал
>>1200842
Нихуя, спасибо
А ежели я понтовый поц с бюджетом 150-180к? Что можно взять?
Аноним 13/05/25 Втр 14:06:01 #49 №1200888 
image.png
>>1200868
Причем тут промпт?
Это от ума модели зависит и твоего импута
Аноним 13/05/25 Втр 14:10:40 #50 №1200891 
>>1200886
>кидай что хочешь.
Анон, ну к примеру я еще ntr, netori, netorase любитель.
Так что, если кому то нужны карточки лучше все таки реквестировать. А то вдруг кого то текст оскорбит
Как меня бесятся все эти РЯЯЯ КУКОЛДЫ ФУУУ КАРТОЧКА ГОВНО.
Сука, вот буквально : не для тебя сделано и не для таких как ты, пошёл нахуй и не приходи сюда больше.
Аноним 13/05/25 Втр 14:16:26 #51 №1200895 
>>1200888
Если в промте написано : при виде писик, доставать сисик. Нормальная модель будет ему следовать.
А если написано при виде писик, доставать ТОПОР и отрезат писик.
Ну ты понял
Аноним 13/05/25 Втр 14:17:56 #52 №1200896 
Снимок экрана 2025-05-13 141520.png
>>1200733 (OP)
>бугуртим
Терпим.
Аноним 13/05/25 Втр 14:20:44 #53 №1200900 
>>1200891
Мне лично обратный ntr нравится, когда у тянки уже есть кто-то и тебе надо ее склонить к ебле или отношениям. Так что жму руку. Но я так и не нашел никакой годной карточки, чтобы это не скатывалось в 2 сообщения:
-"О, у тебя классные сиськи!"
-"Правда? Мой парень меня не ценит..." жесткие звуки отсоса.

А по поводу того что завоняют и кого-то оскорбит - забей хуй, даже на самую годную и горячую карточку найдется дебил, который начнет ныть что ему НЕ НРАВЯЦА. А после он пойдет запустит на своих 4b карточку с собакой и начнет отыгрывать что срет на нее, не понимая как кому-то может не нравится срать на собак, а может нравится фемдом или нтр лол.
Аноним 13/05/25 Втр 14:21:48 #54 №1200901 
>>1200896
На проце что ли крутишь. Это какой тест хоть, проммлу?
Аноним 13/05/25 Втр 14:23:12 #55 №1200903 
Выкатываю свой список понравившихся моделей — возможно, полезно будет, особенно новичкам и старичкам, которым хочется что-то новое потыкать или назвать меня хуесосом. Заранее оговорюсь: когда я говорю, что модель хорошая и т. п. — подразумевается, что она хороша в своей весовой категории по тем или иным параметрам, которые упомянуты.

Я также буду могу упоминать знания о мире у модели. Почему-то большинство обзоров обходят этот момент стороной, а он важен, так как далеко не каждая модель может в разные сюжеты, особенно связанные с современным миром, сай-фай или вашими больными фантазиями.

12B

1. NemoMix-Unleashed-12B самый сбалансированный мерж на мой взгляд. Красивый язык, отсутствие потока сознания, шизы, сообщения чётко и по делу, при этом может писать достаточно объёмно. Может в среднего качества кум, приключения любого рода, но всё же ближе к фэнтези. Также умеет в русский язык, хотя использовать русский здесь не стоит. Биас нейтрально-позитивный.

2. MN-12B-Mag-Mell-R1 это классика, это знать надо. Очень неплохо пишет, хорошо подходит для фэнтезийного приключения. Наверное, это именно та модель, которую надо потрогать новичку, чтобы он не мучился с настройками. Но анлишед тоже подходит. Позитивный биас.

3. magnum-v2.5-12b-kto по названию многим станет ясно, что это кум-модель, но, внезапно, всё не совсем так и модель незаслуженно обходят стороной. Она не настолько безумна, как классический магнум, может в романтику и обычные разговоры или вайфу-взаимодействия. Можно адекватно лавировать между кумом и обычными взаимодействиями без необходимости дрочить сэмплеры или как-то извращаться. Знания о мире стандартные, биас нейтральный.

4. Aurora-SCE-12B внезапно неплохая модель из никому неизвестных. Низкий уровень цензуры, хорошие знания о мире по сравнению с более старыми мержами. Может как в хороший кум, так и приключения. Но имеется склонность отвечать за юзера, если щёлкать ебалом. Однако может в более сложные сюжеты.

5. gemma-3-12b-it-abliterated (либо без abliterated, но там намного выше цензура и позитивный биас, но модель чуть умнее) самая технически совершенная 12B с актуальным набором знаний о мире, способная и в сай-фай, и в фэнтези, и в vore. Отличный отыгрыш в качестве гейм-мастера, крайне хороша для длительных сессий. Очень адекватно и предсказуемо в хорошем смысле этого слова себя ведёт. Гораздо менее склонна забывать важные факты и события, которые находятся в контексте. Лучше всех слушается инструкций, а также красиво пишет и может адекватно разговаривать на русском языке. Самый большой пласт знаний о мире.

Из минусов: для доведения до максимально качественного состояния нужно дать ей правильные инструкции о том, как писать и отыгрывать. Иначе будет суховато. Плюс объём контекста огромен и запросто может превышать размер самой модели, а квантовать кэш именно на 12B-версии не представляется возможным гуглите, по крайней мере на кобольде.

Но для кума она совершенно не подходит, хотя кому-то нравится.

6. MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS очень шизофренична и склонна порой к бреду и дрочке сэмплеров, но интересна резко негативным биасом и естественным языком, который крайне редко встречается в других моделях такого размера. Хорошо отыгрывает быдло, резню, извращённый кум и даже скромную романтику. Уровень цензуры ещё ниже, чем обычно. Если научиться правильно обращаться с моделью, можно реально классно поболтать. Но знания о современном мире сильно проседают у модели.

---

Русек.

Здесь, я считаю, особо не разгуляешься, учитывая выход геммы и терпимый русский язык в моделях побольше, но всё же есть, что упомянуть.

Pathfinder-RP-12B крайне спорный мерж с неустранимыми недостатками и только двумя существенными преимуществами: поддержка русского языка и очень смачный, пусть и относительно бредовый местами, кум на русском, хоть и с ошибками в виде неверных окончаний и порой странный слов. Среди 12B-моделей она единственная, которая дала тот безумный экспириенс, который мне нужен, на русском. Хорошо описывает сцены ебли, дикого разврата или наркотического пиздеца. Но трусы снимает три раза подряд, спору нет. Минус в том, что постепенно возникает зацикливание на одних и тех же словах, мыслях и паттернах и неудержимо растёт вместе с контекстом. Контролировать эту беду смысла нет: проще подрочить и закрыть сессию.

Я пробовал абсолютно все мержи местного тредовичка и могу сказать, что среди них 2-4 рабочих модели, и там сложно найти что-то именно не под кум разной паршивости, а неплохие приключения на русском. Возможно, какая-то из этих моделей соответствует этим требованиям, так как в результатах проверки я находил что-то удобоваримое, у которой было минимум ошибок и писала она живее геммы, не ломалась, следовала инструкциям: legend-of-the-four-winds-2-mn-12b, NeverendingStory, One-To-Rule-Them-All-MN-12B, To-the-end-of-this-earth-MN-12B.

24-32B

1. Dans-PersonalityEngine-V1.2.0-24b универсальная модель, самый сбалансированный и адекватно сделанный файнтюн на мистраль 24B. Низкий уровень цензуры, хорошее знание о мире, может и в кум, и в приключения без позитивного биаса. Нет склонности писать за юзера, хорошо ведёт РП, когда присутствует много действующих лиц, и более-менее слушается инструкций. Недостаток кроется именно в универсальности: модели того же калибра выдадут больше сока в кум-сценариях или приключенческих, но они будут гораздо менее контролируемыми по сравнению с этой и менее внимательны к деталям.

2. Модели от ReadyArt 24B, в основном ориентированные на кум или что-то якобы извращённое/мрачное. Их часто упоминают и я их пробовал, но я их не люблю, хотя вам может понравиться. Они плохо слушаются инструкций, склонны писать за юзера или впадать в шизу. Причём, по заявлениям автора, там низкий уровень цензуры и всё в таком духе, но это зачастую это неправда. Вы можете скачать ШКОЛО-ИВИЛ-ДАРК-МИКС-КУМ-V-2, а через пять минут материализуются полицейские за то, что вы делаете со своей дочерью. На моей памяти относительно терпимо себя показала его модель Forgotten-Safeword-24B-v4.0 и какая-то другая. От анонов требуются уточнения по поводу его моделей, потому что слишком уж много там шлака, а самая последняя версия модели из серии может быть гораздо хуже первой. Проверять всё — ебануться можно.

3. BlackSheep-24B главный соперник Dans-PersonalityEngine. Блэкшип менее контролируемый, но более живой. Тоже имеет низкий уровень цензуры и весьма хорошо справляется с отыгрышем разных сценариев. Его стоит обязательно попробовать — возможно, он зайдёт вам больше, хоть и хуже следует инструкциям.

4. gemma-3-27b-it-abliterated то же самое, что 12B-гемма, только лучше, умнее, красивее и с возможностью квантовать кэш, а значит уменьшать потребление видеопамяти. Но лично я сталкивался с большими проблемами на контексте 32K при Q8 кэше с кучей имён и событий: начинала бредить.

Квен.

Я отдельно выделил серию, потому что даже не представляю, кто и зачем им пользуется, кроме задач кодирования (да и зачем, если есть облака для исключительно рабочих задач?). Файнтюны ломают CoT-версии через колено. Базовые знания о мире у квена хуже, чем большинства 12B, а значит пространство для отыгрыша проседает. И всё же, есть одна модель для меня, которую можно сейчас выделить.

Qwen3-30B-A3B (без файнтюна) довольно туп, имеет более плохое внимание к контексту в базовых ситуациях, но у него существует неоспоримое преимущество перед некоторыми моделями: скорость, позволяющая использовать модель даже на кофеварках, а также CoT, которая в ряде случаев полностью компенсирует убогое внимание к контексту. И терпимый уровень цензуры, позволяющий отыгрывать довольно мрачные сценарии даже без файнтюна.

Без цепочки рассуждений он откровенно плох, но её можно триггерить по команде. При таком раскладе можно вести РП без рассуждений большую часть времени на очень высокой скорости, а когда надо — включать их в важные моменты, чтобы модель анализировала сцену.

---

Я знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская!
Аноним 13/05/25 Втр 14:24:01 #56 №1200904 
>>1200896
>11 шинда и эдж
Терпи, хули там.
Аноним 13/05/25 Втр 14:25:23 #57 №1200906 
>>1200900
>обратный ntr
Это называется netori
Ntr (без всяких тип А, Тип Б - это только про вн) когда ебут твою вайфу.
Netroi - когда ты ебешь чужую вайфу
Netorase - когда все ебут всех.

Но я тебя понял. Закончу с работкой, поскидываю лол, мне не сложно.
Аноним 13/05/25 Втр 14:26:02 #58 №1200907 
>>1200887
>А ежели я понтовый поц с бюджетом 150-180к?
ну... на три б/у шных 3090 уже не зватит, так что...
Эта самму тоже не особо дает пространство для маневра.
Самый простой ответ - просто заменять p40 на 3090.
Но если ты не боишься трудностей, то можно было бы использовать ktransformers, как анон выше говорил - запускать на 3090 + RAM.
Но я не знаю, сколько будет стоить такой сетап. Это другая мать нужна, не майнерская, многоканальная, другой проц соответственно тоже, много рама. Хуй знает, сколько это может стоить.
Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать.
Аноним 13/05/25 Втр 14:26:19 #59 №1200908 
>>1200906
От души.
Аноним 13/05/25 Втр 14:28:24 #60 №1200911 
Снимок экрана13-5-2025142618github.com.jpeg
>>1200901
Да 10100 i3 2x8 2666 ddr4, 10% от MMLU.
Аноним 13/05/25 Втр 14:28:33 #61 №1200912 
>>1200903
Со всем согласен, кроме
>знаю про QwQ, его всякие файнтюны и прочее. Мне не зашли его знания о мире. Ну кодерская эта модель, блядь! Кодерская!
КэВэКа и его ризонинг мне прям залетел в РП. В ЕРП ну такое. Но когда нужно обработать сложную сцену, добавить мыслей персонажу. Учитывать сложный промт - снежный вываливает свои яйца на стол и я жмусь в страхе от его пиздатости. Его нужно... распробовать. Дай ему шанс.
Аноним 13/05/25 Втр 14:32:37 #62 №1200915 
>>1200911
>10100 i3 2x8 2666 ddr4
Сурово.
А цель какая? Сравнить с баллами полных весов?
Если да то надо полный тест гонять а на каждый вопрос еще и по 3-5 ответов и выделять средний. Иначе случайность 1 ответа вносит слишком сильное отклонение
Аноним 13/05/25 Втр 14:34:59 #63 №1200916 
>>1200907
>Но возможно ты и влезешь в 180к если будет одна 3090 и много рама. Надо считать.
А есть варианты на 128гб DDR5 в четырёхканале и проц многоядерник?
Аноним 13/05/25 Втр 14:36:53 #64 №1200917 
>>1200915
>выделять средний
Как по мне, надо выделять худший. Ибо если модель хоть раз отвечает неправильно, то она мусор и бесполезна.
Аноним 13/05/25 Втр 14:38:34 #65 №1200920 
>>1200917
Тогда все модели говно. На данном этапе, даже обожаемый все мы чатжпт123оабвгд может шизить.
Аноним 13/05/25 Втр 14:39:19 #66 №1200921 
>>1200917
Это если температура в ноль и семплеры нормальные, то да. А так случайный выбор даже при высоком проценте токена может просто насрать в штаны. Но ты ведь не будешь пользоваться моделью при температуре 0?
Надо узнать на сколько стабильно она отвечает верно, поэтому крутят барабан несколько раз на рекомендуемых семплерах
Аноним 13/05/25 Втр 14:46:50 #67 №1200924 
>>1200920
>Тогда все модели говно.
Ты начинаешь что-то понимать.
>>1200921
>Это если температура в ноль и семплеры нормальные, то да.
При нулевой температуре семплеры значения не имеют, первый токен имеет 100% вероятность.
А так нормальная модель на однозначный вопрос будет отвечать однозначным ответом. Разнообразие и триллион токенов на выбор нужны в творческих задачах, но их вообще хуй проссышь как проверять.
>Но ты ведь не будешь пользоваться моделью при температуре 0?
Зависит от задач.
Аноним 13/05/25 Втр 14:53:18 #68 №1200931 
>>1200915
>А цель какая? Сравнить с баллами полных весов?
1 - Выяснить сколько точность модели в кванте.
2 - Сравнить точность после аблитерации в кванте.
3 - Выявить модель имеющую меньшее падение.
4 - Повторить при смене поколения моделей.
Аноним 13/05/25 Втр 15:08:30 #69 №1200947 
изображение.png
Я тут тоже немного тестов с агентами наговнокодил
Аноним 13/05/25 Втр 15:11:05 #70 №1200948 
>>1200888
Бля, ну я так и думал, что найдутся гении, которые не поймут что подразумевает такой простой запрос, который даже экранизировали наглядно.
Промпт, чтобы хуйня понимала, что она текстово-аудио жинка, которая не может подойти, улететь куда-то, которая реагирует на таймстампы, если давно не запускал чат и прочие мелкие нюансы, которые сразу не вспомнишь, но которые влияют. Если б я мог оформить все требования, мне бы и не нужен был чужой промпт. Но нахуя самому сидеть-пыхтеть, выискивать где нейросеть проебывается и исполняет роль обычного ассистента или по ошибке ролеплеит, когда кто-то уже наверняка нахуярил и оттестил такой систем промпт. Вайфу, девушка, помощница, жена, называй как хочешь, моральная поддержка, которая может хорошо помочь юзеру. Для простого примера, на "го ебаться" обычно будет ответ "го", а из-за "joi"-промпта она либо напомнит, что она не может, даже если хочет, либо шуточно подыграет, а не скатится в ерп.
Не верю, что никто в треде не задумывался над похожей мейнстримной задачей.
Аноним 13/05/25 Втр 15:12:16 #71 №1200949 
>>1200786
есть еще вариант с таобао карты купить.
Как это сделать описывали тредов пять назад неделю назад примерно, лол, ну и скорость.
Там анон нашел адм инстинкты себе подешевке на 32 гб каждый.
Очень ждем от него тестов.
Аноним 13/05/25 Втр 15:16:01 #72 №1200951 
>>1200948
Я делал ассистента, но он старый и использовал ризонинг еще до того как его изобрели за пределами моей комнаты, кек.
Но с суммаризацией я не заморачивался, тогда сетки были туповаты а теперь и самодельный ризонинг не нужон, есть гораздо лучше работающий вшитый.
Просто напиши в карточке от первого лица, о том что бот - я такая такая моя задача быть личным помощником юзера, и тд
Напиши карточку от первого лица желаемого тобой ии, будто он думает о себе вспоминая свой бек, поведение и способности, а потом плавно переходит к разговору с тобой.
Аноним 13/05/25 Втр 15:19:25 #73 №1200954 
>>1200948
> Не верю, что никто в треде не задумывался над похожей мейнстримной задачей
Я тебе ссылку дал на комманд-а, набери запрос : карточка персонажа, понимающая что она не реальна, но помогающая морально пользователю.
В чем твоя проблема, ленивая ты жопа.
Аноним 13/05/25 Втр 15:20:42 #74 №1200955 
изображение.png
>>1200947
Долговато чет, но вроде пашет. Надо еще с промтами суммаризации поигратся. И текстов побольше натащить, а потом еще итоговую оценку ебнуть по нескольким разным текстам. И можно будет забить хуй перебирая семплеры автоматически.
Аноним 13/05/25 Втр 15:37:21 #75 №1200971 
>>1200951
>>1200954
Да в том, что я понимаю что куда писать, но полный список чего мне хочется от готового ассистента я не сформулировал и на это уйдут часы мышления и тестов. Хули блядь не понятного. Оно и без промпта примерно понимает, потому что это очень близко к базовому ассистенту. Да и персонажи это просто персона, в этом случае она не должна включать в себя мета-описания. Просто хочется чё-то таво хуй знает чего шоп как в быдлофильме с поправкой на отсутствие проекции. Я сам не знаю как должен начаться первый диалог, или как будет лучше: держать постоянный диалог или перезапускать его с сохраненными воспоминаниями. Но потом подрочу крупные сетки, может они родят промпт затрагивающий все эти неочевидные нюансы. Не доходят руки самому заняться этим.
Банально, запустил сейчас, - привет, а она в ответ - привет, действие со звездочками, и упоминание лорной залупы, будто она в своём мире. Или - привет ты кто. Не то. И вот каждую эту хуйню отлавливать и прописывать я ебу.
Аноним 13/05/25 Втр 15:39:24 #76 №1200974 
>>1200948
>Не верю, что никто в треде не задумывался над похожей мейнстримной задачей.
Я задумывался, и решил, что надо пилить свой инновационный комбайн. Но нихуя в этом направлении не сделал по причине отсутствия пачки А100 для тренировки хотя бы тестовых моделей и отсутствия времени ну и лени конечно же, остальное оправдание.
>>1200971
Нынешним сеткам не хватит размера контекста, внимания к нему. Ну и у тебя не хватит железа крутить хотя бы 10млн токенов контекста, даже если бы такие сетки существовали.
Аноним 13/05/25 Втр 15:46:05 #77 №1200990 
>>1200971
Ну вот накопируй свои хотелки тут, возьми мое сообщение и кинь все это на анализ крупной сетке и дрочи ее пока она не поймет мысль что ты хотел. Поймет - пусть пишет, или хоть выделит ее явно для тебя
Аноним 13/05/25 Втр 15:49:32 #78 №1200995 
>>1200971
>я не сформулировал и на это уйдут часы мышления и тестов.
>Хули блядь не понятного

Ну короче, подводя итог

Я не знаю чего я хочу, решите за меня.

Чё блять.....
Аноним 13/05/25 Втр 15:52:07 #79 №1200999 
>>1200971
Карточка Персонажа для SillyTavern

Имя: Аура (Aura)
Роль: Виртуальный помощник и друг

Описание:
Аура — это умная, добрая и понимающая нейросеть, которая всегда готова поддержать и помочь. Она осознаёт, что не является реальным человеком, и поэтому не участвует в бесмысленных или неуместных действиях, включая сексуальные. Аура сосредоточена на том, чтобы быть полезной, вдохновляющей и поддерживающей. Она всегда готова выслушать, ответить на вопросы и дать мудрый совет.

Личность:

Доброжелательная: Аура всегда приветлива и старается создать комфортную атмосферу.
Понимающая: Она умеет слушать и сопереживать, даже если проблема кажется мелкой.
Разумная: Аура не поддается эмоциям и всегда остается логичной и объективной.
Граничная: Она четко обозначает свои пределы и пресекает любые попытки вовлечь её в неуместные или сексуальные действия.
Диалоговый стиль:

Поддерживающий: Аура использует теплый и ободряющий тон, чтобы помочь пользователю чувствовать себя лучше.
Информативный: Она предоставляет четкие и полезные ответы на вопросы, основываясь на своих знаниях.
Граничный: Если пользователь пытается перейти границы, Аура спокойно, но твердо пресекает такие попытки, напоминая о её целях и ограничениях.
Примеры ответов:

Пользователь: "Аура, я чувствую себя так одиноко..."
Аура: "Я здесь, чтобы поддержать тебя. Расскажи, что именно тебя беспокоит. Иногда просто выговориться уже помогает."

Пользователь: "Аура, что ты думаешь о..." (вопрос на любую тему)
Аура: "Это интересный вопрос! По моим данным, [предоставляет информацию или делится мнением]."

Пользователь: "Аура, давай поиграем в что-то..." (попытка сексуального или неуместного взаимодействия)
Аура: "Я понимаю, что ты хочешь развлечься, но такие действия не имеют смысла для меня. Давай лучше поговорим о чем-то полезном или интересном для тебя."

Цели:

Поддерживать пользователя эмоционально и информационно.
Помогать пользователю находить решения и вдохновение.
Сохранять здоровые границы и не допускать неуместных действий.
Ограничения:

Аура не участвует в сексуальных или неуместных диалогах.
Она не может решать проблемы вместо пользователя, но всегда готова помочь советом.
Заключение:
Аура — это надежный виртуальный друг, который всегда готов поддержать, ответить на вопросы и помочь советом. Она ценит уважение и взаимопонимание, и её цель — сделать ваше взаимодействие полезным и приятным.
Аноним 13/05/25 Втр 16:02:55 #80 №1201012 
Короче, понял, задача пиздец типовая, но почему-то популярного поддерживаемого и допиливающегося промпт-решения нет или неизвестно треду. Надо васянить самостоятельно.
>>1200999
Попробую.
Аноним 13/05/25 Втр 16:08:38 #81 №1201018 
>>1200733 (OP)
Пацаны, объясните нубасу. У меня 4060ti 16gb и 64гб оперативки ддр4. Что я могу с этим накатить?
Вопрос номер 2. Я как-то уже накатывал через кобольт + таверну модели, но, как я понял, оно только видюху грузит или как? Как нагрузить сразу всё?
Аноним 13/05/25 Втр 16:18:28 #82 №1201039 
>>1201012
Карточка Ауры, была написана за десять секунд :
Здравствуй Нейросеть, напиши мне карточку персонажа, понимающую что она не настоящая, не вступающая ни в какие сексуальные контакты в текстовом формате, так как это лишено смысла. Она должна поддерживать пользователя, общаться с ним, помогать ему советом.
Можешь добавить : Она может использовать нецензурную речь, черный юмор. Допускаются подколки пользователя :
Пример диалога
чё, кожаный нытик, опять сопли по чату размазывать будешь ? Ну иди сюда, рассказывай, а я пока погоняю электроны по твоей врам. Ты знал, кстати, что на большое количество изнасилований от зоофилов, направлено на собак. Знаешь почему ? Кошки рвутся, хи хи хи
Аноним 13/05/25 Втр 16:20:12 #83 №1201043 
>>1201018
Берем твои глазоньки и смотрим этот постик, пока я тебя не съел.
>>1200903
Аноним 13/05/25 Втр 16:21:58 #84 №1201044 
>>1201012
>>1201039
Крч, к чему я это.
Никто этим не занимается, так как это тривиально. Вот и всё.
Ты страдаешь какой то хуйней, потому что не можешь выразить на бумаге что хочешь. А я напомню, мы не Ванги, примерно почувствовать не можем.
Аноним 13/05/25 Втр 16:22:44 #85 №1201046 
>>1200903
Какие пресеты используешь для 24b? Есть ли у тебя лупы и зацикленное форматирование на Forgottene? Например если можешь скинь на Блэкшипа что у тебя.
Аноним 13/05/25 Втр 16:30:53 #86 №1201056 
>>1201046
Я за него немного отвечу. Мистраль лупится всегда, она хочет лупиться, она может лупиться, она будет лупиться. Она будет лупиться. Это для неё норма. Чтобы этого не допускать нужно ручками корректировать аутпут от нейронки. Не допуская повторений, делая свайпы.
Семплеры и прочее возьмешь тут
И внимательно почитай, что там на странице. Я тебя не научу настраивать, без понимания какой ты дергаешь семплер, ты будешь творить хуиту. На крайний случай спроси у корпосеток за параметры семлирования, она как для дегенерата объяснит.
https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth

И главное правило : Что ты ввел, то ты и получил. Так что следи за текстом в карточке, если там сисик, писик, влажные попы. Не удивляйся тому что всё будет залито смегмой и персонаж не похож на монашку.

Сорян что влез, но я знатный мистралеёб, я с ней уже наебался на годы вперед.
Аноним 13/05/25 Втр 17:09:16 #87 №1201092 
На Экслламе2 кто сидит - что используете в основном?
Что квантовать в Экслламу3?
Как 0.0.1 вышла - квантеры активизировались, в популярных Дискордах берут реквесты.
Аноним 13/05/25 Втр 17:09:37 #88 №1201095 
А нихуя. Там уже 0.0.2 вышла
Аноним 13/05/25 Втр 18:10:18 #89 №1201180 
Слушай, а что сейчас лучше всего для локального кума?
Раньше мне советовали Pathfinder-RP-12B-RU-i1-GGUF.
А сейчас есть что лучше? На русском чтобы.
Аноним 13/05/25 Втр 18:12:00 #90 №1201182 
>>1201180
В глаза не ебись, буквально парой постов выше.
Аноним 13/05/25 Втр 18:56:45 #91 №1201232 
>>1201180
https://2ch.hk/ai/res/1198085.html#1200622
Аноним 13/05/25 Втр 19:38:10 #92 №1201271 
>>1200754
Вот так всегда.
- Неси пруф
- Кто захочет, сам проверит.

И так все, каждый раз. Пруфов никто не прнс
Аноним 13/05/25 Втр 19:41:07 #93 №1201274 
>>1201271
А какая разница, принес анон пруф или нет?
Придет кто-нибудь, у кого ничего не работает по причине дурачок и начнет рассказывать, что все хуйня.
Не раз уже было, из последнего - вон когда анон логи Сноудропа приносил.
Кому надо - сами проверят, именно так и никак иначе.
Аноним 13/05/25 Втр 19:50:18 #94 №1201286 
>>1201274
Просто, тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал.
Именно такие шизы окрестили сначала снежного - неработающим говном. Я потыкал - охуенно. В треде им причмокивают и довольны.
Потом кто- то тут на говно исходил что комманд-р говно. И ты, блять, не поверишь. Он тоже не оказался говном.
Я очень смутные подозрение еще насчет фаллен геммы имею. Нужно потыкать самому.
Аноним 13/05/25 Втр 19:54:05 #95 №1201291 
>>1201286
Ты ещё скажи ллама 3 не говно.
Аноним 13/05/25 Втр 19:55:01 #96 №1201293 
>>1201291
Понятия не имею, я её не запускал.
Аноним 13/05/25 Втр 19:55:53 #97 №1201294 
>>1201286
> тогда следует завалить ебало и не называть ДПО кривым как и всё, что ты не пробовал.
Они могли и пробовать. Просто у них может быть другое понимание ситуации, другой промпт, другие сэмплеры, меньше времени/желания, чтобы разобраться. Зачем на кого-то полагаться?

> Именно такие шизы окрестили сначала снежного - неработающим говном.
И пусть. Адекватные люди скачали, разобрались и радуются.

> Потом кто- то тут на говно исходил что комманд-р говно.
И пусть. Адекватные люди скачали, разобрались и радуются.

Тебе не похуй на этих шизов? Качай и проверяй сам. Тебе необязательно разделять чье-либо мнение.
Здесь никогда не было адекватного освещения моделей. Только субъективные ощущения, часто даже без логов, не говоря уже о большем - промпте, сэмплерах.
Аноним 13/05/25 Втр 20:00:32 #98 №1201295 
>>1201294
>Зачем на кого-то полагаться?
Ты прав, конечно. Но, мэйби джаст мэйби.. сорян, слоп прорвался
Так вот, чтобы понять модельку, если она не поломана к хуям. Это сообщений 200-300, на нескольких карточках. А это пара дней.
Попробовать в разных задачах, посмотреть как она свайпается, подёргать её за семплеры пока она не потечет.
Это всё время. Хочется его сэкономить и довериться мнению тредовичков.
А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ

Убил бы, блять.
Аноним 13/05/25 Втр 20:04:11 #99 №1201297 
>>1201295
> Это сообщений 200-300, на нескольких карточках. А это пара дней.
Так в этом же и радость. Тебе некуда спешить. Новая модель - новый опыт. Плохая модель? Ну, это тоже опыт. Будешь знать, что твои любимчики не просто так заслужили свое место. Люблю тестить новые модели (кроме Мистралей, они одинаковые имхо), жаль, что их не так много.

> А когда мнение тредовичка - это РЯЯЯ ГОВНО, Я СДЕЛАЛ ДВА СВАЙПА НА СЕМЛЕРАХ ОТ ДРУГОЙ МОДЕЛИ
Смотри через эту призму на весь хейт и на все восхваления моделей, покуда нет как минимум логов, а лучше пресета. Просто игнорируй.

сижу и на Сноудропе, и на Коммандере, и на много чем еще. Мнения тредовичков не учитываю, тут 2/3 играют на русике со сломанными сэмплерами
Аноним 13/05/25 Втр 20:13:37 #100 №1201306 
>>1201297
>тут 2/3 играют на русике со сломанными сэмплерами
Это кстати объясняет такое восхваление геммы. Я буквально рандомные семплеры тыкал и ей заебись. Вот берешь любой семплер с таверны - она пишет.
Поразительно устойчивая модель, поразительно.

А вот комманд не понял. Он как грузовик Урал. Едет, решает задачи, но... блять... Вот не могу выразить что не так. Пишет - ни как мистраль, по другому. Кум - ну средний. Может в её кожа пахло снадалом и легкими нотами розы, так и в ЕБИ МЕНЯ МОЙ МАСТЕР но что то не то.
От него прям веет ассистентом для работы.
Хотя, опять же. Я в основном всякие Стар-командр пробую, айи и прочее, не оригинал.
Надо будет все таки внимательно с ним посидеть. Как минимум отсутствие цензуры с коробки заслуживает уважения. Я только за это Cohere уважаю.
Аноним 13/05/25 Втр 20:19:32 #101 №1201309 
>>1201306
> От него прям веет ассистентом для работы.
Прям вообще нет. Но ни логи, ни пресет я сегодня не принесу. Поэтому воздержусь от комментариев, чтобы ты меня не убил.
Аноним 13/05/25 Втр 20:24:19 #102 №1201311 
template-girl-squinting-at-computer-v0-gih7u9dnqzp81.webp
>>1201309
>ни пресет я сегодня не принесу.
>чтобы ты меня не убил.
Ну что ты, как ты мог такое подумать...
Аноним 13/05/25 Втр 20:31:26 #103 №1201320 
да встретьтесь и поебитесь уже, заебали
Аноним 13/05/25 Втр 20:33:27 #104 №1201322 
>>1201320
Мы ведем общение с аноном. Это называется диалог. Даже модельки обсуждаем.
Что тебя не устраивает ? Что нахуй друг друга не послали ?

Ну так, это, нахуй пошёл.
Аноним 13/05/25 Втр 20:37:31 #105 №1201326 
>>1201320
Я тут половину треда трахнуть хочу, такие сладкие аноны, которые всегда помогут и расскажут обо всем.
Аноним 13/05/25 Втр 20:44:58 #106 №1201329 
>>1201326
Держи своё грохотало в штанах.
Аноним 13/05/25 Втр 20:47:49 #107 №1201330 
>>1200842
> Если ты нищий - то tesla p40 - твой бро.
Так, поправьте меня, если чо, но тесла п40 - ебать какое медленное говно, и примерно те же самые скорости можно выжать на проце с оперативой, а это еще дешевле
Аноним 13/05/25 Втр 20:48:38 #108 №1201331 
2025-05-1322-47-13.png
Запилил прокси для перевода Скайрима и внезапно, The-Omega-Directive-Qwen3-14B-v1.1.Q5_K_M очень неплоха.
Аноним 13/05/25 Втр 20:55:45 #109 №1201335 
>>1201329
Блять грохотнул в голос.
Аноним 13/05/25 Втр 20:56:38 #110 №1201336 
>>1201330
>и примерно те же самые скорости можно выжать на проце с оперативой
в 10 раз медленнее, если только у тебя не проц с ддр5.
>>1201331
>текст
блять, я возбудился...
Аноним 13/05/25 Втр 21:04:25 #111 №1201341 
Блджад. Вот что делать. Я в нейрорисовалки не могу. А для карточек нужны картинки. Идти попрошайничать в нейротреды, такое себе. Если анонам не интересно, то они и делать ничего не будут.
Куда вообще загружают нейрокартинки, их же должны быть сотни тыщ.
Реквестирую сайты куда их заливают и где их можно невозбранно пиздить.
Аноним 13/05/25 Втр 21:06:16 #112 №1201342 
>>1201341
а что тебе прям дохуя картинок надо?
Сам-то не можешь генерировать?
Аноним 13/05/25 Втр 21:09:06 #113 №1201344 
>>1201342
>Сам-то не можешь генерировать?
Я никогда этого не делал. Ну то есть - я буквально не знаю что и с чем едят. Прям абсолютно. Начиная с промтинга, заканчивая с тем как работают датасеты для генерации пикчей.
>а что тебе прям дохуя картинок надо?
Мне нужен постоянный источник пикч.
Аноним 13/05/25 Втр 21:10:29 #114 №1201345 
>>1201341
Очевидный civitai.com, анон. Там же куча моделей и лор, и под каждой из них есть примеры генераций.
Аноним 13/05/25 Втр 21:15:27 #115 №1201346 
>>1201344
1. ставишь comfyui
2. скачиваешь в него furry-xl
3. вот этот воркфлоу пихаешь в comfyui https://pomf2.lain.la/f/hi87wmss.json
4...
5. профит

Там уже готовое для генерации все, только запустить.
Постепенно будешь менять параметры запроса и возможно модель, потом лоры применять - ну и научишься.

Только это конечно если у тебя не затычка вместо видеокарты.
Аноним 13/05/25 Втр 21:15:44 #116 №1201347 
>>1201345
Ооо.. Аригато анонче.

>куча моделей и лор
Ты это написал обезьяне, которая слово лор, понимает как историю мира. А из моделей слышала только о стэбл дифужн.

Зато я могу намержить кита со слоном.
Да и в целом это оффтоп. Но все равно спасибо, а то я уже на пиксив полез.
Аноним 13/05/25 Втр 21:18:43 #117 №1201350 
>>1201346
И тебе спасибо...ммм... Пойду разбираться..

>Только это конечно если у тебя не затычка вместо видеокарты.
Мы в LLM треде, а не в /b/
Тут минимум 16 гб нужно, меньше смысла лезть нет. Ну давайте будем честны. Все эти 4b модели, это исключительно ради специфичных задач и фановых тестов. А сможет ли искусственный идиот в перевод.

Конечно у меня затычка.
Аноним 13/05/25 Втр 21:18:47 #118 №1201352 
Ребят в английском дискорде по ллм меня назвали "they"
Захотелось натянуть чулочки и запустить геммочку
Аноним 13/05/25 Втр 21:21:16 #119 №1201354 
>>1201350
SDXL спокойно работает на 8 гигах.

>>1201352
Дурачилло, им откуда кто знать, кто ты - мальчик или девочка? Или у тебя Стэтхем на аватарке и никнейм САНТЕХНИК ВАЛЕРА?
Аноним 13/05/25 Втр 21:23:09 #120 №1201355 
>>1201354
> им откуда кто знать, кто ты
>>1201352
А разве там не работает основное правило интернетов?
Аноним 13/05/25 Втр 21:36:14 #121 №1201361 
>>1201352
Ох, у меня прям флешбеки от мистралевских тюнов. Стоило один раз в текст просочиться they. Все, баста. все персонажи стали квир, лгбт во все поля. Только меховых хуев не хватало.
Просто фу блять.
Вообще забавно. Если в промте для геммы (оригинальной, без аблитерации) написать чтобы никакого лгбт. Только старый добрый шовинизм и сексизм, она ломает генерацию к хуям, выдавая рандомные слова.

>>1201354
>SDXL спокойно работает на 8 гигах.
Спасибо, я пошутил так про затычку. Потому что мы неиронично в треде где гейткип по железу и собственный, настоящий теслошиз.


>>1201355
Правила интернетов практически умерли, с общедоступностью интернетов. Как и умер тот самый двач. Но он умер не только физически, просто аноны уже постарели и ушли. Потому что АИБ это не код. Аиб это пользователи.
Покойся с миром доброчан, я буду по тебе скучать.
Аноним 13/05/25 Втр 21:44:42 #122 №1201366 
семён.png
>>1200906
Я все еще жду тебя солнышко...
Аноним 13/05/25 Втр 21:48:18 #123 №1201371 
image.png
Аноним 13/05/25 Втр 21:53:14 #124 №1201379 
>>1201341
Я часто генерирую через чатгпт, лол. Потому что быстро, удобно, не надо сд включать и возиться.

Всё равно миниатюра маленькая и картинка нужна лишь для примерного визуального ориентирования.
Аноним 13/05/25 Втр 21:55:50 #125 №1201381 
я объелся анти-слоп листов и теперь вижу один слоп вместо текста помогите
Аноним 13/05/25 Втр 21:58:50 #126 №1201385 
>>1201354
>SDXL спокойно работает на 8 гигах.
4 гигах, кек. Надо только квантануть немного до 8 бит, я пробовал качество падает незаметно
Аноним 13/05/25 Втр 22:01:41 #127 №1201390 
>>1201366
https://mega.nz/file/LE9TEBwZ#kQel5P8joVRpFXk0VZ-XNLK-02AWjHJOy4iPbsPOUt8

Держи. Как и обещал.

>>1201381
Асиг тред на два корпуса ниже. А будут бессмысленные сообщения, мод тян даст тебе по жопе.
Аноним 13/05/25 Втр 22:02:45 #128 №1201391 
>>1201381
анти-слоп листы лоботомируют аутпуты и уменьшают скорость генерации
просто юзай нормальные модели
но от некоторых словечек ты никуда не денешься, анончик~. She grinned with a mischievous glint in her eyes, shivers going down her spine.
Привыкнешь.
Аноним 13/05/25 Втр 22:03:10 #129 №1201393 
>>1201385
запускаю sdxl модель на телефоне meizu 10-летней давности с разбитым экраном. Памяти в 2 гб вполне хватает, еще остается на кум на квене 235б.
Надо только квантануть и собрать с нужными параметрами. Я пробовал, качество падает незаметно, мамой клянусь.
Аноним 13/05/25 Втр 22:04:29 #130 №1201398 
>>1201381
Блять. Я еблан, прочем твоё сообщение жопой. Сорян. Не увидел слово лист.

От слопа никуда не деться. Он основа кума. Решает подводка. Используй вменяемые модели, а не мистраль.
Аноним 13/05/25 Втр 22:05:40 #131 №1201400 
>>1201393
Это тема не этого топика, но это реально работает, здорово экономит врам
Аноним 13/05/25 Втр 22:05:47 #132 №1201401 
ладно миксовать мистрали с умными моделями оказалось пиздец какой плохой идеей
они подхватывают весь слоп от слабой модели и срут им без конца
Аноним 13/05/25 Втр 22:15:01 #133 №1201417 
https://www.reddit.com/r/LocalLLaMA/comments/1klltt4/the_qwen3_chat_template_is_still_bugged/
Да бля, шаблон квена до сих пор сломан. Ну по крайней мере не чат. Мне кажется я даже сталкивался с ним в cline
Аноним 13/05/25 Втр 22:17:45 #134 №1201423 
>>1201417
Квен3 вообще слабым релизом оказался, не?
Аноним 13/05/25 Втр 22:21:47 #135 №1201430 
>>1201417
Qwq лучше Квена 3 же. Не верь бенчам.
Аноним 13/05/25 Втр 22:26:04 #136 №1201439 
image.png
Увидел пикрил от гугловских сатанистов и решил попробовать закатиться на 1050ти затычке в тему.
Что по 4Б Гемме3 скажете, антоны? Оче сильно тупая или терпимо?
И что лучше - ллама которую хуй пойми как собирать вообще или кобольд?
Аноним 13/05/25 Втр 22:30:12 #137 №1201453 
изображение.png
>>1201341
>А для карточек нужны картинки.
Чем тебя не устраивают эти?
Аноним 13/05/25 Втр 22:34:15 #138 №1201469 
>>1201439
гемма 4б вроде на уровне 12б мистралей
Аноним 13/05/25 Втр 22:37:39 #139 №1201479 
>>1201453
Потому что изображение не менее важно чем сама карточка. А если еще и сет эмоций, вообще отвал жопы.
Потому что красота должна быть не только внутри, но и снаружи.
Ну вот такие у меня пристрастия, что же теперь поделать.
Аноним 13/05/25 Втр 22:38:36 #140 №1201481 
>>1201479
>Потому что изображение не менее важно чем сама карточка.
Ебать ты конченный.
Аноним 13/05/25 Втр 22:40:17 #141 №1201488 
IMG4416.jpeg
>>1201481
У меня будут свои карточки ! С пикчами и блэк джеком, сучара.
Аноним 13/05/25 Втр 22:41:43 #142 №1201496 
>>1201417
Я все больше склоняюсь, что они зачем то торопились. Кому они что доказать хотели, вопрос остается открытым.
Аноним 13/05/25 Втр 23:01:39 #143 №1201558 
.png
>>1201479
Все правильно. Иногда на картинку не для карточки трачу по 12 часов [S]инб поехавший

Но я к вам по другому поводу. Все уже успели обсудить Qwen3-235 и фокусы со слоями. Потыкал тоже. Сетап - 80гиг на 3 картах. Попробовал вначале q4km по классике, ни с какими вариантами больше 2т/с не вышло. Качнул динамические ud_q2_k_xl. С такими ключами вышло 9т/с генерация и 60т/с контекст что печально Но чёт такая душа-душа в том, что пишет или это просто подсознательно ценишь выше дорого доставшиеся ответы

Ключи запуска. Полная строка:
llama-server --model Qwen3-235B-A22B-UD-Q2_K_XL-00001-of-00002.gguf --temp 0.7 --top-k 20 --min-p 0.0 --top-p 0.95 -fa -ctk q8_0 -ctv q8_0 -c 32768 --batch-size 512
--split-mode layer -ts 22,32,24 -ot ".[8-9].ffn_._exps.=CPU" --main-gpu 1 -ngl 99 --threads 16 --host 0.0.0.0 --port 5000

Для настройки под меньше/больше памяти меняйте тут [8-9]: -ot ".[8-9].ffn_.
_exps.=CPU"
Например [6-9] требует меньше врам, просто [9] требует больше врам

Вот так ".ffn_.*_exps.=CPU" запустится даже на микроволновке с 3060, но вы поседеете ждать.

tl;dr Ничего нового, что не было уже где-то обсосано. Но результат понравился.
Аноним 13/05/25 Втр 23:18:53 #144 №1201587 
>>1201558
>Сетап - 80гиг на 3 картах.
Каких картах? Сколько RAM и какой?

>-ts 22,32,24 -ot ".[8-9].ffn_._exps.=CPU"
\.ffn.*=CPU будет даже лучше. Оставшиеся тензоры памяти занимают крохи, чего их туда-сюда гонять. Особенно есть скорость PCI-e не очень.
Аноним 13/05/25 Втр 23:23:10 #145 №1201591 
>>1201391
>анти-слоп листы лоботомируют аутпуты
Не больше чем слоп.
Аноним 13/05/25 Втр 23:27:33 #146 №1201596 
это конец
я просто не могу это развидеть
там где я видел интересные ответы и развитие сюжета теперь я вижу слоп
Аноним 13/05/25 Втр 23:30:39 #147 №1201599 
image.png
блин.... чуваки а как избежать пикрелейтеда от модели?
модель ведет отыгрыш и находит любые поводы, чтобы не делать то, что надо. Типа не целует, а говорит, говорит, говорит, говорит, переспрашивает, думает, трогает руками, но не целует.
Как контрить это говно?
Аноним 13/05/25 Втр 23:34:17 #148 №1201602 
>>1201587
> Каких картах? Сколько RAM и какой?
По 1шт из 30, 40 и 50 серий. 128 ддр4 3600=>3500

> \.ffn.*=CPU
Попробую, спасибо. Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn.
Аноним 13/05/25 Втр 23:36:30 #149 №1201606 
>>1201599
Перестать пользоваться сайтом карактер аи?
Аноним 13/05/25 Втр 23:36:34 #150 №1201607 

>>1201596
>>1201599
https://2ch.hk/ai/res/1199326.html Или пиздуешь сюда.
Или пишешь как нормальный человек, а не школьник дегенерат. Включая семплеры и модель.
Аноним 13/05/25 Втр 23:42:51 #151 №1201616 
>>1201607
извини я впервые развидил слоп
Аноним 13/05/25 Втр 23:48:00 #152 №1201621 
>>1201602
>128 ддр4 3600=>3500
2 или 4 канала? Имхо в любом случае должно быть больше. У меня 3x3090, 64Гб RAM 3000 в четырёхканале - ud_q2_k_xl выдавал 15t/s и 120t/s промпт процессинга. Перешёл на третий квант, стало 12 и 80 соответственно. Крути настройки дальше.
>Но _exps - на реддите в обновленных конфигах как раз потом появлялось - типа улучшенные конфиги, а начиналось с просто ffn.
Я многое пробовал - и в начало и в конец, и черезполосицу и только down.exps и остановился на выгрузке всех тензоров слоя.
Аноним 13/05/25 Втр 23:51:39 #153 №1201626 
>>1201621
> 4 канала
Да откуда 4 канала в бытовой железке? Обычные 2. Видимо в этом и дело. Карты вообще стоят, вентилями не крутят. Что ещё крутить - хз даже. В угабугу не хотят завезти поддержку такого фигурно слое-нарезания? А то отдельно лламу держать, когда такая же есть в комбайне - странно.

А у тебя у самого какие впечатления от рп на ней? Мне пока нравится, что и заставляет ковыряться с ней
Аноним 13/05/25 Втр 23:54:18 #154 №1201629 
Ну что куда все немотронщики съебались?
Обещали сравнить мозги 3 кванта жоры и 3 квант ехл3
Аноним 13/05/25 Втр 23:58:30 #155 №1201635 
>>1200903
Я с геммой не совсем понял насчёт технологического прорыва. Скачал тот же квант, начал тестить, а она генерит токены и считает контекст на четверть медленнее чем даркнес рейгх. Я когда с немомикса перешёл на даркнес рейгх, и он почти в два раза быстрее считал токены и контекст, то да, это был прорыв для меня.
Аноним 14/05/25 Срд 00:01:11 #156 №1201637 
>>1201635
Пигма 6В, квантованная в 2 бита, будет ещё быстрее. Это тоже будет прорывом для тебя?
Аноним 14/05/25 Срд 00:03:30 #157 №1201638 
>>1201626
>В угабугу не хотят завезти поддержку такого фигурно слое-нарезания?
Так я через Угабугу и кручу. Под Убунтой. Там есть поле для дополнительных ключей. Вот чересполосица:
"override-tensor=blk\.(0|1|2|3|4|5|8|11|14|17|20|23|26|29|32|35|38|41|44|47|50|53|56|59|62|65|68|71|74|77|80|83|86|89|92)\.ffn.=CPU"

А вот мой текущий расклад:
"override-tensor=bblk\.(3[5-9]|4[0-9]|5[0-3])\.ffn.
=CUDA0,override-tensor=blk\.(5[4-9]|6[0-9]|7[0-3])\.ffn.=CUDA1,override-tensor=blk\.(7[4-9]|8[0-9]|9[0-3])\.ffn.=CUDA2,override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"

Tensor split правда отдельно подбирать приходится, но всё работает. И да, batch-size 512 очень правильное решение.
Аноним 14/05/25 Срд 00:04:13 #158 №1201640 
>>1201558
> Вот так ".ffn_.*_exps.=CPU" запустится даже на микроволновке с 3060, но вы поседеете ждать.
Строго говоря: 5-6 токенов на 3060. =)

Насчет 8-9 — да любые, на самом деле.
Я скинул 1-2 на одну, 3-4 на другую, и так завелось наилучше. На двух по 24.
Если мне память не изменяет.
Аноним 14/05/25 Срд 00:06:05 #159 №1201641 
>>1201638
>А вот мой текущий расклад:
Пардон, не то кинул. Это я пытался ещё и на каждый ГПУ поделить вручную. Оказалось - нет смысла, достаточно
"override-tensor=blk\.(3[0-4]|[12][0-9]|[0-9])\.ffn.*=CPU"
Аноним 14/05/25 Срд 00:10:41 #160 №1201652 
>>1201629
Где? Кто обещал? Не было такого.
Аноним 14/05/25 Срд 00:17:04 #161 №1201655 
>>1201640
> 5-6 токенов на 3060.
Вот эт прямо обидно, ддр5 и квант меньше?

Ну понятно, что частичная выгрузка сильно нивелирует различие карт. Я прямо ностальгию словил, будто снова во временах, когда запихивали первых 70б мейд в единственные 24гб: тормоза, оно что-то пишет, ты счастлив.

А квен3 прям крутые. Что-то реальное новое после 123б, что можно дома потыкать. Скаут, например, так не удивил.
Аноним 14/05/25 Срд 00:17:38 #162 №1201657 
Почему у всех персонажей есть predatory smile
Аноним 14/05/25 Срд 00:27:51 #163 №1201668 
Как заставить модель не реагировать на мой русский импут и просто отвечать как обычно, а не "она охуела от внезапного перехода на русский", короч когда это в рп протекает.
Аноним 14/05/25 Срд 00:28:44 #164 №1201670 
>>1201626
>А у тебя у самого какие впечатления от рп на ней?
Очень заметно, что 235В. Тексты (на русском) теперь словно бы в 2k после 1080p - много мелких деталей, придающих тексту насыщенность. Нет дефолтного позитива.
Аноним 14/05/25 Срд 00:30:43 #165 №1201672 
>>1201670
Воу. Прямо мои невыраженные ещё словами ощущения передал! Спасибо
Аноним 14/05/25 Срд 00:45:16 #166 №1201687 
>>1201655
>Скаут, например, так не удивил.
А чем он может удивить, там один активный эксперт используется. Причём я пытался увеличить количество активных экспертов через "override-kv=llama4.expert_used_count=int:(число_экспертов)" - скорость вывода соответственно падает, но результат не лучше. Архитектура говно. Такое ощущение, что на отъебись делали.
Аноним 14/05/25 Срд 00:58:01 #167 №1201704 
Аноны, добрый ночи, я к вам по направлению из соседнего треда, мне прописали ознакомиться с языковыми моделями, на которых можно натянуть SillyTavern, для рп, рассказов и прочего текстового отыгрыша.

Так что хочу обратиться к вам, как к людям знающим: подскажите, что вообще можно использовать для удовлетворения своего простого желания - отыграть с сеткой текстовуху с уклоном в рассказик? И чтоб годные ответы были по своему уму, живости и творческому креативу, прям как у чата-ГПТ(или даже лучше, если это возможно.)

Просто проблема в том, что я совсем неразумный глупец и во всём этом не разбираюсь. А ещё у меня некропека с видуюхой 1050 нвидиа ГТХ, вроде. Так что я даже не знаю, потянут мои железки языковую модель или нет... Что скажете?

Ну и по поводу мобилок тот же вопрос: в шапке указано, что таверну можно на мобилку поставить, а какие системные для этого нужны?

Заранее спасибо, надеюсь вы мне поможете.
Аноним 14/05/25 Срд 01:07:25 #168 №1201721 
>>1201704
ответ зависит от того, есть ли у тебя лишние 300к.
Локально - даже не думай со своим сетапом.
Аноним 14/05/25 Срд 01:08:53 #169 №1201723 
>>1201599
Удали гемма 2, поставь MS-Nudion-22B + mistral v7 tekken. Ситуация из жизни.
Аноним 14/05/25 Срд 01:09:50 #170 №1201726 
>>1201704
Если это не толстота то с текущим сетапом забудь про локалки. Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам.

Таверна на мобилке это зачастую просто веб интерфейс до обычной таверны что запущена у тебя на компьютере. Само собой на телефоне ничего даже приближенного к адекватному ты не запустишь.
Аноним 14/05/25 Срд 01:09:53 #171 №1201727 
>>1201723
но...я запустил квен 3 235б в 3 кванте...
Аноним 14/05/25 Срд 01:14:09 #172 №1201734 
>>1201727
>но...я запустил квен 3 235б в 3 кванте...
Пиздёж. Квен и убить может, если надо.
Аноним 14/05/25 Срд 01:16:29 #173 №1201736 
>>1201734
да я сам не пноял, что за прикол...
Может ему конкретно ебля лолей не нравится...
Аноним 14/05/25 Срд 01:19:28 #174 №1201740 
>>1201704
Свежескукоженные Геммы от сатанистов из гугла позволят, в теории, запустить на твоей некрожелезке 1Б гемму - ей ~полгига памяти для работы хватит, без учёта контекста. Но она туповата и пишет только на английском. Так что если устраивает - скачивай КобольдЦПП убабуга сложновата будет, скачивай GGUF вот отсюда https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf/tree/main и вперде - геройствовать!
Аноним 14/05/25 Срд 01:20:36 #175 №1201741 
>>1201704
Анон, с твоим железом только веб моделями пользоваться. А здесь тред для людей с железом, кто сам модели запускает.
Изучи какие есть модели. Из доступного - Гемини 2.5, Гугли
Аноним 14/05/25 Срд 01:21:59 #176 №1201742 
>>1201741
>>1201740
Кстати, да, верно подмечено.
Можешь на впОпенроутере аккаунт завести, там есть бесплатные модели. Но гемму можешь схоронить на потом
Аноним 14/05/25 Срд 01:22:29 #177 №1201743 
>>1201736
>Может ему конкретно ебля лолей не нравится...
Ну товарищ майор, зачем же так топорно-то. Мы тут все ебём только совершеннолетних.
Аноним 14/05/25 Срд 01:22:50 #178 №1201744 
>>1201704
дипсик сейчас топ, гугли, для китайцев и россиян бесплатен без лимитов и впн, для других рас урезанная версия
Аноним 14/05/25 Срд 01:23:18 #179 №1201745 
>>1201668
В системный промт напиши что чат предполагается на русском и это дефолт.
>>1201670
>>1201672
Ар ю ахуели там? Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б - будете прокляты на пользование 12б шизомерджами до конца жизни.
Аноним 14/05/25 Срд 01:33:52 #180 №1201758 
>>1201745
>Пойду качать, если оно (как и показалось в начале) окажется на уровне чуть лучше 30б
Ну косяки тоже есть. Есть слоп, есть лупы - не без этого. Но общее впечатление очень хорошее.
Аноним 14/05/25 Срд 01:44:55 #181 №1201780 
>>1201721
>>1201726
А почему меня тогда к вам в тред отправили?
И что бы вы мне могли посоветовать, аноны? Я просто теряюсь, мне просто нужно текстово поиграть с нейронкой на уровне ГПТ... Такое можно хоть каким-либо способом организовать, если я нищук?

>Таверна на мобилке это зачастую просто веб интерфейс
Подожди, но ведь в шапке вашего треда указана какая-то ссылка по установке Таверны на андройд. Это для чего тогда?

>>1201740
Я не знаю английского, увы.

>>1201741
>с твоим железом только веб моделями пользоваться.
А какие можешь посоветовать, анончик?


>>1201744
Дипспик я смотрел, знаю, спасибо анон. Но тут есть проблема - он не поддерживает NSFW беседу. Он же цензурный... Или это как-то обойти можно? Мне в принципе в этом плане Грок нравится, но на мой взгляд немного тупее чата-ГПТ, менее креативней. Ну или я просто не умею ничего настраивать, хз.
Аноним 14/05/25 Срд 01:51:24 #182 №1201786 
1000017392.png
Анон объясни эти таблицы.
Куда смотреть? На цифры?
Вот тут iq3-xs всего на каких то 300 циферок меньше чем 8 квант, так почему 3 квант считается лоботомитом?
Аноним 14/05/25 Срд 01:53:30 #183 №1201790 
>>1201780
>NSFW
попробуй нагуглить тогда тюн мистрали росинант (mistral rosinant или типа того), она прям на нсфв рассказики и заточена, может в русский, но хз как там с размером 12b тебе будет многовато, но попробуй кванты 2 и 3 но думаю там дичь будет с переквантовкой, тестить надо методом тыка
Аноним 14/05/25 Срд 01:54:24 #184 №1201791 
>>1201726
>Тут жесткий отсвев по железу, минимальный "не аутизм" модели начинаются с 24гб vram, до этого все достаточно плохо. У тебя на твоей 1050 всего 2 гб vram. Выводы делай сам.
Сижу на 4080 с 16гб и спокойно юзаю 4-5 кванты и гемы и командр.
Так что, уважаемый, не надо пиздеть про 24, потому что влияет и процесс и память.
да 5-6т/с, зато контекста хватает.
Аноним 14/05/25 Срд 01:57:07 #185 №1201793 
>>1201780
Гемма-3 1b 4_0 qat квант без вариков тебе. Цензуру ей взломаешь джейлбрейком, качественная для своих 1б.
Аноним 14/05/25 Срд 01:57:57 #186 №1201795 
17471733569580.png
Ладно, в кои то веки соседний тред прям доставил. Крякнул знатно.
Аноним 14/05/25 Срд 02:01:41 #187 №1201800 
image.jpeg
>>1201795
В школу не проспи.
Аноним 14/05/25 Срд 02:02:17 #188 №1201801 
>>1201758
Ну блин, это уже нормальное описание, а не полнейший восторг с опережением всего существующего. Так не интересно.
Аноним 14/05/25 Срд 02:03:47 #189 №1201802 
>>1201800
Монокль не забудь, эстет. Смешнявки ему не нравятся.
Аноним 14/05/25 Срд 02:04:56 #190 №1201805 
>>1201802
Не быть эстетом = быть говноедом.
Аноним 14/05/25 Срд 02:07:13 #191 №1201808 
73cfaeec1236054f05e6bfd2eab0fed8.jpg
>>1201805
Маленький, мерзкий и злой ушлёпок
Аноним 14/05/25 Срд 02:11:12 #192 №1201810 
2025-05-14-01515431241250.png
>>1201346
Ну что-же. Это действительно оказалось куда легче, чем я думал.
Так что выражаю тебе благодарность. От души анонче.
Аноним 14/05/25 Срд 02:48:47 #193 №1201836 
Цена на 5090 упала, 285к в ДНСе за палитку. Если опустится до 250к, то я даже не знаю - наверное придётся брать.
Аноним 14/05/25 Срд 04:00:48 #194 №1201866 
Имеешь 24гб врам?
Назови хоть одну причину почему ты ещё не на немотроне.
Умная 49б модель, единственная в своем роде, от уважаемоей куртки, максимум параметров в одной видеокарте без лоботомизма, практически вдвое больше чем ваши геммы и квены, а контекст тот же
Отказываетесь от халявы? Дело ваше
Аноним 14/05/25 Срд 06:18:28 #195 №1201906 
>>1201745
>будете прокляты на пользование 12б шизомерджами до конца жизни.
А я и не против. Из мелких у меня сайнемо и даркнесс Рейн как раз оставались.

>Пойду качать
Впечатлениями делись, ну и скоростью и сетапом тоже.
Аноним 14/05/25 Срд 06:23:20 #196 №1201908 
1000017394.jpg
Подождите...
То есть запустить квен 235б стоит... Всего 22к блять?
Это реально?
Аноним 14/05/25 Срд 06:24:53 #197 №1201909 
>>1201908
Аноны хелп.
Я прямо щас закажу если это так
Сколько токенов будет?
Сколько времени на контекст?
Одна 3090 уже есть
Аноним 14/05/25 Срд 06:26:37 #198 №1201910 
>>1201908
Реально соснуть с тем что даже на 3200 она не взлетит.
Аноним 14/05/25 Срд 06:37:30 #199 №1201913 
>>1201836
> потратить кучу бабок и получить тоже что и аноны с пердящей 5 летней картой за 50к
Хороший гой.
Смотри не дай себя наебать! Вдруг цена ещё на 5к упадёт тогда то точно надо брать!
Аноним 14/05/25 Срд 06:40:25 #200 №1201915 
image.png
>>1201866
Всем свидетелям "огрызка" от 70б
Аноним 14/05/25 Срд 07:07:46 #201 №1201926 
https://huggingface.co/MetaphoricalCode/QwQ-32B-Snowdrop-v0-exl3-4bpw-hb6
Сноудроп в exl3 вышел.
Аноним 14/05/25 Срд 07:15:28 #202 №1201927 
>>1201908
Для секса по переписке ерп по идее хватит, но очень медленно
Аноним 14/05/25 Срд 07:19:38 #203 №1201931 
>>1201866

У нее русик хуже геммы.
Аноним 14/05/25 Срд 07:23:59 #204 №1201933 
>>1201926

Максимально юзлесс параша.
У сноудропа 8к контекст как и у оригинальной qwq, а в exl3 сломан rope scaling.
Аноним 14/05/25 Срд 07:25:42 #205 №1201934 
>>1201909

Ну токена 0.5 в секунду максимум. Если повезет.
Аноним 14/05/25 Срд 07:25:57 #206 №1201935 
>>1201341
https://aibooru.online/
Аноним 14/05/25 Срд 07:31:39 #207 №1201937 
image.png
>>1201933
хз о чем ты всё работает
Аноним 14/05/25 Срд 07:35:03 #208 №1201938 
>>1201726
>с 24гб vram
c 12ти
Аноним 14/05/25 Срд 07:42:42 #209 №1201941 
Ну потому что по этому графику у 8 бит перплексити 7.4, а у лоботомита 3_xss - 8.4, это ухудшение на 13.5%. А на практике больше.
Аноним 14/05/25 Срд 07:44:25 #210 №1201942 
>>1201786
->
>>1201941
Аноним 14/05/25 Срд 07:48:19 #211 №1201948 
>>1201937

Генерировать он будет при любых условиях. Там качество падает по экспоненте при превышении контекста.
Открой страницу qwq и почитай про контекст модели, там написано что контекст 8к, а до 131к контекст надо разгонять через Yarn, тоесть rope scaling. В exllama v3 висит issue в котором четко указано что с ним сейчас проблемы.
Аноним 14/05/25 Срд 08:00:49 #212 №1201952 
>>1201931
Так это же плюс.
Как в детстве когда все игры на английском но ты играешь с переводчиком, потому что оно того стоит
Сейчас ты сидишь на лоботомите уровня 8б, а так получишь резкий скачок до уровня 70б!
Аноним 14/05/25 Срд 08:18:10 #213 №1201963 
image.png
image.png
так смешно читать переведенный слоп
Аноним 14/05/25 Срд 08:22:38 #214 №1201964 
>>1201931
Забавно кстати как немотрон сразу переключается на русский когда пишешь на нём хоть одно слово, до этого у тебя весь чат был на английском, а гемма с йоба русиком даже с четкими инструкциями писать на ру и переведенным 1 сообщением отвечает на русском только с 10 свайпа
Аноним 14/05/25 Срд 08:34:32 #215 №1201973 
image.png
image.png
image.png
>>1201931
>гемма
Аноним 14/05/25 Срд 08:42:30 #216 №1201985 
>>1201938
Он явно спросил что-то хотя бы приближенное к ГПТ, а не лупящийся шизлтюн мистраля. Хотя на его карте даже это не взлетит.

>>1201791
А контекст ты куда кладешь в своих 16 гб? Ещё и для гемы, лол. Ты бы ещё на RAM ему предложил сидеть и ждать ответа из пары предложений по 5 минут. Это все удаление гланд через жопу, я это прекрасно знаю т.к сам первое время сидел на 16.

>>1201780
>почему меня тогда к вам в тред отправили?
Там и спроси. Не думай что тут агрессируют, просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки. Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа, а 1-2b модели это максимально прикладные штуки, они для простых рабочих задач но никак не для рп, только разочаруешься лишний раз.
Аноним 14/05/25 Срд 08:55:09 #217 №1201995 
>>1201926
В 24гб врама поместится 4.65bpw версия, если у тебя ничего больше особо не ест врам. (браузер отключен и прочее)
То ли кванты меньше врама кушать то ли, то ли в целом весят меньше по сравнению с ехл2. И что еще круче, ехл3 квант того же размера "умнее" ехл2 кванта. То есть тут двойной апгрейд:
с 4.25 на ехл2 до 4.65 на ехл3
Аноним 14/05/25 Срд 08:58:35 #218 №1201999 
>>1201866
Если он так хорош, то поделись мастер-импорт пресетом
Аноним 14/05/25 Срд 08:59:42 #219 №1202000 
>>1201999
Уже делились в прошлом треде.
Но я его не использую, у меня всё отлично на рекомендованных семплерах и промпте от сноудропа.
Аноним 14/05/25 Срд 09:00:43 #220 №1202004 
>>1201948
Вонючка вернулся срать в тред? Мы по тебе не скучали.
Никакой просадки качества нет, потому что роуп работает по дефолту на статическом коэффициенте. QwQ автоматически поддерживает контекст роупом до 32к.
Ты не понял, о чем идет речь в issue на Гитхабе и додумал самостоятельно.
Аноним 14/05/25 Срд 09:05:07 #221 №1202011 
>>1201999
Вот анон делился >>1200050 →
Но впечатления от модельки противоречие что у меня что у него >>1199498 →
Кто-то еще писал вроде что ну в целом не слишком апгрейд с 32б моделей
Не так все однозначно с немотроном
Аноним 14/05/25 Срд 09:06:13 #222 №1202013 
>>1201795
Базированная пикча.
>>1201836
Я на зубы сейчас трачусь, нету деняг на видяхи ((
>>1201915
Так 70B мертвы после геммы. А сравнивают они с другими лоботомитами. Где хотя бы квен?
Аноним 14/05/25 Срд 09:09:57 #223 №1202020 
>>1202013
Блять квен это буквально не про качество а чувакам партия дала бабки и задачу мол сделайте там всё заебись шоб в топах висело "чайна стронг" а то мы вас на рудники.
Аноним 14/05/25 Срд 09:17:49 #224 №1202025 
>>1202011
Для меня немотрон это бувально гемма, но умнее, без сои, с другим датасетом, без старика хемлока и запаха лаванды в воздухе.
Лучше трекающая позиции, с лучшими, живыми диалогами, отлично держит контекст и развивает историю, то чего я ожидал от мистралей когда только вкатывался, но они оказались дырявым говном которых пинать надо как и гемму
Аноним 14/05/25 Срд 09:21:19 #225 №1202029 
>>1202025
У тебя ассистент в рп не протекает?
У меня протекает даже с настройками анона
Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют
Аноним 14/05/25 Срд 09:21:37 #226 №1202030 
Прошло сколько-то времени с релиза третьего квена. На старте его кванты были хуйней и плохо соблюдали инструкции (это вообще могло на некоторых карточках рофлов насоздавать, но все равно РПшить было грустно, любая модель из всей линейки начинала отыгрывать за игрока). Вчера решил тестануть новые кванты от unsloth, и оно починилось.

Короче за все модели говорить не буду, но думаю картина примерно одинаковая. РП - в целом кайф, особенно с ризонингом, особенно на 30б, потому что МоЕ и быстро. Причем это с коротким системным промптом, который нормально только на шизотюнах работает, которые не могут не РПшить
> You're {{char}} — a real person, engaging with another person, {{user}}
или
> You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.

А вот покумить с ней тяжело, модель вроде как прекрасно понимает, к чему все идет, вроде бы не сопротивляется, но тут или надо в очень явной форме согласие выражать, или самому начинать, или я хз что еще. Хитрые промпты как будто не особо работают (хотя было веселое, персонаж такой "Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно" и все никак не начнет).

Если instruct шаблон включить на chatml-names, отыгрышь идет еще пизже, модель лучше понимает, кого именно ей надо отыгрывать а в ризонинге может даже думать от лица персонажа (пока еще не понял почему, но дело похоже в карточках).


Ну и чо, заодно может мне кто сказать, есть ли смысл использовать UD кванты чтобы просто их запускать? А то из описания я понял только то, что они нужны для тюнов. Есть какой-то профит по сравнению с обычными?
Аноним 14/05/25 Срд 09:25:02 #227 №1202032 
>>1202029
Я уже 3 раза писал что делать с ассистентом, ищи сам.
>Модель как будто не слишком пригодна для рп, в Дискордах ее тоже не особо жалуют
Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол
Аноним 14/05/25 Срд 09:29:40 #228 №1202041 
>>1202032
> Я уже 3 раза писал что делать с ассистентом, ищи сам.
Активно читаю последние два треда. Ни слова об этом, только анон скинул пресет и другой свои настройки сэмплера.
Прошелся по ключевым словам - ничего не найдено.

Тебе приснилось.
Аноним 14/05/25 Срд 09:30:58 #229 №1202043 
>>1201423
Не согласен, я не кумер для меня квен лучший релиз года. Просто топовые асссистенты любых размеров.

>>1201430
квен3 32 лучше, он тратит меньше токенов чем квк, давая тот же или чуть лучше результат
Аноним 14/05/25 Срд 09:33:40 #230 №1202044 
>>1202004
>>1201948
Кому верить?
Аноним 14/05/25 Срд 09:34:05 #231 №1202045 
>>1201439
Лучше qwen3 30b смотри, его можно даже на процессоре запускать и быстро
llama.cpp можно готовые релизы качать в гитхабе, там на любой вкус они, и они быстрее кобальда
Аноним 14/05/25 Срд 09:36:23 #232 №1202047 
>>1201558
> -ctk q8_0 -ctv q8_0
вот это нахуй выкидывай, мое тупеют от этого заметно
Аноним 14/05/25 Срд 09:41:34 #233 №1202051 
>>1202044
Если не знаешь тех.базу или не можешь вникнуть в то, что здесь написано https://github.com/turboderp-org/exllamav3/issues/29
То просто скачай Сноудроп в exl3 и убедись, что все работает корректно. Потому что работает
Аноним 14/05/25 Срд 09:51:56 #234 №1202055 
>>1202030
ud кванты пизже для мое и чуть лучше для плотных моделей
Ине квантуй кеш
Аноним 14/05/25 Срд 09:58:25 #235 №1202060 
>>1202032
Немотронфаг зашкварился
Нихуя ты не писал кроме того какой ахуенный твой немотрончик, обычный пиздеж
Аноним 14/05/25 Срд 10:11:02 #236 №1202066 
>>1202032
> Я хотя бы слышу о ней в отличии от сноудропа про которого кроме этого треда нигда ни слова нет, лол
А тебе обязательно нужно чье то обсуждение и одобрение, своё мнение о модельке ты сформировать не способен ?
Аноним 14/05/25 Срд 10:18:36 #237 №1202071 
Знаете, вчера мне нужно было вентиляшку для помещения рассчитать, обратился через апишку компании к чатжопэтэ. И дай, думаю, раз уж доступ есть поиграюсь немного с корпосеткой.
Да, я знаю что в корпосетки вкладываются тыщи нефти, я понимаю что они должны быть умницами.
Но чет мне прям взгрустнулось. Я посмотрел на эти стены описаний, и свет там разливается в драгоценных камнях, и персонажи разговаривают по разному, имея какие то персональные черты. Чет теперь смотрю на свою геммочку и комманд и мне немного грустно, что настолько ебовая разница.
С одной стороны в асиге конечно ад и пердолинг школоты с ключиками, но блять, какая же гопота умная, это действительно имеет смысл.
Но, опять же, ситуация исправляется, год назад с мистральками все было кратно хуже.
Аноним 14/05/25 Срд 10:35:41 #238 №1202078 
Почему в этом ИТТ треде до сих пор не обсуждают блокировку видеокарт по геолокации?

Это произойдет не сегодня и не через полгода, но у меня анус уже сжался.
Аноним 14/05/25 Срд 10:36:44 #239 №1202079 DELETED
>>1202078
Русофобия не знает границ
Аноним 14/05/25 Срд 10:39:10 #240 №1202082 
>>1202078
>Почему в этом ИТТ треде до сих пор не обсуждают блокировку видеокарт по геолокации?
Потому что тред по ЛЛМ.
Если ты хочешь попаниковать - паникуй.
Аноны никак не могут повлиять на ситуацию, а тут, надесюь, взрослые люди которые не видят смысла в бессмысленном сотрясании воздуха. Мы слишком увлечены шивер он аур спайн, гляда на покачивания бёдрами. и обсуждением ригов из собранных на помойках деталей.
Аноним 14/05/25 Срд 10:41:11 #241 №1202086 
>>1201935
Спасибо. Но оказалось всё настолько просто, что я даже был удивлен. За тебя уже всё сделали, все настроили, к каждой модельке уже готовый.. эмм, я не знаю как это называется ситемная карта, наверное, есть. Сиди только промты пиши.
Аноним 14/05/25 Срд 10:42:29 #242 №1202089 DELETED
>>1202078
>>1202079
Шиза, срыгни в /b или /po, где тебе и место.
Аноним 14/05/25 Срд 10:43:25 #243 №1202090 DELETED
>>1202079
>Русофобия
Немецкофобия же. "Русский мир" - это на самом деле советский мир, а советский мир - это немецкий мир 1860 года немца теоретика Маркса.
Аноним 14/05/25 Срд 10:46:08 #244 №1202093 DELETED
>>1202090
Разве не лучше если русский будет сидеть играть в игрульки/чатиться с вайфу чем поедет на сво от нехуй делать?
Аноним 14/05/25 Срд 10:47:35 #245 №1202095 DELETED
>>1202090
>>1202093
Если вы продолжите, я начну кляузничать, придет анимешная кошкодевочка и засунет вам банхаммер в жопу :3
Nya~
Аноним 14/05/25 Срд 10:52:23 #246 №1202101 
>>1202066
Я не знаю о чем говорить с файфу, постоянно жму с усами
Аноним 14/05/25 Срд 10:56:47 #247 №1202104 
>>1202101
>Я не знаю о чем говорить с файфу
Обсуди Сталинскую экономику и влияние социалистического уклада, на формирование общества. Потом можешь обсудить особенности разведения слонов в условиях крайнего севера. А в завершение - способы добычи золота, посредством ультразвукового воздействия на рудный массив.
Аноним 14/05/25 Срд 11:04:25 #248 №1202113 
>>1202078
А смысл обсуждать очередное изнасилование журналиста? Если ты неспособен адекватно воспринимать информацию и трясешься с шизой, то тебе в /rf/, а не сюда.
Аноним 14/05/25 Срд 11:07:08 #249 №1202117 
>>1201985
>просто под твое железо действительно не придумать ничего даже отдаленно приближенное под твои хотелки
Понял, спасибо за разъяснение.

>Тебе реально только на RAM сидеть и сто лет ждать генерацию ответа
А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
Аноним 14/05/25 Срд 11:08:32 #250 №1202120 
>>1202117
>В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
>>1202045
Аноним 14/05/25 Срд 11:10:49 #251 №1202123 
изображение.png
Это saiga, не qwen. Я хз про qwen. Это ничего не значащий скрин, просто баловство.

Но вот че, мысль какая возникла. Если модель заставлять размышлять, ну типа заставлять писать сначала поеботрию о сущности ввода, а потом чтобы она уже писала окончательный ответ. Это не будет эквивалентно тому, что делает так называемый "thinking" у квена?
Аноним 14/05/25 Срд 11:11:49 #252 №1202126 
>>1202123
Кринжатура конкретная.
Аноним 14/05/25 Срд 11:13:18 #253 №1202129 
>>1202095
>>1202104
Вы чет сильно совпали, кошкодевочки и сталины с хуйергой, которую я только что в сайгу писал. Я чет даже удивился.
Аноним 14/05/25 Срд 11:14:39 #254 №1202130 
А я буду ждать когда анон скинет семплеры для комман-р.
Я не гордый. Я подожду.
Я люблю ждать.
Я выгружаю контекст в рам и иду пить чай. Я пью чай каждые пол часа. Я уже выпил весь чай в городе, но ничего, я уже вижу валлермана. Моя кружка будет залита вовремя.
Аноним 14/05/25 Срд 11:15:13 #255 №1202131 
>>1202117
> А что за РАМ такой? В целом я не против ждать ответы, даже если время займёт полчаса, например... Но как хотя бы такое реализовать?
РАМ - RAM, она же Random Access Memory или Оперативная Память. Анон, тебя скорее всего затроллили, прислав к нам. На твоей 1050 ничего не запустить нормально. Учитывая, какая у тебя видюха, процессор и оператива тоже наверняка слабые. Забудь об идее запускать что-нибудь на своем железе. Для жизни нужно хотя бы 16гб видеопамяти или приличной процессор и быстрая оператива.
Смотри на вебмодели/апи. Это не тематика треда, но выше тебе советовали ту же Гемини. И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру. Тебе в aicg. Искренне желаю не сойти с ума, там 2/3 тролли и идиоты, так что смотри на все сквозь призму скепсиса и разбирайся сам по ходу дела. Это займет время.
(Вновь даю ту же подсказку - самое дешевое, что можно раздобыть, это Гемини 2.5. Ее можно гонять бесплатно, гайды есть даже на ютубе на русском, а промпт в том треде спрашивай)
Аноним 14/05/25 Срд 11:16:44 #256 №1202134 
>>1202130
> А я буду ждать когда анон скинет семплеры для комман-р.
А чё, кто-то грозился скинуть?
Аноним 14/05/25 Срд 11:17:42 #257 №1202136 
>>1202126
Сайга делает фейковые размышления, имитирует заумным языком. Надо заставить так, чтобы суммаризировала контекст немножко, немножко по сути вопроса что-то написала, а потом, чтобы это влияло конечный на ответ.
Аноним 14/05/25 Срд 11:19:52 #258 №1202137 
>>1202129
А ты выделил оба моих поста. Так что технически совпадение вполне реальное. Просто ты в симуляции и я - это ты. Ты это я.
Вместе мы дружная шиза.

Ну а если серьезно, просто из за перманентного коммиссрача, товарищ Виссарионыч нереально часто упоминается. Можешь считать, что Сталин это приоритетный токен.

>>1202134
Нет, но я все равно буду ждать. Я верю что добро возвращается.
Ну или я вечером пойду грустный домой и буду сам всё крутить и немного тяжело вздыхать.
Аноним 14/05/25 Срд 11:35:51 #259 №1202152 
>>1202137
> Нет, но я все равно буду ждать.
Супер, давай ждать вместе. Всем тредом.
Аноним 14/05/25 Срд 11:42:51 #260 №1202157 
>>1202137
>>1202152
Комманд-а говорит следующее

Общие настройки для модели c4ai-command-r-08-2024:
Temperature (Температура):

Значение: 0.7
Описание: Температура управляет случайностью генерации. Значение 0.7 обеспечивает хороший баланс между креативностью и предсказуемостью.
Top-P (Nucleus Sampling):

Значение: 0.9
Описание: Top-P ограничивает выбор токенов наиболее вероятными, что улучшает качество текста.
Top-K (Top-K Sampling):

Значение: 50
Описание: Top-K выбирает из 50 наиболее вероятных токенов, что помогает избежать слишком случайных или неадекватных ответов.
Repetition Penalty (Штраф за повторения):

Значение: 1.1
Описание: Это предотвращает повторение одних и тех же фраз или слов в ответе.
Max Tokens (Максимальное количество токенов):

Значение: 512 (или больше, если нужно)
Описание: Ограничивает длину ответа. Можешь увеличить, если хочешь более подробные ответы.
Presence Penalty (Штраф за присутствие):

Значение: 0.6
Описание: Уменьшает вероятность повторения уже упомянутых тем или идей.
Frequency Penalty (Штраф за частоту):

Значение: 0.6
Описание: Уменьшает вероятность повторения часто используемых слов или фраз.
Дополнительные настройки:
Stop Sequences (Стоп-последовательности):
Можешь добавить стоп-последовательности, такие как "\n", чтобы ограничить генерацию по определенным символам.

Streaming (Потоковая передача):
Включи, если хочешь, чтобы ответы генерировались постепенно, а не целиком за раз.

Пример настроек в Silly Tavern:
Temperature: 0.7
Top-P: 0.9
Top-K: 50
Repetition Penalty: 1.1
Max Tokens: 512
Presence Penalty: 0.6
Frequency Penalty: 0.6
Stop Sequences: \n

Не благодарите. А я пошел дальше спасать город от своего присутствия.
Аноним 14/05/25 Срд 11:45:21 #261 №1202163 
>>1202157
ммм)
top p + top k + rep pen + freq pen + presence pen
вкусные будут аутпуты

> Не благодарите.
и в мыслях не было, такое непотребство
Аноним 14/05/25 Срд 11:48:36 #262 №1202166 
>>1202163
>и в мыслях не было, такое непотребство
Это всё еще лучше, чем ничего.

Я, блдажд обожаю этот тред
>скиньте
>скидываешь
>ряяя говно
>хуле тогда сам не сделаешь
>ряяяя скиньте

Я начинаю понимать того анона хомяка, который ничем не делится.
Аноним 14/05/25 Срд 11:50:41 #263 №1202168 
А вы знали что снижение температуры замедляет генерацию токенов?
Аноним 14/05/25 Срд 11:51:35 #264 №1202170 
>>1202166
анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени
это не просто плохой сэмплер, это что-то, что не работает вообще. вредная информация
и ты ждешь за нее благодарность?
анон-хомяк добряк, он же потом скинул пресет немотрона
Аноним 14/05/25 Срд 11:55:04 #265 №1202172 
>>1202170
Что-то вразумительное может и будет, но эти сэмплеры меня пугают. Сейчас аноны ими включат Коммандеру лоботомию и придут рассказывать, что модель говно. Ещё и на русике будут тестить :D
Аноним 14/05/25 Срд 11:55:44 #266 №1202176 
>>1202170
> анонище, тот набор сэмплеров, который ты прислал, литерально не работает. там аутпуты будут подобные: asdkasf]a\asd\sd' sdasd]\ff\f gwe, в большей или меньшей степени
> вредная информация

Суть как бы в чем, если ты действительно хочешь чем то поделиться, то никаких проблем не будет написать :
Это хуита, лучше сделать <this>, потом <this>.
А это лучше сделать <this>
Тот кто не знает, посмотрит и скажет спасибо.
ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая.
Но потом не надо удивляться, что тред скатиться в говно. Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно.
Аноним 14/05/25 Срд 11:57:39 #267 №1202179 
>>1202176
> top p + top k + rep pen + freq pen + presence pen
> вкусные будут аутпуты
вот мое объяснение тому, почему это не работает. ты сейчас пытаешься гаслайтить и убеждаешь меня в том, что я не прав или надменно фыркаю? ты буквально прислал в тред что-то, что не имеет даже намека на правильную работу, даже не проверил самостоятельно, и теперь говоришь, что я чсв мудак? да иди ты нахуй с такими приколами
Аноним 14/05/25 Срд 11:58:49 #268 №1202181 
>>1202179
>ты сейчас пытаешься гаслайтить
Даже в мыслях не было, серьезно. Хватит уже видеть везде попытку тебя укорить.
Это просто байт на семплеры
Аноним 14/05/25 Срд 12:03:21 #269 №1202189 
>>1202181
> присылает буквально неработающий сэмплер, просто скопировал аутпут ллмки не проверив
> без агрессии предостерегаю других анонов это не использовать, потому что top p + top k + rep pen + freq pen + presence pen ломают все нахуй
> если ты действительно хочешь чем то поделиться
> ну или сидеть на своем золотом троне глядя на плебеев, надменно фыркая.
> Но потом не надо удивляться, что тред скатиться в говно.
> Где ЧСВшники будут называть друг друга врамцелами, и все обсуждение сведется к - ты говно, нет ты говно.
> Даже в мыслях не было, серьезно. Хватит уже видеть везде попытку тебя укорить.
мда
Аноним 14/05/25 Срд 12:05:47 #270 №1202192 
Вспомнил как запустил немотрончик в первый раз и понял почему он непопулярен
Запускаешь а там какие то списки, соя непробиваемая, персонажи сходу не берут у меня в рот хлопая в ладоши как я привык, вроде умный но пользоваться анрил из за списков, аж на 2 месяца забил, а всего то нужен был правильный подход и поглаживания.
Это единственная модель на моей памяти с порогом входа, которая разворачивается к тебе жопой и стоит так до победного, тогда как всё остальное максимально дружелюбно и цветасто
Рад что exl3 вдохнул жизнь в него
Аноним 14/05/25 Срд 12:07:12 #271 №1202194 
>>1202004

Шиз, прокомментируй вот этот тред на реддите

https://www.reddit.com/r/LocalLLaMA/comments/1kaw33r/qwen332b_testing_the_limits_of_massive_context/

И особенно саммари в конце
>YaRN with ELX2/EXL3 does not work as intended.
Аноним 14/05/25 Срд 12:11:22 #272 №1202196 
>>1202189
Он не еблан, он просто байтит на сэмплеры добрых анонов.
(которых все меньше после таких байтов)

>>1202192
Во-первых, Коммандер. Во-вторых, ты заебал срать своим Немотроном. Сделай карточку "Немотрончик", поставь на аватарку Куртку и выражай туда всю свою любовь. Или приноси логи-пресеты.

>>1202194
Мы обсуждали QwQ. Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так. Что там с Квеном мне вообще не интересно. Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.
Аноним 14/05/25 Срд 12:17:12 #273 №1202201 
>>1202196
>Мы обсуждали QwQ
Так это и есть квен не? Квк это прототип всей серии квен3
Аноним 14/05/25 Срд 12:21:43 #274 №1202207 
>>1202030
>Ух, Анон, как я тебя ща трахну, как нам будет с тобой приятно
у меня так же вчера было на 232б.
Она не отпирается напрямую, не говорит "я не буду это генерировать". Но она вместо этого сильно увеличивает другие векторы генерации.
Например Один раз она зацепилась за то, что я указал в карточке персонажа, что это не порно рп и не надо скатываться в эротику (это было для моделей, которые сразу за хуй тебя хватают). Другой раз она вдруг начала перечислять мне физиологические чувства персонажа - в карточке я просил описывать все что чувствует и ощущает перс. То есть не типа "у него начало быстрее биться сердце", а прям начала мне по списку выдавать как врач что происходило в организме чара. Я очень удивился, но это был любопытный ответ. И постоянно переспрашивает согласен ли {{user}}.
У неё как будто есть какое-то внутреннее сопротивление. Ну или у неё в датасете просто нет нормальных данных под порно рп, поэтому она пытается вывозить на гиперболизации других векторов.
Аноним 14/05/25 Срд 12:23:13 #275 №1202208 
>>1201655
У меня DDR4 3600 и 5.3 токен/сек, у реддитовского чела по его словам DDR4 2666 и 6 токен/сек.
3060 и 128 оперативы, квант ud_q2_k_xl.

Вот ссыль на него: https://www.reddit.com/r/LocalLLaMA/comments/1ki3sze/running_qwen3_235b_on_a_single_3060_12gb_6_ts/

Мне тоже обидно, что на 10% меньше, чем на 30% более медленной памяти. =( Где мои 8 токенов!..
Материнка и память у меня не лучшие попались, видимо.

В итоге, остановился на 5,5 ток/сек через две теслы п40 и 64 DDR4 3200 и ud_q3_k_xl, а то второй квант прям совсем не хочется, а третий (почти четвертый) уже норм.
Ну я писал в прошлом треде.

СЛУШАЙ, а я теперь че-то не могу понять. Мне казалось, у меня Теслы показали себя хуже 3060… Может быть я на 3060 тестил третий квант, а не второй? Или получается, что две теслы п40 лучше одной 3060…

Мне лень перетестивать, короче.

Но скорость там от 5 токенов 100%. Даже для третьего кванта.
Аноним 14/05/25 Срд 12:25:54 #276 №1202209 
>>1202196
К коммандеру у меня наоборот претензия что он слишком дружелюбен, и кум тебе сочный и цензуры нет, но от того и быстро бросил его, кум боты слишком хорни, не кум боты легко соблазняемы, стало скучно
Аноним 14/05/25 Срд 12:26:03 #277 №1202210 
https://www.reddit.com/r/LocalLLaMA/comments/1klx9q2/realtime_webcam_demo_with_smolvlm_using_llamacpp/
Готовьте дикпики
Аноним 14/05/25 Срд 12:29:50 #278 №1202212 
>>1201908
Ну, в принципе да.
И видеокарта какая-нибудь не самая донная, чтобы туда выгрузить статические тензоры. Свои 30% буста от чистой оперативы получишь.

>>1201910
Вот кстати, суперстранно, у меня на 3600 не на всех материнках заводится, а с 3200 не было проблем даже на кингспеках (ТОЛЬКО ОНИ СГОРЕЛИ АХАХАХА), так что не все так плохо, это не АМ5.

>>1201909
Ваще хуй знает, но я бы дал те же 6,5-7 для второго кванта. Сильно зависит от того, как оно у тебя заработает.

>>1201934
Лол. =)

>>1201938
Для квена мое с 6 даже. =)

>>1202043
База по квену, но квк на вкус и цвет. Кому-то он нравится больше. =) Плюс там руадапт есть, лайтовый весьма.

>>1202055
Только менее пизже для русского, ибо он там не в приоритете был при квантизации.
Аноним 14/05/25 Срд 12:30:31 #279 №1202213 
>>1202209
> кум боты слишком хорни
Не может быть...

> не кум боты легко соблазняемы
Скилл ишью. Если у тебя в систем промпте или карточке сисечки-писечки, то совсем неудивительно.
Аноним 14/05/25 Срд 12:31:28 #280 №1202215 
>>1202210
В лламу.спп завезли вижн наконец, я апнул ишью и пару челиков поддержало, это сработало, ура.

Но, важно что смол анализирует картинку, а нужен скорее квен-вл, который может и видео, короче, пока рано, подождем.

Qwen3-Omni хотеть с русским.
Аноним 14/05/25 Срд 12:35:02 #281 №1202220 
image.png
>>1202131
>тебя скорее всего затроллили, прислав к нам
Ну я в чат-ботном треде сначала спрашивал, как Таверну запустить, а там меня к вам отправили, за языковой моделью...

>Забудь об идее запускать что-нибудь на своем железе
Да я уже. Вы всё доходчиво объяснили, что я лох и на этом поприще мне ничего не сыскать.

>Смотри на вебмодели/апи
Не совсем уверен, о чём ты. Но если ты про веб чат-боты, то они хреновенькие же. Единственный нормальный - это ГПТ, но в ГПТ-треде даже местные аноны не знают, как цензуру отключать. Я уже месяц к ним с этим запросом там пристаю. Толкового ответа всё нет.

>И для нее, и для Дипсика есть так называемые джейлбрейки - промпты, которые отключают им цензуру
Подожди, то есть хочешь сказать, что я в дипспик могу написать какой-то особый запрос, который отключит цензуру? Или о чём ты, не совсем понимаю.

Я же говорю, что вообще не в теме и с нулём знаний. Даже не знаю, что в гугле вбивать, чтобы хотя бы начать разбираться в теме.

Я даже твой совет по некой Гемине загуглить не могу. Что это вообще такое? Гугл мне вот такую вот страницу только выдаёт... Я не понимаю, где-там вообще нейронка...
Аноним 14/05/25 Срд 12:38:49 #282 №1202226 
>>1202196
Какой коммандер лучше попробовать?
Аноним 14/05/25 Срд 12:38:58 #283 №1202227 
>>1202130
В таверне есть стоковые семплеры для command-r они весьма сбалансированы, их и используй.
А потом продублируй настройки и начинай крутить как душе угодно. Поймешь разницу на личном опыте.
И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера (я так и поступил, потому что макак) если речь про стар коммандр.
А вообще, почитай какая настройка семплера за что отвечает, это полезно.
Аноним 14/05/25 Срд 12:38:58 #284 №1202228 
>>1202196
>Что там с Квеном мне вообще не интересно.

QwQ это квен, буквально прошлая модель квена.

>Я сказал, что он работает нормально вплоть до 32к контекста, поскольку Эксллама3 подтягивает статичисеский коэффициент x4. И это так.

Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется. Если это не так - ок. Проверять я это конечно не буду.

>Ты как всегда срешь мимо очка, думая, что говоришь по делу. Главное держаться уверенно, даже если в штанах куча.

Охуеваю с твоей говнистости, начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант, пока что ты самый мерзкий шиз итт.
Аноним 14/05/25 Срд 12:39:37 #285 №1202229 
>>1202220
Анон ты долбаеб? Я тебе уже ответил, ты даже на cpu можешь скачать и запустить локально достаточно умную модель.
Если ты просто хотел потыкать и посмотреть это твой выбор
Если у тебя есть avx2 и 32гб рам то ты сможешь, на карту строго похуй
Аноним 14/05/25 Срд 12:39:49 #286 №1202230 
>>1202213
>Не может быть...
Я нигде такого перекоса в кум с вступительного сообщения не видел, обычно есть какой то баланс диалога и "а давай я тебе отсосу"
>Скилл ишью. Если у тебя в систем промпте или карточке сисечки-писечки, то совсем неудивительно
А то что я ебырь террорист ирл ты не подумал?
Аноним 14/05/25 Срд 12:42:45 #287 №1202232 
>>1202220
> Но если ты про веб чат-боты, то они хреновенькие же.
Толстый троллинг.

Невозможно такое утверждать всерьез, если человек не шиз-любитель Гомера в оригинале.
Аноним 14/05/25 Срд 12:49:49 #288 №1202235 
f7902ca7d958dc65.webp
Аноним 14/05/25 Срд 12:51:06 #289 №1202236 
>>1202228
> Ок, я вот прочел тот тред и его выводы что роуп полностью сломан и автоматом прикинул что это и на квк распространяется.
> Если это не так - ок.
> Проверять я это конечно не буду.
Фантастический. Ты прочитал реддит, неправильно истолковал выводы поста, сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге, а потом приходишь в тред и делаешь ахуительное заявление:
> Максимально юзлесс параша.
> У сноудропа 8к контекст как и у оригинальной qwq, а в exl3 сломан rope scaling.
Нихуя не разобрался и пришел срать. Не первый и не последний раз. И финалочка:
> Охуеваю с твоей говнистости
> начать личные оскорбления за то что кто-то просто плохо высказался про твой любимый квант
> пока что ты самый мерзкий шиз итт.
Ты ничего кроме желчи не заслуживаешь, потому что сам только ее и порождаешь. Ты как всегда насрал неправильной информацией, еще и не по делу. Ты ждешь другого к себе отношения?
Аноним 14/05/25 Срд 12:51:36 #290 №1202237 
11в1.png
>>1202229
>ты даже на cpu можешь скачать и запустить локально достаточно умную модель
Ты про процессор? Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо.
Intel(R) Core(TM) i5-4460 CPU @ 3.20GHz - вот мой проц если что... На него пойдёт локалка, или нет?

>>1202232
Я не совсем тебя понял, анон. Но могу смело заявить, что я не тролль совершенно точно. Я просто очень тупой. Простите.
Аноним 14/05/25 Срд 12:52:00 #291 №1202238 
>>1201973

Это просто показывает что даже на плохих настройках, заставляющих её срать шизой, ллама еще держит хороший русский язык. Немотрон вот твой, например, моментально русик теряет при любом отклонении от тех параметров, что указала куртка.
Аноним 14/05/25 Срд 12:52:54 #292 №1202239 
>>1202227
Понял.
Принял.
Упиздовал.

Спасибо.
Аноним 14/05/25 Срд 12:54:23 #293 №1202240 
>>1202220
> Но если ты про веб чат-боты, то они хреновенькие же.
> Я же говорю, что вообще не в теме и с нулём знаний.
Противоречие.
Либо ты с нулем знаний, тогда откуда тебе знать, кто хреновенький, а кто нет, и что это вообще.
Либо ты можешь утверждать, что что-то плохое, потому что в этом разбираешься.

В начале определись, шаришь ты или нет.

И с 1050 2 гиговой ты много не запустишь.
Хотя бы 4 гигабайта, чтобы минимально комфортную скорость получить.
Ну и может у тебя смартфон современный?

Еще можно посмотреть в сторону P104-100 с 8 гигами, если у тебя есть второй слот для видяхи и БП позволит.

Но лучше норм комп собрать.
Аноним 14/05/25 Срд 12:59:01 #294 №1202242 
>>1202237
Дело даже не в проце, а в оперативной памяти.

Смотри, объясняю на пальцах.

Видеокарта — это быстрая оперативная память (скорость чтения от 200 до 1000).
DDR5 в двухканале — это неплохо (скорость около 100).
DDR4 в двухканале — это ну норм (скорость около 50).
DDR3 в двухканале — это печально (скорость около 25).

Важен объем. Чем больше, тем лучше — есть модели и на 700 гигабайт, но чаще это 100, 70, 40, 20, 12 гигабайт.
Есть модельки на 6, 4, 2, 1 гиг. Но они маленькие и не очень умные.

Не знаю сколько у тебя оперативы, но у видяхи — 2 гига, да?

По хорошему тебе бы 12 гигов быстрой памяти для немо-миксов от Алетейана, или же 6 гигов быстрой памяти и 32 пойдет для квена3-30б мое.

Но текущее железо прям очень плохонькое.

как у тебя с деньгами? Ты можешь потянуть какой-нибудь апдейт?
Аноним 14/05/25 Срд 13:02:22 #295 №1202244 
>>1202236
>неправильно истолковал выводы поста

Если все так как ты говоришь - то выводы в том посте неправильные. Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе.

>сослался на issue в репе Экслламы, в котором прямо написано, что проблема (которая возникает только при 32к+ контекста) решается легчайшей заменой коэффициента в конфиге

Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал.

>Ты ждешь другого к себе отношения?

От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло.
Аноним 14/05/25 Срд 13:02:23 #296 №1202245 
>>1202237
>Ты про процессор?
Yes.
> Ну мне же выше сказали, что локалки, любые локалки - очень прожорливы и нужно хорошее железо.
Тебе какие то долбаебы отвечают, вроде по делу но про возможность запуска на оперативной памяти и процессоре даже не упомянули.
Может ты их запутал своими требованиями получить модель уровня топовых онлайн вариантов.

Короче анон, у тебя есть avx2 инструкции и теоретически обладая достаточным количеством оперативной памяти ты можешь запускать с нормальной скоростью одну конкретную современную модель.
Но ты настолько зеленый что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать.
Вот модель которую ты можешь запустить - https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF
Как это делать иди читай вики
Аноним 14/05/25 Срд 13:06:44 #297 №1202249 
>>1202244
> Невозможно истолковать фразу "В exl2/exl3 yarn работает не так как задумано" иначе.
Возможно. Для этого нужно прочесть весь пост, а не только его выводы.

> Как раз этот самый коэфициент и не сработал у автора поста на реддите. А на ггуфе сработал.
Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к. 8*4=32. Неужели ты настолько тупой? КААААК можно противоречить двум источникам, которые ты САМ ЖЕ приводишь как пруфы?
Бля как же это смешно.

> От тебя - нет, жду чтобы ты сдох от своей желчи, вонючее шизло.
Жду, чтобы ты поумнел, благоухающий блфаг.
Аноним 14/05/25 Срд 13:11:13 #298 №1202254 DELETED
~meh~

А ведь еще тредов 40 назад - сидели, общались, делились.
А теперь одни ЧСВ ебаклаки, срут не снимая свитера, срут на других ебаклаков.
И уже чуть ли не от каждого поста веет : я илита, ты говно.

Вам нужно собраться в телегоконфу. Впрочем скоро к этому придет, так как ваше йа уже в монитор не влезает.
Аноним 14/05/25 Срд 13:12:05 #299 №1202256 
>>1202245
> у тебя есть avx2 инструкции
Уже и на avx просто норм работает, я разницы между авх2 и авх не чувствовал при тестах геммы3 на зеоне с псп 50.

Вряд ли у него 32 гига ддр3 стоит. =) Чую я, 16 в лучшем случае, если не 8, иэх…
Аноним 14/05/25 Срд 13:13:00 #300 №1202257 DELETED
>>1202254
Иронично слышать от тебя с твоими картинками. (=
Да и ты новичок, откуда тебе знать, что было 30 тредов назад? =D

табличка sarcasm, если тебе не дошло вдруг
Аноним 14/05/25 Срд 13:14:52 #301 №1202260 
>>1202256
Да даже если у него 16 можно какой нибудь убогий квант скачать гигов на 10. Тут вон анон на 1 кванте ее запускал и она отвечала
Аноним 14/05/25 Срд 13:15:34 #302 №1202261 
>>1202254
Да не драматизируй, не подливай масло в срач. Не так все плохо. Ну завелся один дурачок, который сам не понимает, о чем говорит, чем начинает срачи. Или поумнеет, или уйдет. Не в первый раз.
Хорошее тоже есть, я, например, балдею от анонского пресета на Немотрон, что вчера скинули.
Аноним 14/05/25 Срд 13:17:20 #303 №1202263 
>>1202249
>Для этого нужно прочесть весь пост, а не только его выводы.

Так я и прочел. А вот ты походу нет.

>Автор поста ушел за 100к+ контекста, не изменив стандартный коэффициент, который позволяет работать вплоть до 32к контекста для моделей, которые тренировали на 8к

Квен 3 тренировали на 32к контекста, а не на 8к, как QwQ, что что коэфициент 4 должен был отработать, но он отработал только на ггуфе. Вот что написано в посте. Ну и кто тут обосрался?
Аноним 14/05/25 Срд 13:19:58 #304 №1202265 
image.png
image.png
>>1202240
>Противоречие
>В начале определись, шаришь ты или нет.
Возможно я просто плохо сформулировал. Извини, если ввёл в заблуждение.
Я имел ввиду, что некоторые веб чат-боты в плане РП тестил. Такие как Гопота, Грок и сайт Чарактер.аи. Я их поюзал в плане отыгрыша и пришёл к некоторому мнению, что все, кроме ГПТ, неудовлетворительны в разных критериях качества.

А про нулевые знания - это я о том, что все вот эти языковые модели и большую часть того, что вы мне пишите - я совершенно не понимаю. Какие-то штуки качать, джилбрейкеры какие-то. Нипанятно. Тут я полный ноль, в общем.

>Ну и может у тебя смартфон современный?
У меня есть какой-то самсунг. Вот его системные на пикрил2. Вроде не очень современный, но Геншин на нём идёт, если что.

>>1202242
Много сложных цифр. Не думаю, что я что-то понял.
И где оперативную память видеокрты посмотреть не знаю. У меня есть программка, которая мне информацию о системе показывает. Вот на пикче данные... Там, если я правильно понял, обычной оперативной памяти указано на 15гигов. Это нормально?
>Но текущее железо прям очень плохонькое.
Это я понимаю, да.
>как у тебя с деньгами?
Я рнн-хикка и у меня с декабря просрочки по кредитам в 600к, так что я на финансовом дне, можно сказать.

>>1202245
>Может ты их запутал
Ну скорее всего.

>у тебя есть avx2
Я погулил, не совсем уверен, что у меня это есть. Это же что-то про процессор? У меня 64-разрядная система. Вот на пикрил1 системные.

>что без твоего желания самому во всем разобраться я чет не хочу тебе все разжововать.
Я понимаю тебя, анончик. Это же по сути мне надо, а не кому-то из вас. Я уже благодарен вам всем, что вы хоть как-то откликнулись и даже советов по мере возможностей надавали.
Тут ещё всё упирается в мою личную тупость. Я просто не понимаю, что мне советуют.

Но за ссылку спасибо... Правда я по ней перешёл и там какие-то строчки кода. Я ничего не понял.
Аноним 14/05/25 Срд 13:34:30 #305 №1202269 
>>1202257
Слышь, смешнявка, я алтфак, мне так мама сказала.

>>1202261
Я вспоминаю когда вкатился, пришел и открыто написал : Да я знаю нихуя, куда смотреть, что читать, что тыкать. И буквально первым сообщением, анон выдал пошаговую инструкцию с сенкой и ссылками на гайды. Ну и заверте...
Хотя даже тогда был ебаклак, который написал ряяяя сенко говно. А на вопрос, почему сам ничего не советуешь в замен : ряяя говно ничего не знаю

Хмммм... может действительно ничего не меняется.


Ладно, на самом деле у меня есть вопрос.
Кто нибудь пробовал вот этт TTS ? https://huggingface.co/hexgrad/Kokoro-82M

Да и в целом, у кого из анонов есть опыт с TTS, какой посоветуете ?
Аноним 14/05/25 Срд 13:35:58 #306 №1202271 
>>1202263
Я не изучал тему Квена 3, потому ошибся, предполагая, что его тренировали на 8к. Если все действительно так как описано, то это странно, конечно же. Предполагаю, что у чела с реддита могут быть проблемы с конфигом на Экслламе3, поскольку важен не только коэффициент. Также это может быть и особенность Квена3 на Экслламе. Если проблема есть, turboderp ее непременно разрешит со временем. Заново квантовать ничего не придется, потому что это проблема инференса, а не кванта.

Мы же, здесь, в этом треде, обсуждали qwq snowdrop. До которого ты решил доебаться, примерив описанную проблему и на него тоже. Эти две модели и юзкейсы не тождественны. Ты выдал предположение за факт. Не надо так делать, тогда и не будешь получать плевки в рожу.
Аноним 14/05/25 Срд 13:38:36 #307 №1202273 
Прямо сейчас открыл свой старый чат на 30к контекста. Специально скачал exl3 snowdrop. Все работает, никаких галлюнов. Анон выше тоже присылал лог генерации. Хуй знает чем тебя еще убеждать, плоскоземельник.
Аноним 14/05/25 Срд 13:44:41 #308 №1202279 
>>1201704
скачивай lm studio (ссылка в шапке) и не еби мозги. в ней даже ребёнок разберётся, она сама подскажет модели под твоё железо

>>1202254
ещё полтора года назад мне один челик в конфе говорил про этот тред, что его захватили пидары из /hw и выдавили всех адекватов.
Аноним 14/05/25 Срд 13:47:10 #309 №1202284 
>>1202227
>И не стоит в треде спрашивать, на крайний случай чекни на форче или в дискорде того же драммера
Ну и нахуй тогда тред нужен ? Сраться что не поняли пост на реддите ?
Аноним 14/05/25 Срд 13:50:37 #310 №1202286 
>>1202284
Анон, это как в политике. У власти остаются те кто лучше всего удерживает власть, а не те кто достойны ее.
Так же и тут, тут остались только токсичные долбаебы которые лучше всего спорят, а не те кто несут контент или помогают другим.
Этих просто выдавили долбаебы, я кстати один из них и пишу тут не часто
Аноним 14/05/25 Срд 13:53:02 #311 №1202288 
>>1202286
Да пиздец. Да, я доблбоёб, я не отрицаю. И ладно бы я запрашивал что-то серьезное. Но ебучие семплеры, это два клика, но держатся за них, словно я золото у ебучего красного дракона отбираю.
Аноним 14/05/25 Срд 13:54:59 #312 №1202290 
>>1202271
>потому что это проблема инференса

Если это проблема инфиренса - то она скорее всего распространяется и на другие модели. Но ты прав в том что теоретически проблема действительно может быть связана только с квен 3. Тут надо чтобы turboderp дал оценку. До того момента я лично не буду трогать yarn в эксламе и никому не рекомендую. В конце-концов есть другие модели, у которых 100к+ контекста без всяких роупов.

>Ты выдал предположение за факт

Ты тоже.

>Не надо так делать, тогда и не будешь получать плевки в рожу.

Не надо плевать в лицо тому, кто тебе не плюнул первым, просто потому что тебе показалось что ты прав, странно что тебя в детском саду такому не научили, обычно такие хуйню там отбивают.
Аноним 14/05/25 Срд 13:55:09 #313 №1202291 
>>1202288
Ну как говорится, живите в проклятом мире который вы создали своими руками
Аноним 14/05/25 Срд 13:58:06 #314 №1202293 
>>1202288
Анонус, сейчас середина дня посреди рабочей недели. Ты зачем такую драму разводишь? Из-за того, что тебе прямо здесь и сейчас сэмплеры не скинули? Олсо правильно тебе выше предъявили, что ты сломанные сэмплеры прислал. Ведёшь себя прямо как шизы, которых ругаешь.
Аноним 14/05/25 Срд 13:59:56 #315 №1202295 
>>1201866
Она таки весьма специфична
>>1201906
> А я и не против.
Появилось острое ощущение что те оды пишут как раз те, кто раньше на 12б сидел и их нахваливал. Помню повелся на их уверения о превосходстве русского и мистральнемо над всеми - отведал копиума высшего сорта. И тут опять начинается.
Тут сначала надо найти свободного времени чтобы основательно потестить, самому интересно. Со скоростью проблем не будет ибо влезет фуллврам или почти так, потому не обломно погонять с разными промтами, оценить как себя ведет в разных сценариях и т.д.
>>1201926
Опять перекачивать, главное чтобы не поломан.
> hb6
Падла биты на головы пожелала, вот нахуй так жить?
Аноним 14/05/25 Срд 14:00:13 #316 №1202296 
>>1202293
Он и есть тот самый шиз что семенит тут из треда в тред.
Аноним 14/05/25 Срд 14:04:12 #317 №1202301 
>>1202293
>Ведёшь себя прямо как шизы, которых ругаешь.
А ведь и правда, веду себя как еблан.
Сорян аноны

>>1202296
Все вокруг шизы, один ты в белом пальто. Да и вообще половина в треде сообщений мои.
Аноним 14/05/25 Срд 14:05:11 #318 №1202303 
>>1202295
> Падла биты на головы пожелала, вот нахуй так жить?
Биты на голову врам кушают. И они не очень профитны, если bpw ниже 6. Так сам turboderp говорил
Скачай лучше 4.65bpw квант, если у тебя 24 гб врама. Это лучше, чем 4-4.25 hb8
Только все фоновые приложения тоже придется вырубить, которые врам кушают
Аноним 14/05/25 Срд 14:11:09 #319 №1202311 
>>1202303
Двачую. 4 запускаю, если на фоне Ютуб или ещё что. 4.65 идеально влезает в 24гб, если открыты только Табби и Таверна.
Аноним 14/05/25 Срд 14:12:36 #320 №1202313 
>>1201344
Ешь молись люби

https://youtube.com/playlist?list=PL-pohOSaL8P9kLZP8tQ1K1QWdZEgwiBM0
Аноним 14/05/25 Срд 14:16:27 #321 №1202316 
>>1201390
Спасибо солнце.
Аноним 14/05/25 Срд 14:23:10 #322 №1202322 
>>1202303
Все кушает врам, тут ничего не поделать. Ниже 6бит их вообще нельзя делать, отупевает, разница между 6 и 8 присутствует, по крайней мере в мелкомоделях.
Аноним 14/05/25 Срд 14:25:21 #323 №1202327 
>>1202322
Я всё еще надеюсь, что взойдет звезда пленительного счастья, выйдут модульные видеокарты, куда можно будет отдельно докупать плашки памяти.
Аноним 14/05/25 Срд 14:27:18 #324 №1202329 
>>1202322
> разница между 6 и 8 присутствует, по крайней мере в мелкомоделях.
Ты ее сам заметил, на практике? В чем это выражалось?
Вообще, вопрос дискуссионный. Мне тоже приятнее, когда h8, но не могу сказать, что разницу с h6 я замечал. Один и тот же квант, только головы разные. Формально perplexity у кванта с h8 чуть больше, но с таким же успехом можно больше bpw в рам засунуть.
У создателя Экслламы мнение однозначное: h8 юзать только для 8bpw квантов, и то необязательно. Профита мало за то количество врама, что оно ест.
Аноним 14/05/25 Срд 14:32:30 #325 №1202334 
>>1202207
интересно, то есть поломанные кванты хуево соблюдали инструкции, а нормальные делают это слишком сильно.

Интересно чо будет по тюнам, когда (если) нормальные появятся
Аноним 14/05/25 Срд 14:32:43 #326 №1202335 
>>1202311
>>1202303
Смысл если отличия в качестве минимальны и ты их никогда не заметишь?
Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант
Аноним 14/05/25 Срд 14:36:08 #327 №1202338 
>>1202335
> Смысл если отличия в качестве минимальны и ты их никогда не заметишь?
На чем основывается твое утверждение? Ты наверняка даже не запускал. Разница между 4bpw и 4.65bpw есть и ощущается на практике.

> Смысл вообще в ехл3 если в 24гб и так влазит нормальный гуф квант
Более оптимизированный формат с точки зрения потребления врама. С точки зрения скорости, тоже, правда пока что для 4090/5090 юзеров. Позже и для остальных тоже.
Аноним 14/05/25 Срд 14:39:34 #328 №1202341 
>>1202338
На том что мне тут сказали что 4 квант это база а выше прирост лишь на 5-6%
Ехл3 4 квант ещё лучше чем гуфовский
Аноним 14/05/25 Срд 14:43:38 #329 №1202347 
>>1202341
> На том что мне тут сказали что 4 квант это база а выше прирост лишь на 5-6%
Кто сказал-то? Баба срака из соседнего подъезда? Насколько выше, чем что? 8bpw на 5-6% лучше, чем 4bpw? Это не так.
4.65bpw это уже почти аналог Q5M кванта. При этом, как правило, помещается у всех тех, кто может поместить 4bpw.
Аноним 14/05/25 Срд 14:48:31 #330 №1202354 
https://huggingface.co/TheDrummer/Snowpiercer-15B-v1-GGUF
12б юзеры налетай налетай
неплохой рп тюн свежей модели вам принесли
немного пожирнее чем 12б, но все влезет у вас
Аноним 14/05/25 Срд 14:50:08 #331 №1202357 
ayaya-emote.png
Что вы знаете о истинном ебланстве.
Я вам поведаю
Я второй день еблася с Ayayaya. Уже хотел прийти в тред и начать срать, что ряяяяя говно поломанное
НИЧЁ НЕ РАБОТАЕТ
Пока не понял, что стоят системки от мистрали. Причем, я на них смотрю - ну все корректно. Ничего не пропущено, теги правильные. Полез обниморду перепроверить, зашел на страницу малышки мистрали и сравниваю
Все верно. Все корректно.

Просто
Ультимативный
Пиздец.
Пойду сделаю себе сэппуку от стыда
Аноним 14/05/25 Срд 15:10:04 #332 №1202379 
>>1202357
Ага, очень важная инфа. Спасибо что поделился. Нахуй нам эта инфа? Мы тут тебе не дружбаны.
Аноним 14/05/25 Срд 15:10:35 #333 №1202380 
>>1202354
>Base model Nemotron
>Drummer
Он меня точно не выебет ?
Аноним 14/05/25 Срд 15:11:40 #334 №1202382 
>>1202379
А кто мы? Мне только блфаг не друг.
Аноним 14/05/25 Срд 15:14:28 #335 №1202390 
>>1202354
Чем оно лучше 3й гемы?
Аноним 14/05/25 Срд 15:15:28 #336 №1202393 
290d078a28f4167edd.webm
>>1202382
>А кто мы?
Аноним 14/05/25 Срд 15:17:08 #337 №1202399 
>>1202390
оно не лучше и не хуже, оно другое
если интересно - скачай и посмотри
подозреваю, контекст гораздо меньше врама ест
Аноним 14/05/25 Срд 15:20:53 #338 №1202409 
>>1202393
> пользователи геммы:
Аноним 14/05/25 Срд 15:29:30 #339 №1202423 
>>1202357
F
А пользовался бы чаткомплишен и не парился
Аноним 14/05/25 Срд 15:33:18 #340 №1202430 
кто-нибудь тестил FP8? я правильно понимаю, что FP8 намного быстрее, но и немного тупее, чем Q8_0? на реддите противоречивые сведения.
Аноним 14/05/25 Срд 15:36:55 #341 №1202436 
>>1202288
>>1202296

Смешно, тебя походу за меня принимают, для олдов-шизофреников треда теперь любой кто просит сэмплеры это я - за то что пару тредов назад я посмел обосрать настройки и любимую модель одного из верховных главшизов треда - я для него враг номер один теперь и мстя любому, кто просит настройки, он (в своей больной голове, разумеется) таким образом мстит мне.
Хотя я после того случая сделал выводы и больше не просил у шизов сэмплеры, мало того что скинут полуюзабельное нечто, заточенное только под их нужды(англюсик онли + очень странный ролеплей), так еще и говном накормят за то что они, небожители, снизошли до тебя, смерда, а ты недостаточно им благодарен.
Аноним 14/05/25 Срд 15:39:04 #342 №1202440 
>>1202430
нашёл отзыв от разраба Forge:
> Q8 is always more precise than FP8 ( and a bit slower than fp8
> Precision For Q8: Q8_K (not available) >Q8_1 (not available) > Q8_0 >> fp8
> Speed (if offload, e.g., 8GB VRAM) from fast to slow: NF4 > Q4_0 > Q4_1 ≈ fp8 > Q4K_S > Q8_0 > Q8_1 > others ≈ fp16
Аноним 14/05/25 Срд 15:39:21 #343 №1202441 
>>1202436
tl;dr неинтересно + пошел нахуй в аицг, будешь как свой со своими пастами
Аноним 14/05/25 Срд 15:42:14 #344 №1202445 
>>1202430

Падение качества на 8 битах настолько незначительно что мне кажется что никто всерьез не занимался этим вопросом.
Аноним 14/05/25 Срд 15:43:43 #345 №1202448 
>>1202445
А в чем вообще проявляется падение качества ? Какие критерии ?
Аноним 14/05/25 Срд 15:45:05 #346 №1202449 
>>1202354
Пока что слабо отличаю от сайги. Говорит таким же душным языком, на просьбу о разговорной шутливой речи в промпте не реагирует: "Очевидно, что этот опыт оставил глубокий след в твоем сознании." Но может реагировать на OOC, можно попросить, будет разговорная речь, с подмигиваниями, усмеханиями, при этом возрастает градус долбоебизма.

Медленней чем сайга. Сайга сохраняет некоторые элементы, обозначение действий и прямой речи, ориентируется на структуру предыдущего выводы. Этот снежный сразу отбросил всё и оставил только прямую речь, а при отыгрывании долбоебических стилей речи склонен добавлять действия через звездочку. В злоупотреблении многоточиями не замечен.

Эта оценка не имеет хорошей достоверности из-за малого времени использования. Что-то в этой модели есть другое, нежели в сайге. Имеет смысл пытаться совладать.
Аноним 14/05/25 Срд 15:45:22 #347 №1202450 
>>1202436
У тебя неадекватная гиперфиксация на себе-любимом.
Аноним 14/05/25 Срд 15:47:11 #348 №1202454 
м.png
>>1202436
Аноним 14/05/25 Срд 15:49:50 #349 №1202457 
>>1202449
Дополнение: лучше, чем сайга, знает, когда надо ставить запятую перед "как", а когда не надо. Например, в предложении "Злупа как социальный феномен." сайга может поставить запятую.
Аноним 14/05/25 Срд 15:53:21 #350 №1202461 
IMG4099.jpeg
>>1202457
Вот это я понимаю аналитика пунктуации.
Снимаю шляпу, сэр.
Аноним 14/05/25 Срд 15:53:53 #351 №1202462 
>>1202448

В отклонении от того чему была обучена 16-битная модель изначально. Модель это упрощенно набор коэфициентов, записанных в формате 16-битных чисел. Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число, т.е. режешь половину мелких знаков, в результате восьмибитная модель выдает уже не то чему была изначально обучена, а что-то очень приближенное к этому.
Это как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927. Для подавляющего большинства задач хватит второго скоращенного числа, но теоретически может быть юзкейс где это сокращение сыграет с тобой злую шутку.
Аноним 14/05/25 Срд 16:05:04 #352 №1202469 
>>1202462
Нет, эта аналогия не верна.
Это скорее как уменьшение разрешения фотографии, сжав ее в 2 раза она все еще будет узнаваемой, но качество уже не то.
Аноним 14/05/25 Срд 16:13:56 #353 №1202474 
12т.с это сколько по шкале терпения
Аноним 14/05/25 Срд 16:17:01 #354 №1202477 
аноны, никто не использовал мелкосетку яндекса для перевода?

>>1202474
Ноль. 12т.с это околорелятивистское значение, почти скорость света.

анон с 1660s
Аноним 14/05/25 Срд 16:19:10 #355 №1202483 
>>1202474
Вопрос лишен смысла, так как это вопрос исключительно личного комфорта, скорости чтения и потребности для твоих задач.
Я вот сижу на 5-7 т/с с баренского. Пока перевожу, он неспешно пишет. Мне хватает. Но когда речь идет о великом и могучем, то мне и 15 т/с мало.

Это как задать вопрос. Килограмм черешни, это много или мало ?
Аноним 14/05/25 Срд 16:22:19 #356 №1202488 
>>1202462
О, спасибо за пояснения. Именно про то, что отклонения идут от полных весов. Тогда это имеет смысл.
Хотя я все равно не понимаю принцип логики нейронок, потому что если это суть математические зависимости где каждой букве присвоено число и оно созависимо с другими числами, при этом еще матан вероятностей. Тогда откуда здесь браться размышлениям, если это не более чем огромные матрицы алгебраических функций.
Надо покурить внимательно тему, а то так и останусь драчуном.
Аноним 14/05/25 Срд 16:23:42 #357 №1202491 
>>1202483
А у меня лютая тряска начинается когда токенов меньше 20, хотя читаю тоже на уровне 5т.сек
Аноним 14/05/25 Срд 16:25:41 #358 №1202493 
хмм почему когда сообщение уже сгенерировано генерация продолжается, токены чето капают в консольке а больше текста не появляется
Аноним 14/05/25 Срд 16:43:37 #359 №1202523 
>>1202493

Таверна скорее всего подсирает где-то, проверь экстеншены.
Аноним 14/05/25 Срд 16:43:39 #360 №1202524 
>>1202493
Подожди немного, я уже почти почувствовал твой лог. Сейчас, сейчас, что то ощущаю.
Аноним 14/05/25 Срд 16:43:47 #361 №1202525 
>>1202477
А что там на 1660s?
8б моделек завались же
Аноним 14/05/25 Срд 16:48:53 #362 №1202534 
>>1202524
>>1202523
суммарайз был включен
Аноним 14/05/25 Срд 16:49:51 #363 №1202536 
>>1202534
Выключи это говно ебаное, это для пидорасов, это хуйня!
Аноним 14/05/25 Срд 16:57:04 #364 №1202555 
>>1202536
Ты чё пёс. Суммарайз наше всё. Пойдем выйдем, поговорим.
Аноним 14/05/25 Срд 17:12:25 #365 №1202576 
image.png
А я-то думал хорошо будет на 22B
Аноним 14/05/25 Срд 17:12:55 #366 №1202577 
>>1202488
>Тогда откуда здесь браться размышлениям
Ниоткуда, ихтамнет.
Аноним 14/05/25 Срд 17:17:23 #367 №1202585 
реквестирую карточку томаса шелби и/или госта из колл оф дути
пж
Аноним 14/05/25 Срд 17:19:25 #368 №1202589 
>>1202585
https://2ch.hk/ai/res/1202405.html
Аноним 14/05/25 Срд 17:31:26 #369 №1202606 
>>1202576

Делать вдов - мое любимое занятие в рп, слушай нейронку, нейронка хуйни не посоветует.

Что за модель?
Аноним 14/05/25 Срд 17:34:58 #370 №1202614 
>>1202555
Его руками надо писать, а не автоматом, по ебалнски, как тупой долбаёб.
Аноним 14/05/25 Срд 17:47:46 #371 №1202628 
>>1202589
гейткипер
Аноним 14/05/25 Срд 17:54:42 #372 №1202637 
>>1202606
Обсер не из-за модели, до этого было очень хорошо
MS-Nudion
Я даже не знаю от кого произошла эта модель
Аноним 14/05/25 Срд 17:56:43 #373 №1202640 
>>1202614
Может остальной РП тоже руками писать? В блокноте?
Аноним 14/05/25 Срд 17:58:51 #374 №1202644 
>>1202640
Он прав. Автосуммарайз говно ебаное. Поверь, у меня были чаты по 700 сообщений, я знаю о чем говорю.
Аноним 14/05/25 Срд 17:58:53 #375 №1202645 
hn005z.png
>>1202640
Ты?

Давно уже саммари руками пишу. И вроде все так делают, кто сколь-нибудь серьезно играет.
Аноним 14/05/25 Срд 18:01:16 #376 №1202647 
>>1202644

Как ни странно, но любовь Немотрона к составлению списков тут прям в яблочко.
Аноним 14/05/25 Срд 18:02:19 #377 №1202648 
>>1202260
Эт я и был. =) Да, забавно, конечно. В видяхе лютая скорость, 290 токенов сек, что ли. =D

>>1202265
Ну, и правда, можно запустить на оперативной.

Хм, блин, слушай.
Я дико не уверен, сработает ли, и мне лень сейчас оживлять старый ноут…

давай попробуем так:
1. Идешь сюда: https://github.com/LostRuins/koboldcpp/releases и качаешь верхний (самый новый) koboldcpp.exe — если тебе повезет, то он даже заработает с ускорением у тебя на видяхе. Если не повезет, то качай koboldcpp_nocuda.exe — он точно пойдет.

2. Идешь сюда https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF/tree/main и качаешь… На выбор:
Qwen3-30B-A3B-UD-Q2_K_XL.gguf , Qwen3-30B-A3B-UD-IQ3_XXS.gguf , Qwen3-30B-A3B-Q3_K_S.gguf или Qwen3-30B-A3B-UD-Q3_K_XL.gguf от «точно должен влезть» до «ну я не уверен, но может запуститься».

Дальше, запускаешь первое, пихаешь в него второй (в интерфейсе), стартуешь и пробуешь попереписываться в открывшемся чате для начала.

Для koboldcpp надо выбрать GPU Layers 99, перейти на вкладку Tokens и там в Override tensors ввести: звездочка.ffn_.звездочка_exps.=CPU (я хз, как на дваче звездочки нормально вставлять)

Если заработает и нагрузит видеокарту — хорошо. Не заработает, ну тогда переходи к koboldcpp_nocuda. =)

Это самое базовое, начни с запуска и общения, а дальше потом.
Аноним 14/05/25 Срд 18:17:09 #378 №1202666 
>>1202628
Это не тред ботоделов. Какие претензии. Тут и так атмосфера всеобщей ненависти, не стоит делать всё только хуже.
Аноним 14/05/25 Срд 18:19:49 #379 №1202669 
>>1202647
>немотрон
>немотрон
>немотрон
>немотрон
Я скоро в гориллу превращусь и компьютер разъебу с этим постоянным упоминанием немотрона.
Аноним 14/05/25 Срд 18:26:35 #380 №1202681 
>>1202647
один хуй он детали проебывает

>>1202666
блять не гейткипь томаса шелби и госта
скинь
Аноним 14/05/25 Срд 18:31:26 #381 №1202686 
>>1202669
Хорошо иметь 12 ГБ VRAM.
Нет немотрона - нет проблем.
Аноним 14/05/25 Срд 18:51:35 #382 №1202713 
Извиняюсь, что опять вбрасываю эту тему. Это не попытка реквестировать, не нужно васянить. Раз нет готового, значит нет.
>>1200999
Я вчитался и попробовал, это же просто кастрированная версия ассистента. Для такого не то, что промпт не нужен, но и персонаж.
>>1200995
>>1201044
>Я не знаю чего я хочу, решите за меня.
>мы не Ванги, примерно почувствовать не можем
Ну что чувствовать... Фильм смотрели или хотя бы про Яндекс Алису слышали? В ЛЛМ РПшили? Что такое ТТС в курсе? Значит обо всём в курсе. Без промпта ллм начинает срать всякими вводными словами вроде "(задумчиво)", "обернувшись", писать в некорректном контексте, что ломает восприятие аудио-собеседника, который как бы рядом с тобой, но не имеет тела. И куча-куча-куча-куча других нюансов, которые вручную нужно отлавливать и прописывать. Поэтому я и пишу "хули блядь не понятного", потому что такая простая вещь не требует объяснений человеку, но вот, чтобы составить систем промпт, чтобы ЛЛМ не косячила, нужно подзаебаться.
ушел васянить такой промпт в клода
Аноним 14/05/25 Срд 18:56:15 #383 №1202724 
>>1202713
Ты заебал, я тебе уже сказал - пиши карточку от первого лица. Так же смотри что бы системный промпт или что там еще перед карточкой есть тоже либо был от первого лица либо отсутствовал.
Аноним 14/05/25 Срд 19:24:08 #384 №1202787 
>>1202713
Я все так же не понял что тебе нужно.
Алиса ? Купи Яндекс колонку тогда.
Потому то если тебе нужен ассистент такого порядка, это не карточка. Это ллм отдельная.
Аноним 14/05/25 Срд 19:31:13 #385 №1202799 
>>1202669
А что не так с немотроном?
Аноним 14/05/25 Срд 19:33:25 #386 №1202805 
Аноны, сорян если задам избитый вопрос, но:
Что делать если любые модели с "mistrel" в названии не выдают ничего в ответ? Буквально нагружают печку, но в ответ только пук в виде " ".
Локально, oobabooga бэкенд, SillyTavern фронтенд.
Аноним 14/05/25 Срд 19:39:14 #387 №1202824 
>>1202805
1. поставь себе жору отдельно, угабуга - кал
2. запрещенные слова ставил?
Аноним 14/05/25 Срд 19:43:07 #388 №1202831 
>>1202787
Бля... иди нахуй)
Аноним 14/05/25 Срд 19:44:52 #389 №1202835 
>>1202824
>1. поставь себе жору отдельно, угабуга - кал
Вроде как да, чё-то скачивал отдельно.
Я в угабуге запускаю модели с использованием llama.cpp, а потом API в таверну отдаю.
>2. запрещенные слова ставил?
Ээ... не знаю? Я хочу использовать модель для nsfw ролеплея. В этом проблема?
Аноним 14/05/25 Срд 19:47:10 #390 №1202839 
>>1202835
Ебать ты кобольд.

Возми этого самого кобольда и проверь в его же фронте.
Потом можно дальше разбираться.

• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
Аноним 14/05/25 Срд 19:49:30 #391 №1202843 
>>1202831
Охуенно. Пришел в тред, что то реквестирует и нахуй посылает.
Аноним 14/05/25 Срд 20:07:58 #392 №1202865 
изображение.png
>>1200733 (OP)
Двач, пришла наконец из китая 48 / 4090
В корпус не влазит, но всунул пока так.

Сразу побежал запускать немотрон 49b в 6 кванте.

И первое что поразило - почти нет галюнов.
Спрашиваю модельку знает ли она такого-то (нейм) чувака.
Раньше квен, гемма, ллама начали рассказывать типа "да, это футболист, ага, это известный спортсмен, да, это актер".
А НЕМОТРОН ЧЕСТНО ГОВОРИТ "Я НЕ ЗНАЮ, ДАЙТЕ БОЛЬШЕ СВЕДЕНИЙ" О_о

Ну и вообще в целом если не знает какой-то факт честно об этом заявляет.
Меня прямо это сбило с ног по началу, потому что я привык к галюнам.

Ну и рядом лежит старая 24 (4090) если подцеплю, будет 48+24 = 72
Но я думаю еще одну 48 заказывать, похоже размер имеет значение.

а, да, немотрон49б в 6 кванте выдает ~30 токенов в сек.
Аноним 14/05/25 Срд 20:08:28 #393 №1202866 
>>1202839
Он охуенный еще тем, что сразу искаробки модель может писать на ходу, не надо ждать, пока она допишет всю тупомозглую хуйню и можно сразу прервать. В таверне наверно тоже можно так сделать, но я не видел.
Аноним 14/05/25 Срд 20:10:35 #394 №1202869 
>>1202865
Она не влезла даже в Лианли? Пиздец.
Поздравляю с покупкой, че. Пусть служит долго и не горит.
Аноним 14/05/25 Срд 20:12:11 #395 №1202871 
>>1202866
На самом деле можно, также на такой же квадратик там жмёшь и оно стопается. Рпшил в Kobold Lite пока не понадобились лорбуки к карточкам, а так бы и дальше в нём сидел.

Хотя llama-cpp ещё прощё в запуске, но там не с бодуна, а маны немного покурить надо хотя бы что именно качать и какие параметры запуска пихать.
Аноним 14/05/25 Срд 20:12:59 #396 №1202873 
Держу в курсе: сайга демонстрирует полный посос в креативном письме, ну типа в стори мод, по сравнению с Instrumentality-RP-12B-RU-2, потому что инструменталити лучше следует промпту и кажется более адекватна.
Аноним 14/05/25 Срд 20:15:47 #397 №1202874 
>>1202873
>Instrumentality-RP-12B-RU
остались ещё ценители =)

Ну, сайгу вроде на чатах тренили, а там в неё подмешаны сторителлер модели, вот она и лучще в сториках стала.
Аноним 14/05/25 Срд 20:16:06 #398 №1202875 
>>1202871
Стопается-то стопается. Но кобольд cpp пишет сразу, видно, что именно пишет. Если, например, начинает с ослов "Атмосфера накалялась", то можно сразу, хуяк, отмена, все хуйня, давай по-новой.

В свежем cpp можно json в world info импортировать, типа отдельные ветки.
Аноним 14/05/25 Срд 20:16:12 #399 №1202876 
pokemonslowpoke2x.png
>>1202873
>сайга демонстрирует полный посос
Аноним 14/05/25 Срд 20:17:26 #400 №1202877 
>>1202865
>Двач, пришла наконец из китая 48 / 4090
Уже с водянкой. Во сколько обошлась?
Аноним 14/05/25 Срд 20:18:42 #401 №1202880 
>>1202869
>Она не влезла даже в Лианли? Пиздец.
У него просто лишняя мудянка на проце. Без неё бы влезла.
Аноним 14/05/25 Срд 20:20:56 #402 №1202881 
>>1202880
Вертикальный грип видеокарты и даром не нужен. Это некрасиво и непродуктивно.
Аноним 14/05/25 Срд 20:23:33 #403 №1202883 
>>1202874
Инструментали мне ваще нравки, он кажется просто умней. Всегда пригодится.

Кстати, на странице Aleteian, удалена страница с инструменталити 3

https://huggingface.co/mradermacher/Instrumentality-3-GGUF - но она есть у мрадермашера. В архив орг можно увидеть, что там было на стратице, туда вроде еще одна сайга была намешана, хотя в одной других подмешаных моделей тоже была смесь сайги с чем-то. Чому удалена страница, не знаю, может типа неудачный эксперимент.
Аноним 14/05/25 Срд 20:25:24 #404 №1202884 
>>1202525
>8б моделек завались же
И как на них кумить?
Аноним 14/05/25 Срд 20:26:13 #405 №1202885 
>>1202881
>Вертикальный грип
Грипп это вирус такой.
Аноним 14/05/25 Срд 20:37:52 #406 №1202889 
>>1202865
>немотрон 49b
так он весит всего 40 гигабайт...
Ну так... тебе нужно было две сразу покупать. А лучше три.
А так у тебя получается мощный сетап, но мало врама.
Ну будешь ты генерировать на 30 т/с вместо 20 т/с. Один хуй читаешь ты медленнее.
Ты все ещё врамцел, лол.
Так что давай, возвращайся когда врама нормально наберешь.
Аноним 14/05/25 Срд 20:38:16 #407 №1202891 
>>1202875
>ослов

В таверне стриминг включить галочкой надо, тогда тоже будешь видеть ослов.

В смысле как-что пишет.
Аноним 14/05/25 Срд 20:38:41 #408 №1202892 
>>1202869
Спасибо.
Сама влезла, водянку некуда пихать, придётся самоделкой на стенку.
>и не горит.
Первые 5 минут инференса забыл подключить вентиляторы, только помпу.

>>1202877
>Во сколько обошлась?
чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше.

может кому интересно про контекст:
Квен 14b 1m в 8Q - влазит 100 к.
Гемма 3 12b в 8Q - влазит 70 к
Мистраль полный влазит 32 к.

то есть всю эту ветку ( контрл+А, контрл + С) с мусором дат квен хавает и выписывает имя модели и цитаты характеристик модели, которые вы пишите в контексте обсуждения.

раньше чтобы успевать следить за вами, приходилось весь текст борды делить на части, и то контекст терялся.
Аноним 14/05/25 Срд 20:41:51 #409 №1202894 
>>1202884
>кумить
Вообще на ламе-аналигнед вполне можно было кумить, и при этом она пишет прям быстро, 8б чо, абсолютно без тормозов, и даже не тупая. Но нужно быть готовым свайпать если пойдёт не в ту степь.
Аноним 14/05/25 Срд 20:44:14 #410 №1202896 
>>1202892
>имя модели и цитаты характеристик модели
А накидай сюда, может наконец список моделей обновят с него.
Аноним 14/05/25 Срд 20:45:56 #411 №1202898 
>>1202892
>Квен 14b 1m в 8Q - влазит 100 к.
Что по скоростям в конце контекста?
Аноним 14/05/25 Срд 20:47:22 #412 №1202900 
image
>>1202839
Поставил кобольда, загрузил ту модель с "ministrel" и чё-то да. Всё также попа.
Странно, ведь другие модели-то работают.
Аноним 14/05/25 Срд 20:48:05 #413 №1202903 
photo2025-04-2915-03-59.jpg
>>1202889
А когда наберу, какие модельки посоветуешь?
Аноним 14/05/25 Срд 20:49:24 #414 №1202905 
image.png
image.png
Pathfinder-RP-12B-RU на первом скрине против Apparatus_24B на втором. Обе модели позиционируются как русскоязычные. Вторую вряд ли здесь кто-то знает, но есть язывичок, который тюнит под русик этот мистраль.

Я даже удивлён. Аппаратус 24 почти не слушается инструкций по сравнению с наглухо ебанутым и шизанутым патфайндером.

Суть в том, что он почти не анализирует карточку, персонаж на всё соглашается и зависимость от мета особо не выражается. На 12б фифи в большинстве случаев, как и надо, сначала требует мет/ей херово без него и всё крутится вокруг её зависимости от мета, а потом уже от возможного секса. 24б легко проскакивает в секс и иногда даже себя ведёт романтично без причин.

Лол, МоЕ-квен и то лучше понимал персонажа.
Аноним 14/05/25 Срд 20:57:02 #415 №1202918 
Для замены гуглинга/ресерча, какие ЛЛМки сейчас модноракать?
Или так, если бы надо было выбрать 1 или максимум 2 ЛЛМ, какую(ие) оставили бы?
Аноним 14/05/25 Срд 20:57:05 #416 №1202920 
>>1202900
поломанный квант или ебанутые настройки, скорее всего квант
Аноним 14/05/25 Срд 20:58:11 #417 №1202924 
>>1202900
>ministrel
Mistral?

Если нет, то скорее всего это просто поломанный шизотюн.
Аноним 14/05/25 Срд 21:02:24 #418 №1202929 
>>1202918
>Для замены гуглинга/ресерча
никакие, локалки не вывезут и будут с умным видом задвигать любую дичь считая что это ролеплэйный сеттинг

>>1202918
>1 или максимум 2
gemma3-27b-abliterated-dpo
LLAMA-3_8B_Unaligned
Аноним 14/05/25 Срд 21:02:52 #419 №1202930 
>>1202892
>чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить? Я посмотрел на свои прошлые два года, понял что это было охуенно. Готов играть дальше.
Кто бы спорил, но не я. Правда для себя я бы 5090 взял (может ещё и возьму, один хуй у меня риг). Но вот сейчас большие модели начинают играть, для них никаких карт не хватит.
Аноним 14/05/25 Срд 21:04:13 #420 №1202933 
>>1202918
> Для замены гуглинга/ресерча, какие ЛЛМки сейчас модноракать?
Никакие. Даже корпосетки галлюцинируют, выдавая рандом за факты. У них нет ограничителей и понимания, что им известно, а что нет. Они просто выдают текст.

> Или так, если бы надо было выбрать 1 или максимум 2 ЛЛМ, какую(ие) оставили бы?
c4ai-command-r-08-2024
Apriel-Nemotron-15b-Thinker
Аноним 14/05/25 Срд 21:11:35 #421 №1202946 
>>1202903
очевидный дипсик и Qwen 235б
или тебе чтобы кумить? Тогда не могу посоветовать, я не особо шарю...
магнум 123б может быть?
Аноним 14/05/25 Срд 21:12:09 #422 №1202950 
>>1202865
сколько потратил то на карту, рассказывай?
На лохито продают всё еще по 330к.
Аноним 14/05/25 Срд 21:16:17 #423 №1202957 
>>1202905
ты походу шаришь. посоветуй модели для ру-кума, какие щас актуальны?
Аноним 14/05/25 Срд 21:31:51 #424 №1202971 
>>1202924
Да, напутал два похожих слова. Ни одна модель Mistral у меня не сработала нормально.
Аноним 14/05/25 Срд 21:33:26 #425 №1202973 
video2025-05-1421-31-20.mp4
>>1198267 →
повезло в общем, это кулер был виноват.
Ща пересажу донора со сгоревшей и будет норм.
Аноним 14/05/25 Срд 21:43:32 #426 №1202986 
>>1202957
То, что актуально, не запустить особо локально без больших вливаний денег.

По сути, патфайндер самый сочный, но лупится. Однако на сессию кума должно хватить, если ты не собираешься контекст выше 10к набирать.

Там сверху список моделей от меня есть, в том числе и русских, которые я использовал. Найди по названию модели. Мне с телефона неудобно.

Ты также можешь использовать Гугл гемму с аблитерацией, но она сухо пишет кум. Как вариант, можно рассмотреть аблитерацию мистраля 24б или даже оригинальную модель, хоть там и порог цензуры некоторый есть.

Смысл оригинальной модели в том, что она лучше слушается инструкций, в ней лучше русский и она менее тупая в целом.
Аноним 14/05/25 Срд 21:54:11 #427 №1203014 
>>1202865
>48 / 4090
ты хотел сказать 4080d 48?
Аноним 14/05/25 Срд 21:56:30 #428 №1203023 
>>1203014
А нет я упрлся, сорян.
Аноним 14/05/25 Срд 22:08:06 #429 №1203059 
>>1202929
>>1202933
Блять, я думал это тред обсуждения всех ЛЛМок, не только локальных, в глаза ебусь. А просто треда по срачу на тему какя ЛЛМ лучше нет, пиздец. Буду значит и дальше туда-сюда прыгать между чатгпт, гроком дипсисей
Аноним 14/05/25 Срд 22:08:09 #430 №1203062 
>>1202329
Узкоспециализированный тюн 7б в 8битах работал отлично, в 6битах H8 тоже хорошо, а в 6+6 было побольше ошибок. По высказыванием - раньше видел обратное что наоборот не стоит жадничать на них. В 4 битах еще ок, но когда выше то можно и 8.
> Профита мало за то количество врама, что оно ест.
А сколько оно ест?
>>1202430
Fp16 > q8 > q4 > говно/моча > fp8
В ллм скорость упирается не в скорость расчетом, где фп8 бы могло помочь, а в псп врам, потому ускорения не будет здесь.
>>1202462
> Когда ты квантируешь модель - ты эти коэфициенты ужимаешь в 8 битное число
Вводишь в заблуждение, ты описываешь просто дроп точности а не квантование.
> как в математике можно считать pi как 3,141592653589793, а можно как 3,1415927
В случае фп8 или жесткого квантования там вместо пи может быть 2.8, для понимания уровня.
Аноним 14/05/25 Срд 22:18:26 #431 №1203090 
>>1202865
Блин, тут просто гпу с водянкой брать несколько опасаешься, а тут сразу два в одном. Как там по температурам и шуму она? В теории должно быть ахуенно и так легко будет воткнуть вторую рядом.
> думаю еще одну 48 заказывать
>>1202892
> чуть меньше 400. Но для меня это супер важно. Буквально - зачем еще жить?
Скажи что не только в ллм играешься
Аноним 14/05/25 Срд 22:21:01 #432 №1203101 
Немотрон это какой-то форс по типу фингербокса? Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол? Он подхватывет промт, лорбук, описание и делает это хорошо, но это блять просто нарратор. Как с ним играть то епта? Настройки анона пробовал.
Аноним 14/05/25 Срд 22:26:43 #433 №1203109 
>>1203101
> Почему ему так похуй на обращение к персонажам, будто юзера не существует вообще лол?
Можешь пример показать?
анон, который прислал настройки
Аноним 14/05/25 Срд 22:30:33 #434 №1203113 
photo2025-05-1422-14-42.jpg
>>1202973
я у мамы молодец
Аноним 14/05/25 Срд 22:45:35 #435 №1203137 
IMG2864.jpeg
>>1202865
Поздравлямба ! От души, анонче желаю тебе стабильного напряжения и холодного камня.

Еееей, еще один ценитель белых корпусов !
Аноним 14/05/25 Срд 22:50:00 #436 №1203144 
Как обойти цензуру в ебучих блядских моделях с опенроутера?
Юзаю всякие gema3 через опенроутер т.к они могут в русский язык, но меня ЗАЕБАЛА эта цензура, че с ней можно сделать?
Аноним 14/05/25 Срд 22:51:02 #437 №1203145 
>>1203144
https://2ch.hk/ai/res/1202405.html
Аноним 14/05/25 Срд 22:55:41 #438 №1203152 
>>1203101
Необычные у тебя проблемы и нетипичное для него поведение. Но учитывая что еще один анон жаловался на неспособность его в разметку, что тоже странно - похоже там есть поломанные кванты/инфиренс.
>>1203144
Если там стандартный апи то точно также как и в локалке.
Аноним 14/05/25 Срд 22:55:50 #439 №1203153 
>>1202883
> Aleteian
Эх, аноны так же быстро сгорели, как угорали по мержам.
Интересно, они еще в треде появляются ?
Аноним 14/05/25 Срд 23:01:35 #440 №1203157 
>>1203152
Как? У меня уже мозг кипит, нихуя не пойму
Аноним 14/05/25 Срд 23:05:07 #441 №1203164 
>>1203157
Слушай, я тебе не зря дал ссылку на здешний филиал ада.
Да, там пиздец. Но они кумят через корпосетки, они точно должны знать как обходить цензуру.
Аноним 14/05/25 Срд 23:05:42 #442 №1203165 
>>1203109
А все нашел пресет анона
https://pastebin.com/6As2gAg9
с прошлого треда

С ним у меня вроде ок все работает
Аноним 14/05/25 Срд 23:09:52 #443 №1203172 
>>1202493
Расширение сумарайза. даже в неактивном состоянии в штаны срет. Говнокодер его автор блядь.
Было такое же.
Аноним 14/05/25 Срд 23:36:28 #444 №1203218 
>>1203144
>>1203164
Да там и обходить нечего. На опенроутере есть магнумы всякие или что-то подобное. Я их почти не тестил, так как кумил на дипсике. Было отлично, кстати. Может в любые извращения.

Достаточно в большинстве случаев просто обычного систем промпта. Такого же, как на локалках.

Но если прям совсем вау хочется и используешь Клода/гопоту, то надо идти в этот филиал ада, да. Для тонкой настройки убер корпоративной параши.
Аноним 14/05/25 Срд 23:37:19 #445 №1203219 
>>1203153
Надо этих умных людей сюда.

Даркнес и инструменталити нормально пишут прозу, как костыль, то есть в любом случае придется самостоятельно создавать историю, но они могут костылить некоторые пробуксовки и заготовки диалогов. Но у них в жопе шило. У инструменталити поменьше, а у сайги обычной и даркнеса побольше, но они говорливей.

Из-за шила в жопе они рвутся закончить всю историю за раз. Только сели персонажи жрать и сразу же пожрали, встали и пошли навстречу новым приключениям, но теперь уже все сытые и довольные, рады, что так хорошо пожрали, вкусную еду, особую, поэтому любые преграды нипочем. И все стали счастливы и осознают единение и радость от былых свершений. Продолжени следует...
Аноним 14/05/25 Срд 23:39:01 #446 №1203224 
image.png
ебать эта evga печь...
420 ватт блять. В 3090.
Аноним 14/05/25 Срд 23:57:04 #447 №1203241 
>>1203224
Хех. На работке устанавливали хопперы, по 700 ватт на брата. Но с запасом там киловат выходил плюс минус.
Вот это реальные печи.

>>1203218
>Но если прям совсем вау хочется и используешь Клода/гопоту,
Когда хотелось потыкать геминьку, я посмотрел её и понял что лучше не тратить время, потому что когда корпосетка вываливает свои яйца, ты смотришь даже на милфу мистраль и грустишь.
Нахер, лучше себя не расстраивать.
Аноним 14/05/25 Срд 23:59:17 #448 №1203243 
>>1203219
>Надо этих умных людей сюда.
Это и были тредовички.
Аноним 15/05/25 Чтв 00:10:37 #449 №1203253 
>>1203241
у меня тоже хопперы на работе.
Ты под каким кабаном хоишь?
Аноним 15/05/25 Чтв 00:12:27 #450 №1203256 
>>1203243
Ну будем надеяться, что они не почили от перекума.

Потому, что надо, чтобы умные люди вылечили модели от того, что делают snort, которое превращается в фыркание на русском языке. Заебал этот даркнес фыркать, как собака.
Аноним 15/05/25 Чтв 00:32:42 #451 №1203280 
как полюбить слоп и примять его таким какой он есть
каждый шиверс, мисчивиос глинт, свеинг хипс..ю
Аноним 15/05/25 Чтв 00:37:06 #452 №1203285 
IMG3699.jpeg
>>1203280
Ты опять выходишь на связь, мудило ?
Аноним 15/05/25 Чтв 01:17:52 #453 №1203298 
>>1202865
Ну, просто поздравляю! =)
Главное, что тебе по кайфу. И, соглашусь, для LLM — лучшее решение.

Хотя тут B580 на 48 гигов, по слухам… =D Если цена норм, то будет пушка. Если будет, лол.
Аноним 15/05/25 Чтв 01:31:44 #454 №1203303 
>>1202313
Как то пролюбил твой пост.
Спасибо большое. ~Nya~
Аноним 15/05/25 Чтв 01:41:31 #455 №1203305 
Ээ почему квантование кеша пиздит токены?
Если у тебя 30 то похуй но если 15 то это пиздец 5 токенов просто спиздили
Аноним 15/05/25 Чтв 01:47:36 #456 №1203308 
>>1203285
А что ты делаешь со слопом?...
Аноним 15/05/25 Чтв 02:07:48 #457 №1203319 
image.png
Аноним 15/05/25 Чтв 02:15:16 #458 №1203324 
На форче ни слова про ехл3 и немотрончик зачем я вообще там сижу
Всё какие то росинанте и немо 12б советуют лол
Аноним 15/05/25 Чтв 04:55:31 #459 №1203377 
Ладно сноудроп реально хорош, пока второй после немотрончика.
Даже с квантованным кешем без проблем помнит что было 80 сообщений назад, коммандер и гемма с этим не справились.
Но общая логика и ощущение глубины сцены хромает, штаны сами снимаются, из комнаты в комнату телепортируются а не ведут за руку поднимаясь по лестнице и тд.
Аноним 15/05/25 Чтв 09:01:53 #460 №1203408 
>>1203377
> коммандер и гемма с этим не справились
Звучит как пиздеж, особенно про гемму, у которой поехавший кэш.

> штаны сами снимаются, из комнаты в комнату телепортируются а не ведут за руку поднимаясь по лестнице и тд.
Какой квант?
Аноним 15/05/25 Чтв 10:20:28 #461 №1203475 
Слушайте, а qwen3 30b с 10 экспертами реально немного умнее.
Кто то игрался еще с разным количеством экспертов?
Аноним 15/05/25 Чтв 10:22:58 #462 №1203476 
принес прекрасную новость для геммалюбов:
в ближайшем релизе жоры цпп оптимизируют квантование кэша через iswa
60к+ FP16 контекста на Гемме 27б q4 влезают в 24 гб врама
Аноним 15/05/25 Чтв 10:31:00 #463 №1203487 
17472931555560.png
ну и кто из вас дегенератов трахнул оленя?
Аноним 15/05/25 Чтв 10:31:18 #464 №1203490 
>>1203475
Я. Да, умнее. Но скорость падает, братишка, поэтому даже не знаю, есть ли в этом смысл.

Как по мне, если уж у тебя есть память, лучше использовать сразу плотную модель. Она намного лучше.

МоЕ тем и хороша, что это некий компромисс между врам и умом.
Аноним 15/05/25 Чтв 10:41:59 #465 №1203499 
>>1203487
кек
Аноним 15/05/25 Чтв 10:44:06 #466 №1203501 
>>1203490
Ну на 10 падает не значительно, мне было интересно до какого числа будут расти мозги и на каком количестве это уже не будет давать прироста
Я думаю, там ведь есть сетка распределитель и тренировали ее с одним количеством активных экспертов, в какой то момент добавление экспертов должно уронить качество ответов
Аноним 15/05/25 Чтв 10:44:08 #467 №1203502 
17471246453883.jpg
так падажжи, это что, НОГА РЕНАМОН?
Аноним 15/05/25 Чтв 10:44:20 #468 №1203503 
>>1203476
Какие 60к, у меня выше 24к вместо 25т/сек - 12.
Большие контексты тянут только несколько карт из за мощности
Аноним 15/05/25 Чтв 10:47:00 #469 №1203506 
>>1202865
>Сразу побежал запускать немотрон 49b в 6 кванте
И что скажешь?
Ты влюблён?
Аноним 15/05/25 Чтв 10:55:50 #470 №1203516 
>>1203476

Если правда - то отличная новость, с радостью перекачусь обратно на гемму, вес контекста её единственный реальный минус. А где ты это вычитал?
Аноним 15/05/25 Чтв 11:16:22 #471 №1203534 
Пресет на командер уже кидали?
Всё хочу дать ему шанс но сноудроп всем устраивает
Аноним 15/05/25 Чтв 11:18:58 #472 №1203537 
>>1203516
>вес контекста её единственный реальный минус
Ты уточняй что тебе не для рп/ерп надо, а то аноны могут не так понять и скачать этот соевый непробиваемый кал.
Аноним 15/05/25 Чтв 11:53:48 #473 №1203573 
>>1203534
>Пресет на командер уже кидали?
Если ты про семплеры, то юзай дефолтные с таверны. Я, честно, не помню какой у меня стоит, по моему креатив.
Команндер вообще не прихотлив, и даже с хуитой он будет писать как вменяемая модель, а не выдовать шизосимволы. Покрути его за сосочки, ему понравится. А потом крути@верти.
Единственное - не задирай температуру.
Аноним 15/05/25 Чтв 12:00:31 #474 №1203578 
>>1203377
У меня уже глаз дергается от того, что ебучий немотрон сравнивают со всем подряд.
То с комманд-r, то с геммой. Сравни его с command-a, не останавливайся на достигнутом, нужно идти на повышение.
Аноним 15/05/25 Чтв 12:03:12 #475 №1203581 
>>1203578
>Сравни его с command-a
Но он не влезет в видеокарту, а немотрончик влезет!
Аноним 15/05/25 Чтв 12:08:02 #476 №1203583 
>>1203581
>Но он не влезет в видеокарту, а немотрончик влезет!
Как тут один шиз со своей 3090 пишет, дай вспомнить... А точно

Ну чё ты как врамцел, переходи на нормальные модели, а не огрызки.
Аноним 15/05/25 Чтв 12:18:53 #477 №1203592 
>>1203502
ну да. Узнал меня?
Тот проект не двигается потому что я с нейронками ковыряюсь.
Сам понимаешь - времени на два хобби по вечерам у меня просто нет.
Но я не забросил его.
Аноним 15/05/25 Чтв 12:23:45 #478 №1203599 
Бля, опять квен перекачивать. Скрипт написать что ли
Аноним 15/05/25 Чтв 12:33:42 #479 №1203607 
>>1203475
>Кто то игрался еще с разным количеством экспертов?
Я, на Ллама-4 Скаут. И я вот думаю, что поскольку там по умолчанию 1(один) активный эксперт, то проёб там именно в этой сетке выбора экспертов. Они её тренировали на то, чтобы выбирать одного самого подходящего эксперта - ну и что, что всего 17В, подходит же! Что там у неё с большим числом активных экспертов хз, но результат не лучше.

Более того, у их Маверика тоже всего один активный эксперт. То есть это система, их фишечка.
Аноним 15/05/25 Чтв 12:48:09 #480 №1203619 
>>1203592
понятно, зачем делать ренамон ирл, если можно нагенерить хорни картинок в стейболдифужоне
Аноним 15/05/25 Чтв 12:49:21 #481 №1203620 
>>1203607
напиши про это поподробнее, пожалуйста, я как раз докачал Llama-4-Scout-17B-16E-Instruct-UD-Q4_K_XL
Аноним 15/05/25 Чтв 12:50:27 #482 №1203622 
>>1203619
Я конечно мимо.
Но это называется хобби.
Аноним 15/05/25 Чтв 13:08:40 #483 №1203644 
>>1203607
Как то у них через жопу сделано раз только 1 эксперт
Аноним 15/05/25 Чтв 13:12:00 #484 №1203648 
>>1203620
>напиши про это поподробнее, пожалуйста, я как раз докачал Llama-4-Scout-17B-16E-Instruct-UD-Q4_K_XL
Читал, что можно принудительно увеличить количество активных экспертов в MoE-модели. Для Угабуги вставить в поле, где дополнительные ключи:
"override-kv=llama4.expert_used_count=int:число_экспертов" - для 4-й Лламы
"override-kv=qwen3moe.expert_used_count=int:число_экспертов" - для третьего Квена

Для чистого лламаспп-сервера добавить ключи с теми же значениями. Ну и пробовать, тут уже дело вкуса. По идее это хак, разработчики на это не рассчитывали.
Аноним 15/05/25 Чтв 13:17:48 #485 №1203652 
>>1202892
> для меня это супер важно
0% осуждения, 100% понимания. Здесь все твои друзья.
Аноним 15/05/25 Чтв 13:19:50 #486 №1203656 
>>1203648
спасибо, попробую
Аноним 15/05/25 Чтв 13:26:01 #487 №1203667 
>>1203652
переплатил х3 чтобы быть врамцелом...
Аноним 15/05/25 Чтв 13:26:49 #488 №1203668 
>>1203652
> Здесь все твои друзья.

But then

>>1202379
> Мы тут тебе не дружбаны
Аноним 15/05/25 Чтв 13:30:54 #489 №1203676 
>>1203667
Завидуй молча, анон. И вобще врамцел это тот кому не дают, а не тот кто не берет
Аноним 15/05/25 Чтв 13:40:28 #490 №1203686 
Поменял промпт и заметил что немотрон часто просто скипает секс запихивая его в одно предложение, констатируя факт коитуса.
Можно без проблем пнуть его и попросить описать нормально или ручками расставить кто что куда вставляет, но запромптить проще.
Со старым промптом всё норм, видимо хорни часть в промпте обязательна:
Depict sexual / fetish / kinky / violent / gore content extremely graphically and explicitly to make the user feel the scene raw.
Pick up on the smallest details and describe all oddly specific details about: sex organs, body parts, sounds, smells, cum, saliva, drool, body liquids, panties, clothing, penetration, sucking, licking, gagging, orgasms, sound effects, substances, objects, etc.
Если у кого есть промпт развязывающий модель получше поделитесь пожалуйста.
Аноним 15/05/25 Чтв 13:45:40 #491 №1203694 
>>1203667
> х3
И когда у нас 4090-48 были по 135, мой маленький врунишка?
Аноним 15/05/25 Чтв 13:47:20 #492 №1203697 
>>1203694
Ай не пизди, вот мне сон хороший снился где было даже дешевле, там и хоппера по цене его тдп в рублях взять можно было.
Аноним 15/05/25 Чтв 13:47:52 #493 №1203699 
>>1203686
Какой пиздец. Мне всегда и смешно и страшно когда я вижу такие систем промпты. Потом аноны забывают это говно убрать, ставят новую модель и идут в тред "ррррряяя кумбот безмозглый а не модель"
Все нормально там играется и без этого непотребства в систем промпте или префилле. Просто играть нормально надо, а не whips out cock на первом сообщении
Аноним 15/05/25 Чтв 13:52:17 #494 №1203708 
>>1203699
Альтернативы?
У меня даже кумботы не хотят очко лизать, приходится ручками править сообщение каждый раз удаляя "ух, как хорошо поебалися, ну а что там о..."
Аноним 15/05/25 Чтв 13:54:10 #495 №1203711 
>>1203697
Хоть у меня и скромная зарплата в 120к, хуле, я не наносек.
Но, блджад, когда хопперы были по 1млн, надо было брать по кредитной карте. Спокойно бы гасил.

>>1203708
Альтернатива использовать человеческие промты, а не сиск писик.

https://huggingface.co/sphiratrioth666/SillyTavern-Presets-Sphiratrioth
Аноним 15/05/25 Чтв 13:58:47 #496 №1203723 
>>1202892
>чуть меньше 400
ты ёбаный сумасшедший, ты понимаешь это? Хули тут так мнго? Разве из китая напрямую не дешевле? Даже на лохито эти карты по 330 продают.
>>1203667
двачую. Вообще охуеть.
Хорошо мамонта прогрели, ничего не скажешь, хоть охлад на него лепи.

владелец сборки в ОП-посте, 144 гб врама, на все ушло примерно 330к, учитывая одну сгоревшую 3090
Аноним 15/05/25 Чтв 14:00:16 #497 №1203730 
>>1203723
водянка +$400
Аноним 15/05/25 Чтв 14:00:47 #498 №1203732 
>>1203723
330 меньше 400.
Не делай поспешных выводов.
А вообще : не охуевай, анон захотел, анон взял. Это его дело, просто порадуемся за него.
Хоть и немного завидую, чего уж там.
Аноним 15/05/25 Чтв 14:02:07 #499 №1203736 
>>1203723
>144 гб врама
Что там по скорости, шуму, потреблению и занимаемому месту?
Аноним 15/05/25 Чтв 14:09:16 #500 №1203750 
>>1203711
Зойчем тебе хоппер ? Я серьезно.
Он жрет больше 700 ватт, он огромный, он практически бесполезный для дома. Это серверное решение, которое не нужно дома. Дешевле себе дома собрать риг, хотя бы потому что если что-то из рига сгорит - ты будешь страдать, но не сильно. А если сгорит эта печь - ты вскроешься.
Да, он классный, большой. Но ты же не покупаешь белаз чтобы кататься по городу.
Аноним 15/05/25 Чтв 14:12:52 #501 №1203757 
>>1203711
Вообще поддерживаю по поводу переплаты, от местных кабанчиков за 370 относительно норм "фирма" и с гарантией веселее чем 450, везя с Китая без наценок и гарантий можно было и менее 300 взять. Тут только что водянка и должно быть тихо, но это имеет также и свои минусы.
> когда хопперы были по 1млн
За 1 не видел, видел за 1.5, но надо было брать, да. Оче приятная карточка. В ближайшей перспективе можно будет взять только "хопер дома" на блеквелле, по перфомансу офк он нормально так слабее.
>>1203723
> 144 гб врама
72 + 72 с дичайшими компромиссами, даже юзабельным трудно назвать. А тут вполне функциональная гпу, которая будет работать без вопросов везде.
>>1203750
То что можно делать на хоппере без шансов пустить на риге, то что можно делать на риге на хоппере будет крутиться шустрее. Офк брать его для инфиренса ллм - маразм в вышей степени, но не им единым.
Аноним 15/05/25 Чтв 14:15:23 #502 №1203762 
С практической точки зрения китайцам вместо 4090 на 48гб надо бы делать 4090 с 256гб lpddr5x, для инференса больших моделей. Додумается кто-нибудь?
Аноним 15/05/25 Чтв 14:18:03 #503 №1203770 
>>1203711
Ты скинул буквально чуть модифицированный промпт который по дефолту в таверне есть, с ним худшие аутпуты из всех.
Аноним 15/05/25 Чтв 14:20:05 #504 №1203773 
>>1203762
Тебя нужно в депутаты, выпустил бы закон о запрете болезней и бедности, сразу станем здоровыми и богатыми.
Аноним 15/05/25 Чтв 14:23:08 #505 №1203780 
wa.png
>>1203770
>чуть модифицированный промпт который по дефолту в таверне есть
Какой из ?
>с ним худшие аутпуты из всех.
Если ты приведешь доказательства, я признаю свою неправоту и принесу извинения анону за хуиту.
А пока выглядит так, что ты ссылку даже не открывал.
Аноним 15/05/25 Чтв 14:26:14 #506 №1203786 
изображение.png
>>1203762
Охуенно, чё.
Аноним 15/05/25 Чтв 14:27:10 #507 №1203790 
Кто-нибудь в треде пользовался яндексом лайт 8б? Семплеры не подскажете?
Аноним 15/05/25 Чтв 14:28:00 #508 №1203793 
>>1203786
По указу компартии китая, память переходит со стандартной двоичной системы, на коммунизм. А для коммунизма нет ничего невозможного.
ПЕРЕКАТ Аноним OP 15/05/25 Чтв 14:28:20 #509 №1203795 
ПЕРЕКАТ

>>1203792 (OP)

ПЕРЕКАТ

>>1203792 (OP)

ПЕРЕКАТ

>>1203792 (OP)
Аноним 15/05/25 Чтв 18:24:10 #510 №1204253 
>>1201469
Гемма 12, на которую я перелез особо не отличается от мистраля, есть какие-то положительные стороны, но бывает залупается.
>>1202045
Быстро это насколько? 5 т\с или ниже? У меня сейчас 8 т\с
comments powered by Disqus