К сожалению, значительная часть сохранённых до 2024 г. изображений и видео была потеряна (подробности случившегося). Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №203 /llama/

 Аноним 07/03/26 Суб 15:49:22 #1 №1544796 
Llama 1.png
Эффективность квантования EXL3.png
Цензура моделей 1.png
17695114240520.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1541627 (OP)
>>1538359 (OP)
Аноним 07/03/26 Суб 15:51:06 #2 №1544799 
image.png
>>1544783 →
>DavidAU
Аноним 07/03/26 Суб 15:57:53 #3 №1544804 
ну что поделать он вернулся, потому без базы треда
напишу разве что дежурное жизнь есть от 3bpw
все модели умницы, если вы не согласны то у вас скилишью и рак жопы
Аноним 07/03/26 Суб 16:01:48 #4 №1544809 
>>1544803 →
На первом охуенчик, проорал и схоронил. ушёл в третий коридор
Аноним 07/03/26 Суб 16:15:41 #5 №1544822 
>>1544709 →
>Почему не еретик?
normpreserve это не "для нормисов", это тоже анцензор, причём хороший, настолько что даже не заметна разница в мозгах там где именно "нормисовский" контент, но при этом в куме и чернухе тоже в отказ не идёт и всё по красоте пишет.
Аноним 07/03/26 Суб 16:20:14 #6 №1544824 
>>1544822
Заставить анценз модель сказать слово хуй это не чернуха, чел. Впрочем, я никогда никого ни в чём не убеждал и не навязывал. Гоняй то, что тебе нравится, я не против. Я от геммы тоже добивался вполне хороших результатов, вполне хорошая модель. Но мне не нравится, как она пишет тексты.
Аноним 07/03/26 Суб 16:23:52 #7 №1544825 
>>1544796 (OP)
Перекатчик случайные картинки с тырнетов берет, или он так вычистил свою клаву перед заливом?
Аноним 07/03/26 Суб 16:27:24 #8 №1544827 
>>1544799
поясните пжлст что не так с давидом?
>мимоанслотник-мрадермахерист
Аноним 07/03/26 Суб 16:27:48 #9 №1544828 
>>1544803 →
>Ну ... кому-то может даже зайдет такое :)
Лол, от такого можно урон по рассудку получить, лавкрафтиана отдыхает.
Аноним 07/03/26 Суб 16:30:32 #10 №1544832 
>>1544824
Дак будет ссылка на твой любимый квен, или зажопишь как пресетик?
Аноним 07/03/26 Суб 16:33:51 #11 №1544836 
>>1544827
>что не так с давидом
Ну, все его модели сломанные шизохрени, но, что, сука, характерно, они иногда получаются правильно и интересно сломанные, и гонят связную дичь от которой волосы на жопе встают дыбом. Ну, анценз и кум в комплекте. Одно из его старых творений - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 у меня до сих пор лежит.
Аноним 07/03/26 Суб 16:59:13 #12 №1544854 
Какая хорошая модель для русского кобольда ?
Вот эта хорошая https://huggingface.co/zai-org/GLM-5 ?
Аноним 07/03/26 Суб 17:08:09 #13 №1544859 
>>1544854
Зависит от того какая у кобольда пекарня в пещере.
Аноним 07/03/26 Суб 17:14:22 #14 №1544864 
>>1544859
Ну памяти достаточно я пару игр удалил сейчас вот качаю https://huggingface.co/zai-org/GLM-5
Она нормальная для русского кобольда ?
Я просто только вчера установил, по совету из шапки там СайГа Ремикс. Начал с Серафимой общатся, она сказала по русски плохо понимает потому общались на английском. Но он у меня очень приметивный. Потом в какой-то момент она начала говорить только по 57 токенов, я по совету опытного который мне ответил проверил все но не помогло. Вот думаю что больно старая эта СайГа Ремикс уже, может она у всех такая но никто ее кобольду не подключает ?
Аноним 07/03/26 Суб 17:20:27 #15 №1544868 
изображение.png
>>1544825
ОП берёт картинки из треда. А уж что в тред постят, это на совести анонов.
>>1544864
>Но он у меня очень приметивный.
Русский у тебя тоже преметивный.
Аноним 07/03/26 Суб 17:22:43 #16 №1544870 
>>1544864
Ха-ха, то ли жирно троллишь, то ли не очень разбираешься. Этот Глэм ты не запустишь если только нет своего рига на полкомнаты, а если бы был, то такие вопросы не задавал бы.

Лучше возьми Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K для начала.
Аноним 07/03/26 Суб 17:36:36 #17 №1544877 
>>1544697 →
> почти всего треда фи и фуфуфу от минимакса
Тому что хорошая но узконаправленная модель. После всех перепердолингов получаемый результат для рп может не оправдать усилий. А может и оправдать, или просто особенности ляжут на конкретные чаты и субъективность.
>>1544854
Да, вполне годная штука. Хз насчет кума по сравнению с прошлыми, но смешанный рп в нем очень даже шагнул вперед.
Только ты ее врядли запустишь.
Аноним 07/03/26 Суб 17:41:43 #18 №1544881 
>>1544864
Перетолстил.
Аноним 07/03/26 Суб 17:58:09 #19 №1544894 
>>1544698 →
Зачем ты продолжаешь советовать и рекламить степу если сам же пишешь что им невозможно пользоваться без шизоразметки которой ты не делишься?
Чтобы что?
Аноним 07/03/26 Суб 18:03:53 #20 №1544895 
>>1544870
>Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K
но зачем? Министраль и так без тормозов, куда ей ересь? Ей бы прозы какой-нибудь плотненькой, описательной, да на русском языке, про роботов, про тентаклей, про лафкрафта в датасетик.
Аноним 07/03/26 Суб 18:19:33 #21 №1544912 
image.png
>>1544894
Аноним 07/03/26 Суб 18:29:21 #22 №1544919 
>>1544912
>слив
Думайте сами.
Аноним 07/03/26 Суб 18:33:49 #23 №1544923 
>>1544870
>>1544877
Вот я дурак, а думал-то что надо чтобы модель на диске была. А оно вон как. Буду разбираться... Там на ютубе даже русские видосы есть. Пошел смотреть. За рекомендацию Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K спасибо !
Запустилась, вроде бы получше СайГи Ремикс.
Аноним 07/03/26 Суб 18:52:06 #24 №1544945 
>>1544944
Разметка у Лламы поехала. Что же это такое творится то посредь бела дня
Аноним 07/03/26 Суб 19:00:17 #25 №1544949 
>>1544945
Это автопарсер замержили
https://github.com/ggml-org/llama.cpp/pull/18675

страдайте теперь
Аноним 07/03/26 Суб 19:05:37 #26 №1544952 
>>1544949
Страдай с нами. Или это ты Ламу выпустил погулять?
Аноним 07/03/26 Суб 19:05:55 #27 №1544954 
>>1544919
Забей. Там весь диалог максимально странный. Аноны сидят пердят, всякую хуйню обсуждают и тут хуяк: ага, стёпу обсуждаете. Чё блять? Потом какой то театр самоотсоса. Не знаю, выглядит как семенство.
Аноним 07/03/26 Суб 19:10:33 #28 №1544958 
>>1544954
там был срач за степ флеша, его протерли, а дальнейшее обсуждение нет
первый раз?
Аноним 07/03/26 Суб 19:20:20 #29 №1544965 
>>1544954
>какой то театр самоотсоса. Не знаю, выглядит как семенство
Два анона пообщались друг с другом как нормальные двуногие, не плюнув друг другу в рожу и не выебав чью-нибудь мать. На двачах. Трудно поверить, да?
>>1544958
И правда, лол. Видимо за переход на личности потёрли
Аноним 07/03/26 Суб 19:39:55 #30 №1544980 
>>1544952
У меня вроде не проявилось пока. А так если что - можно отмотать на два дня назад, b8210 например
Аноним 07/03/26 Суб 19:53:49 #31 №1544987 
>>1544894
Он буквально скрин этой разметки выложил, ты шо, слепошарый?
Аноним 07/03/26 Суб 20:14:52 #32 №1545001 
>>1544434 →
> Попробую позже.
Если на диске уже есть скачанный на релизе квант - можно смело удалять. Еще на большом иногда случались странные качели по повествованию, проскакивали иероглифы посреди английского текста (с расшифровой в скобках потом, лол), странности в ризонинге. Это все следствие как минимум кривого кванта анслотов, потому что в заведомо нормальных такого и близко нет. По первым ощущениям отличия не столь разительны как на 122, где буквально другая модель, но ни одного из тех косяков нет. Есть шанс что 374 в рп очень даже ебет, а не ситуативен или ум оплачивается ожиданием ризонинга.

Оказывается они вообще для всей линейки включая большого кванты перезалили, возможно уже поправлено.
Аноним 07/03/26 Суб 22:35:47 #33 №1545102 
>>1544825
Это моя фотка - не бубни! Люблю чистоту! Чистота - залог здоровья!
Аноним 07/03/26 Суб 22:57:29 #34 №1545109 
>>1545102
Жопу помыл?
Аноним 08/03/26 Вск 00:26:43 #35 №1545162 
Ононы, как там квен 35б-а3б по сравнению с 27б? Насколько там хуже проза и всё, что важно для РП?
Аноним 08/03/26 Вск 00:56:58 #36 №1545170 
serun.jpg
Жора срет какой-то хуйней в консоли на последней версии (b8233) на глм флэше, другие модели не проверял.
Аноним 08/03/26 Вск 01:03:33 #37 №1545173 
>>1544827
Он ебнутый шиз. В хорошем смысле, наверно. Но он срет странными мержами и файнтюнами в бесконечном количестве. Его работы на 99% это полный пиздец. И 1% - это что-то очень свежее и прикольное. Его описания моделей, если они есть, это полная дичь из разряда ДИП БРЕЙН БУСТ МЕГА 9000. Его история с классами моделей - тоже полный бред. В общем, это какой-то вайлдкард, у которого есть бабки на файнтюны непонятно с хуя. Аутист, который делает это чисто по приколу. Chaotic neutral. Mega chaotic neutral.
Аноним 08/03/26 Вск 04:56:04 #38 №1545263 
Утра всем.
Как и чем правильно открывать подобные модели? https://huggingface.co/zai-org/GLM-4.5-Air/tree/main
Аноним 08/03/26 Вск 06:47:51 #39 №1545293 
image.png
>>1545263

https://2ch-ai.github.io/wiki/llama/#лаунчеры
Аноним 08/03/26 Вск 07:03:50 #40 №1545301 
изображение.png
>>1545102
да я просто удивлен, впервые такую чистую клаву вижу. Просто апплодирую.
Аноним 08/03/26 Вск 07:20:53 #41 №1545304 
Какой же жора говнодел, блядь, квен уже почти месяц как выпустили, а баг с постоянным репроцессингом контекста так и не починен.
Аноним 08/03/26 Вск 07:57:53 #42 №1545320 
>>1545304
Тиво? Всё работает. Правда, на лламе чёт очень медленно по тс и пп, хоть и репроцессинга нет, а вот сейчас в коболдянского завезли какой-то костыль и скорость АГОНЬ. Почему такая разница — не знаю. Попробуй его. Смарт кэш в какой-то вкладке.

В ламме были чекпоинты и ещё какие-то функции, уже не помню, я их юзал сразу после того выкатили эти новые квены и обновы для лламы, но с ними всегда падение скорости было очень существенное.

Впрочем.. какую модель ты пытаешься запустить? Тот же квен 80б вроде бы до сих пор мозги ебёт.
Аноним 08/03/26 Вск 08:34:05 #43 №1545331 
>>1545320
>акую модель ты пытаешься запустить

квен3.5 - 9B для перевода книги. Постоянный репроцессинг контекста в этой задаче это просто пиздец.
Аноним 08/03/26 Вск 09:53:13 #44 №1545351 
Как правильно работать с силли таверна и кобольд. Сейчас я, например ,контекст, его сжатие и подобные мелочи настраиваю через кболдьа, а в таверне промты, картчоки и т.д.
Аноним 08/03/26 Вск 09:59:16 #45 №1545354 
>>1545351
проще управлять всем через таверну, но емнип, максимальную ширину контекста изначально надо выставлять в кобольде, а в таверне выставлять такую же или меньше (в зависимости от целей)
Аноним 08/03/26 Вск 10:47:36 #46 №1545373 
Тут кто-то в прошлом треде принес: https://github.com/tealios/errata

Первое - ему спасибо, забавная штука.

Второе - предупреждаю: если там с локальной моделью "однокнопочно" пытаться все сделать - будет дикое разочарование скорее всего. Я тут ее с Qwen 3.5 27B попробовал. И насколько мне квен зашел в RP с моими настройками таверны, настолько же здесь он порет унылую слопную хрень на дефолтных настройках. Хорошо, я знаю - он может совсем иначе. А то сейчас бы уже, наверно, говном кидался не хуже остальных здешних чемпионов по этому делу. :)

Порылся в настройках, докопался до внутренних промптов... В общем да, они явно под корпов писаны, такое точно надо править под локалки, а тем более под квен. И такая возможность тут есть... но минусом здесь то, что такие настройки привязаны к проекту (в проекте может быть рассказ или серия - с общим миром и данными). С одной стороны - гибкость, а с другой - задолбает, наверное, под каждый проект заново править.

Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ. Мне то повезло - я просто запустил его на своих рабочих детальных промптах и WI от геммы с air, и получил сразу годный вывод. А если запустить на пустом контексте с дефолтом... ух и generic слопогенератор получается.
Только сами промпты не просите - там нет ничего магического. Просто обычный подробный промпт с описанием желаемого поведения DM (здесь переделан под writer) под личные вкусы и лор сеттинга, суммарно на 2-4K токенов (Именно это ключевое - непротиворечивый объем начальных данных). Квен просто хорошо ему следует, вот и вся мистика. Специально проверил на нескольких разных версиях для разных тем.
Аноним 08/03/26 Вск 10:50:51 #47 №1545377 
>>1545293
Я бы не задавал подобных вопросов, если бы не прочитал все это. Там нихуя нет гайда, как это запускать и спользовать.
Аноним 08/03/26 Вск 11:06:36 #48 №1545381 
изображение.png
>>1545377
Вот кому ты пиздишь? Ты даже не пробовал.
Аноним 08/03/26 Вск 11:20:28 #49 №1545386 
>>1545373
>Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ
Новые квены УГ не потому что пишут плохо. Это всё можно распердолить и не так страшно. Говно они вот почему:

1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности.
2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается.
3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный.
4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо? В мистралях он тоже легкий, но ничего не пересчитывается по кд.

По отдельности с этим можно было бы мириться, но всё в совокупности делает модель тем самым УГ. Для себя не увидел в ней какого-то смысла при наличии эйра в Q4 и 235b квена в Q2.
Аноним 08/03/26 Вск 11:36:13 #50 №1545393 
>>1545386
У меня:
1, 3 - не наблюдается. Расцензуренная версия от двучена. Мозги, вроде, вполне на месте, агенты с ней работают, ничего не теряется. Ризонинг в пределах 1K - на серьезных вопросах (см ниже) - терпимо т.к. по делу.
2 - пустыми think не срет, а ризонинг включает только на сложных вопросах, а не когда надо ответить на что-то вроде "привет, как дела?", выглядит вполне по делу.
4 - нету у меня пересчета контекста. Бекэнд - llama собраная неделю назад. Прекрасно все кешируется.
Аноним 08/03/26 Вск 11:41:15 #51 №1545396 
https://github.com/AlexsJones/llmfit?tab=readme-ov-file

Утилита для тех кто не знает какая модель заведется на пека + подбор параметров
Аноним 08/03/26 Вск 11:45:27 #52 №1545398 
>>1545386
Ну енто скилишью, у меня никаких проблем нет кроме того что квен как был сухой слегка пережаренной какашкой так и остался
Аноним 08/03/26 Вск 11:46:01 #53 №1545399 
>>1545393
кстати о агентах, Какую версию лучше впихнуть на 16Гб врам для плотной 27B для котинга?

i1-IQ3_XXS (я качал для кума в основном) или IQ4_XS или еще какой то вариант?
Аноним 08/03/26 Вск 11:52:41 #54 №1545410 
>>1545399
>на 16Гб врам для плотной 27B
Купить еще 16Гб VRAM.
Аноним 08/03/26 Вск 12:02:12 #55 №1545419 
>>1545399
>16Гб
>Q3
>XX
>S
Проиграл чёт.
Аноним 08/03/26 Вск 12:30:14 #56 №1545429 
>>1545399
>i1-IQ3_XXS
Каждая буковка i хуярят по русику, если что
>(я качал для кума в основном)
Не понимаю, почему для кума ты качал микроквант, если можешь скачать больше. У меня 16гб я использую IQ4XS спокойно
Для агентских я бы использовал мое, например их 35a3b. Там даже с большим контекстом будет быстро
Аноним 08/03/26 Вск 12:39:45 #57 №1545434 
>>1545399
У меня iq4xs от двучлена, но кодинг с ней я не пробовал. Агенты/инструменты - работают, для этого ее хватает. Но у меня 20GB VRAM а не 16.
Аноним 08/03/26 Вск 12:52:53 #58 №1545440 
>>1545399
Не, ну серьезно - 5060 TI как была так и осталась в цене по 55к . Жрет при инфиренсе ЛЛМ не больше 150 ватт, может быть запитана даже через переходник от молексов. Греется умеренно. Нет никаких системных проблем поставить ее второй картой и иметь полноценную генерацию плотных до 35B и при наличии оперативы - moe до 110 Б. Это не РИГ собирать за пол ляма - тупо пошел -купил -наслаждаешься. Две карты так же дают простор одновременной генерации текст + картинка.

Квантование ниже Q4K_M реально убивает мозги ЛЛМ даже на размерах в 100Б - проверено на Air. А ты тем более вошел во вкус и хочешь "агентский цикл"
Аноним 08/03/26 Вск 13:01:04 #59 №1545448 
>>1545440
Я думал о второй карте, но есть одно но, я её буду использовать в egpu с тандерболтом (TH3P4G3, едет пока). Я пока не нашел вариантов на 2 видяхи в один порт, может плохо искал
Аноним 08/03/26 Вск 13:02:48 #60 №1545451 
>>1545440
> 5060 TI
Как думаете в связке с 3090? У меня просто место физически в корпусе нет из-за ебаного стола, куда большй корпус не влезет. А как снаружи монстрячить хз.
Аноним 08/03/26 Вск 13:09:53 #61 №1545456 
image.png
>>1545440
>осталась в цене по 55к
Не, она дешевле. 50к примерно или чуть меньше. В моменте до 42 уходила. И да, это 16гб
>>1545451
В 2 раза медленнее память, несмотря на то, что более новая
Аноним 08/03/26 Вск 13:17:19 #62 №1545459 
>>1545448
да и когда подрублю к ноуту по тандерболту, то у меня еще будет 3060 6гб на ноуте (правда ноут греться будет, это я не особо люблю)

Краткий гугл говорит что 2+ видяхи через тандерболт работают только для интелов 12+ поколения, а у меня ноут на 11 поколении.

https://egpu.io/forums/thunderbolt-enclosures/connecting-multiple-egpus-to-a-thunderbolt-4-pc-using-a-thunderbolt-4-hub-dock/
Аноним 08/03/26 Вск 13:24:41 #63 №1545466 
>>1545451
>в связке с 3090
Думаю заебись. Комп окончательно не станет печкой + нет шансов попасть на ужаренное майнингом говно если покупать БУ 3090

>>1545456
Похуй на медленную шину памяти т.к. и памяти меньше чем в 3090. И при инфиренсе на 2-х картах там уже тормоза от PCI будут больше, чем от внутрикарточных трансферов. Плюсом идут фишки новой архитектуры, меньший размер, меньшие требования по питанию и охлаждению.
Аноним 08/03/26 Вск 13:31:35 #64 №1545477 
image.png
>>1545451
> А как снаружи монстрячить хз.
Продаются кабели удлинители

>>1545466
Я когда покупал 5060ti, сравнивал её с 5070ti. Шина памяти в 2 раза быстрее, скорость инференса тоже в 2 раза быстрее но и цена тоже в 2 раза больше и тепловыделении скорее всего тоже больше. меня скорость 5060ti сейчас полностью устраивает и греется не очень сильно, выше 70 не поднимается.
Аноним 08/03/26 Вск 13:33:45 #65 №1545481 
>>1545459
>у меня еще будет 3060 6гб на ноуте
Я б не рассчитывал - ты убьешь перегревом ноут, а особого выигрыша от 6Гб VRAM не получишь. Можешь даже и потерять - ноутбучная 3060 будет самым медленным звеном в системе и пока она будет пердеть все остальные будут ее ждать.
Аноним 08/03/26 Вск 13:37:53 #66 №1545485 
>>1544796 (OP)
По чем итт-господа брали ми50 32г? На алике в диапазоне 35-40к есть, дорого?
Аноним 08/03/26 Вск 13:41:22 #67 №1545489 
>>1545481
поэтому и жду егпу. еще альтернатива - собрать некро-микропк на несколько слотов, но память выходит дороже видях и остальных комплектующих и поэтому пока отложил эту затею.
Аноним 08/03/26 Вск 13:47:09 #68 №1545499 
>>1545485
Это цена в100 уже. Хз имеет ли их смысл дороже 20 брать. По 10-12 был топ под пердол
Аноним 08/03/26 Вск 13:50:12 #69 №1545505 
>>1545381
Значит я слепошарый, потому что я этого не нашел.
Аноним 08/03/26 Вск 13:53:33 #70 №1545510 
>>1545477
>скорость 5060ti сейчас полностью устраивает
Аналогично. 4060ti + 5060ti - скорости полностью устраивают. 27 Гемма и Квен в пределах 12-15 т.с. генерация, 500 т.с. процессинг. Контекста влезает 100k+ . В толстых мое скорости все равно упираются в RAM
Аноним 08/03/26 Вск 13:54:07 #71 №1545511 
>>1545485
За 40к они и на авите есть. И в100 за 50к. И 2080ти 22гб за 30к.
Аноним 08/03/26 Вск 14:27:12 #72 №1545547 
Аноны, кто-нибудь заказывал с таобао? Как это вообще делать? Нужное железо оказалось только там.

>>1545511
в100 30к, 4к плата, 1к провода к ней.
Аноним 08/03/26 Вск 14:31:15 #73 №1545550 
>>1545547
>можно подробный гайд как с табао заказывать?
1. регаешь загран нового типа
2. регаешь китайский алипэй (нужен загран и телефон с nfc)
3. регаешь таобао акк (сразу через настройки поставь пароль т.к. не всегда приходят смс)
4. регаешь акк на youcanbuy (или у другого пересыла, но я юзаю его)
5. на тао забиваешь адрес по инструкции с юкб
6. наваливаешь чего нужно в корзину
7. пополняешь алипэй через кого то (через мужика с форума юкб делаю, 300+к уже через него провёл)
8. заказываешь на тао
9. когда всё пришло на юкб там собираешь посылку (не забудь выбрать наложенный платёж а то придётся в саппорт писать, карточки то отвалились)
10. ждёшь
Редакция от 12.04.2024, больше инфы можно найти в /pvc

Сейчас есть изменений но не фундаментальные
Аноним 08/03/26 Вск 14:41:02 #74 №1545555 
>>1545547
>в100 30к, 4к плата, 1к провода к ней.
Это не на алике и не на авите.
Аноним 08/03/26 Вск 14:43:01 #75 №1545557 
>>1545550
Спасибо огромное!
>>1545555
Именно на алике. 2 месяца назад так брал.
Аноним 08/03/26 Вск 14:45:10 #76 №1545558 
>>1545557
Как те аноны, которые лифтовой плк и дохлую картонку на руки получили от забаненного магаза? Тут счет на недели идет, нет уже цен таких.
Аноним 08/03/26 Вск 14:49:49 #77 №1545560 
image.png
>>1545558
Да как так, я же по 30к с небольшим брал у них...
Аноним 08/03/26 Вск 15:08:58 #78 №1545578 
>>1545386
> 1)
Инфиренсопроблемы, битый или лоботомированный квант
> 2)
Инфиренсопроблемы, модель работает в двух режимах и предполагает конкретный темплейт для каждого, а не отсутствие префиксов с рандомайзером семплерами.
> 3)
Пункт 1 или шизопромпты
> 4)
Инфиренсопроблемы. Если юзаешь жору - накати свежие коммиты и не ставь припезднутые параметры запуска.

Что-то вышло ультимейт кобольдскиллишью-бинго.
Аноним 08/03/26 Вск 15:26:46 #79 №1545596 
>>1545399
Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено.
По личному опыту, работает лучше, чем бесплатный дипсик.
Но на дико сложных задачах и длинных контекстах не тестил.
Аноним 08/03/26 Вск 15:36:03 #80 №1545603 
>>1545596
Интересно как 122б мое в сравнении с 27 плотной. Только не тащите юзлес бенчи. Тестил кто сам?
Аноним 08/03/26 Вск 15:48:07 #81 №1545614 
photo2026-03-0723-39-27.jpg
>>1545596
>Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено.
Флоппи-берд на 8086 дается крайне тяжело, я сдался роллить. Квен вроде бы и понимает что это такое, и частые паттерны оптимизации еа платформе, и как флоппи берд в целом работает, но попытки замесить это в единую концепцию на чистой сишке проваливаются. Квен молотит типовой подход с перерисовкой всего экрана, при этом подмешивает dirty tracking в итоге игра еле ворочается и с кучей глитчей. С другой стороны, если подумать - даже работоспособный код, собранный с дополнительным анализом выебонов конкретного компилятора, для модели такого размера очень даже ничего. Реверс инжиниринг старого видеобиоса тоже ни рыба ни мясо, хотя тулзы и базовые принципы реверса знает.
В сухом остатке уровень модели: джун на третий день после трудоустройства, немного разобрался, но какие-то архитектурные решения и контроль деталей все еще никакой. До клода далеко, но скриптики и какие-то локальные правки проекта пилить в фоне пойдет, и судя по всему будет моей основной моделью до следующего отрывного релиза.
мимо на ud-q6-k-xl
Аноним 08/03/26 Вск 15:58:45 #82 №1545619 
>>1545614
> 8086
Это что? 80б кодер Некст?
Аноним 08/03/26 Вск 16:01:50 #83 №1545621 
>>1545619
https://ru.wikipedia.org/wiki/Intel_8086
Аноним 08/03/26 Вск 16:42:23 #84 №1545645 
>>1545596
>>1545429

Спасибо, перекачиваю кванты.
Я тут покопался в файнтюнах, свежачок подъехал https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Качаю потыкать

>>1545614
тут имхо нужно еще придумать как подсовывать модели актуальные знания и при этом не засорять контекст.
Аноним 08/03/26 Вск 16:48:24 #85 №1545648 
>>1545603
На свежих квантах анслотов еще не сравнивал. На 4 квантах Бартовский по ощущениям - 27 более четкая и активная чем 122. 122 как то более "на отъебись" работает, что ли. По крайней мере в стандартных бизнес-задачах. Как там в чем-то специализированном проявляется больший объём знаний 122 модели пока не понял.
Аноним 08/03/26 Вск 16:53:28 #86 №1545653 
>>1545645
> подсовывать модели актуальные знания
Там из актуальных знаний - ток блокнотик с перечнем моментов конкретного компилятора, составленный в предыдущих раундах. "Цепкость" модели низкая, каждый хак нужно прописывать явно. Взять тот же биос, он был немного попячен - квен не осилил, но я потом мотнул в середину бинаря и оказалось что он в формате dual chip interleave (каждый четный байт идет с середины бинаря). Чисто на логику задачка небольшая.
Аноним 08/03/26 Вск 21:31:52 #87 №1545840 
Че, нам только китаекалки жрать теперь? Где там новая гемма 4, коммандер а2, мистрали средние плотные? Че один моемусор, который тупее 3.5 турбы, выходит?
Аноним 08/03/26 Вск 21:37:48 #88 №1545844 
>>1545840
Хорус пидор все испортил
Аноним 08/03/26 Вск 21:56:00 #89 №1545855 
>>1545840
если выпускать умные маленькие локальные модели то кто будет покупать подписки?
Аноним 08/03/26 Вск 22:11:30 #90 №1545864 
>>1545855
Те кто хочешь километры контекста? Нейросети так-то рабочий инструмент, юзаемый писателями, сценаристами и прочими творчеблядьми.
Аноним 08/03/26 Вск 22:16:19 #91 №1545866 
>>1545864
> юзаемый писателями, сценаристами и прочими творчеблядьми.
Не используют. Пейсатели вообще могут на WordStar 4.0 сидеть. Плюс, неизвестно, что с авторскими правами - ни один издатель не примет книгу, если в её создании применялся лоботомит, даже если непосредственно проза не генерировалась, так как любой высер с хоть какими-то следами от сетки улетает в public domain.
Аноним 08/03/26 Вск 22:20:36 #92 №1545871 
>>1545866
Ты слишком высокого мнения о современной литературе, анончик.
Аноним 08/03/26 Вск 22:26:03 #93 №1545873 
>>1545871
А что, долбоебы покупают "книги", в которых полно запаха озона, Элар и Каэлов, шепчущих лесов, докторов Эйрисов Торн, мистеров Хендерсонов и прочего слопа? Это же говно, место которому в печке или подпирать дверь в сортире. Хотя, так было и до нейронок, когда 95% книг это говнище. Сейчас это число стало 99%.
Аноним 08/03/26 Вск 22:29:53 #94 №1545878 
>>1545873
>А что, долбоебы покупают "книги"
Слоп был всегда, просто раньше он был честной бесталанной отсебятиной или банальным воровством. Теперь стало можно генерить всё то же самое силами нейронок. Спрос как был, так и остался.
Аноним 08/03/26 Вск 23:01:48 #95 №1545906 
У меня кобольд сожрал деда
Сижу в ахуе
Аноним 08/03/26 Вск 23:02:13 #96 №1545907 
>>1545840
Да вот, новую гемму уже заждались. Сейчас в основном только у Великого Кси остался нефритовый стержень достаточного размера чтобы выпускать
>>1545864
Километры контекста подразумевают наличие мозгов чтобы с ним как-то работать, а не просто воспроизводить примерно подходящий кусок из него. Именно сторитейлинг и подобное является наиболее сложными задачами, потому что требует учета сразу множества факторов, точного понимания и логики.
>>1545866
Ты вообще штампуемую литературу давно видел? Нейролоп и логические ошибки тупых ллм отдыхают.
Аноним 08/03/26 Вск 23:08:19 #97 №1545909 
.png
.webp
>>1545906
У меня от кобольда брат умер!
Аноним 08/03/26 Вск 23:49:35 #98 №1545936 
.jpg
>>1545907
Кекнул с твоей наивности. Ты поди поредж, раз не знаешь, каким был книжный мир в девяностых и ранних нулевых. Какого пиздеца там только не было, вплоть до оглавлений на английском оставшихся от оригинала. Кто-то явно проваливал чек на ризонинг. Тем не менее, покупали. И даже в десятые всё ещё покупали подобный мусор. И сейчас в книжных полки ломятся от подобного.
Ну а если говорить про людей уже набивших руку, то им лишь дай текст и они его отредачат за сутки. И можно печатать. Всего сутки работы, вместо недель или месяцев.
Аноним 09/03/26 Пнд 00:17:03 #99 №1545959 
>>1545936
Сорян, не настолько скуфидон. Но отголоски этого "наследия сралкера" видел, буквально шизоидные филлеры и фанфики.
Что сказать то хотел? Зашел с выебонов и тутже согласился.
Аноним 09/03/26 Пнд 00:24:41 #100 №1545965 
>>1545959
В кого зашёл?
Аноним 09/03/26 Пнд 02:03:20 #101 №1546032 
1750107695616.png
1625455965739.png
1752840911588.png
Квад ми50 атлант встал на ноги (в прямом смысле сделал ему дно и ножки). Обновил ему вллм до 0,12,0 и теперь на 0 контексте в один поток 43 попугая в awq гемме3 27. Норм бенчи и табличку позже сведу.
На 0,11,0 в этом же кейсе было 21 тпс

розетка 1 - общий жор
розетка 2 и 3 - блоки видеокарт по 2 шт
Аноним 09/03/26 Пнд 02:13:17 #102 №1546034 
Сейчас запустил мистраль 24б (долгое время сидел на гемме, потом на толстых МоЕ/корпах, иногда на гемме). И это просто пиздец. Какой же мистраль тупой по сравнению с квеном 27б, это просто ахуй. Затем я запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза. Как будто бы все инструкции игнорируются полностью. А девстраль/магистраль и прочие вариации настолько сухие, что ну их нахуй.
Аноним 09/03/26 Пнд 02:20:42 #103 №1546041 
>>1546034
После квена всё будет тупым казаться.
Аноним 09/03/26 Пнд 02:35:59 #104 №1546049 
>>1546034
Попробуй этот тюн - https://huggingface.co/mradermacher/Magidonia-24B-v4.3-i1-GGUF
я на Q4_K_M сижу. скорость генерации Generate:22.61s (40.78T/s),
настройки прикладываю https://dropmefiles.com/jl1sx
Аноним 09/03/26 Пнд 03:25:21 #105 №1546061 
>>1546049
В художественный текст умеет? Красиво пишет?
Аноним 09/03/26 Пнд 03:48:30 #106 №1546067 
>>1546032
По чем карты брал?
Аноним 09/03/26 Пнд 04:07:24 #107 №1546071 
1682367157993.png
>>1546067
В прошлом треде BOM кидал. В среднем 12+1к вышло
Аноним 09/03/26 Пнд 04:26:54 #108 №1546076 
>>1546049
Пользовался. Да, ризонингом соблюдение инструкций можно контролировать хоть как-то, но всё равно ёбаное мучение, а ещё там соя пролилась, потому что нет аблитерации или еретика.
Аноним 09/03/26 Пнд 05:47:14 #109 №1546084 
>>1546034
>девстраль
девсраль ващет для кода
>запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза.
как будто у тебя какие-то тупые шизомерджи, всратые семплеры или ты пытаешься с ними ролить на русском (в который они не хотят/не могут). Или всевместевзятое. В ориге разница между немо и смаллом в разы по мозгам.
Но да, замечу, что самому 24б не зашла вообще, да я и не пытался ее особо распробовать...

мимо министраль14б-енжоер
Аноним 09/03/26 Пнд 06:52:51 #110 №1546091 
>>1546049
>Попробуй этот тюн
https://huggingface.co/Naphula/GhostFace-24B-v1
Аноним 09/03/26 Пнд 07:26:42 #111 №1546096 
>>1545840
>Че, нам только китаекалки жрать теперь?
Локалки были чем-то вроде "позабавилась и хватит" для многих контор. Кто-то набивал руку, кто-то тупо искал инвестиции, кто-то пытался продаться. Китайцы не исключение. Чем дальше, тем меньше будет и тех и других. Да и банальное - зачем стрелять себе в хуй и лишаться прибыли с подписок, оно тоже, да.
Аноним 09/03/26 Пнд 07:56:50 #112 №1546101 
>>1546096
Вот только непонятно, кто захочет жрать говно за деньги. Взять ту же кими. 1Т параметров, минимальная стоимость подписки 30 баксов, качество хуевое, сосет даже у чат гпт.

То есть в теории та же кими выебет гпт, если речь о подписке, но не потому что она круче, а потому что лимиты выше, больше возможностей вроде анальных изъёбств с агентами (но сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить), а холопу с гпт по подписке за 20 баксов такое не положено. Однако за по сырой мощи он выебет, а уж тем более со всякими тулзами и обаязками.

Так что подписочные варианты всяких квенов и прочих нахуй не нужны никому, разве что дешёвое апи для некоторых задач топ за свои деньги.
Аноним 09/03/26 Пнд 10:45:28 #113 №1546153 
>>1546101
>подписочные варианты всяких квенов и прочих нахуй не нужны никому
Ну так и есть по факту. Кроме китайцев, наверное, ибо там в принципе огромный внутренний рынок и они могут спокойно обойтись без выхода в международку. Главная проблема всё равно у всех одна - нейронки подписками не окупаются, это капля в море. Мало того что производство дорогое, так еще само применение нихуя не дешевое. Сейчас все работают себе в убыток, выживая тупо на инвестициях или ебанутом бюджете, если ты гугл. Ну а мелкие конторы типа мистралей вообще целиком на дотациях и инвестициях.
Аноним 09/03/26 Пнд 11:47:32 #114 №1546202 
>>1546153
Это да. В целом, мне кажется, инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту: агрессивное сжатие кэша, 4 бит, не более 128к контекстное окно. И даже за 20 баксов будет окупаться. При условии отсутствия всяких дип рисерчей, CoT, поиска по интернету. Либо за дополнительную плату за функции.

На самом деле это не так уж и плохо, ибо даже во времена, когда таких возможностей не было, жилось неплохо. Проблема в том, как они будут разрабатывать в такой ситуации новые модели? На инференс хватит с анальными оптимизациями, а вот на новые модели.. разве что раз в 5 лет, если без всяких дотаций и убыточности.

Есть такое ощущение, что мы будем вспоминать времена 4о или клода 3.5 как время изобилия и безумной халявы, когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо. За 40 баксов. И за 20 баксов что-то уровня 35б-а3б.

Да, они будут куда лучше обучены, чем сейчас, и всё же.

Кум вообще будет отсутствовать. Только локально. С hg выпилят все. Будем сидеть по говноконфам и делиться квантами старых моделей.

А китайские модели.. ты верно подметил, что они будут востребованы, но скорее всего именно в Китае.
Аноним 09/03/26 Пнд 12:09:36 #115 №1546213 
>>1546202
>инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту
Не знаю что насчет копросеток, но сторонние провайдеры точно квантуют модели вместе с контекстом и гоняют их у себя в ужатом виде. В принципе, не удивлюсь если та же гопота этим промышляет, оно было бы логично. Если можно где то срезать убытки, их срежут. Но даже так сомневаюсь, что подписки по 20 баксов окупят затраты на содержание сотен тысяч (или уже миллионов) видимокарт. Это прям долгосрок долгосрок.
Аноним 09/03/26 Пнд 12:26:53 #116 №1546228 
>>1546213
Сейчас я уже буду ванговать, но вангую, что они память не ужимают традиционным способом — квантованием уровня лламы и прочих бэков. Уж слишком оно уебищное и агрессивное. А вот SWA, RNN, меньше голов внимания или чего-то подобного — это пожалуйста. Даже через API. А самый жир исключительно по каким-то лютым ынтырпрайз тарифам.

Ну и для быдла, разумеется, модели только в 4 битах, специально обученных работать в таком режиме. Как gemma qat или gpt oss.

Плюс, как я говорил, начнут использовать сраные маленькие МоЕ.

Грок вот буквально идеально иллюстрирует эту ситуацию. Модель заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+. Чисто квено-дипсиковская-китайская проза, явный дистиллят. Зато скорость огогоебать, пишет за секунду по абзацу, лол.

Ещё воровство диффузионных моделей с civitai, чтобы быстро для быдла рисовать. Изначальное разрешение 512х768 примерно, затем быстрый апскейл. Генерирует сразу по 4-8 изображений за пару секунд.

С изображениями реально интересно. Я их довольно долго анализировал от грока. Модели точно краденые и их там минимум несколько. Возможно, есть свои, но SD 1.5 под капотом сидит тюненая. Артефакты, паттерны сломанных пальцев, вот это всё такое же, как у меня локально было.

Я был лютым шизом раньше, который в день по 1к пикч мог генерировать или делать 4К ШЫДЭВОР 6 часов, поэтому прекрасно вижу это. Сидел и под лупой разглядывал, сравнивал, тестил. То есть это не DALL•E какой-нибудь закрытый. Чистый пиздинг. Возможно, в этом направлении дело пойдет у большинства. В итоге останутся лишь один-два гиганта, которые будут делать реально своё.
Аноним 09/03/26 Пнд 12:30:55 #117 №1546232 
Тут какой то файнтюн для "Tavern Sensei, a turn-level gameplay advisor for tabletop RPGs."

https://huggingface.co/yuuuzeee/tavern-sensei-qwen3.5-35B-A3B

Интересно, сам таверн сенсей чот не гуглится, у чела много файнтюнов для эропоге
Аноним 09/03/26 Пнд 12:44:47 #118 №1546251 
>>1546228
Как уже говорили в асиге, останутся лишь гугл и майки среди западных, да и алибаба с хуавеем в Китае. Остальные просто не потянут расходы при падении дотаций и инвестиций. ИИ-зима близко.
Аноним 09/03/26 Пнд 12:51:48 #119 №1546266 
>>1546228
>заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+
Лол, реально? Никогда не гонял грок, но видел отзывы на третью версию, писали что "лучшая модель для рп" и вообще умница-послушница, всё понимает, между строк понимает, отказов не принимает и там по списку.
>В итоге останутся лишь один-два гиганта, которые будут делать реально своё.
Ну в каком-то смысле они уже сейчас рынок делят. Разжираются настолько, что конкурентам приходится либо сливаться, либо искать дохуя и больше, чтобы не проебать свои три процента от общей массы. Из всех гугл наверное самый стремительный скачок показал за короткое время. Среди сервисных ебет гемени, среди локалок гемма (в своем размере), среди картикодебилизма банана. И это все релизнулось буквально за полтора последних года.
Аноним 09/03/26 Пнд 13:07:08 #120 №1546277 
>>1546266
А вот третья модель была охуенной, это правда. Я не смог попользоваться ей долго, буквально пару дней и в рамках тестов, но её языковые навыки были потрясающего уровня, учитывая скорость и контекст. Близко к клоду и гемини, и в рп хороша. 4 версия — это какой-то полуслоп странный, а 4.1 и 4.2 чистейший китаец. Абсолютно ебанутая хуйня. Плюс только в агентском режиме, где 16 моделей работают. Но они все равно наглухо шизанутые. Ну и 4.2 всё ещё может генерировать текстовый контекст с несовершеннолетними прямо в веб-интерфейсе, лол. Вероятно, огромный пласт людей использует грок для этого.

Да, Гугл очень мощно ворвались. Но с кодом она всё ещё плоха, в людском языке — бог. Местами точно превосходит Клода, который настолько плотно укатился в кодинг, что становится страшно, чо там дальше будет, ведь раньше он был абсолютным лидером по качеству англюсика, русика, хуюсика или мертвых языков. Хотя он всё ещё хорош.

А вот гпт выглядит как отстающий, как игрушка для быдла. Конечно, он может всё ещё показывать крутые вещи, но скоро разрыв будет велик, если в него не станут вливать бабки. Складывается впечатление, что он станет чем-то вроде сервиса, в котором отвечают "а как какать?", о чём красноречиво говорит контекстное окно в 32к токенов в веб-интерфейсе, если не использовать reasoning high. Ну и ощущение такое, что там крутится какая-то 200б МоЕ или нечто подобное, а в некоторых ситуациях можно с барского плеча получить толстяка.

Кстати, у гпт была весьма интересная версия 4.5, для которой давали 15 сообщений в неделю в рамках теста. Судя по качеству ответов и тс, там была dense-модель колоссальных размеров. Самый интересный момент в том, что она очень хуёво могла в код, на уровне локалок наших, ну немного получше, но с языком творила чудеса. Зачем они её тестировали, почему не выкатили и что это вообще было — непонятно.
Аноним 09/03/26 Пнд 13:25:35 #121 №1546287 
>>1546277
>он станет чем-то вроде сервиса, в котором отвечают "а как какать?"
Правды ради, большая часть запросов к нейронкам это итак говно уровня "а как какать", потому что поисковики абсолютно засраны и даже если ты ищешь что-то конкретное, тебя с большой вероятностью кинет на сайт, где статья тоже написана нейронкой и разбавлена десятком параграфов воды чтобы увеличить среднее время посещения страницы. Помню когда были траблы со здоровьем искал инфу по препаратам и постоянно натыкался на эту поебень, которая кроме ключевой информации срала в мозг чем-то вроде "как появилась хуйнянейм, как с ней боролись в древности, как с помощью гнилого гриба придумали пенициллин" и прочее, что никому нахуй не надо. Потом открыл бояра и он раскидал всё в пять предложений.

>там крутится какая-то 200б МоЕ или нечто подобное
Скорее всего, не просто так осс-гопота вышла моешной. Если сравнивать 120B и урезанную GPT5-mini, вообще часто ощущается, что это одна и та же модель. По мозгам точно не далеко ушла.
Аноним 09/03/26 Пнд 13:27:29 #122 №1546288 
>>1546034
> по сравнению с квеном 27б
Хочешь увидеть настоящий контраст - попробуй посравнивать модельки в агентно-кодерских-ассистирующих задачах где все вместе, отсутствует четко заданный пайплайн, модели нужно проявлять инициативу и действовать. Достойные альтернативы начинаются от 200б.
>>1546096
Причем тут позабавились? Это было именно демонстрацией своих возможностей и рекламой, многие компании начинали именно с тюнов той же лламы и других. Просто их или уже купили и они растворились в гигантах, или сами подросли но сейчас не имеют возможности что-то мощное релизить.
Основной доход там не с мелких подписок а с b2b, вот там наличие популярной открытой модели будет только в плюс, потому что лучше рекламы не придумаешь. Арендовать чистые датацентры или экономить 10% на мутных и ненадежных по всем фронтам провайдерах никто не станет, обращаются напрямую к производителию да еще закажут внедрение и адаптацию под их задачи.
Ну и уже писали что у тех же квенов и кими подпискам наличие открытых весов не мешает, а вот у тройки гигантов энтузиастов оттягивает.
Аноним 09/03/26 Пнд 13:40:08 #123 №1546297 
>>1546101
> качество хуевое, сосет даже у чат гпт
Только писали как она разъебывает, нагибает жпт и конкурирует с коктрописами - и тут такое.
> а потому что лимиты выше
Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити. Все в нытье про то, как им зажали лимиты, отобрали обещанное, не дают использовать модели из-за перегрузки. На последней вообще тебе просто втихую подменяют прошку 3.1 на какого-то лоботомита. Сначала прыгают между гуглом-гопотой-антропиками, потом слезают на китайцев и пишут довольные оды.
> сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить
Так перетолстить - нужно постараться. Да и имплаинг огромного превосходства при перечислении тривиальных вещей тоже выдает.
>>1546202
> если приблизить его к локальному варианту: агрессивное сжатие кэша
Это не локальный вариант, это рак опенроутера. Тут наоборот пытаются получить максимум качества из доступного, жертвуя скоростью и т.д. То же самое делают и корпы, что заметно по деградации моделей после релиза или в пиковые часы.
> когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо
Они когда-то были не такими? Короткое промо в неделю, а потом бесплатно только огрызок 4о мини или вообще турба, лоботомит хайку у коктропиков с анальными лимитами.

Шиза какая-то, вы тут ебанулись окончательно?
Аноним 09/03/26 Пнд 13:45:43 #124 №1546301 
>>1546297
Пчел, гопота осс 120b до сих пор ебет галематью 5, говмими к2.5, минисраку 2.5 и все хуеквены до 397b включительно. Просто эти калки на 1T параметров обсираются под себя в цикле агента, криво вызывая инструменты. Типа гопота тоже говнище лютое относительно чмопуса последнего, но тут уже сама проблема в том, что лоботомиты это говно, просто чмопус лучший среди куч говна, но и стоит он моё почтение.
Аноним 09/03/26 Пнд 13:52:51 #125 №1546305 
Добро пожаловать на сервер Шизофрения! (Оригинал).mp4
>>1546301
>Пчел, гопота осс 120b до сих пор ебет галематью 5, говмими к2.5, минисраку 2.5 и все хуеквены до 397b включительно.
Аноним 09/03/26 Пнд 13:54:50 #126 №1546308 
Посоветуйте годную мистралю/министралю для эрп. Появилось ли что-то годное за последнее время? Тюны может какие?
Аноним 09/03/26 Пнд 14:25:14 #127 №1546324 
Газонюхи выше спокуха, обсуждение апи и пенисов в других тредах, тут локалки
Аноним 09/03/26 Пнд 14:29:30 #128 №1546328 
Есть ли калькулятор прикинуть сколько плотная, загруженная на видеокарту не полностью, будет выдавать?
Аноним 09/03/26 Пнд 14:39:46 #129 №1546334 
>>1546324
Правильно, тут лишь лоКАЛки лоботомитные уровня трехлетней пигмы. С тем же успехом можно вставить генератор случайных чисел перед детокенизатором, возможно, даже лучше будет, чем лоКАЛьный ЫЫ.
пиздец, модели на 744b-1t параметров тупее трехлетней пигмы на 6b параметров, да и контекст пигма держит лучше
Аноним 09/03/26 Пнд 14:42:50 #130 №1546336 
>>1546308
Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K

А если у тебя там ванилька, то можно и сток, в простенький кум мистрали всегда из коробки могли.
Аноним 09/03/26 Пнд 14:50:46 #131 №1546344 
>>1546336
Как раз таким и пользуюсь. Есть альтернативы или это топ решение?
Аноним 09/03/26 Пнд 15:01:19 #132 №1546357 
>>1546344
По соотношению скорости и мозгов на обычном пк с 12-16 VRAM - топ решение. Ещё и русский хороший.
Аноним 09/03/26 Пнд 15:03:43 #133 №1546361 
>>1546334
Ты там под чем? Или недуг какой?
Аноним 09/03/26 Пнд 15:04:51 #134 №1546362 
>>1546357
Гемма 27b получше будет. Я пробовал министраль 14b в оригинальных весах, и она при переводе обосралась, переведя collar как воротник, а не ошейник. Прямо как google translate, который также обсирается под себя. Геммочка умничка здесь вывозит, выдавая меньше тупняка.
Аноним 09/03/26 Пнд 15:24:55 #135 №1546376 
Анончик, посоветуй модель не для кума, а для помощи в написании нормативной документации на русском языке на основе международных стандартов? Есть такое? Или для такого проще токены у корпов?
Аноним 09/03/26 Пнд 15:25:52 #136 №1546378 
>>1546376
Для такого лучше без ллм
Аноним 09/03/26 Пнд 15:28:51 #137 №1546382 
>>1546378
Разумеется, что всё нужно делать самому, у меня нет цели всё отдать на откуп нейронке, но получить гайдлайны, что бы был уверен, что ничего не упустил и не сделал противоречие было бы кстати.
Аноним 09/03/26 Пнд 15:31:07 #138 №1546386 
>>1546301
Еще как ебет, а потом галюны отпускают и напоминает тебе принять таблетки.
>>1546334
Лол корпораба защемило
Аноним 09/03/26 Пнд 15:33:51 #139 №1546388 
>>1546382
Ну так копроварик юзай. Спроси как составить док, он тебе поможет. Нах тебе с локалкой ебаться?
Аноним 09/03/26 Пнд 15:35:46 #140 №1546390 
Потестил недавно всякию тюны геммы и мистраля, пиздос, оказывается ни одна моделька не знает что можно ебать пролапс. Вопрос - за что я плачу скачиваю все эти тюны и трачу терафлопсы своей видяхи? Нахуя все эти анцензоред, дарк, вайолент, гор тюны нужны, если они не могут в банальные вещи?
Признаться, порядком разочаровался в ллмках из-за этого.
Эти ваши корпы или 300б+ модельки могут закрыть такую базовую потребность? Или они все юзлесс?
Аноним 09/03/26 Пнд 15:37:04 #141 №1546393 
>>1546357
Ну тогда ладно, раз нет других вариантов.
>>1546362
Я пробовал гемму, не сказал бы что она прям настолько лучше. Да и всякое похабство она понимает в разы сложнее.
Аноним 09/03/26 Пнд 15:39:41 #142 №1546396 
>>1546376
>>1546382
Писать нормативку - никакую, уволься. А проанализировать, что-то отметить - тема хорошая но сложная, бери самое большое что сможешь вместить. Среди мелочи это гемма или может новые мистрали (маловероятно). А так от 120б и вверх, желательно с ризонингом или форсировать его аналог промптом. Среди корпов для такого лучше всего жемини, меньше всего галюнов и лучше соответствие.
Не ожидай что модель точно воспримет всю документацию и будет точно знать как тебе помочь, скорее наоборот. Если речь не о совсем общих вещах то точно не стоит делать вот так
>>1546388
> Спроси как составить док
Аноним 09/03/26 Пнд 15:45:12 #143 №1546401 
>>1546396
Нейросетям в принципе не стоит доверять документацию. Анончик явно тредом ошибся, тут в основном кумкумы сидят.
Аноним 09/03/26 Пнд 15:49:07 #144 №1546407 
>>1546390
> ни одна моделька не знает что можно ебать пролапс
Квен 235 и 397, Степа 3.5, а также ГЛМ 4.7 точно знают.
А вообще у меня фантомные воспоминания что и гемма тоже могла, проверять я это, конечно, не буду.
Аноним 09/03/26 Пнд 15:51:59 #145 №1546408 
>>1546376
тут не модель нужна а методология. Залить в контекст всю нормативку и надеяться что она это переварит - не получится.

нужно строить свою систему которая включает в себя
1) RAG
2) пилить RLM (https://arxiv.org/pdf/2512.24601)
Аноним 09/03/26 Пнд 15:52:48 #146 №1546409 
>>1546407
Гемма не знает, что такое thighjob. Мистралье знает. Думайте Кумайте.
Аноним 09/03/26 Пнд 16:01:15 #147 №1546417 
>>1546287
>Как какать

Да, ето так. Вообще, я сам такой же, и хоть я ненавижу корпов, всё равно стараюсь придерживаться какой-то «культуры использования». Про какать — это к лоботомиту, что-то сложнее — к обычной модели, ещё сложнее — ризонинг (от low до high), или вообще чередую модели от разных корпов, и не из-за денег, а просто потому что хочу хотя бы своими действиями на 00.00....01% снизить нагрузку. Однако большинство так не делает. И я прекрасно понимаю, что гайки закрутят в любом случае, их уже крутят люто, и в некотором смысле у меня будет упущенная выгода.

Кстати, о поисковике. По скорости и количеству выдаваемой инфы грок лучший в своём классе из тех, что я пробовал. Минусы только в том, что он может насрать инфой с сайта russkaya-medicina.xyz или с аналогичного. Даже если ему прямо предоставишь список сайтов, пабмеды там всякие, то он просто натаскает говна без какого-либо анализа. Нужен детальнейший промпт с инструкцией на каждый пук, и даже так он часто ошибается и приносит дичь, видимо, из-за размытого внимания к контексту или обучения. Зато может смотреть 600 страниц за несколько минут. Ну и в целом у него есть проблемы с выполнением инструкций, на большом контексте ещё сильнее сыпется.

А вот Клод или ГПТ могу пережёвывать по 10 минут запрос/поиск, выдавая в большинстве случаев 90% хороших ссылок и годный суммарайз, прямо песня. Только с гемини не совсем понял, норм там или нет по этой теме, т. к. юзал её для таких целей мало и только через API/бизнес-аккаунт
У бизнеса совершенно ебанутый интерфейс и странная реализация всего, что я там видел. Вроде крутилок мало, а чтобы всё работало как надо, надо все мозги себе выебать. И это очень странно, почему Гугл так сделал, ведь у остальных бизнес-версии норм.

>GPT5-mini

Вообще, выглядит так, будто бы там реально гпт осс 120б какой-то крутится, лол.
Аноним 09/03/26 Пнд 16:04:05 #148 №1546423 
>>1546417
Это ты нейросетью накалякал?
Аноним 09/03/26 Пнд 16:11:52 #149 №1546430 
>>1546388
>Нах тебе с локалкой ебаться?
Смогу проявить смелость и указывать некоторые ДСП(для служебного пользования) моменты.
>>1546396
Спасибо за ответы. +- ситуация понятна.
Аноним 09/03/26 Пнд 16:12:22 #150 №1546431 
>>1546407
Гемма знает о пролапсе только на уровне медицинских сведений. Типа что это бывает из-за проблем с мышцами ануса, что надо обращаться ко врачу, хуе-мое. А то что после интенсивной ебли можно натужиться и выдавить пролапс, а потом сразу втянуть обратно - это за гранью их представлений.
Ну мистрали да, как будто чуть получше понимают такие штуки, но все равно это надо вытягивать из них.
Аноним 09/03/26 Пнд 16:15:44 #151 №1546438 
>>1546390
>можно ебать пролапс
Нельзя. Я запрещаю, это аморально. Так что нейросети правы.
>>1546401
>Нейросетям в принципе не стоит доверять
Вот так достаточно.
Аноним 09/03/26 Пнд 16:16:26 #152 №1546440 
>>1546431
Я тестил гемму и мистраля одними и теми же промтами по несколько раз, с разными настройками температуры. Мистраль хоть и ошибался иногда, но в целом лучше понимал, что от него хотят и, что важнее, какой у него персонаж. Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество.
Аноним 09/03/26 Пнд 16:26:57 #153 №1546448 
>>1546297
Не знаю, кто там что писал. В этом треде? У меня нет сил сейчас реально смотреть. Если можешь, тыкни в посты. Только не в бенчи, они хуйня полная и всегда наебывают, кроме некоторых. Годятся для того, чтобы примерно показать уровень модели. В реальности ВНЕЗАПНО получатся обычно иначе.

Про агрегаторов вообще не шарю и не пользуюсь, но насчёт лимитов за подписку ты прав. Вот только когда антропики их давали? Сейчас у них ого-го какие лимиты по сравнению с тем, что было. Но их всё равно мало, если сравнивать с той же китайщиной, да. Ну и все потихоньку затягивают гайки, к этому идём. Только китайские модели всё равно не выход из ситуации, разве что дипсик меня реально порадовал, но там нужно пердолиться очень много, так как без апи он по возможностям 2024 года. Нужны инструменты и долго налаживать, а потом это всё ломается и цикл повторяется.

>Перетолстил

Шо перетолстил? Ты пробовал одновременно использовать грок + гпт + клод на одной и той же задаче и промпте? Сложной. Грок чаще всего порет хуйню, причём такую лютую, что уши дыбом встают.

Когда я говорил про локальный вариант, то речь шла о том, что корпы опустят планочку до уровня локалок треда, условно. Мы желаем получить хорошее качество, но не можем, даже жертвуя скоростью и Аллахом. И вот что такое нас ждёт в будущем, но уже на платной основе. 27b dense и 120b MoE хватит всем, как грица. Или наш любимый грок 1Т-а3b iq3_k_m

>были не такими?

Ну я там не работал, сказать не могу, но по результатам — да, были. Антропик явно стараются давать максимум качества, минимум компромиссов ценой лимитов и ебанутых цен. Гпт прыгает из стороны в сторону из-за шальных бабок — иногда можно было использовать самые жирные модели невменяемое количество раз, сжигая бабки на тысячи долларов за пару суток, если бы это было по апи. Вот просто без остановки его задрачивать. Впрочем, это у меня происходило из-за того, что модели тупее были. Сейчас достаточно пары запросов для получения тех же результатов.

Сейчас клоседам ИИ яйца начали выкручивать, в лимиты порой влетаешь и видно, что там агрессивное квантование, динамический контекст и что-то странное порой творится.

Ситуаций, которые ты описываешь, вроде 4о -> мини -> и т. д. Я вообще не помню. Когда это было? Примерно.

Хайку — да. Первое время я был в ужасе, когда они начали влетать на рынок. Потом привык, ещё и лимиты увеличили после внедрения МоЕ, а дальше уже брал подписку подороже.
Аноним 09/03/26 Пнд 16:27:30 #154 №1546449 
>>1546423
Нет.
Аноним 09/03/26 Пнд 16:30:14 #155 №1546454 
>>1546409
А квенчик 27б знает, что такое mesugaki, ahegao, torogao, straight shota, full package futanari, названия запрещенных веществ и как они действуют на организм в рамках РП. Вот и думайте.

Просто пишете в карточке нужный тег - экономите 600 токенов.
Аноним 09/03/26 Пнд 16:39:27 #156 №1546461 
>>1546454
Про вещества двачую, квен почему-то очень хорошо в них шарит. Но мистраль лучше описывает всяких курящих блядей или строгих училок. Геммочка в обоих случаях падает на колени и просит обоссать, но не спрашивать о таком.
Аноним 09/03/26 Пнд 16:41:24 #157 №1546464 
>>1546440
>Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество.
Да, я боюсь это фундаментальное ограничение для всех ллмок. Народ хочет чтобы нейросетки выдавали охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту. А креатив наоборот требует отклонения от нормы. И одной температурой скорее всего не решить проблему. Для креатива надо либо слегка шизить, либо держать в памяти 100500 триллионов разных вариаций того, чего только может быть. 1Т модельки наверное могли бы вместить такое, но они задрочены корпами на работу по указке.
Аноним 09/03/26 Пнд 16:42:54 #158 №1546466 
>>1546376
Можешь почитать на эту тему https://habr.com/ru/articles/992348/
Аноним 09/03/26 Пнд 17:14:03 #159 №1546498 
>>1546464
>охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту
Этого вполне можно добиться, если точно писать промты, детально составлять лорбуки без противоречий, и не загонять нейронки в невозможные ситуации, где нужно безумная креативность чтобы тащить муд и не глючить. Иногда - получается. Иногда - кринж. Повторяемость - миф, ну разве что на минимальных температурах и при сжатых промтах.
>держать в памяти 100500 триллионов разных вариаций того, чего только может быть
Ждём, терпим, надеемся. В целом при соблюдении всех условий и созданий для нейросети идеального рп-вакуума, вполне можно загонять тот же мистраль до оптимальных ответов. Я это давно приметил, что стоит мистраля поправить, так он начинает соблюдать рп точнее. Квен же при внесении исправлений иногда начинает рефинкать вообще всё, выходя в астрал минут на 10. Но зато может выдать настолько охуенный ответ, что аж меняет вектор рп, самостоятельно задавая направление.
Аноним 09/03/26 Пнд 17:49:40 #160 №1546533 
>>1546448
> Не знаю, кто там что писал. В этом треде?
> Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити.
Тебе плохо? Ты же внатуре поехавший. Сначала жирнота с тривиальными ошибками на флагманских моделях, теперь нерополотно обо всем и ни о чем. Лечись, квантованный.
>>1546464
> фундаментальное ограничение для всех ллмок
Как одно противоречит другому? Нужна моделька поумнее и с достаточными знаниями в области, чтобы примерно понимала какие нормы можно нарушить ради повествования, а какие наоборот его обрушат. Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы. Настроив хоть сейчас можешь отыгрывать кум, пристроившись сзади к кобольду-офисной работнице, которая в это время будет писать и редачить твой код.
Аноним 09/03/26 Пнд 17:50:31 #161 №1546534 
>>1546498
Ну вот ризонинг - потенциальное спасение. Все эти руминации дают ИИшке возможность подсветить нюансы, продумать дальнейшие действия.

Надо попробовать на гемме эмулировать ризонинг. С выполнением инструкций у нее хорошо, так что тэги проебывать не должна. Но формат скорее всего придется жестко структурировать, ибо сама она не была надрочена на размышления типа "wait, what if..."
Аноним 09/03/26 Пнд 17:58:37 #162 №1546543 
>>1546533
>Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы.
Противоречие скорее как раз с выдачей точных ответов. "Точные" ответы на ллмках - по дефолту костыль, они не предназначены для этого. А условный креатив - естественная штука. Поэтому приходится душить их всякими способами, чтобы они могли выдавать стабильно приемлемые ответы, но при этом как-то адаптироваться к ситуации, а не выдавать зазубренный среднестатистический ответ.
Аноним 09/03/26 Пнд 18:05:35 #163 №1546546 
изображение.png
Ананасики-братья по куму и рп, отзовитесь! Я шиз или есть такие же? Что бы я ни запускал, Глэм, Глэм Эйр, Квены всякие разные, Мистральки, Геммы, Степашу. ВСЕГДА блять прохожу через следующий порочный цикл
1. Радость новой модельке, весело-интересно. Моделька умная, раскрепощенная, прям то что надо, ну наконец-то
2. Пишу карточку-другую на вдохновении. Отыгрываю сценарий, забиваю подзавязку контекст. Кум льется рекой
3. Иду дальше по чату, начинаю новый или заново начинаю чат с той же карточкой... и начинаю видеть слоп, иногда протупы, иногда практически те же самые ответы, иногда нелогичное поведение персонажей, иногда блять все сразу
4. Сгорает жопа. Приходит мысль ебаный тыж бля, чем я занимаюсь, это какой-то мегатупняк лоботомит-автоответчик
5. Принимается решение прикоснуться к чему-то настоящему, подлинному, иду смотрю аниму, кинцо, игры играю, иногда даже книжки читаю. Радостно, весело, пару раз даже модельки удалялись и себе давалось слово дальше только человеческое, живое, а не ебаные выводы статистических машин без души
6. Проходит время. Приходит понимание что хочется нейрокума, потому что найти то что мне нужно где-нибудь еще не получается. Потому что это пусть и иллюзия, но это впечатление какой никакой обратной связи. Что ни читай, что ни смотри, ты лишь наблюдатель. Да и попробуй найди что-нибудь по своим вкусам. Среди чего искать рп + иногда кум время от времени? Разве что в внках, додзях, манге. Я не извращенец, мне легко угодить, но сука если сунешься туда, то везде ебаная школа, везде шаблонные персонажи со своими архетипами и щепоткой кинков автора, которые часто могут триггерить. Даже рисовка часто похожа. И вот ты уже прочитал новеллу на 30 часов, а потом ловишь такой ебаный кринж что не хочешь продолжать. И вот ты возвращаешься к первому шагу, все по новой. Ебаная временная петля. Что с этим делать то?

P.S. Вот тока не надо что делать в модельках или квантах. У меня 96+48, в целом все хиты треда могу запускать вроде
Аноним 09/03/26 Пнд 18:15:25 #164 №1546563 
1731615864280.png
1711887446064.png
1762640438360.png
>>1546032
43 на 0 и 10тпс на 64к контекста в один поток. Максималка как тг так и пп тоже подросла
Аноним 09/03/26 Пнд 18:18:35 #165 №1546568 
>>1546546
Дело в промпте

Тут скорее надо не прыгать с одной на другую модель, а выдрачивать навык общения с одной конкретной. Модельки реагируют на разные триггеры по-разному. Они требуют разный уровень инструктирования. Модельки условно делятся на 2 типа: которые шизят (умело или неумело), и которые о чем не сказано - то и не пишут. Вот надо пынямать какого типа моделька и какими словечками приласкать ее, чтобы она выдавала нужное. По дефолту они выдают ответ какого-то усредненного ассистента, на которого были надрочены (поэтому ощущение свежести при смене модельки - видишь новую личность ассистента). Можно попробовать задавать стили ассистенту или еще всякие подвыперды промптом делать.
Аноним 09/03/26 Пнд 18:25:59 #166 №1546576 
>>1546568
> которые шизят (умело или неумело), и которые о чем не сказано - то и не пишут.
Температуру надо крутить потому что.
Аноним 09/03/26 Пнд 19:24:17 #167 №1546626 
>>1546543
Да, в целом все так. Ллм может распознать логические нестыковки, что-то проанализировать и т.д., но это скорее про взгляд с другой стороны а не абсолютная истина. Иногда они невероятно восприимчивы и дотошны, ухватывают мелочи которые сам упускаешь, но точно также могут галлюцинировать. Даже граундинг готовому контенту может исказиться.
От того очень забавно наблюдать апелляции в ответам ллм, или вопросы у них по точным мелочам.
>>1546546
Пост-кум-клэрити накатывает и являет все несовершенство того чем занимаешься.
Начни катать длительные чаты с рп и/или развитием отношений (не обязательно романтику). Как раз поднимешь "навыки" с контекстом, промптами, суммарайзами и в целом будешь писать яснее. И делай это не ради исключительно кума, а вместо потребления мусорного контента типа ютубчика, ничего не потеряешь.
Относись к ответам моделей спокойнее, не понравилось - свайпнул, изменил промпты, пошаманил. Не идет - поставь другую модель, тем более что у тебя их много.

Главное - иди трогай траву, найди хобби и занимайся физической активностью. Когда пытаешься самореализоваться через потребление контента, игры или такое - это заведомо путь в бездну. Везде будешь видеть однообразие или несовершенство, которое описываешь. Точно такие циклы короткого взлета "о игра/кинцо/анима/книга вышла, крутая" и тут же падение до брюзжания "фу клишированная херна, вот в тайтлнейм было лучше" и потребления через силу с дальнейшим еще большим расстройством.
Когда будешь воспринимать это не как главный источник желаемой жизни, который обязан дать тебе дофамин должный экспириенс, а лишь как одну из вариаций активностей где можно экспериментировать, ставить челленжи, иметь что-то конкретное - сразу все в норму придет.
> тока не надо что делать в модельках или квантах
> меня 96+48
В них тоже, вот было бы хотябы 256+64.
Аноним 09/03/26 Пнд 19:35:08 #168 №1546634 
>>1546568
Гемму как ни крути, всё равно будет суходрочка с постоянными подсказками недоразвитой, что она должна делать в следующий момент. Модель аутистического спектра, лол.

Я тестил многое, разные промты, разные способы дать знания нейронке, чтобы рп сложилось получше. Результаты в общей сложности сводились к чему-то такому:
-Пойдёшь со мной на свидание?
Гемма: -Да, пойду.
Мистраля: -Ой, кто, я? Ты правда приглашаешь меня? Конечно я пойду! смущённо смотрит в пол и теребит пальцами подол платья
Квеня: -Да, можем сходить парк, там у меня есть любимая лавочка, посидим, поболтаем.

Думайте. Только квеня в рп отмечает конкретные места и объекты, извлекая их из характеров персонажей. Ризонинг страшная штука. Настоящий нейронный мозг, а не эта ваша генерация случайных логитов.
Аноним 09/03/26 Пнд 19:43:24 #169 №1546641 
>>1546634
>Квеня
А какой квант квени можно уместить в 12 врумм?
Аноним 09/03/26 Пнд 19:48:05 #170 №1546647 
>>1546641
Четвёртый смол или третий ларж, наверно. Но ризонить будет очень долго, скорее всего.
Аноним 09/03/26 Пнд 20:00:57 #171 №1546669 
https://huggingface.co/darkc0de/XORTRON.CriminalComputing.LARGE.2026.3

Тут что-то жирненькое, умное. UGI на втором месте, отказов пока не ловил. Ризонинга нет. Пробовал кто? Вроде топ кум
Аноним 09/03/26 Пнд 20:05:23 #172 №1546673 
>>1545386
>1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности.
Жмешь abort, перезапускаешь заново - ризонинг уходит. Все время так делаю.

>2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается.
Это скорее фишка, когда ризонинг не нужен, то помогает. Если нужен ризонинг, роллишь еще разок - все работает.

>3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный.
Аблитератед накатил, никакой сои сразу. Еретик тоже неплохо справляется.


>4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо?

Такое происходит только, когда достигнут полный контекст - ему приходится заново после каждого пука считать. Решение найдено - делаешь полный саммари, потом убираешь половину текста. Еще можно просто расширить контекст в 2 раза, если память позволяет. Пересчеты после каждого пука тут же уходят.
Аноним 09/03/26 Пнд 20:07:23 #173 №1546675 
изображение.png
>>1546669
>умное
В каком тысячелетии оно было умным?
Аноним 09/03/26 Пнд 20:09:06 #174 №1546678 
>>1546669
>2411
>топ кум
Так и живём.
Аноним 09/03/26 Пнд 20:13:58 #175 №1546686 
>>1546546
Карточку свою расписываешь? Очень много зависит, что туда напишешь. На готовые не надейся, там фигня. Также юзай [ooc: ] теги или author's notes, чтобы модельку двигать в нужном направлении по ходу дела. Алсо открывай все время редактирование по ходу дела и убирай целые куски текста из истории, которые не подходили - моделька больше не будет их учитывать в дальнейшем и перестанет срать говном. Еще я там вручную куски иногда дописываю, помогает.
Аноним 09/03/26 Пнд 20:20:34 #176 №1546695 
>>1546686
Двачую этого просветлённого.
Аноним 09/03/26 Пнд 21:18:25 #177 №1546734 
>>1546673
>>1546686
Помогите с суммарайзом. Я в кобольше нажал кнопку автогенерации, комп чутка погудел и всё, кроме надписи "не закрывать окно" ничего нет. Оно сработало и можно дальше рпшить? Или нужно ещё что-то нажать? Часто это нужно делать?
Аноним 09/03/26 Пнд 21:26:03 #178 №1546737 
>>1546734
>Помогите с суммарайзом.
Не знаю что ты сделал, но точно не суммарайз.
Аноним 09/03/26 Пнд 21:27:52 #179 №1546738 
>>1546737
Я нажал на автогенерацию памяти. Что это если не суммарайз? А как тогда?
Аноним 09/03/26 Пнд 21:30:54 #180 №1546744 
>>1546738
>суммарайз
Пересказ содержимого чата в сжатой форме.
После этого начинаешь новый чат вставляя этот пересказ вместо первого сообщения.
Аноним 09/03/26 Пнд 21:33:41 #181 №1546748 
>>1546744
Серьёзно? И я должен его сам написать? Ахуй. А как проверить, сколько ещё у меня контекста есть перед тем как чат начнёт затирать старое?
Аноним 09/03/26 Пнд 21:42:21 #182 №1546752 
>>1546734
Оно должно добавляться в системный промпт. Но иногда хуево работает. Хз почему.
Возможно проще прям в чате захуячить, типа "[Системное сообщение: сгенерируй краткий пересказ диалога, перечисли ключевые моменты истории]".
Аноним 09/03/26 Пнд 21:54:56 #183 №1546763 
>>1546752
Ну, если придётся руками историю писать, то это хороший способ, спасибо большое
Аноним 09/03/26 Пнд 22:38:24 #184 №1546807 
image
https://www.reddit.com/r/LocalLLaMA/comments/1rp9tt7/i_am_not_saying_its_gemma_4_but_maybe_its_gemma_4/
Аноним 09/03/26 Пнд 22:44:06 #185 №1546812 
>>1546807
О, килпидрика и там, и тут передают. Пиздели, что новая гемма будет как новый квен 120b по размеру и будет MoE говнищем.
А так хотелось плотненькую няшечку новую на 30-50b с легким контекстом. А будет квен от гугла.
Аноним 09/03/26 Пнд 23:24:31 #186 №1546846 
image
>>1546812
>новая гемма будет как новый квен 120b по размеру и будет MoE
Идеально! Вот именно то что нужно. Эйр - если хочется сочного кума и чернухи, Геммочка солнышко - для сфв рп, Квен - для любителей поесть говна. Все счастливы, все довольны.

>А так хотелось плотненькую няшечку на 30-50b
Выкинь свои некротеслы на помойку, пожалуйста. В плотной модели такого размера вообще нет смысла. ~120b моэ будет и умнее и быстрее и полетит на условной 3060 12gb.
Аноним 09/03/26 Пнд 23:33:02 #187 №1546850 
>>1546846
>эйробояр закукарекал
Инстэд аурора!
Аноним 09/03/26 Пнд 23:51:56 #188 №1546857 
>>1546734
Можешь джейсонов сохранять с наиболее удачными генерациями, будет тебе сорта блокнотик с любимыми историями.
Аноним 10/03/26 Втр 00:06:40 #189 №1546861 
>>1546857
А я потом смогу из него суммари сгенерить?
Аноним 10/03/26 Втр 00:13:53 #190 №1546865 
>>1546861
Ну разумеется, солнышко ты моё кобольдовое. Разумеется ты сможешь.
Аноним 10/03/26 Втр 00:15:12 #191 №1546866 
>>1546865
Круто! Спасибо!
Аноним 10/03/26 Втр 00:28:43 #192 №1546873 
изображение.png
1. Зелёный переходник для V100 на pcie - фигня собачья. При подключении как х16 он выдаёт скорости 6.6 и 5.3 (то есть как х8 на загрузку на V100 и как х6 на выгрузку обратно). При подключении х8 скорости как у х4/х3. При этом определяется и во всех местах х16/х8, а вот если измерять реальную скорость загрузки/выгрузки на крупном буфере. У кого-то ситуация воспроизводится?
Есть смысл поставить драйвер 580-server вместо просто 580?
На это может как-то влиять, что я 8-пин разъём воткнул, а не два?

2. Картинка. Что за реккурентное нечто?

И ещё круто что автопарсер смерджили наконец то. Я рад что начал его использовать ещё до этого.
Аноним 10/03/26 Втр 00:32:22 #193 №1546874 
>>1546866
Только учти один маленький моментик. Если в чатике насрано десятками сообщений, то краткий пересказ будет хромать в плане деталей. Так что либо старайся суммировать чаще, либо держи детали своего рп в голове/блокнотике, чтобы самому вписывать их в ноты бота. Это звучит как костыль, это выглядит как костыль, это крякает как костыль, и является им. Но таков путь. Ду ю но да вэ? Дыс ыс да вэ.
Аноним 10/03/26 Втр 00:41:29 #194 №1546878 
>>1546874
Это пиздец, чел. А хули всё так плохо?
Аноним 10/03/26 Втр 00:49:37 #195 №1546886 
>>1546873
А у залёных есть аналог rocm-validation-suite? У красных собственно эта тула есть и позволяет тонну бенчей гонять по типу скоростей всего со всем и вычислений определённого вида

Ну проверь куда по топологии эта псина идёт
Аноним 10/03/26 Втр 00:55:37 #196 №1546889 
>>1546734
Для этого нужно чтобы в твоем интерфейсе было место под этот самый суммарайз. В таверне оно предусмотрено, что там в кобольде - хз.
Есть кнопка автоматической генерации, которая просто шлет простой промпт для создания, но оно всратое и охватывает сразу все, что бред.
Вместо этого есть приличный способ: выбираешь более старые посты, которые хочешь суммарайзнуть и с них форкаешь чат. Прямо в поле пользователя пишешь
> [SYSTEM]
> Pause your roleplay. Come up with your proposal about chapters for that story starting from summary in the beginning. Write extra N chapters and add a short description for each. Only include what already happened in roleplay chat after first summary.
или как хочешь свою команду. При необходимости роллишь, редактируешь, можно с полученным результатом сделать второй проход для уточнения и расширения.
Потом возвращаешься в основной чат и дополняешь уже имеющийся суммарайз (или создаешь с нуля). После скрываешь посты, которые ты суммарайзил через /hide
>>1546744
> После этого начинаешь новый чат вставляя этот пересказ вместо первого сообщения.
Ебааааать
>>1546752
> Оно должно добавляться в системный промпт.
При чем тут вообще системный промпт?
Аноним 10/03/26 Втр 01:25:59 #197 №1546910 
>>1546889
А как форкать сообщения в отдельные чаты и потом скрывать их?
И кстати, а куда лучше записывать суммарайз? В Memory, Author's Note или создать отдельный лорбук?
Аноним 10/03/26 Втр 01:45:42 #198 №1546919 
>>1546910
В таверне в стандартных экстеншнах есть для этого свое поле. На самом деле разницы нет, важно чтобы оно было помещено перед первыми сообщениями и обрамлено в какие-нибудь скобки/теги чтобы было понятно что это пересказ прошлых событий.
> А как
В кобольде? Наверно никак. Спрашивай у тех, кто за этот интерфейс топит.
Аноним 10/03/26 Втр 01:48:56 #199 №1546922 
>>1546878
Ну почему же плохо, золотко? Нет, ну ты конечно можешь собрать себе гигариг и задрать контекст в облака, но во первых, что это тебе даст, кроме всё ещё глючной генерации ввиду несовершенства технологий, а во вторых, что ты будешь делать с джейсоном в несколько гигов? Читать всё в том же чате? Ну так делай это с суммарайзом, всё то же самое будет. Да и ты сам-то потянешь гигарп на несколько недель/месяцев? Если нет, и твои истории укладываются в несколько дней кума экспириенса, то почему бы не сделать пару пометок в блокнотике? На память оставишь. И деменцию чуток отложишь ввиду необходимости хоть немного думать, а не просто стручок наяривать обливаясь нейросоплями.
И ещё, помни, что даже у копроверсий бывают мощные глюки и выпадения из сюжета, а у них контекст огого какой, на локалке такой никогда не поднимешь. И всё равно они генерят кринж. Так что пока так. И это хорошо. В этом есть душа. Снятся ли кумобоярам нейродоярки?
>>1546889
У него скорее всего десятки сообщений, он вряд ли будет искать нужные и поштучно их сумарайзить. Да и зачем ему форкать, если в кобольде есть кнопка redo. Нажмёт суммарайз когда надо, отсуммирует, редушнет, продолжит.
Аноним 10/03/26 Втр 02:37:55 #200 №1546943 
>>1546922
Ну и кобольдище. Когда будет очередной срач просто линк на этот пост скину.
Аноним 10/03/26 Втр 02:44:19 #201 №1546944 
>>1546919
А чем ты пользуешься? Что за программа и чем она лучше?
Аноним 10/03/26 Втр 04:00:18 #202 №1546962 
>>1546734
Кнопкой херово выходит, не используй ее. Пиши прямо там где чатишься инструкцию:

[ooc: this is not part of roleplay, this is a direct request to AI from the author. We need to stop our activity for now and make a summary of previous events. This is critical for preserving the most important events, because the context window is limited and they will disappear if we don't do it. Please generate a summary of all important previous events in our roleplay from a certain time point. I will define a time point from where to summarize below. The summary is for the AI to remember all the relevant facts, so don't forget anything that the AI needs to know about the plot. Do not define characters or their traits, they are already defined in the memory of the AI. Write only the summary of events in the following format:
[Summary Continued: events you summarize ]
Now I will show you the last events that are already in the summary, so you can find out where to start. These events are (вставить ивенты, там где начинать)
Events already in the summary:
последний кусок из саммари с ивентами
]

На такую инструкцию обычно нормальный саммари выдает прямо в окне чата, с момента когда последний в саммари был, потом ставляешь его в карточку в конец, а из чата стираешь.
Аноним 10/03/26 Втр 04:13:27 #203 №1546963 
>>1546910
В Memory, он специально для саммари, идет перед промптом.
В Author's notes - туда только инструкцию вставляешь для следующего действия. Например надо, чтобы перс сбежал в ответ, пишешь туда инструкцию что перс сбежит. А после успешного выполнения убираешь.

>>1546944
В кобольд UI уже все есть для РП, он очень продвинутый. Я разбирался какая выгода ставить другие проги вроде Таверны - буквально никакой выгоды не оказалось. Оставаться в Kobold UI самое лучшее уже, он скоростной, интерфейс настраивается и все есть.
Аноним 10/03/26 Втр 04:19:56 #204 №1546964 
>>1546910
У тебя в кобольде для этого кнопка скачать чат есть. Старый скачал, дальше пишешь что хочешь, скачанный остается в файлике, можно обратно его в любой момент закинуть в окно и получить целиком.
Еще есть кнопка Branch - New branch, чтобы 2 чата в одном файле было, но это на любителя, проще в разных файлах держать.
Аноним 10/03/26 Втр 05:26:22 #205 №1546979 
>>1546807
Не будет нихуя. Скриньте. Ставлю жопу и прямую кишку.
Аноним 10/03/26 Втр 05:26:30 #206 №1546980 
Посоветуйте лучшую модель для кодинга для рига. Влезет что-то вроде StepFun, MiniMaх, OSS-GPT в четвёртом кванте.
comments powered by Disqus