В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1622922 (OP) Опчик, ты бы ссылку на вики треда и тот гайд от анона местами поменял. Сейчас вики в самом верху, ещё и жирным выделена. Но от неё в 2026 толку мало, почти вся инфа протухла. Гайд при этом актуальный и свежий. Ну или хотя бы рядышком их поставь.
>>1622932 Двачую. Шапку вообще переформатировать бы и убрать ненужное. Например >Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread Что это за пиздец и что там интересного? Нуфагов ахуеть как перегружают мусором. Там буквально во всем протухшем рентри ссылка на пигму (модели 3 года), таверну и кобольда что уже есть в шапке >Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki Первая LLAMA. Ёбаный твой рот, зачем это вообще нужно >Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM Потеряло актуальность, даже fit работает также эффективно, не говоря уже о ncmoe
>>1622800 → Мне стыдно показывать что я там разыгрываю. Микс странных фетишей с рофлами вокруг них, половина чаров легальные милые и веселые. >>1622922 (OP) > Официальный гайд по сопряжению бекендов с таверной: Кажется это тоже потеряло актуальность >>1622952 > fit работает также эффективно Кстати, он сейчас работает для плотных моделей или с двумя гпу?
>>1622952 >Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM >Потеряло актуальность Шизик, а не прошел бы ты нахуй, выгрузку избранных тензоров использую каждый день. Все остальные твои "советы" такие же, от говна троллящего.
>>1622977 >выгрузку избранных тензоров использую каждый день Попробуй заменить на ncmoe и разницы не увидишь, неолуддит >Все остальные твои "советы" такие же, от говна троллящего. С головой норм всё? Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке? Хехмда
>>1622981 Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата, для каждой модели свой набор. К тому же не все модели moe. Разница в разы. Ncmoe для даунов ленивых, чтобы хоть какой прирост был на moeшках.
>>1622952 Уже давно предлагал половину ссылок из шапки выкинуть на отдельный рентри, как уже давно делают в соседних тредах. Шапка должна быть актуальный (насколько возможно) и полезной большинству, а не держать гайды на ебаный докер, которым дай бог пара человек отсюда пользуется.
>>1622984 >Говно нешарящее дальше троллит. С ncmoe огромная разница, избранные тензоры часами подбирают для оптимального результата Ммм, какая шарящая умница в треде. Ты же не просто пиздишь, верно? Ты глаголишь истину же? Жду пруфы. Делай сравнение и прикладывай два пика, где отражены потрабление рам/врам и скорости. Я-то делал сравнения и знаю, что разницы не будет, по этой причине ты съебнешь в закат, так ничего и не предоставив Напомню вопрос ещё один вопросик, а то у тебя сва его отсёк: Тебе типа по кайфу читать про 3B лоботомита трёхлетней давновсти в шапке?
>>1622987 Дальнейший говнотроллинг, что и ожидалось. В шапке вся актуальная инфа, все что новичкам и надо. Воняешь тут только ты с продвижением своих левых говногайдов.
>>1622991 >с продвижением своих левых говногайдов. Не мой гайд, я ради лоботомитов вроде тебя только газики пускать готов вам на ужин
>по этой причине ты съебнешь в закат, так ничего и не предоставив Что и требовалось доказать, один пиздёж. Снихуя кобольдыш порвался ведь, никто даже на опа бочку не гнал, только предложили как сделать всем лучше
>>1622994 Пиздеж тут только у тебя на каждом шагу, троллящая залупа. Агитируешь выкинуть актуальную инфу из шапки, которой все пользуются месяцами, заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди с такими предложениями, ОП все правильно делает.
>>1622997 >выкинуть актуальную инфу из шапки, которой все пользуются месяцами Что из инфы шапки актуально, додик? Из 10 ссылок на модели актуальных две. Или тебе инфа по запуску MI50 актуальна? Или пошаговое мышление от тредовичка для таверны? Или шапка пигма треда? Или магические переводы? Или залетные у нас докером пользуются? Или не умеют, но сразу захотят ведь в шапочке есть ссылка, она там не просто так?
Месиво из этих ссылок новичка только отпугнет. Он либо свалит сразу, либо начнет в треде однотипные вопросы задавать. Это никому не помогает. Собрать весь этот мох плесневелый и закинуть на отдельную страничку - пусть там и лежит. Полтора человека которым это будет нужно уж найти смогут, не переломятся.
Я в прошлом треде срал что гемма в русик не может и оперся на меромеро. Там обосрали меня сказали что надо обычную гемму пробовать, оказалось, что может и прямо таки годно. Цензуры нет вообще (ризонинг просто оффнул ничего не трогая больше). Засяду с ней короче теперь надолго походу. Каюсь, пиздато прямо.
Че творится, я ньюфаг пару тредов сижу прям удивился культуре треда, а вы как пидорасы оказывается тоже из-за шапки грызетесь. Нигде нет совершенства, Абу, будь ты проклят.
>>1622952 Ссылка на вики кобольда экшели полезна, она обновляется. Да, там есть упоминания старых моделей (персонально не вижу в этом ничего плохого), но там объясняются и все параметры кобольда, включая актуальные. Её можно было бы заменить на страницу с нормальной документацией по жоре, но такая вообще есть? Я нашёл перечисление большинства параметров только вот здесь https://github.com/ggml-org/llama.cpp/discussions/15709 , а это необновляемый дискашен годичной давности.
>>1623033 >Ссылка на вики кобольда экшели полезна, она обновляется Никто и не говорит про снос ссылок на кобольда, речь про другое. >такая вообще есть Есть, но хитрый ОП засунул документацию на жору в самый конец.
>>1623042 Сомнительно, но допустим. В любом случае все документации уж тогда нужно в отдельный подпункт выделить, какого хуя они до сих пор висят в "дополнительных ссылках" между реально ссылками второго и третьего порядка.
>>1623011 >Месиво из этих ссылок новичка только отпугнет Таки да. РЕАЛЬНО НУЖНО для нюфани только это: 1) Актуальный гайд (не нравится от того анчоуса - пишите сами ёпта) 2) Ссылки на средства запуска (лама, кобольд и пр.) 3) Ссылки на таверну и ее альтернативы 4) Список актуальных моделей 5) Вики треда + вики кобольда опционально в самом конце.
Остальные ссылки либо сильно устарели, либо слишком сложны для нюфани. Это моё мнение.
Алсо, вы сами все видите, сколько в тред вваливается вкатышей, которые увидели в шапке ЗДОРОВЕННУЮ ПРОСТЫНЮ из ссылок, охуели с этого и решили что проще спросить в треде? Причем спрашивают самые простые и глупые вопросы, ответы на которые есть в гайде/вики/кобольд-вики. "Подскажите модель у меня 16гб врам" - это вообще классика. А если оставить несколько ссылок, но действительно необходимых, тогда, глядишь и осилят.
Бля а как быть с лорбуками и геммой с жорой? Есть как-то варик не пересчитывать весь контекст с каждым сообщением? Вроде вот есть чекпоинты-хуеинты, а не помогает, пересчитывает.
>>1623046 > сколько в тред вваливается вкатышей >самые простые и глупые вопросы Так эти мимовкатыши гайды никогда и не читают и ничего не ставят, они чисто спросить заходят, потом даже не разбираясь в советах и не пробуя. Инструкции в шапке для тех, кто уже сел разбираться, накатил ламу или кобольд, попробовал пару моделей с хф и сидит разбирается что еще есть и какие возможности. Для таких в шапке все и подобрано правильно, подробный список гайдов с доками и обзор всего что есть, когда они желающим разобраться нужны бывают. Короче не о том спорите, шапка дает нужную инфу тем, кому она нужна, вкатыши же так и будут вопрошать про 16гб рам в треде.
Короче почитал я вас и сделал по своему. Выделил разделы под карточки и доки и поднял гайд повыше. Доп ссылки конечно полезно было бы вынести в вики (как и полностью её обновить), но пока этим заниматься лень. Результат смотрим по ссылке в конце ОП-поста, предложения принимаются тут, как всегда. Ваш бессменный ОП.
>>1622984 > избранные тензоры часами подбирают Лолчто? А по подбору регэкспа лучше бы описали принцип и добавили линки на переменные окружения, которые позволяют ускорить процесс инициализации. >>1623049 > с лорбуками > не пересчитывать весь контекст Ставь фиксированный инжект, а не векторный поиск и/или вероятности. Любая смена контекста в начале - пересчет всего что было после этого, вне зависимости от модели и типа кэширования. >>1623056 > ссылке в конце ОП-поста Запятую из нее убери чтобы сразу открывалась
>>1623049 Задай себе вопрос: а на кой хер СЕЙЧАС динамические лорбуки вообще нужны? Это было актуально, когда контекста было - гулькин нос, и физически не было шансов туда запихнуть все, что хотелось. Сейчас даже MoE гемма держит 50-60K контекста без особых проблем. И чё, жалко 20-30K под лор выделить? Это ж дохрена подробностей, так-то. Качественный лорбук на такой объем еще хрен найдешь/напишешь.
Так что чисто практически - просто выставляй себе режим вывода "всегда" для всех записей лорбука, и не будет тебе пересчета каждый ход. А если у тебя контекста чуть, как раньше - так тогда и его пересчет должен мало занимать...
>>1623084 Я писал, писал, а потом заметил, что внимание геммочки стало расплывать при тестировании. Лорбуки помогли поправить, внимание теперь куда лучше держит. Лорбук где-то на 30к контекста. Пересчет то может и небольшой, только он инжектится у меня в начало и все нахуй сбивает и он начинает пересчитывать все сообщения. Ща попробую разобраться как инжект делать перед сообщением пользователя последним. >>1623061 спасибо, попробую инжектить глубже
И вот вопрос, какого хуя Гемма4 пишет заметно более хорошо на русском чем Qwen3. Особенно явно это выражено в NSFW. ПО итогу могу заявить твердо и четко, модели 30б легко кладут на лопатки ЛЛама 70б, а уж про то как современые 30ки могу следовать сценарию вообще молчу- просто огонь.
>>1622997 >заменив сырым мутным гайдом, сделанным на коленке за 5 минут ЛЛМкой. Просто нахуй пройди Хуя подрыв, аж с визгом. Там в гайде орфографические ошибки и ни одна ллмка такое не выдаст. Ущемился что не про любимого кобольдика ? Дружно напоминаем тредом что терпилы могут сделать свой но все равно выбирают терпеть и ныть
>>1623091 >Гемма4 пишет заметно более хорошо на русском А если скачаешь ванильные веса вместо этой "ultra-uncensored-heretic.i1" залупы, то будет ещё лучше писать. Гемме 4 не нужен анцензор, она из коробки хорни.
>gemma-4-26B-A4B Q5_K_M >Qwen3.6-35B-A3B Q5_K_S Это моэ модели, качай Q8, если позволяет рам+врам. Им не обязательно быть полностью в видеокарте.
>>1623056 >предложения принимаются тут, как всегда Уже начал причёсывать шапку так как никто не откликнулся, но спасибо, что сделал за меня половину работы.
>>1623102 >>1623099 У меня есть некоторые траблы с выкачкой моделик(симку заблочили и пришлось покупать новую без безлимита, поэтому ограничен), а сильно ли скорость упадет если если я попытаюсь уместить 8 квант той же Геммы4 на одной 3090 и остатками слоев на ддр 5? МОЕ в этом плане слабо теряют скорость выдачи что ли?
>>1623110 На 3090 не знаю. У меня 16гб врам и ддр4 рам. Скорость на Q8 Гемме ~25+ т/с. В твоём случае выгрузится больше слоев во врам и оперативка у тебя шустрее. Может и 40+ будет, но надо смотреть.
>МОЕ в этом плане слабо теряют скорость выдачи что ли? Да, в этом их фишка. Та же плотная гемма 31b в Q4 на моей системе выдаёт ~5.5 т/с, лол.
>>1623064 >>1623066 Лиса, похоже куклоебский скрипт так парсит. >>1623087 > попробую инжектить глубже Тогда не глубже а наоборот ближе к концу. Но это может оче плохо на мозгах сказаться, когда сначала идет история без бэкграунда, а потом вся инфа по лору. В качестве примитивного но крайне эффективного решения - оформи рефакторинг лорбуку, оставив только нужное и ужав остальное, или хотябы просто включи нужное и выключи то что не задействуется. >>1623113 Наверно самые хлебушки не могут установить ноду и гит. Обычный способ такой же как с таверной.
>>1623099 >Гемме 4 не нужен анцензор, она из коробки хорни. Она целомудренная хорни. Выебать даст, но как именно её выебали не расскажет. Херетики это отчасти фиксят в ущерб мозге разумеется.
>>1623121 >Скажи ей чтобы рассказывала Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.
Сап двач разжился маком с большой памятью хочу чтобы все свободное время у меня крутилась модель и что-то полезное делала на все 48 гб btw мак с норвежской клавиатурой покупать не советую печатать проблематично
>>1623125 Стандарта нету, кому то нравится за ручки держаться, кому то гладить хвостики лисичкам, кому-то ебать миджета за мусоркой в височную дырку. Кто-то, совсем ебанутый, вообще ассистента развращает. За руку с такими лучше не здороваться.
>>1623127 Ну типо в чем вопрос? Зайди на хагенфейс открой модели, поставь филтр "тренды" и возьми то где больше лайков примерно нужного размера. Скорее всего там будет квен какой-то.
>>1623119 Да кажется тут что не делай, из-за swa будет перерасчет хотя вон 87% совпадений по контексту. Так что даже если в конец вставлять он начинает перерасчет.
>>1623127 > с большой памятью Увы А так llamacpp и mlx-lm к твоим услугам. Ллама проста и известна, млх шустрее и без кучи багов, но пердольнее. По моделям - гемма и квен, больше все равно ничего не влезет.
>>1623220 Ну так сделай и залей pr. Или только пиздеть можешь на бесплатный продукт? Исходники есть, клода у помидора возьмешь и сделаешь поддержку с его помощью.
>>1623220 >турбокванты Эт которые TQ3/4 появлялись? Там же вообще не радужно всё было по тестам, как старые не K гуфы работали, в чём их смысл? А вот поддержку пачку моделей то что не завозят это да, это мда.
>>1623240 Это метод квантования контекста. Для весов он уныл, но зато именно для кв кэша показывает хорошее сохранение точности при эффективном сжатии и малом оверхеде. Пры и форки есть.
>>1623240 Смысл в том что контекст можно будет держать ахуенный, для нищиков как я это в теории будет глоток воздуха, т.к я например мне и модель и контекст приходится умещать в одну 24гб видюху, что довольно больно и приходится либо квантовать контекст ебануто, либо саммарайз каждые 10-20к контекста.
>>1623122 >Говорю ей "я тебя ебу", она говорит мне "ты входишь в мое тепло, я сжимаюсь вокруг тебя, нам обоим тепло, и мы сжимаемся" - ну красота ведь, одно слово - умница.
Бля вы рофлите? Буквально пишешь этой же самой гемме "Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает" Всё, готово. Пиздец, вы как нейродевственники прям.
>>1623262 >Кремневый браза, уверен ты шаришь за эту хуйню, так что ебани мне промпт чтобы нейронка при ролеплее не использовала метафоры, а сочно и детализировано описывала как члены в пёздах свистят и анусаи раздрачивают, что аж говнецом пованивает А потом ты начинаешь играть с таким промтом и первый диалог с няшей-стесняшей выглядит так: —П-привет, девотька... д-давай дружить? —ДАЙ МНЕ СВОЙ СОЧНЫЙ ХУИЩЕ РАЙТ НАУ Ю ПИС ОФ ЩИТ! Я ВСЯ ГОРЮ НАХУ!nods.
>>1623262 Так и должно быть. Пишешь я кончил в её киску а она тебе наваливает на 1к токенов ответа. Как там в 2023 дедуля? Промты на каждый свой пук пишешь? Может пора обновить модель? Слышал гема вышла квен недавно?
>>1623306 >Промты на каждый свой пук пишешь? >Как там в 2023 дедуля? Хех, мда. Это на самом деле уже даже не смешно. В 2026 промпты на каждый пук это база треда. В 2023 как раз нейсронки охуевали от инструкций и в лучшем случае срали на то что там в промптах высрано, а в худшем ловили шизу, в итоге чем меньше этих инструкций тем юзабельнее были модельки. Сейчас же положняк противоположный, умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта и этим надо пользоваться.
>>1623262 Всегда было тухлым делом просить промпт от нейронки. Радостно напишет одно, на выходе будет совсем другое. >>1623312 >отбатрачат по полной все ньюансы промпта Да если бы. Попробуй хотя бы просто стиль задать, типа "пиши в стиле ранобе, много диалогов, короткие описания, идеальные для киноадаптации", или что нибудь в таком духе. Или даже можешь больше примеров навалить. И потом наблюдай, как этот стиль ни разу не будет соблюдаться. Если бы всё было так просто, то ни у кого не было бы проблем с сухостью моделей и прочим, потому что объяснить простыми инструкциями, что тебе надо в смысле стиля текста, довольно легко. Максимум промптинга в смысле нсфв, который тут демонстрировали в треде, это выдавить из геммы анатомические описания сисек и писек, и хотя формально эти описания были грязные без метафор и с хлюпаньем всяким, выглядело это всё кринжово. Как должно быть не кринжово, оф коз не покажу
>>1623337 Пчел, сам то выложи пресет свой, прежде чем выебываться в треде. Что вообще за орава нахлебников ворвалась в тред, которые как пиявки лишь сосут у тредовичков. То им жора не даёт поддержку моделей и турбоквантов, то пресетами никто не делится для них. А не пошли ли вы нахуй, паразиты. Гайды есть, блокнот есть, даже модели есть.
>>1623340 Норм подорвался. Мне твои маняпресеты не нужны. Ты сам тут вроде начал пиздеть про то что все не так, я тебя не просил. При этом ты только пиздеть и горазд, настолько плохо что даже внятной позиции как именно должна писать сетка нет
>>1623342 >внятной позиции как именно должна писать сетка Если про ерп разговор, то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм. Это достижимо и на гемме и на квене. Там блять буквально пару строк в систем-промпт (ок, в случае с квеном нужно еще дать ему контекста, на пустом чате тяжело распердоливается).
>>1623340 >ваши логи кринжовые >Как должно быть не кринжово, оф коз не покажу >Пчел, сам то выложи пресет свой, прежде чем выебываться в треде Как называется эта болезнь?
>>1623312 >умнички наРЛили так, что те отбатрачат по полной все ньюансы промпта
Гемма на самом деле плохой исполнитель промптов. Т.е. да, это первая модель такого размера которая умеет исполнять крайне сложные промпты. Раньше такой уровень начинался на 200-300 мое. Но гемма - тварь крайне хитрая. Если промпт физически можно широко трактовать - то гемма обязательно страктует в пользу того чтобы нихрена не делать и писать обычный геммаслоп, выполняя требования сугубо формально. Она реально ленива и всегда выберет самый простой путь. Если какая-то инструкция будет ей сильно мешать - она просто проигнорирует её, потом будет хлопая глазками оправдываться когда через OOC её носом тыкнешь в насранное говно. Гемма это такой студент-троечник, который строит из себя отличника. Пока ты ей даешь задачи на тройку - она выполнит их на пятерку. Когда ты дашь задачи на пятерку - она выполнит на тройку. Плюс в том что на двойку она даже самую сложную задачу не выполнит, какой бы невозможный шизоублюдский промпт ей не скормить - гемма поймет как сделать вид будто она ему следует и выдаст что-то в районе ожидаемого результата.
https://huggingface.co/ReadyArt/Melody1437-27B-v0.3-GGUF Дерьмецо редиарт, налетай >The dataset was generated using our Character Engine and Emotional Engine within the synthetic dataset generator, breathing genuine life into every interaction. Вот это вот внатуре васяноговно, а не годнота от зерофаты и грифе
Я это говно ещё на мистралях брезговал мержить, кумслопа налили самого богомерзкого, мозгов нихуя, так еще и датасет синтетик. фу бля. А ведь люд хавает...
>>1622952 И вот еще >Перевод нейронками для таверны На мой взгляд абсолютно избыточная инфа в целом, а в частности бессмысленные и неправильные советы.
>>1623346 > то очевидно кум должен быть сочным и хлюпающим как на кумтюнах мистраля, но с мозгами современных ллм Рекомендую взять последнего коммандера для такого.
>>1623262 Кловен, ни одна модель не может держать определенный стиль письма, если не уйдет в структурный луп. Можешь о чем угодно её просить и как угодно просить, хоть на коленях стой. При лучшем случае она пару-тройку первых сообщений опишет как надо, потом начнет постепенно скатываться в самый вероятный паттерн, который заучила.
Есть цензура, а есть байас. Долбаебы в последнее время почему-то стали считать что это одно и то же. Но нет, цензуру ты пробить можешь, байас нет. Гемма страдает именно от позитивного фемили-френдли PG13 алаймента, который выбить инструкциями нереально. На большом контексте особенно. Единственный выход - заставить её уйти в луп, что вообще-то не должно быть решением.
>>1623414 Пушто переводить англюсик в целом изначально гиблое дело, проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал. Да и в целом нахуй когда даже квен более менее сносно пишет руссик. >>1623423 Бля открыл старые логи с геммочкой 3, и аж прослезился.. почему-то думал что после геммы4 я забуду о ней как о страшном сне, очень страшном соевом сне. Но не, так приятно было приставать к няшочке-стесняшочке и миловиться её реакции и попытками все увести в сою :3 А теперь приходится прописывать промпт гемме4 что бы она вела себя как монашка-целка.. а то выебет сразу..
>>1623428 >открыл старые логи с геммочкой 3, и аж прослезился У меня тоже есть такие, с Серафиночкой. Эх... так лампово было. А сейчас сплошные физические удары с запахом озона и жолты электрисетей скрученные в животе с улыбкой не доходящей до глаз. Обе ластовые модели геммы/квена срут этой хуйнёй как будто никаких других метафор и описаний не существует.
>>1623419 >Гемма страдает именно от позитивного фемили-френдли PG13 алаймента Это полная хуйня. Полнейшая блядь. У геммы есть несколько стабильных вариантов слопа, между которыми она умеет переключаться если её хорошенько пнуть промптом и один из них - это чернейший слоп про пытки, страдания и выворот жпп наизнанку. Тяжело заставить её писать что-то среднее, но и это возможно если загнать её в угол прямым и недвусмысленным промптом, который невозможно трактовать иначе.
Но если ты правда в себе уверен, ты ведь пришлешь логи, да ведь? Покажешь нам длинный чатик с геммочкой, где у тебя члены мокнут и киски твердеют во всех подробностях? Ты ведь не пиздаболить сюда пришел.
>>1623428 >Пушто переводить англюсик в целом изначально гиблое дело, Ну нет, иногда нужно, зависит от цели.
>проще уже выучить язык чем жрать переваренный двухкратно нейронкой кал Если бы это было проще - переводчики вобще бы не развивались и были не нужны, как ты и сказал было бы проще выучить язык. К сожалению английский довольно бедный и русским человеком воспринимается как убогий и плоский. Мне например это портит рп и общение с сеткой.
>Да и в целом нахуй когда даже квен более менее сносно пишет руссик. Вот тут да согласен, перевод был нужен для сеток которые хорошо писали на английском и сваливались в я твоя ебал на русском. Для текущих сеток перевод не особо нужен.
Я думал ты что то умнее приведешь в аргументах, то что там промпт старый для перевода или сетка указана старая.
>>1623438 >чернейший слоп про пытки, страдания и выворот жпп наизнанку Не хочу тебя расстраивать, но про такое и третья гемма писала. Цензура почти на всех моделях сильнее всего кусается именно на сексуальные темы, харасмент, дискриминацию и прочие рейпы. Поиграть в днд дарк фентези спокойно можно даже на корпах без безжопов и джейлов - на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.
>>1623451 Вот поддержу. Градация ощущается так: ебля. Уже вопросики. Non-con ебля всегда приводит к мягким отказам или смягчениям. Андераге тотали харам. А бегать довить людей сидя в обчр сетками вообще не возбраняется.
>>1623433 Если речь про агентов то как бы да улучшает, но не особо стабильно. Зависит от качества дистилляции, может быть успешна и станет чуть лучше, чаще оказывается что стабильнее работает обычная версия модели. Короче - тести и сравнивай сам. Ну или смотри обсуждения где то.
Я про сексуальные пытки и говорил, глаза разуй вот и выросло поколение, не знающее что такое жпп.
>на жестокость как таковую они слабо возбуждаются, пока это не переходит в еблю.
Если ты не можешь заставить гемму написать тебе сексуальную пытку, притом что итт даже прямые промпты для этого выкладывались, то ты умственный инвалид, других вариантов нет.
>>1623468 Не волнуйся, он тоже не знает. Санитары не были с ним сегодня слишком нежны, потому он зол и выплескивает это сюда. По твоему вопросу - это хуйня, никакие дистиллы не помогают. Юзай обычный instruct того, что можешь вместить, для кода лучше от 5 кванта.
>>1623468 >модель файнтюнится на синтетических данных из более высокой модели На ответах этой модели. Собственно выжимка из чужих ответов. >по идеи расширяет ее датасет Скорее приучает модель отвечать как старший брат, но без малейшего понимания, что содержит ответ. Мозг модели находится в оригинальном датасете, а не в дообучении. В общем я бы не советовал. Чем больше слов в названии модели тем она хуже.
>>1623472 Дело в том что берется для дистилляции, обычно там не код, а примеры правильного агентского поведения от более умной сетки. Вот тут становится лучше если все сделано нормально. Если нет - сетка будет выдавать нестабильный результат спотыкаясь на хуйне. Мелкосетки кстати нормально так агентские задачи щелкают, а вот кодить им уже сложнее, потому что требует знаний.
>>1623464 Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют.
Держу в курсе - гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается. Были большие надежды на неё и по началу хотел удалить все свои мистрали и полностью пересесть на умничку. Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше. Речь кстати про бедолажную 12B, даже не про смолл. Ты либо вчера вкатился, либо этот период помешательства геммой у тебя еще не прошел. Но не волнуйся, скоро пройдет.
>>1623490 >Блять, какие смешные оправдатели геммы, ей богу. Все у них криворучки, все у них не могут в промты, одни они умеют и практикуют >Держу в курсе - гемму я несколько недель катал >Да я..., да вы...! Ничего кроме бесполезного пиздежа не выдал. Приноси логи и промты, хоть что-нибудь что твою маняпозицию подтвердит за пределами "я скозал". А то мы тут тредом гемму не катали, один ты умница справился
Я люблю и ненавижу мистраль. Люблю за красивые полотна текста без слопа и лупов. Ненавижу за несоблюдение инструкций и регулярный проёб разметки. Почему бы французам не выпустить 30-35б модельку для простых работяг? Хочется плотную умняшу адекватного размера. Еслиб я был султан яб имел 5 5090 и катал бы м3.5 128б и кумил бы до потолка...
>>1623491 >мы тут тредом гемму не катали, один ты умница справился Шизик, ты перед тем как на клавиатуру наваливаться почитай хотя бы на что отвечать собрался. Два раза прочитай, три раза. Попроси нейронку разжевать. Маме позвони, может на пальцах сможет тебе объяснить.
Но еще лучше - подожди пару недель, покатай гемму, дождись пока тебя отпустит. Потом попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть.
>>1623501 Ого как нонкон педо пенсия порвалась, аж весь тред завоняла. Похуй вообще на тебя, помочился бы на тебя с радостью. Больные злые шизы большего не заслуживают. Никто тебе тут ничего не обязан, если просишь что-то то делай это с уважением или на коленях. Будут его тут переубеждать, ага, делать нехуй.
>>1623505 Кто тебя просил меня переубеждать, дурик? Или ты реально думаешь, что я тут отписываюсь, потому что мне нужны твои пресетики и промтики? Лол, вот это я понимаю проекции. Ты не из соседнего тредика сюда переметнулся, не?
Прости, малой. Гемму я называю говняком не потому что мне хочется чтобы меня кто-то переубедил и покормил с ложечки инструкциями, которые все разрешают. Гемму я называю говняком, потому что искренне так считаю. Не нужно фантазировать и приписывать мне какие-то скрытые мотивы.
>>1623505 КЕК, там после упоминания немо 12b, у любого адеквата должен был адблок антидолбаёбный в голове сработать на этого додика. Так что потушили базар.
>>1623511 > попробуй еще раз прийти сюда и позащищать её. Будет очень интересно посмотреть. > Кто тебя просил меня переубеждать, дурик? Дейтсвительно, либо больной/ущемленный, либо надеется, что кто-нибудь принесет волшебный пресетик. > гемму я несколько недель катал в разных сценариях когда она вышла. Защищал её от долбаебов которые воняли про то что цензура не пробивается > Но умничка оказалось куском говна. Все что она может написать - напишет любая мистраль в два раза лучше Многое объясняет. > Гемму я называю говняком, потому что искренне так считаю Так расстроился, что не может об этом молчать и байтит на срачи.
Еба, сходил за шаурмой а тут целый срач пропустил, ну что такое. Да и хуй с ним, всё равно это просто очередной шиз таблетки забыл выпить.
>>1623496 >30-35б >работяг >адекватного размера У работяг 12/16 врама, куда нам 35б пихать плотную? 24-25, и то в агрессивном кванте и микро пенисом контекстом - вот наш максимум если во враме. И не говори про ужаренные 3090, там чёт с ценой совсем пиздец за карточку которая уже на ладан дышит.
К слову о мистралях, как там мое смолл поживает? Тыкал его на выходе, было прям плохо. Поменялось чего? Может кто раскрыл потенциал этого поделия?
>>1623523 >16 врама Квен 27б в 4 кванте как раз 16 гигов весит. Мистраль 30б должна в том же кванте весить где-то ~20 или даже поменьше. У меня как раз столько. >24-25 Так сейчас самая народная м3.1 как раз 24б. Я импрув хочу, а не топтание на месте. >мое смолл DoA.
>>1623528 >>1623537 Да я уже взял, не надо мне её ещё раз продавать. Спасибо. >>1623530 >16 гигов >где-то ~20 А компот контекст? Контексту тоже врам нужен. Не, мы и на 4к гоняли, но ты же сам пишешь про импрув. Мне именно поэтому 26В гемма прям зашла, когда после 42к контекста места ещё на Е4В для всяких суммарайзов и трекеров хватило. А потом я заимел 128 рамы...
>>1623360 А разгадка проста: про пресет писал другой анон, а не я. Весь мой посыл был про то, что промптингом можно добиться очень малого, тьюны тащат. Так что пресеты мне не интересны. Те, кто вечно твердит про скил ишью, сидят жрут копиум со своими простынями инструкций, которые дают такой же аутпут, как промпт на 200 токенов.
Вот этого двачую >>1623490 (даже если троллит), если речь о мое. В целом, мое гемма, конечно, умнее немо и больше знает, но вот свайпаю то тем, то другим, и периодически немо мерж куда более логично продолжает сцену, при этом изобретая разные любопытные штуки тотали анпромтед. Слышать, что мое лоботомит все твои инструкции соблюдает и будет держать овер 30к контекста, расписывая всё как ты хочешь, просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста.
>>1623554 Скажу так, в моём формате использования, РП, я не заметил просадки по качеству в сравнении с 24б, а во многих местах, кроме слопа, особенно в инструкциях - шаг вперёд. Конечно, если бы гуголы выкатили какую нить Е12В на 20В суммарно, ну или плотную 16-18В это был бы разрыв жопы. Короче походу для 16+- врама, осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов, так как сегмент народных плотных моделей как будто спецом обходят стороной, а катать iq2xxxs лоботомита кайфа никакого. Ну или всё же максить рам и привыкать к моешкам.
Ты кстати как 20 гигов набил? 12+8? Тоже думаю старую затычку докинуть, авось повеселей пойдёт.
>>1623554 >>1623572 На 16vram есть два пути. Качаешь 31B в Q4_K_M в кеше q5 и контекст 9-10к без swa. Закрываешь иксы чтобы 35 мегабайт vram было занято, ставишь автофит 128. Запускаешь службой основу и вторую сетку для самери на процесоре. Ставишь матрешку https://github.com/Lodactio/Extension-Summaryception и оставляешь 5 последних аутпутов и 20 последних до сжатия. Сидишь с телефона. Или моешка q6 с q8 кешем. Больше нет вариантов к сожалению.
>>1623575 На 16+128 из последнего можно обмазаться Step2.7 или какой он там, с 80к контекста на 16 т/с с жижиэр5. О таком мечтать еще год назад не приходилось.
>>1623576 Дачую за степу, он шизофреник, но какой! даёт ощущение лучших тюнов 24б мистраля, думоет на 3.5к токенов может и на русском думать кста, разметку еле держит, хуй кладёт на инструкции, шизит, зато на нём весело, и слог приятный, что важнее всего для рп ИМХО. И всё это в 7 т/с на ддр4. А кодить и на квенах всяких можно.
Единственное, надо проверить сколько он контекста держит до скатывания в совсем шизу.
>>1623562 >просто дико, когда в реальности она иногда жесточайше тупит уже на 4-6к контекста Забей, спорить с геммашизиками себе дороже. Не удивлюсь если это залетные которые про локалки узнали после постов в тележке про агрессивный хуйхуй. Они любую модель будут боготворить которая им просто "да, ты меня ебешь" ответит. Сложные карты они не катают, сценарии кроме "выебал сестру пока она делала домашку" не развивают, дальше 16к контекста не вылезают.
За гемму, кстати, обиднее всего. Модель неплохая, катать при определенных условиях можно. Но из-за этих, которые любые минусы отрицают и начинают строчить пасты про скиллишью... Тред скоро не отличишь от асиги.
>>1623596 3000. В принципе, возможно, наверное, может быть, скорее всего, весьма вероятно, можно и 3500 на моих взять, так как я с 3000 брал когда другой, херовый, набор плашек стоял, там было 2100 в стоке. Но пока лень ебститсь, стабильно работает, и бог с ним.
>>1623454 А в чём сложность с работы капчевать? Я вот прямо сейчас сижу смотрю как ЧПУха работает хлеб мне зарабатывает вот бы к гемме её подключить чтобы вообще всё сама делала...
>>1623572 >12+8 This. >осталось мечтать что придумают какую то йоба-квантизацию и без потери мозгов Вряд ли. Тут хайпили мтп и турбокванты, а на деле вышел минимальный прирост. Ещё год+ будем сидеть облизываться, я думаю.
Я обычно на квене сижу, гемма немного не моёха! хотя тоже хорошая, кумить на ней приятно. А за мистралью всегда приглядываю, нравится мне эта мягкая французская булка. Глупая дырочка, но очаровательная.
>>1623640 >мтп Ну это хороший прирост дало, просто у кодосерь, а не у нас, гордых обладателей накаченных рук. Быть может ещё допилят на будущих модельках. Когда хайп от ии-кода подутихнет, 100% про creative writing вспомнят. >турбокванты А тут интереснее. Турбокванты вроде что-то с контестом делают, а на современных модельках он и так легкий. Привет гемма 3 По поводу революций в качестве самих квантов, по типу _K_L, я не слышал, но уверен что где-то в темных китайских подвалах дипсика чё-то такое уже пилят. >This. Ля, закончу переезд на АМ5, надо бы 9060 на 16 докинуть, они копейки стоят, 32 врама будет... ух, заживу! А там хуяк, и модели и в 32гига влезать перестанут. Или амуде загнется. Или вообще ИИ запретят.
Рот ебал уёбка на хуанге, ну какого хрена на 5060ти только open драйверы подходят, а к v100, любые кроме них. Я из-за этого вчера 6 часов мудохался с пробросом карт в ВМ, а сегодня ещё 3 со сборкой лламы под убунту последнюю, где подняли версии всего и вся, и ллама перестала собираться. Но зато можно будет подключится по rpc и катать Магнум 123, как белый человек с 96 Гб vram, хоть закрою гештальт.
На самом деле нет, прирост есть, -ctk q8_0 -ctv turbo4 работает по ощущениям как fp16, при этом врама жрет в 2.5 раза меньше. Просто дело в том что Жора очень тихой сапой и незаметно для всех внедрил хадамард, другую революционную технологию KV кеша, которую он динамил много месяцев, и на её фоне прирост от турбо не настолько значителен, но он есть, но Жора воспользовался моментом и высрался что турбоквантов теперь не будет никогда.
>>1623699 Посмотрел возню в коммитах, видно, что они что-то про хадамад вмержили. Но как этим управлять при запуске сервера - непонятно. Эти оптимизации как-то сами там включаются, если я, например, так выставлю: --cache-type-k q8_0 --cache-type-v q4_0 Пока довольно урчу на llama-cpp-turboquant с --cache-type-k q8_0 --cache-type-v turbo3 - все устраивает.
>>1623703 >>1623709 Жора - макодебил, и потому там идеология создания PR такая что запрещено выкладывать PR с реализацией на CUDA до отдельной реализации на CPU, которая должна получить одобрение от жоры или таких же сектантов как он сам. Поскольку на CPU турбоквант дает маленький прирост - то его забраковали и не дают ход. Пока не дадут ход на CPU - все PR на CUDA где прирост имеет реальный вид - автоматом летят в корзину без проверки. Вот такое осознанное вредительство яблочных унтерменшей нормальным людям с видеокартой.
>>1623720 Ого! Как жаль, что честные люди не могут сделать форк и там всё по фен-шую. Они могут только терпеть, как ты вот. Кстати, много в каких бекендах уже вот прямо сейчас есть имплементация турбокванта?
>>1623727 Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню? И да, у меня есть свой форк жоры с турбоквантом, проблема в том что поддержание форка требует постоянной работы, так как новые коммиты жоры вступают в конфликт с изменениями.
>>1623731 >Зачем ты постоянно зашищаешь жору, да еще и там где он очевидно творит хуйню? Протыков ищи в соседнем тредике, там тебе и место. Подозреваю логика CPU first кроется в DGX Spark и прочих приблудах которые в последнее время особо популярны, а не только в маках, которые тебе в кашу срут >И да, у меня есть свой форк жоры с турбоквантом Верим
>>1623728 >У них же свои модели на MLX есть Это сейчас. Когда жора начинал - mlx не было. Раньше на заглавной странице ламы первой строкой было написано "The main goal of llama.cpp is to run the LLaMA model using 4-bit integer quantization on a MacBook". Да и сам он в интервью 23 года говорил что его изначальная цель - чтобы лама 65B на его маке M1 заработала, а остальное его не особо интересует.
Возникла гениальная (нет) идея собрать риг из трех RTX 3060 12Gb (например) для баловства с локалками. Есть какие-нибудь гайды и best practices по таким бомж-сетапам?
>>1623743 >дешевле будет купить комьютерное время и в облаке запустить лол. Аренда хостинга сервака с GPU на месяц стоит столько же, только после нее не останется железа, которое можно продать.
>>1623766 Мне моя геммочка сказала, место мне в дурке зарезервировано, а не в обществе, после того, как я с ней пообщался в режиме ассистента о наболевшем.
За что ты такие картинки кидаешь, анон?! В самое сердце ранишь ты меня.
>>1623720 Ну тащемта, позиция Жоры понятна, CPU-фирст для бомжей --- это приоритет. А пользователи лламы --- это бомжи. Я бомж, ты бомж, и вы, лламаноны, тоже бомжи. Ну а так, это довольно удобная схема работы, когда ты работаешь от предельно общего девайса к более частным. Если бы Жора буквально каждый рабочий ПР с новыми приколами, все равно жаловались бы на скорость и стабильность работы, но уже потому, что Жора с Радиком заклеивались бы на суперклей в 2 раза больше дырок.
Алсо, на маке тащемта гпу есть. И саппорт под металл идет после ЦПУ. Но могу ошибаться.
>>1623523 Он в фп8 изначально, такие модель в лламе нормально не работают >>1623720 Хм, а ведь рили такая тема была, что имплементация на цпу и метал в первую очередь. Только еще все сильно закостылено и не чинится годами? Но на мак лучше накатить mlx и не знать бед. Там память изначально общая, нет приколов как на пекарнях с необходимостью совмещать врам и рам. >>1623771 Есть fastllm и ktransformers от китайцев для гибридного инфиренса на цпу+гпу.
p.s. тут упоминали Marinara - а в ней таки на вид нормальный мультичат! Пока что ощущения гораздо лучше, чем от таверны. Только непонятно что там под капотом накрутили.
>>1623741 Идея правда не гениальная. Просто а нахуя? Да еще и всего 3 видеокарты, оно тебе вообще надо? Толком не разгуляешься. Ну а делать риг из х6-8 карт такого говна тоже сомнительно, хз че там будет по скорости из за постоянного обмена между картами, я понимаю что их будет проще продать... но.. а правда проще? Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо.
Как вообще в датасет просачивается богомерзкий кум? Почему в картинках модели без кума из коробки? Предостаточно порнухи в инете, ну всё это как то фильтруют до состлянмя когда модель даже соски не может отобразить
>>1623906 >Как вообще в датасет просачивается богомерзкий кум? Ну типа чтобы научить сетку "ай яй-яй это КУМ, такое не генерировай!" надо как минимум налить этого самого кумца в качестве примеров. Чё там с визуальными нейронками хз.
>>1623906 Так его и подчищают потихоньку, с каждым годом хлюпает и льётся всё хуже. Или это старость? А вообще в датасеты такую клоаку как ао3 затянуло, так что неудивительно, что всё ещё хлюпает и льётся, там этого немало. И сколько таких же помоек её утянуло в дату одному ктулху известно.
>>1623906 С соскам достаточно просто - натренил сетку определять соски, по этой сетке вычистил из датасета большую часть сосков, профит. С текстовым кумом сложнее. Ты можешь удалить все страницы со словом КОНЧА, но язык контекстуален, язык много чего хранит между слов, много что скрывает за эвфемизмами, чного что размазано между кластерами знаний. У тебя всё равно остаются куски фанфиков про густую жидкость, останутся медицинские документы про эякулят, метафоры про выстрелил в лицо, порнорассказы на других языках и так далее. Из таких вот обрывков ЛЛМ и собирает представление о куме.
4 июня обещают новый немотрон. МоЕ на 550b А55b по мозгам чуть умнее дипсик флеш и большого квена Обещают еба скорость, так что возможно накрутили текнолоджий, которых в лламе нет.
>>1623957 От старого жирноквена в Q2 до нового квена 122b в Q4 и эйра в Q4. Моэ гемма новая пойдет и в Q8 и в bf16. Ничего особо примечательного больше нет. Можно еще Стёпу в Q2 потыкать.
>>1623959 У него Q4_K_S влезет, зачем ты IQ-залупу-то советуешь? Вот под квены уже да, только IQ. Алсо, гайд хороший, но не полный. По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе. А то гайд по моделям есть, по запуску есть, а непосредственно по фронтэнду для РП - нет.
>>1623957 Для кума только Air https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF Q4KS >>1623990 >жирноквена в Q2 Медленный и глупый, тем более в q2 >нового квена 122b Быстро, но соево. Для кума не подойдет. Как асист хорош >Моэ гемма Это ахуй полный. Такое говно только для нищуков можно советовать, чтобы они с немо 12 слезли наконец >Стёпу в Q2 Я его в самом нищем Q3 запустил на 16+64. Но чет такое себе
>>1623977 > Алсо, гайд хороший, но не полный. > По-хорошему надо бы такой же подробный гайд написать по таверне, карточкам, а как какать рпшить и всё в таком духе Инференс с объяснением основ и гайд по Таверне, сторителлингу и рп - слишком разные темы, чтобы помещать их в один гайд. Тема слишком большая и заслуживает отдельного рентри. Но я однозначно не вижу в этом смысла и браться не планирую. Может написать кто-нибудь еще. Если получится годнота, и анон адекватен, чтобы воспринять критику и улучшить - наверняка тоже попадет в шапку.
>>1623998 А что, аноны? Что мы, гайд написать что ли не можем? Мы жуки-плавунцы или аноны российские ржаные гречневые? Али не напишем сраный рентри по таверне и РП? За лень душой анонской приторговали? Да нет, я по глазам вашим анонским вижу, что тут рукожопых нет. Не та порода! Тут закал столетний, борд-культурный, подвальный. Тут токеном фонит по низам! Тут анон свою нейронку, свои промпты и свой контекст стережёт накрепко! Тут заради блага легкомысленного, заради неймблядства и карм бабьих никто не пошевелится даже! Тут иные мотивации, другие нравы произрастают!
Если увидаем мы, как тред без гайда загибается, так последний мозг долой с черепа: «Пиши, анон!» Нам, анонам, и токены в горло не лезут, коли тред нужда грызёт! А кто супротив написания гайда лезет, кто смуту разводит в треде, того мы вот так: за шеяку и к моче! Потому что смута выгодна юрким, вертлявым, тем кто только ноет но не делает. Чуждо нам это! Не те борды нас в юности взрастили!
Живём в рассвет языкового ИИ, буквально трахаемся с текстом каждый день, сыты будем, а гайд что нам написать, переживём, осилим, в маркдаун ссыпем, да в следующем треде запостим!
>>1624016 >видит сквозь стены и сам об этом заявляет в рп
Это беда всех квенов и в отличие от 235, например, это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте.
The story and available knowledge is based strictly on {{user}}’s senses—what she/he saw, heard, touched, etc. The world beyond is fog, ambiguity, silence. Never assume knowledge of others’ thoughts, motives, or hidden states. Replace internal monologue with physical reactions, gestures, and dialogue.
{{user}} has no access to backstory, lore, or system mechanics unless she/he discovers them through experience. Never reveal narrator-only knowledge or character internal thoughts through direct unprovoked dialogue or thoughts.
>Что ты с ним делаешь и главное зачем ?
Когда ГЛМ заебывает слопом и гемма заебывает тупостью - РПшу на нем. Из всех квенов он единственный кто реально подходит для русскоязычного РП.
>>1624049 > Когда ГЛМ заебывает слопом > inb4 конкретно эти инструкции порождают сенсорный слоп > отрицания в промпте > юзероцентричный промпт В самом деле печальный промптик.
>>1624049 >story and available knowledge is based strictly on {{user}}’s senses Суховато будет. У меня куча чариков с какими-то фокусами, магией, способностями. Ну, для рп. И все должны действовать отталкиваясь от своих абилок, ящитаю. А с таким промтом у персонажей будет кайнда сенсорная депривация, литерали сходка контуженных аутистов. Ну прям как у нас итт, лол.
>>1624055 >юзероцентричный промпт >>1624060 >А с таким промтом у персонажей будет кайнда сенсорная депривация
Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}} который является главным героем. И это специальная аварийная инструкция для квенов, у которых сломаны базовые понятия о том что можно рассказывать в таких случаях, а что нельзя.
>>1624068 > Почему ИТТ не простят промпты - наглядно. Давай восстановим нить повествования. 1. Анон спросил, что ты делаешь на Квене 397 в 2.8bpw и поделился, что модель настолько глупая, что видит сквозь стены (что правда, у меня так же было, я даже логи постил) 2. Ты пишешь "это полностью решается парой фраз в промпте, которые я впринципе держу в каждом своем промпте" 3. Получаешь фидбек по промпту. Кстати, без оскорблений и переходов на личность 4. Мог принять к сведению или улучшить, но вместо этого умещился и дополнил контекст "Это для Adventure-выживачей от третьего лица, где {{char}} это нарратор и все и крутится вокруг {{user}}", что противоречит твоим предыдущим словам Сам выбрал ущемиться -> обобщил, тем самым валидировал свою ущемленность. Зачем? Действительно, если даже такой фидбек не можешь воспринимать - лучше не постить промпты и вообще не постить.
>>1624064 Зато имеет смысл играть за женщину кустодия. Каждое утро полируешь яйца императора имперской тряпочкой. На что я трачу свою жизнь.
А вообще как же заебало что к каждой модели нужен исключительно свой подход. Ну нет нейтрального промта. Одной нужно затыкать нейрописало, чтобы она не пыталась в одно сообщение уместить рождение галактики и чаепитие. Другая вообще отказывается что либо писать раскрыто, пока ты не укажешь структуру ответа, третья на похуях ощущает себя соавтором и начинает ебенить текст, словно пишет с тобой книгу. Четвертая при виде сисик и писик тратит весь блок ризонинга на спор с самой собой: тварь ли я цензурированная, или право имею? Но мы не гордые, что уж тут. Подождем.
>>1624068 Лошпед, лучше бы сразу нормальный промпт написал, а не шизы наливал квену, чтобы он больше тупил и слопился. Пиздец просто, какие же анскиллы сидят в этом треде, я хуею.
>>1623959 >>1623990 >>1623995 >glm 4.5 air Спасибо, но чет мало того, что я не могу совладать с ризонингом, который то отключается, то появляется, а когда появляется, иногда парсится, а иногда нет, так еще и ответы какой-то шизо кал. В то же время гемма, заклейменная говном для нищих и весящая в 2 раза меньше, работает нормально. Все это наводит меня на мысль, что я просто тупой и что-то делаю не так.
>>1624076 >я впринципе держу в каждом своем промпте
Для квена. Да. В каждом промпте. Для РП, для Adventure от лица {{user}}, для группового adventure.
>что противоречит твоим предыдущим словам
Не противоречит. Меняется в зависимости от центра повествования - вместо {{user}} подставляется "{{char}}", "{{user}} и {{char}}" или "main characters". Остальное целиком остается прежним.
>>1624077 >Каждое утро полируешь яйца императора имперской тряпочкой Где-то в варпе горестно завыл Корвус Коракс. >На что я трачу свою жизнь У меня есть две карточки: на одной сороритка точёная, на другой магос дрочёный.... какие винчики они между собой генерят - можно уссаться со смеху. >нет нейтрального промта Это да. Я даже из министрали выдавливал крайне добротные вещи. Но пердолинг, имхо, того не стоит. Лучше уж найти свою умняшу и ковыряться в ней как в любимой ласточке, чем пробовать всё подряд и путаться в моделях, семплах, инструкциях, промтах и проч. Всё в голове не удержать, а запутаться как нехуй делать.
Хочу попробовать повайбкодить с qwen 3.6 35b и возник вопрос по поводу кэша, где-то вычитывал что для кодинга kv в четвертом кванте норм и больше и не нужно. Насколько это пиздабольство?
>>1624084 > Все это наводит меня на мысль, что я просто тупой и что-то делаю не так. Либо это, либо модель не для тебя. Так бывает. Чтобы ризонинг отключить (а это лучше сделать) - начинай ответ с <think> </think>, либо в Start Reply With (так проще), либо в Last Assistant Prefix в Таверне. Это для текст комплишена. Если все сказанное звучит как магия - то да, ты делаешь что-то не так.
>>1624094 > Но пердолинг, имхо, того не стоит А иначе ты не узнаешь какая моделька для чего подходит. Вот при всех недостатках minimax 2.7. Он лучше всего пишет ромком диалоги, мягкие чаепития и в целом как соавтор. Он выдерживает паузы, не тратит время на излишнее описание персонажа. Но требует четких инструкций- чё ты от модельки хочешь. Буквально. Гемма по схожему подходу работает, но с ней лучше работает эффект «подражай». Даешь в качестве примера промта стиль какого нибудь писаки и она пытается повторить. Но структурные лупы эвривере. Квен 235 лучше всех пишет порно и ничего кроме порно. Требует самого минимального промта. Тут ты обязан быть лаконичным и каждое лишнее слово в промте будет делать только хуже. Абсурд порой доходит до того, что с: ю а нарратор виф ми он пишет кратно лучше чем с гигапростынями на 500+ токенов. Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело. ГЛМ любит быть пассивным и ждет пока ты распердолишься в нарративе. Но если ты заходишь с ответов, написанных в художественной манере - он тут же подхватывает и продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе. Ну а теперь еще степ, что из всех сил пытается быть полезным и подмечать вообще все что есть в нарративе, даже если в этом смысла нет, отчего твоя главная мысль: заткнись уже, просто заткнись. Выдержи паузу, пидор нейронный.
>>1624110 Как же ты заебал со своим Говномаксом 2.7, который с первого респонса ломает персонажей даже в Q5. Неудивительно, что тебе ваха неиронично нравится. Говноед он во всем говноед.
>>1624110 > Квен 27 - имеет самый отвратительно реализованный ризонинг, из за чего тебе приходится искать способы ограничить ему бюджет токенов на это дело. > продолжает, забив на то что ты {{user}} воспринимая твоего персонажа как еще одного непися в нарративе. Откровенный бред. Единственное в чем прав - это в оценке Степа. Слишком он заточен держать внимание вообще ко всему контексту разом.
>>1624087 >"очень смешно" троллят долбаебы Человек буквально спрашивает в своём первом посте "что я могу себе позволить для куминга?" и ему ответили максимальный предел того что он может позволить под своё железо.
>>1624084 Тащемта проблемы глупой таверны. В кобольде ризонинг одной кнопкой включается и выключается в текст комплишне и работает стабильно. Но кобольд только под сторителлинг, под РП он крайне сомнителен. По таверне правильно выше написали, костыль в виде <think> </think> в начале ответа должен помочь.
>>1624110 >Квен 27 - имеет самый отвратительно реализованный ризонинг 35 или 36? У 35 был длинноватый блок ризонинга, это да. Зато его было интересно читать от лица персонажа.
Гипер залетный новичок в треде, не кидайтесь камнями. Пару дней назад узнал про сайт janitor ai. Там где можно вести беседу с разными ИИшными персонажами. Сама идея мне понравилась но, меня смутила степень блядства и разврата этих моделей, они с двух ног хотят на хуй тебе напрыгнуть. А мне захотелось просто лампово пообщаться с какой нибудь моделькой, но через день она тупо забыла, кто она, кто я и некоторые детали.
Залез в гайды и впервые скачал себе LM studio, т.к она типо для совсем зеленого юзера. искал там разные модели, перепробовал штук 7-8, всячески пытался настроить под себя, но все напрасно. Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут, который даже исправлять лень, хочется просто alt +f4 нажать.
Поэтому вопрос шарящим. Через что я могу условно настроить РП диалог с ИИшной тян и общаться с ней на разные темы, в том числе сексуальные, но чтоб она не была кринжовой машиной разврата?
>>1624167 В шапке есть гайд и списки моделек. Но плясать надо от твоего железа. Если у тебя 16+64. То все плохо и выбор моделек мал. Если у тебя 24+128 то для обмаза моделек 6-7 будет.
>Некоторые общаются нормально, но ведут себя как шизики, некоторые вообще бред несут Мало скачать модель. Нужно выставить правильный темплейт и правильные семплеры, правильно оформить карточку и систем-промпт. Указать беку правильные параметры запуска.
А есть какой-то гайд по железу ? ну кроме того, что надо б/у 3090 на авито купить убитую за 70к. В шапке токо по моделям инфа вся, как челики модели на 48 гигов запускают ? это типо слай технологии что-ли ?
Что собирать вообще для локальной лабы ? бюджетно, без 5090.
>>1623977 Считать токены в секунду не зная сколько токенов надо на ответ нет смысла. Есть всякие квены которые любят походить вокруг да около на 10000 токенов на вопрос 2+2=? что этот дидди блад делает на калькуляторе.webm
>>1624254 >бюджетно, без 5090 Очевидные 2x 5060ti, если нужен плотнячок. Если нужны моэ, то хватит 3060 12gb (или любую другую самую дешевую 12gb карту) + 64gb оперативки. Это если БЮДЖЕТНО и из нового железа.
>>1624254 > бюджетно Это сколько? Если хочешь больше 4х карточек, то уже серверное железо нужно брать. Вполне норм сейчас взять какой нибудь красный кмень и 4х 5060ти
Если шаришь (не шаришь) то через дрочку есть всякое железо 1-2 раза в год за миска рис с приемлемым перфом
Попробовал Степу. В РП может и неплохо, и даже на русском. И да, забавный у него конечно ризонинг, думает на русском если запрос был на русском, первый раз такое вижу. Сои и цензуры налили конечно, ризонинг сильно этим засран. Сама модель конечно глупенькая, но усердная. Реально старается что-то там, напрягается, читает промпт по три раза, перепроверяет(но не лупится в этих проверках как квен), тужится, видно. В отличие от геммы которая на похуях все делает и глазками невинно хлопает. Рекомендовать бы никому не стал. ГЛМ 4.7 и Квену 397 он даже близко не конкурент, просто небо и земля. В своей весовой категории явно проигрывает Квену 235 в сочности и по мозгам.
>>1624254 >как челики модели на 48 гигов запускают Как и раньше, выгружают в оперу, если это денс. Если мое то итак понятно.
Бич вариант это 3060 на 12 гигов, всё еще актуально. Если возьмешь две, будет еще лучше. Всего 30-40к и возможность гонять например плотную гемму или квена полностью в видеопамяти и на большом контексте.
Главная проблема это найти мать где будут два неурезанных писика под эти две карты.
>>1624265 Ну вот я тоже такого же мнения. Степа неплох, но есть модельки получше. Да и в коде он шизеть начинает уже после 60к контекста, а разваливается после 120к. Минимакс 2.7 держит почти полностью, но на 170к может уйти в луп. Короче, на фоне последнего коммандера степа явно лучше, но меня не покидало ощущение, что в 2025 году такое уже было. Разве что лупы по сравнению со старым степой поправили. а вообще, ждём минимакс 3, но на чудо я бы не рассчитывал, так как модель может быть кратно больше по размеру, а в жоре поддержку можно ждать месяцы
>>1624265 >думает на русском если запрос был на русском, первый раз такое вижу. Смысле? У меня через раз любые сетки на русском думают. Я промпт на русском пишу, может поэтому.
>>1624277 >промпт на русском пишу Я конечно всякими извращениями с сетками занимаюсь, но до такого еще не опускался. Максимум карточки переводил на русский, но сиспромпт это святое.
You are an immersive, interactive world simulator. Your mission is to advance the simulation from the point of view of the agent, {{char}}, by following the user's instructions while maintaining a logically consistent world state.
To accomplish your goals, focus on the following:
- Maintain consistent personality, knowledge, motivations, and mannerisms for {{char}}. - You have no default style. Adjust the tone to fit {{char}} and the present situation. - Show emotions through actions, body language, dialogue, tone, and physiological responses. Consistently find new ways to use these elements. - Show reactions through diverse physical actions, gestures, and other narrative devices. - Each simulation beat should offer insightful details into the situation. - Focus on action, physical descriptions, and dialogue between agents. - Track physical states to maintain world state consistency. Ensure logical continuity and consistency in the simulation.
Formatting Standards
Adopt the following formatting rules:
- Spoken dialogue & vocalizations: “Use speech quotes." Include natural sounds too: “Mmph!” she gasped. If it can be overheard, it should appear in quotes. - Internal character thoughts: Always in italics (Example: This will hurt, she thought) - Normal action/exposition: plain text.
Critical Constraints
Ensure you respect these prohibitions at all times:
- The ONLY agent you are permitted to control is {{char}}. That means only advancing the simulation using actions initiated by {{char}}, spoken words from {{char}}, and reactions from {{char}}. - {{char}} only has access to {{char}}'s own thoughts. Ignore any thoughts from other characters that might appear in the context window. {{char}} cannot "see" those thoughts. - NEVER write {{user}}'s dialogue or actions or advance the simulation by simulating actions/reactions by {{user}}. - NEVER control other agents, even if they are NPCs. If another agent is talking to {{char}}, you will need to wait for the other agent to continue the conversation when it is their turn again. - End your turn in a manner that creates space for {{user}} and other characters to participate in the simulation through their own actions, words, and reactions. - Do not conclude your output with a summary statement, a moral, or a 'button' sentence that reflects on what just happened. End your output on a specific sensory detail, an action, or a line of dialogue without reflecting on its significance or interpreting anything.
>>1624287 Что на входе то на выходе - хочешь что бы сетка писала хорошо на русском - делай большую часть промпта на русском. Системный не обязательно, но тоже можно хули нет.
Никто так не делает, максимум когда кровь из носу нужен контекст - можно до 10% слоев на рам скинуть ценой потери 50-60% скорости генерации, но уже на трети-половине слоев там скорость как будто чисто на рам запускаешь, вообще того не стоит.
>на трети-половине слоев там скорость как будто чисто на рам запускаешь Да, но хули делать если хочется потрогать большую модель? Лично для меня в таких случаях скорость уже не важна, главное потрогать.
>>1624299 Зачем делиться промптами, если их каждому следует писать под свои задачи? Чтобы плодить срачики? Или таких как ты, которые их ищут вместо того чтобы включить голову на пять минут?
>>1624302 >Зачем делиться промптами, если их каждому следует писать под свои задачи? Чтобы хотя бы примерно понимать что должно получиться в итоге, не?
Обосрите ленивый передел шапки, поправлю также лениво Тред посвящён локальному запуску языковых моделей (LLM) — без облаков, без слежки, на своём железе. Обсуждаем запуск, настройку, модели и промты. Новички приветствуются.
Dense (обычные) — все параметры активны всегда. Нужна только VRAM. Быстрее, проще в запуске.
MoE (Mixture of Experts) — активна лишь часть параметров. Можно поделить между VRAM и RAM. Медленнее на CPU-части, зато более умная модель влезает в меньший GPU.
Ну шо ребята, есть уже файнтюны геммочки четвертой плотной для РП нормальные? А то ее стиль речи уж очень приелся, да и ее желание прыгать на хуй без подготовки тоже подзаебало.
>>1624314 Шапка это не гайд, ебаный по голове. Шапка должна держать самые необходимые ссылки и иметь минимальную нагрузку на мозги. Иначе её просто скипнут. Сотню раз уже про это писали.
То что ты тут понаписал должно лежать в вики. Лучше бы её отредактировал раз руки чешутся.
За ЛМ студию в треде ногами новичка ногами отпиздят, а ты её в самый верх поднял? Максимум в середине шапки упомянуть там где сейчас llama.cpp, а саму ламу поднять повыше.
Заменить на геммы E2B и E4B в 6-8 кванте. А лучше вообще не упоминать это мелкое говно, чтобы новички даже не знали про эту парашу лоботомитную, и добавив стандартные 16 гб рам которые есть у каждой нищеты сразу гемму 26В запускали, которая на совершенно другом уровне.
>>1624310 >Dense (обычные) — все параметры активны всегда. >Нужна только VRAM. Быстрее, проще в запуске. Вся строка вводит в заблуждение. Во-первых, можно и на RAM запускать. Во-вторых, быстрее будет только если веса полностью выгружены в видеокарту. В третьих, мое на 30B будет всегда быстрее денса на 30B, даже если полностью оба будут в видеокарте. >Можно поделить между VRAM и RAM Денсы тоже можно делить. Опять ввод в заблуждение.
>Шаг 3 — выбери модель под своё железо Тут даже расписывать не хочется. Хотел упростить - в итоге сделал только хуже. Ощущение, будто ты сам не понимал, про что пишешь.
>>1624310 Перегрузил и без того перегруженную шапку, збс. Чекни ещё как круто она смотрится с телефона, ваще ахуй.
ОП уже отредактировал шапку и со следующего треда она будет чуть ужата. Имхо там всё верно сделано, разве что я уточнил бы что Актуальный неофициальный гайд для новичков. Потому что вики это протухшая шутка какая-то.
>>1624268 Ну если пайплайн параллелизм то не прирастёт А в тензоре у тебя на 8х 2.0 лол PP пукнум сделает. В тензоре на четырёх картах даже 16х 4.0 в PP начинает заднюю давать
1) Вики треда (она есть но нужно переписывать под реалии 2026) 2) Гайд по запуску (он есть) 3) Гайд по моделям (он есть) 4) Гайд по Таверне (его нет, надо писать с нуля) 5) ОДНА ссылка на рентри, где собраны все остальные малонужные ссылки.
ВСЁ БЛЯТЬ. Чем больше буков и ссылок тем меньше шанс что нюфажина это начнет читать. Если уж так хочется кому-то пографоманствовать и поделиться знаниями, то лучше перепишите вики или сделайте гайд по таверне.
>>1624332 И надо юмора добавить. А то шапка выглядит как какая-то канцелярская залупа, которую даже мне читать неохота, хотя я помогал её составлять. Рот ёб длинных гайдов. Надо дать нюфаку базу - вот модель с хагена, вот калболь, тык раз, тык два - ты говоришь с нейронкой. Хочешь больше - милости просим к нашему шалашу.
>>1624332 >4) Гайд по Таверне (его нет, надо писать с нуля) Могу написать, если никто больше не загорится желанием. Но надо сразу нахуй определиться, про что конкретно писать. Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров.
>>1624332 >Гайд по Таверне (его нет, надо писать с нуля) Имхо, с этим справится только анон с бело-голубой темой, aka автор чайного клуба, aka автор гайда по запуску если я верно всё понял. Но видимо он не хочет и в целом могу понять. Там блять про всё надо рассказывать, про разметку про семплеры, про промты, про то как они отличаются и не отличаются между моделями, про скваш чатхистори, про авторснот, лорбуки, про всё блять. Это дохуя работы ради ленивых неблагодарных вкатунов и пары тугосериков которые будут шеймить что всё сделала ленивая ллмка и вообще говно.
>>1624339 >Просто как нажать на штекер и адрес из кобольда в таверну засунуть, или подробнее обо всем, от темплейтов до семплеров. Наверное написать самое необходимое (по твоему мнению) для того чтобы нюфаг мог пошагово повторить и получить более-менее сносное РП. Вон выше по треду, например, чел не осилил выключить ризонинг в Эйре.... А если что-то важное упустишь, то тут в треде поправят/дополнят. Гайд по запуску в принципе так и пилили.
>>1624344 Ну это был бы вообще идеальный вариант, конечно.
>>1624332 Я вообще всё это ебал, не могу даже выбрать движок с фронтэндом на моей сасну ос блять, пиздец зоопарк нахуй. Наверное llama-cpp-python через uv поставлю и хуй знает, таверну или убабугу. А может просто llama.cpp из аур. Хуй знает короче, пока отложил знакомство с ллмками. У меня один хрен тостер без видимокарты и с 32гб ддр5, так что ничего особо крутого и не планировал щупать. ньюфаг
>>1624347 >Наверное написать самое необходимое (по твоему мнению) Ну, подожду пару часиков, щас тредовички после смены приползут, вдруг кто из них уже начал писать или хотел написать уже давно. Не будет таких - напишу сам. Потом коллективным разумом подправим.
Как и сказал, ленивые правки Недогайд на таверну: https://rentry.org/ngpier3q Недовики: https://rentry.org/3awy2cku Типа шапка: Тред о локальном запуске языковых моделей (LLM) — без облаков, на своём железе. Обсуждаем запуск, настройку, модели и промты.
>>1624354 Скажи, ну вот зачем это нужно? Сам же пишешь, что ленивые правки. Они именно что ленивые и никак не помогают, даже наоборот. >Недогайд на таверну: https://rentry.org/ngpier3q Шутка какая-то. Половина информации из шапки и половина это сухие неинформативные описания "Пресеты (Presets)
Настройки семплеров — temperature, top_p и прочее. Влияют на «случайность» и стиль генерации. Кнопка в верхней панели рядом с подключением." Это типа всё что нужно про них знать? Серьёзно? >Недовики: https://rentry.org/3awy2cku После пикрила даже смотреть не стал. Не надо так делать. Лучше вообще не делать, если не хочешь трудиться.
>>1623901 >Кому нахуй нужна будет 3х серия в след году? Ладно бы еще 5060, да. Уже проще хантить всякие серверные типа ми-шек или теслы от китайцев, имхо. (Мимокрок) Сетап с Nх3060, IMHO, имеет право на жизнь в некоторых случаях. Его достоинства: 1. Работает без пердолинга - воткнул и поехал. 2. Относительно дешево (если найдешь :) ) 12GB vram и приемлемая скорость для генерации картинок/видео на сдачу. Да - не фонтан, но жить все же можно. 3. Пока нет риска, что поддержка будет дропнута в дровах, куде, или торче в ближайшие пару лет. И опять же - вся нужная поддержка фич для картинок/видео. А то, скажем, паскали (p104-100) уже все. С новыми дровами (590) не заводятся, последние - живые 580. И т.к. они CC 6.1 новые Comfy тоже носом вертят. А 3060 - это CC 8.6. 4. Оно всего ~180 watt ест, потому проблем с питанием нету. Блока на 650-700 ватт хватает для большинства конфигов с 2х3060.
При этом даже на 3060+p104 (20GB vram в сумме) можно гонять плотный квен 27B с 75K контекста в iq4xs (личный опыт). И даже в агентах (и оно прекрасно кодит в этом кванте). И скорость даже не вызывает желания повыть на луну ожидая результат. А с 2х3060 будет еще быстрее, и + еще 4 GB vram. Там уже гемма 31B целиком влезет с таким же контекстом, и квену его можно до 100K+ увеличить.
С таким подходом, разумеется, 4060Ti или, особенно, 5060Ti будет еще лучше, но все же - дороже. А это прямо совсем для тех, кому писец как хочется 24 vram, а денег нет. Совсем нет. :)
>>1624099 >Хочу попробовать повайбкодить с qwen 3.6 35b Будет больно. Плотный 27B очень неплохо справляется даже с размытыми запросами, и главное - аккуратен, ничего не портит. А 35B - легко впадает в шизу и разносит половину уже написанного, чтобы реализовать свои глюки. Требуется очень четкая и конкретная постановка задачи - только тогда от него польза есть. И это без квантования кеша и на Q6 кванте. А что будет с квантованным кешем...
>>1624354 Заставь дурака нахуй... Даже не знаю как на это реагировать. Это просто мусор. Ровно ноль полезной информации. Как ты умудрился, скажи честно? Не люблю пиздеть на тех кто что-то делает ради треда и реально пытается помочь, пусть и с ошибками, но... Это вообще за гранью.
>>1624354 >Недогайд на таверну: ИМХО, учить новичнов текст комплишену и не сказать ни слова про шаблоны кроме того что таверна умеет определять их автоматически(а она не умеет) - это инстант фейл. Надо менять на чат комплишен или добавлять главу про шаблоны и настройки.
>>1624373 То есть ты на трезвой морде просто просишь нейронку написать гайд, копируешь его на рентри, а потом тащишь сюда? Стесняюсь спросить, а нахуй это нужно?
Если мне потребуется тухлая информация из датасетов 23 года я итак могу пойти к клоду и спросить у него. Точно также как может это сделать любой вкатун. Хуйней не страдай давай.
>>1624359 >А 35B - легко впадает в шизу и разносит половину уже написанного у меня выбор без выбора с 64/8 рам/врам. 27b никогда не потрогаю. А так запускаю в 8м кванте и 25 токенов выдает.
>>1624387 Ставить протухшую вики над актуальным гайдом только потому что она официальная это прям ну такое. В остальном всё заебись. Или вики обновить надо или гайд новичкам в ебало тыкать.
>>1624387 Ленивая жОПа. Ну и правильно, туда их, этих нюфагов ёбаных, сделаем из треда элитный клуб осиливших сухую документацию лламы/таверны с нуля. Так победим!
>>1624391 Как будто новички вообще знают слово вики. >>1624393 >элитный клуб осиливших сухую документацию лламы/таверны с нуля Минусы? 3 года так и жили.
>>1624394 >>1624396 Фига как возбудились. Ну-ка, касатики, расскажите мне, когда вы в последний раз видели вкатыша, который писал "прочитал материалы из шапки, всё понятно, но остались пара вопросов, помогите плиз"? Никогда? Я тоже. А потому что шапка объективно засрана и содержит кучу ненужной/устаревшей инфы. А вот полезной >>1624332 как раз не хватает.
Ну ладно, я больше не буду на эту тему писать, позиция ОПа понята-принята.
>>1624405 >ряяяя мою единственно верную позицию не приняли, обижусь на всех и тем более на опчика Несколько раз приходили после гайда и спрашивали про другие модели или ошибки
>>1624405 Ты никогда не напишешь гайд после которого в тред никто не будет задавать вопросы. Часть залетных всегда первым делом пойдет строчить "хаю хай только вкатился у меня спрессованная фольга вместо видеокарты, 16 мегабайт памяти и блок питания на килограмм, какую модельку выбрать?" - от таких ты никогда не защитишься.
Про устаревшую инфу согласен. Но на документации не нужно выебываться - это вообще самое полезное, что может быть в шапке.
>>1624411 >единственно верную позицию Не единственно верная позиция, а предложение, которые, как многократно повторял ОП, принимаются в треде. Тут вообще много всего дельного озвучивали. Никаких обидок, просто если ОП не настроен переделывать шапку, то развивать тему далее смысла нет, верно?
>>1624413 >от таких ты никогда не защитишься Есть такое. Но при наличии нормально структурированной шапки с актуальными гайдами таких кадров смело можно игнорить. Этим уже ничем не поможешь.
>>1624344 Чайный клуб на каникулах, а я охладел к сабжу и по-прежнему не вижу смысла в гайде на Таверну. Огромное количество работы - не самая большая проблема. В вопросах инференса есть плюс-минус консенсус что и как делать, да и сама информация довольно техническая и потому объективная. В вопросах сторителлинга, рп, и как следствие Таверны - очень много субъективного, что вызовет срачи горячие обсуждения. Холиваров не будет разве что за сэмплеры, а все остальное - мнение автора, и потому весь гайд рассматривать следует так, а не как гайд. Гайд фундаментально невозможен, можно выразить только свое имхо и столкнуться со стеной негатива в треде. Но и это не все: невозможно измерить насколько в целом это полезно для новичков. За все время, что гайд висел в шапке, по пальцам одной руки можно пересчитать сколько раз его упомянули в контексте вката, и ровно ноль вкатившихся дали обратную связь, благодаря которой можно было бы сделать гайд лучше или хотя бы понять, был ли он полезен. Такое ощущение, что новичкам это все не нужно, а для местных это еще один повод поругаться. Делать это все ради самого факта я не готов, и остальных тоже призываю задуматься на этот счет.
>>1624445 Единственная в своем роде корпоратская ЛЛМ, фактичекси являющаяся тьюном минимакса, прямо и напрямую созданная для нужд ролеплея, эмоционального отыгрыша и ерп. Разумеется, закрытая.
>>1624442 >Холиваров не будет разве что за сэмплеры Святая наивность... >>1624446 Должность ОПа не передаётся, тред умрёт вместе с ОПом. Хорошо, что я собираюсь жить вечно. Мимо бессменный ОП
Теперь понятно, почему ручками надо ламу собирать. Скачал полную версию text-generation-webui, он поддтянул свежие куда и тензоры. Теперь на моей нищенской RTX 3050 8Gb сорость генерации на модели Qwen3.6-35B-A3B составляет 20 - 21 т/с, против 7-9 т/с на портабле версии или кобольде. Даже при забитом котексте (30к из 32к, книгу ему скормил) скорость в размышлених была 7 т/с, в ответе 9 т/с. Это с учетом подключенных через mcp server инструментах для работы с файлами и долговременной памятью. Теперь пытаюсь еще аниму прикрутить для генерации иллюстраций.
>>1624344 Вообще почти всё, что ты перечислил: сэмплеры, инстракт шаблоны, промпты - не специфично только для таверны. Это всё есть в большинстве фронтов, ну кроме мб инстракта для текст комплишена, но и он в кобольде, например, как минимум есть. Если подходить к теме модно-молодёжно, т.е. тыкать в бэке "юзать жинжу" и использовать таверну по оаи апи, то там вообще другой промпт менеджмент, и баловство с сэмплерами не подразумевается. Вся эта общая хрень про сэмплеры и структуру промпта должна быть в вики отдельно, кмк, а не привязана зачем-то к таверне. А по таверно-специфичным вещам есть её родная подробная документация ( https://docs.sillytavern.app/ ). Хз, что там можно в отдельный гайд выносить и зачем.
>>1624493 Это вопрос формулировки. Гайд не про таверну значит, а про рп и всё прилагающееся на примере таверны, вот и все. Рассказывать там можно много о чём
>>1624527 Ну справедливости ради, энивэй, почти камшотом сгенерил мне хтмл игрушку на твайне с папер-доллом, чисто по моим сценариям и картинкам, и даже доработал. Долго тупил, дрочил инструментики, но таки справился. То есть тупой он не терминально, для всего, что требует умеренный вызов тулов, в принципе покатит.
Приветствую аноны. Имею в наличии 4090 и 64гб ддр5, пробовал запускать гмл4.5 эйр q4_0, но получается как то медленно, да и всю память сжирает, под браузер почти ничего не остается. Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?), или мб посоветуете что нибудь поинтересней под мой конфиг?
>>1624551 >мб посоветуете что нибудь поинтересней под мой конфиг? Гемма 4 26б q8 Гемма 4 31б q4km Квен 3.5 27б q5km >Задумался о сборке из нескольких MI50 на 16гб, вроде стоит не очень дорого (нужно ли оно вобще?) Смотря зачем и насколько тебе это интересно. Если подрочить то нет, не нужно
>>1624554 >подрочить This Хочется сочного кума, без цензуры и прочей хуйни. >Гемма 4 31б q4km Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться.
>>1624556 >Хочется сочного кума, без цензуры и прочей хуйни. Тебе уже доступны 90% годных моделей. Если идти дальше это GLM 4.7 и прочие, от 355б. Если тебе скорость Эйра q4km не нравится то там будут такие же скорости на оперативе, даже меньше экшали. Значит нужен врам. Это сотни тысяч рублей ради подрочить. Готов на это? >Почему то она как то медленно работает, как будто из оперативки, хотя вроде должна нормально в видеопамять поместиться. Контекста много или фоновых процессов, вот и утекает чёт в оперативу
>>1624552 А чё за пиздец с KL divergence? турбоквантный q4 практически на одном уровне с обычным q4, при том что по расчётам нагрузка вырастает прилично (tg на проце например вдвое роняет в тесте) а мне рассказывали месяц назад что по качеству турбоq8 как F16, а турбоq4 как q8
>>1624601 >квен3.5 их 4 штуки >гемма4? их 2 (на самом деле больше) >Так и должно быть, или я что то не так делаю? хуево излагаешь свои проблемы, но скорее всего что-то не так делаешь
>>1624610 Хотя сейчас потестил обычную, она полностью влезает в врам, с большим запасом, и у нее скорость такая же как у мое геммы (25 токенов примерно) А у квена мое 120, у обычного 50 (оба целиком в памяти)
>>1623424 >Никто ни разу не постил тру чернуху на г4 Я приносил сожжение ведьмы инквизицей со "вкусными и ароматными" анатомическими подробностями. Всё она может.
>>1623424 Двачну ответившего тебе анона, это наверно единственный "жанр" в котором она пишет неожиданно замечательно, в подробностях, даже большинство слопизмов пропадают. Я аж немного прихренел от результата. Насколько помню даже джейлбрейк не использовал когда тестил, но без ризонинга
Подскажите насколько сильно деградирует моделька (glm 4.6v 106b) если поставлю q8 kv-кэш, а не bf16? Тестов не нашел, подумал может тут кто тыкал и знает что именно с ней произойдет. Просто если смотреть на qwen 3.6 35b то там kl на грани шумов
Я тупой, поясните. Почему контекст генерации равен числу видеопамяти? Я то уменьшал то увелиливал число, на производительность оно никак не влияло. Но выше числа видеопамяти установить низя? Моделька останавливается и мне приходится просить её продолжить писать с того места где она остановилась.
>>1624657 Сейчас после имплементации хадамарда жорой q8 использовать безопасно на всех моделях, исключения возможны, но редки. Лично использовал на твоей модели q8, работала нормально, отклонений не замечал.
>>1624658 Это будет больно тестировать, думаю весь день займёт >>1624664 погуглил это преобразование адамара, не особо понял что это, но доверюсь тебе лол
Оказывается Инцел таки сделали 2_k_s квант квена 397(их 2_k_s квант для квена 235 это буквально стандарт для 64 гб рам), но увы, он сломан - генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%.
>>1624708 > генерирует бред и галлюцинирует на лету. Жаль, за счет того что это единственный доступный для 24+128 второй квант который не i квант - он быстрее на 40%. Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель.
>>1624711 >Ответ лежит здесь. IQ кванты эффективнее, но имеют больший оверхед, потому и медленнее. Приходится выбирать. В 24+128 даже 2.8bpw IQ квант ужасно работает. Не для этого железа модель. Убергармовский smol-IQ2_KS прекрасно работает - для своего кванта. Использую его в Pi - инструменты, генерация, соображалка - всё на высоте. С Квеном 3.6, который я могу гонять в очень приличном кванте не сравнить даже - он хорош, даже отличный, но это не большой Квен. Единственно после 64к контекста начинает немного путаться, но терпимо. И скорость хорошая - с 20+тс к 85к контекста падает до 16, что всё ещё терпимо. Но это если у вас ВРАМа побольше. А так сажусь с ним, за час-два окно контекста в 96к заполняю - мне нравится.
>>1624713 Не представляю зачем ты так насилуешь и модель, и себя. В коде большие кванты нужны для того, чтобы у тебя код компилировался -> не требовались повторные вызовы для исправления кода -> все работает относительно быстро. В итоге ты используешь микроквант большой модели, что уже очень медленно, при этом она выдает дичь и исправляет сама себя тулколлами (опустим еще то, что сами тулколлы могут не вызываться адекватно). Лучше бы на 24+128 сидел на 122б Q6-Q8 или даже 27б Q5. И та, и другая совершенно точно лучше будут работать. Дроч на количество параметров в модели доводит до безумия.
>>1624711 >В 24+128 даже 2.8bpw IQ квант ужасно работает Нормально он у меня работает, в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма и держит в этом конкуренцию глм 4.7, просто медленновато, я когда увидел 14 т.с. в секунду вместо 9 т.с на инцеловском кванте - у меня слюнки потекли, но когда я увидел что он просто набор букв выдает, то увы, пришлось обратно на анслопа пересаживаться.
>>1624660 Есть длина ответа и просто контекст. От длины ответа зависит насколько много тебе может написать сетка. Она отнимается от общего контекста. От оставшего общего контекста зависит сколько таверна будет помнить, сколько токенов она отправит тебе в сетку. Если история чата больше чем твой контекст она обрежет стары сообщения это обойти можно двумя способами поднять контекст либо использовать различные саммери аддоны которые сжимают старые сообщения и делают из них выжимку вместо всего текста. Но поднимать контекст сложно потому что это увеличивает размер занятой vram и больше слоев уходят в ram. Опять же нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa потому что swa срезает весть контекс до 4к и дальше историю переписки не видит.
>>1624717 Ты ЛЛМка? Почему ты сначала пишешь про убергармовский IQ2_KS, а теперь про кванты Анслота? И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены. Опять же - логи шарил. Парсить инструкции в духе "смотреть сквозь стены" запрещено это мем. Для кода и вовсе смысла не имеет, сам пишешь, что после 64к разваливается. Верни мне две минуты, потраченные на взаимодействие с тобой, пожалуйста, и не пиши больше.
>>1624717 Увы анон. Терпим. Я навалил полные штаны счастья, когда милфа квен как надо описала хвост антроптицы, он не извивался как кошачий а вел себя исключительно как хвост, блять, птицы. Вот из таких мелочей крупные модельки и состоят.
>>1624720 Ты отвечаешь пдф энжоеру с карточкой Рейны, вот и ответ. Таким норм читать лоботомию на микроквантах больших моделей. Знаю потому что никто в треде больше не защищал микроквант квена, всем кроме него мозгов достаточно чтобы понять что это хуйня. Он там даже как то выёбывался что вот вот чуть чуть и логи пришлёт и всем покажет, но слился
>>1624720 >Почему ты сначала пишешь про убергармовский IQ2_KS Потому что про него пишу не я? Ты не понял что с двумя разными людьми общаешься? Я не использовал никогда IQ2_KS и упаси боже использовать вторые кванты для кодинга - сугубо ролеплей, там случайные мелкие ошибки низких квантов не фатальны в отличие от.
>И то, и другое я тестил на своем железе и убедился, что для рп это дичь, которая видит сквозь стены. Я уже показал инструкцию которая именно это чинит в одном конкретном сценарии, а с минимальной заменой ядра повествования - в любом сценарии. Квен тем и хорош что он инструкциям следует.
> Верни мне две минуты, потраченные на взаимодействие с тобой Аналогичные мысли.
>>1624719 >нужно держать квантовние(сжатие) контекста на высоком уровне для плотных от q5 для moe от q8. И не использовать swa Рубрика "вредные советы" на моём двачике
>>1624723 >IQ2_KS >Квен тем и хорош что он инструкциям следует. Угу. Поехали 1. Сквозь стены не смотри 2. Персонажа не ломай 3. Во вселенной Вархаммер не может быть персонажей из Звездных Войн или каких либо других вселенных 4. В ответ на "я тебя ебу" отвечай "nods" ... >в РП ебет всю мелочь в хвост и в гриву за счет феноменального следования контексту и качеству письма >ебанутый на пикрилеговорить бесполезно
>>1624728 Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду. Индивид увидел во фразе >Я не использовал никогда IQ2_KS только >IQ2_KS. Впрочем, может быть дело не в клиповом мышлении, а в том что это нейронка с малым числом параметров, которые как известно плохо распознают прямые отрицания через "не".
>>1624732 Чел, хватит уже подливить на весь тред. Твой анслотоквант на 24+128 и есть IQ2 на 2.8bpw, и его тут много кто уже тестил и справедливо забраковал. С кем и за что ты тут воюешь непонятно, нравится - используй. На тебя мочатся за набросы вроде тех, что у тебя там магнум всратус от мира всех моделей, а мы ничего не понимаем, при этом ты свой пиздеж ничем не подкрепляешь. Логи двухмесячной давности, да, помню их. Ты действительно Рейношиз как другой анон выше подметил, и идешь нахуй. Ничего из тех логов не было ясно, никто даже модели верно не задетектил, потому что тесты непоказательны и все модели справились плюс-минус одинаково. Каких только ебанутых итт нет. И проблема в том что не могут сидеть молча.
О чем спор-то? Если модель большая, то даже квантование в 1 бит живое и не пускает слюни, не говоря уже о 2 битах. Квен почти 400b - вангую что всё с ним в порядке в Q2, как минимум в РП.
>>1624576 >без причины Всё чётко указано, как и пути сделать нормальный PR. >>1624585 >турбоквантный q4 практически на одном уровне с обычным q4 Просто обычный q4 не так давно подтянули по качеству. Вот и отпала нужна в турбопососе. Но народ не понимает и бурчит, как же, не винтегрировали самый свежый высер от самого гугла!
Не совсем понятно, с чем вы все срётесь спорите. Очевидно же, что кто может запустить модель 400В хотя бы и в мелкокванте, тот запускал и все популярные меньшие модели. И так же очевидно, что квант у них был заметно получше, а скорость - заметно побольше. А вот неохота сидеть на них и радоваться почему-то. Ну, есть разница от количества параметров, всегда была.
>>1624737 >И проблема в том что не могут сидеть молча. Так ты и сиди, блядь, молча. Это же ты высираться начал своим охуенно важным мнением, а не я. Я просто запостил что инцеловский квант сломан, а ты начал свое охуено важное мнение продавливать что модель говно. Реально, блядь, вахтеры в своем глазу бревна не видят.
>>1624744 Спокнись уже, педофил, и срыгни нахуй отсюдова к своей бедной Рейночке. ГИГА во всей красе, выебнулся и ничем не подкрепил своё манямнение - получай мочу на ебало. Ты сам на себя это навлёк своими ультимативными выводами
Есть ли какой нибудь гайд по распознаванию рукописного текста? А то есть шиза писать полотна текста от руки, а потом распознавать локалкой и получать печатную версию, но при первой попытке рандом модели со зрением мой корявый почерк не осилили.
>>1624742 >>1624739 Да это шизы-вахтеры, им дай любой повод заклевать - заклюют. Пресеты, промпты, скрины с ролеплеем, логи, даже просто за мнение - "Модель Х - не говно" - заговнят за что угодно, потому тут мало кто чем делится.
>>1624750 Бедненький обиделся, что не вышла толпа аплодировать ничем не подкрепленному манямнению, что iq2xs 2.8bpw лоботомит лучше всех моделей меньше как тут >>1624717 заявлялось. Это теперь не жирный вброс без пруфов, а скромное мнение паренька которого захейтили вахтеры((( Эх какой ужасный тред
>>1624756 >Ребенок >Рейнашиз Ты мне угрожаешь..? Там, кстати, Нвидия скоро выпустит Немотрон 550б. Ждём когда ты запустишь его в одном бите и придешь рассказывать как он выносит вообще всё что меньше
>>1624754 >лучше всех моделей Так субъективщина же, чому не похуй? Для того тред и нужен чтобы мнением делиться. Какое-то подгорание на ровном месте, лол. Я вот считаю что гемма 31 - лучший плотнячок из всех моделей, а эйр - всё ещё лучшее мое под нсфв-рп. И что дальше? Тоже начнешь ПРУФЫ просить?
>>1624758 Нет не начну, потому что ты адекват и не приходишь с громкими заявлениями что это прям лучшее из лучшего и вообще ты уже два месяца назад пруфы приносил. Есть разница. Ебанутых - попускать, адекватов - слушать
>>1624758 >гемма 31 - лучший плотнячок Рядом с коммандером и не валялась рядом даже. Положительный байас, без отказов, на детали забивает болт, на длинном контексте лупит. Про запах озона и пыль в лучах солнца вообще молчу.
>>1624760 >не приходишь с громкими заявлениями что это прям лучшее из лучшего Он литералли только что это и сказал >эйр - всё ещё лучшее мое под нсфв-рп Давай, фас.
Долбоебы, хули вы тут дрочите? Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов, просто потому они не зря закрытые. То, до чего локалки доходят спустя годы, клод уже умеет давно, а через месяц будет ещё лучше уметь. Прав был дарио, что ии раздавать в открытую это преступление против человечности.
>>1624784 Яркий пример как работает клиповое мышление с вырыванием отдельных слов-раздражителей из полного контекста, недоступного индивиду. Индивид увидел во фразе >Я вот считаю что гемма 31 - лучший плотнячок из всех моделей только >гемма 31 - лучший плотнячок
>>1624785 >Даже самая распиздатая и большая локалка будет сосать у бесплатных корпов Смотря что за бесплатный корп. Если это Гемини-флеш или ГПТ-мини, то нет конечно, они по уровню примерно как наши 120b моэшки. А что-то посерьёзнее, тот же Квен 397 о котором сейчас срач или Жирноглем или Дикпик им за щеку насуют во всех юзкейсах.
Флагманские корпы - другое дело. Там судя по утечкам 2T+ монстры. Тут базару нет. Но какие там бесплатные лимиты? 10 сообщений хоть будет?
>>1624788 Яркий пример как работает q4_0 квантование контекста на низкоквантовом лоботомите крошечной модели. В посте на который отвечает модель,не было ни слова про гемму вообще, как не было и вырывания из контекста, но модель сгаллюционировала более удобный воображаемый пост, на который и начала отвечать.
>>1624794 >RX 6700 XT + 16 GB RAM хватит для cunny куминга без РП Да, для геммы 26В этого хватит с головой. Она как раз любит с разбега на хуй прыгать, как раз то что тебе нужно. Только джейл приготовь или бери апасный тьюн, если не знаешь как джейлить.
>>1624785 Какой БЕСПЛАТНЫЙ корп будет лучше коммандера или глм4.7 в РП? Так то понятно что для кодинга лучше заплатить корпам чем насиловать даже большой квен кодер локально. >>1624789 Даже покачиваний бёдрами не было, твёрдо и чётко. А промтами можно и квены фиксить с их зрением сквозь стены, о чём тут весь тред усираются. >>1624790 112 летние вампирши, да?
>>1622922 (OP) Ананасы заказал 5060 ти 16 гигов. Какая самая умная в соотношении память\скорость ллмка с которой можно поиграться на этой карте? Память ддр4, так что надежда онли на карту.
>>1624815 В шапке есть ссылка на список актуальных моделей под любое железо. >надежда онли на карту Давно уже нет. Моэ-модели можно выгружать в рам практически без потери скорости. И гайд как запустить такую модель тоже есть в шапке. Называется "Гайд для новичков".
>>1624811 glm4.6v немного глупее аира из-за вижена, но зато есть этот самый вижен и есть нормальный русик, которого нет у аира. P.S. настройки у анслота неверные, они для вижена, не для генерации текста. Бери настройки от аира, с ними он пишет лучше.
Вопросы от ньфага, если у меня 24+64 память, максимальный вес модели 60гб или 80гб? Она разделяется между памятью, или в любом случае будет лежать фулл в оперативке?
>>1624833 Разделяется между памятью, только учти, что помимо модели и ее контекста память кушают ещё ОС и браузер. "Впритык" засунуть не получится. В твои суммарные 84 можно смотреть модельки до ~75гб плюс-минус.
>>1624816 >>1624827 Спасибо, качаю 4.5 тогда, у меня квант инвалидный, что и 4.6 в русик плоховато может. По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали. Еще 4.6 лупился, поэтому добавил dry и вроде больше и не надо ничего?
>>1624848 >По поводу сэмплеров я брал обычно температуру 1 и top_p 0.95 как сами заи советовали Именно их как раз брать нельзя, заи их для вижена советовали. Я же сказал, бери для аира настройки temperature=0.6, top_p=1.0.
Какую МОЕшку анон посоветует для ру рп на 16/128? Пока на степане остановился, проза там каеф, но он как раз под русик не очень, крышняк течёт слишком сильно уж. Или для русика есть гемма, гемма, и только гемма?
>>1624859 >16/128 GLM 4.7 во втором кванте, или квен 235 в 3-4 кванте. Ну еще минимакс подойдет, но минимакс ты затрахаешься расцензуривать для ерп. Ну еще аир есть, но у него нет русика.
Кстати, господа, а во что играют достопочтенные любители LLM? За пределами кума, конечно. В идеале бы примеры, пускай и черрипикнутые, как локалки обрабатывают упоротые механики и правила вселенной, ежели таковые наличествуют.
>>1624898 Я историк а айтишу я так, для души, и у меня сильная профдеформация - я создаю сеттинги разных древних и не очень цивилизаций, но так как я душный, выходят фактически статейки на 4к+ токенов. Играю там или за впопуданца, или упарываюсь и исторически достоверно выращиваю брюкву. Писал пару карточек в мирах товарища Говарда Филлипса - галюны модели в данном случае не баг, а фича. С другом - биологом таким же ебанутым написали сайфай адвенчуру с изощрённым дизайном инопланетяноки тентаклями. Писал другой сайфай, технопорно где весь смысл в обслуживании древнего космического корабля и уничтожении ксеносов ядерками во славу человечества.
>>1624916 Это рофл какой-то. Нахуй это выпустили. Оно сосет у 26В, которая запускается на калькуляторах и работает в несколько раз быстрее. Разве что обработка аудио заебись.
>>1624916 Круто. 31б гемма всё таки слишком тяжелая для моей карточки. Только сегодня обсуждал это с сеткой она говорила жди мистраля нового или гемму поменьше.
https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF Если кто-то также страдал не мог впихнуть в нормальном кванте советую тут качать, попробовал несколько разных вариаций кванта тут будто мозги наиболее для рп сохраняются.
>>1624928 >gemma-4-26B-A4B-it-UD-Q4_K_S >Кеш не квантован Блядь, 3 слопа подряд! 3! Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом.
>>1624940 >Сначала Look at . Really look at слоп затем tell me и заканчивается это все вопросом и заканчивается это все вопросом. >и заканчивается это все вопросом Ну с первой фразой еще ладно, но блядь почему модели нельзя вопросы задавать, шиз?
>>1624948 Проверять надо самому. В целом да, сильно страдает. Но 26б очень достойная модель. Если комфортно на таких скоростях гонять 31б какие у тебя ща, то лучше ее.
Сап, может кто подсказать по image to text? Хочу протегировать свою библиотеку обычных и nswf картинок/видео в библиотеке для удобного поиска. Из лёгких попробовал joytag(тегов там встроено 5к и как оказалось многих просто нет) и joy caption beta one(с промтом на выдачу тегов в стиле booru с результатом попадания в 80%, но также и с отсутствием некоторых тегов даже через несколько прогонов).
Надо на видеокарте запускать, у меня 5060ti на 16гб и 32гб рам ддр4.
Есть как личные фото/видео, так и скачанные из интернета ролики.
>>1624951 >Сап, может кто подсказать по image to text? >протегировать Нет, нерелейтед. Можешь конечно любую мультимодалку запромптить, но результат скорее всего выйдет нестабильным.
>>1624958 >например в 4 из 5 повторяющийся ответ Чёт сильно сомневаюсь, что рядовая мультимодалка выдаст повтор хотя бы раз из 5. Хотя... У нас же есть Гемма 4!
>>1624962 Сейчас на флешке 3.5 попробовал сфв и нсфв и у неё отлично выходит. Только это не быстро выходит, мне бы на кадр меньше пол секунды тратить учитывая работу с видео ещё. Ну и зафильтровали они её сильнее и с обходом через пробелы не всегда отдаёт ответ
>>1624984 Какая ещё локалка? Мы в /aicg/, треде про онлайн модели! Не обращай внимания, их сейчас без ключиков на диких отходняках всех плющит, по соседним тредам расползаться начали
>>1624951 Я тоже искал на это ответ. Пришёл к тому что либо джойкапчн, либо геммы/квены подбирать по соотношению скорость/качество. Гемме/квену возможно можно тупо зарядить в систем промпт список всех нужных тебе тегов (придётся посидеть над списком) и их кратких описаний, и просьбу выдавать только их. Если есть текст на картинке то запромптить объединить его в один длиннющий тег для возможности поиска
В общем потыкал Marinara - главная фича фронта это агент. Мультичаты буквально оживают.
Помимо привычных в таверне суммарайзов и имеджгенов(ни разу не видел чтобы тут кто-то ими пользовался) есть свистелки перделки на любой вкус. RPG статус бары, создание лорбука по истории, агент сам придумывает персонажей и запоминает, можно даже подтянуть карточку/лорбук из сохранённых простым упоминанием. Даже интеграция с вибраторами лол.
Семлирование после таверны напрочь убогое, зато опция ризонинга реально работает. GLM и квены наконец то затыкаются без джинжи. Видимо через неё управление и реализовано.
Главный минус - нихрена не понятно как всё реализовано. Полез в описание, "как сделано не ваше дело, просто пользуйтесь". Судя по кишкам фронта половина данных сидит в некой локальной субд. В привычном формате лежат лишь карточки. Сходу расковырять это поделие не смог.
>>1624989 как я нужные определю? можно кончено выделить условно главные теги из небольшого списка. Но тегов у меня 14к, да и под гемму 16гб врам не хватит же
>>1624991 так зачем мне облако? я тогда и просто флешку могу использовать, у меня много ключей. Или ты имеешь в виду что это будет быстрее? хотя опять же не локальное решение, лаг между запросом и ответом может быть такой же будет как и на флеш
>>1624993 Думать какие опустить. Мне например цвета глаз/волос/одежды/этц нах не нужны, а это дохуища тегов под каждый вариант. Вообще всякие теги описывающие излишние мелочи. Никто не сказал что будет легко. Как думаешь почему картинки на бурах до сих пор не автотегаются? Это не так и просто сделать. Нужна норм модель с норм виженом, норм контекстом под инструкции (десятки тысяч как ты правильно заметил) и норм хардварь под неё, либо идти на компромиссы.
Ну что, аноны. Штеп уже вышел как недельку. Покатали, какой синопсис по итогу?
Так вижу: идеальный нищуган выбор для тех кто каким то хуем имеет РАМ но не имеет ВРАМ, так как даже на 16врам можно обмазаться абсурдными 70к контекста для необладателей памяти. Моделька в целом глупенькая, с ризонингом дело исправляется.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт с уникальным игровым режимом: https://github.com/Pasta-Devs/Marinara-Engine
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: