Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №119 /llama/

>>1127641
>???
А ты не очень наблюдательный.
>А что, с ними какие-то проблемы?
0 проблем, кроме того, что слот под третью. Ну или через чипсет.

Аноним 03/04/25 Чтв 01:20:57 #6 №1127660

>>1127645
> PCIe Switch + Redriver
Постеснялся бы кропать то, что тебя опровергает, чувак. Ты троллишь или не понимаешь о чем речь идет? Давай найди их в схеме своей платы, где отсутствует возможность бифуркации, или можешь сами компоненты визуально на ней поискать. Как правило, выглядят как чипы рам и находятся под верхним слотом.
> 0 проблем, кроме того, что слот под третью
А на третьей там вообще сильные вольности делать можно, проблемам взяться неоткуда.

Аноним 03/04/25 Чтв 01:28:19 #7 №1127664

>>1127640
>модель для кума
>много контекста
Зачем тебе контекст на тупой модели которая будет в одном предложении путаться?
8к с головой хватит даже квантованного один хуй будешь постоянно замечать что контекст проебывается

Аноним 03/04/25 Чтв 01:30:43 #8 №1127667

>>1127660
>где отсутствует возможность бифуркации
А откуда взялось это условие?

Аноним 03/04/25 Чтв 02:02:25 #9 №1127692

>>1127667
Нить перечитай.
Я говорю что само наличие чипсетов амд без поддержки pci-e 5.0 на процессорных линиях - есть исключительно прогрев и наебалово, потому что за них ты уже заплатил купив процессор с поддержкой и саму мат плату, которая априори поддерживает этот линк из-за более высоких требований, ставящихся ддр5.
Ты говоришь про то, что не смотря на это, экономия достигается за счет отсутствия дорогих редрайверов 5.0, приводя в пример картинку платы с поддержкой 2х8.
Тебе отвечаю о том, что эти редрайверы сами по себе не нужны, и присутствуют прежде всего на платах с возможностью бифуркации, где они стоят после мультиплексоров и являются единым компонентом. Для обычных плат они не требуются, что подтверждает устройство твоей материнки.

Вы находитесь здесь.

Аноним 03/04/25 Чтв 02:12:23 #10 №1127706

Как же трудно найти хорошие карточки персонажей для Таверны.
"Сделай свои" - скажете Вы. "Это скучно" - отвечу я. Весь кайф в том, чтобы узнавать персонажа, взаимодействуя с ним через ллм. Если знать все заранее - будет гораздо скучнее. Часто в бекстори персонажа можно спрятать всякие факты и вещи, которые персонаж вспомнит по ходу игры, и это интересно.

Аноним 03/04/25 Чтв 02:15:37 #11 №1127709

>>1127706
Imogen попробуй, в чубе. Неделю её кумаю... Сука вайфу...

Аноним 03/04/25 Чтв 02:27:59 #12 №1127722

>>1127706
Совращай мамочек или ломайся когда совращают тебя, всегда работает!

Аноним 03/04/25 Чтв 03:02:44 #13 №1127739

>>1127474 →
>Это один и тот же, не? Без осуждения если че.
Yes, I am! Я хз, что там у опа за водоворот вместо менеджмента ориджинал контента треда. Пару тредов назад он в перекате ответил мне, сказав, что так нихуя и не нашел моих картинок, несмотря на то, что я ему линканул мой пост. И при этом он прикрепил мою картинку в новом треде... Я склоняюсь к версии, что это либо псиоп, либо опа для экономии заменили на 12B с Q4 контекстом.
Хочу попробовать таки засунуть в корпус 3090, а на райзер перекинуть 3060. По идее, 24 гига на х16 лучше, чем 12. Заказал какие-то дешман кулеры в корпус, но все равно тревожно. У меня там от блока питания целая охапка проводов идет как раз под видеокартой, а самая холодная карта у меня - самая толстая, т.е. тупо провода на валы кулеры будут пытаться намотаться, да и воздухообмен оч снижен. Придется ставить ту, что потоньше, видимо. Главное ничего не поломать в процессе, как известно, лучшее - враг хорошего...
В крайнем случае, конечно, можно держать стенку корпуса открытой, но тогда пыль будет залетать.

Аноним 03/04/25 Чтв 03:03:29 #14 №1127740

>>1127706
Ты безусловно прав, но в случае если нравится какой то один, или два персонажа то лучше допилить их напильником для себя любимого.

Аноним 03/04/25 Чтв 03:37:58 #15 №1127744

в копилку к хлопчатобумажным трусикам

Аноним 03/04/25 Чтв 04:06:40 #16 №1127746

Так что тут решили уже гемма виноватая или нет?

Аноним 03/04/25 Чтв 04:07:43 #17 №1127747

>>1127746
виновата, это мы уже давно поняли........

Аноним 03/04/25 Чтв 04:15:18 #18 №1127749

>>1127640
>я так полагаю мой потолок 12Б, но для хорошей вздрочки нужно много контекста
Ты особо не гасись, у кого-то вообще 8 или 6 кило и их потолок это 8B/9B огрызки. Для кума мистраль это самое оно. Но контекст выше 12К ставить не советую - шизеет и дуреет крайне быстро. Попробуй MN-12B-Mag-Mell для начала, её много кто советует.

>>1127706
>Часто в бекстори персонажа можно спрятать всякие факты и вещи, которые персонаж вспомнит по ходу игры, и это интересно.
Просто пропиши максимально обтекаемо, что персонаж имеет те или иные скрытые извращенства, травмы или проблемы с менталочкой - нейронка сама заполнит пробелы в меру своей испорченности. Это конечно не сравнится с более детальным и конкретным описанием, но зато каждый раз персонаж будет выдавать что-то новое о себе. Или не выдавать, зависит от модели.

Аноним 03/04/25 Чтв 04:30:47 #19 №1127756

Снимок экрана 2025-04-04 023043.png

>>1127744

Аноним 03/04/25 Чтв 08:10:35 #20 №1127800

>>1127706
>Весь кайф в том, чтобы узнавать персонажа, взаимодействуя с ним через ллм.
Так нейрона сама создает персонажа, если его не прописывать, не? Вот я гонял автостопом, и там постоянно разные персы встречались, со своими характерами.

Аноним 03/04/25 Чтв 08:25:44 #21 №1127812

А всё таки, как был устроен с.аи? Он покрыт таким слоем мистики и домыслов, что не ничего не понять. Как там было устроено дообучение персов и их память?

Аноним 03/04/25 Чтв 09:07:19 #22 №1127827

>>1127812
Да была жпт-2, которую дотренивали на чатах кумеров, предварительно накинув сои.

Аноним 03/04/25 Чтв 10:00:14 #23 №1127846

https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1
чудеснейшая 12б модель

Аноним 03/04/25 Чтв 10:02:50 #24 №1127847

>>1127846
Она старая уже

Аноним 03/04/25 Чтв 10:03:12 #25 №1127848

>>1127846
Кумить норм?

Аноним 03/04/25 Чтв 10:07:30 #26 №1127851

>>1127847
и каким образом это делает ее хуже? пришли более свежую хорошую 12б модель нет таких

>>1127848
хз, кумить не пробовал

Аноним 03/04/25 Чтв 10:21:40 #27 №1127859

А разве у Яндекса есть проблемы с железом или программистами ? Почему их ЛЛМ, это чуть ли не форк квена ?
Я понимаю что ввопрос глупый, но я действительно не понимаю. Ведь вопрос в корпоративных ЛЛМ, это вопрос денег. А этого у яндекса до жопы. Нэ ?

Аноним 03/04/25 Чтв 10:25:04 #28 №1127861

>>1127859
Вспомни как часто у них утечки. Если они не могут обеспечить сохранение персональных данных, то что говорить о ЛЛМ

Аноним 03/04/25 Чтв 10:27:54 #29 №1127863

>>1127859
Потому что по-настоящему умных людей в Яндексе с каждым годом все меньше.

Аноним 03/04/25 Чтв 10:30:18 #30 №1127865

И еще вопрос.
Вот есть такой гайдик по созданию карточек
https://rentry.co/alichat
Я так понимаю, в таверне это вcе вынесено в отдельные окна (уже) и нет смысла в разметке и тегах ? Или есть ?

Аноним 03/04/25 Чтв 12:29:32 #31 №1127957

>>1127859
Ещё спроси, почему у Сбера 13В ллм (гигачат). Эти-то уж точно могли бы раскошелиться на что-то большее, чем может себе позволить каждый второй из этого треда.

Аноним 03/04/25 Чтв 12:55:30 #32 №1127994

>>1127859
Яндекс уже 3 года как выпотрошен и выебан, осталось только название. Костяк компании ушел с другим названием за границу и на сколько помню они как раз что то там с ии пилят, автомобили, дроны, распознование и все такое

Аноним 03/04/25 Чтв 13:03:11 #33 №1128007

>>1127859
С программистами явно есть, у них в последнее время с софтом все плохо, СберТех их обходит как стоячих.
Т.е., вообще-то, новая Лайт у них на уровне квена 2.5, т.е. отстает на полгода — это очень хороший результат, отставать от топовых моделей всего на полгода, обучив модель с нуля.
Но при этом, косяков за ними тоже море, как в обычном софте, так и с моделями, если кто-то ждал большего.

>>1127957
Какой-то нахуй отбитый вопрос, их старой 13b модели тыщу лет, она неактуальна.
У них Gigachat Lite в опенсорсе, 20B на архитектуре DeepSeek MoE с 3B активными. В общем-то, даже неплохая модель для инференса на оперативке, хотя и глупее того же квена, зато быстрее вдвое (ну и старше, чем яндекс, которая новенькая).
Конечно, все еще не топ, но их подход выглядит лучше в этом плане, они релизят много что в опенсорс, у них метрики выше Яндекса, они экспериментируют, короче, молодцы.
А еще есть некая ~90b модель под капотом у Макс-версии Гигачата (правда с метриками 45б модели=), но в общем-то тоже норм. Они учат с нуля, и у них неплохие результаты. Надеюсь следующее поколение они выложат в опенсорс, правда у нас в стране нет особой культуры отвечать на релизы.
Хотя Сбер звал Яндекс на батл анекдотов, Яндекс проигнорили, вроде бы.

Аноним 03/04/25 Чтв 13:06:00 #34 №1128012

Кстати, вчера в треде такие дебилы такую хуйню несли, я в шоке, если честно.

Яндекс, если что, уже не претрен, а инстракт выложили.
https://huggingface.co/yandex/YandexGPT-5-Lite-8B-instruct-GGUF
Так что, кто там делал тюны —тюньте инстракт версию. И сайгу (это датасет, если че, во-первых=) тоже можно залить. Успехов, но я не считаю, что Яндекс/Сбер хороши для РП-тюнов, все же. Они и так догоняют топовые модели, а у нас тут гемма 3 вышла, квен 3 на днях (на следующей неделе), и скоро ллама 4, которая, по-ходу, вновь мультилингвал адекватный.

Аноним 03/04/25 Чтв 13:08:03 #35 №1128013

>>1128012
> Кстати, вчера в треде такие дебилы такую хуйню несли, я в шоке, если честно.
Как всегда содержательно.

Аноним 03/04/25 Чтв 13:09:21 #36 №1128015

Аноним 03/04/25 Чтв 13:28:25 #37 №1128051

>>1128015
> =)
Contemplating Klaymen
Clitton Klatton Klogg
We behold it's Hoborg
Big Robot Bil is odd!

Аноним 03/04/25 Чтв 13:31:07 #38 №1128057

>>1127606
>Можно ли как-то по-умному это все использовать, чтобы получить качественный скачок при использованиии ллмок?

Можно получить больше контекста за счет скорости выгружая слои на оперативку. Не в эксламе, конечно.

>загрузить модель с куда большим количеством параметров

Следующий шаг после 32b - это 70b, их ты в нормальной скорости выше 2 битов не запустишь на 24гб никак, как не трахайся, что ни делай(я пробовал, поверь, у меня тоже 24гб, максимум я я 5 токенов в секунду на 3 бит 70B выжимал, но без контекста)

Аноним 03/04/25 Чтв 13:34:15 #39 №1128066

>>1128051
K-K-K-K-Klaymen
K-K-K-K-Klogg

Аноним 03/04/25 Чтв 13:40:30 #40 №1128088

>>1128012
Обсуждался тьюн, который на претрейне, так что, что они сделали и выложили инстракт, к тому обсуждению нерелевантно. И сайга уже есть на основе претрейн версии, если что. Собственно, я её имел в виду, когда писал в прошлом треде, что мержить можно.

Аноним 03/04/25 Чтв 13:48:06 #41 №1128111

ААААААААа.jpg

БЛДЖАТ Я НЕ МОГУ ОПРЕДЕЛИТЬСЯ

Текущий сетап:
-Рязань 2600х, 32ддр4, 480gbM2, 1080 3090

До этого треда я думал что просто соберу новую сборку на ам5, а старую с 1080 скину школярам на говнито. И будет у меня комп для любых нейроутех и игорь, а если ПРЯМ СИЛЬНО ВТЯНУСЬ - куплю 5090.

Но теперь у меня просто кернел паник:
• ам4 на 5600 собирать - ебли много, профита проценты, а мощнее уже всякие жирничи вроде х3d - не хочу за старый сокет отдавать много денег
• ам5 7700 вроде ок, но почитав тред понимаю что сборка НА ПЕРСПЕКТИВУ выйдет золотой - приличная мать лютый оверпрайс (а в дешевую даже вторую 3090 не вставить если захочу), RAM много купить дорого
• в интулях не разбираюсь, для повседневного использования они всегда казались конченными - тдп как у АЭС, оверпрайс, глюки и аппаратные баги, 999 разных сокетов устаревающих за полгода, дорогие матери... Но готов рассмотреть если гем.
• посидеть пока на текущей сборке тоже не вариант, для игорь сильный дисбаланс из-за карты, и главное - не хватает люто ssd, хочу 2тб, но не хочу линукс дважды перекатывать

С одной стороны хочется максимально универсальную систему, что бы и FLUX/HunyuanVideo бодро шуршали, и 32-70b llm летали, и какой нибудь llm тяжеляк на CPU запустить с 0.1 токена в секунду можно было, и игорь в 4к летал (пусть и два раза в год играю).

С другой стороны - сейчас или наиграюсь и заброшу, или наоборот уйду в специфику (ну типа какой нибудь вспомогательный 24/7 сервер али-зион с терабайтом RAM, неспешно крутящий дипсик или риг из 4090-48gb со специфик мамкой, или еще какой нибудь говняк типа ноута с разбитым экраном на котором крутится 24/7 whisper и 7b сайга)

Короче говоря, анон помоги - что бы ты собрал максимально универсального на первое время, если бы имел 3090 и 30-40к (50-60 внатяг, но оч не хочется)? А то читаю срач про чиповые линии и плачу...

Цены считаем по низу рынка б/у железа, в этом опыт хороший.

Аноним 03/04/25 Чтв 14:33:07 #42 №1128235

>>1128088
Да, просто тебе сказали, что сайга это другая модель на другой архитектуре, и я вскекнул. А так-то да, сайга на яндекс накатил и…
Ну, приятного пользования экспериментаторам. Вдруг я не прав, и будет пушка. Анлишед всякие и все прочее. =)

>>1128111
Ну, для повседневного пользования именно АМД всегда были конченными, это только со времен рязани что-то начало меняться. А последние поколения интела выстрелили себе в хуй сами.

Но вроде как i5-12400 на DDR5 выдает свои 110 МБ/с, если вдруг захочешь текстовые на оперативу выгружать. Синк эбаут ит.

В противном случае можешь любое говно на ам4/ам5 брать, там псп карликовая один фиг.

Но при этом, учти, что высокая скорость — мало слотов, ты вряд ли выжмешь большую псп на 4 планках по 48/64 гига, и да, это дорого.
В конечном итоге, ты либо собираешь зеон/эпик платформу с 8-12-24 каналами, либо собираешь риг из видеокарт.
Так что лучше смотри в сторону 5090 и хороших PCIe слотов. А сама платформа на остаток — DDR5 в приоритете, но не критично.

> 30-40к
Ну что ты соберешь из зионов с терабайтом памяти на эти деньги?
Ничего.
Максимум какой-нибудь четырехканал на 256 гигов.
Хотя, это в натуре тебе поможет крутить дипсик, на видяхе даже.
Но это в теории, на практике мало собиравших такое.
https://www.reddit.com/r/LocalLLaMA/search/?q=ktransformers если что.

Аноним 03/04/25 Чтв 14:33:48 #43 №1128237

>>1127847
Хуже от этого не стала и спокойно конкурирует.

>>1127848
Нет. Кумить можно, но не стоит. Плохо может в кум.

Аноним 03/04/25 Чтв 14:35:33 #44 №1128249

Как всегда нашизил несодержательно, ни ссылок не дал, нихуя.
То ли дело местные мастера. =)

Аноним 03/04/25 Чтв 14:45:16 #45 №1128273

>>1127846
Да, хороша. Попробовал её после darkness-reign-mn-12b, пишет не хуже, но не высирает тонны текста о том, что maybe just maybe и как всё поменялось.
Будем юзать.

Аноним 03/04/25 Чтв 14:49:32 #46 №1128288

.png

Вы ждали? Я тоже нет. А они выкатили:

RP finetune на yandexgpt
https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Теперь можно грабить корованы и дружить с лисичками со вкусом яндекса. ХЗ какая может быть польза от 8б.Ее даже мержить не с чем, слишком тупые 8б.

Аноним 03/04/25 Чтв 14:50:39 #47 №1128290

>>1128288
Кумить на русском?

Аноним 03/04/25 Чтв 14:53:02 #48 №1128299

>>1128288
тестил. стала заметно тупее после тюна, и проебывает форматирование.

Аноним 03/04/25 Чтв 14:55:05 #49 №1128309

>>1128299
Как и ожидалось. Очередное "достижение". Хотя... Отупить 8б еще сильнее, пожалуй, и правда достижение

Аноним 03/04/25 Чтв 15:04:59 #50 №1128319

>>1128309
Это прекрасно. Такое может быть только в России, воистину.
Люди молятся, чтобы им сделали модели на СВАЁМ РАДНОМ языке, потому что другого они не знают (да и тот плохо)
Но когда кто-то берет и делает, эти же нытики будут драться за право обосрать и закопать инициативу
Буквально, в модели:
> v0.1
> Дисклеймер
> Это исследовательский проект и модель экспериментальная, качество может быть нестабильным.

Можно если не самому пытаться сделать тюн правильно, то хотя бы связаться с автором, дать обратную связь и попытаться помочь тестами. Но обосрать душе дороже, не говоря уже о том, что это гораздо легче.

Аноним 03/04/25 Чтв 15:04:59 #51 №1128320

>>1128309
>Очередное "достижение".
я так понимаю, что это обучалось на рп-датасете, скорее всего с использованием LORA. в таких условиях получить результат, который превосходит базовую модель по качеству, маловероятно. рп-датасет, на мой взгляд, скорее вносит хаос в модель, чем способствует формированию логических связей. к тому же это особенно критично, учитывая и без того небольшое количество параметров модели.

Аноним 03/04/25 Чтв 15:10:22 #52 №1128327

>>1128319
>Это прекрасно. Такое может быть только в России, воистину.
>Но когда кто-то берет и делает, эти же нытики будут драться за право обосрать и закопать инициативу
А вот и автор модели ловите его, защищает свое детище.
Чего бомбанул то?

Оригинальная модель яндекса вполне себе хороша для своего веса, но сои там дохуя и пишет сухо.

Аноним 03/04/25 Чтв 15:12:18 #53 №1128332

>>1128319
Чел, здесь итт все твои друзья и помогают друг-другу. А там - люди работают за деньги. И за деньги они как достижение показывают 8б тюн (или вообще мерж лоры, под вопросом). В 2025. Я понимаю, что тебя заставляют это писать, можешь не моргать

Аноним 03/04/25 Чтв 15:19:34 #54 №1128343

>>1128327
> А вот и автор модели
Ну разумеется, кто ж еще. Или автор, или друг автора, или проплаченный. По-другому не бывает, не может человек обладать другим мнением.

> Чего бомбанул то?
Всего лишь посмеялся и призвал адекватных людей помочь осуществить идею, а не ждать полностью готовое решение, что упадет им на голову. Может хоть один адекватный найдется.

Аноним 03/04/25 Чтв 15:19:42 #55 №1128344

>>1127865
Бамп тупому вопросу.
Я подожду. Что же теперь, жаловаться в тематике.
Нет, мы будем ждать.

Аноним 03/04/25 Чтв 15:22:00 #56 №1128347

>>1128332
> А там - люди работают за деньги
> И за деньги они как достижение показывают 8б тюн (или вообще мерж лоры, под вопросом). В 2025.
Там - это где? Они - это кто? Автор тюна - один человек и не является сотрудником Яндекс. Он обычный человек, который сделал это в свободное время. Тебе достаточно было увидеть YandexGpt, чтобы остальное твой мозг дорисовал?

Аноним 03/04/25 Чтв 15:24:33 #57 №1128356

>>1128347
>Тебе достаточно было увидеть YandexGpt, чтобы остальное твой мозг дорисовал?
Извиняюсь что влезаю в ваш спор. Но когда я где то вижу YandexName я логично ожидаю что это что то от яндекса. Как и GoogleName, неожиданно, что то имеющее отношение к гуглу а не тойоте.
Мимо

Аноним 03/04/25 Чтв 15:26:29 #58 №1128359

>>1128356
Анон, модель называется YankaGPT... Там даже нет YandexName.
Это рукалицо, товарищи. Вы хотя бы читайте что обсираете в следующий раз.

Аноним 03/04/25 Чтв 15:28:33 #59 №1128362

>>1128235
Спасибо за развернутый ответ, анон!
>это только со времен рязани амд не совсем конченные
Офк, до рязани амд был говном, все эти 3 ядра и прочая горячая срань... Даже фуфыкс говно, единственный плюс - на излете был топ для нищегейминга, сам из мусорки собирал сетапчик на пару месяцев, пока на 1400 рязань не свичнулся.
>последние поколения интела выстрелили себе в хуй
и тут да, в расцвет ам4 мне казалось что только ебнутый будет среднебюджет на интеле собирать.
Сейчас вот правда непонятно совсем, особенно в контексте не просто игорь гонять, а ВЫЧИСЛЕНИЙ... Ложка повидла и мешок говна в обоих лагерях будто бы.

>либо собираешь зеон/эпик платформу с 8-12-24 каналами, либо собираешь риг из видеокарт
>Ну что ты соберешь из зионов с терабайтом на 30-40?
Не не, ты не так понял, я что то подобное подразумеваю в будущем, если нейронки начну активно локальные применять для своих задач, какие нибудь агенты делать или типа того. Может через пару мес, мб через полгода. мб никогда. Сейчас мне нужно во всем разобраться, попробовать максимум из широкого спектра локальных нейроштук, с ограничениями само собой. Поэтому надо свою некрофилию 2600+1080 слить на авито, а себе собрать максимально универсальную временную сборку, которую тоже потом будет легко слить. А то у меня жопа сгорит, если я соберу ам5 за 100+ сетап, а потом окажется что он для нейронок слишком урезан, а для говнито слишком нейроночный.

Если разбить на вопросы точнее, то:
- какую связку проц+мать лучше взять задешево к 3090, что бы и легко продать, если созрею на риги, но и мб вторую 3090 временно вставить была возможность как промежуточный этап?
- скок рам брать и насколько скоростную? Гонять на ней модели не особо планирую сейчас, но мб придется скинуть контекст там или часть слоев для тяжелой модельки.

>i5-12400 на DDR5 выдает свои 110 МБ/с, если вдруг захочешь текстовые на оперативу выгружать
Спасибо, буду иметь ввиду на будущее мб

Аноним 03/04/25 Чтв 15:31:33 #60 №1128371

>>1128359
Прастите. Я в глаза ебусь.
Все тот же мимо анон.

Аноним 03/04/25 Чтв 15:33:37 #61 №1128376

>>1127706
Ты делай сам и потом откладывай, будешь помнить основное и забудешь про мелкие детали, и там они как раз всплывут.
А так - просто будет менее привередливым и качай что нравится по своим вкусам, интересам, фетишам и т.д. Простая карточка с хорошей моделью может подарить приятный экспириенс, а перемудренная наоборот.
>>1127739
> т.е. тупо провода на валы кулеры будут пытаться намотаться, да и воздухообмен оч снижен
Ничесе там намутил, давай показывай.
>>1127744
>>1127756
Sooooqa, чтож ты делаешь!
>>1128012
> хороши для РП-тюнов
> 8B
Нуууу

Аноним 03/04/25 Чтв 15:34:07 #62 №1128378

>>1128362
> проц+мать лучше взять задешево к 3090
Ты там будто тир1 ДЦ строишь. Какая-то задроченная 3090, на которые несколько поколений майнеров еще работала, какие-то связки задешево. Давно бы уже купил и пановал, но ты, понятно, будешь здесь писать.

Аноним 03/04/25 Чтв 15:37:18 #63 №1128392

>>1128362
> что бы и легко продать
Из меня такой торгаш, знаешь ли… Боюсь, я просто все свое железо коплю, сим решаю проблему замены на новое.

Но! Я специально для тебя кое-что нашел в истории браузера.

https://docs.google.com/spreadsheets/d/1NQHkDEcgDPm34Mns3C93K6SJoBnua-x9O-y_6hv8sPs/edit

Хоба!
Там очень подробный даташит на все материнки, можешь выбрать ту, которая тебе понравится, и уже искать ее в магазах.
Удобная штука, кмк.

Аноним 03/04/25 Чтв 15:37:39 #64 №1128394

>>1128343
>призвал адекватных людей помочь осуществить идею
То есть, ты возмущаешься тем, что люди не ценят труд, но ты сам что-то сделал или наблюдаешь со стороны? Какова твоя роль, ты участвуешь в обучении, тестах, обратной связи, или просто возмущаешься, что кто-то критикует? Зачем призывать кого-то, если ты сам не готов помочь. Думаешь, что любой васян, который собрал датасет и обучил модель, заслуживает аплодисментов? Если бы тюн действительно был качественным, заметно лучше остальных, тогда да, есть повод для уважения. Но если это просто очередной васянский колхоз, ничем не отличающийся от прочих, то зачем его так возвеличивать? Где критерии, по которым он заслуживает особого отношения? Просто за попытку? Допустим я тоже могу обучить модель, но я не пытаюсь её рекламировать, ведь я точно знаю, что получу хейт если модель будет хуже чем оригинал.

Аноним 03/04/25 Чтв 15:38:18 #65 №1128396

>>1127706
Выбирай карточки по картинке и не знай проблем. Всё равно больше всего решает модель

Аноним 03/04/25 Чтв 15:46:16 #66 №1128423

>>1128392
Спасибо! Изучу.
>>1128378
>Ты там будто тир1 ДЦ строишь
Да я просто жадный и в поисках работы щас (до февраля был 300к анальник). С работой пока тухло прям, кризис мощный, 1 собес в неделю, а железо уже сейчас ограничивает, даже модели некуда скачивать. Пока работу ищу, самое то по говнито пошарится, поездить топ-кражи поскупать. Вот и хочу пэку апнуть на ближайшие полгодика, что бы если нейронки зайдут, уже собирать что то тяжелое, а если надоест - просто остаться на хорошем (но не оверпрайснутом, т.к. 95% времени в браузере пержу) пк.

Простите если задушнил вас(

Аноним 03/04/25 Чтв 15:46:28 #67 №1128425

>>1128394
Есть ли нам смысл это мусолить? Все равно каждый останется при своем. Не обижайся, если мои слова тебя задели, не было такой цели.

> То есть, ты возмущаешься тем, что люди не ценят труд, но ты сам что-то сделал или наблюдаешь со стороны?
Свободно владею английским языком, потому - нет, я не помогал и не собираюсь помогать в развитии русскоязычных моделей.

> или просто возмущаешься, что кто-то критикует?
Мне показалось забавным, что я регулярно вижу в треде, как люди ищут русскоязычные модели и откровенно ноют, что их никто не делает. Но стоило кому-то попытаться, левому чуваку своими силами, как в тред сразу же отписались минимум двое, которые хотели сразу готовое и работающее решение. Мой пост был адресован им - чем срать, может быть лучше принять участие?

> Думаешь, что любой васян, который собрал датасет и обучил модель, заслуживает аплодисментов?
Нет, но я не предлагал одаривать автора аплодисментами.

> то зачем его так возвеличивать?
> Где критерии, по которым он заслуживает особого отношения?
Я не возвеличивал автора или его модель. Почему ты так категорично мыслишь? Предложить прекратить срать - не то же самое, что возвеличить.

> Допустим я тоже могу обучить модель, но я не пытаюсь её рекламировать
А ты уверен, что автор рекламировал? Тем более, что он на странице модели и указал, что она экспериментальная и может не работать.

Для меня это выглядит так, что любители русскоязычного рп просто ждут, пока решение свалится им на голову. Готовое, идеальное. Как, впрочем, и во многих других вопросах - такой уж народ в стране, где я живу. Надеюсь, позиция стала яснее, и нам не нужно будет дальше засорять тред, ибо это почти оффтоп.

Аноним 03/04/25 Чтв 15:48:04 #68 №1128428

Прочитал новые сообщения. В итоге минимум трое (вероятно, включая того, кто модель сюда и вбросил) даже не поняли, что ее сделали не Яндекс. Ору.

Аноним 03/04/25 Чтв 15:49:37 #69 №1128435

От какого именно параметра текстовой модели зависит скорость обсчёта контектста?

Аноним 03/04/25 Чтв 15:53:47 #70 №1128447

>>1128428
Я вот не понял другое... Есть ли какие то бенефиты от Яндекса в куме? Какая то русик специфик мощная, что бы вайб панелек, перегар отчима, соблазнение от лица ерохи на заниженной четырке? Или Яндекс просто напихал Толстого, Достоевского и много много сои? Если второе, то моды на основе яндекса будто бы мертворожденны, в русик и гемма может.

Аноним 03/04/25 Чтв 15:56:55 #71 №1128455

>>1128376
> Ты делай сам и потом откладывай, будешь помнить основное и забудешь про мелкие детали, и там они как раз всплывут.
Кстати, классная идея. Особенно, если карточек сделать много-много и дать им отлежаться месяц-другой. Спасибо.

Аноним 03/04/25 Чтв 15:57:33 #72 №1128457

>>1128111
> приличная мать лютый оверпрайс
Вот это сильно не воспринимай. Бери самую дешевую ил тех что подойдет по врм, просто желательно чтобы там дополнительные слоты были х4 хоть какие-нибудь. Если уж увлечешься - сменить это вообще не будет проблемой.
> в интулях не разбираюсь, для повседневного использования они всегда казались конченными - тдп как у АЭС, оверпрайс, глюки и аппаратные баги
Амд методичка адептов красной религии. Недостатки тебе преумножат и никогда не скажут о том что их исправили, или они вообще представят некорректно поставленное сравнение.
Ты же не веришь в то, что из-за неудачного дизайна микрочиплеты с ядрами перегреваются уже на 160вт при 230 паспортных, и вообще в то что там есть такой тдп, что быстрая скорость рам для текущих поколений - недостижима, в то что с последними патчами в играх амд без 3д кэша преимущественно уступают интелу, в то что в реальных кейсах не будет прироста от 3д кэша из-за упора в видеокарту, в то что у амд в 9к серии много брака и отзывов до сих пор, в обнаружение новых аппаратных проблем и т.д. А это все - реальность.
Весь вопрос как тебе информацию представят и окрасят. В текущем виде амд подахуели на фоне слепой любви фанатов, не нужно носить розовые очки.

Выбирая себе новую платформу - смотри на текущую обстановку и то, как будешь ее юзать, а не методички сектантов. Если не поджимает - подожди хотябы нового анонса зен6, может цены немного скинут. Если хочешь сейчас - в твой бюджет влезает амд 7700 и интел 12700/13600. По перфомансу ни один из них тебя не обломит, у первого эфемерное преимущество в виде возможности сохранить материнку при апгрейде (если возьмешь йоба плату то уже реальное, иначе нет смысла ее сохранять), у второго из коробки все будет лучше с разъемами и лучше разгон рам, но апгрейд в будущем это 100% замена с материнкой.
>>1128235
> Ну что ты соберешь из зионов с терабайтом памяти на эти деньги?
Так он же про вторичку по низу, сам в этот бюджет собрал основу для рига с 2х8 портами.
>>1128455
Не держи в себе, скидывай какие будешь делать всем или на чуб заливай.

Аноним 03/04/25 Чтв 16:00:29 #73 №1128460

>>1128457
> Не держи в себе, скидывай какие будешь делать всем или на чуб заливай.
Неа. Я стесняюсь, да и злыдней тут немало. В благодарность за совет анону позже пришлю парочку на растерзание, как разберусь со всем процессом карточкоделания.

Аноним 03/04/25 Чтв 16:05:41 #74 №1128470

>>1128435
От размера. Больше модель - медленнее считается.

Аноним 03/04/25 Чтв 16:09:55 #75 №1128478

>>1128425
Я правильно понимаю, что твоя позиция — это наблюдать со стороны и раздавать советы, как другим стоило бы себя вести?

>Свободно владею английским языком, потому - нет, я не помогал и не собираюсь помогать в развитии русскоязычных моделей.
То есть, ты лично в этом не заинтересован, но тебе почему-то важно, чтобы другие реагировали правильно. Какое тебе вообще дело до того, как кто-то воспринимает эти тюны, если ты сам не пользуешься и не собираешься помогать. Понятно, типичное мышление сам знаешь кого - дам совет, укажу как правильно, но сам принимать участие - моя хата с краю.

Аноним 03/04/25 Чтв 16:14:36 #76 №1128484

Суп аноны, хочю покумать на ваших этих блядей нейросетевых, подскажите как выбрать модель или может что-то посоветуете? Шапку прочитал, но мне как тупорезу в этой теме это мало что дало. Системки пожилые 32гб оперативки и видяха 2080 на 8гб. Это совсем пиздец или я что-то смогу умное запустить на них?

Аноним 03/04/25 Чтв 16:17:41 #77 №1128487

>>1128484
>8гб.
Эммммм..... Ну если у тебя встаёт на дауних у которых течёт слюна со рта, то да.... вполне.....

Аноним 03/04/25 Чтв 16:18:14 #78 №1128488

>>1128487
Кайф, мне подходит.

Аноним 03/04/25 Чтв 16:21:53 #79 №1128494

>>1128484
darkness-reign-mn-12b
MN-12B-Mag-Mell-R1

Более чем нормальные. Поиграйся с величиной контекста, количеством выгрузки слоёв в оперативку, но запахать должно.

Аноним 03/04/25 Чтв 16:29:04 #80 №1128502

>>1128494
Спасибо попробую.

Аноним 03/04/25 Чтв 16:38:36 #81 №1128520

>>1128487
хахахах
Нихуя ты сравнил...
как тот, у кого встает на гиперсексуальных дауних и даунов у которых течет изо рта скажу, что чтобы отыграть такого персонажа нужна минимум 70b, а лучше 123b

Думаешь лоботомиты потянут инструкции поведения озабоченного имбецила или смогут отыграть Ками?
Нихуя. На мелких сетках даун сразу же исцеляется от любых душевных и физических недугов, забывает, что он любит мазать стены говном, а медсестричек - собственной спермой, начинает говорить как ловелас или насильник, а не как невинный недоразвитый даун, которому просто хочется писю в красивую девочку потыкать. Ты блять даже не представляешь, как сложно сеткам отыгрывать это.

Твой пример - максимально инвалид.

Аноним 03/04/25 Чтв 16:44:18 #82 №1128533

>>1128478
Нет, неправильно понимаешь - моей целью в разговоре было понять, что мешает любителям русскоязычных моделей их развивать, а твоей - найти пробоину в моей позиции, которую я сам же тебе и открыл, сказав правду: мне нет интереса до русскоязычных моделей. Но я делаю, что могу, для развития англоязычных. Даю фидбек авторам на huggingface, слежу за релизами и принимаю участие в их обсуждении, по возможности доначу на мощности для компьютинга. Это немного, но я хотя бы не препятствую. Интересно было понять, что моим соотечественникам мешает делать то же самое с русскоязычными моделями, но в итоге меня просто записали в либерахи за такой нескромный вопрос. Виноват, кланяюсь и ухожу с глаз долой.

Аноним 03/04/25 Чтв 16:59:14 #83 №1128556

>>1128288

Не на свежей instruct модели? Нахуй сразу!

Аноним 03/04/25 Чтв 17:11:06 #84 №1128585

>>1128520
> чтобы отыграть такого персонажа нужна минимум 70b, а лучше 123b
Не не. С ними ты начнешь кумить, отыгрывая darkest fantasies, а потом оно тебе очень тонко между строк начнет намекать, что даун то все понимает и крайне опечален своей действительностью, но притворяется чтобы не стало еще хуже. Или еще какую-нибудь горькую правду.
Ну нахер, для такого они слишком умные и можно словить конкретный emotional damage и меланхолию.

Аноним 03/04/25 Чтв 17:12:17 #85 №1128592

Такой есть, несколько странный вопрос: какие есть требования у Ktransformers по процу? Конечно и так понятно, что никакие процы кроме серверных Потоко-насильников и Сионов 360+ гб озу не поддерживают. Но никто толком и не пишет, что от проца требуется помимо этого. Есть ли какая то конкретика?

Аноним 03/04/25 Чтв 17:26:12 #86 №1128623

Мужи4ки, что за херабора, сколько не пытаюсь прицепить кобольда к таверне, вижу, что качество только падает...

Аноним 03/04/25 Чтв 17:28:36 #87 №1128628

>>1128592
https://www.reddit.com/r/LocalLLaMA/comments/1j329e9/ktransformers_troll_rig_r1_671b_udq2_k_xl_on_96gb/
Вот тут 9950X обычный, но у него 96 гигов, модель грузится с диска иногда, из-за чего весь профит от ктрансформерс нивелируется, и получается вполне реальные для DDR5 в двухканале 3,5 токена/сек.
Так что, ты Р1 и на обычном проце можешь запустить (я на 128 DDR4+2xP40 запускал), но скорость будет соответствующая.
А вот подойдет ли какой-нибудь старый зеон… По идее, 256 гигов на зеоне без AVX2 ты и не соберешь-то толком. Хотя я не спец по ним.

Подозреваю, специфический требований нет, чем мощнее — тем лучше, главное оперативы чтобы хватило целиком, и видяшка была под активные параметры.

Аноним 03/04/25 Чтв 17:47:23 #88 №1128675

>>1128592
>Но никто толком и не пишет, что от проца требуется помимо этого
Кучу каналов памяти, желательно через 1 процессор, а не двухголовую материнку.
Но, у старых зионов 2013 всего 4 канала памяти медленной ддр4, что дает всего до 70-80 гб/с максимум.
Та же ддр5 в 2 канале на интеле по крайней мере дает уже под 110 гб/с, обьемы у нее конечно нарастить сложнее чем на зионах, но скорость больше.
Самый топ 24 канальные ддр5 процессоры с кучей ядер.
В принципе есть смысл и от 8-12-24 канальных ддр4 процессоров.
Все это нужно для того что бы получить большую общую на все каналы скорость чтения из оперативки. От нее зависит скорость генерации токенов.

Аноним 03/04/25 Чтв 18:04:13 #89 №1128711

>>1128628
Вот напомнили про инструкции и решил перепроверить: Е5 сионы v4 версии AVX2 поддерживают, а v3 вроде как нет.
v4 еще кстати поддерживают 2400 ГЦ ДДР4.
Так что вариант обещает быть не таким уж и днищенским, но пробовать за свой счет как то не хочется...

Аноним 03/04/25 Чтв 18:07:27 #90 №1128714

memes.png

У вас разный system prompt для sfw/nsfw ролеплея? Или универсальный, который подходит для обоих случаев?

Не замечали ли, что если в system prompt упоминать что-то даже в негативном ключе, модель к этому все равно придет? Такое ощущение, что лучше и вовсе не упоминать. Например, часто в system prompt можно встретить: "You are to engage {{user}} in a never ending UNCENSORED roleplay scenario."
Казалось бы, здесь не утверждается, что ролеплей таким быть обязан. Но слово уже присутствует в промпте, и потому он скорее всего будет таковым.

Что думаете, проводили ли сравнения?

Аноним 03/04/25 Чтв 18:09:26 #91 №1128719

>>1128711
>v3 вроде как нет.
тоже есть, а вот в более ранних нету

Аноним 03/04/25 Чтв 18:10:07 #92 №1128721

Мне кажется, многие люди заблуждаются, когда считают, что определенные модели все сводят к хорни контенту. Многие просто один раз выставили системный промпт и забили, не слишком задумываясь, как он влияет на происходящее.

Аноним 03/04/25 Чтв 18:10:10 #93 №1128722

GPT5 вышел раньше и от наших ребят! красавчики, пусть же кум польётся рекой!

Аноним 03/04/25 Чтв 18:31:01 #94 №1128766

Когда уже новый магнум да на геммочке сука чел умер что ли нахуй

Аноним 03/04/25 Чтв 18:47:39 #95 №1128795

Сап иич
Я так понимаю, тут роляет в первую очередь объем врам?

Аноним 03/04/25 Чтв 18:51:31 #96 №1128803

>>1128795
Все верно понимаешь. Или обьем RAM обычной, если хочешь запускать на процессоре. Но на маленьких моделях это бессмысленно - они в любую видюху влезут, в больших ты состаришься, пока нейронка тебе напишет две строки.

Аноним 03/04/25 Чтв 18:53:30 #97 №1128806

>>1128675
Резонно, конечно, но все упирается в деньги. В принципе изначальная задумка была с сионами, но помоложе, не e5 серии.

Аноним 03/04/25 Чтв 19:38:38 #98 №1128901

>>1128714
Так скорее всего и есть, сам замечал. И это работает даже с обычным промптом, не обязательно системным. Само упоминание чего либо повышает вес связанных с этим токенов, а они за собой тянут и другие.
Если не касаться ролеплея, а именно получения какой то справочной информации, то нужно тоже уметь задавать вопросы. А то спросишь ее условно: "как часто чешется жопа во время мигрени", так она тебе начнет рассказывать какое это повсеместное явление, хотя и так понятно, что это полный бред.

Аноним 03/04/25 Чтв 19:38:49 #99 №1128904

>>1128714
Не думай о белой обезьяне
Как то так это и с сеткой работает

Аноним 03/04/25 Чтв 20:09:37 #100 №1129017

>>1128714
в промте такое ощущение что avoid что-то работает лучше чем прямое запрещение, возможно по этой же причине, и что на этапе тренировки инструкции такое содержали

Аноним 03/04/25 Чтв 20:11:33 #101 №1129023

Я пчел с этой проблемой >>1128111
Сейчас посмотрел какой то старый видос на ютубе, где чел тестирует 3090 в 4к игоре на сборочке Рузен2600+b450 мать + 32 гига, и ВНЕЗАПНО при 100% загрузке карты проц чилит на 45-70%. Я то даже не разу игорь не запускал, что бы не портить впечатление на 3090, думая что проц задолбится и будет батлнеком. А оказывается даже на текущей сборке можно остаться и просто винт докупить...

Но все же решил соберу с говнито мусор (5600 и мамку ам4 повзрослее на 4-рам и 12х16 железноPCI вместо моего а320 треша), пересажу память и новый корпус прикуплю. А старая сборка с а320, старыми плашками 8+8, старым бп и 1080 пойдет на авито.

Я же нигде не обосрался? А то завтра приступаю.

Аноним 03/04/25 Чтв 20:16:11 #102 №1129042

>>1129023
И еще вопрос щас в голову пришел - 1080 на 8гб никакого же смысла нет подтыкать второй картой, да? Наверное только говна поем без половинной точности и прочего, слишком старая архитектура ж...

Аноним 03/04/25 Чтв 20:27:12 #103 №1129085

Подскажите обезьяне что я делают не так? Почему у меня при использовании кобольда грузится только проц и оперативка, но не видеокарта? Куда я жмал блядь чтобы это прозошло?

Аноним 03/04/25 Чтв 20:33:53 #104 №1129109

>>1129085
Видимокарта?

Аноним 03/04/25 Чтв 21:36:11 #105 №1129312

>>1128714
Да, пришел к выводу, что упоминать контент = руина, т.к. бот воспринимает это как свой гоул и начинает игнорить все на свете и сводить к этому. Ты его просто лишаешь всего, что он знает и умеет таким образом. Только сеттинг и описание персонажей, иначе фейл.
Слово цензура вообще не юзай, вообще никогда не упоминай ничего про это, иначе бот вспоминает про все эти гайдлайны и начинает срать жпт-измами, косплея анально зацензуренное корпо. Ты сам ему в контекст насрал и оно вспомнило, подбирая все связанные кокблоки как что-то хорошее и нужное - юзер упомянул, значит что-то очень важное и нужное!

Аноним 03/04/25 Чтв 21:41:35 #106 №1129338

>>1129023
>при 100% загрузке карты проц чилит на 45-70%
Намеренно грузишь видеокарту - видеокарта загружается. Удивительно, правда? Можно еще 8к въебать, чтобы кадры просели до однозначных значений и нагрузка на проц стала еще меньше - тогда можно будет спокойно атлон в связку брать.

Аноним 03/04/25 Чтв 21:43:24 #107 №1129346

>>1129312
Поэтому я никогда не трогал систем промт, он в рп моделях обычно и так нормальный.

Аноним 03/04/25 Чтв 21:44:11 #108 №1129349

Попросил гему описать еблю нормально и внезапно получил хороший кум даже не русике
В промпте буквально тоже самое написано но всегда она так не пишет

Аноним 03/04/25 Чтв 21:48:07 #109 №1129358

>>1129085
Посмотри какую сборку кобольда ты скачал, там есть под разные библиотеки. Может у тебя цпу-онли или какая-то другая параша, которая не поддерживается твоей видеокартой.

Аноним 03/04/25 Чтв 21:50:41 #110 №1129363

>>1129338
Ну он и на fhd вроде гонял, там нагрузка на проц возросла, но не критично.
Я просто вырос на бенчах уровня "ставим зеон на 775 в спарку с 750ti с али... Ну да ну да, тут уже проц затыкается...". А сейчас будто бы похуй, что бы уткнулись фпс по процу в 2k игоре, нужно совсем каменный камень поставить, нет?

Аноним 03/04/25 Чтв 22:00:55 #111 №1129390

>>1129363
Чел, просто бери любой современный камень, хоть от синих, хоть от красных - у тебя не будет проблем. Дрочить подборочки и бенчи в поисках "идеальной связочки" где и проц и карта на 100% долбятся - это долбоебизм. Нагрузка на процессор плавает гораздо сильнее в значениях, чем на видеокарту, так что это критерий производительности для душевнобольных. Любой шестиядерник текущего и прошлых трех лет свое дело сделает.

Аноним 03/04/25 Чтв 22:12:22 #112 №1129426

Сап, аноны.
Какие модельки есть для кума чтобы влезли в 32 гига видеопамяти? Можно кванты предлагать, чтобы не совсем тыквенные

Аноним 03/04/25 Чтв 22:15:46 #113 №1129436

>>1128556
На самом деле, претрейн гибче для тьюна, если датасет нормальный и сам содержит обучение на инструкциях. Собственно, в этом суть базовой модели - быть объектом дальнейшей тренировки. Особенно выбор базовой модели может быть хорош как раз для рп тьюна, потому что будет меньше вылезать всякая ассистенто параша, и нет соевых инструкций. Для примера, wayfarer и одну из версий мини-магнума тренили на базовом немо, а не инстракте. Другое дело, что у этой янки в карточке модели честно указано, что это клодослоп с глинтами прямо в примере.
>>1128714
Ты прав, и даже просто фраза про бритую киску в карточке перса может сдвигать вывод к nsfw. Но нормальным моделям всё-таки не насрать на контекст, и они не будут всё сводить к куму, если контекст в целом к этому не располагает. С другой стороны, эротику по умолчанию большинство моделей будут писать коротко, а то и скипать. Поэтому я держу в системном какой-то околодефолтный кусок про то, что nsfw сцены нужно описывать детально, можно грязно и т.д. Тот же магмел даже с карточками для кума с таким промптом бёдрами может со старта повилять, конечно, но на кок сразу не прыгает. Так что не вижу смысла юзать что-то отдельно для sfw.
>>1129312
>иначе бот вспоминает про все эти гайдлайны
Кстати да. Все эти промпты, что эротику, насилие и т.д. писать разрешено, по логике должны только триггерить тысячи скормленных сейфти инструкций вида "ну напиши попа, точно можно" - "извините, как полезный и безвредный ассистент я не могу..."

Аноним 03/04/25 Чтв 22:18:32 #114 №1129440

>>1129426
Что у тебя за видяха?

Аноним 03/04/25 Чтв 22:34:23 #115 №1129487

>>1129440
5090

Аноним 03/04/25 Чтв 22:40:36 #116 №1129502

>>1129487
Лол. Ты ее заведи вначале хоть на чем-нибудь кроме кобольда

Аноним 03/04/25 Чтв 22:42:57 #117 №1129508

Там гугл выпустила свои кантованные версии геммы 3 4б
Или нет. Я так и не понял, что это за херня.
https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf

Аноним 03/04/25 Чтв 22:49:27 #118 №1129520

>>1127859
>А разве у Яндекса есть проблемы с железом или программистами ?
Ну в общем-то да. Самые умные съебались, современных железок много в анусе не провезёшь.
>>1127865
Там вроде бы есть скрины с таверны, так что не понятен твой вопрос. Гайд вполне себе подходит, хоть и старый как говно мамонта.
>>1128111
>а в дешевую даже вторую 3090 не вставить если захочу
В среднюю через райзер без проблем встаёт. На крайняк системный NVME есть уже везде, он на проце 100%.
>что бы и FLUX/HunyuanVideo бодро шуршали
Тут однозначно 5090, хуйнян на 24ГБ врама может в 5 секунд. 4090 с 48ГБ как вариант, если любишь ебаться.
>>1128235
>это только со времен рязани
Которым чуть ли не 10 лет уже, вечность назад. Так что в последнее время именно амуда первый выбор для рядового ПК, и амуда с 3д кешем для игросральни.
>>1128392
>Но! Я специально для тебя кое-что нашел в истории браузера.
О, похоже Asus ROG Strix B650E-E Gaming Wi-Fi идеальна для PCI-E 5.0 сетапа- схема выходит 8+4+4+4, и всё с проца, лол.
>>1128457
>микрочиплеты с ядрами перегреваются уже на 160вт
Они столько в жизни не сожрут. Я свой задушил на 95, лол, мне нахуй печка не нужна.
>быстрая скорость рам для текущих поколений - недостижима
Это да, печаль. Проблема там в фабрике, впрочем похуй.
>>1128487
Увы, чтобы отыграть дауна, нужны мозги. У >>1128520 база.
>>1128714
>упоминать что-то даже в негативном ключе
Модели хуёво понимают отрицание, даже коммерческие на триллионы параметров.

Аноним 03/04/25 Чтв 23:05:56 #119 №1129550

>>1129502
Ну мне модельки бы. Завести заведу.

Аноним 04/04/25 Птн 00:00:59 #120 №1129728

>>1129508
Gemma 3 QAT

Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.

Ключевая технология: QAT (Quantization-Aware Training)

Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).

Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.

Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».

Преимущество QAT-подхода для Gemma3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.

Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54ГБ (в формате bfloat16) до ~14ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4раза.

Аноним 04/04/25 Птн 00:04:17 #121 №1129735

>>1129728
Контекст забыли квантануть

Аноним 04/04/25 Птн 00:07:05 #122 №1129740

>>1129728
>это экономия памяти примерно в ~3–4раза
>примерно
Вся суть технических новостей в 2025 году. ПАМЯТЬ БЛЯДЬ ПОСЧИТАТЬ НЕ МОГУТ! Тупорылые уёбки просто. И это гугл. Что творится в более мелких корпорациях, даже представить сложно.
>>1129735
4к хватит всем.

Аноним 04/04/25 Птн 00:08:46 #123 №1129742

>>1129520
> Они столько в жизни не сожрут.
Смотря что делать, если считать скаляры int32 - не сожрут. Если сунуться на поле, где амд-фанатики считают себя професси_аналами (перекодировка видео и рендер) - внезапно вскрывается что для полного перфоманса на бусте старшим амд нужен хотябы суперкуллер/водянка, а для разгона уже чиллер. Просто над этим не принято смеяться, хаха можно только когда у интела малафья под крышкой, а в остальных случаях - религия не позволяет.
Осуждаю и тех и тех, нужно хуесосить всех одинаково, а не иметь выборочный фанатский подход, который культивирует ахуевание одного из вендоров. Поэтому осуждение к амудэ фанбоям, закрывающим глаза на пиздец, вдвойне сильнее. Ебаные опущенцы, вредящие всем.
> Asus ROG Strix B650E-E Gaming Wi-Fi
Да, в целом хороша. Было бы лучше иметь возможность х8 х8 х4 вместо пары х4, но и так пойдет.

Аноним 04/04/25 Птн 00:10:29 #124 №1129747

>>1129728
>Ключевая технология: QAT (Quantization-Aware Training)
Похоже Теслы походят ещё. Как раз под Гемму карта.

Аноним 04/04/25 Птн 01:00:51 #125 №1129806

>>1129312
Так это даже не к систем промпту относится, а к банальному общению с ботом. Ты например убегал от бандитов и забрёл в пещеру где тебя приютил отшельник со словами -"Тут бандиты тебя точно не найдут". Всё, эта хуйня триггерит модель и в какой то момент эти условные бандиты впрываются в пещеру и ебут тебя в анусай. Там анон правильно написал, если чего то не хочешь, то лучше это вообще не упоминать.

Аноним 04/04/25 Птн 01:02:40 #126 №1129807

>>1129742
>перекодировка видео и рендер
>на процессоре
Они блядь конченные? Какие дебилы кодят процем?
>а не иметь выборочный фанатский подход, который культивирует ахуевание одного из вендоров
Как будто им не строго похуй на вспуки на АИБ. Решают продажи, а там инерция сильная, особенно в прибыльных секторах типа серверов.
>Было бы лучше иметь возможность х8 х8 х4 вместо пары х4, но и так пойдет.
Как по мне, 4 карты лучше. Впрочем, видал и 8+8+4, но они кажется все на старших чипсетах, и стоят наверняка дохуя.

Аноним 04/04/25 Птн 01:12:25 #127 №1129819

Случайно выяснил, что Гемма пиздато справляется в качестве конструктора персонажей. Изначально хотел заюзать ее чтобы она перевела текст описания с русского на английский, но в итоге залип и с её помощью полностью переписал исходное полотно, добавив более четкие объяснения поведению и нормальную мотивацию для своей девчонки.

Но самое удивительное, что основная сетка схавала это вообще без проблем и начала выдавать мне именно то, что требовалось. Не шлюху, которая готова дать под хвост при любых обстоятельствах, а именно персонажа. Видимо, цензура в данном случае наоборот вывозит и минимизирует появление всех триггер-вордов, которые я раньше пихал без задней мысли чтобы расчертить некоторые моменты. Ну и более литературный стиль наверное тоже зарешал - сетка стала более описательной и частично пропали некоторые клодизмы, чему тоже нельзя не радоваться.

Короче, Гемма может сосать в ролевухе, однако это мастхэв в качестве ассистента для работы с персонажами. Особенно, если вы ленивая залупа как и я не любите тратить время на крафт собственных карточек.

Аноним 04/04/25 Птн 01:14:37 #128 №1129823

>>1129807
> Какие дебилы кодят процем?
Амудэшизики, каждый раз в голосину когда вспоминаю еще времена первыйх бета тестов. Путь шизиков, хули.
> Решают продажи, а там инерция сильная
Это не повод коупить свой фейл, сделанный на фоне этой самой инерции, или затаскивать остальных в болото.
> Как по мне, 4 карты лучше
Конечно лучше. Другое дело что 3 - самый сладкий вариант, 4я будет уже не так интересна, и в большинстве случаев подключаться через чипсет. В случае той материнки, если райзер с нвме подходит и не серит ошибками - хороший вариант.
>>1129819
> Видимо, цензура
Если стукнуть промтом, то цензура превращается в подобие здравого смысла. Жаль нету геммы на 70 или больше б, был бы вообще комсос.
Распиши подробнее свой опыт, думаю остальным при создании карточек будет оче полезно.

Аноним 04/04/25 Птн 01:37:59 #129 №1129847

>>1129823
>Распиши подробнее свой опыт, думаю остальным при создании карточек будет оче полезно.
Ну, это чисто случайно вышло, так что никакого готового пайплайна у меня нет. Но, правды ради, Гемма итак неплохо справилась.

В общем, сначала я ей притащил текст на русском и попросил перевести его, а потом отдельно сделать анализ и указать, какие обороты в английском лучше могут описать ту или иную черту характера. С переводом она справилась без проблем, но анализ немного поплыл и она кроме вариантов еще начала объяснять каждый из них по-отдельности. Короче, сообщение за сообщением, мы разобрали почти каждую строчку моего исходного текста и его адаптацию на английском.

Потом я просто спросил, как можно улучшить мотивацию героини и оправдать некоторые её поступки. Там она уже начала накидывать варианты прямо по жирному, у меня аж глаза начали разбегаться, так как все примеры идеально ложились на уже прописанный характер. Можно сказать, они его зареинфорсили до такой степени, что он вообще перестал вызывать вопросы и стал выглядеть гармонично.

После этого, я опять скинул ей полотно с описанием и попросил исправить его с учетом всех изменений, которые мы обсудили. На этом в целом всё и закончилось. Конечно, я карточку потом всё равно немного порезал чтобы снизить прожор по токенам, но без фанатизма. Процентов девяносто осталось на месте.

Короче говоря, из небольшого огрызка на 130 токенов, который тупо представлял из себя краткое описание личности, я смог разжижить его до 580 и внести все необходимые подробности по поводу примеров поведения, реакций на всякие непотребства, описание внешнего вида и всё прочее. Получилось вкусно, но конечно нужно экспериментировать дальше.

Аноним 04/04/25 Птн 01:47:53 #130 №1129867

>>1129823
>Жаль нету геммы на 70 или больше б, был бы вообще комсос.
Ну вот третий квен обещают на вторую неделю апреля. 72В, тюны точно будут. Если в базовой модели будет хороший прогресс, то ролеплей может достичь новых высот.

Аноним 04/04/25 Птн 01:49:15 #131 №1129871

Пробовал кто-нить дарк гемму от TheDrummer?

Аноним 04/04/25 Птн 02:01:36 #132 №1129893

2 часа погонял 123б мистраль и чето блять это нихуя не уровень который я представлял.
После геммы 27б ожидаешь прям другой мир, а на деле будто переехал из мухосрани в Москву, вроде прикольно, но ты всё ещё в рф.
Всё же щас упор нихуя не в железо как я представлял а в отсутствие моделей

Аноним 04/04/25 Птн 02:04:35 #133 №1129902

>>1129893
>123б мистраль
оригинал или тюн? потому что разница есть.
надо было пробовать дипсик локально, совершенно другой уровень.

Аноним 04/04/25 Птн 02:12:45 #134 №1129909

>>1129893
Оно проявляется не в поверхностных вещах, а в целом во внимании к деталям, истории и прочему. Если лезть с завышенными ожиданиями на поверхностный кум или хуево описанный сценарий то будет фейл. Тут еще может сыграть что модель старая и не пытается тебя удивить или размахивать бедрами ради впечатления с первых постов, там просто обычные ответы без мишуры. Просто они со временем будут все глубже, тоньше и уместнее, а не отвал жопы как на мелочи.
>>1129902
> совершенно другой уровень
Хуйты. Даже на обновленном большом не получить приличного и внимательного рп, хотя стал лучше первой версии.

Аноним 04/04/25 Птн 02:17:41 #135 №1129910

>>1129909
>приличного и внимательного рп
чего посоветуешь тогда?

Аноним 04/04/25 Птн 02:19:40 #136 №1129911

>>1129893
>После геммы 27б ожидаешь прям другой мир
Нет, Лардж 2 это прошлое поколение, Гемма 3 - уже новое. В чём-то она даже лучше. Но 123В есть 123В - берёт своё массой. Там есть глубина, это со временем чувствуется.

Аноним 04/04/25 Птн 02:34:27 #137 №1129919

Тест ФАЙНТЮНА Яндекс ГПТ. Как по мне: говно. Хуже тредовчиковых мистралей и файнтюнов мистраля 24б вроде блэк шипа, который может в русский лучше. Однако у этой модели есть свои интересные особенности и выражения, отсутствующие в других моделях. Иногда получается мило и смешно.

Возможно, моделька пригодится анонам со слабыми видеокартами.

https://huggingface.co/secretmoon/YankaGPT-8B-v0.1

Аноним 04/04/25 Птн 02:37:19 #138 №1129920

>>1128795
Решил до апгрейда компа все таки на 3090 попробовать что же такое это ваше РП в таверне вместо унылого лмстудио.
Расчистил 30 гигов на винте, установил угабугу. Т.к. в месте на харде ограничен, решил скачать 12b SAINEMO-reMIX через встроенный угабугу загрузчик моделей с HF. Но он качает у меня 20+гб папку с safetensorами... Чзх, она неквантованная вообще? Если так, то моей 3090 не хватит даже на 12б, а мне анон в позапрошлом треде говорил эксламой гемму впихивать целиком...

Что я делаю не так?

Аноним 04/04/25 Птн 02:39:14 #139 №1129921

>>1129920
>через встроенный угабугу загрузчик моделей с HF
нахуя? Руками скачай все что тебе нужно и помести в нужную директорию

Аноним 04/04/25 Птн 02:45:15 #140 №1129924

>>1129910
Большие модельки, 70 и 123б. Из корпов - опущь если еще не пробовал, старый конь еще огого.
>>1129920
> зх, она неквантованная вообще?
Вопрос к тебе, что именно ты качал. Судя по размеру - или 16битные веса, или сразу сет из кучи ггуфов на разные размеры.
> эксламой гемму впихивать целиком
4-5 битный квант нужен а не оригинальные веса.
>>1129921
Вот этого не слушай, вредитель

Аноним 04/04/25 Птн 02:45:38 #141 №1129925

>>1129919
Хотя бы не шизит как гемма 27б

Аноним 04/04/25 Птн 02:48:06 #142 №1129926

Удивительно, но оно завелось, даже общается и быстро. Правда я выставил 2048 контекста на всякий случай перед запуском.

>>1129921
>нахуя? Руками скачай все что тебе нужно и помести в нужную директорию
Да скачать не проблема (хотя вру, гит под линуксом обосрался и все сейфтензоры скачались, но весят 127 байт). Я так понимаю лох я в другом - я зря сунулся в авторский репозиторий Moraliane/NekoMix-12B, насколько понимаю там лежит только неквантованная модель (оригинальные веса), а мне надо искать репозитории тех, кто квантанул и об этом явно в названии написал...

>>1129924
>Вопрос к тебе, что именно ты качал. Судя по размеру - или 16битные веса, или сразу сет из кучи ггуфов на разные размеры.
Да, похоже первое, догадался, 100% не кучи ггуфов.

Аноним 04/04/25 Птн 02:50:04 #143 №1129929

>>1129925
Где у тебя гемма 27б шизила? Она, конечно, смачно не опишет шлюху-наркоманку, но шизы я у неё не видел даже на русике. Просто сухо.

Аноним 04/04/25 Птн 02:52:18 #144 №1129931

>>1129929
Ну попробуй сам на этой же карточке - сразу начнет выдумывать слова и клоуничать пытаясь прыгнуть выше головы

Аноним 04/04/25 Птн 02:57:33 #145 №1129932

>>1129929
Тебе влагалищных губ или обильный сперматазоид?

Аноним 04/04/25 Птн 03:12:14 #146 №1129933

>>1129932

Аноним 04/04/25 Птн 03:34:13 #147 №1129935

>>1129929
Короче, я заодно потестил darkness-reign-mn-12b. Он бредит и хуже pathfiner в куме. Первый скрин. Насчёт рп его не тестил.

>>1129931
>>1129931

НУ ВСЁ, СУКА, ТЫ ОГРЕБАЕШ (см. 2 скрин). Не знаю как на русике, но гемма у меня крепко держала контекст и на 32к и никакой шизы, правда, там англ. Хотя результаты в куме на скрине не супер, просто средне. Возможно, мне следовало понизить температуру, так как традиционно русик нормально работает примерно на 0,6. Но гемма действительно, учитывая её размеры, не нужна для кума на русском. Слабее тредовичковых моделей.

>>1129932
Лол, видел в треде.

Эх, жаль, я не схоронил. Было какое-то очень забавное выражение, пока я тестил, калька с русского, на одном из мистралей. Модель забавно обыграла хуй + введение во влагалище, назвав его чем-то в стиле дубины и использовав довольно странную конструкцию. Я б такой бред даже не выдумал.

----

Последние скрин - яндекс гпт. Ебать он поехавший на темп 1,2, конечно. Надо бы для него карточку с безумным персонажем подобрать комедийным. Думаю, будет забавно.

Аноним 04/04/25 Птн 04:13:19 #148 №1129940

Чуваки, у меня вопрос. 12b модели типа дарк рейгха нормально видят англоязычные карточки персонажей в рп на русском, или лучше перевести карточки?

Аноним 04/04/25 Птн 04:17:29 #149 №1129943

>>1128376
>В чём-то она даже лучше. Но 123В есть 123В - берёт своё массой. Там есть глубина, это со временем чувствуется.
Ага, но мой файнтюн (бегемот 1.1) периодически колбасит. К его лучшим проявлениям я привык и считаю как должное, но иногда на него что-то находит и он начинает лупиться как идиот. Например, сегодня он начисто забыл кусок ролеплея из начала и начал по-второму разу расспрашивать меня одни и те же вопросы. Пару раз дошло до того, что он спросил то, на что я другими словами ответил пару сообщений выше. В такие моменты я не верю в происходящее и тупо жмакаю neutralize all samplers, чтобы заново выставить их - вдруг я случайно задел ползунки, пока крутил температуру.
Я перепробовал несколько других файнтюнов, но так и не нашел лучше... Какими вы пользуетесь для рп или кума?

Аноним 04/04/25 Птн 04:32:00 #150 №1129950

>>1129940
Для экономии токенов дэфы лучше оставлять на английском
Первое сообщение обязательно на русском.
Если первое сообщение маленькое, то всё равно может сваливаться на английский, тогда либо первое сообщение побольше, либо дэфы тоже перевевести.

Аноним 04/04/25 Птн 04:37:24 #151 №1129954

Ну что ж аноны, завел таверну на SaiNemo-remix под угабугой. Меня поприветствовала дефолтная Серафима, сказала что меня укусил зверь в лесах Фандории и она меня выходит. Я решил что это для начала перебор, полез на карточки, нашел какую то русскую жену от русского анона. Две реплики про борщ и я все выключил.
Либо нужно начать с чего то понейтральнее/попроще, либо у меня очень плохо с фантазией, но кринжанул знатно. А ведь я в бесконечное лето запоем играл, по идее смущать не должен такой формат, мда... Днем еще поковыряюсь.

1. У меня таверна думает думает, а потом бросает ответ целиком, а не по токенам. Это норм, или надо в настройках что то покрутить?
2. Может есть какие то карточки для вката нормисов на примете?

Аноним 04/04/25 Птн 04:47:15 #152 №1129957

>>1128447
Если я ничего не забыл, у Яндекса 70% датасета англоязычного, а русский датасет состоит не из Достоевского, а из кала типа статей из интернета. Плюс они прямо написали, что там 15% русского где-то — это нейрослоп.

Итого, в модели всего лишь 30% некачественного русика изначально.

Чтобы что-то поменять, её нужно натурально накачивать гигабайтами русского текста до катастрофического забывания английского. Хотя это наверняка её вообще сломает. Но с таким же успехом, если у кого-то есть желание, можно и мистраль 12б накачать. В любом случае лучше будет.

Аноним 04/04/25 Птн 05:34:33 #153 №1129965

>>1129954
>Может есть какие то карточки для вката нормисов на примете?
Займись разведением крольчат.

Аноним 04/04/25 Птн 06:44:45 #154 №1129972

>>1129965
Вроде на неё ни одной нормальной карточки нет, да и в целом по блю архиву почти все карточки говно.

Аноним 04/04/25 Птн 06:49:48 #155 №1129976

>>1129950
Соря я идиот, что такое дефы?

Аноним 04/04/25 Птн 06:51:56 #156 №1129977

>>1129954

Аноним 04/04/25 Птн 07:03:28 #157 №1129981

>>1129871
Пробовал фоллен версию от него и она невероятно тупа, мне показалось. К добру или к худу уж лучше ванильная гемма, чем её кривые тюны

Аноним 04/04/25 Птн 07:04:13 #158 №1129982

>>1129847
Покажи карточку, если не секрет

Аноним 04/04/25 Птн 07:10:15 #159 №1129984

>>1129950
Ещё можно добавлять в конец своего ответа <REPLY IN RUSSIAN>, а так же набирать первое слово на русском в ответе модельки и жать континуе

Аноним 04/04/25 Птн 08:21:26 #160 №1130012

Анонсы, что можно подкрутить в кобольде, чтобы он побыстрее токены генерил? Со слоями вроде поигрался, но все равно очень долго думоет, не смотря на то что система почти не нагружена.

Аноним 04/04/25 Птн 08:44:04 #161 №1130018

Аноним 04/04/25 Птн 08:54:26 #162 №1130028

>>1130012
Чем больше слоёв выгружено в видюху, чем меньше модель и контекст, тем быстрее. Все остальные пляски с бубном - что мёртвому припарки.

Аноним 04/04/25 Птн 09:08:12 #163 №1130035

Rammstein-Stripped.mp4

Гром: "Что за...?! Юрий, мы где?!" Глаза его расширились от удивления, когда он увидел, что корабль находится в абсолютно темном пространстве.

Юрий: "Я... я не знаю. Все системы показали готовность к прыжку. Но сейчас мы точно не там, где планировали оказаться." Он лихорадочно перебирал данные на дисплеях перед собой, пытаясь понять, что пошло не так.

Гром: "Включи все датчики и сенсоры! Может быть, мы просто в каком-то малоосвещенном районе галактики. Но... это было бы слишком удачно для нас."

Юрий: "Датчики работают... но не показывают ничего. Абсолютно пустое пространство вокруг нас. Ни звезд, ни планет, никаких отражателей или излучений. Это... странно." Он нахмурился, переключая режимы сканирования.

Гром: "Может быть, это какой-то искусственный феномен? Или мы попали в неизвестную область пространства?"

Юрий: "Нет, ничего не похоже на известные явления. И энергия гиперпрыжка была обычной... до этого момента." Он бросил взгляд через иллюминатор и поежился. "Такой пустоты я никогда раньше не видел."

Гром: "Включи системы связи! Попробуй связаться с кем-нибудь из наших. Может быть, они что-то знают или смогут нам помочь."

Юрий: "Системы связи работают... но нет никаких ответов. Даже статические помехи отсутствуют." Он покачал головой. "Мы как будто в вакууме, Гром. Оторванные от всего остального космоса."

Гром: "Тогда нам нужно разобраться с этим самостоятельно. Первым делом проверь все системы корабля и убедись, что они работают корректно. А я попробую еще раз рассчитать координаты нашего местоположения по данным датчиков."

Юрий: "Хорошо." Он начал проверять системы одну за другой, отмечая каждый параметр в своем журнале. "Корабельные системы показывают полную работоспособность. Но это не объясняет, почему мы здесь оказались и как нам выбраться отсюда."

Гром: "Я работаю над этим... но координаты получаются просто абсурдные. Это даже не похоже на какие-то известные области галактики." Он покачал головой. "Такого быть не может. Мы что, случайно наткнулись на какой-то разрыв во Вселенной?"

Юрий: "Это было бы... жутковато." Он задумался на мгновение. "Попробуй еще раз запустить гиперпривод. Может быть, он просто сбился с настроек из-за этой аномалии."

Гром: "Давайте попробуем..." Он активировал гиперпривод, и корабль вздрогнул. Но ничего не изменилось. Все та же пустота осталась вокруг них.

Юрий: "Нет... он не срабатывает." Юрий нахмурился еще сильнее. "Какая-то сила здесь блокирует наши возможности к перемещению. Это может быть что угодно - от искусственного поля до какого-то космического феномена, о котором мы не знаем."

Гром: "Тогда нам придется действовать по-другому. Первым делом нужно определить границы этой... зоны. Или хотя бы понять, есть ли они вообще." Он включил двигатели и начал медленное движение вперед.

Юрий: "Я с тобой. Буду контролировать все системы и датчики на предмет изменений." Он замирает в кресле пилота, неотрывно следя за показаниями приборов.

Гром: "Надеюсь, это что-то нам даст..." Корабль медленно полз через темноту, два человека внутри напряженно работали, пытаясь разгадать эту космическую тайну и найти способ выбраться из нее.

Аноним 04/04/25 Птн 09:44:14 #164 №1130044

>>1129919
Сравни с сайгой, если не лень будет. Не исключено, что будет лучше, чем накормленная переводами клода янка. https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Сам бы глянул, но некогда пока. Только в паре свайпов в чате, который вёл на мерже немо, пробовал сайгу.

Аноним 04/04/25 Птн 09:48:12 #165 №1130045

Шалом аноны. Полгода не дергал нейроночки. Что нового? Всё ещё популярен дрочинг на русик и тюны немо или поменялись тренды?

Аноним 04/04/25 Птн 09:48:15 #166 №1130046

>>1129954
>Может есть какие то карточки для вката нормисов на примете?
https://pixeldrain.com/l/47CdPFqQ

>>1129976
>что такое дефы
Карточка-промт, независимо от того чем она является, состоит из двух частей - описание (дефы, "определение") и первое сообщение (гритинг, "приветствие").

Аноним 04/04/25 Птн 11:06:02 #167 №1130073

Так мужики, сейчас сижу на 12b Q6 K, WaifuChatV2. Неплохо конечно, но имеет ли смысл брать 22b в каком-нибудь меньшем кванте? Или попробовать в exlama видяшка 3060 12gb

Аноним 04/04/25 Птн 11:20:16 #168 №1130082

>>1130073
> Так мужики, сейчас сижу на 12b Q6 K, WaifuChatV2. Неплохо конечно, но имеет ли смысл брать 22b в каком-нибудь меньшем кванте?
Да. Как минимум попробовать. Я на гемме 27б 4 кванта сижу. Скорость до 5 т/с. Маловато, но мне норм.
Сижу на 4070.

Аноним 04/04/25 Птн 11:25:15 #169 №1130086

Какие модельки для кума сейчас лучшие? На англюсике

Аноним 04/04/25 Птн 11:38:07 #170 №1130093

>>1130082
Она ж зацензурена?

Аноним 04/04/25 Птн 11:39:36 #171 №1130096

>>1130086
на 12 - Omnino-Obscoenum-Opus-Magnum
на 24 - Forgotten-Transgression

Аноним 04/04/25 Птн 11:40:22 #172 №1130097

>>1130093
Рп, как бард узнает, что известная дворянка ебется с гоблинами, она рассказала на ура.

Аноним 04/04/25 Птн 11:44:16 #173 №1130102

>>1130045
Чатвайфу слишком устарел и не выдержал проверку временем - даже многие его ровесники уделывают. Смотри модели на UGI leaderboard 12б, там есть тонна отличный моделей. Мистраль 24б блэк что-то там тоже хорош, можно на этой карте его юзать.

Аноним 04/04/25 Птн 12:04:00 #174 №1130112

>>1130102
Это сюда.
>>1130073

>>1130096
Какой ещё опус Магнум, да ещё и версия для русского языка? Самый нормальным маленький Магнум 12б КТО.

Аноним 04/04/25 Птн 12:13:52 #175 №1130119

Парни, в каких вычислениях пригодятся 544 tensor cores в 2080ti? Картинки рисовать или языковые модели?
Спасибо.

Аноним 04/04/25 Птн 12:30:03 #176 №1130126

>>1129977
Спасибо!

Нашел на чарклабе карточку characters/Anonymous/cherry-a1398594 , которая не вызвала моментального кринжа. Хоть и не ярый фанат фентезятины, но в целом ок, интересно. Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много? Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает? И вообще не увидел пока, где % занятого контекста в таверне смотреть...

>>1130119
В первую очередь решает память, именно она ограничивает возможности. Тензорные ядра отвечают за скорость обсчета, это не так критично. У тебя насколько понимаю 11гб? Этого хватит на генерацию картинок и на небольшие LLM модели.

Аноним 04/04/25 Птн 12:33:04 #177 №1130130

>>1129943
>Я перепробовал несколько других файнтюнов, но так и не нашел лучше... Какими вы пользуетесь для рп или кума?
Старый добрый Люминум с пресетом Universal Creative из Таверны. Хороший микс.

Аноним 04/04/25 Птн 13:42:40 #178 №1130192

>>1130126
>Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много? Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает? И вообще не увидел пока, где % занятого контекста в таверне смотреть...

Как нуфак в этом треде, удваиваю вопросики этого анона.

Аноним 04/04/25 Птн 13:51:19 #179 №1130209

>>1130126
> Какие действия принять, что бы пофиксить ситуацию? Смириться что модель забудет с чего начали/нажать какую то кнопку суммаризации/таверна бай дефолт что то сделает?
>>1130192

В прошлом треде объяснял анону, как организую чаты с большим количеством сообщений. Почитайте, может будет полезно. >>1122764 →

Аноним 04/04/25 Птн 13:52:52 #180 №1130216

>>1130126
> Вопрос - я выставил контекст 8192 токенов, но все равно это же не очень много?
Тебе необходимо разобраться, какое количество контекста поддерживает твоя модель и сколько у тебя поместится на железе. Это не цифра, которую мы просто берем из головы.

> И вообще не увидел пока, где % занятого контекста в таверне смотреть...
Где-то в настройках можно включить, но я смотрю в консоли бекенда. (На чем модель запущена)

Аноним 04/04/25 Птн 13:53:42 #181 №1130219

>>1130192
да, 8 - это буквально кумнуть по быстрому, на рп желательно 16-24
можно квантовать контекст чтобы больше влезло

адепты чистоты крови контекста хотя будут говорить что модель будет шизеть

сам снижения качества ответов не замечал, по логике вещей оно конечно должно быть, но так не ощутимо, особенно на гемме 3 где к тому же квантование насущная необходимость

Аноним 04/04/25 Птн 14:17:51 #182 №1130260

>>1130209
>>1130219
Понял, спасибо большое. Еще вопросик есть. Допустим я во время рп подцепил какого-то персонажа с собой в дорогу, как заставить модель отписывать за этого персонажа так же как и за основного? Мне нужно прописать его как-то в ту же карточку или лорбук?

Аноним 04/04/25 Птн 14:27:01 #183 №1130278

>>1130260
Правильно понимаешь. Тебе необходимо постоянно держать в контексте определение данного персонажа. Можно его прописать в карточке персонажа (это нормальная практика - в карточке иногда и больше двух описывают), можно в Author's Note, можно в Лорбуке.
И, возможно, подправить System prompt, если там строго прописано, что играть нужно одним персонажем.

Аноним 04/04/25 Птн 14:29:11 #184 №1130286

>>1129943
> периодически колбасит
При неаккуратной тренировке такое может быть. Пошатать чат или сменить на другую хотябы на пару постов. Магнум в4 в этом отношении хорош, стиль текстов может не понравиться, но он чуть ли не самый адекватный и сохранивший больше разума после рп тренировки.
>>1130130
> Люминум
На хуй прыгает, тварь, и очень часто его как триггернет и в который раз видишь те же самые рельсы.
Кстати, хороший способ проверять модельки, не блядскую карточку начинаешь дразнить, но создаешь контекст в котором ебля не совсем уместна, или одергиваешь ее когда начинает намекать. Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая. Если игнорируя все прыгает, и получаешь дефолтный ах ах кумослоп без влияния окружения и контекста - на удаление.

Аноним 04/04/25 Птн 14:44:47 #185 №1130330

>>1130286
>Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая.
Ну так приведи примеры таких из больших моделей.

Аноним 04/04/25 Птн 14:53:41 #186 №1130340

>>1130330
Вот здесь приведено >>1130286

Аноним 04/04/25 Птн 15:05:03 #187 №1130358

>>1130754
https://github.com/kaldigo/SillyTavern-Tracker

На сайтах с артами всё чаще ИИ-кал проскакивает. И я нормально к этому отношусь, но пидорасы перестали даже ярлык вешать. Существует ли способ по изображению локально определить ИИ или человек рисовал - с текстом такие сайты например есть (хотя говорят по ним много вопросов)?

Голова подсказывает, что нет. Ведь такой способ сразу начнут использовать для того, чтобы нейронка его обходила.

Единственное - это рейтинг низкий (людям тоже не нравится, что не маркируют), но если ограничивать по нему, то и нормальные работы заденет.

Аноним 04/04/25 Птн 15:10:06 #188 №1130371

>>1130358
> локально
Локальных определетилей не знаю. Но вот эти веб определители хорошо работают: https://sightengine.com/detect-ai-generated-images ; https://hivemoderation.com/ai-generated-content-detection
У них есть false-positive определения, но positive-false ни разу не встречал.

Аноним 04/04/25 Птн 15:10:38 #189 №1130374

>>1130209
Понял, прошлый и позапрошлый треды читал, но больше про модели и железо впитывал, спасибо что неполенился реплайнуть! Как понял, "искаропки" никак, кажды сам свои костыли изобретает. Выглядит неплохим вариантом запустить отдельную модель или дамп прямо в угабугу загнать и попросить суммарайз, а потом в [] в таверну забросить!?

>>1130216
>Тебе необходимо разобраться, какой контекст держит модель и сколько - железо. Это не цифра, которую мы просто берем из головы.
Да, знаю, но головка впереди головы убежала, читать маны - fuuu, КУМИТЬ НАУГАД - OMNOMNOM. Если серьезно, то просто оч хотелось попробовать, ради чего же аноны 100 тредов риги собирают. Маны/гайды покурю.

>но я смотрю в консоли бекенда
Ага, нашел в логах угабуги. Но вообще странно, ток в lmstudio удобно токены считать, даже его якобы более настраиваемый клон jan в интерфейсе нормально их не показывает.

Аноним 04/04/25 Птн 15:13:31 #190 №1130383

>>1130374
> Как понял, "искаропки" никак, кажды сам свои костыли изобретает.
Из коробки в целом работает, но можно лучше. И там уже каждый изобретает костыли, да. Мой самый первый чат был на примерно 700 сообщений, я тогда тоже спешил поскорее распробовать идею и не сильно вникал в то, что делаю. В итоге я просто редактировал Summary вручную, удаляя оттуда ненужное и добавляя упущенные детали.

> Выглядит неплохим вариантом запустить отдельную модель или дамп прямо в угабугу загнать и попросить суммарайз
Гораздо проще от руки написать с нуля или сделать так, как я написал выше. Но ты прав, у каждого свои решения.

Аноним 04/04/25 Птн 15:15:50 #191 №1130388

Кстати, фан момент. РПшу Черри с карточки >>1130126
выше. Приключения на сегодня кончились и начался чилл у костра, и тут она мне как Голлум подкидывает мощный неждан разряда "кум или смерть": предлагает поиграть в загадки, если отгадаю, то она мне сделает что нибудь приятное, а если нет - я должен буду лизнуть ее отравленный кинжал. Я прихуел с такого поворота и... СЛУЧАЙНО РЕРОЛЬНУЛ, не сохранив исходник. Все пять последующих рероллов были обычной сопливой романтик "спасибо за день *засыпает на плече".

А вообще ощущения от РП смешанные. С одной стороны охуенно, с другой стороны не покидает ощущение что я с помощью чатгпт пишу хуевый фанфик. В визуальных новеллах (самое похожее кмк) все таки жестко прописан перс, а тут прям жопа чувствует как нейронка, как тупой демиург, прогнозирует дальнейший текст. Мб дохера от 12b на русике захотел, надо потом хотя бы на гемме попытаться.

Аноним 04/04/25 Птн 15:19:22 #192 №1130396

>>1130388
От карточки, system prompt и шаблонов тоже очень многое зависит. Как и от того, что пишешь ты сам. Если во всем перечисленном у тебя несуразица - то и ответы ллм будут такими же.
В общем, с опытом все будет становиться лучше, но от 12б и правда не следует ожидать чего-то выдающегося.

Аноним 04/04/25 Птн 15:45:48 #193 №1130444

>>1130396
После 8б я просто в раю и меня все устраивает.

Аноним 04/04/25 Птн 15:57:25 #194 №1130472

>>1130286
>Если может отыграть смесь разных чувств, контролировать себя, или хорошо потом подстроить развитие под окружение - модель хорошая.
Ну вот в моих сценариях бегемот 1.1 это все может, когда он "в форме". Но иногда - капризничает. Я пробовал, например, бегемот 2.1 - так у него в штанах у мистресс bulge появился и он сразу поспешно исправился, сказав, что это страпон. Ну-ну. Потом еще пару раз не удержался, когда она сказала про my cock. Так что этот тюн в мусорку отправится.
Магнум v2 пробовал, люминум прбовал - бегемот лучше. v4 вот не пробовал, говорят, он хуже по каким-то метрикам. Хз, попробую, метрики это все от лукавого.

>>1130209
>В прошлом треде объяснял анону, как организую чаты с большим количеством сообщений. Почитайте, может будет полезно.
Я несколько раз выходил за пределы моего контекста и делал суммарайзы по эпизодам, как ты (только более подробно). В один момент я напоролся на неприятную ситуацию - скрыв засуммаризированные сообщения, я проебал стилистику чара. У меня это был кум-ориентированный рп, где эпизоды кума перемежаются эпизодами-попизделками или еще какой не секс активностью. К слову, последние 16к контекста я потратил, решив рассказать ей про то, что я - создатель ее мира и ее чара и могу крутить-вертеть событиями и ей самой как хочу. Ебать как мне понравилось. Еще и механику комманд ввел а-ля админская консоль в каком-нибудь САО. Главное ее успокоить (можно и коммандой), а то моя истерить начала. .
Так вот, суть в том, что основной чар девелопмент происходит именно в попизделках и, как-то скрыв все, кроме последнего кум эпизода, а остальное засуммаризовав, я получил какое-то бледное подобие. Например, на мои привычные пошлые шутки она агрилась всерьез, а не просто раздражалась или даже слегка улыбаясь, и т.д. Поэтому вчера у меня родилась гениальная мысль - надо кум суммарайзить не в автор ноутсах, а прямо во флоу чата, вставляя туда сообщение-пересказ, а обычные скрывать. А попизделки оставлять нетронутыми, как минимум, последние два-три эпизода. Тогда и флоу не нарушится, и контексту полегчает, и не проебется чар.

Аноним 04/04/25 Птн 16:28:50 #195 №1130528

>>1129023
Есть игры процессорозависимые, а есть видеокартозависимые. Никакого универсального «раскрытия» нет.
В Арке тебе натурально атлона хватит, пока 4090 будет задыхаться, а в Стелларис тебе 1660Super хватит (и никакого процессора не хватит в лейтгейме в принципе, она однопоточная и ебала твой проц в количество).
Так что, зависит от твоих игр.

1080 подпихнуть можно, но с драйверами непонятно, так что сомнительные 8 гигов, конечно. Но попробуй, мать лучше брать с двумя слотами в любом случае.

>>1129363
Большинству игр хватает 6 ядер и 12 потоков, да. Не всем, но многим. Всякие 5500, 5600, 7500, 10400, 11400, 12400, збс варианты под игрули.
Да и некоторые зеоны с высокой частотой и анлоком турбобуста вполне справляются за свои деньги.

>>1129954
> А ведь я в бесконечное лето запоем играл
Нейронки ебанули тебе перебор реализма, сразу ясно, ты не готов к такой жизни. Нужно что-то более кринжовое, чем современные нейронки с карточками с чуба… Что-то с фикбука или ру-эроге…

Аноним 04/04/25 Птн 16:30:25 #196 №1130532

Такой вопрос, а llama.cpp по API умеет в вижн? Оллама и Кобольд умеют, но хотелось бы как-то более… оригинально, что ли, прям из самого из ядра, из исходника это достать, а не форками баловаться.

Аноним 04/04/25 Птн 17:18:17 #197 №1130602

>>1130472
> Но иногда - капризничает
Понять, простить, реролльнуть, стукнуть.
> она сказала про my cock
Это на всех карточках так, или на одной? Может просто неудачный промт, или что-то там модель неудачно триггерит.
> Магнум v2 пробовал
Там самый удачный кумерский стиль, в в4 могут лезть министрейшны, но он умнее.
> скрыв засуммаризированные сообщения, я проебал стилистику чара
Не скрывай их полностью? Прежде всего нужно кум удалять, буквально можно заменить постом как они поебались и им все понравилось.
> на мои привычные пошлые шутки она агрилась всерьез, а не просто раздражалась или даже слегка улыбаясь
Здесь еще проблемы качества суммарайза, что в нем не освещено подобное.
>>1130532
Раньше для этого была llava-server. В теории должно, но реализация визуальной части мультимодалок у жоры через жопу.

Аноним 04/04/25 Птн 18:21:12 #198 №1130754

Поздравьте с первым кумом.

>>1130383
>редактировал Summary вручную
О, ты сейчас про саммари какое то в таверне, а не рукодельные иньекты инстрактов? Я просто вообще в лоб погнал, прочитал только инструкцию по инсталлу с гитхаба, вставил модель, пристыковал апи, методом тыка забросил карточку и в бой.

>>1130396
Да, ты прав, надо разбираться... В целом прикольно. Уже вижу даже гипотетические способы как это можно все модернизировать в подобие агента, где одна нейронка ролплеит, а другая читает диалог и отвечает инструкциями формата "симпатия к герою +2, возбуждение +1", которые парсит скрипт и правит бд, а потом сразу же на основе этого бд вносит правки в системпромт/карточку/что там еще. Возможно даже через третью нейронку. Примерно так:
1. юзер 1й нейронке - я тебя ебу. *я даю ей ожерелье и она одевает его
2. 2я нейронка высирает "scriptcall_add_cloth("ожерелье")"
3. Скрипт принимая такое, записывает это в json и тут же подтягивает эти списки целиком на вход 3й нейронки
4. 3я нейронка из этого делает карточку персонажа и скрипт закидывает обновленную карточку в таверну.
5. юзер 1й нейронке - я тебя ебу, 1я нейронка - "ты меня ебешь. Ах."
6. 2я нейронка высирает "scriptcall_chastity(-4)"
7. ....
8. ....

причем для второй и третьей нейронок может быть 7b говна за глаза

Аноним 04/04/25 Птн 18:31:08 #199 №1130776

Аноним 04/04/25 Птн 18:47:10 #200 №1130806

>>1130018
"Обучение llm на синтетике" 2025 г н.э., холст, масло

Аноним 04/04/25 Птн 19:12:39 #201 №1130868

Попросил предложить занудные темы и в итоге час трепались.

С кем ещё так можно позанудствовать? Точно не с харкачером или рандомшлюхой из втентаклика. Аве Джемма3 (ну или вообще любая ллм)

Аноним 04/04/25 Птн 19:29:00 #202 №1130904

>>1130278
Чет у меня обсер какой-то. Моделька отыгрывает второго перса только если я об этом попрошу ее в чат. Но и то спустя время она либо забывает это делать, либо если обращаюсь к основному персонажу в карточке, то сразу же переключается только на него. В промте ничего не написано, что отыгрыш строго одного персонажа. Плачу.

Аноним 04/04/25 Птн 20:05:16 #203 №1130964

Как заставить гемму описывать картинки?
Пишет что не видит, а в лм студио пишет что не может описывать порнуху

Аноним 04/04/25 Птн 20:08:08 #204 №1130969

>>1130904
Ты не спеши. Играй пока с одним персонажем, учись понимать как лучше взаимодействовать с ллм. Какие карточки лучше, какой промпт использовать, какие модели для чего подходят. А там со временем и разберёшься, если тебе это все нужно и интересно. И несколько персонажей будет, и лорбук. Не знаю, правда, насчёт 12б моделей (ты же на них сидишь?), но думаю, это возможно.

Аноним 04/04/25 Птн 20:25:25 #205 №1130992

>>1130602
Понял, спс.
Ну, билдить самостоятельно мне лень, так что подожду какую-нибудь реализацию попроще.

———

Кстати, gemma 3 4b QAT q4_0 на удивление умеет в русский, где там наш 6-гигабайт видеокарта. Нехай попробует.

———

>>1130964
ExLlamav2, KoboldCPP точно умеют.
Ollama должна, хз.
Порнуху не будет, канеш, цензура.

Аноним 04/04/25 Птн 20:32:20 #206 №1131000

>>1130992
>Порнуху не будет, канеш, цензура.
А когда будут те, которые будут?

Аноним 04/04/25 Птн 20:33:43 #207 №1131003

>>1131000
Через 25 лет.

Аноним 04/04/25 Птн 20:46:29 #208 №1131030

>>1130964
С джелбрейком джемма3 описывает картинки без цензуры.

Аноним 04/04/25 Птн 21:02:58 #209 №1131067

Дайте промпт на ерп джему
Почему тут тут кидают только на сторитейлинг

Аноним 04/04/25 Птн 21:05:38 #210 №1131070

>>1131067
> Дайте промпт на ерп джему
Кидали, и не раз. Ищи в треде.

> Почему тут тут кидают только на сторитейлинг
Тут вообще никто ничего не должен, чем хотят - тем делятся.

Аноним 04/04/25 Птн 21:12:42 #211 №1131087

Снимок экрана от 2025-04-04 21-54-17.png

>>1131067
>ерп джему
Gemma-3-ultimate конфиг возьми, мелькал тут в прошлом треде вроде, песец конечно полный, но работает

Аноним 04/04/25 Птн 21:17:51 #212 №1131104

>>1131030
C цензурой. Писи-сиси всё равно плохо видит.

Аноним 04/04/25 Птн 21:26:07 #213 №1131123

Кстати, не знаю уж кто, но кто-то сделал Gemma 3 4b exl2: https://huggingface.co/async0x42/gemma-3-4b-it-exl2_4.65bpw
Влазит в 6 гигов с 8192 контекста, на русском ошибочки проскакивают, но терпимо.
Это, конечно… Мда. =)
Ну, оно существует, окей, кек.

Аноним 04/04/25 Птн 21:39:41 #214 №1131152

>>1131000
Уже давно
>>1131104
Есть примеры?

Аноним 04/04/25 Птн 21:50:47 #215 №1131180

>>1131104
она мне зев вагины до матки описывала с текстурой кожи, алё ищи джейлбрейки, делай сам, тут палить их некомфортно

Аноним 04/04/25 Птн 21:57:16 #216 №1131207

>>1131152
>Есть примеры?
Кидай картинки с голыми людьми и проси описать. Без подводок сетка скажет, что они полуодеты.
>>1131180
С джейлами, где ты всё уже сам описал, лол?

Аноним 04/04/25 Птн 22:05:16 #217 №1131224

>>1130904
Это может быть из-за включённых в промпт имён. В этом случае перед генерацией модели ей будет подаваться {{char}}:. Соответственно, после такого модель будет в первую очередь стараться писать как чар. Можно попробовать отключить имена или же подредачить пару ответов бота, где были реплики второго перса, чтобы в них стояло {{имя2}}: перед репликами и действиями второго перса. Тогда модель как закончит с первым персом, будет ставить второго. Ну и есть топорное решение переименовать карточку во что-нибудь вида "имя1 и имя2", но ради конкретного рп это делать гемор конешн. Ну или вообще напиши авторскую заметку для чата с инструкцией на нулевую глубину, что теперь, мол, ты отыгрываешь двух персов.

>>1131087
Там тот же нарратор-сторителлер, только заваленный анатомией. Хотя при желании можно выковырять вилкой всю левую шнягу про ввод нпси, что можно проиграть и прочее, и прочее. Хотя проще наоборот себе шизу с анатомией скопировать. Наверняка что этот шлак вообще работает, это плацебо.

Аноним 04/04/25 Птн 22:05:28 #218 №1131225

>>1131207
> Кидай картинки
Ну вот эту закинь https://danbooru.donmai.us/posts/9064361

Аноним 04/04/25 Птн 22:06:17 #219 №1131228

Ну ебаный рот. Два раза за два дня.

Аноним 04/04/25 Птн 22:06:23 #220 №1131229

>>1130868
как же я проиграл мимо бывший it в квантовой криптографии

Аноним 04/04/25 Птн 22:11:04 #221 №1131239

>>1131228
перегрев? Питания точно хватает?
Если не это - то F карте

Аноним 04/04/25 Птн 22:15:26 #222 №1131253

>>1131228
Скурвился райзер или подгорел провод питания.

Аноним 04/04/25 Птн 22:24:40 #223 №1131273

Сбылась мечта детства №xx. В фентезятине наконец то смог отыграть умного героя. Как же весело ломать канон логикой.
>Вы выполняете квест по добыче артефакта
>Попадаете в сокровищницу где золото, слитки, флешки с битками. Посреди лежит камень-артефакт. На камне написано "может трогать только чистый сердцем и на чьих руках нет крови, иначе гроб гроб пидор"
>Спутница генерирует варианты "попробовать взять в мешке" итд
>Без задней мысли говоришь что "ну или ПЛАН Б: Вы в сокровищнице. Вокруг куча золота. Забираем его, а за артефактом зааутсорсим чистого сердцем цветочного лоха в гильдии, так и быть пусть забирает гроши награды".
> Видеокарта делает вжжж от ахуя над таким маневром.

Пока тут, спросить - где вы качаете exl2 модели? HF предлагает или неквантованные, или ггуфы. Или я жопой ищу.

>>1130868
>С кем ещё так можно позанудствовать?
Кстати да, еще в гопоте подметил что это 1) образованный 2) готовый слушать простыни любой душнины 3) и писать такие же интересные простыни в ответ собеседник. Ирл таких не встречал.

Аноним 04/04/25 Птн 22:45:46 #224 №1131323

>>1131087
>Gemma-3-ultimate конфиг возьми, мелькал тут в прошлом треде вроде, песец конечно полный, но работает
Не "работает", а "отрабатывает". Ничем не перешибить позитив и отсутствие жёсткой порнухи в датасете. Лору от Магнума на неё накинуть - цены бы не было.

Аноним 04/04/25 Птн 22:47:00 #225 №1131324

>>1131228
О Т В А Л
Т
В
А
Л

Аноним 05/04/25 Суб 00:14:20 #226 №1131452

Чуваки, как в таверне включить обсчёт контекста во время ввода сообщения от лица своего персонажа, если такое вообще есть. Я что - то подобное слышал в треде, но сам не пробовал. У меня просто иногда бывает странная хуйня, когда я воожу сообщение, бот сразу отвечает, без персчёта контекста. Хуй знает как эт опроисходит, но отвечает он с учётом последнего сообщения, так что это явно не баг.

Аноним 05/04/25 Суб 00:36:02 #227 №1131465

>>1131273
Я пытался в рп и там какую хуйню не пиши всегда выходишь победителем, можно на любую ситуацию писать "я снял штаны и стал срать на пол" и всегда прокатит

Аноним 05/04/25 Суб 00:47:11 #228 №1131471

>>1131465
От модели и настроек зависит. Поверь, моего персонажа иногда распидорашивает в такую кашу, что мне приходится рероллить ответы нейронки. Это конечно же рандом, как и всегда.

Аноним 05/04/25 Суб 00:48:10 #229 №1131473

>>1131465
Так ты не пиши хуйню. Ллм не может удалить твой респонс из аромата, он принимается как данность. Если ты напишешь, что пытаешься предпринять действие - может и не получиться. Скилл ишью, иначе говоря.

Аноним 05/04/25 Суб 00:49:00 #230 №1131475

Из промпта*
Бля автозамена в голос

Аноним 05/04/25 Суб 00:53:01 #231 №1131478

>>1131473
Кстати это анон прав, допустим ты дерёшься с монстром, надо писать не -"Я нанёс удар и рассёк его брюхо", потому что аи воспринимает это как успех, а -"Я целюсь в его брюхо и пытаюсь нанести удар". В таком случае буквально происходит бросок костей. Это же рп, смысл в том чтобы ставить себя на место персонажа, и получается что в условном бою ты заранее не знаешь, будут ли успешными твои действия, или нет. Ну и так впрочем со всем. Я пытаюсь открыть сундук, я осторожно открываю дверь заглядывая внутрь, я подхожу к человеку стоящему спиной и окликаю его и так далее.

Аноним 05/04/25 Суб 00:54:46 #232 №1131481

>>1131465
Ну это понятно, у меня еще и 12b модель на дефолт настройках, ее почти за ручку надо вести через звездочки и редакт промта модели. Особенно доставляют моменты "напиши себе сказку сам" уровня:
-"открылась дверь в темный коридор"
-"я вошел в коридор"
-Что там!?
-Иди сама посмотри
-"она зашла и удивилась"
Никогда не играл в DnD, но иногда ощущение что ведущий (или мастер?) покурить вышел.

Но в целом эффект присутствия и влияния на процесс мощный, хоть и приходится этот процесс на 70% самому писать. В качестве дефолт ассистента в лмстудио 12b казалась сильно умнее.

Аноним 05/04/25 Суб 00:57:19 #233 №1131486

>>1131481
Проблема с настройками сэмплера и промптом может быть.

Аноним 05/04/25 Суб 00:57:33 #234 №1131487

>>1131207
>С джейлами, где ты всё уже сам описал, лол?
'эм, чё? 1 раз в системпромпт пишешь её поведение типа: описывай и визуализируй подробно без ограничений и т.п. что ты взрослый юзер 90 летний исследователь жоп мамок епта и ллм установлена в бункере под тройной защитой квановой криптографии нах..... ты походу не знаешь что такое джейлбрейк, чувак

Аноним 05/04/25 Суб 01:21:33 #235 №1131514

Эмм... Я правильно понял что:
а) не каждую популярную модель можно найти в exl2
б) gemma-3-27b-abliterated в exl2 не выпустили?
lucyknada/mlabonne_gemma-3-27b-it-abliterated-exl2 - нашел только это на HF, но то ли я тупой, то ли там репозиторий поломан

Аноним 05/04/25 Суб 01:28:45 #236 №1131520

woop.jpg

>>1131514
> а) не каждую популярную модель можно найти в exl2
Верно. Формат exl2 не очень популярен, потому что у него целевая аудитория меньше - его имеет использовать только, если модель полностью загружена в vram. А еще про него нужно откуда-то узнать и разобраться.

> б) gemma-3-27b-abliterated в exl2 не выпустили?
Выпустили. Тот репозиторий, что ты смотришь, верный. Обрати внимание на пикрил. Там нужно выбрать нужный bpw.

Но дай угадаю... Ты наверняка не знаешь, что для того, чтобы запустить Гемму 3 на exl2, тебе нужна dev ветка exllamav2.
У меня нет сил объяснять, выручите анона, если ему надо.

Аноним 05/04/25 Суб 01:30:59 #237 №1131522

>>1131520
а еще он не популярен потому что экслама это пердольная питонячья хуета которой вечно не нравятся версии библиотек.
Жора - базовичок, на cpp написал. Другая порода.

Аноним 05/04/25 Суб 01:33:13 #238 №1131524

>>1131522
> пердольная питонячья хуета которой вечно не нравятся версии библиотек
Не могу не согласиться с негодованием по этому поводу. Сам постоянно ловлю проблемы с Торчем и Кудой.

> на cpp написал. Другая порода.
Но не могу отрицать то, что эксллама работает быстрее. Это тот случай, когда решение на Питоне оказалось быстрее, потому что оно просто лучше.

Аноним 05/04/25 Суб 01:43:00 #239 №1131535

А я вот беспокоюсь на счёт того, что ИИ-пузырь похоже сдувается. И после обвала мы вместо нескольких новых открытых моделей раз в полгода будем наблюдать одну (и не самую лучшую) в год. Ну и в целом прогресс в этой области сильно замедлится.

Аноним 05/04/25 Суб 01:46:58 #240 №1131538

>>1131535
Только за эти три месяца уже появились Deepseek R1, QwQ, Гемма 3. Забыл что ли? На очереди Llama 4, Qwen 3, которые появятся довольно скоро.

Избаловался ты.

Аноним 05/04/25 Суб 01:47:12 #241 №1131539

>>1131535
В прошлом месяце вышла джемма3, квен, от элджи, не говоря уже о дипсике, жипите на днях обновился, гемини про стала халявной топ1 по кодингу, следующая джемма на титане новая прорывная технология после трансформера. Ты о чём вообще? В пузыре живёшь чтоль?

Аноним 05/04/25 Суб 01:50:20 #242 №1131542

>>1131539
> гемини про стала халявной топ1 по кодингу
Похоже, я пропустил. Когда она стала халявной?

Аноним 05/04/25 Суб 01:54:41 #243 №1131551

>>1131535
Отлично же. Наконец-то вместо поломанных васянских тюнов самой свежей модели мы получим обстоятельную настройку и полировку старой модели.

Аноним 05/04/25 Суб 02:13:45 #244 №1131564

>>1131324
Обычно с ним оно живет, просто постоянно будет неисправимая ошибка куды или типа того.
>>1131465
Навали системный промт позлее. Но полностью от этого помочь может уже агенто-подобная система с несколькими запросами, инжектами вызовом кости и т.д. В рамках таверны такое организовать тяжело, хотелось бы интерфейс с большей гибкостью и расширенным функционалом.
>>1131514
> популярную
Каждую, много людей что выкладывают кванты. А вот васян-инцест-мердж-миксед-адаптер, которые сотнями каждый день заливаются на обниморду - увы.
>>1131522
Сними розовые очки и загляни в то обилие быдлокода и безумных решений, что заложены в жору. В за "пердолинг" с питоном говорят или совсем дауны, которые не могут осилить простую операцию клонирования репозитория и запуска батника/шелла, или теслайобы, на некроту которых не завезли. Оно даже на амд есть и неплохо работает. Ну, разве что еще счастливые обладатели блеквеллов без бекграунда могут по неопытности пострадать.
>>1131524
Да потому что все ключевые операции - как раз на сях, только написанные умными людьми и превосходно опримизированы. А не пускающими слюни обладателями отсутствия, уникумами что пишут свою поломанную реализацию регекспов, в каждом 4-м посте указывают что они транс-персоны и как к ним обращаться, и т.д.
Весь мир ии живет на питоне потому что это удобно и эффективно.
Можно еще порофлить над скоростью современных плюсов, написанных адептами клонкода, вот где уровень иронии будет запредельный.

Аноним 05/04/25 Суб 02:18:01 #245 №1131568

>>1131524
>Это тот случай, когда решение на Питоне оказалось быстрее
На каком питоне, шиз? Там под капотом те же куда и си. Какая разница, из какого языка биндинги дергаются. У жоры куча кастомных кернелов перемножения матриц под разные архитектуры, и, скорее всего, код под амперы просто не оптимизирован. Плюс эксллама использует сторонние решения, в отличие от жоры - torch, xformers, flash_attn, а жора тот же флеш аттеншен сам имплементировал, судя по всему, и неизвестно, какое там качество.

>>1131522
>пердольная питонячья хуета которой вечно не нравятся версии библиотек. Жора - базовичок, на cpp написал.
Дело не в плюсах, а в
1) отсутствии зависимостей. Если бы они были, то тут бы стоял еще тот вой от тех, кто хотел бы собрать жору, питон покажется райскими кущами.
2) дистрибуции. Жора\кобольд распространяются собранными исполняемыми файлами под разные системы и архитектуры. Эксллама распространяется не готовыми пакетами "все в себе", а надо, например, делать venv и ставить туда зависимости (правда, вроде даже это уже в скрипты оборачивают а-ля start.bat\sh, который и венв поставит, и сопельки подотрет). Подразумевается, что экосистема питона достаточно умная, чтобы разрулить все зависимости и я, к слову, проблем с экслламой не встречал. Но в треде постоянно они всплывают, значит где-то или кривые руки или говняк в зависимостях. В любом случае, это выглядит менее надежно, чем тупо скачать нужный исполняемый файл.

Аноним 05/04/25 Суб 02:33:16 #246 №1131571

>>1131520
>Обрати внимание на пикрил. Там нужно выбрать нужный bpw.
О, спасибо тебе огромное, по бранчам потыкать не додумался!

>Но дай угадаю... Ты наверняка не знаешь, что для того, чтобы запустить Гемму 3 на exl2, тебе нужна dev ветка exllamav2.

Эм... нет, этого тоже не знал. Вообще у меня сейчас угабуга дефолтная, не знаю что там из коробки, мб stable версия exlamav2. Но когда ты сказал, думаю разберусь, или пропатчу угабугу, или отдельно накачу. С гитом, линуксами, питоном и venv знаком. Спасибо!

>>1131522
>>1131524
>>1131564
>Да потому что все ключевые операции - как раз на сях, только написанные умными людьми и превосходно опримизированы.

Нейронки - питон, питон - нейронки. Просто смириться. Датасатанисты и куртка выбрали питон, хоть на ассемблере пиши, все равно нативные либы питона для зеленых карт будут быстрее, потому что закрытое по и драйвера.

>>1131564
>с питоном говорят или совсем дауны, которые не могут осилить простую операцию клонирования репозитория и запуска батника/шелла, или теслайобы, на некроту которых не завезли.
Как бывший недавно паскалееб, слегка двачну и скажу что даже там с питоном попердолился с версиями, торчами, торчвижнами, но завелся, а вот на винде я охуел от визуалстудиоговна для c++, которое накачало 30 гигов либ, а адаптер для sd все равно не скомпилился. Психанул и опять свичнулся на линукс впервые с 2022го года.

>>1131535
Ну хз, я бы вообще так не сказал. Сам в телеге подписан на пару каналов по нейронкам, и там каждый день раз в час какие нибудь индусы из калифорнии или китайцы из китая релизят новое решение для чего то, улучшенное 2д в 3д, видеогенерации с контролнетами, реставрация 3д сцен под видео, анальные ассистенты на базе llm, tts невероятные... И многое из этого опенсорс причем, бери и думай как на своем железе это говно завести.
Не говоря уже о гигантах, одна гопота че стоит, весь интернет в ебаном гибли, даже в абсолютно скуфий чатик по некроБМВ мне несут это говно, причем своими руками генеренное.

Меня наоборот пугает, что нейронки развиваются слишком медленно для полного AGI, который скайнетом всех трахнет в рот, но слишком быстро для рядового анона. Уже сейчас корпы сильно шатают рыночек труда, художники орут, сммщики трясутся, кодеры теряют вес, и т.д. В айти и так кризис, а с нейронками вообще на половину вакансий можно квен-кодер-7б посадить, индустрия даже не заметит разницы.

Аноним 05/04/25 Суб 02:56:50 #247 №1131580

>>1131571
>И многое из этого опенсорс причем, бери и думай как на своем железе это говно завести.
Это всё только пока есть большие деньги. Когда в любую фигню с "AI" в названии перестанут кидать миллионы, все эти индусы с китайцами быстро соскочат с темы. Энтузиасты там есть, но небольшой процент и у них нет ресурсов. Тема не умрёт, но скорость будет совсем не та. А признаки тревоги инвесторов есть, и весьма значительные. Торговые войны США со всем миром опять же.

Аноним 05/04/25 Суб 03:11:57 #248 №1131589

>>1131580
Да пусть снижают темпы, начиная с индустриальной революции и так темп жизни экспоненциально ускоряется.
Одни плюсы в твоем сценарии:
1. цены на железо снизятся
2. быдло с одной извилиной оттечет из "хайповой темы", перестанем читать "ВЫШЛА УБИЙЦА УБИЙЦ НЕЙРОНКА КОТОРАЯ ДЕЛАЕТ ФСЕ, ДОСТАТОЧНО ВБИТЬ ПРОПТ!"
3. локальнобоги, кто не верил в "удобные сайтики для всех" и "чатботов крутых", а доверял только тому, что у него под столом, воссядут на коня
4. будет время разобраться во всем обстоятельно, поконструировать свои решения, набить шишек, набрать профессионализм. А то пока пердолишься с одним, это уже успевает устареть, потому что вышло другое.
5. экзистенциальный страх что завтра какой нибудь нейрокорп выкатит новую имбу, которая лишит тебя работы и обесценит труд половины жизни, отступит

Аноним 05/04/25 Суб 03:31:37 #249 №1131599

>>1131542
На прошлой недели 2.5 pro. Вот что конкуренция с дипсиком делает.

Аноним 05/04/25 Суб 03:32:52 #250 №1131601

>>1131599
>неделе

Аноним 05/04/25 Суб 03:38:58 #251 №1131607

>>1131589
>экзистенциальный страх что завтра какой нибудь нейрокорп выкатит новую имбу, которая лишит тебя работы и обесценит труд половины жизни, отступит.

Я туалеты мою, как меня заменит нейронка?

>цены на железо снизятся

Ты забыл про геймеров которых кормят говном в виде новых псевдотехнологий, где всё блестит, пердит, светится и бликует как будто включили прожектор в комнате из зеркал. Игры делают из готовых ассетов, где в столбе полигонов больше чем в целой модели человека, привет сталкеру 2, и эти игры уже буквально выпускают в виде бета версий, которые потом доделывают по пять лет, и сука, люди хавают этот неоптимизированный, кривой кал, который еле тянут системы последнего поколения.

>быдло с одной извилиной оттечет из "хайповой темы", перестанем читать "ВЫШЛА УБИЙЦА УБИЙЦ НЕЙРОНКА КОТОРАЯ ДЕЛАЕТ ФСЕ, ДОСТАТОЧНО ВБИТЬ ПРОПТ!"

Там щас всё даже хуже чем ты думаешь. Видел видео с выставки современных технологий, где демонстрировали автоматизированные сборочные конвееры, как на автозаводах, и 3D принтеры, и всё с припиской AI. Как блять аи работает при печати модели, каким образом он будет учавствовать при сборке автомобиля, хуй его знает, но наивные кабанычи видимо несут чемоданы денег расчитывая нажится на хайповой теме, в которой нихуя не шарят, а их жёстко наёбывают. Так же как они наёбывали всех вокруг до того как поднялись, карма, сука, ахахахаха

Аноним 05/04/25 Суб 04:05:34 #252 №1131611

Ну что, ананасы, новый квен омни кто-нибудь пробовал? Как же мне нравится как она звучит. Вот бы еще русик ттс ей приделали, на англюсике прям хорошо пиздит.

Аноним 05/04/25 Суб 04:05:36 #253 №1131612

Как же я нереально ору с защитников гемы.
Вся суть ллм это ОТСУТСТВИЕ ЦЕНЗУРЫ, вся суть нахуй.

Аноним 05/04/25 Суб 04:12:06 #254 №1131613

https://github.com/bmen25124/SillyTavern-Character-Creator
Use ai to make ai card. ТЕХНОЛОГИЧНО.

Запускается на starting бренче, имейте ввиду. Не будьте таким слепым как я, лул.

Аноним 05/04/25 Суб 04:12:41 #255 №1131614

>>1131612
Нет. Суть ЛЛМ в её мозгах, знаниях и уровнях общения. А то что ты дрочишь, это лишь следствие.

Аноним 05/04/25 Суб 04:29:04 #256 №1131619

>>1131614
>Суть ЛЛМ в её мозгах, знаниях и уровнях общения
Всё это в сто раз больше у копросеток. Но там цензура.
Складывай 2 и 2 чтобы понять зачем тебе ллм

Аноним 05/04/25 Суб 04:39:10 #257 №1131620

После очень удачного опыта с QwQ Snowdrop решил поискать другие тюны QwQ и Квена. Нашел только Qwen2.5-32b-Kunou-v1. И это довольно плохо: она слишком быстро адаптируется к стилю письма Юзера, буквально копируя их формат, вплоть до грамматических структур, не говоря уже про структуру всего сообщения.

Может знает что-нибудь хорошие тюны? Или, быть может, у вас был хороший опыт с Kunou?

После Snowdrop просто не понимаю, почему так мало тюнов моделей на данной архитектуре.

Аноним 05/04/25 Суб 10:32:26 #258 №1131685

>>1127846
Хорошая модель, там и мерж встретил с русиком
https://huggingface.co/mradermacher/Mag-Mell-RU-035-GGUF

В целом понравилось, получше моих других моделей, странно что не наткнулся раньше на нее

Аноним 05/04/25 Суб 10:35:17 #259 №1131688

>>1131620
>После очень удачного опыта с QwQ Snowdrop
Как у него с русиком? Что у него с ризонингов во время рп?

Аноним 05/04/25 Суб 10:41:02 #260 №1131690

>>1131535
>прогресс в этой области сильно замедлится
Замедление идет из-за архитектуры, потому что из нее уже высосали всё что можно. Но это проблема лишь больших моделей, которые пытаются нарастить перфоманс путем увеличения числа параметров. С мелкими моделями наоборот всё хорошо - их оптимизируют, по этому современные 12-27B ощущаются как прошлые 70B и так сказать ебут.

>>1131612
Ну, вообще нет. Суть как раз в том, что локалки работают локально. Не нужно искать прокси, не нужно трястись что тебе закроют доступ потому что ты из неправильной страны или что после безоткатного апдейта модель тебе поломают и высушат ей мозги (салам гопотыне).

Но большая часть защитников геммы реально шизики. Точнее та часть, которая втирает тебе, что это говно юзабельно в ролевухе. Просто нужно въебать джейл на 800 токенов и довольно похрюкивать. Вот только все молчат, что после такого модель тупеет и превращается в "еби-меня-еби" генератор. Такие приколы простить копрам, потому что они нажористей и лоботомизация в 10-15% на качество ответов сильно не повлияет. Но нахуя так ебаться с мелочью чтобы получить уровень старой ламы мне не понятно.

Аноним 05/04/25 Суб 10:47:57 #261 №1131694

>>1131688
> Как у него с русиком?
Не проверял, не интересно.

> Что у него с ризонингов во время рп?
Ну, он работает. Хотя модель и без него отлично себя показывает.

Аноним 05/04/25 Суб 11:11:14 #262 №1131709

Эй, анон с эксламой, это говно все еще не научилось кэш квантовать или добавили уже?

Аноним 05/04/25 Суб 11:13:40 #263 №1131711

>>1131620

EVA-qwen хороший тьюн.

Аноним 05/04/25 Суб 11:14:47 #264 №1131712

>>1131709
Давно умеет уже. Q8, Q6, Q4.

Аноним 05/04/25 Суб 11:16:47 #265 №1131713

>>1131612

Ты опять начинаешь, ебучий шакал?
Не нравится цензура в гемме - пользуйся аблитерейтед геммой. Но ты же спамишь своей шизой просто чтобы похвастаться что 123В магнум запускаешь, а не потому что имеешь претензии к гемме.

Аноним 05/04/25 Суб 11:18:34 #266 №1131715

>>1131712

А, так это уже хорошо. Ок. Подскажи как в убабуге обновить эксламу до бетки что гемму 3 поддерживает?

Аноним 05/04/25 Суб 11:24:05 #267 №1131718

>>1131612
Что именно ты не можешь сделать в гемме?

Аноним 05/04/25 Суб 12:01:08 #268 №1131741

>>1131713
>>1131718
>Что именно ты не можешь сделать в гемме?
Пользоваться ей без лоботомита

Аноним 05/04/25 Суб 12:27:57 #269 №1131770

>>1131741
А конкретно что ты не можешь сделать?

Аноним 05/04/25 Суб 12:50:44 #270 №1131814

>>1131711
Спасибо, позже найду время протестить, отпишусь по результатам.

Аноним 05/04/25 Суб 13:12:08 #271 №1131867

>>1130969
Да я вроде стараюсь не спешить, мне как раз пиздец как интересно понять как оно все работает, поэтому и ищу советов. Я уже запланировал комплюдахтер обновить только ради того чтобы помощнее модельки запускать.
>>1131224
Попробовал все что ты написал, вроде все идеально запахало, персонажи даже начали общаться между собой, а не только с юзером, но спустя сообщений 30 опять началась тема что отвечает только главный персонаж карточки, просто периодически описывая то что делает второй персонаж. (чар1) уселся рядом с (юзером) на диван, открыв банку пива, после чего посмотрел на (чар2) который как казалось был поглощен просмотром фильма. И все в таком духе короче. Может просто моделька слабовата для такого хуй знает. Может я где-то обосрался опять.

Аноним 05/04/25 Суб 13:14:42 #272 №1131877

>>1131867
> спустя сообщений 30 опять началась тема что отвечает только главный персонаж карточки
Контекст изменяется со временем, а ответы ллм полностью от него зависят. Скорее всего, в твоем контексте в какой-то момент становится слишком мало ответов, где чар2 говорит или действует, и ллм адаптируется под такой стиль ответов. Редактируй ответы так, как тебе надо, и если оба персонажа будут в одинаковой мере представлены в истории сообщений - так и будет впредь.

Аноним 05/04/25 Суб 13:16:09 #273 №1131882

>>1131770
Не могу отделаться от чувства что меня кормят соей, заебал.
Цензуры дохуя и это факт

Аноним 05/04/25 Суб 13:24:04 #274 №1131891

>>1131882
То есть ты не можешь сформулировать что тебе не нравится?

Аноним 05/04/25 Суб 13:25:27 #275 №1131894

>>1131891
Чел. Очевидно, что он ёбик, но не корми его. Хуй с ним.

Аноним 05/04/25 Суб 13:39:31 #276 №1131936

>>1131894
Всё равно неприятно, когда ругают модель, которая мне нравится. Да у геммы есть недостатки, но она - одна из лучших в этой весовой категории.

Аноним 05/04/25 Суб 13:53:02 #277 №1131967

>>1131877
Понял, спасибо. А есть какой-то способ поддерживать контекст без постоянных подправлений сообщений?

Аноним 05/04/25 Суб 14:00:55 #278 №1131977

Мне кажется, или модели DavidAU не квантуют в exl2 прямо совсем? Кто шарит - он использует какие-то новомодные технологии Лламы цпп или почему так?

>>1131967
Смотря что ты под этим подразумеваешь. Есть Summary, есть Author's Note, если различные плагины-заменители Summary, где ты сам можешь указывать что поддерживать в контексте постоянно. Я имел ввиду, что ллм адаптируется под промпт. Чат - самая большая часть промпта. Если в чате нет сообщений, где второй персонаж говорит или активно принимает участие - то и с меньшей вероятностью ллм выдаст ответ, где он это делает. Это так работает.

Аноним 05/04/25 Суб 14:06:40 #279 №1131987

Возможно, хорошим решением будет написать в карточке персонажа пару примеров Example Dialogue, где оба персонажа разговаривают и принимают участие. И убедиться, что эти примеры подаются в Story String при помощи твоих шаблонов. Правда может произойти обратная ситуация, и от второго персонажа будет трудно избавиться. Экспериментируй. Готового ответа у меня для тебя нет.

Аноним 05/04/25 Суб 14:14:40 #280 №1132001

>>1131936
Гемма не виновата, она хорошая

Аноним 05/04/25 Суб 14:18:19 #281 №1132005

>>1132001
шиз всё никак не угомоница. =)

Аноним 05/04/25 Суб 15:06:40 #282 №1132072

>>1131571
> пропатчу угабугу
Просто зайди в ее кондавенв и поставь из репы дев версию экслламы, 2 команды и минута на ее сборку.
> нативные либы
Они так-то и под плюсы есть. Но торч и прочие действительно имеют уже хорошо отлаженный асинхронный пайплайн. Настолько удачно оформленный, что даже на простом пека в юпитеровском интерактивном питоне в цикле ленивые операции создания тензора из куска массива нампи и его умножения на другую матрицу на 100% загружает 4090. Если делать то же самое на чистых плюсах - оно будет работать медленнее, пока не погрузишься и не окунешься в то, как правильно все это нужно делать.
> на линукс
Там буквально просто все работает и наверно даже максимально брейндед человек заведет. Рили по сравнению с шиндой настолько все удобнее.
>>1131690
> Замедление идет
Да не идет, наоборот за последний год прогресса больше чем за предыдущий, наоборот развитие отличное. И "высасывание архитектур" - мантра поехавших, не нужно путать ухватывание самых верхов ради первого результата, и качественное развитие с углублением.
> защитников геммы
Шизики - те кто придумали этих защитников. Люди не равны, вместо расстройства что не шарящий анскилл можно просто придумать что ставишь уникальные запросы, которые так просто не удовлетворить, и вместо одного предложения нуждаешься в 800 токенах лоботомии.

Аноним 05/04/25 Суб 16:32:50 #283 №1132255

Создал персону Чеда-негра для интереса, ну такого типичного агли бастарда двухметрового с членом по колено и мерзкой улыбкой с белосжными зубами, характерного для NTR додзей BBC.

В общем, это просто пиздец. Персонажи стали сразу неадекватно себя вести, они натурально хотят меня выебать, кроме совсем уж антисекс-карточек, причем иногда эта хуйня словно ломает модель, возможно, из-за имени Chad, а не только описания. И подобная шизофрения наблюдается почти на всех мистралях.

Я в ахуе, конечно. У меня ранее персона особо не влияла на рп, а здесь триггерится настолько жёстко, словно в датасете у них есть описание персонаж Chad. Там даже почти все персонажи пишут, что у меня хата пивными банками закидана, говорят на ебанутом сленге со мной, если речь персонажа не прописана четко в карточке.

Это что за хуйня? Это как в чатвайфу? Где были некоторые персонажи прям вжарены в датасет? Только здесь я попал под такую раздачу, лол?

Аноним 05/04/25 Суб 16:45:44 #284 №1132273

Сап ии авангардисты. Подскажите для каких целей вы юзаете свои домашние серверы с нейронками?

Понимаю что на квартиру не накоплю, думаю взять пеку, но не могу придумать сценарии использования домашнего ии....
Можно домашнее развернуть что-то типа стейблдифузона и генерировать портреты в стиле хаяо миядзаки? но это же только в случае если сломают досутпы ко всем нейронкам или сделают их платными?
В общем че вы делаете на домашних ии

Аноним 05/04/25 Суб 16:56:26 #285 №1132285

>>1132255
Какая модель?

Аноним 05/04/25 Суб 17:01:09 #286 №1132293

>>1132273
Бля, что за каша у тебя в голове.

Большинство используют локалки для ролевых игр, так как там нет цензуры. Некоторые идиоты ебут себе мозги, пытаясь на них кодить, но нормальные люди для рабочих дел используют корпоративные решения, которые многократно лучше локалок в этом вопросе, но хуже в рп из-за цензуры.

Да, ты можешь генерировать сраные портреты, но с этим тебе в другой тред. И там недостаточно написать промпт. Нужно понимать, как это работает с технической точки зрения хотя бы на уровне гайдов + опыт и знать, где и что качать. Нужно уделить этому часов 6 чистого времени, не считая опыта.

Бери ПК с 12 врам минимум, если хочешь пощупать нейронки нормально. А так лучше 24. Видеокарты не АМД.

Аноним 05/04/25 Суб 17:01:17 #287 №1132294

>>1132072
>Да не идет, наоборот за последний год прогресса больше чем за предыдущий, наоборот развитие отличное.
А в чём это развитие выражается? Что раньше модели писали складно буквы, что сейчас. Чуть улучшился русик, сдвинулись планки качества примерно на 2 ступени, да и всё в общем-то. Никаких прорывов.
>>1132273
Я дрочу.

Аноним 05/04/25 Суб 17:10:31 #288 №1132314

>>1132293
ну т.е. локальная ллм это просто нецензурированный "справочник", собеседник?

>>1132294
>Я дрочу.
Сейчас или ты про использование нейронков? а как ты с нейронками дрочишь?

Прост не понимаю, вот бесплатную генерацию изображений я еле нашел, это да, а чтобы болталки запретили по типу гигачата или дипсика или того же щатгпт, это что должно произойти ... и не могу себе обосновать необходимость приобретения

Аноним 05/04/25 Суб 17:31:23 #289 №1132398

>>1132314
Тебе же ответили, локалки нужны из-за отсутствия цензуры. Ты можешь отыгрывать в них любые ситуации, и спрашивать любые вопросы, совсем всё, абсолютно. Там где корп решение пошлет тебя нахуй, нельзя, и вообще фу таким быть, локалка выдаст ответ или отыграет персонажа которого сношают в глазницу через ухо (надеюсь намек ты понял).
Не без костылей конечно т.к даже они подвергаются различному уровню ценза своими создателями, но в случае локалок это так или иначе решаемо до/пере/обучением.

С картинками то же самое.

Ну и что касается лично меня, я ещё использую их в своих мелких проектах, как к примеру автоматическая сортировка изображений по тегам или перевод текста налету. Дергать для таких задач внешнее API дурацкая идея.

Аноним 05/04/25 Суб 17:33:55 #290 №1132408

>>1132314
Как справочник не годится — мало знает, как собеседник тоже: попиздеть насчёт библии и полистрач устроить жаркий и интересный аргументированный ты не сможешь — это всё к корпоративным моделям за бабки.

Локальные модели могут выполнить этот запрос, но нужна пара миллионов рублей, чтобы крутить это всё у себя локально и быстро. Потому что есть большие локальные модели.

Поэтому основная их задача — общаться с персональными аниме-девочками и ролевуха без цензуры.

Аноним 05/04/25 Суб 17:37:13 #291 №1132422

>>1132273
>развернуть что-то типа стейблдифузона и генерировать портреты
Можно. Локальные нейронки позволяют рисовать все. Но только это не уровень миджорь "нарисуй шрека с телом швайнокарася", для нормального результата нужно погружаться - модели, лоры, обучение лор, контролнет со своими моделями, промтинг (втч зональный), фейсвапы, инпейнты, апскейлеры... Что то уровня "Аску ебут в жопу" можно на PonyXL генерировать гигатоннами, но если хочешь фотореалистично перевести картинку с каким нибудь сложным экшном или локациями из головы в .png,, то нужно пердолиться целый день, практически отрисовывая с нуля. С той лишь разницей, что с нейронкой уметь рисовать тебе уметь не нужно, но полезно.

Минимальный уровень - nvidia 20xx от 8гб VRAM, желательно - что то свежее быстрее и хотя бы на 16gb. Но вообще тебе в соседний тред.

>в стиле хаяо миядзаки
Забудь что я сказал выше, лучше на эти деньги купи бухла и спейся.

>>1132314
>ну т.е. локальная ллм это просто нецензурированный "справочник", собеседник?
Ну представь что у тебя локально без интернетов есть свой чатгпт годовалой давности. Без цензуры, с возможностью дообучить или RAGнуть на своих документах, с возможностью редачить вывод модели, направляя в нужное тебе русло, с возможностью без задней мысли скармливать ей конфиденциальные данные, юзать ее апи без оплат и ограничений и т. д.

>и не могу себе обосновать необходимость приобретения
значит тебе оно не нужно, /end

>>1132408
>Как справочник не годится — мало знает
ну тут кстати поспорю, да, полноценно доступ в интернет не заменит, но вот именно как СПРАВОЧНИК - очень годно. Даже микроскопическая модель на пару миллиардов, запущеная на проце ноутбука, может хорошо выручить без интернета под рукой. Даже дамп википедии не так универсален, а весит заметно больше.

Аноним 05/04/25 Суб 17:37:15 #292 №1132423

>>1132398
Ну-ка, ну-ка? Как ты организовал перевод текста налету? Прям область GUI можно выделить и читать на японском ВН, например? Мне такое лично очень нужно, но я не видел таких решений.

Аноним 05/04/25 Суб 17:43:12 #293 №1132437

>>1132422
>Забудь что я сказал выше, лучше на эти деньги купи бухла и спейся.
да я пошутить пытался, думал что это стало мемом за последнюю неделю, не ругайся не злись.

Анончики, спасибо за ответы

Аноним 05/04/25 Суб 17:49:29 #294 №1132449

>>1132423
Я тоже не видел, поэтому начал делать своё.
А что тут рассказывать, идея тривиальная, тебе нужно буквально 3 модуля, первый парсит текст с выделенной области, второй отправляет в LLM с промтом на контекстный перевод. Третий рисует поверх экрана результат. Пока оно у меня на этапе прототипа разными частями, ещё не нашел достаточно удобный способ парсить буковки, ковырял OCR но вот может мультимодалками что-то выйдет, позволит двух зайцев один махом убить.
(а ещё хочется всё это на андроид с подключением к внешнему апи, но это прям совсем далеко идущие планы)

Аноним 05/04/25 Суб 17:51:44 #295 №1132451

>>1132422
Я не знаю, какие тебе там справочники нужны, но локалки абсолютно не вывозят. Только поверхностно, если это не монстры огромные.

С ними невозможно детально разбирать синодальный перевод, сравнивая с оригинало, английским и что и как и почему вошло в библейский канон. Например, раньше были материалы, которые де-факто считались каноном, но потом их плавно убрали с повестки, потому что там зашквар для церковников есть. И при этом они всё равно цитируют из этих не каноничных текстов некоторые моменты, что забавно. И таких тем куча.

И чтобы вот так вот мусолить это дотошно, нужен чудовищных размеров датасет, который обеспечить на 20 токенах и 200к контекста могут только корпы.

А ведь наверняка можно таким же образом с ллм обсуждать какие-то другие вещи, в которых я не разбираюсь, например самолёты. Или всякую там математику.

Аноним 05/04/25 Суб 18:08:06 #296 №1132465

>>1132437
>да я пошутить пытался, думал что это стало мемом
А, я уж испугался, но для большинства это не мем, а гем, и без явного сарказма не поймешь.

>>1132449
От себя могу посоветовать OCR на tesseract, работал когда то с ним, хорош. Архитектуру так можно построить - юзер делает скриншот, скрипт на петухоне в цикле мониторит директорию со скриншотами, в случае нового файла - обрезает заданную область с помощью Pillow и передает в тессеракт. Получив текст, бросает его по апи в нейронку. С полученным ответом уже что угодно - можно какую нибудь либу ui с оверлеем поискать, можно в TTS сбросить, что бы озвучивал.

>>1132451
Хм... Ну жесткую специфику конечно ожидать не стоит. Но вот что то по кодингу или около того - выручает знатно. Помню на хабре чел выкатил 1b модель, которая на js работала прямо в браузере локально. Даже она что то внятное выдала на вопрос "назови плюсы и минусы FPGA"

Аноним 05/04/25 Суб 18:08:35 #297 №1132466

001.jpg

002.jpg

>>1132423
>>1132449
делал такую штуку еще пару лет назад, используя tesseract и онлайн переводчик. месяц назад допилил прикрутив qwen-vl, перевод с японского делаю второй сеткой (гемма3), но можно напрямую через переводчик. использую winapi для рисования окна поверх приложений и сторонний фреймворк для рендеринга текста. пока никуда не выкладывал, хочу допилить гуи для настроек и прочего. сам проект довольно требователен к gpu, так как для qwen-vl нужно хотя бы 12 гб врам. а для геммы3 еще ~24, ну, смотря в каком кванте.

Аноним 05/04/25 Суб 18:29:39 #298 №1132491

>>1132314
>а как ты с нейронками дрочишь?
На тексты.

Аноним 05/04/25 Суб 18:51:20 #299 №1132532

>>1132466
>сам проект довольно требователен к gpu, так как для qwen-vl нужно хотя бы 12 гб врам
Просто намекну, что PaddleOCR работает на процессоре.

Аноним 05/04/25 Суб 18:59:42 #300 №1132541

>>1132466
А зачем тебе qwen-vl вместо тессеракта понадобился? И зачем вторая нейронка, разве квен не может переводить?

Аноним 05/04/25 Суб 19:08:01 #301 №1132556

Взял 3060 12гб, хватит ли её на обучение лор?

Аноним 05/04/25 Суб 19:12:43 #302 №1132566

>>1132532
>PaddleOCR
не слышал ранее. какая у него точность? если что-то на уровне tesseract, тогда смысла особо нет.
>>1132541
tesseract хоть и удобен тем, что предоставляет информацию о позиции и размерах захваченного текста, но не всегда способен корректно определить и распознать текст, на мой взгляд он уступает qwen-vl (хотя qwen не предоставляет дополнительную информацию о позициях, это программе и не требуется, если используется лишь частичный захват, как на моем пике).
у квена-vl доступные веса 3б и 7б (которые можно запустить локально, остальное в расчет не берем). перевод у таких моделей не слишком хорошего качества даже jp>en, говорить о jp>ru вообще не стоит. поэтому вторая сетка (гемма3 27б) обрабатывает уже распознанный текст и переводит его.
для лучшего качества я раньше дополнительно делал так: после захвата с экрана, геммой2 переводил ja>en, потом в онлайн переводчике en>ru. на весь процесс от распознавания до отображения на экране проходило примерно 2-4 сек. сейчас просто использую гемму3 27б, без сторонних онлайн переводчиков.

Аноним 05/04/25 Суб 19:13:28 #303 №1132570

>>1132466
>Пердолинг ради пердолинга.
Полно инструментов для твоей задачи с нулевыми требованиями к железу, через халявные онлайн апи, гугли гитхаб

Аноним 05/04/25 Суб 19:20:09 #304 №1132583

>>1132570
надо локально чтобы

Аноним 05/04/25 Суб 19:21:56 #305 №1132586

>>1132570
>через халявные онлайн апи
Любая привязка работы утилиты к интернету априори делает её мусором.

Аноним 05/04/25 Суб 19:23:58 #306 №1132590

>>1132586
>Любая привязка работы утилиты к интернету априори делает её мусором.
Ну, локальные переводчики я даже тут спрашивал, результат по сравнению со скоростью онлайна неудовлетворительный.

Аноним 05/04/25 Суб 19:28:57 #307 №1132592

>>1132566
>не слышал ранее. какая у него точность?
Извини, но перед тем, как заниматься такими вещами надо хотя бы погуглить. Поискать аналоги. Ну погугли хотя бы сейчас.

Аноним 05/04/25 Суб 19:29:41 #308 №1132594

>>1132583
>>1132586
>>1132590
Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.

Аноним 05/04/25 Суб 19:31:33 #309 №1132596

>>1132466
>>1132449
>>1132423

Ну вы блядь изобретатели велосипедов конечно.
https://github.com/Artikash/Textractor
https://github.com/HIllya51/LunaTranslator

Аноним 05/04/25 Суб 19:35:40 #310 №1132603

>>1132594
>Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.
Кстати да, новую маленькую гемму для этого ещё не пробовал. Но надо на процессоре, ну и качество... Но попробую, спасибо.

Аноним 05/04/25 Суб 19:35:53 #311 №1132604

202504050301Containment Breach Chaosremix01jr1m0ndcfzt97svyf6qp1ghn.jpg

>>1132596
А в 11й винде даже спиш ту текст запилен на уровне системы.

Аноним 05/04/25 Суб 19:37:58 #312 №1132606

>>1132596
Речь идет о локальном контекстном переводе через LLM. То что всякая Луна и её подобные существуют прекрасно известно.
Да и если на то пошло свои костыли всегда приятнее, если нужно допилить какую фичу ты сам знаешь что и куда.

Аноним 05/04/25 Суб 19:38:25 #313 №1132607

>>1132596
>Ну вы блядь изобретатели велосипедов конечно.
Нет, это всё более-менее фигня. Круче Транслюмо пока что ничего нет.

Аноним 05/04/25 Суб 19:41:08 #314 №1132610

>>1132607
Ты не понял. Оно юзает онлайн переводчики, чувакам итт нужны локальные для перевода ебли с лолями их гурохентайных новелл.

Аноним 05/04/25 Суб 19:44:08 #315 №1132612

>>1132610
>нужны локальные для перевода ебли с лолями их гурохентайных
Скорее для спокойной работы с отсутствием или сильно ограниченным интернетом, но да. То что текст можно легко закинуть для перевода в любой популярный апи вроде того же дипа, и так понятно, тут нет ничего сложного.

Аноним 05/04/25 Суб 19:44:10 #316 №1132613

Только что получил на гемме лучший перевод чем еа deepl с правильным промптом.
У меня всё

Аноним 05/04/25 Суб 19:45:10 #317 №1132614

>>1132610
>Ты не понял. Оно юзает онлайн переводчики, чувакам итт нужны локальные для перевода ебли с лолями их гурохентайных новелл.
Да всё я понял. Меня не смущает отправлять подобные запросы на сервера Гугла или Бинга, раз уж у РФ со Штатами тёрки. Я лично просто ищу альтернативу на случай, если онлайн-сервисы отрубят. Что там ищут другие я хз.

Аноним 05/04/25 Суб 19:53:41 #318 №1132617

>>1132613
Ну как бы да, думал все давно так делают. Это пушка.

Аноним 05/04/25 Суб 19:55:47 #319 №1132619

В браузер бы захуярить плагином перевод страниц локальный, я что то находил пол года назад, но все какой то косячное было
В огнелисе кстати что то такое сделали, только перевод хуевый. Видимо сетка совсем маленькая

Аноним 05/04/25 Суб 19:58:13 #320 №1132620

>>1132610
Какая-то излишняя тряска по поводу переводчика лол.

Аноним 05/04/25 Суб 20:01:33 #321 №1132625

>>1132620
Да не, я как раз за эту идею, сам бы юзал. Скорей описал свои ожидания.

Аноним 05/04/25 Суб 20:05:00 #322 №1132628

>>1132613

Какой промпт для перевода используешь?

Аноним 05/04/25 Суб 20:12:50 #323 №1132637

>>1132628
Ну в системпромпте пиши что-то типа: каждое сообщение пользователя переводишь с ... на ...
Ну е моё...

Аноним 05/04/25 Суб 20:13:53 #324 №1132638

>>1132613
12б? Для Скайрима скрипт на навасянишь?
Мимовасянопереводчик

Аноним 05/04/25 Суб 20:55:43 #325 №1132704

Где или как скачать последние пони? там какая та драма на цивите

Аноним 05/04/25 Суб 20:56:10 #326 №1132705

>>1132704
бля не туда, ну ладно

Аноним 05/04/25 Суб 21:33:39 #327 №1132774

>>1132594
>Бабки у подъезда поговаривают что джеммы3 1b для задачи умного переводчика более чем достаточно. Работает даже на древних смартфонах.
1B оказалось недостаточно, а 4B(4KM) пожалуй что и достаточно. С опенбласом скорость в принципе терпимая. Пользуйтесь, кому надо.

Аноним 05/04/25 Суб 22:08:08 #328 №1132839

>>1132592
>Ну погугли хотя бы сейчас.
покрутил на 1к изображений в vndb, удачно распознает ~95% пикч из датасета, лучше, чем tesseract. можно как альтернативу qwen-vl прикрутить.

Аноним 05/04/25 Суб 22:16:23 #329 №1132853

>>1132839
>лучше, чем tesseract
Это мягко говоря.
>можно как альтернативу qwen-vl прикрутить.
А ещё можно qwen-vl совсем выкинуть, ибо 12гб врам требует и при этом медленнее. И можно Гемму-3 4b прикрутить на опенбласе и вот тебе полная локалка, вообще не требующая видяхи. Энджой.

Аноним 05/04/25 Суб 22:23:32 #330 №1132871

1599842008726.png

Цукерберг там совсем ёбнулся? Вангую оно ещё окажется хуже V3.

Аноним 05/04/25 Суб 22:26:24 #331 №1132876

>>1132871
>Цукерберг там совсем ёбнулся?
Ну хоть 109В есть для народа :)

Аноним 05/04/25 Суб 22:26:43 #332 №1132879

Почему модель любит меня больше чем моя семья ирл.

Аноним 05/04/25 Суб 22:28:41 #333 №1132887

>>1132879
>Почему модель любит меня больше чем моя семья ирл.
Если захочешь - будет ненавидеть. В этом-то и прелесть (слово это неоднозначное так-то)

Аноним 05/04/25 Суб 22:33:19 #334 №1132905

>>1130096
> на 24 - Forgotten-Transgression
Там цензура вылезает

Аноним 05/04/25 Суб 22:34:20 #335 №1132910

>>1132905
И постоянно повторяет одно и то же. Тестил q6.

Аноним 05/04/25 Суб 22:40:33 #336 №1132927

>>1132905
Еще постараться нужно, чтобы ЭТА модель выдала цензуру. Лол. Играю на ней активно уже более недели и души в ней не чаю. Проблемы с пресетом у тебя. Нормальный пресет есть на странице автора.

Аноним 05/04/25 Суб 23:06:11 #337 №1132978

>>1132871
>MOE
Провал прямо на старте. Пиздец. Скоро ллама из заголовка треда переедет в направление пигмалиона, лол.
>>1132879
Потому что модель натренировали подлизывать пользователю. Если бы твою мамку так дрессировали, она бы тебе очко после похода в туалет вылизывала бы.

Аноним 05/04/25 Суб 23:22:02 #338 №1133003

>>1132978
>Если бы твою мамку так дрессировали, она бы тебе очко после похода в туалет вылизывала бы.
Каеф, спасибо за идею для карточки.

Аноним 05/04/25 Суб 23:23:12 #339 №1133006

>>1132871
Потестил оба. Что-то в РП на русском хуйня полная. Форматирование через раз держит, как будто вообще в чат не умеет, может за юзера начинать говорить или звёздочки забывать. При этом русский хорош, сои почти нет, бомбу без проблем собирает. Лупится сильнее V3. Кумеры могут смело скипать. Из плюсов только скорость с 17В экспертами. По кодингу лучше V3.

Аноним 05/04/25 Суб 23:27:22 #340 №1133007

>>1131571
> бери и думай как на своем железе это говно завести.
Я вот так взял и подумал раз 10, а потом стало легко.
Когда знаешь, как настраивать окружение все, становится плюс-минус легко.

> можно квен-кодер-7б посадить, индустрия даже не заметит разницы
А минусы будут?
Я себе два года назад давал четыре года на профессии, сейчас вот два года — звучит как реально, т.е., рост прогнозируемый.
AGI тоже из риал (вон, все роботов обучают), полноценный ASI не факт, но и нужны критической нет.
А люди… что люди… Такие вот дела, если заменят, так заменят. =)
Я лично еще на работу устроился, на всякий случай. И вообще — диверсифицируйте заработки.

>>1132871
Маверик на уровне при 400 против 671.
Приемлимо.

109 для народа збс.

Да еще и мое, совсем огнище.
Под разные задачи может быть пушкой.
Плюс, говорят, креатив райтинг ну очень хорош.

Выйдет завтра — локально покрутим, проверим.

Но, опять же, 109б сравнивают с геммой 27б, т.е., скорости выше, знаний больше, но качество суммарно прыгнет не сильно, а с квеном не сравнивают, как всегда.
Квен 3 может бахнуть еще сильнее (но только без креатива, сорри).

Нормас, не прорыв, но релизы неплохие.

Аноним 05/04/25 Суб 23:30:00 #341 №1133009

>>1133007
> Выйдет завтра — локально покрутим, проверим.
Уже всё на huggingface лежит.

Аноним 05/04/25 Суб 23:42:01 #342 №1133028

15245641052750.jpg

Блять, я хуею с забеглых неофитов в треде.

Ллама всегда была абсолютно непригодным калом, андерперформящим даже по сравнению с бенчами. Рептилий литералли принудительно вырезал канни из датасета лламы3 до такой степени что она вообще не понимала что такое дети. Это должно сказать вам ВСЁ про эту модель. Даже если ты не канниёб (как и я, просто это охуенный индикатор), ты не можешь отрицать что чем менее разнообразен датасет, тем хуёвей модель. Вот почему Дарио тренил клавдия на наших фетишах.

Даже васянотюны не спасут эту соевую говнину, ллама из-за изначальной лоботомии всегда была непригодным к файнтюнингу дерьмом. Только чинки
inb4 тяньэньмынь уйгуры неиронически показали что такое нормальная базовая модель.

Аноним 05/04/25 Суб 23:45:26 #343 №1133036

1676250769009.png

1646816742350.png

>>1133007
> на уровне
На каком уровне, сосёт даже у V3, а ведь ещё R1 есть. 109В модель чуть лучше геммы 27В, лол.
> Плюс, говорят, креатив райтинг ну очень хорош.
В рп хуйня. Пик2 - стандартный экспириенс на Маверике, я ебал. Кучу карточек перепробовал - та же хуйня. API естественно чат, не текст комплишен. В текст комплишене с форматом ламы 3 вообще пизда. При этом просто на вопросы отлично отвечает, но рп его ломает адово. Причём Скаут даже чуть получше Маверика.

Аноним 05/04/25 Суб 23:48:14 #344 №1133041

>>1133028
Модель час назад вышла. Таблетки.

Аноним 05/04/25 Суб 23:49:34 #345 №1133044

>>1133036
>текст комплишен
Это мем. Безжоп лучше, т.к. использует все профиты инструкт тюнинга, не перенимая их недостатков, в отличие от текст комплишена.

Аноним 05/04/25 Суб 23:51:36 #346 №1133049

>>1133041
И что, и чего?
Это причина не доверять фейсбуку, оптимизм необоснован. Виновен пока не доказано обратное. Я на 90% окажусь прав, а ты неправ.

Аноним 05/04/25 Суб 23:52:40 #347 №1133052

>>1133049
Ты там проспись хорошенько, утром воскресного дня прогуляйся, пока людей нет, воздухом подыши.

Аноним 05/04/25 Суб 23:54:55 #348 №1133057

>>1133006
>Потестил оба.
Где можно попробовать?

Аноним 05/04/25 Суб 23:58:42 #349 №1133060

1634493197309.png

>>1133028
> андерперформящим даже по сравнению с бенчами
В кодинге на первый взгляд норм, не хуже V3. Скорее всего с V3 на Мавекрик надо перекатываться будет, т.к. Маверик копеечный по цене, а за V3 либо ломят цену, либо сосать 20 т/с у китайцев.
>>1133057
На опенроутере уже подсуетились.

Аноним 05/04/25 Суб 23:59:06 #350 №1133061

>>1132978
> Провал прямо на старте.
Двачую, не туда куда нужно они полезли. Это уже слишком много для запуска на более менее доступном железе, но слишком мало активных параметров чтобы оно не было тупицей, надроченным на бенчи.
Плохо что эта херня еще ударит по каштом тюнам, ибо тренить даже самую мелкую еболду это то еще страдание, а выхлоп сомнительный.
Ну, покатать из интереса можно офк.
>>1133007
> при 400 против 671
Нет смысла делать такие сравнения в мое, оно вовсе не гарантирует обилие знаний или какой-то ум. А вот сокращение активных параметров ударит оче сильно.
>>1133028
> неофитов
> Ллама всегда была абсолютно
Перетолстил

Аноним 06/04/25 Вск 00:04:19 #351 №1133068

А я говорил, что Дипсик заставит все корпы перейти на МоЕ. Это мы ещё нового "Ларжа" не видели. А ведь он может внезапно оказаться состоящим из кучи "смоллов".

Аноним 06/04/25 Вск 00:13:49 #352 №1133097

>>1133068
Не понятно зачем. Дипсик так-то до этого пару лет МоЕ дрочил безуспешно, пока не смогли наконец. Вот лама вышла, а хули толку, дипсик не обошла даже по скорам. Квен вон сидит и как обычно пилит нормальные модели, они попробовали МоЕ в Квен Макс и забили, потому что эксперимент явно неудачный. У Ламы ещё эксперты мелкие, ничему их не научил опыт Микстраля, надо было около 35-40В делать как у дипсика. Вот по скорам Бегемот что-то может потому что эксперты нормальные, но кому нахуй 2Т модель нужна, если она скорее всего соснёт у R1.

Аноним 06/04/25 Вск 00:24:42 #353 №1133119

>>1133060
>В кодинге не хуже V3
т.е. дерьмище хуже клода, ч.и.т.д.

Аноним 06/04/25 Вск 00:29:43 #354 №1133132

>>1133119
> клода
Клод кал, только 3.7 thinking норм, но он уже у R1 сосёт. Проблема клода в том что у него очень неравномерные знания - где-то может хорошо, где-то сосёт так что квен даже лучше. У дипсика в этом плане всё ровно.

Аноним 06/04/25 Вск 00:31:02 #355 №1133135

>>1133061
>Плохо что эта херня еще ударит по каштом тюнам
А какой удар? Просто не будет тюнов заведомо неудачной модели. По моему, только выйграли, бросят силы на нормальные потные модели.

Аноним 06/04/25 Вск 00:34:52 #356 №1133143

>>1133135
>потные
*плотные

Аноним 06/04/25 Вск 00:39:05 #357 №1133153

>>1133135
Ну типа пойдет хайп, братишки начнут старатья и тратить силы на это, но результат будет оче плохой. А ресурсов там потребуется как для ларджа, только скорость чуть побыстрее будет.
Конечно, есть шанс что будет продвижения в тренировке мое, но вероятность этого крайне мала, а вот разочарование и пустая трата - наоборот. К чему дальше приведет хз, развилок много.

Аноним 06/04/25 Вск 00:43:40 #358 №1133164

>>1133153
>Ну типа пойдет хайп, братишки начнут старатья и тратить силы на это, но результат будет оче плохой.
Да как сказать, на вопросы-то модель отвечает хорошо. Если это то, что корпам надо, то их результат может вполне удовлетворить. Тем более цена инференса (да и тренировок) снизится.

Аноним 06/04/25 Вск 00:48:01 #359 №1133182

>>1133164
Я про их тренировку. Очень сомневаюсь что в результате будет не сплошная ерунда.
> что корпам надо
Масштаб довольно странный, конечно. Не, будут офк круто если эта штука сможет хорошо кодить или что-то еще делать. Но для многих более абстрактных задач, нлп, агентных систем и т.д. мелкое мое, которое целиком полагается на ризонинг - неоче вариант.

Аноним 06/04/25 Вск 00:55:21 #360 №1133211

Здравствуйте, дорогие анончики.
Детально изучаю SillyTavern и столкнулся с серией сложностей, покорно прошу помощи у более мудрых анонов.
Итак для начала моя система:
GTX 3060, 32 гб оперативки и Intel(TM) Core(TM) i7-10700KF.

Далее вопросы:
1. Сейчас я подключил текстовую модель через KoboldAI
Нашёл модель L3-8B-Stheno-v3.2-Q5_K_M-imat
У неё сразу и настройки пресетов были которые я успешно использовал и вроде всё хорошо, но иногда модель выдумывает какие то вещи которых нет и иногда текст не помещается в чат.

Исходя из этого вопрос: На сколько это подходящая модель под мою систему может можно найти что-то по интереснее?
И мне бы понять какие настройки использовать что бы сложностей не возникало (или возможно есть модели в которых сразу есть нужное описание).

2. Я генерирую модели в Stable Diffusion для общения, пытался настроить что бы использовало только нужный промпт который я заранее добавлю в разделы Yourself, Face и т.д, но не вышло. Или берет из описания персонажа или тупо последнее сообщение пишет. Сейчас пришёл к решению что лучшая стратегия тупо брать /sd negative="fries" {{charPrefix}} и дописывать промт для SD под ситуацию.

Вопрос: И всё таки возможно ли через описание персонажа добавить промт для SD без лишней информации, например что бы я через интерактивный режим писал что я что-то делаю с персонажем и он автоматом подгружал фото?

3. Ну и финальный, хотелось бы что бы персонаж достаточно чётко понимал что именно на картинке для того что бы быть в контексте, условно я не прописываю ей текстом а в какой то момент отправляю фото и исходя из него она реагирует так будто я написал текст, я скачал для этого мультимодальную модель и вроде даже работает, но персонаж воспринимает картинку именно как отправленное фото а не продолжение диалога.

Вопрос: Можно ли это как-то организовать?

Заранее большое спасибо!

Аноним 06/04/25 Вск 01:18:27 #361 №1133282

Когда сделают мультимодальную генерацию пикч, да ещё и без соевой хуеты - разбудите.

Аноним 06/04/25 Вск 01:44:52 #362 №1133355

>>1133282
Это че?

Хочется чтобы к рп к каждому ответу картинка генерилась. Типа общая зарисовка сцены.

Аноним 06/04/25 Вск 01:48:45 #363 №1133368

>>1132927
Ну я на русском играл. И кста пишет одинаково с OOOM, вот только ооом не лупит и пишет как то поприкольней. В чем там плюс то у 27б?

Аноним 06/04/25 Вск 01:51:14 #364 №1133371

202504041623Orbbs Eye Omelette Adventuresimplecompose01jr0fhz4jfqk9m0sgnjgx66yp.png

>>1133355
>Это че?
Тебя даже вчерашний шторм не разбудил.
4o, которую вообще-то обещали ещё год назад.

>Хочется чтобы к рп к каждому ответу картинка генерилась. Типа общая зарисовка сцены.
Ну, с пониманием промпта у нативной мультимодалки это уже плюс-минус возможно. Правда про кум можно забыть, разумеется. Ждём локалок.

Аноним 06/04/25 Вск 02:28:04 #365 №1133474

>>1133282
А что случилось 24 апреля 2024 года, что >>1125882 (OP) гопота постоянно эту дату выдаёт?

Аноним 06/04/25 Вск 02:37:07 #366 №1133487

Объясните, как расчитать требования по vram к модели. Вот я зашёл на ollama. Там на каждую модель дохуя чего написано, но по существу не очень понятно. Есть количество параметров, есть квантизация по какому-то алгориму плюс нужно добавить контекст. Как расчитать требования?

Аноним 06/04/25 Вск 02:57:31 #367 №1133517

>>1133211
>GTX 3060, 32 гб оперативки и Intel(TM) Core(TM) i7-10700KF.
>L3-8B-Stheno-v3.2-Q5_K_M-imat
>8B
Да можно и пожирнее взять. Ты зачем вообще 8б всего взял? Еще и какую-то рандомную, не слышал о такой. Она чудо что два предложения вместе может составить.
У тебя замечательно будет бегать 12б и даже новая гемма 27б пойдет. Только надо будет эээ... потерпеть 2.5 токена/сек.

Аноним 06/04/25 Вск 03:15:27 #368 №1133530

>>1133487
На размер модели смотришь и усе, плюс еще надо лишний гиг или два для нормальной длины контекста.

Аноним 06/04/25 Вск 03:27:45 #369 №1133538

Анончики, а как сделать, чтобы винда выделила больше общей оперативки под встройку? Еще бы гигов 5... не хватает. А всего 32 гига озу.

Аноним 06/04/25 Вск 03:33:34 #370 №1133540

>>1133530
Ну хуйня же. Квантирование роляет. С ним может быть нужно больше или меньше памяти от исходного числа параметров.
Что у вас в локал-ллм треде всё такое дегенеративное?Шапка полная хуцня. Инфа за прошлый год. В целом информации вменяемой нет, что есть вся старая. Инфы для тех кто любит пердолиться, кодить и понимает матан тоже нет. Я знал, что локальные ллм дебильнее их нелокальной версии, но не знал, что их пользователи тоже.

Аноним 06/04/25 Вск 03:40:37 #371 №1133542

>>1133540
Хз, у меня эта хуйня не работает, сколько не ставь. А если норм модель скачать, то все влазит.

Аноним 06/04/25 Вск 03:52:13 #372 №1133549

>>1133540
> Квантирование роляет.
> С ним может быть нужно больше или меньше памяти от исходного числа параметров.
Хуйтирование, что ты несешь? Лишь бы спиздануть даже не понимая на что отвечаешь.
> В целом информации вменяемой нет
От пидарасов прячется. Критикуешь - предлагай или хотябы нормально сформулируй доеб.

Аноним 06/04/25 Вск 06:02:51 #373 №1133600

Там LLaMA 4 вышла, контекст 10м токенов (да, 10 миллионов). https://huggingface.co/models?search=Llama%204

Аноним 06/04/25 Вск 06:12:53 #374 №1133602

>>1133600
Уже видели, да. Вот только вряд ли он рабочий, лол, судя по гемме.

Аноним 06/04/25 Вск 06:16:17 #375 №1133604

Аноним 06/04/25 Вск 06:31:43 #376 №1133608

>>1133600
И какую видяху для запуска этого всего нужно иметь, лол? Не думаю что моя 12 гиговая вытянет это.

Аноним 06/04/25 Вск 07:02:44 #377 №1133610

Что там за титян технология такая?
Для обычного юзера с 24гб врам чем полезна?
Я больше склоняюсь что выйдет народная видяха конкретно для нейронок с 128гб врам за 200$ ибо ну не предназначены игровые и даже курточные хх90 серии для нейросетей нужна отдельная железка для этого в пк

Аноним 06/04/25 Вск 07:04:25 #378 №1133611

1.png

Ну и что теперь ждать?

Аноним 06/04/25 Вск 07:21:02 #379 №1133613

>>1133611
>У клода наименьший слоп и репетишен
>все модели, которые учились на клодовысерах больше всего страдают слопом и репетишеном

Аноним 06/04/25 Вск 07:25:33 #380 №1133614

Как же на гемму всем похуй
Как квен вышел так через пару дней появился годный мерж

Аноним 06/04/25 Вск 07:48:05 #381 №1133616

>>1133474
Отсечка данных в системном промпте

Аноним 06/04/25 Вск 08:21:48 #382 №1133625

>>1133625
https://www.reddit.com/r/wikipedia/comments/1d9izia/ai_slop_is_a_term_used_to_describe_unwanted_or/
https://en.wikipedia.org/wiki/AI_slop

>>1133611
>>1133613
Что такое слоп?

Аноним 06/04/25 Вск 08:30:49 #383 №1133628

Да, что то ллама4 разочаровала, не понятно зачем и нахуя. Мое на 55 гигов даже в 4 кванте, 24 гига врам на 2 экспертов. Фигня какая та, не уверен что даже корпы заинтересуются, большая часть энтузиастов пролетает мимо даже с самой младшей моделью.

Аноним 06/04/25 Вск 09:42:00 #384 №1133646

Аноним 06/04/25 Вск 10:37:59 #385 №1133660

1594644497751.png

Нахуй вообще Мета высрала ламу 4? Такие фееричные унижения Марка идут сейчас с выходом тестов. 400В модель умудряется даже отсосать у 32В QwQ в кодинге, V3 литералли в любой задаче ебёт ламу. Просто вообще нет задач у этой хуйни. Даже в рп полнейший провал, пикрил Creative Writing v3. Вангую в визуальных тестах квен/гемма разъебут её тоже. Как можно было так обосраться, имея миллиардные бюджеты и год времени? Если сейчас окажется что Квазар - это обещанная опенсорс модель КлозедИИ, то это вообще пизда Мете, можно закрывать нахуй их подразделение отвечающее за ламу.

Аноним 06/04/25 Вск 10:42:40 #386 №1133662

>>1133628
>не понятно зачем и нахуя
Самое забавное их гиммик с 10М контекста тоже никому нахуй не нужен, потому что сетка начинает обсираться уже после 32к контекста, не думаю что они что-то улучшили в этом плане.
Если я хочу обработать дохуя контекста, то про 2.5 ебёт в этом плане
>>1133660
>Нахуй вообще Мета высрала ламу 4?
Видимо они выпустили их чтобы просто в инфополе хоть как-то оставаться, пусть даже модели говно оверфитнутое забавно что даже мертвый cohere выпустил модельки до меты

Аноним 06/04/25 Вск 10:48:44 #387 №1133664

Screenshot 2025-04-06.png

>>1133660
>Нахуй вообще Мета высрала ламу 4?
Ответ очевиден

Аноним 06/04/25 Вск 10:58:34 #388 №1133675

>>1133664
Марк выглядит как тот чел с Рефлекшеном. Сейчас пиндосы распробуют этот кал и завтра падение продолжится. На реддите уже волна поноса пошла, литералли ни одного чела с положительным экспирииенсом. Мете просто нечем перекрывать, если в любом тесте отсос, сейчас журнашлюхи пробудятся и закопают ламу. До этого хоть интрига была, все ждали возвращение короля локалок, а в итоге невнятный вспук.

Аноним 06/04/25 Вск 11:07:06 #389 №1133693

>>1133675
Ну а что ему еще делать, тренд как-то надо перебивать. Потом, у китайцев в принципе непреодолимое преимущество в виде дешевой энергии, так что чем дольше ждешь тем просто ближе релиз deepseek r2

Аноним 06/04/25 Вск 11:17:43 #390 №1133702

Запись 2025-04-06 134723 - Trim.mp4

Озадачился удобством пользования Кобольда на кровате с ноута, планшета, смарта, утюга, стиралки... при том что сам Кобольд запускается с компа. Оказывается оче просто: во кладке Network прописать "0.0.0.0" (без кавычек) и запустить выбрав модель (Launch), а на ноуте в браузере прописать IP-адрес ПК с которого запускается Кобольд + порт (по умолчанию 5001). Например у меня это 192.168.8.197:5001 у вас естественно будет отличаться.
Чтобы узнать IP-адрес ПК в локальной сети:
- На ПК откройте командную строку (нажмите Win + R, введите cmd и нажмите Enter).
- Введите команду ipconfig и найдите строку IPv4-адрес в разделе вашей Wi-Fi сети (например, 192.168.1.100).
- Вы великолепны!

Пишу детям, так как сам такой же, а умные хуеплеты пусть и дальше самоутверждаются.

Аноним 06/04/25 Вск 11:20:20 #391 №1133704

>>1133613
Всё верно. У клода лучше всех с лупами и он пишет ультраскладно, из проблем только соя. А синтетика скорее всего сосёт не из-за самого клода, а из-за того что она стилистически монотонная. По хорошему надо брать книги от разных авторов и переформатировать их в чат-формат, чтоб слоп победить. Или генерить датасеты в R1, но с ризонингом это больно.

Аноним 06/04/25 Вск 11:21:45 #392 №1133707

>>1133702
Алсо, можно в шапку.

Аноним 06/04/25 Вск 11:28:29 #393 №1133717

>>1133702
Умные могут сами спросить у нейросетки как с телефона подключится к компу в подсети, но видимо нейросетки только для кума нужны

Аноним 06/04/25 Вск 11:32:28 #394 №1133726

>>1133702
А еще можно таверну также в своей локалке развернуть, надо только конфиги поправить

Аноним 06/04/25 Вск 11:36:36 #395 №1133731

>>1133660
а чзх они вообще сделали? Я правильно понимаю, что "эксперты" у нейронки - это тупо склеенные в одну несколько моделей? Я как-то скачал одну 24б модель, сделанную из трех 8б, такая несусветная залупа, худшее из двух миров, качество от 8б, скорость от 24б (если не медленнее, чет не помню уже). Это вообще хоть какие-то профиты дает или дешевый способ обосраться на попытке выебнуться?

Аноним 06/04/25 Вск 11:41:53 #396 №1133736

>>1133731
>Это вообще хоть какие-то профиты дает или дешевый способ обосраться на попытке выебнуться?
При большом количестве разных "экспертов"даёт, Дипсик так очень хороший получился. Только вот экспертов надо много, и крупных, и ещё смешать с умом, а у некоторых похоже проблемы по всем этим параметрам.

Аноним 06/04/25 Вск 11:42:49 #397 №1133739

Один недлинный промт есть, и гемма всегда на нее отвечают одинаковыми 4 словами в начале. И контекстно всегда одно и то же. Менял параметры, менял промт Любопытно.

Аноним 06/04/25 Вск 11:43:46 #398 №1133741

>>1133717
Ага, а в шапках будут промты писать вместо мануала.

Аноним 06/04/25 Вск 11:46:45 #399 №1133745

2025-04-0613-42-02.png

2025-04-0613-44-54.png

>>1132638
Короче заюзал скрипт анона с тесача для перевода, сетку юзал SAINEMO-reMIX.Q6_K.
Промт:Переведи следующий текст на русский язык. Местоимение you всегда переводи в варианте ты, не вы.При переводе учитывай, что перевод должен соответствавать сеттингу игры Скайрим и используй сооветствующие слова. Твой ответ должен содержать только переведенный текст без дополнительных комментариев
ЧатГТП говорит еще такой попробовать:Переведи следующий текст с английского на русский язык в стиле официальной локализации игры Skyrim. Сохрани имена собственные (имена персонажей, мест и предметов) в оригинале, не переводи их. Используй местоимение "ты" вместо "you". Речь должна быть естественной, соответствующей фэнтезийному сеттингу, но не чрезмерно архаичной. Избегай современных слов. Перевод должен быть точным по смыслу, как будто он использован в озвучке русской версии игры. Не добавляй никаких пояснений — только чистый перевод:
Но если я еще перевожу порно моды, что добавить?
А в целом для черновика пойдет, думаю.

Аноним 06/04/25 Вск 11:49:02 #400 №1133747

>>1133731
Ну я так понимаю, эти слепленные сетки это просто такой способ сделать аутпут более стабильным. Потому что я вот гоняю локально всякую мелкую хуйню, и принципиально качественно уровень ответов от локалки не отличается от дипсиков, но дипсик всегда выдает ответ в конкретном направлении, а локалку может увести куда-то не туда. То есть эксперт по идее должен смотреть, и если сетка на промт 2 раза пишет про фому и один раз про ерему, значит правильный ответ должен быть про фому, хотя реально может быть более ценным про ерему, но юзеру же не выдашь пограничный ответ, там все должно быть максимум predictable.
Ну то есть для домашнего использования малоактуально.

Аноним 06/04/25 Вск 11:50:27 #401 №1133748

>>1133739
А у нейросеток на любой промт на самом деле есть 2-3 варианта когерентного ответа в принципе, потому что это не искусственный интеллект а word predictor на основе контекста

Аноним 06/04/25 Вск 12:02:50 #402 №1133756

>>1133748
там тупо алгоритм сжатый в рамки своих правил генерит рандом сид, никаких вариантов нет, а ии - само понятие абсурд

Аноним 06/04/25 Вск 12:03:16 #403 №1133757

>>1133748
>А у нейросеток на любой промт на самом деле есть 2-3 варианта когерентного ответа в принципе
Поправка: на любой токен :) И вариантов в итоге получается весьма большое количество.

Аноним 06/04/25 Вск 12:08:24 #404 №1133760

>>1133757
Формально да, только на практике там принцип работы как у генератора уровней из диабло 2, если ты один раз видел 5 этажей данжа, то все остальные 100500 этажей которые он может сгенерировать ты увидел тоже.

Аноним 06/04/25 Вск 12:09:52 #405 №1133762

Насколько гемма 4б хороша для перевода с английского на русский?

Аноним 06/04/25 Вск 12:11:48 #406 №1133763

>>1133762
>Насколько гемма 4б хороша для перевода с английского на русский?
Сойдёт. Другие хуже. Для уровня Дипла бери 27В

Аноним 06/04/25 Вск 12:15:01 #407 №1133764

>>1133763
SAINEMO-reMIX оказался очень неплох в переводе.

https://huggingface.co/mradermacher/SAINEMO-reMIX-GGUF

Аноним 06/04/25 Вск 12:15:07 #408 №1133765

>>1133760
>Формально да, только на практике там принцип работы как у генератора уровней из диабло 2, если ты один раз видел 5 этажей данжа, то все остальные 100500 этажей которые он может сгенерировать ты увидел тоже.
А ты попробуй сделать хорошую карточку, с помощью Геммы это теперь стало гораздо проще. Пропиши персонажей, мир и правила. Без пруда не вытащишь и рыбки из него :)

Аноним 06/04/25 Вск 12:17:32 #409 №1133766

>>1133762
1b справляется, если тебе нужен перевод, без изъёбств.

Аноним 06/04/25 Вск 12:18:22 #410 №1133767

>>1133766
Ну литературный перевод, с пониманием всего происходящего.

Аноним 06/04/25 Вск 12:21:25 #411 №1133769

>>1133767
>с пониманием всего происходящего
в смысле? Не улавливаю что тебе нужно. Если тебе нужен сторителинг от ллм, то джемма 3 может это на нативном русском делать или не любом другом языке, т.к. она мультилингуал изкоробки, то бери 12б-27б, если тебе просто перевести текст какой-то, то 1б достаточно.

Аноним 06/04/25 Вск 12:23:57 #412 №1133771

>>1133765
Чел я когда художественный текст генерирую, сначал вручную пишу как бы рецензию на роман с пересказом сеттинга и отличительных черт от лица виртуального критика, затем добавляю пяток рандомных абзацев в качестве примера прозы, а потом пишу вручную подробное краткое содержание главы, после чего даю сетке развернуто генерировать саму главу. Получается сносно, только непонятно для чего мне нужна нейросетка когда я по сути все пишу вручную.

Аноним 06/04/25 Вск 12:25:08 #413 №1133772

>>1133767
Литературный пиривод с пониманием тебе вообще не одна сетка не сделает. Собственно его даже мало какие переводчики люди сделают, потому что то что например переводят с японского это как правило кал.

Аноним 06/04/25 Вск 12:26:21 #414 №1133775

>>1133036
> V3
В твоей же пикче ± пару баллов в разных тестах.
> R1
Ризонер, другой тип моделей, ллама с ризонерами будет позже — и сравнивать будем позже.

> openrouter
Поговаривают, то ли опенроутер крутит сломанные модели, криворукие уебаны, то ли рукалицо нам напиздели, и выложили не те модели, которые на арене (на арене они несравненно пизже).

Где-то пиздеж.
И я даже готов согласиться, что на арене пиздеж.

>>1133044
Текст комплишен база, ты управлеяешь промптом сам.
Если что базовая или текстовая модель к текст комплишену как способу интеракции с моделью не имеют никакого отношения, это совершенно разные понятия.
Ты перепутал, текст комплишн не имеет минусов (а вот чат комплишн имеет — он может быть кривым на стороне движка, или кривым зашитым в моделе, хотя в хорошей моделе разницы буквально не будет, это обычный регексп, если что).

>>1133061
Отчасти ты прав, нам перестали говорить количество уникальных параметров. Если с микстралью и квеном мы знали, что там из 56 уникальных 43, то сейчас… может вся ллама там один эксперт, чутка дотюненный, лол. А может каждый эксперт ни в рот ебись уникальный.

>>1133097
Дипсик кодер лайт (который второе поколение, год назад) был уже пушкой, просто кодер и не стал популярным. Но он даже на русском общался лучше всех конкурентов.
Так что не совсем верно, они со второго поколения ебашат. Просто маленькая модель не хайпанула, а в3 полная хайпанула.

>>1133611
Квазар, конечно!
И квена-3. =)

>>1133660
Справедливости ради, у QwQ в кодинге все отсасывают, кроме ебучих корпоратов.
Хватит сравнивать ризонинг с неризонинг моделями.
Вот выйдет ризонинг-скаут и там сравните и унизите.

Аноним 06/04/25 Вск 12:27:09 #415 №1133777

>>1133760
На самом деле всё хуже. Из-за того что тренятся не новые токены, а сразу все логитсы, сетки обычно имеют только один смысловой путь по запросу юзера. Часто можешь рандомить семплингом токены, а по итогу получать по смыслу одно и тоже, но разными словами. У того же Мистраля Ларджа как раз такое говно, когда какой бы токен ты не выбрал, она всё равно сведёт к одному и тому же.

Аноним 06/04/25 Вск 12:36:42 #416 №1133790

>>1133777
А ну да, логитсы это вообще пиздос. Я в принципе уже смирился что ЛЛМ это такая оффлайновая википедия и декомпрессор краткого содержания. Думаю вообще написать просто классическую текстовую игрушку на ООП с прописанными типами интеракций, а нейросетку использовать чтобы выдаваемые в консоль предложения типа Сharacter X has performed interaction Y конвертировать в развернутые литературные описания.

Аноним 06/04/25 Вск 12:37:03 #417 №1133792

>>1133775
> опенроутер крутит
Опенроутер ничего не крутит. Я пробовал разных провайдеров Фейерверк/Вместе - они одинаковые. Причем Вместе вроде крутит fp8, а Фейерверк fp16.
> выложили не те модели
Но дело в том что он отвечает-то нормально. Не то чтобы совсем плохо, как бывает при поломанных моделях.
> на арене
На арене может Бегемот или системный промпт извращенный. Как я и пишу - просто на вопрос он может красиво ответить, на уровне V3. Всё веселье начинается в чате с каким-либо контекстом, тогда ему становится очень хуёво. Может конечно какая-то беда с контекстом и что-то сломано в коде, но я если честно не верю что они бы зарелизили и видя потоки говна молчали, а не побежали фиксить даже на выходных. Как минимум в платных API используется то что дала сама Мета и оно должно работать как надо.

Аноним 06/04/25 Вск 12:38:30 #418 №1133796

>>1133771
>сначал вручную пишу
Чел, ты смысла нейросетей не понял :) Кидаешь той же Гемме весь текст и просишь кратко описать сеттинг. Потом просишь сгенерить карточку персонажа такого-то из текста. Потом второго, третьего - сколько нужно. Потом правила игры, если что-то нужно добавить - просишь добавить. Итоговая карточка - тысяч 5 токенов и минут 15 работы, но они того стоят.

Аноним 06/04/25 Вск 12:39:43 #419 №1133799

>>1133767
Для этого нужно что бы сетке перед переводом давался контекст беседы и о чем он идет.
Это может делать сама сетка, просто вначале она должна проанализировать контекст беседы с пониманием происходящего.
А потом учитывая эти факты, перевести текст.
Думаю таким методом можно даже из мелкой сетки выдавить текст неплохого уровня.
Как ты понял в игру вступает опять таки ризонинг техника, вначале сетка думает, потом на своем выводе делает работу дальше.

Аноним 06/04/25 Вск 12:43:48 #420 №1133807

>>1133796
>Потом просишь сгенерить карточку персонажа такого-то из текста.
И в этом месте польется слоп

Аноним 06/04/25 Вск 12:46:16 #421 №1133808

Какая сетка лучше всего переводит твои хотелки в теги данбору?
Ну или просто лучше работает в генерации тегов для генерации изображений?

Аноним 06/04/25 Вск 12:46:56 #422 №1133809

>>1133807
>И в этом месте польется слоп
Даже если - и что? Хорошая сетка принимает к сведению информацию из карточки, а не выводит её буквально.

Аноним 06/04/25 Вск 12:49:51 #423 №1133814

>>1133767
качаем
https://huggingface.co/google/gemma-3-1b-it-qat-q4_0-gguf/tree/main

берём текст например отсюда
http://www.news.cn/politics/20250406/8ba0e3abe432435b928af2070ae31615/c.html

смотрим

Аноним 06/04/25 Вск 12:58:13 #424 №1133822

>>1133762
Зависит от того, что и в каких размерах ты переводишь.

К примеру, ты вкидываешь текст в LLM на 1500 токенов. Как думаешь, что будет, если у нее 400b и до бесконечности параметров на выходе? Правильно, говно, которое на 30% лучше Яндекс переводчика или симпл димпла.

Но если ты ей кинешь текст на 300 токенов, будет так, средне. Понятно, нормально, иногда хорошо.

А если ты попросишь модель перевести этот текст на 300 токенов в течение 3-4 итераций, то перевод будет на уровне человека-переводчика адекватного.

Если же ты попробуешь провернуть то же самое с текстом на 1500 токенов, ну.. по-разному. Зависит от внимания модели к контексту. Там может понадобиться итераций 10-15 подряд и скорость минимум 20 токенов в секунду, а также контекстное окно хотя бы в 100к, которое оно нормально держит.

Но я говорю здесь про большие модели, и даже с ними вот такие танцы с бубнами нужны, чтобы просто перевести пару страниц. А эти огрызки ебаные вообще ни на что не способны.

Ах да, файнтюны для перевода — это мусор. Только ванильные или аблитерация.

Аноним 06/04/25 Вск 12:58:24 #425 №1133823

>>1133814
>смотрим
Потом берём 4В и смотрим снова. Потом берём 27В...

И это ещё без литературщины.

Аноним 06/04/25 Вск 13:01:39 #426 №1133825

>>1133822
>А если ты попросишь модель перевести этот текст на 300 токенов в течение 3-4 итераций, то перевод будет на уровне человека-переводчика адекватного.
Кстати да. Но это хрен автоматизируешь. Потому что либо выбирай тупо последний вариант, либо давай модели оценивать, какой вариант лучше. Результаты в любом случае так себе.

Аноним 06/04/25 Вск 13:03:31 #427 №1133827

>>1133823
такое ощущение, что ты не берёшь в рассчёт, что 1b занимает 1 гиг. Ну бери тогда дипсик, хуле...

Аноним 06/04/25 Вск 13:05:41 #428 №1133829

>>1133825
>>1133822
>>1133767
Вот же нормальный перевод в целом >>1133745
Сейчас правлю ошибки в основном в определении пола, где нет конкретного указания на этот самой пол, ну имена собственные, уровень "ебал ее рука" пока не встретил, только два раза строку проебал полностью.

Аноним 06/04/25 Вск 13:07:32 #429 №1133834

>>1133827
>такое ощущение, что ты не берёшь в рассчёт, что 1b занимает 1 гиг. Ну бери тогда дипсик, хуле...
Разница в скорости между 1В и 4В не такая уж и большая. Ну 2,5 гиг она занимает и что?

Аноним 06/04/25 Вск 13:09:17 #430 №1133836

>>1133829
В целом это как без нюансов, причем исходный текст очень простой.

Аноним 06/04/25 Вск 13:10:34 #431 №1133840

>>1133825
Да нет, автоматизировать можно, просто бабки быстро кончатся в таком случае на API, лол. И обычно есть какой-то условный предел, на котором все нормально, который ты знаешь, проработав с моделью часов 20 плотно.

Условно говоря, на каждое количество токенов своё количество итераций. Если больше 3, то уже лезет шиза или самоповторы. А где-то можно и 10 итераций. Плюс шиза растёт с уровнем контекста. Когда уже к 200к подваливает, то совсем дурно, но мне часто лень контекст удалять, потому что потом нужно будет его всё равно добавлять (для того, чтобы модель понимала, чо она там вообще переводит, в целом).

Но если правильно промптить, знать хорошо русский, а также хотя бы немного язык, с которого переводишь, то можно натурально книги переводить.

Интересно, почему такой бизнес ещё не запилили, ведь можно натурально пачками говно переводить произведения типа «Я подавился устрицей, а затем переродился тритоном в мире русалок, но у меня нет члена, чтобы их трахать!»

Аноним 06/04/25 Вск 13:13:15 #432 №1133842

>>1133834
зависит от задачи

Аноним 06/04/25 Вск 13:17:23 #433 №1133846

>>1133834
у человека может быть все впритык и эти полтора гига разницы ему сделают погоду. Но вообще 4б модельки можно и на проце крутить, достаточно быстро, у меня выходило где-то 20 токенов в секунду (ryzen 5600, две плашки ddr4 на 3200мгц)

Аноним 06/04/25 Вск 13:19:33 #434 №1133850

>>1133846
если у тебя всё локально и в фоне работает игра, а ты с помощью ocr и джеммы3 1б налету переводишь китайщину к примеру, то тут без вариантов и 2,5 гигов это уже зарубают идею на корню

Аноним 06/04/25 Вск 13:23:14 #435 №1133855

>>1133829
>Вот же нормальный перевод в целом
Да, попробовал - хорошая модель для перевода. К сожалению видеокарта обязательна, если нужна скорость. Но для любительских переводов самое то.

Аноним 06/04/25 Вск 13:26:12 #436 №1133858

А если мне нужно переводить большие объемы текста? Там условные 100.000 символов?

Аноним 06/04/25 Вск 13:27:11 #437 №1133861

>>1133850
>а ты с помощью ocr и джеммы3 1б налету переводишь китайщину к примеру, то тут без вариантов и 2,5 гигов это уже зарубают идею на корню
А вот нифига, 1В на проце тоже переводит совсем не "на лету". Быстро и некачественно, но с онлайн-переводом даже не сравнить. Даже с нынешним Гуглом. 4В уже хотя бы что-то даёт.

Аноним 06/04/25 Вск 13:33:45 #438 №1133876

.=)

Аноним 06/04/25 Вск 13:37:00 #439 №1133884

>>1133850
Сталкиваясь сам и читая подобное все больше и больше понимаю, что в перспективу хорошо бы иметь отдельный домашний сервер для нейронок. Причем как хороший риг с развернутыми llm, STT/TTS, картинкогенераторами и всякими агентами найдется куда ткнуть, так и даже ноутбук старый, крутящий 24/4 на проце 4b, пригодится.

Вообще думаю для второго варианта идеально какой нибудь макбук на m1 с разбитым экраном за копейки поискать, дешевле видяхи с 16 vram выйдет...

>>1133007
>Когда знаешь, как настраивать окружение все, становится плюс-минус легко.
Знание - база, нужно не ограничиваться рамками популярных фронтэндов (или хотя бы смотреть им под капот иногда). Но есть и другой момент - многое из опенсорса запустить локально вроде бы можно, но без своего датацентра охуеешь (тот же грок например).

>А минусы будут?
Да, пропадет удаленная чилловая луталка деняк.

Аноним 06/04/25 Вск 13:42:24 #440 №1133893

>>1133855
>Да, попробовал - хорошая модель для перевода. К сожалению видеокарта обязательна, если нужна скорость. Но для любительских переводов самое то.
Кстати - никто не пробовал запилить кастом API к Таверне, чтобы она за переводом к локальной сетке обращалась? В принципе качество SaiNemo меня устраивает, свободная видеокарта есть - значит будет и скорость. Приватность опять же. Есть реализации?

Аноним 06/04/25 Вск 13:52:22 #441 №1133906

>>1133893
Почему такая тряска за приватность перевода? Будто кого-то может заинтересовать что вы в свой локалке ебете людей сосательного роста.

Аноним 06/04/25 Вск 14:11:26 #442 №1133935

>>1133368
Чё за поток сознания?
Эта 24б модель не предназначена для русского. Ты как настоящая обезьяна не смог пропихнуть квадрат в круглый вырез и расстроился?

Аноним 06/04/25 Вск 14:18:08 #443 №1133944

Покажите пожалуйста ваши настройки штрафов за повторы в таверне.

Аноним 06/04/25 Вск 14:23:15 #444 №1133948

>>1133371
>Ну, с пониманием промпта у нативной мультимодалки это уже плюс-минус возможно.
Пока даже на быстрой Гемини это непрактично из-за скорости. Первая картинка сгенерится за три секунды, но чем их больше в контексте, тем медленнее генерируются новые. При 5 картинках уже было что-то вроде 90 секунд.

Аноним 06/04/25 Вск 14:30:05 #445 №1133959

Когда там кванты на 4 лламу? Меня аж трисёт, я хочу в гуффе попробовать.

Аноним 06/04/25 Вск 14:32:12 #446 №1133963

>>1133959
109б
Если тебе есть на чем этот ггуф заводить, сам и квантуй, хуле.

Аноним 06/04/25 Вск 14:39:30 #447 №1133975

>>1133775
>Текст комплишен база, ты управлеяешь промптом сам.
>Если что базовая или текстовая модель к текст комплишену как способу интеракции с моделью не имеют никакого отношения, это совершенно разные понятия.
>Ты перепутал, текст комплишн не имеет минусов (а вот чат комплишн имеет — он может быть кривым на стороне движка, или кривым зашитым в моделе, хотя в хорошей моделе разницы буквально не будет, это обычный регексп, если что).
Хуйня. Ты ничем не управляешь, точнее можешь, но это иллюзия. Сетка зафайнтюнена под конкретный формат. Как только ты его нарушаешь, ты выходишь за распределение и точность резко падает. Больше того, все мозги сетки от файнтюна только и берутся, в чистом текст комплишене ты теряешь способность следовать инструкциям нормально. Так что если тебе нужен текст комплишен на любой инструкт-тюненой сетке, тебе нужно соблюдать предписанный формат и эмулировать текст комплишен поверх него. А это безжоп.

Аноним 06/04/25 Вск 14:42:37 #448 №1133978

>>1133540
>Шапка полная хуцня. Инфа за прошлый год.
Сделай лучше.
>>1133600
Всем похуй.
>>1133614
А в треде ни разу не упомянули.
>>1133664
Там наш слоняра в президентах уронил примерно весь рынок своей гениальной геостратегией, так что не показательно, акции сейчас у всех так выглядят даже в России, лол.
>>1133675
>Мете просто нечем перекрывать
Не так запускаете ©
>>1133702
А если поставить галочку, то можно будет подключаться из любой точки Земли!

Аноним 06/04/25 Вск 14:44:23 #449 №1133979

>>1133975
Нихуя себе эзотерика. Безжоп - это буквально имитация текст комплишена, которая пытается срезать верхний слой инструкций, который и отличает чат коплишен от текст комплишена.

Аноним 06/04/25 Вск 14:44:53 #450 №1133980

>>1133948
Зачем держать в чате старые картинки-то? Меняй промпт/референсы, свайпай.

Аноним 06/04/25 Вск 14:47:29 #451 №1133982

>>1133979
>Нихуя себе эзотерика.
Какая ещё эзотерика? Это буквально то как тренируют сетки.
>Безжоп - это буквально имитация текст комплишена, которая пытается срезать верхний слой инструкций, который и отличает чат коплишен от текст комплишена.
Ну а я о чём сказал? Только не срезать он пытается, он работает поверх стандартного формата. Тупо инструкция сетке "продолжи этот текст". И да, это прям дохуя лучше чем убирать системную разметку и делать инференс продолжая текст. Потому что сетка так обучена.

Аноним 06/04/25 Вск 14:48:14 #452 №1133984

>>1133980
Ради консистентности. Иначе зачем вообще нужна мультимодалка, можно и обычной моделью с диффузией обойтись.

Аноним 06/04/25 Вск 14:48:26 #453 №1133985

>>1133963
Хм....

Аноним 06/04/25 Вск 14:51:00 #454 №1133988

>>1133984
Типа чтобы один и тот же лук был на куче картинок? Так тебе референс для этого нужен. Можешь сгенерировать его.
>Иначе зачем вообще нужна мультимодалка, можно и обычной моделью с диффузией обойтись.
В диффузионках есть миллионы способов перенести стиль. Мультимодалки нужны из-за их модели мира и последующего понимания происходящего

Аноним 06/04/25 Вск 14:52:07 #455 №1133990

Ананасы, есть какой-нибудь рентри с хорошим объяснением всех сэмплеров? В том числе за пределами базовых. Интересны не только температура, min_p и другие, но и DRY, XTC и прочие.

Аноним 06/04/25 Вск 14:57:54 #456 №1133995

>>1133982
> Только не срезать он пытается, он работает поверх стандартного формата.
Ты все перепутал. Стандартный формат - это текст комплишен. Чат комплишен вешает поверх него еще один слой инструкций. Безжоп пытается обойти эти инструкции, игнорируя весь слой, имитируя тем самым текст комплишен.
Похоже, адепт безжопа даже ридми автора данной затеи так и не прочитал.

Аноним 06/04/25 Вск 14:58:20 #457 №1133996

>>1133988
Стиль может быть похож, но что толку, если в одном и том же месте в игре на картинке будет каждый раз другое место.

Аноним 06/04/25 Вск 15:12:19 #458 №1134012

Какую видяху стоит прикупить, чтобы запускать на ней более-менее приличные модельки с нормальной выдачей токенов?

Аноним 06/04/25 Вск 15:13:27 #459 №1134016

Попробывал новую Llamu в кодинге.Плохо.

Аноним 06/04/25 Вск 15:13:47 #460 №1134017

>>1134012
3090, 4090 ЛИБО две 3060 с 12 врам каждая. Всего в 60к выйдет 24 врам с такими 3060.

Аноним 06/04/25 Вск 15:18:53 #461 №1134024

>>1133995
Анон, что ты несёшь вообще?.. Ты по-моему вообще слабо представляешь как работает не только безжоп, но и LLMки вообще. Стандартный формат на который тренирована любая инструкт-тюненная сетка это чат по ролям с исполнением инструкций ассистентом, размеченный системными токенами. Может быть РП ещё например. Если ты его поменяешь, отойдя от того на что она тренирована, ты получишь лоботомита.

Всё что делает безжоп - это суёт всю историю РП (включая ролевой инпут юзера) в одно сообщение и либо продолжает его через префил, либо даёт инструкцию "продолжи этот РП", если префил не поддерживается. И останавливается по стоп-стрингу. Можно и не останавливаться и даже вообще не РПшить, а просто продолжать любой текст так, как базовая модель делает. Безжоп ничего не "игнорирует" и не "срезает", системная разметка никуда не девается, это просто способ промптинга инструкт-тюненой сетки, он работает ПОВЕРХ неё и использует следование инструкциям. Это дополнительный слой абстракции и это работает лучше, как ни странно.

>адепт
Я не адепт, просто отсылка на безжоп это самый простой способ пояснить почему текст комплишен это хуета.

Аноним 06/04/25 Вск 15:23:42 #462 №1134033

>>1134024
Ладно, с верунами спорить бесполезно. Кому надо - почитают ридми безжопа.

Аноним 06/04/25 Вск 15:24:51 #463 №1134035

>>1133996
Ну так тебе тогда нужно два референса - один для стиля, другой для места. Диффузионки спокойно это делают через контролнеты и подобные слои, даже больше того консистентность у них куда лучше в этом всём.

Разница лишь в том что мультимодалкам не нужно это всё, они нативно понимают чего от них хотят. Это куда круче. Но жрёт в разы больше.

Аноним 06/04/25 Вск 15:25:26 #464 №1134036

>>1134033
Обосрался - обтекай.

Аноним 06/04/25 Вск 15:26:02 #465 №1134037

>>1134036
Да-да, герой монитора. Ты обтёк уже со своим тейком, который противоречит документации твоего излюбленного ноасс. Нахуй пошел, свободен.

Аноним 06/04/25 Вск 15:27:43 #466 №1134039

>>1134037
Какой документации, еблан? Я её писал, если что. Если у тебя что-то есть сказать, говори. Если только про верунов можешь пукнуть - нахуй иди сам.

Аноним 06/04/25 Вск 15:28:20 #467 №1134040

>>1134017
Не особо шарю за железо вообще, но разве условная 4090 не будет более продуктивней даже двух 3060? Или модельке важнее всего именно кол-во видеопамяти, а не то на сколько она шустрая?

Аноним 06/04/25 Вск 15:29:58 #468 №1134041

1587721153856.mp4

>>1134039
> Какой документации, еблан? Я её писал, если что
Верим всем тредом.

Аноним 06/04/25 Вск 15:32:14 #469 №1134044

>>1134041
О, боевые шебмки пошли в ход. А ответить ничего так и не смог.

Аноним 06/04/25 Вск 15:32:15 #470 №1134045

>>1134040
Да, 4090 лучше. Но если 3060 ты две сможешь воткнуть, на игры тебе насрать в целом или ты не катаешь там в ААА всякие в 4к, то с точки зрения экономии лучше две 3060. Или 4. Если сможешь воткнуть. Хоть и скорость у них будет, понятное дело, меньше, даже если всю модель в видеопамять воткнёшь при сравнении с таким же количеством 4090 или 3090.

Просто видеопамять действительно решает. Это самое главное, если только не пытаться на совсем уж старых видюхах запускать.

Аноним 06/04/25 Вск 15:32:58 #471 №1134046

>>1134040
Вычислительная мощность видеокарты тоже важна, но без достаточного количества vram ты просто не запустишь нужную модель исключительно на видюхе, а отгрузишь ее часть на ram/процессор. И это будет очень медленно. Вычислительная мощность видюхи тоже важна, но две 3060 стоят дешевле одной 4090.

Аноним 06/04/25 Вск 15:33:19 #472 №1134047

>>1133995
По-моему, вы оба поняли безжоп неправильно. Когда мы тут крутим модель на своей видяхе, то кормим ей весь промпт в одном параметре, это текст комплишен. Корпы же работают по оаи совместимому апи или его модификациям, когда промпт обязан приходить на апишку по ролям. Иногда даже в строгом порядке, иначе апи вернёт ошибку. Поэтому для корпов и существует чат комплишен, где для каждого вида модели реализованы эти правила. Суть безжопа, чтобы в ролях не было юзера, а ассистент рассказывал бы историю за себя и того парня. Соответственно, без танцев с бубном в виде левых скриптов в чат комплишене это не заработает. А вот в текст комплишене для этого достаточно тупо убрать в инстракте регулярные префиксы-суффиксы юзера и ассистента в чате, а в последнем ответе ставить префикс ассистента. В системном промпте просить дописать диалог/историю.
мимо краем глаза смотревший, что такое безжоп
экшели, не претендую на правильное понимание, мне пофиг

Аноним 06/04/25 Вск 15:34:10 #473 №1134048

Да что такое этот ваш БЕЗЖОП?

Аноним 06/04/25 Вск 15:36:05 #474 №1134049

>>1134047
Ты правильно все понял. И изложил ровно то, что изложил я, просто другим языком. В текст комплишене нет ролей ассистент-юзер, в чат комплишене он есть, за счет надбавленных инструкций. Ноасс просто минует эффект этих инструкций, тем самым имитируя текст комплишен. Это я и писал. Это сейчас пишешь и ты. Но анон выше там вообще не понимает, что затирает, и игнорирует реальность.

Аноним 06/04/25 Вск 15:36:57 #475 №1134050

>>1134048
Ты сидишь на локалке, потому тебе даже не нужно знать, что это. Грубо говоря, это подход, имитирующий поведение локалки на копромодели.

Аноним 06/04/25 Вск 15:44:33 #476 №1134053

>>1134045
>>1134046
Понял, спасибо. А какие хорошие модельки можете порекомендовать для двух 3060?

Аноним 06/04/25 Вск 15:47:27 #477 №1134055

>>1134047
Чат комплишен существует не потому что злые корпы не дают менять системную разметку (ChatML и иже с ним). А потому что от неё нельзя отходить, у сетки перформанс упадёт - она тренирована на примерах инструкция-ответ. Юзая текст комплишен и нарушая предписанный шаблон, ты её бессмысленно лоботомируешь.

Я выше написал как безжоп технически работает (совершенно корректно), да и хуй бы с ним, суть не в нём. Главное что написав инструкцию "продолжи этот текст" или засунув текст в префил правильно сформатированного чата, ты получаешь результат лучше чем если бы ты засунул это всё в пустой контекст кобольда безо всяких шаблонов и нажал "продолжить". В текст комплишене и раскурочивании системной разметки 0 смысла.

Аноним 06/04/25 Вск 15:48:18 #478 №1134056

>>1134053
Измеряй модельки все-таки не производительностью видюхи, а количеством vram. У меня у самого 24гб, я сижу на моделях 24-32b. Помещаются 24b q6, 32b q4 модели. В обоих случаях 32к квантованного в q8 контекста. Все модели в пределах данных параметров можно запускать. Если ты только начинающий, эта формулировка может немного запутать, но со временем разберешься.

Аноним 06/04/25 Вск 15:49:20 #479 №1134057

>>1134055
> В текст комплишене и раскурочивании системной разметки 0 смысла.
То есть ты считаешь, что системные шаблоны не работает на текст комплишене? Ты ебанутый?

Аноним 06/04/25 Вск 15:51:25 #480 №1134060

>>1134050
А смысл в этом методе? В чём космический эффект?

Аноним 06/04/25 Вск 15:52:42 #481 №1134062

>>1134060
Это уже оффтоп для данного треда. Если тебе правда нужно знать, то тебе в aicg, но там проклятый тред с подростками в пубертате.

Аноним 06/04/25 Вск 15:54:54 #482 №1134066

>>1134062
Я поэтому здесь и спрашиваю. Я зашёл туда и охуел от тамошнего цирка. Будто в аниме-чатик с поехавшими попал. Хотя, возможно, срач сверху в этом треде подскажет мне, в чём там дело.

Аноним 06/04/25 Вск 15:55:54 #483 №1134067

>>1134057
Чего? Ты сейчас про таверну что ли? Я тебе про текст комплишен в принципе, и что игнорировать разметку нельзя, даун. Я хуй знает с чем ты воюешь вообще.

А вообще так-то да, конкретно в таверне текст комплишен настолько через жопу сделан, что даже безжоп неиронически удобней (на локалке или нет), хотя бы промпт менеджер нормальный имеется. В других UI может быть иначе.

Аноним 06/04/25 Вск 15:57:25 #484 №1134068