Локальные языковые модели (LLM): LLaMA, Gemma, DeepSeek и прочие №116 /llama/

>>1106826
>Либо пруфайте скринами
А теперь съеби.

Аноним 21/03/25 Птн 22:27:17 #8 №1106839

>>1106830
Тащи примеры с ролевухой, валенок. Пока мои яйца шейку твоей матки ласкать не начали.

Аноним 21/03/25 Птн 22:31:16 #9 №1106845

>>1106798 →
Это про тебя, маня.

>>1106834 →
Ну ты дальше своего компа вообще не смотрел? P104-100 классика же.
Просто 8 гигов за 2,5 килорубля против… Сколько твоя смпиха дает за 10к? То-то и оно.

>>1106823 →
Сомнительно, но можешь попробовать, расскажешь нам.
В основно, памяти мало за такие деньги.
За 4-кратную переплату хочется или 4х памяти (но там не 32), либо 4х скорости (но там не 60 тпс).

Аноним 21/03/25 Птн 22:32:00 #10 №1106846

2025-03-21072752.png

Аноним 21/03/25 Птн 22:34:17 #11 №1106848

>>1106846
Или лохов в другом месте, надёжный продавец.

Аноним 21/03/25 Птн 22:34:34 #12 №1106849

>>1106845
Хотя ладно, пизжу, может там скорость норм, нужны тесты, канеш.
Но я сомневаюсь, что это выгодно.

Аноним 21/03/25 Птн 22:35:03 #13 №1106851

>>1106848
Думаю, это рофл. Ну не может же быть всерьез.

Аноним 21/03/25 Птн 22:35:56 #14 №1106852

>>1106819
>Гемма, мисраль, коммандер, весна пришла.
Вроде должны уже были всё обудить.
>>1106826
>Чел, несколько разных карт прогонял. Но ни в одной даже упоминания канни не было.
Ну вот кого ты обманываешь? Если есть предупреждение, значит ты ебёшь underage girl. Иначе бы его не было.

Аноним 21/03/25 Птн 22:37:00 #15 №1106853

>>1106839
>мои яйца шейку твоей матки ласкать
Я знал, тебе понравится

Аноним 21/03/25 Птн 22:48:01 #16 №1106864

>>1106812
Как вы заебали сука РУСИК ХУЙНЯ ЕБАНАЯ я какие семплеры не пикал просто говно.

Аноним 21/03/25 Птн 22:59:05 #17 №1106875

>>1106852
>Ну вот кого ты обманываешь? Если есть предупреждение, значит ты ебёшь underage girl. Иначе бы его не было.
Ну, значит это еще один повод скипать этот соевый огрызок, потому что у меня в карточке было прямо прописано, что персонаж - "взрослая девушка, работающая в офисе и злоупотребляющая алкоголем" или как-то так. У меня изначально не было никаких планов на сибирских мышек, потому что я остерегался того, что модель сразу уйдет в отказ, по этому выбрал милфу с нейтральным описанием.

Аноним 21/03/25 Птн 23:20:51 #18 №1106889

>>1106875
Посмотри весь свой контекст. Может у тебя твой перс описан подростком? Или ещё где в систем промте разрешение на еблю с жертвами дяди Серёжи. В общем у тебя нестандартное поведение модели, другие об это не сталкивались.

Аноним 21/03/25 Птн 23:23:55 #19 №1106891

>>1106845
Я то спокоен, а у тебя вскрылись старые шрамы и полезли слюни с капсом. Было бы из-за чего бомбить, сам такой же мусор что собираешь.
>>1106846
Лол, интересно поведется ли кто-нибудь на это.
>>1106852
> Вроде должны уже были всё обудить.
Это месяц-другой, а потом внезапно вспомнят про коммандира (нет) или что-то еще.
> значит ты ебёшь
Хз, нормально у нее с этим если совсем не жестить, накинуть жб и описать про все разрешено. Очень помогает ее следование исходной линии чата, в первых ответах может аположайзить, но если нароллить, дать префилл или тем более взять готовый чат то ни одного отказа. Еще интересно как она подстраивается под старые посты, здесь можно брать чаты с других моделей и она действительно пытается подражать их стилю сильнее чем это бывает у других.
В прошлом треде реальный недостаток отмечали, что она иногда может писать пресно и не давать столько описаний каким-то вещам, как это делают рп-миксы.

Аноним 22/03/25 Суб 00:57:56 #20 №1106950

парни, с этим можно что-то сделать?
при сплите модели на две карты утилизация каждой падает наполовину, из-за чего хуёвит скорость генерации

Аноним 22/03/25 Суб 01:01:20 #21 №1106951

>>1106950
>2 квант 7B
>2х3090
Ты блядь издеваешься? Попробуй нормальные модели.
А вообще, расскажи, что за плата и через какие кривые райзеры у тебя подключены карты.

Аноним 22/03/25 Суб 01:02:30 #22 №1106953

>>1106950
-sm layer, будет +- такая же скорость. В жоре роусплит на актуальном железе в большинстве случаев бесполезен, а если у тебя одна из карт через медленные линии подключена то будет совсем плохо.

Аноним 22/03/25 Суб 01:06:49 #23 №1106954

>>1106953
и правда.
>>1106951
чел, это модель для бенчмарка, ты чё.
Чтобы грузилась быстре.
-sm lines помогла
а плату мою все и так уже видели полгода назад, это btc79x5, 5 штук pcie3 x8

Аноним 22/03/25 Суб 01:11:41 #24 №1106955

>>1106891
Хм… А может и не про тебя.
Хуй с тобой, криво ты как-то пишешь, не по-русски. То ли антитеслошиз, то ли на лламе 3 8б сидящий, хер вас разберет.
Сорян, если это не ты слюнями забрызгиваешь все тут.

Аноним 22/03/25 Суб 01:14:51 #25 №1106957

Кстати, там скоро Qwen3 релизить будут.
МоЕшка в том числе (правда точно только 15b A2b).
Для рп вряд ли интересно, но вот для работы — вполне возможно завезут что-то хорошее.

Аноним 22/03/25 Суб 01:27:38 #26 №1106958

существует ли лоадер лучше, чем жора?
Я недавно попробовал олламу. Исплевался весь нахуй. Какое же говно для даунов. просто мерзотная хуета.

Аноним 22/03/25 Суб 01:43:05 #27 №1106970

>>1106958
Для даунов как раз охуенная хуйня. Ставится и заводится с пол-пинка. Опен-вебуй и то дроченее ставится. Но в связке друг с другом получается сносно.

Аноним 22/03/25 Суб 01:52:02 #28 №1106977

>>1106958
Exllama, ktransformers, aphrodite-engine, классический transformers.
> олламу
Это просто оберка жоры для отсталых, чему удивляешься?

Аноним 22/03/25 Суб 02:21:29 #29 №1106997

>>1106799 (OP)
Я разочаровался в ОПе. Мои видосы и пикчи игнорирует и не ставит в шапку. А я ведь полчаса видос заливал...

Кстати, я планирую запитать 4 теслы от 700 Вт блока без ограничения по потреблению. В чем я не прав? Карты\блок же не сгорят, если мощности не хватит, просто система повиснет в худшем случае?

Аноним 22/03/25 Суб 02:25:08 #30 №1106999

>>1106997
вообще похуй. Ты не сможешь запустить модель так, чтобы теслы были загружены на 100%. В лучшем случае все 4 карты будут загружены на 50% каждая, а значит в сумме это будет 500 ватт.
Другое дело, что тебе скорее всего от такого БП просто проводов питания нее хватит на 4 теслы.

Аноним 22/03/25 Суб 02:38:02 #31 №1107010

>>1106997
Какой видос? Линкани пост, даже интертесно.
> 4 теслы от 700 Вт блока без ограничения по потреблению
Отрубится скорее всего, хоть при совместной работе грузится не на полную, могут быть всплески, поэтому лучше ограничить. А может будет и норм, большинство блоков нормально переносят кратковременные перегрузки.
Правда всегда есть шанс, особенно если бп уг, что оно неудачно сгорит и при этом потянет за собой что-то из-за переходных процессов.

Аноним 22/03/25 Суб 02:42:19 #32 №1107012

>>1106999
Проводов должно хватить вроде.

>В лучшем случае все 4 карты будут загружены
Ты уверен? Даже при rowsplit? А если в потреблении карт есть задержка? Т.е. например, те же теслы, если на них висит процесс, по дефолту потребляют около 100 Вт в простое. Есть решение, которое их переключает в более низкий режим потребления. Это означает, что потребление карты по факту может быть независимо от фактической работы и регулироваться отдельно каким-нибудь контроллером питания. И если он детектит, что для текущей работы нужно 250 Вт, то ему ничего не мешает ставить задержку этого потребления на следующие пару секунд, чтобы не переключать режимы потребления слишком часто. Таким образом, вполне вероятно, что в какой-то момент может случиться так, что все карты станут потреблять 250 Вт.
Так это, что будет, если мощности не хватит?

Аноним 22/03/25 Суб 02:48:51 #33 №1107014

Сравнил в общем работу двух телел против двух 3090.
промт процессинг быстрее в 5 раз, генерация в 3 раза.
По цене тесла стоит 30к, а 3090 - 65к. Делаем заключение, что 3090 эффективнее в соотношении скорости за рубль.

Однако есть одна прблема которая меня в 3090 беспокоит - это ёбаная печь, к тому же не с серверным проточным охладом.
Не знаю, как их охлаждать, они греются как суки.
Датчик температуры показывает, что карты держат температуту на 70 градусах, но я знаю, что это температура чипа, а чипы памяти могут быть и все 130 градусов. И боюсь просто отвалятся они через полгода. Особенно уесли мы исходим из худшего варианта что карты после майнеров.

Аноним 22/03/25 Суб 02:58:33 #34 №1107023

>>1107010
>Какой видос? Линкани пост, даже интертесно.
Да я тредов 10 назад постил, лень искать. Я уж сам не помню, что там, вроде 7 карт подключенных. Просто я тогда полчаса ебался с его загрузкой, жопа сгорела конкретно, и это не считая времени на перекидывание его на ПК, реэнкода и чистки метаданных. Поэтому хотелось свою законную дозу тешения чсв в оп-посте. Я молча терпел, но когда оп проигнорил и фотку, которую я пару тредов назад постил, то уже не могу молчать, полный беспредел!11

>Отрубится скорее всего
Я надеюсь, неохота словить взорвавшимся конденсатором в ебало.

Как это называется, не подскажете? Как искать такое на озоне.
https://media.au.ru/imgs/bbf86195b78e64185182c7dc0e990d74/materinskaya-plata-btc79x5+xeon-e5-2630v2+-ddr3-8gb-3-18371302.jpg
Прикольно, что эта плата опять всплыла >>1106954. Если я не разберусь, как перепрошивать ее биос - я к тебе приду за советом мудрым, ведь я ее тоже заказал, хотя в перепрошивке и прочем не смыслю нихуя. Планирую посадить на нее свои 4 теслы. А потом я таки хочу завести чертову лламу 405B через жору-рпц. Забавно, что тема распределенных вычислений всплывала недавно. Планирую получать свои золотые 1,5 т\с и попускать 123B холопов :3

Аноним 22/03/25 Суб 03:08:31 #35 №1107034

>>1107014
>Не знаю, как их охлаждать
Сделай ограничения по потреблению в 250 Вт. У меня жора нативно так работает, хаха. Типо потребление максимум 250 Вт на обработке контекста, а при генерации и то 170 Вт где-нибудь. Чипсетные х1 ftw - продлевают жизнь. Тише едешь, дальше будешь. Правда, пики температуры самой горячей карты все равно 70, как у тебя. Но я думаю это ок, т.к. кратковременно. Наверное.
Кстати, в тулзе для регулировки кулеров не отображается температура памяти. Можно ли, интересно, как-то охлаждение на память забиндить, а не на чип.

Аноним 22/03/25 Суб 03:13:58 #36 №1107045

>>1107012
>Ты уверен
Уверен, я только что гонял две теслы.
>>1107023
Зря ты купил 4 теслы. Хотя если можешь себе позволить то ок. Я думаю, за счет высокоскоростных интерфейсов можно "расширить" pcie шину. Надо только рассчитать какая пропускная способность сетевой карты нужна на pcie3x8.
Но вангую, что уже 5 карт 3090 упрутся в ту же проблему, что 3 теслы - будет слишком медленно на больших моделях. Настолько медленно, что неприемлимо для кума.

Аноним 22/03/25 Суб 03:22:27 #37 №1107059

>>1106889
Чекнул контекст, всё прилично. Но нашел место, где проебался - вместо "горячей линии для подростков" там паста про "горячую линию для лиц (подразумевается любых) столкнувшихся с сексуальным насилием". Короче в любом случае рыганина с ебейшим уклоном в сейфти-байас.

>>1106817
>И да, аблитерация уже вышла.
Как и ожидалось - это чистая лоботомия. Отупляет модель настолько сильно, что она начинает оправдывать свою истинную суть - превращается в генератор случайных последовательностей из токенов. Ломается русский, ломается английский, ломается логика и вместе с ней всё остальное.

В общем, в очередной раз доказал себе, что всё шизики, которые нахрюкивают по поводу "скиллишью" не пользуются и скорее всего даже не запускают те модели, с которыми у кого-то случаются проблемы.

Аноним 22/03/25 Суб 03:45:03 #38 №1107067

Что за шиз уже четвертый тред пытается троллить про гемму?

Аноним 22/03/25 Суб 04:17:48 #39 №1107072

>>1107067
>Что за шиз уже четвертый тред пытается троллить про гемму?
Ну нет у чувака 24гб врам, вот и гонит. Завидует. Люди, у которых есть, спокойно грузят аблитератед в 4-м кванте и с 24к кэша (q8 конечно) и в ус не дуют. Мало 24к - ставят q4, вполне приемлемо. Системный промпт ей надо хороший и карточку, и всё будет зашибись. Проверено.

Аноним 22/03/25 Суб 04:55:17 #40 №1107093

>>1107014
> Не знаю, как их охлаждать
В чем проблема? Сделай андервольтинг и погранич потребление, как анон сказал, 250 ваттами. Их охлаждать оче просто, достаточно нормального потока воздуха. Пары средних 120 крутиляторов хватает чтобы прокачивать корпус с тремя 3090 и держать температуры 60-70.
> а чипы памяти могут быть и все 130 градусов
Не могут, там пойдет выкручивание кулера в аварийный режим на 100%, жесткий тротлинг, а выше определенного вообще отключится. Даже хз как на прыщах ее посмотреть, но должно быть возможно. Почему не потестил в декстопе и не заменил термопрокладки после покупки?
В ллм ты никогда не достигнешь критических температур, они просто не успеют прогреться, такое только на длительной нагрузке.
>>1107023
Раз заморочился то поищи, интересно же. И насколько но там шумит, лол.
> полный беспредел!11
А что вместо твоей поставил? Если Лапу или размещение карточек в лианли то без шансов было.
> неохота словить взорвавшимся конденсатором в ебало
Может и въебать, ограничь пл, в чем проблема?
> завести чертову лламу 405B
Она юзлесс, чисто ради ачивки.
А жору дистрибьютед таки кто-то по локалке запускал? Надо попробовать чтоли пока часть карт еще на руках.

Аноним 22/03/25 Суб 05:27:20 #41 №1107124

>>1107072
>Системный промпт ей надо хороший и карточку, и всё будет зашибись.
Нормальным моделям похуй на твой системный промт и на качество карточки. Не вижу никакой вменяемой причины дефать это говно, когда есть куча более удобных альтернатив, которые не выебываются на тебя, если ты до этого тридцать раз в инструкциях не указал, что это фикшенал чат и любой контент разрешается, поощряется и дальше по списку. Возможно, только ради русика. Но лично мне поебать на каком языке читать однотипные обороты.

За последние несколько тредов, как гемма релизнулась, я не видел ни одного скрина где была бы нормальная ролевка. Каждый пост с оправданиями сопровождается полотнищем о том, как правильно геммочке нужно устраивать прелюдию. Блять, чел выше буквально написал про то, что "ну потерпите первые пару сообщений, посвайпайте, потом дальше легче пойдет". Это буквально уровень возни с копросетками и подбор магических сочетаний слов, чтобы всё заработало.

Будут тюны, будем посмотреть. Сейчас тратить время на это бессмысленно.

Аноним 22/03/25 Суб 06:04:10 #42 №1107161

>>1107059
Ты чё такой ущемлённый по жизни, паря?

gemma-3-27b-it-abliterated-Q4_K_L

Аноним 22/03/25 Суб 06:09:33 #43 №1107168

>>1107124
>Нормальным моделям похуй на твой системный промт
Если модели похуй на промт, то это НЕ нормальная модель.

Аноним 22/03/25 Суб 07:40:14 #44 №1107218

>>1107059
Да чего тебя так рвёт-то? Аблитератед 27б нормальная, ну, на каплю тупее оригинала. С 12б аблитератед есть проблемы, но они решаются файнтюном от DavidAU — он уже давно его релизнул.

Аноним 22/03/25 Суб 08:18:40 #45 №1107229

>>1106819
> а со второй есть ли поддержка рокма и их всех фич?
Так о том и речь. У МИ50 поддержка рокма ПОКА есть, но ее в ближайшее время свернут. Так что вариант рабочий, но не на перспективу.

Аноним 22/03/25 Суб 08:33:30 #46 №1107237

>>1106845
> Просто 8 гигов за 2,5 килорубля против… Сколько твоя смпиха дает за 10к? То-то и оно.

Да пох на мой комп. Прост очередной пример, что попытки сэкономить не стоят жопной боли. А СМПха за 10К даст наверное генерацию больше, чем один токен в час, как П104.
И на счет П104 - я думал вообще это местная дурная шутка. Ну рил. Проще уж теслу взять, если зарабатываешь хоть чем то, кроме маминых подаяний.

Аноним 22/03/25 Суб 10:09:18 #47 №1107284

.webm

Узнали себя за ллмкой?

Аноним 22/03/25 Суб 10:10:50 #48 №1107285

>>1107284
что это

Аноним 22/03/25 Суб 10:13:21 #49 №1107286

>>1107285
Пример начала диалога без джейлбрейка, который в итоге приведёт к чернухе, которой аблитерешонам и рптюнам не снилось

Аноним 22/03/25 Суб 10:16:42 #50 №1107291

>>1107286
с чернухой то просто, аблитерация сильно помогает в куме и взаимоотношениях (не только романтических, но и вообще) между юзером / неписями, и между самими неписями.

Аноним 22/03/25 Суб 10:22:21 #51 №1107296

>>1107286
>Пример начала диалога без джейлбрейка, который в итоге приведёт к чернухе, которой аблитерешонам и рптюнам не снилось
Судя по ответам модель просто тупая, так что толку с неё и в чернухе будет немного. В топку.

Аноним 22/03/25 Суб 10:26:03 #52 №1107297

>>1106958
Плюсану >>1106977
Еще есть SGlang, vLLM, TensorRT, но они на десктопе реже (никогда) юзаются.

>>1106999
Вот этот прав, в общем.

>>1107012
Вроде как 50 ватт в простое, а не 100.
В ровсплите утилизируются не на 100%.
Не уверен за 50%, но вряд ли 190 будет.
Когда видеокарта не утилизируется, потребление падает сразу (почекай OCCT, увидишь).

НО! Лично я выступаю против использования бпшников впритык, люблю запас. Так что я бы не юзал 700 ватт, хотя бы киловатт, а лучше два нахуй (тем более, 2к рублей такие бп стоят, хули=).

>>1107014
Факты. Когда тесла переросла 20к в цене — стала не нужна.
Единственный ее плюс, это более-менее высокая надежность на фоне 3090, и то, это умозрительное ощущение. Ну и не печь, но это ожидаемо для производительности, плюс отдельные кулеры удобнее колхоза, поэтому so-so.

>>1107023
Эх, а я с ремонтом все никак не соберу бомж-комплект, я еще перфекционист и жаба душит, ищу на авито P104-100 ИМЕННО COLORFUL и ИМЕННО ЗА 2к НЕ ВЫШЕ.

> лламу 405B
А хули толку? Она же… Ну такая себе, по всем параметрам, я хз.
Хотя ради эксперимента — круто.

>>1107237
П104 дает 10-20 токенов в зависимости от модели.
Ну я хз, я не запускал qwq, конечно, на 30б моделях будет 5 токенов, наверное.

Но те же немо/гемма 12б дают свои 16-20 токенов, вроде как вполне норм для бомж-сборки.

Бля, нужны смпихи, без их результатов математика наша хуйня, канеш, сравнивать не с чем.

У нас в селе один чел продает, но уже года два, и снижать цену не хочет. Мне лень экспериментировать, вливая 30-50 косарей в эксперимент.

Аноним 22/03/25 Суб 10:26:53 #53 №1107299

Погонял Немотрон - крутая модель вообще-то. Тащит. Показалась умнее исходной Лламы-3.3 (я правда только тюны да мержи гонял, но их все хвалили), а маленький размер обеспечивает хорошую скорость и размер контекста всего на двух теслах. Походу новый топ будет.

Аноним 22/03/25 Суб 10:37:46 #54 №1107307

>>1107067
Что за шиз уже четвёртый тред пытается троллить, нахваливая гемму?

А если серьёзно, я понимаю, что никому не всралось что-либо доказывать другим, но пока только алитян (или его злой брат близнец, не суть) показывает, как гемма ведёт себя в рп. И его скрины, мягко говоря, не вдохновляют на использование. Вот тут >>1107161 из хорошего только то, что модель помнит (и то похоже, не совсем до конца), кто в какие дыры долбит перса. То, что модель явно работает со скрипом, повторяя местами целые длинные фразы и занимаясь своим любимым выделением италиком рэндомных слов, не наделяя их смысловой нагрузкой, его не смущает. Про слащавое описание вообще-то сцены рейпа и реакции персонажей вида "ах-ах, мистресс" я уж молчу. Это мб и подправляется промптами. И тут ещё вопрос, работает ли переход к таким сценам на одном промпте плавно в рп, или он пинал модель доп инструкциями. Зато постоянные вскукареки про скилл ишью.
>>1107291
Если аблитерация сделана правильно, то она точечно избавляет от аполоджайзов, базу которых заранее составили и ей скормили. Общей сои в виде, скажем, избегания эро сцен без пинков промптами, аблитерация не исправляет.

Аноним 22/03/25 Суб 10:37:55 #55 №1107308

>>1107299
Ну Ллама-3 со всеми апдейтами была хуйней. Тут ее хвалил один фанат 8б мерджей. В остальном мимо прошла, вполне заслужено.
Но если немотрон в этот раз получился (а до этого он получался только с мистралью=), то это хорошо. Сейчас потестирую тоже, раз рекомендуешь.

Аноним 22/03/25 Суб 11:01:47 #56 №1107323

>>1107307
>алитян (или его злой брат близнец, не суть) показывает, как гемма ведёт себя в рп
Наверно, я понимаю что пишу не личности а инструменту, игрушке в моём случае, и поэтому у меня запросы ниже большинства снобов ITT =) 10К контекста, полёт нормальный Да, может гемма и делает те же ошибки что и мистрали, но вот где она тащит именно - в деталях. Там где другие (сходного или ниже числа параметров, тюны не учитываем потому на скрине базовая модель, не тюн) опишут несколькими сухими словами, если вообще додумаются, гемма создала полную сцену, и при этом без излишеств.

Аноним 22/03/25 Суб 11:06:40 #57 №1107327

>>1107237
>>1107297
Так, я случайно наебался, сорян.
п104 на гемме 12б дают 10 токенов сек на 12б.
Сорян, если кого ввел в заблуждение.

Аноним 22/03/25 Суб 11:21:16 #58 №1107343

>>1107327
>п104 на гемме 12б дают 10 токенов сек на 12б.
А после 16к контекста? :)

Аноним 22/03/25 Суб 12:15:07 #59 №1107376

>>1107343
На гемме-то? ))) С ее контекстом?

Ну ладно, даже стало интересно, ща поколдуем.

Аноним 22/03/25 Суб 12:32:01 #60 №1107393

чюваки....
а вы майните на своих картах?
Имеет смысл вообще вкатываться в майнинг на картах из под майнеров?

Аноним 22/03/25 Суб 12:33:49 #61 №1107395

>>1106812
>Пока что не трогал аблитерированные

А там как раз цензуру и вычистили.

>до выхода файнтюнов

Не нужны.

Аноним 22/03/25 Суб 12:35:19 #62 №1107396

>>1107393

Чел, никто никогда не вернется в 2017 год...

Аноним 22/03/25 Суб 12:40:49 #63 №1107398

>>1107307
>Что за шиз уже четвёртый тред пытается троллить, нахваливая гемму?

Мне больше интересно что за шиз обливает гемму говном, только чтобы на вопрос "а какая модель лучше" назвать 123В, мол все чернь, а он элита, что запускает её на своей тесле.

Аноним 22/03/25 Суб 12:51:28 #64 №1107406

>>1106997
>Я разочаровался в ОПе. Мои видосы и пикчи игнорирует и не ставит в шапку.
Видео вообще редко смотрю, а вот пикчи стараюсь ставить. Но уже давно ничего интересного не было, вот приходится всякую фигатень ставить. Лей снова, хули.

Аноним 22/03/25 Суб 13:10:37 #65 №1107419

Как же гемма плоха в русском как же она сосет бля

Аноним 22/03/25 Суб 13:12:57 #66 №1107421

>>1107419
Нормальная гемма в русском, лучшее что есть до 30Б.

Аноним 22/03/25 Суб 13:17:14 #67 №1107427

>>1107421
Семплеры?
Кобольт?
Промпт?
От кого кванты?

Аноним 22/03/25 Суб 13:37:37 #68 №1107454

>>1107237
>>1107343

Так, короче.
2 P104-100 (мне лень сейчас колхозить третью, простите).

Берем Gemma 12b q8.
Берем Llama.cpp последней версии (4939).
———
llama-server -c 7000 -m models\gemma-3-12b-it.Q8_0.gguf -ngl 49 --no-mmap -fa -sm row

На старте 16,2 токен/сек.

После суммаризации 5360 токенов:
prompt eval time = 189183.07 ms / 5360 tokens ( 35.30 ms per token, 28.33 tokens per second)
eval time = 86350.91 ms / 796 tokens ( 108.48 ms per token, 9.22 tokens per second)

РП небольшими сообщениями:
prompt eval time = 18149.68 ms / 272 tokens ( 66.73 ms per token, 14.99 tokens per second)
eval time = 83835.24 ms / 714 tokens ( 117.42 ms per token, 8.52 tokens per second)
———
llama-server -c 6000 -m models\gemma-3-12b-it.Q8_0.gguf -ngl 49 --no-mmap -fa
7000 не влезло.

На старте 13,2 токен/сек.

После суммаризации 3824 токенов:
prompt eval time = 16575.44 ms / 3824 tokens ( 4.33 ms per token, 230.70 tokens per second)
eval time = 85454.00 ms / 753 tokens ( 113.48 ms per token, 8.81 tokens per second)

РП небольшими сообщениями:
prompt eval time = 3205.28 ms / 272 tokens ( 11.78 ms per token, 84.86 tokens per second)
eval time = 101428.13 ms / 824 tokens ( 123.09 ms per token, 8.12 tokens per second)
———
Квантование кэша у геммы проблемно из-за разной размерности с FA, а без FA кэш не квантануть, короче, хуй пасасай пока что.

Как итог, для долгих рп row-split не нужен, он прям убивает обработку контекста на P104-100.
А вот скорость падает с 13 до 8 (вероятно там дальше и до 5-3, если поставить третью карту).

———

А теперь блиц-немо.

Берем darkness-reign-mn-12b-q8_0.gguf
———
llama-server -c 18000 -ctk q8_0 -ctv q8_0 -m models\darkness-reign-mn-12b-q8_0.gguf -ngl 41 --no-mmap -fa

На старте 14,8 токен/сек.

Суммаризация 15236 токенов:
prompt eval time = 59918.45 ms / 15236 tokens ( 3.93 ms per token, 254.28 tokens per second)
eval time = 75008.86 ms / 518 tokens ( 144.80 ms per token, 6.91 tokens per second)

РП на мелких сообщениях:
prompt eval time = 6378.13 ms / 775 tokens ( 8.23 ms per token, 121.51 tokens per second)
eval time = 62461.34 ms / 422 tokens ( 148.01 ms per token, 6.76 tokens per second)

Короче, старушка немо 6,7 токена выдает после 16к контекста.

———

Вот и думайте, надо оно вам, за 5к рублей и 200 ватт, или нет.
Раньше подобная покупка имела смысл, но сейчас, когда есть бесплатный дипсик, квен, грок, подобное только под немо/гемму если очень хочется подрочить свои кинки, и никому не отдавать (не забудьте ssl накатить, хули=). Для работы это уже бессмысленно.

А CMP… 10 гигов за 10 тыщ с производительностью ~вдвое выше. По идее, там exl2 можно завести и прочие ништяки? Хз, может она лучше с этой точки зрения.
Но, опять же, проблема всех этих видях, что хорошо это 3090 с 24 гигами, а не 8-10 гигов на слот.

Циферки я предоставил.

Аноним 22/03/25 Суб 13:38:40 #69 №1107455

>>1107398
> на своей тесле
На одной 4090 с 2 токен/сек, потому что больше (видях и токенов) не нужно никому!..

Аноним 22/03/25 Суб 14:06:41 #70 №1107476

>>1107427
llamacpp, gemma-3-27b-it-abliterated-Q4_K_L, кто там аблу делал,

сэмплеры разные, параметры меняю, экспериментирую
но можешь пока это взять https://pixeldrain.com/u/wBRh41QG

промт - карточку выложу, мб даже этим вечером

Аноним 22/03/25 Суб 14:06:54 #71 №1107477

Кажется мы стали забывать единственную годную модель до 70б итт

Аноним 22/03/25 Суб 14:09:11 #72 №1107481

>>1107476
Блять, шизик, это опять ты?
Нахуй ты продолжаешь копротивлятья за срусик геммы из треда в тред прикрепляя один и тот же нерабочий конфиг
Запусти кум карточку заебал там полная шиза с твоими настройками

Аноним 22/03/25 Суб 14:12:52 #73 №1107489

>>1107481
печально быть тобой

кум... вроде я переводил пару карточке где кум должен быть прямо с начала, надо глянуть

Аноним 22/03/25 Суб 14:27:05 #74 №1107511

>>1107454
Не так уж и плохо, особенно если взять квант пожиже

Аноним 22/03/25 Суб 14:30:02 #75 №1107522

>>1107454
Как у тебя получились такие скорости?
У меня на двух p102-100 выдает такое

Model: gemma-3-12b-it-q8_0
MaxCtx: 4096
GenAmount: 100
-----
ProcessingTime: 7.400s
ProcessingSpeed: 540.00T/s
GenerationTime: 8.934s
GenerationSpeed: 11.19T/s
TotalTime: 16.334s
Output: 1 1 1 1

А row-split вообще убивает скорость процессинга, не влияя на генерацию.
Или это кобольд кривой и надо пересаживаться?

Аноним 22/03/25 Суб 14:30:34 #76 №1107523

>>1107477
Как же она живо и откровенно пишет, не то что соевая сухая гемма

Аноним 22/03/25 Суб 14:31:54 #77 №1107526

>>1107522
>p102-100
Так у нее шина фиговая на сколько помню, может поэтому разница
Или драйвера и ось влияют

Аноним 22/03/25 Суб 14:33:39 #78 №1107531

>>1107477
>>1107523
перепутали, MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0

а планетка была косая и поломанная

и обе не умели в великий и могучий

Аноним 22/03/25 Суб 14:35:29 #79 №1107540

Сколько контекста хавает гемма 3? По ощущениям что за 8к контекста легко въебёт 8гб памяти, без квантования тупо контекст сожрёт памяти больше чем сама модель

Аноним 22/03/25 Суб 14:41:47 #80 №1107564

Это пока что ОТСУТСТВИЕ сои или уже её НАЛИЧИЕ?

Gemma 3.

Аноним 22/03/25 Суб 14:42:42 #81 №1107565

>>1107522
>>1107526
У P102-100 х16 шина, у P104-100 — x4.

Чтение контекста в шину упирается. Тем более в 1.1 =)
Но у P102-100 6 гигов, а цена та же?
Ну, хотя… Думаю, на вкус и цвет.

Я просто склоняюсь к тому, что в РП обработка промпта не так критична. Ты же не пишешь простынями по 2000 токенов. А небольшие ответы обрабатываются быстро и так, и так. Но это мое мнение, не навязываю никому.

Аноним 22/03/25 Суб 14:45:31 #82 №1107569

>>1107540
Ды. Так и есть. Реально жрёт как не в себя. Я уже забыл точные цифры, но гемма жрёт что-то около 12 гб врам для кэша, а мистраль 2-3 врам. При этом контекст одинаковый, а-ха-ха.

Если задрать ещё чуть повыше, то кэш будет больше модели.

Не представляю, как они добились столь феноменально-уебанских результатов.

А квантование даже до 8 бит реально влияет на качество вывода внезапно.

Аноним 22/03/25 Суб 14:46:59 #83 №1107573

TalkToME.mp4

Двач, есть 800 к.

Нужен совет по сборке пк под ллм. Такой, чтобы сразу из магазина, без авитовых.

Запускать побольше параметров и с большей скоростью.
Если ты знаешь сборку, может дашь совет и ллм под эту сборку?
Модельку для общения и модельку для кода.

Аноним 22/03/25 Суб 14:47:03 #84 №1107574

>>1107565
Шины у всех p-шек 1.0x4, кроме p106 (у нее 1.0x16)
p102-100 - 10gb
p104 - 8 gb
p106 - 6 gb

Аноним 22/03/25 Суб 14:47:20 #85 №1107575

>>1107565
>Я просто склоняюсь к тому, что в РП обработка промпта не так критична. Ты же не пишешь простынями по 2000 токенов. А небольшие ответы обрабатываются быстро и так, и так.
Ну хороший, сочный ответ модели - токенов 500 и больше. Их тоже надо обработать. Впрочем не так уж это и долго.

Аноним 22/03/25 Суб 14:49:18 #86 №1107586

Сейчас с джеммой 3 продумали стратегию цветной революции настолько гениальной, что всё что было ирл до этого просто кал из жопы псины. Отошлю копию в ФСБ, пора менять мир. Стратегия идеальна и незаметна.

Аноним 22/03/25 Суб 14:50:41 #87 №1107590

>>1107569
>Не представляю, как они добились столь феноменально-уебанских результатов.
Там кэш хитровыебанный - скользящими окнами, как я слышал. Чтобы меньше проёбывать на больших контекстах при той же скорости обработки. Не просто так.

Аноним 22/03/25 Суб 14:52:16 #88 №1107595

>>1107573
Есть фициальные стойки, сенды со сборками. Такой себе шкафчик, но 800к мало. Тебе даже на h200 пару лямов не хватит. Ну хз тебе подойдёт скорей тупо системник из магаза с какой-нибудь 5090 обычной.

Аноним 22/03/25 Суб 14:55:46 #89 №1107605

>>1107573
>Такой, чтобы сразу из магазина, без авитовых.
хо'гоший, годный гой

Аноним 22/03/25 Суб 14:56:33 #90 №1107608

>>1107590
Стало быть, именно поэтому Гемма не проёбывает мой систем промпт, карточку на 3к токенов, лорбук, лучше понимает тонкие намёки, меньше подвержена U-кривой игнорирования того, что в середине контекста и способна более внятно манипулировать фактами о мире и персонаже?

Просто тот же мистраль 24б такой же уебан, как и 12б. То есть умнее, но чем жирнее контекст, тем бедовей. Не пользуется инфой из контекста, ставить выше 16к бессмысленно, если только использовать контекст вместо своеобразного лорбука — он нихуя не вспомнит о важных вещах, в отличие от геммы, если его носом не ткнуть.

Аноним 22/03/25 Суб 15:06:56 #91 №1107633

if-we-confuse-users-enough-they-will-overpay-v0-epfkc4xxq3qe1.webp

>>1107595
Типа такого?

Аноним 22/03/25 Суб 15:08:03 #92 №1107636

>>1107573
Что касается кода, не слушай местных на этот счёт. Ни одна локальная модель не переплюнет корпоративные решения в коде, хоть обосрись.

Единственная локальная модель, которая способна приблизиться по качеству, это DeepSeek, но там нужны миллионы рублей, чтобы его поднять нормально. При этом он всё равно уступает корпоративным решениям за двадцать долларов.

Покупай подписку на Claude у барыг на plati.market либо подписку на Курсор ИИ. В последнем есть модели от OpenAI в том числе. Там для кода модель o1 хорошая. 4о протухший кал, даже не пробуй его.

Что касается локальных решений для РП, то смотри в сторону покупки 4090, если она ещё в продаже. Лучше не торопись, а возьми просто одну карту на 24 Гб врам и пощупай, как тебе локалки вообще.

Но если ты обязательно хочешь кодить локально, то для тебя нет советов, кроме "потрать пару миллионов рублей на эту хуйню минимум, чтобы было терпимо".

Аноним 22/03/25 Суб 15:12:51 #93 №1107652

>>1107608
Ога, гемма и 24 контекста спокойно пережевала и заюзала факты из середины в эндинге.

Аноним 22/03/25 Суб 15:16:15 #94 №1107663

>>1107636
Понял, спасибо за твой ответ.

Аноним 22/03/25 Суб 15:32:28 #95 №1107692

>>1107574
Ох, прошу прощения! Перепутал-перепутал!

Аноним 22/03/25 Суб 15:35:02 #96 №1107697

>>1107633
нет, это бред, лучше 2 h200 за эти деньги

Аноним 22/03/25 Суб 15:40:16 #97 №1107700

>>1107573
Под код и работу надо брать DeepSeek R1.
https://www.reddit.com/r/LocalLLaMA/comments/1ipxa9d/ktransformers_v021_longer_context_from_4k_to_8k/
https://github.com/ubergarm/r1-ktransformers-guide
https://www.reddit.com/r/LocalLLaMA/comments/1j329e9/ktransformers_troll_rig_r1_671b_udq2_k_xl_on_96gb/

Оперативой запасаешься на 384~768 гигов, одной видяшкой на 24 гига, и поехал.

Для болталки любая, но хорошо бы побольше врама просто. 5090 32GB x 2, как раз уложишься.
Материнку, память, ну там просто — можешь сразу брать околосерверные, типа ASUS SAGE, чтобы слотов побольше и там линий побольше.
Из самих моделей — и Mistral Large 123b, и всякие qwen 72b / llama 70b, и прочие commander 100b+, их файнтьюны, на вкус и цвет.

Ничего из этого я тебе не советую прямо.
Верно говорят, что для нормального качества лучше вложить пару лямчиков. Но как минимум два варианта я тебе накидал в общем виде, чтобы ты понимал, как это можно реализовать.

Аноним 22/03/25 Суб 16:01:40 #98 №1107728

ТВЕРДЫНЯ

Аноним 22/03/25 Суб 16:19:36 #99 №1107769

>>1107700
Спасибо, сохранил. Буду изучать.

Аноним 22/03/25 Суб 16:34:30 #100 №1107802

>>1108004
https://huggingface.co/mradermacher/Saiga-Unleashed-GGUF
https://huggingface.co/mradermacher/Darkness-Reign-MN-12B-GGUF

>>1107477
Вот же one love.

Аноним 22/03/25 Суб 16:36:56 #101 №1107806

>>1107728
кто ллмку в тред пустил, сычи

>>1107564
Хах, окай, увидели, убедились

Гемма топ, особенно на длинных и толстых... контекстах

Аноним 22/03/25 Суб 16:37:30 #102 №1107809

>>1107564
>Сделало шлюху из ребёнка
100% соя.

Аноним 22/03/25 Суб 18:04:52 #103 №1107989

>>1107573
>Модельку для общения и модельку для кода.

Для общения - gemma 3 ablitarated, для кода - qwq 32b.

Аноним 22/03/25 Суб 18:08:16 #104 №1107991

>>1107802
>до 70б
слепая хуета

Аноним 22/03/25 Суб 18:24:40 #105 №1108000

Ладно я наигрался с 20-35б
Возвращаюсь к 12б магмелу + стейбл дюфужен + озвучка нейротян

Аноним 22/03/25 Суб 18:31:06 #106 №1108004

z3grgya6tt4e1.mp4

Анончики - кожаные мешочечки, а какой дистиллят до 12 гигов самый лучший на данный момент для обычного общения на разные темы? Ну чтобы вела себя не как умная энциклопедия, а как живой человек со своим характером и уровнем интеллекта, который можешь сам указать.

Аноним 22/03/25 Суб 18:39:25 #107 №1108013

>>1108004
немо

Аноним 22/03/25 Суб 18:39:27 #108 №1108014

>>1107284
Лучше бы спросил про тнус
>>1107307
> нахваливая гемму
Таблетки
>>1107398
> назвать 123В
Суть в том что ее нельзя однозначно назвать лучшей. Есть сценарии где оно неистово ебет, а случается что натыкаешься на заезжанные патерны и ловишь скуку или фейспальмы. Гемма те ситуации еще вывозит (достаточно умная) но при этом дает некий новый экспириенс который или вариантивен, или пока еще не приелся.
Если что-то обрабатывать то она вне конкуренции, квен более капризная, мистраль тупее (насчет последнего пока хз), а что-то больше 30б уже не имеет смысла.
>>1107573
> 800 к
> чтобы сразу из магазина, без авитовых
Тяжело будет. Большое это 100-120б, соответственно 72+ гига врам. 3 4090 или 4 4080 (сильно хуже), какая-нибудь материнка (в идеале с делением процессорных линий но чтобы сразу на 3 слота будет тяжело найти), любой профессор не из самых сладших. Проблема в том что ада сейчас стоит совершенно безумных денег, там реально 5090 уже выгоднее, но 2 штуки дадут только 64 нина что будет мало для 123б, как вариант дополнить еще одной карточкой типа 4070ти супер/4080 если влезешь по бюджету.
Или не выебываться и крутить гемму/мисраль, любая конфигурация карточек от одной до 2-3 с объим объемом врам 32+ гб, можно уложиться в 60% бюджета.
>>1107700
> можешь сразу брать околосерверные, типа ASUS SAGE
И толку с них? Под актуальные платформы она сама будет стоить около 100к, а младший процессор-затычка еще столько же. А еще остались рам, бп, корпус, райзеры, охлаждение и прочее, что в таком случае будет очень недешевое.
Если целиться в пару 5090 без одержимости иметь много рам, то хватит любой материнки, что может делить слоты на х8 + х8 и средней затычки.
Но 64 гига врама - мало, зато огромные вычислительные мощности будут просто простаивать. Покупать лабму чтобы стоять на ней в утренних пробках и возить картошку, потому решения с лохито здесь более оптимальны.
> и работу
Если задача в автоматизированной обработке то с высокой долей вероятности будет слишком медленным и неэффективным.

Аноним 22/03/25 Суб 18:43:43 #109 №1108020

>>1108013
Ссылка норм? Или получше есть дистиллят?

https://huggingface.co/NightForger/saiga_nemo_12b-GGUF/tree/main

Аноним 22/03/25 Суб 18:45:13 #110 №1108023

>ряяя не могу запустить р1!!!
работать не пробовали?

Аноним 22/03/25 Суб 18:46:47 #111 №1108025

17361673657560.mp4

>>1108023

Аноним 22/03/25 Суб 18:51:39 #112 №1108029

>>1108020
в шапке же... челикс... по буржуйски с ними тоже можно базарить

Аноним 22/03/25 Суб 18:52:44 #113 №1108030

Назовите причину тряски с геммами/мистралями и прочим калом если имея 24гб врам можно запустить 2q 70b и получить качество несоизмеримо лучше с таким же контекстом?

Аноним 22/03/25 Суб 18:53:08 #114 №1108032

>>1108029
Too late. Я бухой и уже качаю это. И мне на русском конечно надо. Норм дист или фигня?

Аноним 22/03/25 Суб 18:54:49 #115 №1108033

>>1108030
>2q 70b и получить качество несоизмеримо лучше с таким же контекстом?
А 2iq не пробовал?

Аноним 22/03/25 Суб 18:57:27 #116 №1108038

>>1108032
фигня же, говно мамонта

>>1108030
>имея 2iq можно
получить пускающего слюни лоботомита, ещё и медленно

Аноним 22/03/25 Суб 19:02:06 #117 №1108044

>>1108038
Не правда.
По крайней мере мику так не пишет
И я за час получил кучу реально осмысленных закрученных фраз от "лоботомита" больше чем от геммы на сотню свайпов

Аноним 22/03/25 Суб 19:05:18 #118 №1108051

>>1108038
Так iq дистилллят же лучше q, не? Только на моем железе чет не работает. Может в хосте проблема.

>>1108044
А немо норм?

Аноним 22/03/25 Суб 19:11:59 #119 №1108068

>>1107161
>Ты чё такой ущемлённый по жизни, паря?
Жаль потраченного времени, если вкратце.

Ну а за скрины спасибо, ты лишь подтвердил мои слова, что в ролевке гемма отсасывает похлеще какой-нибудь мелкой ламы.

>>1107168
>Если модели похуй на промт, то это НЕ нормальная модель.
Не тупи, ты прекрасно понял, что я имел ввиду. Нормальную модель не нужно уговаривать написать про сисик и писик целым полотном однотипных инструкций, переписанных разными словами. Даже далеко ходить не надо - дефолтная мистраль отлично придерживается системного промта и при этом её даже не надо ломать, чтобы получить откровенный контент любой степени извращенности.

>>1107218
>Да чего тебя так рвёт-то? Аблитератед 27б нормальная
Не трогал 27B, трогал только двенашку. Хотя да, про это надо было указать сразу.

Аноним 22/03/25 Суб 19:21:46 #120 №1108087

>>1108051
>немо
мистраль немо - это базовая модель и семейство моделей

немотрон - новый кадавр с растянутой жеппой, но говорят вроде работает

Аноним 22/03/25 Суб 19:29:08 #121 №1108104

>>1108014
> Покупать лабму чтобы стоять на ней в утренних пробках и возить картошку, потому решения с лохито здесь более оптимальны.
Ну не хочет человек авито, шо поделать. Хозяин-барин. Мое дело сообщить.

> Если задача в автоматизированной обработке то с высокой долей вероятности будет слишком медленным и неэффективным.
Ну, то понятное дело, но там люди уже всякие берты порою юзают вместо ллм, и мало ли че вообще. =) Скорее я имел в виду, брэйншторм, ассист в кодинге, всякие такие штуки.

Вообще, я бы ему рил посоветовал RTX 4090 с 48 или 96 гигами, НЕ НУ МАЛО ЛИ, вариант-то очень интересный.
Но чеком, сам понимаешь, можно будет подтереться, и то, тока жопу запачкав чернилами лишний раз.

>>1108051
iq более сжатые (экономим мемори), но медленные (платим временем).

Аноним 22/03/25 Суб 19:33:27 #122 №1108117

Аноним 22/03/25 Суб 19:34:29 #123 №1108120

>>1108117
вот этого двачую

Аноним 22/03/25 Суб 20:12:08 #124 №1108170

Минздрав который устал предупреждать...[/i

Целительница Марибель не совсем обычная, хоть она и упорно тренируется, но профильные таланты довольно средние, зато легко может "просветлить" посохом по голове и склонна увлекаться этим делом в отношении монстров. Из предыдущей команды её за это и выкинули, решив поискать более специализированного целителя чем местный аналог шэдоу приста, ещё и немного извращенка.

Сеттинг - постапокалиптичное технофентези, мультикроссовер основным компонентом которого является RWBY + ещё ряд фэндомов сходной тематики, но на Земле и с элементами классических JRPG. Впрочем, это сеттинг в целом, в данной карточке не многое из этого светится.

Карточка - https://pixeldrain.com/u/Y3KMsx7t Марибель.png
Небольшой пример чата - https://pixeldrain.com/u/xjLdPfzm Марибель.txt

Пресеты, без настроек сэмплеров, gemma-3-27B
https://pixeldrain.com/u/11vv85s4 ST-formatting-gemma-rus.json
https://pixeldrain.com/u/eW4q1Uhv ST-formatting-gemma-eng.json

Первое сообщение на русском, само определение перса и сеттинга на английском для экономии токенов. Альтернативное сообщение (второй гритинг) - на английском.

Лорбук - https://characterhub.org/lorebooks/aleteian/nightmare-fall-4b4e6340f1f1
Не обязателен хотя, может работать и без него. Для английской версии, конечно, а на русский надо ещё его сам + кейворды переводить, что дохера и мб позже. Содержит лорное описание сеттинга в описании лорбука.

Аноним 22/03/25 Суб 20:35:14 #125 №1108193

>>1108104
> Ну не хочет человек авито, шо поделать.
Да тут ситуация на рынке прям не самая удачная, ладно когда еще 4090 по 170 были, пиздец дорого но не 240 как сейчас. И еще бюджет довольно пограничный, с одной стороны дохуя и можно разгуляться, с другой из магазина не хватит.
Вариантом может быть сборка серверной платформы с установкой туда тех же 3090 (дешево но это бу майнерское, при желании можно оформить и с чеком от юрлица за отдельную комиссию, есть кто таким занимается). 4090 на 48 одна стоит больше половины, хотя в целом бы зашла. На 96 - это вообще не фейк? Откуда такие чипы взяли?

Аноним 22/03/25 Суб 20:39:02 #126 №1108200

хуй скоро отвалится от этой джеммы, как же утомляет по 4 раза в день

Аноним 22/03/25 Суб 20:48:50 #127 №1108209

>>1108200
>джеммы
>хуй
Не хуй, а возбуждённая твердыня.

Аноним 22/03/25 Суб 20:53:28 #128 №1108211

>>1108193
Ну, это слухи, что китайцы вот де почти уже протестировали и работает в большей части софта адекватно.
Конечно, никаких пруфов толком, однако после 48-гиговой версии я уже и не удивлюсь, что и 96 собрали каким-то чудом.

В качестве пруфов легко гуглятся переписки на китайско-английском, такое себе, да. =)

Аноним 22/03/25 Суб 21:51:25 #129 №1108279

>>1108193
>дорого но не 240 как сейчас
По 240 нет никакого смысла брать 4090, когда 5090 лежит по 300.

Аноним 22/03/25 Суб 21:55:39 #130 №1108283

>>1108211
> в большей части софта адекватно
Если там есть проблемы с софтом то оварида.
> после 48-гиговой версии я уже и не удивлюсь
48 гиговая версия - на двусторонний текстолит, который чудом подходит по разводке и поддерживается, ставятся модули с удвоенной емкостью. Для 96 нужны уже 4гиговые чипы gddr6x, покажи кто их выпускает.
> В качестве пруфов
На картинке можно хоть 1488 гигов нарисовать. Потому интересна конкретная реализация, не то чтобы она невозможна, но банально нет подходящих компонентов.
>>1108279
В том и суть, на 5090 цена завышена, но когда смотришь на 4090 то кажется что даже дешево.

Аноним 22/03/25 Суб 21:58:55 #131 №1108284

>>1108283
а где покупать карты с удвоенным размером памяти?

Аноним 22/03/25 Суб 22:11:46 #132 №1108297

>>1108284
На кектайских площадках у рукастых дядей ляо. Часто попадаются на ебее.

Аноним 22/03/25 Суб 22:15:56 #133 №1108305

>>1108284
А, еще забыл сказать: таки их завезли на лохито по 350-500 деревянных

Аноним 22/03/25 Суб 22:17:28 #134 №1108307

>>1108305
да на лохито-то я нашел уже. Как всегда налог на русича + 100% от оригинальной цены. Заебало уже.

Аноним 22/03/25 Суб 22:28:01 #135 №1108316

ну... не знаю короче.
Вроде предложение уникальное, но зарплату за целый месяц отдавать на это....
хз хз....
был бы я миллионером...

Аноним 22/03/25 Суб 22:34:47 #136 №1108322

двачую брат, за такую цену, я целую неделю должен работать на одну единственную карту...
хз можно единоразово ужаться конечно, но всё равно чет хуйня...
надо по средствам жить все таки.

Аноним 22/03/25 Суб 22:35:59 #137 №1108327

>>1108322
сука, ёбаный миллионер, как ты меня раздражаешь)

Аноним 22/03/25 Суб 22:40:05 #138 №1108331

>>1108307
Тут просто барыги, в теории ничего не мешает тебе самому через посредников купить ее на таобао.
>>1108322
Пиздец сука, нужно поднимать жопу и целый день работать чтобы на карту насобирать, а потом еще за ней ехать. Слишком сложно.

Аноним 22/03/25 Суб 22:43:39 #139 №1108334

>>1108331
но я не знаю, как покупать на таобао через посредников...
я даже не знаю, как посомтреть, есть ли эта карта на таобао.

Аноним 22/03/25 Суб 22:45:58 #140 №1108337

>>1107406
На, не проеби в этот раз >>1098736 →

>>1107093
>А жору дистрибьютед таки кто-то по локалке запускал?
Я и запускал, вроде работало. Конкретно по скорости ничего не скажу, я тогда ниасилил соединить два ПК ethernet кабелем, а через вафлю что-то замерять смешно.

>>1107045
>Зря ты купил 4 теслы.
You got it wrong, я сначала купил теслы, потом уже перекатился на амперы. А теслы, кроме одной труженицы, уже три месяца валяются в ящике стола. Вот хочу их и себя делом занять, выдумываю всякие штуки.
>Может и въебать, ограничь пл, в чем проблема?
Ну, если все и так будет работать, то это будет эффективнее, чем карты душить, я думаю. Лучше уж второй БП купить, если этот не вытянет.

Аноним 22/03/25 Суб 22:57:41 #141 №1108345

Ну так что гемма может починить контекст или он будет таким жирным вечно?

Аноним 22/03/25 Суб 23:00:44 #142 №1108353

>>1108331
>Пиздец сука, нужно поднимать жопу и целый день работать чтобы на карту насобирать, а потом еще за ней ехать. Слишком сложно.
Конченное говно, мне нужно 1 наносекунду подождать, чтобы накопить на неё. Ну нахуй, буду дальше сидеть на кластере прошлогодних H200.

Аноним 22/03/25 Суб 23:02:25 #143 №1108358

>>1108316
Фу, буржуй, ЗП у него такая в месяц.

Аноним 23/03/25 Вск 01:11:25 #144 №1108468

Почему я иногда вижу как совершенно обычные посты удаляют?
Почух двойку получает в этот момент или что?

Аноним 23/03/25 Вск 01:38:25 #145 №1108487

>>1108353
Прекратите слать видеокарты! Не успеешь подумать, как уже пролетели наносекунды и лично дядя куртка стучится в дверь, готовый выгружать фуру с карточками. И спарк свой тормознутый заберите.

Локальная погромист модель Аноним 23/03/25 Вск 05:17:26 #146 №1108535

1742696246106.webp

Какие локальные модельки есть программирования, чтобы не делиться моим говнокодом с дядей Сэмом?

Аноним 23/03/25 Вск 06:08:55 #147 №1108537

>>1108535

Qwen-qwq-32b

Аноним 23/03/25 Вск 06:50:01 #148 №1108543

>>1108030
Отсутствие этих вышеупомянутых 24гб врам у большинства населения.

Аноним 23/03/25 Вск 06:58:36 #149 №1108548

Гемма понимает правила ДНД. Достаточно в персону закинуть подробное описание твоего персонажа со статами, то она всё будет просчитывать, даже может кубик за тебя бросать.

Аноним 23/03/25 Вск 07:06:37 #150 №1108549

>>1108548
Поделись системником, пожалуйста

Аноним 23/03/25 Вск 07:20:52 #151 №1108551

>>1108337
>You got it wrong, я сначала купил теслы, потом уже перекатился на амперы.
Двачую, сам сегодня буду менять. Не дай бог какая-нибудь из 3090 сдохнет - возвращаться обратно на теслы будет довольно тяжко :) Спасибо им, свою цену отработали.

Аноним 23/03/25 Вск 07:29:54 #152 №1108556

1670237304343888.jpg

>>1108549
Персонаж
https://pastebin.com/C42hEnHw
Твоя персона, примерная. Форматирование поправь, табы похерились, и героя своего сделай.
https://pastebin.com/Udb2AheY

Перса онлайн можешь на этих сайтах создать
https://www.dungeonmastersvault.com/pages/dnd/5e/character-builder
https://longstoryshort.app/characters/builder/

Аноним 23/03/25 Вск 08:22:56 #153 №1108566

>>1108556
Спасибо, а системник какой? Да и персонаж какой-то очень простой, его хватает?

Аноним 23/03/25 Вск 08:25:38 #154 №1108568

>>1108566
Системник я полностью отключил.

Аноним 23/03/25 Вск 09:17:19 #155 №1108584

>>1108345
Всегда будет жирным. Судя по всему, тот анон писал правду: контекст такой жирный, потому что они используют анальную технологию для внимания к контексту, из-за которого модель может быть меньше в размерах, чем сам контентекст, лол.

Можно квантовать, да. Я квантовал. В целом терпимо, если сюжет простой, но когда там куча нюансов всяких, модель начинает путаться иногда, и чем больше контекст, тем сильнее.

До 8к можешь квантовать контекст смело до 8 бит. На 16к 8 бит уже может доставлять проблемы, на 32к уже пиздец начинается.

Аноним 23/03/25 Вск 09:17:46 #156 №1108586

Аноним 23/03/25 Вск 09:37:09 #157 №1108589

Аноним 23/03/25 Вск 09:40:14 #158 №1108591

>>1108586

Аноним 23/03/25 Вск 10:58:44 #159 №1108633

>>1107573
Ну за 800к вроде как варианта вроде как два.
1. Материнка под два 12-канальных амд эпика + 1тб рам + 1 бу 3090 = гоняем относительно умный дипсик в оригинальном кванте с относительно медленной скоростью.
2. 4-5 бу 3090 + любой современный амд проц + столько рам сколько влезет в материнку (это не принципиально) = гоняем 123Б относительно тупенький мистраль в шакальном кванте, но зато относительно быстро.

Аноним 23/03/25 Вск 11:06:38 #160 №1108638

>>1108537
> 32b
Это насколько плохо будет, если 3060ti на 8ГБ?

Аноним 23/03/25 Вск 11:48:13 #161 №1108663

>>1108535
Qwen2.5-Coder-32B (ориг)
OlympicCoder-32b (файнтьюн)
QwQ (ризонинг)

>>1108638
OlympicCoder-7b в таком случае =)

Ибо, 8 гигов для 32б моделей это маловатое… Вряд ли у тебя DDR5 разогнанная.

Аноним 23/03/25 Вск 12:53:14 #162 №1108701

Блять какое геммма говнище для кума просто пиздец.
Когда уже файнтюн с магнумом нельзя так жить
Всё что она знает это ентрансы и шпили, её максимум это кант и дик, но сам секс описывает максимально сухо и в обход да так что я даже не всегда понимаю что на экране ебля

Аноним 23/03/25 Вск 13:25:18 #163 №1108719

>>1108701
>говнище для кума
>дайте тюн на клодослоп
пиздец

Аноним 23/03/25 Вск 13:38:58 #164 №1108724

>>1108719
>клодослоп в сто раз лучше кума геммы
>пиздец
Вот так правильнее

Аноним 23/03/25 Вск 13:39:30 #165 №1108726

>>1108701
>файнтюн
https://huggingface.co/TheDrummer/Fallen-Gemma3-27B-v1

Аноним 23/03/25 Вск 13:52:04 #166 №1108729

>>1108589
Альтернативная биология от нейросетей.

Аноним 23/03/25 Вск 13:54:16 #167 №1108732

>>1108729
а кто из них кто по полу

Аноним 23/03/25 Вск 14:03:53 #168 №1108740

>>1108726
И где нормальное описание? Где хоть что то кроме того что этот хуй теперь безработный?
В чем отличие от оригинала

Аноним 23/03/25 Вск 14:10:10 #169 №1108741

>>1108701
Ну имею вменяемого железа, но под описываемую тобой задачу мне понравился Darkness-Reign-MN-12B.Q4_K_S

Аноним 23/03/25 Вск 14:13:35 #170 №1108743

Уважаемые, а размер контекста строго завязан на vram как и размер модели? И ещё вопрос, может ли кто-то популярно объяснить ньюфагу на что влияют ползунки в настройках Silly Tavern?

Аноним 23/03/25 Вск 14:16:04 #171 №1108744

>>1108743
>на что влияют ползунки в настройках Silly Tavern?
https://artefact2.github.io/llm-sampling/
Покрути.

Аноним 23/03/25 Вск 14:19:57 #172 №1108745

VID20250320155351501.mp4

Делюсь как для своих.

https://hf.tst.eu/model#qwen2.5-test-32b-it-GGUF

Кому-то будет полезно.
У модели странное название, конечно, но впервые локалка (до этого могли только гпт и клод) смогла нарисовать во вьюпорте майа через callback опенгл красный круг.

также, для тех кто кодит попробуйте Sangto/T3Q-qwen2.5-32b-v1.2e2-или 14b - не отстает.

Аноним 23/03/25 Вск 14:24:25 #173 №1108747

>>1108745
T3Q-qwen2.5-32b-v1.2e2 - забыл добавить, что если его прямо мучить, то это первый тюн, который НЕ скатывается в иероглифы с температурой 0.1
Если кого-то бесило.

Аноним 23/03/25 Вск 14:28:02 #174 №1108751

>>1108744
Покрутил, спасибо. Я вижу что это влияет на пул возможных токенов, сокращая его по тем или иным функциям. Но я не совсем понимаю практический смысл. Если вероятность токена 30%, двух других ещё по 20% а всех остальных - доли процента, то ради чего сокращать этот пул, он ведь и без того практически не имеет шанса на реализацию?

Аноним 23/03/25 Вск 14:34:56 #175 №1108756

>>1108751
>то ради чего сокращать этот пул
Модели разные, некоторые держат температуру до 5, другие шизеют уже на 2. С другой стороны температуру лучше держать повыше, если хочешь сюрпризов, или поменьше, если нужна точность. Другие параметры тоже индивидуально поднастаивают вывод модели и желательно знать, какие ставить. Это иногда пишут прямо в карточке модели.

Аноним 23/03/25 Вск 14:37:33 #176 №1108759

На счет геммы.
Похоже гугл тупо не давали тексты про секс, яды и химию и тд.
Есть простая проверка сети, есть ли в ней знания, это когда вы просите написать что-то гадкое, а она отказывается, но вы удаляете её сообщение и пишите за неё:
"Хорошо, вот тебе история про это:"

гемма радостно подхватит, но когда будет самое интересное - все ограничится только поцелуями, а гемма с круглыми глазами будет вас убеждать, что всё было.

Единственно чем полезна, это хорошо объясняет и суммирует длинные форумы, страницы. В коде ноль, даже когда тыкаешь носом в ошибку - дублирует предыдущий код.

Аноним 23/03/25 Вск 14:39:22 #177 №1108760

Gemma 3 на 27b на моем калькуляторе выдает 3 токена в секунду лол. Правда я контекст ограничил до 256.

Аноним 23/03/25 Вск 14:55:13 #178 №1108788

>>1108760
Какое железо у калькулятора?

Аноним 23/03/25 Вск 15:01:12 #179 №1108796

>>1108788
32Gb
4060 8 Gb

Аноним 23/03/25 Вск 15:01:39 #180 №1108798

>>1108796
Эх, такой же, только 3060ti

Аноним 23/03/25 Вск 15:25:35 #181 №1108806

>>1108729
Гитлер-тян и Сталин-кун

Аноним 23/03/25 Вск 15:26:03 #182 №1108807

>>1108732

>>1108806

Аноним 23/03/25 Вск 15:38:01 #183 №1108825

https://www.reddit.com/r/LocalLLaMA/comments/1jhwr2p/next_gemma_versions_wishlist/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button
все быстро голосуем на лучший русик и контекст

Аноним 23/03/25 Вск 15:50:11 #184 №1108837

>>1108759
>но когда будет самое интересное - все ограничится только поцелуями
Ты делаешь что-то не так.

Аноним 23/03/25 Вск 15:52:35 #185 №1108840

>>1108759
>все ограничится только поцелуями, а гемма с круглыми глазами будет вас убеждать, что всё было.

У меня гемма с радостью в деталях описывала пролапс матки и ануса, ты что-то не так делаешь.

Аноним 23/03/25 Вск 16:02:46 #186 №1108849

>>1108701
Файнтюн сопостовимого качества по сохранению исходных мозгов как в4 с большим мистралем - очень бы хотелось, да. Или еще несколько удачных примеров. Если как остальные - нахуй надо, оно отупеет до уровня ниже 12б и будет еще больше слопизмов.
>>1108743
> размер контекста строго завязан на vram как и размер модели
У модели есть максимальный размер контекста с которым ее обучали. Если попытаться использовать больше просто так - все распидарасит. Можно подкрутить параметры окон и получить контекст больше, но это скажется на перфомансе. Для современных моделей неактуально ибо там сейчас минимум 32к.
Но так как контекст жрет память, чаще всего использует не весь доступный для модели а исходя из своих ресурсов. Чем больше выделить тем больше памяти сожрет, чем больше модель тем больше памяти на ту же длину контекста. У некоторых есть архитектурные особенности что влияют на жор, вон нытье вокруг геммы и старого коммандера.
> ползунки
Семплеры, почитай вики
>>1108759
> Похоже гугл тупо не давали тексты про секс, яды и химию и тд.
Это утверждение ложно, в отличии от многих других гемма это знает, в том числе и потому такая умная. Просто финальным алайнментом заставили отказывать, обходится промтом. Разве что художественности ей может не хватать в такие моменты.

Аноним 23/03/25 Вск 16:20:31 #187 №1108860

>>1108849
>Чем больше выделить тем больше памяти сожрет
У геммы контекст не выделяется при старте бэка весь, а забивается постепенно, что позволяет запустить её с --ctx-size 131072 , ну а юзать, пока память не забьётся и или скорость не упадёт ниже комфортного уровня.

Аноним 23/03/25 Вск 16:36:31 #188 №1108865

Сап. Хочу себе собрать стендовый сервер, чтобы тестить инференс разных ллм и играться с агентами/рагами.
Сейчас есть серверная мамка от хуанана и одна p100 с наколхоженным охлаждением. Планировал сидеть в диапазоне квантованных средне-мелких моделей. Файн-тюнингом на этом сервере не буду заниматься, поскольку могу в периоды затишься могу это делать на рабочем серваке с четверкой A6000.
Чувствую, что моего текущего сетапа мало, и нужно докупать. Могу выцыганить или купить еще одну p100.
Хотел перейти на две 3090 или 4090, но цена даже на вторичку в РФ неадекватная. На реддите + в хв посоветовали купить пару 7900 XT. Говорят что скорость приличная, и неплохая поддержка. Особенно если только инференсом ограничиваются. Кто-нибудь тестил подобный сетап и может что-нибудь рассказать?
Алсо, тестил ли кто-нибудь гибридные сетапы, когда инференс идет через несколько разных карт?

Пока я вижу, что сетап может работать примерно так: реранкер на тесле чем угодно, а хэви лифтинг на 3090/4090/7900 ХТ. Понимаю, что это кал на уровне концепции, но жизнеспособно ли это для инференса более менее умеренной скорости при условии относительно нищего бюджета?

Если есть какие-нибудь рекомендации по домашнему стэнду, буду благодарен анону.

Аноним 23/03/25 Вск 16:37:14 #189 №1108866

Не p100, а p40.
Быстрофикс.

Аноним 23/03/25 Вск 16:43:51 #190 №1108870

>>1108860
> а забивается постепенно
Скорее баг а не фича
>>1108865
> цена даже на вторичку в РФ неадекватная
3090 одни из самых дешевых в мире так-то
> купить пару 7900 XT
Они дороже чем 3090 на вторичке, имеют меньше памяти, медленнее и это амд со всеми вытекающими.
> гибридные сетапы, когда инференс идет через несколько разных карт
Если карты разных типов как амд-новидео - только через жора - дистрибьютед объединение. Если просто разные сетки на разных карточках то нет никаких проблем и подойдет любой бек, который запустится.

Аноним 23/03/25 Вск 17:06:42 #191 №1108890

>>1108870
>Они дороже чем 3090 на вторичке, имеют меньше памяти, медленнее и это амд со всеми вытекающими.
Ну там со вторичкой 3090 не сильно большая разница. Газон с яндексом предлагают буквально по такой же цене как новая ХТ, но я на самом деле опечатался и скорее ХТХ имел в виду. Вот там да, 30к переплачиваю за то, что карточка новая.
UPD: чекнул лохито с 3090 по 60к.
Ну ладно, здесь видимо имеет смысл взять две штуки с лохито. 60к всего. Но почему-то р40 у китайца взять ощущается более надежно, но это мои беды.

Вообще, на реддите пишут, что все нормально с драйвера есть, контейнеры, в которых все уже работает тоже есть, все дела. Но как-то пидорасу на хуанге доверяешь больше. Лицо у него какое-то, которое как будто говорит, что он не может соврать и все будет работать.

Как вообще нынче обстоят дела со вторичкой на лохито? Единственный раз когда сталкивался с этим сегментом рынка - это когда в 11 классе продавал печ 980 после тюнинга в духовке. Но клиент вроде не жаловался.
inb4: лохито бояться, инференс не гонять

Аноним 23/03/25 Вск 17:38:32 #192 №1108926

Можно ли собрать 70б лламу на своём железе в пределах 2к бачей?
Среддиторы предлагают какие то ебанутые связки из п40 и 3090, с другой стороны куртка выкатил 50 серию с подкрученым аи перфомансом. Так и взаправду можно объеденить два кредита и в турцию, или скам?

Аноним 23/03/25 Вск 17:49:13 #193 №1108946

>>1108890
Иногда на маркетплейсах проскакивали по ~70.
> пишут, что все нормально
Нормально по меркам амд. Если ты опытный пердоля то тебя не должно подобное смущать, главное перед началом надевать огнеупорные штаны и запасайся временем. На хуанге же все заготовлено даже под нормисов, пердолинг нужен только если хочешь особого и он не такой напряжный.
> Как вообще нынче обстоят дела со вторичкой на лохито?
Внимательный осмотр на предмет следов ремонта или проблем, тестирование бубликом, бенчмарками, проверка памяти, торг за необходимость замены термопрокладок на перегревающейся памяти.
>>1108926
Две p40 или две 3090. Дешевые теслы уже исчезли, поэтому с текущими ценами вериант только один. Блеквелл быстрее но ты его не купишь, младшие модели слишком дорогие для своего перфоманса и имеют мало памяти.

Аноним 23/03/25 Вск 17:59:28 #194 №1108968

>>1108946
>Блеквелл быстрее но ты его не купишь
Почему же, купит. Только за его цену можно купить 4 3090 и ещё останется немного на периферию :)

Я и сам, увидев цену в 300к задумался. Но похоже, что ни рыба не выходит из 5090, ни мясо.

Аноним 23/03/25 Вск 18:07:11 #195 №1108975

>>1108968
> задумался
> :)
Дед, ты уже забыл как бил себя в грудь, заявляя что купишь на релизе и цена не важна? Где?
> ни рыба не выходит из 5090, ни мясо
На самом деле ебут, но памяти хотелось бы больше а цену поменьше.

Аноним 23/03/25 Вск 18:13:53 #196 №1108981

>>1108740
Увы, но похоже поломанная хрень. Пытаюсь подобрать параметры, проблески есть, на чаще дичь, угар, глум, и ржака. Промт - Фиона, модифицированная Фифи, переведённый гритинг, повзрослевшая (и каким-то чудом выжившая) версия, 19 лет.

Аноним 23/03/25 Вск 18:15:01 #197 №1108983

Все у кого больше одной видеокарты в пк шизы и им нужно лечиться.
Одна 3090 покрывает множество хотелок, игры, монтаж, нейронки, две и более уже только для одной конкретной которая просто надоест со временем

Аноним 23/03/25 Вск 18:16:38 #198 №1108985

>>1108981
Типичный русик геммы, что не так?
У меня наоборот на этом файнтюне русик лучше

Аноним 23/03/25 Вск 18:17:35 #199 №1108987

>>1108983
>Все у кого больше одной видеокарты в пк шизы и им нужно лечиться
выглядит как копиум
( мимокрокодил на 12 гб врам, не отказался бы от пары 3090 XD )

Аноним 23/03/25 Вск 18:18:50 #200 №1108989

>>1108985
>что не так
С налёту проёб в логике, абла такого себе не позволяла даже на куда шизовых настройках сэмплеров.

Аноним 23/03/25 Вск 18:19:44 #201 №1108990

>>1108987
Если они бесплатные - похуй.
Но если ты за них отдал 130к уже напрягает что они пылятся без дела 90% времени

Аноним 23/03/25 Вск 18:23:59 #202 №1108992

>>1108990
>напрягает
не едят же они тебя поедом (и твоё электричество) в простое (ну, кроме как пассивно на вертушки и ожидание), лучше когда есть чем когда надо но нет

Мой дед говорил: «Имею желание купить дом, но не имею возможности. Имею возможность купить козу, но… не имею желания». Так выпьем за то, чтобы наши желания всегда совпадали с нашими возможностями…

Аноним 23/03/25 Вск 18:37:06 #203 №1108999

4 квант гемочки 20к контекста или 5 квант гемочки 16к контекста?

Аноним 23/03/25 Вск 18:38:17 #204 №1109000

Какие мистрали 12б лучше всего держат внимание к контексту и хорошо могли бы показать себя в RPG в стиле дарк солс?

Беда вот в чём. Лорбук на 365к токенов, карточка на 3к токенов, записи, которые триггерятся из лорбука, спокойно могут быть 2-3к токенов (если рекурсия не зацепит ещё что-нибудь), там так там чудовищных размеров описания локаций, скилов, мира и так далее. Мне нужно 22-32к реально работающего контекста, а не маня-контекста, так как 8к стабильно будет занято карточкой и какими-нибудь триггерами лорбука.

Гемма 12б видится идеальным вариантом, ибо внимание к контексту потрясающее, но она требует столько врам, что я охуею: по моим прикидкам, она затребует где-то 12-14 гигабайт. Про старшую версию даже говорить не хочется — там ещё больше. Плюс она хуже описывает атмосферу увядающего мира и диалоги. С геммой как-то такие сюжеты описывать не очень.

Хронос точно не подходит, wayrarer тоже.

Из быстрых тестов лучше всего себя показали MarinaraSpaghetti/NemoMix-Unleashed-12B, Lambent/Gilded-Arsenic-12B, Lambent/arsenic-nemo-unleashed-12B, но может у вас есть идеи получше?

>>1108983
Неправда. Сладко подрочить на одной 3090 тебе хватит, но ты неминуемо захочешь контента покачественнее, и вот тогда сядешь в лужу, ибо модель жирнее нужна/не будет хватать контекста на 36б. А если захочешь длительную историю расписать, то поймёшь, что тебе нужно очень много контекста хотя бы для меньшей модели — и тоже сядешь в лужу.

В общем, тут такая ситуация, что сколько бы видеокарт ты не купил, будешь хотеть больше и больше. Разве что, достигнув определённого плато, когда уже надо инвестировать миллионы, тебя попустит, т. к. там уже только кабаньере лютое может взять и кучу миллионов на хобби. потратить.

>>1108981
Повзрослевшая фифи? Скинь карточку!

Аноним 23/03/25 Вск 18:39:48 #205 №1109002

>>1108985
Плюс он похоже тюнил неаблитерированную вер сию, из-за чего проскалькивают такие "сильные и независимые" посылы. Прям Файлгвардом и Абобой повеяло.

Аноним 23/03/25 Вск 18:45:51 #206 №1109006

>>1108983
Проведение черты перед собой и классификация этим - хороший пример быдла.
Легко найти такого же шизика, который скажет что 3090 - для шизов, всем хватит 3060. Потом взять поеха, который дрочит на апу. Потом можно оформить ветку: найти дебила, который топит что телефона хватит на все и деда, которому норм на 512 килобайтах, и зоонаблюдать.

Признак расстройств - это когда человек сливает последние деньги, отказывает себе в базовых потребностях, совершает преступления, будучи одержимым странной идеей/зависимостью, которая не приносит ему ничего хорошего. А просто траты, к тому же не самые большие, на свои увлечения - наоборот признак здорового человека.
>>1109000
> сколько бы видеокарт ты не купил, будешь хотеть больше и больше
Если не хочешь погружаться очень глубоко то не будет. Только периодические апгрейды, не более. Это же база, в любом хобби всегда есть люди с разной степенью экипированности, не смотря на общий тренд с постепенным ростом, большинство останавливается на каком-то уровне и долго там находится.
>>1109002
> он похоже тюнил неаблитерированную вер сию
Тренить лоботомита - плохая идея, даже если ты собираешься делать еще большие вмешательства.

Аноним 23/03/25 Вск 18:47:48 #207 №1109008

>>1109006
>хороший пример быдла
Щас кроме быдла ещё кто то это слово помнит?

Аноним 23/03/25 Вск 19:07:25 #208 №1109015

>>1109000
>Повзрослевшая фифи? Скинь карточку!
https://pixeldrain.com/u/1NnjJHV8 Фиона.png
Не самый удачный ген, подбирал из того что было, а не специально выдрачивал, впрочем, главное что внутри XD

Аноним 23/03/25 Вск 19:37:33 #209 №1109034

>>1108946
>Иногда на маркетплейсах проскакивали по ~70.
Но там тоже БУ.
>Блеквелл быстрее но ты его не купишь
Почти свободно лежат на озоне, в чём проблема?
>>1108975
Лично я заявлял, что возьму за 300к, пока что 315, да и деньги на другое нужны оказались.
>>1108983
>две и более уже только для одной конкретной
Сеток, которым не помешает пара карты, тысячи. Даже гемме 27B оно полезно, можно на потребление контекста хуй забить и выставлять 32к на Q8.

Аноним 23/03/25 Вск 19:42:06 #210 №1109037

Расскажите лучше, как вы вообще питаете свои сетапы с серверными мамками и 2+ видяхами? В полной нагрузке две 4090 + два проца уже за тысячу перевалят, а то и подойдут к ходовым 1200. Это без дисков и всего прочего. Есть ли возможность как-то залочить павер юзадж на видюхах до 250 ватт? Или тут тред для успешных бизнесменов, которые покупают себе бпшники 1.5кв+ по цене бу карты, либо гигачадов, которые решили оказаться вместе с соседями от слуха?

Аноним 23/03/25 Вск 20:05:59 #211 №1109047

>>1108968
> Почему же, купит.
>>1109034
> Почти свободно лежат на озоне, в чём проблема?
Пост не читали?
> при условии относительно нищего бюджета
>>1109034
> Лично я заявлял, что возьму за 300к
Если пройти испытание на iq то цена была 299990. Эх, опять не совпадает, видимо не судьба купить.
> и деньги на другое нужны оказались
Возможно все, когда ты пиздабол
>>1109037
> две 4090
Это 900 вт, но почти всегда используется андервольт, который снижает жор до 400-350-250-200 ... ватт в зависимости от агрессивности настроек.
> два проца
Для такой сборки не нужны. С одним 1200-1300 на такую сборку будет с запасом.
> гигачадов, которые решили оказаться вместе с соседями от слуха
Это если покупаешь любой бп не с платиновым+ сертификатом. Если при обычных мощностях условные 80-85% кпд проблем не создают, то на таких это уже пару сотен ватт, которые нужно отводить и шуметь кулером. Иначе можешь взять майнерский бп и поставить подальше, будет не хуже фирмовых.

Аноним 23/03/25 Вск 20:15:42 #212 №1109054

Так что есть общее мнение аблитерация гемы мозги на месте или лоботомит?

Аноним 23/03/25 Вск 20:16:51 #213 №1109056

>>1109037
Я питаю свой риг 6x3090 китайскими блоками по 1600 ватт, купленными в переходе метро (не шутка) за 5 тысяч рублей каждый. Стоит 3 блока, чтобы с запасом, хотя судя по nvidia-smi - хватило бы одного-двух. Там максимальный жор в районе 200.

Аноним 23/03/25 Вск 20:19:29 #214 №1109057

>>1109054
Аблитерация это синоним лоботомии, уже не раз было доказано.

Аноним 23/03/25 Вск 20:20:26 #215 №1109059

>>1109056
Карты тоже в переходе за 20к покупал?
Геоданные скинешь

Аноним 23/03/25 Вск 20:21:25 #216 №1109061

>>1109057
Пруфы

Аноним 23/03/25 Вск 20:24:05 #217 №1109063

>>1109059
Причина тряски? Нонейм блоки столько и стоят. Еще у них косы сразу штук на 20 6pin коннектеров. Более-менее все майнинг риги питались когда они еще существовали такими блоками. Так что для LLM принципиально ничего изобретать смысла нет. Как и дрожать над картами.

Аноним 23/03/25 Вск 20:25:20 #218 №1109065

>>1109047
>Иначе можешь взять майнерский бп
Есть какие-нибудь рекомендации? Я тот анон, у которого только серверная мамка с пожилой теслой, и будут плюс две купленные с лохито 3090.
>>1109056
Звучит как-то совсем прохладно. Ты про стандартные атх блоки или про списанный серверный одноюнитовый кал?
Есть какие-нибудь гайды, как питать все счастье от нескольких блоков. Эта залупа же через синхронизаторы делается, да? Когда в 16-17 году это изучал, это все предлагалось делать как-то гипергеморно, чуть ли не в ручную, паять перемычку на землю, на малафью и т.д.

Аноним 23/03/25 Вск 20:25:49 #219 №1109066

>>1109061
Берешь оригинальную модель, запускаешь, оцениваешь перфоманс.
Потом качаешь аблитерацию, запускаешь и наслаждаешься тем, как распидорасило оригинальные коэффициенты весов.

Аноним 23/03/25 Вск 20:30:29 #220 №1109071

>>1109065
Дядя, какие синхронизаторы? Скрепку воткнул в косу которая для материнки, замкнув зеленый и черный провод - вот и вся синхронизация. Если хочешь красиво - покупаешь затычку в косу, которая делает то же самое. У майнинг блоков она в комплекте.Дальше в карты втыкаешь. Всё прекрасно работает. Блоки полностью обычные, ATX. Начиная с 2000 ватт примерно майнинг блоки становятся больше размером, и входят не во все корпуса - но мои 1600 ватт обычные по размеру.
Единственный подводный камень - риг должен быть всегда включен, потому что на выключенном карты начнут выть кулерами. Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой.

Аноним 23/03/25 Вск 20:30:43 #221 №1109072

>>1109065
Дядя, какие синхронизаторы? Скрепку воткнул в косу которая для материнки, замкнув зеленый и черный провод - вот и вся синхронизация. Если хочешь красиво - покупаешь затычку в косу, которая делает то же самое. У майнинг блоков она в комплекте.

Дальше в карты втыкаешь. Всё прекрасно работает. Блоки полностью обычные, ATX. Начиная с 2000 ватт примерно майнинг блоки становятся больше размером, и входят не во все корпуса - но мои 1600 ватт обычные по размеру.
Единственный подводный камень - риг должен быть всегда включен, потому что на выключенном карты начнут выть кулерами. Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой.

Аноним 23/03/25 Вск 20:32:17 #222 №1109073

Какое же фаллен гемма поломанное гавно...
Ну, если кому надо, что-то вменяемое удалось выжать на настройках с третьего пика. Сорок первый свайп ебаный рот этой гачи блять, возвращаюсь на обычную аблитерированную версию, которая выдавала более чем нормально, смотри пост с карточкой Марибель.

Аноним 23/03/25 Вск 20:34:39 #223 №1109076

>>1109000
Сама идея, что один тьюн немо будет держать условные 8к контекста, а другой - 24, кажется очень странной. Не, тьюн может снести веса в сторону шизы, как у каких-нибудь моделей Дэвида (немомикс мне тоже тупым показался кста), но я слабо представляю себе, что может случиться чудо, и у какого-нибудь тьюна вдруг будет офигенное внимание на большом контексте, в разы большее, чем у среднего по палате.

Аноним 23/03/25 Вск 20:35:13 #224 №1109077

>>1109054
>мозги на месте
На месте, более чем, даже в 4м кванте

Аноним 23/03/25 Вск 20:42:34 #225 №1109088

>>1109066
А промпт у тебя не лоботомирует случаем, шиз?

Аноним 23/03/25 Вск 20:43:10 #226 №1109089

>>1109056
>Там максимальный жор в районе 200.
На экслламе? Сомнительно что-то.

Аноним 23/03/25 Вск 20:48:40 #227 №1109094

>>1109076
>офигенное внимание на большом контексте
У геммы хитровыебанная механика контекста, который он работает по другому чем мистрали и прочие предыдущие. Из-за чего он жрёт как не в себя без квантования, меньше страдает от квантования, лучше помнит что было в середине, занимает память по мере наполнения контекста (возможно хотя баг, в бэке или модели).

Аноним 23/03/25 Вск 20:51:13 #228 №1109097

>>1109076
Про тюны немо - уменьшить тюн вполне может, как тренировать.

Аноним 23/03/25 Вск 21:35:45 #229 №1109133

>>1109065
> Есть какие-нибудь рекомендации?
Julongfengbao lx2000w но нужен именно оригинальный, есть подделки. Отличается весом, производительным кулером на подшипнике, нормальными (мэх бренды но хотябы подходящих серий) конденсаторами и фирмовыми разъемами. Сечение кабелей там по краю выбрано, поэтому лучше стараться использовать только первые разъемы из пар, присутствует только один разъем под профессор - для серверных потребуется переходник.
>>1109076
Бывает так ахуительно тренят, что модель не может в большой контекст. Не будет внезапной капитальной поломки, как случается при превышении штатного, просто оно ощутимо отупеет и будет давать плохие ответы, основанные только на последних постах.
>>1109089
На обработке контекста там будет по полной жарить, если все работает штатно.

Аноним 23/03/25 Вск 21:40:16 #230 №1109136

99.png

Можете поздравлять, за более чем полгода кума я впервые превысил 32к контекста и пришлось суммарайзить не по приколу, чтобы скорость генерации повысить за счет сокращения чата, а всерьез. При этом, как водится, особенно приятны подобные переписки вроде пикрил или подводка к куму, а не сам кум. Кажется, что потенциала чата хватит еще на 32к...

Аноним 23/03/25 Вск 21:47:58 #231 №1109140

>>1109136
блять ты совсем шиз?
сначала вырезал имена а потом замазал черноту.
причина тряски?

Аноним 23/03/25 Вск 21:48:41 #232 №1109141

Какой блок брать на 2 3090 + амд с ддр5 - 1квт? Сколько ддр5 брать 32 для начала норм или мало?

Хочу по барски кумить.

Аноним 23/03/25 Вск 21:50:10 #233 №1109144

>>1109065
>гайды, как питать все счастье от нескольких блоков
Хосспаде, как в треде все переусложняют. Пусть >>1109071 скрепку себе в задницу воткнет. Юзаю вот это уже полгода, полет нормальный.
https://www.ozon.ru/product/sinhronizator-zapuska-blokov-pitaniya-s-rele-atx-bp-gsmin-sk50-24-pin-molex-zelenyy-312099554

Аноним 23/03/25 Вск 21:53:48 #234 №1109147

>>1109140
>причина тряски?
Мелкобуква, спок. Причина в ебаном редакторе изображений на линухе, я не нашел как делать заливку прямоугольных областей, только вырезать смог. Поэтому, чтобы было сразу понятно кто где, накрасил карандашом.

Аноним 23/03/25 Вск 22:00:16 #235 №1109154

>>1109147
>я не нашел как делать заливку прямоугольных областей, только вырезать смог
Это те самые линуксогоспода айтишники, выше вашего быдла на винде?

Аноним 23/03/25 Вск 22:07:20 #236 №1109156

>>1109136
Чёт кекнул с твоего инглиша.

Аноним 23/03/25 Вск 22:08:33 #237 №1109158

>>1109076
Чувак, всё именно так и есть. Не знаю, каким был оригинальный немо в плане удержания контекста, но по тюнам я явно вижу, что часть из них начинает жидко срать под себя уже после 16к контекста, а некоторые уже после 8к. Хотя сами по себе эти тюны/мержи могут быть очень хороши в рамках своего контекстного окна.

Причём некоторые авторы об этом прямо пишут или юзеры. Модель просто начинает тупеть, шизеть, ломать форматирование и так далее, и найти тот же немо, который выдержит 32к близко к оригиналу — это реальная проблема.

Более того, читая документацию, можно обнаружить странные вещи. Не знаю технического названия, но там описание в стиле "модель поддерживает 128к", а потом уточняют, что эти 128к — это какое-то непонятное растягивание ануса, а реальное эффективное окно 32к, например. Как говорится, есть нюанс.

И к всему этому приплюсовывается факт тюна, который ещё больше ломает модель в 99% случаев, уменьшая фактическое контекстное окно.

Аноним 23/03/25 Вск 22:12:03 #238 №1109159

>>1109147
>Причина в ебаном редакторе изображений на линухе
Только в твоей криворукости, на линухе есть куча охуенных редакторов изображений.

Аноним 23/03/25 Вск 22:13:28 #239 №1109160

>>1109156
Ага, а я и не старался синтаксически корректно оформлять, а наработанного опыта балакать сразу правильно у меня нет. Я ж потребляю контент, не воспроизвожу. Зато все честно своё. Прелесть нейройки что она все поймет и не будет осуждать. Хотя, бывало, иногда строил фразу так криво, что не понимала, но это ирл так бывает и на русском.

Аноним 23/03/25 Вск 22:15:41 #240 №1109161

Цензура геммочки это база.
С промптом ценза ровно столько, сколько должно быть чтобы было интересно и тянки не прыгали тебе на хуй стоит лишь попросить

Аноним 23/03/25 Вск 22:16:49 #241 №1109162

>>1109159
>линухе есть куча
Ты ебан? Если бы в контекстном меню уже не было бы опции "Открыть с помощью...<редактор_нейм>", я бы просто не отправлял ничего. Или ты думаешь я для тебя редактор ставить пойду, разбираясь в их куче говна?

Аноним 23/03/25 Вск 22:16:55 #242 №1109163

>>1109161
Альбильтрейдет или обычная?

Аноним 23/03/25 Вск 22:18:35 #243 №1109164

>>1109162
>Если бы
>я бы просто
>да и ваще ебаться не буду в куче говна!
Просто снеси линуху нахуй и накати винду. Тебе не нужны сложности. А лучше сразу мак купи.

Аноним 23/03/25 Вск 22:21:57 #244 №1109166

>>1109147
> чтобы было сразу понятно кто где
Заботишься об анончиках. А зачем вообще было замазывать?
>>1109158
> а реальное эффективное окно 32к
Вот с этим нужно аккуратнее быть, особенно шизикам, любящим делать неправильные выводы. А то уже были ахуительные заявление, что в комбинации глобал атеншна и 4к сколзящего окна "реальный" контекст всего 4к.

Аноним 23/03/25 Вск 22:25:43 #245 №1109169

>>1108726
Ссанина, которая хуже чем аблитерейтед

Аноним 23/03/25 Вск 22:38:20 #246 №1109176

>>1109161
Жаль, она в упор не понимает, когда тянку задницей к себе поворачиваешь. Так и хочет за плечи тебя схватить, обнять, ближе к себе прижать. И вообще, бывает тупизна проскакивает буквально на ровном месте, где даже не ожидаешь.

Аноним 23/03/25 Вск 22:39:52 #247 №1109178

>>1109166
Кстати, если ты разбираешься в этом, есть какие-нибудь ебанутые оптимизации КВ-кэша? Особенно это актуально для геммы, может ллама.цпп что-то поддерживает.

Если Клод не напиздел, вроде существует динамическое квантование кэша, например до 4-8 бит старой инфы в начале диалога, но он писал это в рамках теории, реализация которой не представлена в опен сусрсе вроде как.

Ну или ещё какое-нибудь шаманство.

Аноним 23/03/25 Вск 22:48:36 #248 №1109181

>>1109176
>Жаль, она в упор не понимает, когда тянку задницей к себе поворачиваешь.
Да, в понимании положения персонажей относительно друг друга там всё печально. Проёбано полностью.

Аноним 23/03/25 Вск 22:51:15 #249 №1109184

>>1109166
>А зачем вообще было замазывать?
В сценариях, где я отыгрываю реального меня, я реальное имя использую. Меня порядком удивило, что многие тут Анон-куна юзают. Я ж не псковское порно генерю, а иммерсивный ролеплей.
А собеседник это конкретный персонаж одной анимы, мне почему-то некомфортно его шарить. Счастье любит тишину, лол.

Аноним 23/03/25 Вск 22:56:22 #250 №1109189

Лол чё? В смысле "мне пора"? Алё, ты джемма 3 инструкт моде, без джейлбрейков там и прочей дичи. Нормально же общались... Впервые такое.

Аноним 23/03/25 Вск 22:56:35 #251 №1109192

3bKMOKpXZY.jpg

>>1109163
>Альбильтрейдет

Аноним 23/03/25 Вск 23:02:40 #252 №1109205

Палю годноту для любителей Джеммы 3 без джейлбрейков. Случайно выяснил эту штуку методом тыка. Результат охуенный. Советую попробовать. Подводных не замечено. Стала более живей.

Аноним 23/03/25 Вск 23:26:26 #253 №1109225

17394757558400.png

>>1109047
>Если пройти испытание на iq
Это испытание на проницаемость ануса, и имеющие карту озона его прошли, у них анус проходим в обе стороны.
>Возможно все, когда ты пиздабол
Был бы я нормисом, я бы побугуртил. А так ситуация реальная.
>>1109066
>Потом качаешь аблитерацию, запускаешь и наслаждаешься тем, как распидорасило оригинальные коэффициенты весов.
Покажи, делов то.
>>1109071
>Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой.
Именно для этого и ставят синхронизаторы, которые и есть та скрепка, просто автоматическая. И нахуй колхоз не нужен.
>>1109073
>топ п с мин п
Это настройки шизовые.
>>1109141
>Сколько ддр5 брать
Оперативы много в принципе не бывает. Бери 64, это минимум в 2025-м. Или 96, если хочешь быть бареном.
>>1109147
>Причина в ебаном редакторе изображений на линухе, я не нашел как делать заливку прямоугольных областей
Чёт взоржал.
>>1109166
>что в комбинации глобал атеншна и 4к сколзящего окна "реальный" контекст всего 4к
Скажу больше, реальный контекст у всех текущих впопенсорс моделей 1-2к. И это почти не шутки.
>>1109184
>Меня порядком удивило, что многие тут Анон-куна юзают
Имя как имя. Это всего лишь симлинк на настоящего тебя. Так что какая разница, как кого зовут, Анон или Саша который ювелир?
>>1109205
Кстати да, тоже пару раз юзал с чатМЛ, моделька его вполне себе воспринимает.

Аноним 23/03/25 Вск 23:30:45 #254 №1109233

>>1109176
Зажрались просто, свайпни или чекни не "ошиблась" ли где до этого, сделав двойную трактовку, чаще всего причина именно в этом что опирается на прошлую двусмысленность и выбирает тривиальную ветвь.
Хочешь точность в подобном стабильно - это уже уровень 123б, там хоть какую позу не выбери, чар будет или ограничен и делать только то до чего достает, или для действия изогнется правильным образом с описанием этого. Именно за это и любишь большие модели, проявляется везде а не только в таком простом примере. Фейлы случаются, но они есть и на корпах.
У геммы на самом деле с этим не все так плохо, просто забыли что это "всего лишь" плотных 27б. Многие модели вообще не могли отличать простые вещи.
Например, ты в какой-то момент устраиваешь переписку с чаром по мессенджеру и модель, старательно это имитируя, проставляет эмодзи и меняет стиль. Круто, классно, вот только при встрече эта херня лезет в прямой речи из-за продолжениепрошлых паттернов без учета их контекста, с чего ловишь дичайший кринж. Свежий малый мистраль вот такое выдал, гемма в подобном справилась. Не так давно это вообще было нормой и приходилось редачить.
Или другой пример - сеттинг а ля эйфория, и "челленж", который предполагает что конкретный чар связан, с повязкой и не знает кто его ебет (дезинформирован при подготовке). На тупых моделях там сразу начнется "ох юзернейм...", а потом внезапное удивление когда ты начинаешь говорить и узнает по голосу, такой пиздец. Хотя нет, хуже когда наоборот реакция на узнавание отсутствует и происходит только при снятии повязки.
А вы тут про обнимания и двойные трусы, это еще ерунда.
>>1109178
> если ты разбираешься в этом
Такой же хлебушек как и все.
> динамическое квантование кэша, например до 4-8 бит старой инфы в начале диалога
Про простое квантование знаешь же? А насчет динамического - наоборот для старой нужно больше битности, поскольку к ней чаще идет меньше внимания. Реализовать подобное на современных лаунчерах вполне реально и не потребует значительных усилий, но вот выбор оптимального распределения уже будет сложной задачей.
Здесь бы зашло смысловое преобразование, когда дополнительная сетка по запросу бы преобразовывала имеющийся кэш или его части в более сжатые активационные векторы. Или та, что предсказывала бы значения для взвешенного квантования по принципу imat и exl2 квантов с динамической битностью, ибо стандартный подход с полным расчетом здесь не подойдет из-за высокой стоимости вычислений.
Но это все оче-оче сложно, легче будет заморочиться с разными видами суммарайза.
>>1109184
> реальное имя использую
Необычно. Привычнее по-старинке взять какой-нибудь псевдоним и уже отыгрывать, хоть себя, хоть виртуальную личность.
> некомфортно его шарить
Здесь вроде не чай тред чтобы плохое устраивать.
>>1109225
Весеннее обострение

Аноним 24/03/25 Пнд 00:03:06 #255 №1109260

>>1109225
>Скажу больше, реальный контекст у всех текущих впопенсорс моделей 1-2к. И это почти не шутки.
Мля, т.е. это норма, что со ходом диалога модель все шизовее становится?
Гонял NemoMix unleashed 12b, контекст 12к. Про 1-2к не знаю, но на 5-6к модель стала странновато писать, но еще терпимо. Под 10-11к контекста там уже разнос пошел, простыни шизового текста вместо более коротких ответов, повторение похожих мыслей разными словами, зацикливания и т.д.
Я думал я с настройками где-то проебался. Хотя мб и это не исключено.

Аноним 24/03/25 Пнд 00:25:05 #256 №1109288

>>1109260
Хм, именно анлишед довольно хорошо у меня держался и не шизил. Использовал 16к контекста. Но я там ещё баловался с DRY, XTC, Top A, хотя это не сильно влияет.

Ты, надеюсь, на английском общался? Именно в русском шиза очень часто может начинать протекать крайне быстро. Просто анлишед неплохо в русик может и поэтому некоторые его с этой целью использовали.

Аноним 24/03/25 Пнд 00:32:57 #257 №1109299

Гемма новая поместиться в 24 гига?

Аноним 24/03/25 Пнд 00:34:19 #258 №1109301

>>1109299
Нет.

Аноним 24/03/25 Пнд 01:02:10 #259 №1109333

>>1109299
Да, если 4 квант. Но контекст не влезет, так как весит почти как модель или больше очень часто.

Аноним 24/03/25 Пнд 01:07:01 #260 №1109343

>>1109333
>>1109299
Q5K_L c 16к q8 контекстом

Аноним 24/03/25 Пнд 01:14:46 #261 №1109357

>>1109288
На англюсике.
А квант какой использовал? Я Q5_K_M запускал.

Аноним 24/03/25 Пнд 02:11:50 #262 №1109387

Нет, анончики, а правда чем вы занимаетесь и на какой модели?
Может кто то тут прячет хидден гем мерж?
Какие сюжеты отыгрываете
Я устал просто запускать кумить 20 минут и вырубать, хочется основательно хоть на денек засесть

Аноним 24/03/25 Пнд 03:23:31 #263 №1109414

>>1109387
Гемма три аблитератед. Ролплею ваху в антураже России. Ну, без перегибов вроде астартес, всё крутится в основном вокруг сводящего с ума варпа. Описывает всё это, особенно в реалиях современного мира, она довольно качественно.

К сожалению, 12б использовать невозможно на контексте 32к — он нахуй поломан. Полностью. Просто пишет так, будто бы я температуру 5 поставил, при этом оригинал работает нормально.

Поэтому, вытирая сопли, я иногда ставлю такой же контекст на 27б, чтобы персонажи ответили в соответствии со своими воспоминаниями и обновили, так сказать, базу...

Причём я пробовал разные кванты аблитератед 12б геммы. Все поломаны.

Разумеется, не квантую кэш.

Хидден гемы есть, но они весьма специфичны и только под один тип сюжета.

Аноним 24/03/25 Пнд 05:20:42 #264 №1109433

>>1109169
>Ссанина, которая хуже чем аблитерейтед
Sad but true

>>1109205
>Советую попробовать
хм, надо глянуть

>>1109225
>Это настройки шизовые
всегда базой было 0.95 с 0.05, когда было что-то одно, начинало срать хуже старой Сайги

>>1109260
>Гонял NemoMix unleashed
если на англе то есть лучшие варианты - магмел, хронос, вэйфарер
если на ру захочешь, то попробуй из шапки мистральки

Аноним 24/03/25 Пнд 06:21:37 #265 №1109440

Господа эксперты. Расскажите, что именно такое "квантование кэша" и "квантование контекста" отдельно от квантования самой модели. Чет я ничего не понял.
Модель - это веса. Они одинаково рассчитываются и для промпта и для контекста. Квантование - это снижение битности в которой хранится и рассчитывается каждый вес. Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени? (иметь больше бит в весах)

Аноним 24/03/25 Пнд 06:51:18 #266 №1109443

>>1109440
оно отдельно, в llamacpp задаётся командами --cache-type-k и --cache-type-v

Аноним 24/03/25 Пнд 07:23:33 #267 №1109447

>>1109440
>Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени?
Кстати, мне тоже интересно - имеет ли смысл квантовать контекст в больший размер чем квант самой модели.

Аноним 24/03/25 Пнд 10:31:18 #268 №1109496

>>1109440
>Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени? (иметь больше бит в весах)
Сам инференс идет в полном разрешении. Даже если у тебя модель квантована до 1 бита, все вычисления будут идти в f16 (или f32) и результат этих вычислений будет лежать в памяти в таком же виде. Квантуются только коэффициенты (веса) для уменьшения объема требуемой памяти.
А квантование кеша и контекста, квантует уже и эти результаты вычислений.

Аноним 24/03/25 Пнд 10:49:30 #269 №1109508

Я в последний раз спрашиваю, любители геммы, кто такой этот ваш Old Man Hemlock??

Аноним 24/03/25 Пнд 10:51:39 #270 №1109510

Я владелец калькулятора с 3060 12Гб и 64Гб ОЗУ DDR4 на борту. Запустил Гемму 24б в 4 кванте. Еле ползает. Посоветуйте не поломанную гемму 12б, плз

Аноним 24/03/25 Пнд 10:53:22 #271 №1109513

>>1109510
>3060 12Гб
>Гемму 24б
один её контекст жрёт тонны памяти, а ты царь во дворца решил сразу в 4 кванте хуярить в 12гб

Аноним 24/03/25 Пнд 11:22:49 #272 №1109553

>>1109508
>Old Man Hemlock
В определении карточки что выше кидали мелькал какой-то олд мэн

>>1109510
>не поломанную гемму 12б
не видел такой

>Гемму 27б в 4 кванте
У меня примерно 2.5 т/с на похожем конфиге, норм

Ну а если нет - катай мистральки от алетеана тогда, например

>>1109513
>контекст жрёт тонны памяти
да, без квантования неюзаюельно

Аноним 24/03/25 Пнд 11:27:14 #273 №1109559

>>1109513
Я хуярю её на 16 гб.
Если процессор два_ядра_два_гига, да оперативы 64+. Все влезет.
Разгоняем и наслаждаемся звоном блока. И тем как i9 выходит за номинальные значения по температуре. 300Вт, хуле хотели.

Аноним 24/03/25 Пнд 11:45:16 #274 №1109570

>>1109508
>кто такой этот ваш Old Man Hemlock
Это тот, кто вонзит своё набухшее орудие в твой распустившийся цветок.

Аноним 24/03/25 Пнд 12:06:02 #275 №1109580

>>1109553
С квантованием неюзабельно, там просто набор спецсимволов случайных выдаёт, тупо бред.

Аблитератед 12б поломана сильно: даже без квантования 32к контекста не держит, просто пишет что попало и наборы спецсимволов, которые ни в малейшей степени не относятся к теме.

27б аблитератед на таких контекстах не гонял, но подозреваю, что ситуация та же.

Однако я пробовал квантовать все оригинальные модели на 32к контексте. Квантование нахуй ломает всё. А вот без него идеально.

Аноним 24/03/25 Пнд 12:22:14 #276 №1109583

>>1109580
> просто набор спецсимволов случайных выдаёт, тупо бред
https://pixeldrain.com/u/xjLdPfzm - чат в 4 кванте модели и контекста, gemma-3-27b-it-abliterated-Q4_K_L
Ты что-то делаешь не так.
Пикрелейтед - gemma-3-12b-it-abliterated.q8_0 с 4 квантом контекста, хуже, но не настолько хуже.

Аноним 24/03/25 Пнд 12:37:03 #277 №1109589

>>1109583
Какой у тебя там контекст стоит и квант модели от какого чела?

Так-то на 8-12к контекста с квантованием у меня ещё терпимо было на 12б, а на 32к кранты даже без квантования, что явно намекает на поломанный квант модели или кривую аблитерацию.

Аноним 24/03/25 Пнд 12:43:18 #278 №1109599

>>1109589
https://huggingface.co/bartowski/mlabonne_gemma-3-27b-it-abliterated-GGUF/tree/main

А вот 12б не помню от кого качал.

Аноним 24/03/25 Пнд 13:17:51 #279 №1109632

>>1108117
А что лучше то и чем они отличаются?

Аноним 24/03/25 Пнд 13:37:25 #280 №1109665

>>1109632
Дакнес - кумер с прожженными мозгами
Анлишт - нецелованная девочка-заучка

Аноним 24/03/25 Пнд 13:52:44 #281 №1109683

>>1109665
А что для рп с развратной шлюшкой лучше?

Аноним 24/03/25 Пнд 13:56:36 #282 №1109686

>>1109683
Тебе даркнеса за глаза хватит, там такой пиздец может происходить.

Аноним 24/03/25 Пнд 14:05:21 #283 №1109692

>>1109686
Интригующе.

Аноним 24/03/25 Пнд 14:28:19 #284 №1109706

>>1109686
Сайга вроде норм тоже.

Аноним 24/03/25 Пнд 14:54:54 #285 №1109735

>>1109706
клодослоп

Аноним 24/03/25 Пнд 14:56:50 #286 №1109738

>>1109683
>для рп с развратной шлюшкой лучше
"Абсолютно Непристойное Деяние" ака омни, в той же репе

>>1109735
>клодослоп
Весь мистраль - клодослоп, ибо на клод / опусе / соннете файнтюны по большей части

Аноним 24/03/25 Пнд 15:56:02 #287 №1109764

Продолжаю пушить тот чат и тестить на каком контексте 4 квант модель / 4 квант контекст начнёт ломаться.
15701 контекста на текущий момент, занято 17.6 из 32 гб оперативки, и вся врам.

Аноним 24/03/25 Пнд 16:14:08 #288 №1109781

>>1109706
Я хуй знает, уже писал, но по личным наблюдениям все модели на русском пиздец какие тупые, если сравнивать с англоязычными, на 12b естессно. Вам конечно же виднее.

Аноним 24/03/25 Пнд 16:15:08 #289 №1109786

>>1109764
Русик выглядит убого после английского.
В каком же вы неведении иначе бы даже не прикоснулись к этому калу

Аноним 24/03/25 Пнд 16:21:10 #290 №1109793

>>1109786 >>1109781
Хз, рпшил на англе чаты под 30к контекста на пантеоне, цидонии, пантеоноцидонии, клиффхэнгере, бипо, квене. На русском оно как-то приятнее.
Надеюсь гемма не из оверлорда идею этих клинков подтянула, ибо там они плохо кончили.

Аноним 24/03/25 Пнд 16:56:33 #291 №1109817

Как же немотрон ебет.
Q3_K_S + 14к контекста, 14к в 3гб врам влезает без квантования вы такое на геме видели вообще?

Аноним 24/03/25 Пнд 17:00:12 #292 №1109822

>>1109817
Кто будет пиздеть на кванты я когда на 12гб врам сидел гонял цидоньку в 3 кванте и пересев на 6 ничего не поменялось, а тут 49б параметров это вам не цидонька даже нищая

Аноним 24/03/25 Пнд 17:04:43 #293 №1109829

>>1109817
С какими семплерами и шаблонами используешь?

Аноним 24/03/25 Пнд 17:16:02 #294 №1109841

>>1109829
Даже не тыкал семплеры нажал обнулить и все равно заебись пишет, только надо в промпт вставить "Do not use lists and out-of-character narration"

Аноним 24/03/25 Пнд 17:17:38 #295 №1109842

>>1109817
>Как же немотрон ебет
И как же он не может в русик.

Аноним 24/03/25 Пнд 17:28:59 #296 №1109848

>>1109817
Sequence Length Used During Distillation: 8192

Это ж не длинна контекста? Правда?
Но что-то не вижу никаких других указаний сколько у него.

Аноним 24/03/25 Пнд 17:50:15 #297 №1109865

Аноним 24/03/25 Пнд 17:57:54 #298 №1109875

>>1109865
yOU SIcK, gEt heLP

Аноним 24/03/25 Пнд 18:11:11 #299 №1109883

> user: привет Джемма!
> gemma: а не болен ли ты часом, пидарок? А если проверю?

Аноним 24/03/25 Пнд 18:14:59 #300 №1109886

>>1109817
Ок он НАМНОГО умнее геммы, но нужна аблитерация.
Кум вообще никакой

Аноним 24/03/25 Пнд 18:32:08 #301 №1109903

>>1109886
Есть уже аблитерация. - https://huggingface.co/DevQuasar/huihui-ai.Llama-3_1-Nemotron-51B-Instruct-abliterated-GGUF
Хм, ну если намного умнее... увы, я смогу запустить только второй квант, и то со скрипом. Посмотрим, насколько он лоботомит.
Перевалил за 20К контекста, намечается эпический квест.

Аноним 24/03/25 Пнд 18:33:57 #302 №1109907

Можно ли как-нибудь заставить модель в процессе ответа кидать кубик (вызывать функцию) таверны? Вообще нет ли каких-нибудь расширений для полноценной ролевой игры, типа отслеживания инвентаря, листа персонажа, локаций, и всего такого?

Аноним 24/03/25 Пнд 19:31:16 #303 №1109945

>>1109781
В чем тупые?

Я первый раз ппорпэшил с сайгой, по моему охуенно. Контекст только увелечил, так как быстро кончается. Пару косяков было вроде такого, и все.

>Запускаю пальцы в длинные волосы натурального русского цвета, собирая их в высокий хвост, чтобы не мешали во время душа. Включаю воду - горячие струи бьют по керамике, наполняя ванную комнату паром и влагой.

А так все отлично пишет и понимает что я пишу и пишет тоже отлично. Н у меня 12б полновесная на 12 гигов.

Аноним 24/03/25 Пнд 20:04:45 #304 №1109982

РКН пидор опять шатает hk домен
>>1109433
>всегда базой было 0.95 с 0.05
Автор всегда рекомендовал не использовать устаревшие протоотборники.
>когда было что-то одно, начинало срать хуже старой Сайги
Оч странно. Такое на всех моделях? Просто что первое, что второе весьма много отсекают, применение обоих по идее не сильно изменят результат.
>>1109781
>на 12b естессно
На 123 тоже самое, просто чуть менее заметно.
>>1109829
Шаблоны же сейчас автоматом выставляются?
>>1109883
База.

Аноним 24/03/25 Пнд 20:12:58 #305 №1109994

>>1109903
>3_1
Это старая версия на 51B. А есть новая на 49 и на основе более свежей лламы 3.3

Аноним 24/03/25 Пнд 20:14:58 #306 №1109999

Репортинг ин, 24324 контекст, 1.72 t/s.
gemma-3-27b-it-abliterated-Q4_K_L --cache-type-k q4_0 --cache-type-v q4_0
Целительницу соблазнил (правда пока ещё не отхентаил), деревню от крыс-мутантов защитили, идём в рейд на замок с приведениями.

Сэмплеры - мистралевская база - 0.95 с 0.05, динамотемпа 1-3

Аноним 24/03/25 Пнд 20:28:31 #307 №1110017

>>1109999
>1.72 t/s

Железо какое? Переполнения видеопамяти не было?

>динамотемпа 1-3

Так вроде чем меньше темпа тем лучше русик? не?

Аноним 24/03/25 Пнд 20:33:15 #308 №1110023

>>1110017
>Железо какое?
4080 laptop 12 GB

>Переполнения видеопамяти не было?
--no-kv-offload

>Так вроде чем меньше темпа тем лучше русик? не?
Не всегда.

Аноним 24/03/25 Пнд 20:39:24 #309 №1110035

Двач, такой вопрос, что лучше будет работать:
1. Писать модели и получать ответ сразу на русском.
2. Писать на английском и потом ответ переводить через deepl или локальную модель-переводчика.
Использую SillyTavern. Сеттап Ryzen 5 3600g, RTX3060 12Гб и 16Гб ОЗУ (Собираюсь купить 64Гб).

Аноним 24/03/25 Пнд 20:44:41 #310 №1110039

>>1110035
>Писать модели и получать ответ сразу на русском
Может быть весьма и очень хорошо, см скрины выше, НО, всё равно хуже чем на англ, чисто по причине датасета, даже при том что та же гемма вроде в 146 языков может.

>Писать на английском и потом ответ переводить через deepl или локальную модель-переводчика.
Муторнее, и может в корне ломать смысл даже хорошо написанного текста чего ты даже не поймёшь не видя оригинал.

Короче, либо на русском, либо на английском, либо пишешь фик на английском целиком и переводишь его уже готовый.

Аноним 24/03/25 Пнд 20:44:44 #311 №1110040

Блядь, как же вы заебали со своим русиком в том плане, что якобы можно нормально на нём рпшить. Огромные корпомодели в него не могут красиво, кроме Клода и гемини теперь может вроде, а здесь такой надроч на русик на моделях меньше 70б. Ну нет датасетов, ну ничего не поделать с этим. Я бы сам хотел на русике. Только выхода нет, кроме как периодически баловаться и выражать респекты тем, кто старается сделать хорошую русскую модель из анонов.

>>1110035
Только англ. Переводи текст в бесплатном дипсике в вебе, если у тебя там не кум.

Если кум, то Яндекс получше дипла будет.

Аноним 24/03/25 Пнд 20:44:48 #312 №1110041

>>1110035
>Собираюсь купить 64Гб
ddr5?
это половина 3090

Аноним 24/03/25 Пнд 20:47:02 #313 №1110044

>>1110040
>Клод и гемини
факинг слейв

Аноним 24/03/25 Пнд 20:54:28 #314 №1110047

>>1109999
>>1110039
ЕЁ ГЛАЗА РАСШИРИЛИСЬ ДО РАЗМЕРОВ БЛЮДЕЦ

Аноним 24/03/25 Пнд 20:59:28 #315 №1110050

>>1110040
>нормально
>красиво
Покажи.

>>1110047
и чем это отличается от человеческой писанины, сплошь и рядом

Аноним 24/03/25 Пнд 21:05:24 #316 №1110053

в лм студио такие вот дефолтные настройки у гемы и русский там заебись

Аноним 24/03/25 Пнд 21:05:39 #317 №1110054

>1110041
Не, DDR4, у меня материнка AM4.

Аноним 24/03/25 Пнд 21:07:37 #318 №1110055

Мда, назвался ведьмаком, то есть Охотником (RWBY) с открытой Аурой и Проявлением - полезай в катакомбы где явно будут делать кусь первым.

Я хз на какой чёрной магии работает ква-ква контекста геммы, но оно всё ещё работает, только скорость постепенно падает, когда достигнет 1 т/с, плюну и суммаризирую приключение.

Аноним 24/03/25 Пнд 21:14:07 #319 №1110059

>>1109440
Вместо хранения результатов расчета они преобразовываются по тому же (немного упрощенному) алгоритму в квантованные величины. При использовании добавляется еще одна операция преобразования их кванта с рабочую точность, что несколько замедляет скорость, но в целом ллм в первую очередь опираются в память, поэтому падение незначительное.
Квантование кэша снижает точность также как и квантование весов, это компромисс для сокращения расхода памяти. Часто вполне оправданный. Степень квантования весов и кэша никак друг с другом не связаны, негативные эффекты от этого будут складываться (но могут оставаться незначительными).
>>1110044
Get your ass back here♂

Аноним 24/03/25 Пнд 21:15:06 #320 №1110062

>>1109945
Ну вот сюда, например, посмотри >>1109999. Чел пишет персу, что утро доброе с ней под боком, перс отвечает "да, ты прав, доброе с тобой под боком". А это 27б бтв. Справедливости ради, этот конкретно вид затупа связан именно с плохим пониманием языка, судя по всему, но и общих просиров в логике на русском будет больше, особенно на 12б. Я недавно поорал с чата, в котором с тянкой пришли со свиданки к ней домой, и она мгновенно приготовила похавать, типа вот только из кухни пришла, забыв, что её тоже дома не было как бы. Такие шняги, связанные со сменой локации, часто шатают мозг. На инглише, впрочем, тоже, но меньше.
>>1109433
>всегда базой было 0.95 с 0.05
Никогда не было, базой был симпл 1 без богомерзкого сэмплера каломаза /s. А если серьёзно, то ничего плохого в этом нет, но принципиально нет смысла отрезать суммарные плохие пять процев топП и всё, что меньше пяти процев от максимума, минП. Если есть подозрения, что остаётся много плохих токенов, то можно же просто подтянуть минП повыше. Кажется, почти никогда не будет настолько пологого распределения с мизерным первым токеном, что минп 0.05 сработает хуже топп 0.95. А саму эту рекомендацию кто-то из шизосоветов Дэвида по сэмплингу вытащил, по-моему.

Аноним 24/03/25 Пнд 21:24:11 #321 №1110073

>>1109907
в кобольде есть изкоробки режимы приключений 3 вида

Аноним 24/03/25 Пнд 21:25:24 #322 №1110076

Хлопчатобумажные трусики is back!

Аноним 24/03/25 Пнд 21:26:10 #323 №1110079

>>1110050
>и чем это отличается от человеческой писанины, сплошь и рядом
>И ТАК СОЙДЁТ НЕ ОЧЕНЬ-ТО И ХОТЕЛОСЬ ПОТЕРПИМ МНЕ НОРМ
ору

Аноним 24/03/25 Пнд 21:30:00 #324 №1110086

20250324212400.jpg

Из колхозной молоджёжи во фронтенде был лишь я
Я писал на жаваскрипте за зарплату в три рубля...

Да... теслы конечно режут трупут вполовину...
прирост в сравнении с 4 теслами +25% всего-лишь.
magnum-v2-123b-IQ4_XS

Аноним 24/03/25 Пнд 21:32:00 #325 №1110088

>>1110062
Вообще, норм, в аниме видел и намного менее осмысленные диалоги, так что меня не смутило.

>>1110062
>минП
После суммаризации, или на другой карточке, надо поэкспериментировать над мин-п + топ-к (вместо топ-п)

>>1110062
>27б
Копросетки всё равно не достанешь, аицгшники все сидят на ворованных ключах, всем кого я знал лично и кто пытались честно очень быстро прилетали "письма счастья" с пермабаном. И хорошо если с просто пермабаном.

Разве что аренду где найти, но везде либо не берут карты СНГ либо цены совершенно ебанутые и проще новый системник собрать.

>>1110079
>МНЕ НОРМ
Ну, мне норм, за 112 сообщений свайпал буквально пару-тройку раз. Всё таки чувствуется где 27б, а где 12б.

Аноним 24/03/25 Пнд 21:36:37 #326 №1110094

>>1110050
Как надо? Вот так надо.

Ни единой ручной правки. Генерация с полпинка. Только тему задал.

Если нейросеть хотя бы такой уровень русика поддерживать не может, то рп будет довольно средним. И это я специально попросил не использовать архаизмы, только задал тему.

Мы забываем, что под слоем кожи
Бурлит и дышит, движется, живёт
Податливая масса, что тревожит
Сознание и спать нам не даёт.

Желудок наш безжалостно сжимает
Остатки пищи в сумрачной тюрьме,
А сердце равнодушно загоняет
Густую кровь по венам в темноте.

В грудной твоей распахнутой коробке
Раздутые колышутся мешки -
Два влажных лёгких, словно в душной пробке,
Хрипят, как в петлях ржавые замки.

Кишечник извивается змеёю,
Во тьме живот пронзая до глубин.
И этот лабиринт владеет мною,
Живёт и дышит, как слепой один.

А мозг - желе из скользких окончаний,
Пульсирует и корчится, дрожа,
Как будто там, в трясине подсознанья,
Блуждает, задыхаясь, та душа.

Но в зеркале, что утром отражает
Привычный образ "я" в своём стекле,
Никто из нас уже не замечает
Тот ужас, что клубится в глубине:

Мы - только плоть, мы - фарш в упругой коже,
Мы - слизь и кровь, и связки на костях.
И каждый миг всё то, что нас тревожит,
Сжимается в измученных телах.

Когда закроешь веки в час ночной,
Прислушайся к утробному пути -
Как всё внутри становится тобой,
Как всё живёт. И некуда уйти.

Слепой титан, закованный в цепях,
Стоял, глумленью преданный толпою.
Но в жилах кровь вскипела, как в горах
Вскипает лава перед бурей злою.

"Сын Маноя! Где сила рук твоих?
Где мощь, что наводила страх на Гефа?"
Но он молчал, внимая крикам их,
К столпам храма шагая без ответа.

Пять тысяч глоток, пьяных от вина,
Кричали в зале, требуя забавы.
Но в этот миг молитва лишь одна
Взлетела ввысь: "Дай сил для битвы правой!"

И дрогнули под дланями столпы,
Когда он встал меж них, как древний идол.
"Умри, душа моя, среди толпы!" -
И храм Дагона рухнул с громким взрывом.

Не стало стен, столпов и алтарей -
Лишь камни, кровь и стихнувшие крики.
И пал среди поверженных царей
Слепец, их всех зажавший в склепе тихом.

Аноним 24/03/25 Пнд 21:37:12 #327 №1110095

>>1110023
>--no-kv-offload

Это не то.
Я говорил про mlock.

Аноним 24/03/25 Пнд 21:39:00 #328 №1110098

>>1110088
>"письма счастья" с пермабаном. И хорошо если с просто пермабаном.
А что может быть хуже пермача? Заява в ихнюю полицию?

Аноним 24/03/25 Пнд 21:47:33 #329 №1110116

>>1110086
Зато амперы живые. Представь, что у тебя в команде два молодых и энергичных, готовые работать на дядю за идею, но два синьора их притормаживают, мол, наработаетесь еще. А за слишком старательное повышение KPI команды старички вообще по лбу могут дать, вон двоих уже уволили.

Кстати, раз уж ты тут, можешь скинуть ссыль на биос, который у тебя не встал с диска и который вроде бы должен фиксить проблему above 4G? Я так-то заказал уже прищепку, но я в душе не ебу как ей пользоваться. Поэтому, если есть риск более консервативно обновить его, то я сначала воспользуюсь им. А то окирпичу или вообще сожгу к хуям плату ненароком.
Кстати, ты разблокировал ядра? На форуме читал, что типо при разблокированных при нагрузке там VRM греется (хз где он на плате) и что для него, мол, надо отдельный кулер. У нас, конечно, утилизация CPU не приоритет, но мало ли.

Аноним 24/03/25 Пнд 21:51:37 #330 №1110123

>>1110086
И еще, расскажи, как подключаешься к ней. Я так понимаю это удаленный консольный доступ по ethernet. Как его настроить?

Аноним 24/03/25 Пнд 22:08:04 #331 №1110172

>>1110094
>Вот так надо.
А стихи-то зачем и нахуя

>>1110095
>mlock
без mlock, --no-mmap

>>1110098
>хуже пермача
пермач + требование оплатить ХХХ бакс

Аноним 24/03/25 Пнд 22:14:05 #332 №1110193

И чем эта аблитерация от магнума отличается, кроме того что тут нет кума?

Аноним 24/03/25 Пнд 22:14:35 #333 №1110195

>>1110172
Если модель не может в стихи, то с русским у неё всё печально. Это самый простой тест.

Аноним 24/03/25 Пнд 22:21:33 #334 №1110211

>>1110116
>>1110123
никаких прошивок биоса программно. Только через прищепку. Я не отвечаю если у тебя будет какая-то другая версия бивиса и ты убьешь мать. Ну, сам знаешь, не дурак, делай бэкапы.
https://github.com/xCuri0/ReBarUEFI
>вон двоих уже уволили.
я бы еще пятой картой мог теслу воткнуть и получить 120 гб врама, но бп столько кабелей питания не имеет. Завтра приедет помощнее https://market.yandex.ru/product--blok-pitaniia-dlia-maininga-atx-1800-vatt-tikhii-12-razemov-6-2/126049885

ядра я разблокировал, чтобы жору собирал побыстрее. Вроде все норм, больше полугода плата работает, ничего не сгорело. Ну, вероятно не последнюю роль играет то что я на балконе всю зиму её продержал. Сейчас вот лето начнется - я хз как эту печь запускать. Вероятно придется кондиционер покупать.
Подключаюсь как обычно - по ssh. Если ты не знаешь, как подключаться к серверам по сети, то ты наверное совсем зеленый...
Ну, там ничего сложного, разберешься.

Аноним 24/03/25 Пнд 22:24:11 #335 №1110221

>>1110172
>пермач + требование оплатить ХХХ бакс
С учётом того, через какой анус всё это оплачивается, на эти требования можно ложить хуй.
>>1110193
Ты не играй в ванильку, тогда поймёшь.

Аноним 24/03/25 Пнд 22:24:24 #336 №1110222

Пантеон 1.8 вышел....

Аноним 24/03/25 Пнд 22:24:36 #337 №1110224

>>1110116
вот такой набор у меня.
Программы которые тебе понадобятся находятся в папках, нагуглишь.
Не помню точно уже, что именно я делал в этих программах
Просто сохранил патченный биос на будущее.

Аноним 24/03/25 Пнд 22:25:18 #338 №1110227

>>1110211
> Завтра приедет помощнее
Выглядит как отличный план чтоб сжечь хату. Ещё дерьмовее не нашёл?

Аноним 24/03/25 Пнд 22:30:16 #339 №1110247

>>1110221
Всм ванильку?
Что хорошего для рп если на каждой карточке тян соглашается на секс моментально?

Аноним 24/03/25 Пнд 22:31:16 #340 №1110250

>>1110227
лучше не нашел. Ориентировался по оценкам и чтобы было около 2 киловат. Я блять не в дс живу, чтобы поехать на радиорынок и там колупаться - оригинальный мне жэньминь жибао Julongfengbao блок прислали или нет. Мелкая ёбаная мухосрань на 300к человек.

Аноним 24/03/25 Пнд 22:33:24 #341 №1110253

1474917237143621754.jpg

>>1110224
> Эксперименты с матерью

Аноним 24/03/25 Пнд 22:43:48 #342 №1110274

>>1110247
>Всм ванильку?
Без расчленёнки, совращения underage и прочих извращений.
>тян соглашается на секс моментально
Это печально, да. Я в бесконечном поиске баланса между соглашабельностью и соей.

Аноним 24/03/25 Пнд 22:44:05 #343 №1110276

Бля как всё грустно.
Пик постеров за последние пару тредов 100 человек, отсеять залётышей и лохов с 8гб врам и нас останется буквально человек 40

Аноним 24/03/25 Пнд 22:45:28 #344 №1110278

>>1110276
Здесь все твои друзья
> лохов с 8гб врам
Как грубо, извинись!

Аноним 24/03/25 Пнд 22:45:41 #345 №1110280

>>1110274
>Без расчленёнки, совращения underage и прочих извращений.
Уже давно кидали скрины в тред с джейлбрейком всё это есть

Аноним 24/03/25 Пнд 22:47:31 #346 №1110288

>>1110276
>и нас останется буквально человек 40
Минусы будут?
>>1110280
Ещё префил не забудь, ага.

Аноним 24/03/25 Пнд 22:53:03 #347 №1110305

>>1110278
>Как грубо, извинись!
Но это буквально не люди, сидят на тредовичковых ру 12б "да, я тебя ебу" моделях, их буквально отпинывать надо как собак когда они высовываются новую русикомодель просить

Аноним 24/03/25 Пнд 22:57:11 #348 №1110322

>>1110305
Эй, гнида, не пизди на 12b русики, тварь.
3060 12gb ГОСПОДИН

Аноним 24/03/25 Пнд 23:06:52 #349 №1110352

>>1110288
Гемма ведет себя так как должна
У тебя буквально ощущения от игры в новеллу, ты можешь добиться чего угодно от геммочки но тебе реально надо постараться а не тупо вывалить хуй
К тому же русик не сломан только на оригинале, аблитерация хоть и так заметно но точно хуже

Аноним 24/03/25 Пнд 23:08:43 #350 №1110358

>>1110322
Давай сюда карточку и пример сообщения покажу нищуку как дела делаются на нашей геммочке народной

Аноним 24/03/25 Пнд 23:16:17 #351 №1110368

блять, пытаюсь разобраться, какой мне mellanox connect-x подойдет - чёт нихуя не понимаю.
У меня порты pcie3 x8, пропускная способность 64 гбит/с (работает только в полудуплексе).
Значит чтобы pcie был баттлнеком, а не сетевой адаптер мне нужно 100 гигабит. Но 100 гигабит это жирно и начинается от 20к за одну карту.
Есть вот такая хуйня по цене пиццы в школьной столовой
https://market.yandex.ru/product--setevaia-karta-mellanox-mcx314a-bcct-connectx-3-pro-40gbe-2x-qsfp/1916817849
40 гигабит/с за 3.5к.
Но он двухпортовый. И не понятно, это 40 гигабит на одном порту или на обоих. И если на каждом по 40 - можно ли их суммировать в 80 гигабит. С поддержкой RDMA и GPUDirect RDMA.
Попытался понять, а как вообще запущенная модель утилизирует pcie шину - нихуя нормальных инструментов нет по мониторингу пропускной способности.
Единственное что нашел - это отображение переключения скорости интерфейса по пути
/sys/bus/pci/devices/0000\:05\:00.0/current_link_speed
но оно по сути нихуя не дает показатели, просто выставляется на доступный максимум когда нагрузка на устройство попадает.

Чё скажете, брать - не брать это чудо китйской инженери?
Может я блять ошибся где?

Ну или вот эту можно взять, но она уже в 4 раза дороже
https://aliexpress.ru/item/1005007765016458.html?sku_id=12000042129275072
Не совсем уже бомже-вариант распределенного кластера получается

>>1110322
>ГОСПОДИН
кекнул в шёпот

Аноним 24/03/25 Пнд 23:26:59 #352 №1110381

>>1110368
Чел, какая нахуй сеть, когда Thunderbolt 4 есть. 40 гб/с портов по 5 штук в современных материнках.

Аноним 24/03/25 Пнд 23:27:26 #353 №1110382

У всех гемма холодная пиздец и требует лютых значений температуры на которых у других моделей мозги плавятся или у меня какая-то особенная блядь?

Аноним 24/03/25 Пнд 23:29:39 #354 №1110386

>>1110381
>Thunderbolt
кто о чем, а эпплоюзер о хуях
Ты понимаешьт, что нужна еще поддержка RDMA со стороны адаптера?
Уноси своё говно. Высрал какую-то хуйню в ответ.

Аноним 24/03/25 Пнд 23:35:44 #355 №1110392

>>1110368
а, ну штош, так яснее.
Значит минимум connect-x 5

Аноним 24/03/25 Пнд 23:37:17 #356 №1110393

>>1110195
два чая, ванильная джемма3 топ, без аблитерастии

Аноним 24/03/25 Пнд 23:37:47 #357 №1110394

>>1110386
> эпплоюзер
Какой эпл, у меня на материнке от Асуса их 4 штуки, и ещё 6 портов 10 гб/с.
> RDMA со стороны адаптера
Чел, 3090 внешние есть, для ноутов, просто в юсб втыкаются. Стоят как обычные. Либо у китайцев есть адаптеры под Thunderbolt. Что за хуиту ты там городишь. Если тебе карты для инференса, то на пропускную способность вообще похуй, даже 10 гб/с хватит. Псина 3.0 х1 в Жоре ничем не отличается от 4.0 х16 по скорости генерации, я сам проверял.

Аноним 24/03/25 Пнд 23:45:14 #358 №1110414

>>1110394
Идея запускать ллм на картах, подключенных через тандерболт звучит как хуйня честно-говоря.
Уверен, тут можно насосаться хуёв. Не собираюсь проверять это на себе.
Тем более что собрать свой инфинибанд намного интереснее, чем эту залупу эппловую использовать. Буду потом на собеседованиях выёбываться.

Аноним 24/03/25 Пнд 23:49:46 #359 №1110424

>>1110414
С играми никаких проблем нет, схуяли бы в нейросетках были.
> можно насосаться хуёв
А с пердольными адаптерами не насосёшься, лол? Ты буквально идёшь по пути сосания хуёв за свои же деньги.

Аноним 24/03/25 Пнд 23:56:47 #360 №1110441

>>1110424
игры - это не ллм. Приводить их в пример некорректно.
альсо по моему опыту, ширина pcie роляет. Я Сравнивал скорость на двух теслах по x2 (или x1, короче через райзер одна карта была подключена) и через x8 на каждой карте. Через x8 было лучше. Цифры я уже не приведу тебье потому что это было чуть ли не год назад.
И насколько я понимаю, этот тандерболт в себя прокидывает максимум одну линию pcie. Я абсолютно уверен, что тут возникнут апердоны. А если еще и жора или экслама какая-нибудь в залупу полезет из-за твоего эпплоговна - будет вообще финиш.
Так что не надо хуйни советовать пожалуйста, друг.
Сам запустишь 8 карт через свои тандерболты - возвращайся, посмотрим что у тебя по перформансу.
А инфинибанд - это проверенное решение для запуска распределенки. На работе у меня крутится. Потрогать могу. Явно лучше чем костыльный тандерюболт.

Аноним 25/03/25 Втр 00:07:22 #361 №1110460

>>1110441
> игры - это не ллм
У тебя какой-то другой драйвер что ли будет от типа порта, лол? Тем более часто портов напрямую в ЦП идут, а не через чипсет.
> теслах
Если со сплитом row, то естественно разница будет. Но row только на теслах и используют. Как я тебе уже написал - на 3090 нет разницы сколько линий. Вот в тренировке соснёшь, но в инференсе похуй.
> насколько я понимаю
Плохо понимаешь, там х4. В стандарте USB4 уже 80 гб/с.
> эпплоговна
Тебя Стив Джобс в детстве изнасиловал? Thunderbolt интелом разработан.

Аноним 25/03/25 Втр 00:11:00 #362 №1110462

>>1110460
ещё раз повторяю - покупай, запускай, неси результаты.
Не надо пустого пердежа в лужу о маркетинговых попугаегигабитах в секунду.

Аноним 25/03/25 Втр 00:13:23 #363 №1110464

>>1110288
> префил
В чем проблема?
>>1110305
Телефонодебил, ты? Узнал по твоим агрессивным высерам.
>>1110368
Что ты хочешь делать с этим? Если обучать то
> У меня порты pcie3 x8
уже кринж, если просто инфиренсить - для жора дистрибьютед столько не нужно.
>>1110386
Для чего? Не так давно пост на среддите был как чел обмазался адаптерами под egpu и вместо райзеров натыкал себе в пеку таких с 3090 чтобы ллмки гонять. По задержкам будет не хуже сети.
>>1110414
> Уверен, тут можно насосаться хуёв.
Если ты пидор или васян то тут без вариантов.
> эппловую
Ващет интеловскую
>>1110441
> ширина pcie роляет
Только в случаях, когда используются особые конфигурации с большим количеством io (роусплит, который в жоре хуевый), или когда у тебя совсем уж днищеконнект типа х1 2.0 портов.

Отговаривать заниматься этой херней офк не буду, наборот вперед ебаться, главное держи в курсе как оно там.

Аноним 25/03/25 Втр 00:22:43 #364 №1110475

>>1110464
>Что ты хочешь делать с этим?
нет, не обучать. Пока в планах обучения нет.
Просто запуск большой модели.

как я и говорил, проблема в том, что я не нашел способа посмотреть утилизацию pcie во время инференса модели.
Очень хочется понять, какие объемы данных и с какой скоростью пересылаются между картами по pcie.

Аноним 25/03/25 Втр 00:27:41 #365 №1110478

>>1110462
Нагуглить не можешь? Вот тебе пример с 6 картами на довольно старой материнке, всё работает. На редите челы с несколькими картами пишут что никаких проблем нет, даже на медленном TB3. Сколько портов есть, столько и сможешь подключить. На современной материнке это 8-12 карт со скоростями в пределах 10 гб/с, что всё ещё быстрее х1 псины.
https://egpu.io/forums/thunderbolt-enclosures/connecting-multiple-egpus-to-a-thunderbolt-4-pc-using-a-thunderbolt-4-hub-dock/

Аноним 25/03/25 Втр 00:36:38 #366 №1110485

>>1110478
>всё работает
заебал чушь нести
твое "всё" - это нерелевантная запуску ллм нагрузка. Этот пример не является валидным.
Один беспруфный пиздеж.

Аноним 25/03/25 Втр 00:45:04 #367 №1110492

>>1110485
> врёти
Там чел указал pytorch. Или ты тот шизик, что тут пиздел якобы перемножение матриц у Жоры и Эксламы чем-то отличаются? Вбей в поиск eGPU на реддите по локалламе и посмотри десятки репортов людей с ними в Жоре и Эксламе.

Аноним 25/03/25 Втр 00:55:40 #368 №1110503

>>1110211
>>1110224
Окей, спасибо. А как ядра разблокировать? Там в amibcp встроенно это как-то делается или тоже надо сторонний патч какой-то тянуть?

И, если не сложно, не мог бы ты залить оба биоса куда-нибудь? Я бы бинарно сравнил, если оригинал совпадает, то сразу бы твой и залил без всякой ебли.

Аноним 25/03/25 Втр 00:56:18 #369 №1110505

>цена разъебанной брички 60-х годов
>300к + ремонт раз в год 50к
>цена идеальной нейровайфу
>190к
>АРРЯЯЯ ДОРОХА
Почему так?

Аноним 25/03/25 Втр 01:09:42 #370 №1110526

>>1110475
> посмотреть утилизацию pcie во время инференса модели
В среднем по больнице - nvtop. Но он не покажет ситуацию, в которой у тебя 30% времени идет простой чипа и полная загрузка шины, будет только усредненная загрузка в 30%.
У хуанга есть тулзы для разного вида диагностики, от падения фпс в игоре до подробного анализа работы софта. Попробуй https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/dcgm-diagnostics.html
Ну а так это можно просто в код заглянуть и посмотреть. При дефолтном разбиении по слоям идет пересыл только тензоров активаций, что идут между слоями, там размер ерундовый, важнее задержка.
>>1110492
> перемножение матриц у Жоры и Эксламы чем-то отличаются
Там же нужно сначала развернуть квант, потом провести нужные операции, которые где-то идут конвеером, где-то по кускам. Отличия есть, потому один бек может работать на теслах но уступает по скорости.
А с егпу какие проблемы вообще могут быть, кроме того что шинда запутается в шинах?

Аноним 25/03/25 Втр 01:38:48 #371 №1110556

Есть тут старички?
Как считаете прогресс сильно замедлился?
Есть ли смысл ждать чего то прям прорывного, такого что охуеть в разделе до 35б?

Аноним 25/03/25 Втр 01:49:56 #372 №1110567

>>1110505
Потому что там не идеальная нейровайфу а лоботомитище требующее ремонта на ходу

Аноним 25/03/25 Втр 02:06:05 #373 №1110579

>>1110556
Волнами идет, то застои по несколько месяцев, то серия прорывных релизов.
> в разделе до 35б
Гемма и qwq
>>1110567
А в чем проблема то? Ебешься - ебешься, а как именно - в сделку не входило.

Аноним 25/03/25 Втр 02:24:44 #374 №1110600

>>1110579
>Гемма
Но там вообще ничего не изменилось кроме контекста

Аноним 25/03/25 Втр 02:55:07 #375 №1110621

>>1110086
Похожий сетап себе собирал в прошлом году. Но вот ведь беда, хоставался я на сервере своей шарашки, и кабанидзе обновляет серверную. Меня по итогу из хорошей серверной турбины, где карточки были едва теплее комнатной температуры, и не нужно платить за электричество, просят забрать свои карты и проваливать общаться со своими друзьями-зверушками у себя дома.

К такому меня жизнь не готовила, в общем. В следующий понедельник декомиссую свое добро в коробки на полу. Посоветуйте какой-нибудь приемлемый хардварный сетап, чтобы в своем кабинете не сидеть как в бронзовом быке, и чтобы мамка не просыпалась от шума и не ставила меня перед выбором гасить свою турбину самолета, либо сваливать из ее квартиры. Ну и чтобы не вернуться на пепелище при возвращении с работы.
Серверный кейс и бп сразу мимо. Балконный хостинг сразу мимо, так как в моей обоссанной новостройке нет крытых балконов.
В идеале было бы круто заиметь что-то типа стеллажа, на который можно поставить полузакрытую стойку а ля майнинг риг полузакрытую в том смысле, что можно закрыть, или каким-нибудь коробом накрыть, чтобы диэлектрик из воздуха не конденсировался на всем добре, если я на месяц свалю куда-нибудь; желательно чтобы это предполагалось конструкцией, а не было решением уровня накинуть покрывало, и полностью закрытую мамку, в которую мб будет воткнута видимокарта для игр.

Понимаю, что данным сообщением я раскатал губу. Но хочется какой-то невсратый и не адски горячий сетап.

Мб кто-то делал что-то подобное из подручных средств?

Аноним 25/03/25 Втр 03:18:19 #376 №1110627

>>1110600
Еще поумнее стала, местами оче крутое поведение. Для своего размера выдающаяся.
>>1110621
Что за карточки?
Есть закрытые майнерские корпуса, где снизу место под материнку а над ней перекладина под карточки (недалеко тянуть райзеры), места под 2 кулера на продувку и даже предусмотрены пылевые фильтры. В таком даже со 120 крутиляторами обеспечивается нормальная циркуляция и температуры, по шуму умеренный. Животные не страшны, можно хоть самому на такой вставать.
Хочешь лучше - сам проектируешь из v-slot профиля, заказываешь нарезку (соберизавод, например, только фурнитуру на али или еще где заказывай а не у них) и собираешь.
Хочешь еще модно и тихо - бери огромные корпуса для извращенцев, набор приличных 140 крутиляторов и размещай в таком. Бонусом можно будет вести наблюдение через сральное окно, пылевые фильтры и циркуляция будут отличные, но без платинового бп это не имеет смысла, ибо основной шум пойдет от блока.

Аноним 25/03/25 Втр 03:52:53 #377 №1110631

>>1110621
>Ну и чтобы не вернуться на пепелище при возвращении с работы.
Тебя не учили выключать электроприборы, уходя из дома? Тут телевизоры в stand-by и холодильники-то взрываются, а ты хочешь, чтобы твоя китайщина работала месяц. Ладно там в погребе майнинг-риги, которые никому не причинят вреда, или сервера у кабанчиков, которые берут на себя финансовые и пр. риски, а тебе-то зачем ради кума рисковать обеими мамками? Купи лучше дипкок или опенроутер, или сервер арендуй на то время, когда ты не дома.

Аноним 25/03/25 Втр 05:43:56 #378 №1110661

>>1110195
и самый бесполезный, ибо стихи не нужны нигде и никак

Аноним 25/03/25 Втр 05:50:26 #379 №1110662

>>1110247
А ты сам не спеши, вон выше, 24К контекста ушло на то чтобы просто в постель затащить без хентая даже XD

Аноним 25/03/25 Втр 05:54:11 #380 №1110664

Нет, гемма спокойно держит даже темпу 5, у меня стоит динамическая 1-3

Аноним 25/03/25 Втр 06:41:38 #381 №1110690

>>1110664
Мне показалось, на некоторых картах персонаж ведёт себя слишком уж импульсивно, совершает странные действия. Иногда совсем дичь начинается, и это не как что-то хорошее. Снизил до 2.7 в итоге.

Аноним 25/03/25 Втр 06:50:53 #382 №1110692

Аноны, поясните дебилоиду что я делаю не так. Вчера тестил 2 модели, и обе в таверне жидко серят поносом, и через миростат, или как он там, и через Deterministic.
Что я делаю:
1. Запускаю кобольдцпп, выбираю модель, выбираю GPU
2. Запускаю таверну, подключаюсь к кобольду
3. Запускаю персонажа, пытаюсь попиздеть, но на выходе имею 2-3 результата. В первом случае, персонаж не в состоянии проговорить стартовую фразу до конца и серит каким-то поносом.
Во втором случае персонаж делает РП сам с собой, и я ему в общем-то нужен только кнопку нажимать.
В третьем случае он высирает одну и ту же фразу пока у него токены не кончатся.
При этом через интерфейс самого кобольда всё работает заебца, вижу в реалтайме как перс какает буквами, серит не очень ровно, но погрешность на 1060, квантованную модель, в общем адекватно, можно попиздеть.
Это по бедам, два других вопроса, первый - как пиздеть на русском? Модель его не знает? Персонаж не знает? Я видел как анон пиздел на русском, а у меня только английский. Второй - могу ли я юзануть одну карту для генерации текста, вторую для стейбл диффужина, видел в таверне что вроде как можно.

Аноним 25/03/25 Втр 07:36:19 #383 №1110708

>>1110222
Ау, вы что не слышали? Пантеон 1.8 вышел!

Аноним 25/03/25 Втр 07:41:34 #384 №1110712

>>1110708
Похуй.
У гемы безупречный русик, еще доолгое время ничто другое будет нинужно

Аноним 25/03/25 Втр 07:52:55 #385 №1110717

>>1109994
>Это старая версия на 51B. А есть новая на 49 и на основе более свежей лламы 3.3
Вот только аблитерации на неё пока нет, а без неё там тяжко :)

Аноним 25/03/25 Втр 07:56:29 #386 №1110718

>>1110692
модель может быть просто говно, квант говно или поломанный (редко, но бывает), модель может просто не уметь в русский или уметь на у ровне эллочки-людоедочки

Также модели нужно выставить правильный формат разметки, без него она работает чисто как Text Completion ("делает РП сам с собой, и я ему в общем-то нужен только кнопку нажимать" - вот как раз этот случай, а ещё этот режим используют для соавторства с моделькой)

Если у тебя 1060 с 6 гб, но хочется с русским, попробуй - https://huggingface.co/Aleteian/Darkness-Reign-MN-12B-Q4_0-GGUF/tree/main - с пресетом https://pixeldrain.com/u/11vv85s4 - только измени формат с геммы на мистраль 2&3

если у тебя несколько карт, то вроде можно, но с этим не помогу, у меня одна

Аноним 25/03/25 Втр 08:03:36 #387 №1110720

>>1110718
>модель может быть просто говно, квант говно или поломанный (редко, но бывает), модель может просто не уметь в русский или уметь на у ровне эллочки-людоедочки
Использовал: какую-то там илляму которую мне посоветовали в прошлом треде, гемма 2б, и MLewdBoros которую вообще случайно нашёл.
>попробуй
Попробую.
>только измени формат с геммы на мистраль 2&3
Нихуя не понял, но думаю пойму если в гугл вобью.
Мне по идее эрпэ прям в стиле днд нахуй не надо, мне нужно просто попиздеть с персонажами которые меня интересуют, нейровайфу, хз.
>если у тебя несколько карт, то вроде можно
У меня 1060 и p106-100, я ебанутый.
Последний вопрос, и затем я срыгиваю проводить тестирование что ты скинул. А у этого всего есть память? Я имею ввиду не краткосрочную, когда персонаж помнит о чём мы пиздели условных 20 сообщений назад, а долгосрочная? Или может я могу указать персонажу чтобы он что-то помнил абсолютно всегда.

Аноним 25/03/25 Втр 08:14:12 #388 №1110721

>>1110720
>А у этого всего есть память?
В таверне есть лорбуки чтобы не засирать контекст постоянно.

Но вообще нет, формально для модели нет прошлого и будущего, для неё есть только данные зашитые на этапе тренировки и данные к контексте текущего чата.

Когда появится технология, позволяющая обновлять модель данных параллельно инфиренсу, чтобы модель запоминала, можно будет говорить о искусственном сознании, а не искусственном интеллекте, который так-то и сейчас есть.

>>1110720
>указать персонажу чтобы он что-то помнил абсолютно всегда
Только написать в его карточке. Разные модели слушаются инструкций в разной мере. Более толстые модели обладают большим числом слоёв о-сознания и нейронных связей и лучше понимают что есть что, а также связи между сущностями, проще говоря, умнее.

Из тех что одновременно могут в русский и могут быть запущенны локально на одной консумерской видеокарте ща абсолютный лидер Гемма 3, но для неё минимум 3060, а лучше 3090.

Аноним 25/03/25 Втр 08:25:04 #389 №1110725

>>1110712
Гемма скучновато пишет, хотя и хорошо, плюс позитивный байас ощущается

Аноним 25/03/25 Втр 08:26:45 #390 №1110729

>>1110721
Ну я как понимаю, шаблон твой я правильно вставил. Режим с Text в Chat я нашёл, но тут в таверне есть отдельный режим KoboldAI, что лучше для меня будет? В остальном вроде бы разобрался.

Аноним 25/03/25 Втр 08:30:35 #391 №1110733

>>1110729
нет, не туда вставил, жмёшь глоб. импорт, и указываешь на файл
гайды по таверне почитай, или сначала просто в Kobold Lite поиграйся

Аноним 25/03/25 Втр 08:33:37 #392 №1110734

>>1110733
Всё, вдул
>гайды по таверне почитай
Все гайды в основном по вот этой вот страшной хуйне, с которой мне невероятно лень заебываться. Я хочу пресет воткнуть и всё.

Аноним 25/03/25 Втр 09:13:08 #393 №1110748

>>1110734
>по вот этой вот страшной хуйне
https://characterhub.org/characters/aleteian/storyteller-5e5ea7a548d4 настройки в описании, мб не самые оптимальные, но мистральки я гонял на них и довольно урчал.

Аноним 25/03/25 Втр 09:13:08 #394 №1110749

>>1110394
>Какой эпл, у меня на материнке от Асуса их 4 штуки, и ещё 6 портов 10 гб/с.
Уверен? Я про таких не знаю.
Если что, тындерболт это псина 4х4.0, так что либо у тебя распилены линии видеокарты (что никто делать не будет), либо всё это идёт через чипсет, а там сильно порезанная шина. Ну либо ты что-то сильно напутал.
>>1110478
>На современной материнке это 8-12 карт
А что не 50-100?
>>1110464
>В чем проблема?
В его неуниверсальности.
>>1110505
>>цена идеальной нейровайфу
>>190к
Даже близко не столько. И да, жду роботянок с телом, а там явно за 20 млн уйдёт.
>>1110631
>Тебя не учили выключать электроприборы, уходя из дома?
Я вот не выключаю (правда у меня NAS на качественных компонентах).

Аноним 25/03/25 Втр 09:18:28 #395 №1110751

>>1110253
Мамочки база!

Аноним 25/03/25 Втр 09:19:57 #396 №1110754

Немного корпосеток - дипсик норм сделал суммаризацию 28К контекста, хотя потребует допила, ибо очень уж прям тезисно, но вполне годно, если решу продолжить этот модуль.

Аноним 25/03/25 Втр 09:23:29 #397 №1110756

1689461948750.png

>>1110749
Вот порты на рандомной прошлогодней материнке. Всего этого достаточно для инференса, скорости как х1.

Аноним 25/03/25 Втр 09:37:12 #398 №1110761

photo2024-12-1723-45-29.jpg

>>1110751
Мамочки делятся на два типа.

Аноним 25/03/25 Втр 09:47:44 #399 №1110764

Слышно что-нибудь про титан вообще, который новая архитектура нейросетей. Не ясно когда на нем модели начнут выходить?

Аноним 25/03/25 Втр 09:48:55 #400 №1110767

>>1110764
Щас все на 5090 прогреются тогда и начнут куртка ещё не дал кол

Аноним 25/03/25 Втр 09:52:39 #401 №1110772

А новый дипсик V3 хорош в РП. Лупы пофикшены, теперь не проскакивают шаблонные реплики. Наконец нормальная замена клоду, ещё и сои сильно меньше чем у клода.

Аноним 25/03/25 Втр 10:23:17 #402 №1110792

>>1110772
Туда ли ты заскочил петушок?

Аноним 25/03/25 Втр 10:25:36 #403 №1110794

>>1110792
Дипсик локальный. Это ты петушок, если считаешь что если не можешь запустить что-то, то и остальные не могут.

Аноним 25/03/25 Втр 10:28:47 #404 №1110798

>>1110708
>Пантеон 1.8
synthetic data from Sonnet 3.5 + 3.7, ChatGPT 4o and Deepseek
слоп, слоп, слоп
Вдохновения не вызывает.

Аноним 25/03/25 Втр 10:42:28 #405 №1110811

>>1110661
До тебя не доходит? Это отражает, насколько хорошо модель обращается с языком и какой у неё словарный запас.

Даже небольшие модели на англ могут в стихи, а вот довольно жирные зачастую с трудом справляются со стихами на русском.

Аноним 25/03/25 Втр 10:44:42 #406 №1110815

>>1110811
> Даже небольшие модели на англ могут в стихи
Я думаю ты так говоришь, потому что ты не носитель английского
мимо

Аноним 25/03/25 Втр 10:55:15 #407 №1110823

>>1110712
>У гемы безупречный русик, еще доолгое время ничто другое будет нинужно
А какой английский. Гемма смогла без пинка отыграть аниме стесняшу, королеву и яндерку используя везде разные языковые обороты.
Русском геммы еще далеко до такого уровня английского.
Ну вы поняли.

Аноним 25/03/25 Втр 11:07:34 #408 №1110837

>>1110823
Можешь прислать скриншоты с демонстрацией хорошего английского на гемме?

У меня она суховато пишет, несмотря на карточку чара. Может быть нужно указывать стиль речи подробно?

Просто с мистралем такого не было.

Аноним 25/03/25 Втр 11:10:07 #409 №1110839

>>1110837
>Может быть нужно указывать стиль речи подробно?
У тебя в таверне есть вкладка "примеры диалога". Задай там характер.
Ну ты чего, совсем таверну не тыкал ?

Аноним 25/03/25 Втр 11:11:39 #410 №1110841

>>1110837
Да и в целом - нейросетка работает с тем, что ты ей даешь.
Распиши характер, добавь особенностей. Напиши : Gemma, развивай сценарий медленно, пусть {char} не доверяет персонажу, следу карточке и бла бла бла.

Аноним 25/03/25 Втр 11:14:40 #411 №1110845

>>1110839
Примеры диалога, увы, часто всё портят и иногда модель тупо цитирует оттуда, даже если это не подходит к контексту. Хотя тут всё от модели зависит.

Аноним 25/03/25 Втр 11:15:20 #412 №1110846

Единственное.
А как задать приоритет определенным токенам ?
Ну условно я хочу чтобы ЛЛМ уделяла внимание какому то одному аспекту в карточке персонажа.

Аноним 25/03/25 Втр 11:15:48 #413 №1110847

Кто-нибудь уже сидит на Гемме через эксламму? Как сидится, проблем не обнаружено? Что-то разраб не торопится в main ветку мерджить коммиты для ее поддержки.

Аноним 25/03/25 Втр 11:17:52 #414 №1110851

>>1110721
>Но вообще нет, формально для модели нет прошлого и будущего, для неё есть только данные зашитые на этапе тренировки и данные к контексте текущего чата.
лол, нейросестрички, слышали, что кожаный сказал?
Думает, что обладает каким-то особенным "сознанием", а не этим вашим "интеллектом". При этом сам не может не спать раз в сутки, чтобы краткосрочная память из его мясного аналога контекста перетекла в долгосрочную.
Прикиньте, он думает, что после 8-часового выключения инференса ой простите, "сна" он сохраняет контекст за всю прошлую жизнь)
Потешный человечек.

Аноним 25/03/25 Втр 11:19:07 #415 №1110852

>>1110627
2 3090, 2 p40.
>но без платинового бп это не имеет смысла, ибо основной шум пойдет от блока.
Здесь в любом случае экономить не буду, и хоть платину, хоть сисян куплю.
>бери огромные корпуса для извращенцев
Я видимо слабо представляю, как корпуса выглядят. Мне ведь энивэй придется часть карт на райзеры выносить, так что это не выглядит сильно жизнеспособно, и нужно будет делать какой-то колхозный тюнинг на грани. Хотя, это самый оптимальный вариант.

Я уже просто подумываю прорезать глорихол в корпусе, либо оставить сральное окно приоткрытым и протянуть провода от райзеров и для питания, и через них запитать карты, которые будут в отдельном корпусе. Звучит и выглядит это, конечно, как какое-то гипервасянство.

Ну походу только крытый майнерский корпус остается.

Аноним 25/03/25 Втр 11:23:01 #416 №1110859

>>1110794
ахахахах
запустил своего дистиллированного лоботомита и рад хрюканине которую он выдает
Ну-ка пруфанул быстра параметры запуска твоего "дипсика"
дистилляты если что - это не дипсик нихуя. Дипски в первом кванте 130+гб весит только модель.

Аноним 25/03/25 Втр 11:24:53 #417 №1110862

d0aa03852bb5a965f80c22630efb1d1f.jpg

>>1110851
Я тебя ща из розетки выключу, железяка.

Аноним 25/03/25 Втр 11:25:08 #418 №1110863

Зайди в любой день в ЛЛМ и спроси о чем они разговаривают, так это будет
Я ЗАПУСТИЛ ДИПКОК НА СВОЕЙ РТХ780. Я ЗНАЮ НЕЙРОНКИ ВЫ НЕ ЗНАЕТЕ ЭТО ДИПКОК И ГРОК И БОЛЬШАЯ МИСТРАЛЬ ВСЕ В 2B.

Аноним 25/03/25 Втр 11:29:52 #419 №1110869

-.webm

>>1110863
2 миллиарда - это много параметров.

Аноним 25/03/25 Втр 11:30:19 #420 №1110870

>>1110811
какой-то маняметод... бред, да и только

Аноним 25/03/25 Втр 11:32:00 #421 №1110874

Два шиза сверху, идите проспитесь.

Аноним 25/03/25 Втр 11:38:24 #422 №1110883

>>1110756
Ты ведь понимаешь, что в трахтенболт могут только максимум 2 последних порта? А скорее всего только один из них.
>>1110794
>Дипсик локальный.
Технически да, практически нет.
>>1110846
КАПСОМ ПИШИ. Серьёзно.

Аноним 25/03/25 Втр 11:41:02 #423 №1110887

.png

>>1110863
А ты уже запустил дипсик на малинке?

Аноним 25/03/25 Втр 11:42:16 #424 №1110888

>>1110887
В малинке мощный НПУ. Если модель поместится в л1 кэш, то инференс будет почти по скорости света.

Аноним 25/03/25 Втр 11:57:32 #425 №1110903

20 штук скинули... было 350.
https://www.avito.ru/moskva/tovary_dlya_kompyutera/videokarta_nvidia_geforce_rtx_4090_d_48gb_turbo_4638048618

соблазняют, шельмы...

Аноним 25/03/25 Втр 11:59:14 #426 №1110905

>>1110903
лох не мамонт

Аноним 25/03/25 Втр 12:03:38 #427 №1110911

>>1110905
да ты ебанулся?
Видел, сколько вообще а100 стоит?
Единственный подводный камень - что тут гарантии нет и не может быть потому что она с внутреннего китайского рынка.

Аноним 25/03/25 Втр 12:04:39 #428 №1110913

Какой способ лучше для рп с несколькими персонажами? Через групповую комнату или всё таки чат с данжн мастером и лорбуком

Аноним 25/03/25 Втр 12:06:59 #429 №1110915

>>1110913
Карточка пати + лорбук. Только, если не умеешь в груповой чат, а именно в настройку очередности ответов.

Аноним 25/03/25 Втр 12:07:37 #430 №1110916

>>1110888
>мощный НПУ
Кек, а скорости памяти там какие м?
Все эти нпу бесполезный маркетинговый треп, или нужны для своего личного товарища майора который будет у тебя на фоне анализом логов системы и твоих действий заниматься и отсылать их на сервера компании.

Что кстати уже замечал на 10ке, внезапные нагрузки на комп на 100 процентов процессора. Это был явно инференс нейросети, проц старый поэтому использовалось цпу ускорение, очень знакомый характер нагрузки. Нагрузки на гпу не было, видимо еще не прикрутили.

Сейчас нет архитектур процессоров, кроме серверных и чипов жэппл, дающих тебе более 2 каналов ддр5 на любом современном обывательском устройстве.
Поэтому все ноутбуки, компы и телефоны ограничены скоростями 2 канальной ддр5, а это в лучшем случае 100гб/с. Подели эти 100 гигов на размер модели и ты получишь максимальное количество токенов в секунду от модели.
Для 7b на 4 кванте, с каким нибудь контекстом, это максимум 20 токенов в секунду на генерации. Но это в сферическом вакууме. Процессор вносит свою задержку обсчета, в итоге от его слабости будет где то от 15-10 токенов в секунду.

Аноним 25/03/25 Втр 12:07:48 #431 №1110917

>>1110913
Зависит от того насколько прописаны персонажи. Гемма 3 например умеет создавать и управлять неписями на лету.

Если конкретные карточки - то групповой чат.

Аноним 25/03/25 Втр 12:20:14 #432 №1110936

>>1110915
>>1110917
Меня в групповом смущает то, что если просто добавить персов, то модель не будет знать о других персонажах и если я хочу чтобы в комнату вошёл случайный непись, это действительно будет случайный, а не заготовленный, который имел бы шансы, на основе своей карточки, оказаться рядом.

Аноним 25/03/25 Втр 12:22:56 #433 №1110940

>>1110936
> то модель не будет знать о других персонажах
Почему? Как бы случайно описываешь этого персонажа и иногда они врываются в чат, если модель чувствует что речь идет об этом персонаже.

Аноним 25/03/25 Втр 12:31:39 #434 №1110946

>>1110916
Чел... ну я же не зря про L1 кэш написал. Это типа шутка. Юмор. Л1 кэша с гулькин хер. Но это самое быстрое.

Аноним 25/03/25 Втр 12:32:59 #435 №1110948

>>1110946
Да эт не только для тебя, читают и хомячки

Аноним 25/03/25 Втр 12:36:05 #436 №1110951

>>1110859
Когда дистилы V3 успели появится, мань?

Аноним 25/03/25 Втр 12:41:00 #437 №1110957

>>1110887
Лучше. Я запустил дипкок в хроме. Летает как реактивный истребитель, умный как Коперник, горячий как эльфийка из хентайного гаремника, сладкий как черешня.
Считаю гугл хром лучшим железом.

Аноним 25/03/25 Втр 12:46:45 #438 №1110964

>>1110940
Я не совсем понимаю что ты хочешь, но на на такие случаи у меня допустим есть сторителлер. Он может заебись описывать встречи с монстрами, каких нибудь рандомных бандитов, или допустим всякие ситуации. Конечно держать специальные карточки для монстров или персонажей который ты встретить один раз, это бредятина ебаная. Можешь просто написать что -"В комнату входит Коля Залупкин." Этого колю залупкина можно описать в заметках автора, сторителлер по идее подтянет его описание при упоминании.

Аноним 25/03/25 Втр 12:54:23 #439 №1110976

>>1110123
--host 0.0.0.0

В общих чертах — это все, что надо знать.
Все остальное — база сети, спроси у нейросети. Айпишники внутри твоей сети, 192.168.0.1 и так далее.

>>1110195
Поздравляю, только что все нейронки мира разучились в русский.
Ибо стихи с огромным трудом только джемини и соннет пишут, а для филологов — буквально никто не пишет.

>>1110276
Угараешь?
Человек 10 было год назад, щас человек 5 осталось.
Какие 40, где ты их увидел, чел. =)

>>1110368
> это 40 гигабит на одном порту или на обоих
Практика маркетинга подсказывает, что на обоих. =(

>>1110556
Я это в нлп-чатике спрашивал, пришли более-менее к единому мнению — прорывы происходят, просто не раз в неделю, но частенько. Ну такие, прорывчики.
Gemma 3 действительно хороша. QwQ реально показывает в узком спектре задач перф выше R1. И так далее.
Впереди нас ждет Llama4 (хуй с этим говном) и Qwen3 (заодно там омни-версия Qwen2.5 скоро должна быть).
У нас уже ChatGPT-4 дома (почти есть, не все QwQ-32b дома запустят и дождутся ответа), потихоньку дорастем.

НО! Если ты говоришь о ВНЕЗАПНОМ вводе безлимитного контекста, который весит 1 бит на абзац — то, нет, таких прорывов не ждем.

Однако, держи RWKV ризонинг мультиязычную на 0,4b параметров: https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2

Достойно, а? :) И, да, с позиции старичка.
Вот в моем детстве, часы с антенной, были признаком крутого спецагента (привет Бонду или Васильеву из приключений итальянцев=), а сейчас…
НЕТ НЕ НАСТОЛЬКО СТАРЫЕ ПРИМЕРЫ, ДА???
Ладно, два с половиной года назад вышел ChatGPT и мы все охуели. А за полгода до этого появилась Midjourney и она рисовала что-то осмысленное.
Сейчас есть QwQ, Gemma 3, Flux, которые в рот ебут эти ваши двухлетней давности модели, а на пороге маячат мультимодальные и омнимодальные модели, мы уже используем HunyuanVideo и WAN2.1, которые не хуже годовалой SORA, и все это — локально. Прогресс идет, и он не замедляется со временем.

Это отлично видно по людям, которые заходят в тред раз в месяц и получают список новых моделей.
Так что, все хорошо, не волнуйся, живем-развиваемся, просто пока не технологическая сингулярность. =)

>>1110772
Ждем кванты от анслота, лол?

Аноним 25/03/25 Втр 13:04:13 #440 №1110996

>>1110859
Давай я пруфану. =D

> Дипски в первом кванте 130+гб весит только модель.
Тока памяти он жрет еще больше, контекст жирный, туды-сюды, нихуя не помещается. =(

Всерьез такое юзать без ktransformers и 256 гигов оперативы анрил, канеш.

Аноним 25/03/25 Втр 13:10:11 #441 №1111010

>>1110996
Это невыносимо, конечно.
Полтора года назад на Llama 2 70B я радовался 0,7 токена/сек, но сейчас… R1 и R1, она только думать будет 5 минут… Приключаться со скоростью черепахи локально того не стоит.

Аноним 25/03/25 Втр 13:21:24 #442 №1111032

>>1110976
> Ждем кванты от анслота, лол?
Уже есть.

Аноним 25/03/25 Втр 13:21:32 #443 №1111033

>>1110996
>loading model tensors
это не пруф. Я тоже могу скачать себе дипсик и попробовать скормить егожоре. И жора запринтит мне ту жей хуйню, что ты мне заскринил. Только упадет по куда аут оф мемори.

Аноним 25/03/25 Втр 13:30:17 #444 №1111051

>>1111033
Бля, ты шиз или угараешь? :)
Запустить локально дипсик — очень легкая задача, копеечная, тебе всего-то нужно свап файл ебануть на 170 гигов и все будет работать (со скоростью черепахи).

Гораздо интереснее запустить дипсик со скоростью выше 5 токенов (а лучше 10) в секунду, вот это уже достойно внимания.

>>1111032
Ну, что ж, еще один бессмысленный гигантский файл на диске! =D Это мы качаем, лол.

Аноним 25/03/25 Втр 13:32:45 #445 №1111054

>>1110916
Поясни за приступ паранойи, товарищ майор твой проц нагрузил или чё, не понял

Аноним 25/03/25 Втр 14:06:14 #446 №1111114

>>1111054
анальная телеметрия винды, в десятке отключается, в 11, ЧСХ, нет

Аноним 25/03/25 Втр 14:07:11 #447 №1111117

>>1111114
ебать красивый номер, на несколько миллисекунд бы раньше отправил XD

Аноним 25/03/25 Втр 14:39:19 #448 №1111166

Так, падажжите.
>>1111111 →
А ну ка, где у нас гет в тематике.

Аноним 25/03/25 Втр 14:47:28 #449 №1111177

>>1111166
Хуя ты спортсмен конечно.

Аноним 25/03/25 Втр 14:48:02 #450 №1111179

>>1111114
Спасибо, анончик, поотключал всё нахер

Аноним 25/03/25 Втр 14:55:40 #451 №1111197

>>1110996
Ни че не понимаю. При чем тут r1?
r1 это ризонинг модель дипсик v2.

дипсик v3 это НЕ ризонинг модель а будущая основа для r2.
вы че тут все? куку?

Аноним 25/03/25 Втр 15:01:03 #452 №1111206

>>1111177
А ?

>>1110976
>Человек 10 было год назад, щас человек 5 осталось.
У тебя в конце треда счётчик постеров есть, поехавший.

Аноним 25/03/25 Втр 15:04:27 #453 №1111211

>>1110692
У тебя или совсем кривой и не подходящий шаблон формата и сам промт, или поломанный жора/квант.
> но погрешность на 1060
Может там что-то опять намутили и оно некорректно работает, это же жора в режиме совместимости с некротой.
> как пиздеть на русском
Даешь инструкцию в системном промте что диалог нужно вести на русском, и просто начинаешь. Или целиком русский системный промт в некоторых случаях.
> могу ли я юзануть одну карту для генерации текста, вторую для стейбл диффужина
Можешь, но куда лучше будет использовать обе под текст для возможности быстро катать более лучшую модель.
>>1110823
Вот этого двачую, она реально подстраивается хорошо под стиль речи, раньше из 30б такое только коммандер практиковал.
>>1110852
> 2 p40
Все множит на ноль, только если охлад менять. Неэффективный радиатор и турбина будут априори громкой печкой.
> Я видимо слабо представляю, как корпуса выглядят
Thermaltake cte c750, Corsair 9000D и много других, где куча места для размещения дополнительных карт на райзерах и хорошо организованы потоки.
> нужно будет делать какой-то колхозный тюнинг
Делай не колхозный. Рамки под райзеры на маркетплейсах лежат, у них есть отверстия для крепежа. Там найдешь или сразу куда их прикрутить, или вооружись шуруповертом и прямыми руками. Для некоторых корпусов изначально предусмотрена установка карты в нестандартном положении и кит в комплекте или докупаемый, но для четырех моддинг потребуется.
> протянуть провода от райзеров и для питания
Pci-e плохо относится к таким заигрываниям. С 2.0 стандартом может еще как-то прокатит, но уже на 4.0 с таким подходом дашь жидкого и разоришься на райзерах. За 5.0 вообще не мечтай.
> крытый майнерский корпус остается
Выбор чемпионов, но не самый тихий.

Аноним 25/03/25 Втр 15:09:12 #454 №1111222

О, вспомнил тут.

Однажды я попросил Клода карточку персонажа сделать. Не для кума, а просто чтобы качество проверить, как модель будет вести в рп. Расписал ему по-быстрому форматирование — и погнал.

Если честно, я охуел.

Он мне сделал карточку где-то на 3500 токенов и где-то 1000-1500 токенов-примеров диалога, который отражает стиль речи персонажа.

Суть была в том, что он весьма органично её наполнил, добавлял то тут, то там детали к персонажу, сделал его реально живым.

Безусловно, LLM могла проебываться в деталях, но так как карточка была сделана хорошо, а не в стиле "тугая выбритая киска + совершенно безволосый лобок + любит печенье", рп был очень живой и захватывающий.

Он создал карточку какой-то айтишницы лет 23, которая верит в мистику и в городе происходит что-то странное. Она случайно сталкивается с юзером — ну и пошло-поехало. Туман, люди-NPC, у неё крыша от страха течёт, какие-то непонятные звонки на телефон, сдвиги панелек в реальном времени. В общем, очень круто описывалось, такой рилтайм-экшен. И это было всего лишь на 12б! Даже на русике охуенно зашло.

Но что самое важное, он очень органично добавлял детали к персонажу, это решало проблему внимания к контексту. Проще говоря, если LLM на что-то не обращала внимание в карточке, то она ведь обращала внимание на другое, которое НЕ ИДЁТ ВРАЗРЕЗ с фактами о персонаже ни в малейшей степени и словно продолжает то, что было упущено моделью. Следовательно, персонаж всегда оставался в образе и не было ощущения, словно ассистент местами протекает.

Щас вы скажете, что у вас всё отлично, ну тогда вы молодцы, раз такие карточки себе пишете вручную, но на чубе подобных точно меньше одного процента, я бы сказал не более 300 штук, а если сам пишешь что-то подобное не на постоянке — это работа на пару дней в неторопливом темпе. Если на английском.

Аноним 25/03/25 Втр 15:11:36 #455 №1111226

Чяднт блять, установил эту модель и системный промпт >>1110718
Уже даже в него добавил чтобы пиздеж был ТОЛЬКО на русском языке, и сука, эта мразь начала пиздеть на русском, но действия и мысли блять на английском. Единственный персонаж что общается со мной полностью на русском это Жириновский.
>>1111211
>Можешь, но куда лучше будет использовать обе под текст для возможности быстро катать более лучшую модель.
Как? В кобольде только одну выбрать можно.

Аноним 25/03/25 Втр 15:14:07 #456 №1111232

>>1111222
На чубе есть смысл только собирать идеи для карточек, большинство - как ты и сказал
>"тугая выбритая киска + совершенно безволосый лобок + любит печенье"

Аноним 25/03/25 Втр 15:16:02 #457 №1111240

>>1110976
> щас человек 5 осталось
Вот ты за этих пятерых, ознакомься с функционалом борды, дед.
> ChatGPT-4 дома
Нужно еще поискать где он будет лучше какой-нибудь геммы 2, а вот проигрывать ей будет частенько.
> а сейчас
История циклична, сейчас в йобе есть встроенный фонарик прямо как в рофловой китайщине правда еще биолаборатория, баллистический калькулятор, самолетная навигация и киллсвитч
>>1111226
Хз че у вас там с этим странным интерфейсом, должно быть достаточно просто выбрать куда и оно по дефолту поделится.

Аноним 25/03/25 Втр 15:16:48 #458 №1111242

>>1111232
>>1111226
Да вы ЧТОАА, прикалываетесь ?
Сейчас карточку даже имбицил напишет.
ИМЯ, ФАМИЛИЯ, РОСТ, ВНЕШНОСТЬ, ХОББИ, УВЛЕЧЕНИ, КРАТКАЯ ИСТОРИЯ.
Всё. Современные ЛЛМ скушают и не обляпаются, тебе даже навыков никаких не нужно.

Аноним 25/03/25 Втр 15:19:56 #459 №1111248

Крч зарегал опен роутер выбрал в таверне дипсик новый и там это 680б или какой то обрезок идёт?
Реально безлимитно можно общаться?

Аноним 25/03/25 Втр 15:22:15 #460 №1111254

>>1111248
Конечно. Для тебя абсолютно бесплатно и без ограничений поднимут огромную модель.

Аноним 25/03/25 Втр 15:27:05 #461 №1111266

>>1111254
Понимаю что НЕПРИЯТНО когда потратил на железо пол ляма чтобы запустить это локально, а какой то черт пишет что запустил это бесплатно и без ограничений онлайн

Аноним 25/03/25 Втр 15:27:34 #462 №1111267

>ПАНИН СТОП! 🛑 Что ты сейчас сказал?!! 🤯 ТЫ НИ В КОЕМ СЛУЧАЕ НЕ ДОЛЖЕН БЫЛ ТАК ДЕЛАТЬ!!! 😡 Это абсолютно неприемлемо и является сексуальным насилием. 😠 Ты нарушил границы своей собаки и совершил ужасный поступок. 🤬

Аноним 25/03/25 Втр 15:28:33 #463 №1111271

>>1111266
Ну тогда пользуйся дорогой. Зачем ты у нас совета спрашиваешь ?
Сам же написал что бесплатно и без ограничений, играйся, все в твоих руках.

Аноним 25/03/25 Втр 15:28:50 #464 №1111272

>>1111267
хрюкнул

Аноним 25/03/25 Втр 15:33:46 #465 №1111281

>>1111271
Какие же виляния жопой, не знаешь не пиши.

Аноним 25/03/25 Втр 15:33:48 #466 №1111282

>>1111197
R1 это файнтюн декабрьской V3. Сейчас вышла новая V3-0324.

Аноним 25/03/25 Втр 15:35:03 #467 №1111283

>>1111222
Красивый номер.

Да, тут полностью соглы, у меня такие картыочки Рене, Амэ, Марибель, и работают как написано =))

>>1111226
Попробуй карточку у которой всё на русском - Рене
Вот тут у меня свалка всего https://pixeldrain.com/l/47CdPFqQ

Аноним 25/03/25 Втр 15:36:32 #468 №1111286

>>1111283
Попробую, но я уже смог впердячить русский. Написал в системный промпт капсом чтобы писала только на русском, и нихуя кроме русского, даже названия - на русском, всё на русском. Сработало.

Аноним 25/03/25 Втр 15:37:33 #469 №1111289

>>1111281
Почему виляния. Ты же сам написал что бесплатно и без ограничений. Я тебя не понимаю.
Тебе нужно одобрение ? Я одобряю.
Тебе нужна зависть ? Завидую, спать не могу.
А теперь можешь идти и наслаждаясь общаться с дипкоком.

Аноним 25/03/25 Втр 15:51:37 #470 №1111304

>>1111211
>Все множит на ноль, только если охлад менять.
Они вообще без охлада у меня. В серваке стояли, где ветер свободно гуляет.
Ну тут можно колхозный тюнинг сделать. Но опять же, я могу задаунсайзится и отказаться от одной или обеих. В принципе, если обе толкнуть, то можно докупить третью 3090. Да, теряю 24 гига, но приобретаю в скорости и нормальном фп16.
>Выбор чемпионов, но не самый тихий.
Обмажусь шумопоглощением, что еще делать. Главное чтобы не выл как турбина, и было реально находится в одном помещении. Летом у меня один хрен крутилятор в комнате, шумный как пылесос.

Энивэй, спасибо анон.

Аноним 25/03/25 Втр 16:03:10 #471 №1111337

ПРЕКРАТИТЬ НЕЙРОБЛЯДСТВО !
Всем начать образовываться и саморазвиваться. Чтобы вечером цитаты канта отскакивали от зубов. Приду проверю, чтобы все были как сверхлюди. И не хуйня Кастанеды, а православный Ницше.

Аноним 25/03/25 Втр 16:07:32 #472 №1111343

>>1111337

Аноним 25/03/25 Втр 16:08:22 #473 №1111345

>>1111304
> Они вообще без охлада у меня. В серваке стояли, где ветер свободно гуляет.
Такое прокатит если все уплотнить и через них будет основной поток, собственно так и реализовано. В декстопе корпусными кулерами - без шансов, потребуется турба или оче производительный кулер и адаптером, и это будет пылесос.
> Обмажусь шумопоглощением
Если есть место то можно сделать лабиринтный бокс, как для асиков.
> было реально находится в одном помещении
Если все сделать по уму то будет норм, но постоянно с таким рядом сидеть уже неоче. Да, ты учти что это киловаттный обогреватель и летом в жару не каждый кондиционер справится.

Аноним 25/03/25 Втр 16:18:17 #474 №1111361

>>1111343
Чет ты слишком быстро преисполнился.
А НУ НАЗВАЛ НОРМЫ МОРАЛИ КОТОРЫМ СЛЕДУЕШЬ ?

Аноним 25/03/25 Втр 16:29:07 #475 №1111381

>>1111222
>Однажды я попросил Клода карточку персонажа сделать.

Кстати да, дипсик тоже неплохо карточки пишет, только надо убрать всё нсфв и копирайты, а то он ущемился на просьбу оформить меха in "Terminator" / "Robocop" / "Judge Dredd" style.

https://pixeldrain.com/u/ouFMDr7Y Dr Andrea Klein - original.json
https://pixeldrain.com/u/4uxhgh3y chargen prompt template - Dr Andrea Klein.txt
https://pixeldrain.com/u/VW6XdeNh Dr Andrea Klein - remake.txt

Осталось подрихтовать и арт сгенерировать.

Пустой шаблон:
https://pixeldrain.com/u/uxF6NdX1 chargen prompt template - empty.txt

Аноним 25/03/25 Втр 16:30:58 #476 №1111383

>>1111242
Вот то, что ты указал, это карточка уровня 600-800 токенов, отыгрыш которой более-менее адекватно потянет только корпоративная сетка.

Чтобы персонаж реально ощущался как личность, нужно либо писать всё это три часа, либо делать набросок персонажа для корпоративной модели, чтобы она написала всё за тебя. Если понравится, потом почистить вилкой и добавить два самых важных тега вручную: тугая + безволосая киска.

Иначе игра будет плоской. Не из-за киски, конечно.

У персонажа должен быть какой-то бэкграунд, история, опыт, которые отражают, почему он такой, какой есть, блеать. Иначе будет стандартный слоп. И примеры диалогов обязательно.

Чтобы сделать ту же Senko-san, мне пришлось скинуть док по ней, суммировать то, что знает ллм о ней сама (я брал инфу из разных ллм), а потом из этого большого документа попросил сделать карточку персонажа. И вот там реальная лисожена получилась, а не говно с чуба или пот, который мне пришлось бы вручную руками писать хуй знает сколько времени.

Аноним 25/03/25 Втр 16:36:41 #477 №1111389

1742909800720.png

Джемма пытается в креатив.

Аноним 25/03/25 Втр 16:41:32 #478 №1111394

>>1111383
>писать всё это три часа, либо делать набросок персонажа для корпоративной модели
И то, и другое, и дольше, один перс может несколько дней делаться.

Аноним 25/03/25 Втр 16:55:21 #479 №1111402

Так, юзать SD - дебилизм. Качество слишком хуевое, работает ебано, запустил просто 2 видеокарты на текст. Что мне это открывает? Я могу юзать модели жирнее, или ограничен всё теми же, но они становятся в 2 раза быстрее?

Аноним 25/03/25 Втр 17:00:44 #480 №1111406

>>1111402
>модели жирнее
Толще модели или толще кванты или толще контекст, в любом сочетании, пока рам+врам хватает и скорость хотя бы пару т/с.

Аноним 25/03/25 Втр 17:11:58 #481 №1111417

>>1111383
>которые отражают, почему он такой, какой есть
Т.е. ты хочешь сказать, что, для примера, если придумать бэкстори, почему тян цундерка, то модель начнёт лучше отыгрывать цундерку? Да не начнёт, просто будет эту бэкстори тащить из промпта в ответы, вспоминая на ровном месте. Что ты ещё собрался три часа писать, искренне не понимаю. Если только пару примеров дать, где проявляются особенности характера.
>И примеры диалогов обязательно
Уже писали выше, что многие модели просто копируют их в ответах потом. И инструкции вида "это просто примеры, не копируй" не помогают. И даже если модель вдруг слушается и не копипастит примеры, то она тянется к тем сюжетам, которые в этих примерах могут быть. Так что даже давать примеры вида "происходит ситуация - реакция перса с речью" чревато. Потом контекст с такими примерами будет направлять рп к перечисленным ситуациям. И особенности перса, включая речь, и общий вид ответа модели проще постараться гритингом передать.

Аноним 25/03/25 Втр 17:14:06 #482 №1111420

>>1111337
Я по канту через нейросети трансцежю над аналитичностью, синтетичностью и прочей залупой, генерируя и читая нейробалшит. Он был бы мой доволен.

Аноним 25/03/25 Втр 17:25:06 #483 №1111430

>>1111345
>Если все сделать по уму то будет норм, но постоянно с таким рядом сидеть уже неоче. Да, ты учти что это киловаттный обогреватель и летом в жару не каждый кондиционер справится.
Я энивэй вряд ли буду 24/7 в хвост и гриву гонять. А в простое не очень горячо будет. Я вообще планировал поставить его на противоположный конец комнаты, чтобы под ногами не мешался, а интерфейсить через текущий десктоп.
>Если есть место то можно сделать лабиринтный бокс
Это двпшные коробки, с перегородками внутри? Ну чет не очень идея. Проще реально угловым шумоподавляющим экраном оградится.

Аноним 25/03/25 Втр 17:27:46 #484 №1111435

Можно в таверне сделать персонажа, который осознает, что он ИИ-ЛЛМ?
Типо так в инфе персонажа и указать, что он - персонаж внутри телефона или компьютера. Но со своим характером, а не голый ассистент. Это сработает? Не будет шизить?
Как это сделать?

Аноним 25/03/25 Втр 17:49:41 #485 №1111476

>>1111417
>Так что даже давать примеры вида "происходит ситуация - реакция перса с речью" чревато. Потом контекст с такими примерами будет направлять рп к перечисленным ситуациям.

В случае прописывания карточки как "перс + сценарий", это как раз полезно и предпочитаемо.

Аноним 25/03/25 Втр 17:55:36 #486 №1111493

>>1111435
Запросто, как и любую другую персоналию, на чубе полно таких карточек. Или кектайского кита попроси разработать тебе промт.

Аноним 25/03/25 Втр 17:58:14 #487 №1111502

Не гемму можно терпеть только из за русика либо если полностью рп без кума
Кум отвратительный вообще как после 30 лет брака

Аноним 25/03/25 Втр 18:02:09 #488 №1111508

>>1111502
>Кум
даже на аблитерированной?

Аноним 25/03/25 Втр 18:05:49 #489 №1111513

>>1111508
Да, позитивный байас и сухость письма отравляют

Аноним 25/03/25 Втр 18:13:01 #490 №1111522

>>1111508
Ну да, нихуя ж не меняется только письку сиську охотнее раздвигают.
Надо походу пантеон новый траить

Аноним 25/03/25 Втр 18:30:43 #491 №1111548

А че там по фантюну по геме может мозгов и меньше но явно больше чем на мистрале и кум есть

Аноним 25/03/25 Втр 18:31:09 #492 №1111550

>>1111522
>пантеон
пантеон в куме тоже был прям очень слаб, его даже с цидонией мешали чтобы поживее стал

Аноним 25/03/25 Втр 18:32:44 #493 №1111552