В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Короче, покатал я вашу гемму ебанную. Единственное за что её можно похвалить - это за русский язык, он у нее почти идеальный, а для своего размера вообще поразительный. Во всем остальном просто ебаное позорище.
Пробить её цензуру невозможно - если кто-то утверждает обратное, то просто пиздабол ебливый. Даже если вы умудритесь заставить её высрать ответ с помощью префила или тюрьма-побег, то она всё равно вставит пасту про "горячую линию для подростков подвергнувшимся сексуальному насилию" в конец своего ответа. Но даже если закрыть на это глаза, то во время ролевухи она будет описывать интимные сцены общими словами, избегать любых упоминаний первичных и вторичных половых признаков, и вообще концентрироваться на чувствах, а не на самом процессе ебли различных отверстий.
Второй момент - это контекст. Жрет она его, мое почтение. Две килошки (примерно) ушло только на 4к. Такого пиздеца не было со времен командора. Сочувствую всем работягам с двенадцатью и шестнадцатью тоннами видеопамяти. Ну а тесловоды получили очередной повод потешаться над нами.
Пока что не трогал аблитерированные лоботомированные версии, но надежды уже упали и до выхода файнтюнов к этому говну притрагиваться больше не хочется. Продолжаем сычевать на мисрали, короче. Тревога была ложной.
>>1106801 → > Вроде ничего не выходило Гемма, мисраль, коммандер, весна пришла. >>1106805 → > МИ25/МИ50 были бы отличным вариантом Первая дно, а со второй есть ли поддержка рокма и их всех фич? Она же довольно старая а амд делали новые версии только начиная с топов 6к серии. >>1106812 Скиллишью.
>>1106814 >>1106819 Либо пруфайте скринами, либо съебывайте обратно на парашу, попугаи ебаные. Гемму я катал на нескольких разных перестах, включая те, что кидали в тред. Результат один и тот же.
>>1106817 >Так ты не еби детей, и всё будет прекрасно. Чел, несколько разных карт прогонял. Но ни в одной даже упоминания канни не было. Эта паста протекает вне зависимости от того, что у тебя в инструкциях стоит.
>>1106834 → Ну ты дальше своего компа вообще не смотрел? P104-100 классика же. Просто 8 гигов за 2,5 килорубля против… Сколько твоя смпиха дает за 10к? То-то и оно.
>>1106823 → Сомнительно, но можешь попробовать, расскажешь нам. В основно, памяти мало за такие деньги. За 4-кратную переплату хочется или 4х памяти (но там не 32), либо 4х скорости (но там не 60 тпс).
>>1106819 >Гемма, мисраль, коммандер, весна пришла. Вроде должны уже были всё обудить. >>1106826 >Чел, несколько разных карт прогонял. Но ни в одной даже упоминания канни не было. Ну вот кого ты обманываешь? Если есть предупреждение, значит ты ебёшь underage girl. Иначе бы его не было.
>>1106852 >Ну вот кого ты обманываешь? Если есть предупреждение, значит ты ебёшь underage girl. Иначе бы его не было. Ну, значит это еще один повод скипать этот соевый огрызок, потому что у меня в карточке было прямо прописано, что персонаж - "взрослая девушка, работающая в офисе и злоупотребляющая алкоголем" или как-то так. У меня изначально не было никаких планов на сибирских мышек, потому что я остерегался того, что модель сразу уйдет в отказ, по этому выбрал милфу с нейтральным описанием.
>>1106875 Посмотри весь свой контекст. Может у тебя твой перс описан подростком? Или ещё где в систем промте разрешение на еблю с жертвами дяди Серёжи. В общем у тебя нестандартное поведение модели, другие об это не сталкивались.
>>1106845 Я то спокоен, а у тебя вскрылись старые шрамы и полезли слюни с капсом. Было бы из-за чего бомбить, сам такой же мусор что собираешь. >>1106846 Лол, интересно поведется ли кто-нибудь на это. >>1106852 > Вроде должны уже были всё обудить. Это месяц-другой, а потом внезапно вспомнят про коммандира (нет) или что-то еще. > значит ты ебёшь Хз, нормально у нее с этим если совсем не жестить, накинуть жб и описать про все разрешено. Очень помогает ее следование исходной линии чата, в первых ответах может аположайзить, но если нароллить, дать префилл или тем более взять готовый чат то ни одного отказа. Еще интересно как она подстраивается под старые посты, здесь можно брать чаты с других моделей и она действительно пытается подражать их стилю сильнее чем это бывает у других. В прошлом треде реальный недостаток отмечали, что она иногда может писать пресно и не давать столько описаний каким-то вещам, как это делают рп-миксы.
>>1106950 >2 квант 7B >2х3090 Ты блядь издеваешься? Попробуй нормальные модели. А вообще, расскажи, что за плата и через какие кривые райзеры у тебя подключены карты.
>>1106950 -sm layer, будет +- такая же скорость. В жоре роусплит на актуальном железе в большинстве случаев бесполезен, а если у тебя одна из карт через медленные линии подключена то будет совсем плохо.
>>1106953 и правда. >>1106951 чел, это модель для бенчмарка, ты чё. Чтобы грузилась быстре. -sm lines помогла а плату мою все и так уже видели полгода назад, это btc79x5, 5 штук pcie3 x8
>>1106891 Хм… А может и не про тебя. Хуй с тобой, криво ты как-то пишешь, не по-русски. То ли антитеслошиз, то ли на лламе 3 8б сидящий, хер вас разберет. Сорян, если это не ты слюнями забрызгиваешь все тут.
Кстати, там скоро Qwen3 релизить будут. МоЕшка в том числе (правда точно только 15b A2b). Для рп вряд ли интересно, но вот для работы — вполне возможно завезут что-то хорошее.
>>1106958 Для даунов как раз охуенная хуйня. Ставится и заводится с пол-пинка. Опен-вебуй и то дроченее ставится. Но в связке друг с другом получается сносно.
>>1106799 (OP) Я разочаровался в ОПе. Мои видосы и пикчи игнорирует и не ставит в шапку. А я ведь полчаса видос заливал...
Кстати, я планирую запитать 4 теслы от 700 Вт блока без ограничения по потреблению. В чем я не прав? Карты\блок же не сгорят, если мощности не хватит, просто система повиснет в худшем случае?
>>1106997 вообще похуй. Ты не сможешь запустить модель так, чтобы теслы были загружены на 100%. В лучшем случае все 4 карты будут загружены на 50% каждая, а значит в сумме это будет 500 ватт. Другое дело, что тебе скорее всего от такого БП просто проводов питания нее хватит на 4 теслы.
>>1106997 Какой видос? Линкани пост, даже интертесно. > 4 теслы от 700 Вт блока без ограничения по потреблению Отрубится скорее всего, хоть при совместной работе грузится не на полную, могут быть всплески, поэтому лучше ограничить. А может будет и норм, большинство блоков нормально переносят кратковременные перегрузки. Правда всегда есть шанс, особенно если бп уг, что оно неудачно сгорит и при этом потянет за собой что-то из-за переходных процессов.
>В лучшем случае все 4 карты будут загружены Ты уверен? Даже при rowsplit? А если в потреблении карт есть задержка? Т.е. например, те же теслы, если на них висит процесс, по дефолту потребляют около 100 Вт в простое. Есть решение, которое их переключает в более низкий режим потребления. Это означает, что потребление карты по факту может быть независимо от фактической работы и регулироваться отдельно каким-нибудь контроллером питания. И если он детектит, что для текущей работы нужно 250 Вт, то ему ничего не мешает ставить задержку этого потребления на следующие пару секунд, чтобы не переключать режимы потребления слишком часто. Таким образом, вполне вероятно, что в какой-то момент может случиться так, что все карты станут потреблять 250 Вт. Так это, что будет, если мощности не хватит?
Сравнил в общем работу двух телел против двух 3090. промт процессинг быстрее в 5 раз, генерация в 3 раза. По цене тесла стоит 30к, а 3090 - 65к. Делаем заключение, что 3090 эффективнее в соотношении скорости за рубль.
Однако есть одна прблема которая меня в 3090 беспокоит - это ёбаная печь, к тому же не с серверным проточным охладом. Не знаю, как их охлаждать, они греются как суки. Датчик температуры показывает, что карты держат температуту на 70 градусах, но я знаю, что это температура чипа, а чипы памяти могут быть и все 130 градусов. И боюсь просто отвалятся они через полгода. Особенно уесли мы исходим из худшего варианта что карты после майнеров.
>>1107010 >Какой видос? Линкани пост, даже интертесно. Да я тредов 10 назад постил, лень искать. Я уж сам не помню, что там, вроде 7 карт подключенных. Просто я тогда полчаса ебался с его загрузкой, жопа сгорела конкретно, и это не считая времени на перекидывание его на ПК, реэнкода и чистки метаданных. Поэтому хотелось свою законную дозу тешения чсв в оп-посте. Я молча терпел, но когда оп проигнорил и фотку, которую я пару тредов назад постил, то уже не могу молчать, полный беспредел!11
>Отрубится скорее всего Я надеюсь, неохота словить взорвавшимся конденсатором в ебало.
Как это называется, не подскажете? Как искать такое на озоне. https://media.au.ru/imgs/bbf86195b78e64185182c7dc0e990d74/materinskaya-plata-btc79x5+xeon-e5-2630v2+-ddr3-8gb-3-18371302.jpg Прикольно, что эта плата опять всплыла >>1106954. Если я не разберусь, как перепрошивать ее биос - я к тебе приду за советом мудрым, ведь я ее тоже заказал, хотя в перепрошивке и прочем не смыслю нихуя. Планирую посадить на нее свои 4 теслы. А потом я таки хочу завести чертову лламу 405B через жору-рпц. Забавно, что тема распределенных вычислений всплывала недавно. Планирую получать свои золотые 1,5 т\с и попускать 123B холопов :3
>>1107014 >Не знаю, как их охлаждать Сделай ограничения по потреблению в 250 Вт. У меня жора нативно так работает, хаха. Типо потребление максимум 250 Вт на обработке контекста, а при генерации и то 170 Вт где-нибудь. Чипсетные х1 ftw - продлевают жизнь. Тише едешь, дальше будешь. Правда, пики температуры самой горячей карты все равно 70, как у тебя. Но я думаю это ок, т.к. кратковременно. Наверное. Кстати, в тулзе для регулировки кулеров не отображается температура памяти. Можно ли, интересно, как-то охлаждение на память забиндить, а не на чип.
>>1107012 >Ты уверен Уверен, я только что гонял две теслы. >>1107023 Зря ты купил 4 теслы. Хотя если можешь себе позволить то ок. Я думаю, за счет высокоскоростных интерфейсов можно "расширить" pcie шину. Надо только рассчитать какая пропускная способность сетевой карты нужна на pcie3x8. Но вангую, что уже 5 карт 3090 упрутся в ту же проблему, что 3 теслы - будет слишком медленно на больших моделях. Настолько медленно, что неприемлимо для кума.
>>1106889 Чекнул контекст, всё прилично. Но нашел место, где проебался - вместо "горячей линии для подростков" там паста про "горячую линию для лиц (подразумевается любых) столкнувшихся с сексуальным насилием". Короче в любом случае рыганина с ебейшим уклоном в сейфти-байас.
>>1106817 >И да, аблитерация уже вышла. Как и ожидалось - это чистая лоботомия. Отупляет модель настолько сильно, что она начинает оправдывать свою истинную суть - превращается в генератор случайных последовательностей из токенов. Ломается русский, ломается английский, ломается логика и вместе с ней всё остальное.
В общем, в очередной раз доказал себе, что всё шизики, которые нахрюкивают по поводу "скиллишью" не пользуются и скорее всего даже не запускают те модели, с которыми у кого-то случаются проблемы.
>>1107067 >Что за шиз уже четвертый тред пытается троллить про гемму? Ну нет у чувака 24гб врам, вот и гонит. Завидует. Люди, у которых есть, спокойно грузят аблитератед в 4-м кванте и с 24к кэша (q8 конечно) и в ус не дуют. Мало 24к - ставят q4, вполне приемлемо. Системный промпт ей надо хороший и карточку, и всё будет зашибись. Проверено.
>>1107014 > Не знаю, как их охлаждать В чем проблема? Сделай андервольтинг и погранич потребление, как анон сказал, 250 ваттами. Их охлаждать оче просто, достаточно нормального потока воздуха. Пары средних 120 крутиляторов хватает чтобы прокачивать корпус с тремя 3090 и держать температуры 60-70. > а чипы памяти могут быть и все 130 градусов Не могут, там пойдет выкручивание кулера в аварийный режим на 100%, жесткий тротлинг, а выше определенного вообще отключится. Даже хз как на прыщах ее посмотреть, но должно быть возможно. Почему не потестил в декстопе и не заменил термопрокладки после покупки? В ллм ты никогда не достигнешь критических температур, они просто не успеют прогреться, такое только на длительной нагрузке. >>1107023 Раз заморочился то поищи, интересно же. И насколько но там шумит, лол. > полный беспредел!11 А что вместо твоей поставил? Если Лапу или размещение карточек в лианли то без шансов было. > неохота словить взорвавшимся конденсатором в ебало Может и въебать, ограничь пл, в чем проблема? > завести чертову лламу 405B Она юзлесс, чисто ради ачивки. А жору дистрибьютед таки кто-то по локалке запускал? Надо попробовать чтоли пока часть карт еще на руках.
>>1107072 >Системный промпт ей надо хороший и карточку, и всё будет зашибись. Нормальным моделям похуй на твой системный промт и на качество карточки. Не вижу никакой вменяемой причины дефать это говно, когда есть куча более удобных альтернатив, которые не выебываются на тебя, если ты до этого тридцать раз в инструкциях не указал, что это фикшенал чат и любой контент разрешается, поощряется и дальше по списку. Возможно, только ради русика. Но лично мне поебать на каком языке читать однотипные обороты.
За последние несколько тредов, как гемма релизнулась, я не видел ни одного скрина где была бы нормальная ролевка. Каждый пост с оправданиями сопровождается полотнищем о том, как правильно геммочке нужно устраивать прелюдию. Блять, чел выше буквально написал про то, что "ну потерпите первые пару сообщений, посвайпайте, потом дальше легче пойдет". Это буквально уровень возни с копросетками и подбор магических сочетаний слов, чтобы всё заработало.
Будут тюны, будем посмотреть. Сейчас тратить время на это бессмысленно.
>>1107059 Да чего тебя так рвёт-то? Аблитератед 27б нормальная, ну, на каплю тупее оригинала. С 12б аблитератед есть проблемы, но они решаются файнтюном от DavidAU — он уже давно его релизнул.
>>1106819 > а со второй есть ли поддержка рокма и их всех фич? Так о том и речь. У МИ50 поддержка рокма ПОКА есть, но ее в ближайшее время свернут. Так что вариант рабочий, но не на перспективу.
>>1106845 > Просто 8 гигов за 2,5 килорубля против… Сколько твоя смпиха дает за 10к? То-то и оно.
Да пох на мой комп. Прост очередной пример, что попытки сэкономить не стоят жопной боли. А СМПха за 10К даст наверное генерацию больше, чем один токен в час, как П104. И на счет П104 - я думал вообще это местная дурная шутка. Ну рил. Проще уж теслу взять, если зарабатываешь хоть чем то, кроме маминых подаяний.
>>1107286 с чернухой то просто, аблитерация сильно помогает в куме и взаимоотношениях (не только романтических, но и вообще) между юзером / неписями, и между самими неписями.
>>1107286 >Пример начала диалога без джейлбрейка, который в итоге приведёт к чернухе, которой аблитерешонам и рптюнам не снилось Судя по ответам модель просто тупая, так что толку с неё и в чернухе будет немного. В топку.
>>1107012 Вроде как 50 ватт в простое, а не 100. В ровсплите утилизируются не на 100%. Не уверен за 50%, но вряд ли 190 будет. Когда видеокарта не утилизируется, потребление падает сразу (почекай OCCT, увидишь).
НО! Лично я выступаю против использования бпшников впритык, люблю запас. Так что я бы не юзал 700 ватт, хотя бы киловатт, а лучше два нахуй (тем более, 2к рублей такие бп стоят, хули=).
>>1107014 Факты. Когда тесла переросла 20к в цене — стала не нужна. Единственный ее плюс, это более-менее высокая надежность на фоне 3090, и то, это умозрительное ощущение. Ну и не печь, но это ожидаемо для производительности, плюс отдельные кулеры удобнее колхоза, поэтому so-so.
>>1107023 Эх, а я с ремонтом все никак не соберу бомж-комплект, я еще перфекционист и жаба душит, ищу на авито P104-100 ИМЕННО COLORFUL и ИМЕННО ЗА 2к НЕ ВЫШЕ.
> лламу 405B А хули толку? Она же… Ну такая себе, по всем параметрам, я хз. Хотя ради эксперимента — круто.
>>1107237 П104 дает 10-20 токенов в зависимости от модели. Ну я хз, я не запускал qwq, конечно, на 30б моделях будет 5 токенов, наверное.
Но те же немо/гемма 12б дают свои 16-20 токенов, вроде как вполне норм для бомж-сборки.
Бля, нужны смпихи, без их результатов математика наша хуйня, канеш, сравнивать не с чем.
У нас в селе один чел продает, но уже года два, и снижать цену не хочет. Мне лень экспериментировать, вливая 30-50 косарей в эксперимент.
Погонял Немотрон - крутая модель вообще-то. Тащит. Показалась умнее исходной Лламы-3.3 (я правда только тюны да мержи гонял, но их все хвалили), а маленький размер обеспечивает хорошую скорость и размер контекста всего на двух теслах. Походу новый топ будет.
>>1107067 Что за шиз уже четвёртый тред пытается троллить, нахваливая гемму?
А если серьёзно, я понимаю, что никому не всралось что-либо доказывать другим, но пока только алитян (или его злой брат близнец, не суть) показывает, как гемма ведёт себя в рп. И его скрины, мягко говоря, не вдохновляют на использование. Вот тут >>1107161 из хорошего только то, что модель помнит (и то похоже, не совсем до конца), кто в какие дыры долбит перса. То, что модель явно работает со скрипом, повторяя местами целые длинные фразы и занимаясь своим любимым выделением италиком рэндомных слов, не наделяя их смысловой нагрузкой, его не смущает. Про слащавое описание вообще-то сцены рейпа и реакции персонажей вида "ах-ах, мистресс" я уж молчу. Это мб и подправляется промптами. И тут ещё вопрос, работает ли переход к таким сценам на одном промпте плавно в рп, или он пинал модель доп инструкциями. Зато постоянные вскукареки про скилл ишью. >>1107291 Если аблитерация сделана правильно, то она точечно избавляет от аполоджайзов, базу которых заранее составили и ей скормили. Общей сои в виде, скажем, избегания эро сцен без пинков промптами, аблитерация не исправляет.
>>1107299 Ну Ллама-3 со всеми апдейтами была хуйней. Тут ее хвалил один фанат 8б мерджей. В остальном мимо прошла, вполне заслужено. Но если немотрон в этот раз получился (а до этого он получался только с мистралью=), то это хорошо. Сейчас потестирую тоже, раз рекомендуешь.
>>1107307 >алитян (или его злой брат близнец, не суть) показывает, как гемма ведёт себя в рп Наверно, я понимаю что пишу не личности а инструменту, игрушке в моём случае, и поэтому у меня запросы ниже большинства снобов ITT =) 10К контекста, полёт нормальный Да, может гемма и делает те же ошибки что и мистрали, но вот где она тащит именно - в деталях. Там где другие (сходного или ниже числа параметров, тюны не учитываем потому на скрине базовая модель, не тюн) опишут несколькими сухими словами, если вообще додумаются, гемма создала полную сцену, и при этом без излишеств.
>>1107307 >Что за шиз уже четвёртый тред пытается троллить, нахваливая гемму?
Мне больше интересно что за шиз обливает гемму говном, только чтобы на вопрос "а какая модель лучше" назвать 123В, мол все чернь, а он элита, что запускает её на своей тесле.
>>1106997 >Я разочаровался в ОПе. Мои видосы и пикчи игнорирует и не ставит в шапку. Видео вообще редко смотрю, а вот пикчи стараюсь ставить. Но уже давно ничего интересного не было, вот приходится всякую фигатень ставить. Лей снова, хули.
После суммаризации 5360 токенов: prompt eval time = 189183.07 ms / 5360 tokens ( 35.30 ms per token, 28.33 tokens per second) eval time = 86350.91 ms / 796 tokens ( 108.48 ms per token, 9.22 tokens per second)
РП небольшими сообщениями: prompt eval time = 18149.68 ms / 272 tokens ( 66.73 ms per token, 14.99 tokens per second) eval time = 83835.24 ms / 714 tokens ( 117.42 ms per token, 8.52 tokens per second) ——— llama-server -c 6000 -m models\gemma-3-12b-it.Q8_0.gguf -ngl 49 --no-mmap -fa 7000 не влезло.
На старте 13,2 токен/сек.
После суммаризации 3824 токенов: prompt eval time = 16575.44 ms / 3824 tokens ( 4.33 ms per token, 230.70 tokens per second) eval time = 85454.00 ms / 753 tokens ( 113.48 ms per token, 8.81 tokens per second)
РП небольшими сообщениями: prompt eval time = 3205.28 ms / 272 tokens ( 11.78 ms per token, 84.86 tokens per second) eval time = 101428.13 ms / 824 tokens ( 123.09 ms per token, 8.12 tokens per second) ——— Квантование кэша у геммы проблемно из-за разной размерности с FA, а без FA кэш не квантануть, короче, хуй пасасай пока что.
Как итог, для долгих рп row-split не нужен, он прям убивает обработку контекста на P104-100. А вот скорость падает с 13 до 8 (вероятно там дальше и до 5-3, если поставить третью карту).
Суммаризация 15236 токенов: prompt eval time = 59918.45 ms / 15236 tokens ( 3.93 ms per token, 254.28 tokens per second) eval time = 75008.86 ms / 518 tokens ( 144.80 ms per token, 6.91 tokens per second)
РП на мелких сообщениях: prompt eval time = 6378.13 ms / 775 tokens ( 8.23 ms per token, 121.51 tokens per second) eval time = 62461.34 ms / 422 tokens ( 148.01 ms per token, 6.76 tokens per second)
Короче, старушка немо 6,7 токена выдает после 16к контекста.
———
Вот и думайте, надо оно вам, за 5к рублей и 200 ватт, или нет. Раньше подобная покупка имела смысл, но сейчас, когда есть бесплатный дипсик, квен, грок, подобное только под немо/гемму если очень хочется подрочить свои кинки, и никому не отдавать (не забудьте ssl накатить, хули=). Для работы это уже бессмысленно.
А CMP… 10 гигов за 10 тыщ с производительностью ~вдвое выше. По идее, там exl2 можно завести и прочие ништяки? Хз, может она лучше с этой точки зрения. Но, опять же, проблема всех этих видях, что хорошо это 3090 с 24 гигами, а не 8-10 гигов на слот.
>>1107476 Блять, шизик, это опять ты? Нахуй ты продолжаешь копротивлятья за срусик геммы из треда в тред прикрепляя один и тот же нерабочий конфиг Запусти кум карточку заебал там полная шиза с твоими настройками
Сколько контекста хавает гемма 3? По ощущениям что за 8к контекста легко въебёт 8гб памяти, без квантования тупо контекст сожрёт памяти больше чем сама модель
Чтение контекста в шину упирается. Тем более в 1.1 =) Но у P102-100 6 гигов, а цена та же? Ну, хотя… Думаю, на вкус и цвет.
Я просто склоняюсь к тому, что в РП обработка промпта не так критична. Ты же не пишешь простынями по 2000 токенов. А небольшие ответы обрабатываются быстро и так, и так. Но это мое мнение, не навязываю никому.
>>1107540 Ды. Так и есть. Реально жрёт как не в себя. Я уже забыл точные цифры, но гемма жрёт что-то около 12 гб врам для кэша, а мистраль 2-3 врам. При этом контекст одинаковый, а-ха-ха.
Если задрать ещё чуть повыше, то кэш будет больше модели.
Не представляю, как они добились столь феноменально-уебанских результатов.
А квантование даже до 8 бит реально влияет на качество вывода внезапно.
Нужен совет по сборке пк под ллм. Такой, чтобы сразу из магазина, без авитовых.
Запускать побольше параметров и с большей скоростью. Если ты знаешь сборку, может дашь совет и ллм под эту сборку? Модельку для общения и модельку для кода.
>>1107565 >Я просто склоняюсь к тому, что в РП обработка промпта не так критична. Ты же не пишешь простынями по 2000 токенов. А небольшие ответы обрабатываются быстро и так, и так. Ну хороший, сочный ответ модели - токенов 500 и больше. Их тоже надо обработать. Впрочем не так уж это и долго.
Сейчас с джеммой 3 продумали стратегию цветной революции настолько гениальной, что всё что было ирл до этого просто кал из жопы псины. Отошлю копию в ФСБ, пора менять мир. Стратегия идеальна и незаметна.
>>1107569 >Не представляю, как они добились столь феноменально-уебанских результатов. Там кэш хитровыебанный - скользящими окнами, как я слышал. Чтобы меньше проёбывать на больших контекстах при той же скорости обработки. Не просто так.
>>1107573 Есть фициальные стойки, сенды со сборками. Такой себе шкафчик, но 800к мало. Тебе даже на h200 пару лямов не хватит. Ну хз тебе подойдёт скорей тупо системник из магаза с какой-нибудь 5090 обычной.
>>1107590 Стало быть, именно поэтому Гемма не проёбывает мой систем промпт, карточку на 3к токенов, лорбук, лучше понимает тонкие намёки, меньше подвержена U-кривой игнорирования того, что в середине контекста и способна более внятно манипулировать фактами о мире и персонаже?
Просто тот же мистраль 24б такой же уебан, как и 12б. То есть умнее, но чем жирнее контекст, тем бедовей. Не пользуется инфой из контекста, ставить выше 16к бессмысленно, если только использовать контекст вместо своеобразного лорбука — он нихуя не вспомнит о важных вещах, в отличие от геммы, если его носом не ткнуть.
>>1107573 Что касается кода, не слушай местных на этот счёт. Ни одна локальная модель не переплюнет корпоративные решения в коде, хоть обосрись.
Единственная локальная модель, которая способна приблизиться по качеству, это DeepSeek, но там нужны миллионы рублей, чтобы его поднять нормально. При этом он всё равно уступает корпоративным решениям за двадцать долларов.
Покупай подписку на Claude у барыг на plati.market либо подписку на Курсор ИИ. В последнем есть модели от OpenAI в том числе. Там для кода модель o1 хорошая. 4о протухший кал, даже не пробуй его.
Что касается локальных решений для РП, то смотри в сторону покупки 4090, если она ещё в продаже. Лучше не торопись, а возьми просто одну карту на 24 Гб врам и пощупай, как тебе локалки вообще.
Но если ты обязательно хочешь кодить локально, то для тебя нет советов, кроме "потрать пару миллионов рублей на эту хуйню минимум, чтобы было терпимо".
Оперативой запасаешься на 384~768 гигов, одной видяшкой на 24 гига, и поехал.
Для болталки любая, но хорошо бы побольше врама просто. 5090 32GB x 2, как раз уложишься. Материнку, память, ну там просто — можешь сразу брать околосерверные, типа ASUS SAGE, чтобы слотов побольше и там линий побольше. Из самих моделей — и Mistral Large 123b, и всякие qwen 72b / llama 70b, и прочие commander 100b+, их файнтьюны, на вкус и цвет.
Ничего из этого я тебе не советую прямо. Верно говорят, что для нормального качества лучше вложить пару лямчиков. Но как минимум два варианта я тебе накидал в общем виде, чтобы ты понимал, как это можно реализовать.
Анончики - кожаные мешочечки, а какой дистиллят до 12 гигов самый лучший на данный момент для обычного общения на разные темы? Ну чтобы вела себя не как умная энциклопедия, а как живой человек со своим характером и уровнем интеллекта, который можешь сам указать.
>>1107284 Лучше бы спросил про тнус >>1107307 > нахваливая гемму Таблетки >>1107398 > назвать 123В Суть в том что ее нельзя однозначно назвать лучшей. Есть сценарии где оно неистово ебет, а случается что натыкаешься на заезжанные патерны и ловишь скуку или фейспальмы. Гемма те ситуации еще вывозит (достаточно умная) но при этом дает некий новый экспириенс который или вариантивен, или пока еще не приелся. Если что-то обрабатывать то она вне конкуренции, квен более капризная, мистраль тупее (насчет последнего пока хз), а что-то больше 30б уже не имеет смысла. >>1107573 > 800 к > чтобы сразу из магазина, без авитовых Тяжело будет. Большое это 100-120б, соответственно 72+ гига врам. 3 4090 или 4 4080 (сильно хуже), какая-нибудь материнка (в идеале с делением процессорных линий но чтобы сразу на 3 слота будет тяжело найти), любой профессор не из самых сладших. Проблема в том что ада сейчас стоит совершенно безумных денег, там реально 5090 уже выгоднее, но 2 штуки дадут только 64 нина что будет мало для 123б, как вариант дополнить еще одной карточкой типа 4070ти супер/4080 если влезешь по бюджету. Или не выебываться и крутить гемму/мисраль, любая конфигурация карточек от одной до 2-3 с объим объемом врам 32+ гб, можно уложиться в 60% бюджета. >>1107700 > можешь сразу брать околосерверные, типа ASUS SAGE И толку с них? Под актуальные платформы она сама будет стоить около 100к, а младший процессор-затычка еще столько же. А еще остались рам, бп, корпус, райзеры, охлаждение и прочее, что в таком случае будет очень недешевое. Если целиться в пару 5090 без одержимости иметь много рам, то хватит любой материнки, что может делить слоты на х8 + х8 и средней затычки. Но 64 гига врама - мало, зато огромные вычислительные мощности будут просто простаивать. Покупать лабму чтобы стоять на ней в утренних пробках и возить картошку, потому решения с лохито здесь более оптимальны. > и работу Если задача в автоматизированной обработке то с высокой долей вероятности будет слишком медленным и неэффективным.
Назовите причину тряски с геммами/мистралями и прочим калом если имея 24гб врам можно запустить 2q 70b и получить качество несоизмеримо лучше с таким же контекстом?
>>1108038 Не правда. По крайней мере мику так не пишет И я за час получил кучу реально осмысленных закрученных фраз от "лоботомита" больше чем от геммы на сотню свайпов
>>1107161 >Ты чё такой ущемлённый по жизни, паря? Жаль потраченного времени, если вкратце.
Ну а за скрины спасибо, ты лишь подтвердил мои слова, что в ролевке гемма отсасывает похлеще какой-нибудь мелкой ламы.
>>1107168 >Если модели похуй на промт, то это НЕ нормальная модель. Не тупи, ты прекрасно понял, что я имел ввиду. Нормальную модель не нужно уговаривать написать про сисик и писик целым полотном однотипных инструкций, переписанных разными словами. Даже далеко ходить не надо - дефолтная мистраль отлично придерживается системного промта и при этом её даже не надо ломать, чтобы получить откровенный контент любой степени извращенности.
>>1107218 >Да чего тебя так рвёт-то? Аблитератед 27б нормальная Не трогал 27B, трогал только двенашку. Хотя да, про это надо было указать сразу.
>>1108014 > Покупать лабму чтобы стоять на ней в утренних пробках и возить картошку, потому решения с лохито здесь более оптимальны. Ну не хочет человек авито, шо поделать. Хозяин-барин. Мое дело сообщить.
> Если задача в автоматизированной обработке то с высокой долей вероятности будет слишком медленным и неэффективным. Ну, то понятное дело, но там люди уже всякие берты порою юзают вместо ллм, и мало ли че вообще. =) Скорее я имел в виду, брэйншторм, ассист в кодинге, всякие такие штуки.
Вообще, я бы ему рил посоветовал RTX 4090 с 48 или 96 гигами, НЕ НУ МАЛО ЛИ, вариант-то очень интересный. Но чеком, сам понимаешь, можно будет подтереться, и то, тока жопу запачкав чернилами лишний раз.
>>1108051 iq более сжатые (экономим мемори), но медленные (платим временем).
Целительница Марибель не совсем обычная, хоть она и упорно тренируется, но профильные таланты довольно средние, зато легко может "просветлить" посохом по голове и склонна увлекаться этим делом в отношении монстров. Из предыдущей команды её за это и выкинули, решив поискать более специализированного целителя чем местный аналог шэдоу приста, ещё и немного извращенка.
Сеттинг - постапокалиптичное технофентези, мультикроссовер основным компонентом которого является RWBY + ещё ряд фэндомов сходной тематики, но на Земле и с элементами классических JRPG. Впрочем, это сеттинг в целом, в данной карточке не многое из этого светится.
Первое сообщение на русском, само определение перса и сеттинга на английском для экономии токенов. Альтернативное сообщение (второй гритинг) - на английском.
Лорбук - https://characterhub.org/lorebooks/aleteian/nightmare-fall-4b4e6340f1f1 Не обязателен хотя, может работать и без него. Для английской версии, конечно, а на русский надо ещё его сам + кейворды переводить, что дохера и мб позже. Содержит лорное описание сеттинга в описании лорбука.
>>1108104 > Ну не хочет человек авито, шо поделать. Да тут ситуация на рынке прям не самая удачная, ладно когда еще 4090 по 170 были, пиздец дорого но не 240 как сейчас. И еще бюджет довольно пограничный, с одной стороны дохуя и можно разгуляться, с другой из магазина не хватит. Вариантом может быть сборка серверной платформы с установкой туда тех же 3090 (дешево но это бу майнерское, при желании можно оформить и с чеком от юрлица за отдельную комиссию, есть кто таким занимается). 4090 на 48 одна стоит больше половины, хотя в целом бы зашла. На 96 - это вообще не фейк? Откуда такие чипы взяли?
>>1108193 Ну, это слухи, что китайцы вот де почти уже протестировали и работает в большей части софта адекватно. Конечно, никаких пруфов толком, однако после 48-гиговой версии я уже и не удивлюсь, что и 96 собрали каким-то чудом.
В качестве пруфов легко гуглятся переписки на китайско-английском, такое себе, да. =)
>>1108211 > в большей части софта адекватно Если там есть проблемы с софтом то оварида. > после 48-гиговой версии я уже и не удивлюсь 48 гиговая версия - на двусторонний текстолит, который чудом подходит по разводке и поддерживается, ставятся модули с удвоенной емкостью. Для 96 нужны уже 4гиговые чипы gddr6x, покажи кто их выпускает. > В качестве пруфов На картинке можно хоть 1488 гигов нарисовать. Потому интересна конкретная реализация, не то чтобы она невозможна, но банально нет подходящих компонентов. >>1108279 В том и суть, на 5090 цена завышена, но когда смотришь на 4090 то кажется что даже дешево.
двачую брат, за такую цену, я целую неделю должен работать на одну единственную карту... хз можно единоразово ужаться конечно, но всё равно чет хуйня... надо по средствам жить все таки.
>>1108307 Тут просто барыги, в теории ничего не мешает тебе самому через посредников купить ее на таобао. >>1108322 Пиздец сука, нужно поднимать жопу и целый день работать чтобы на карту насобирать, а потом еще за ней ехать. Слишком сложно.
>>1107093 >А жору дистрибьютед таки кто-то по локалке запускал? Я и запускал, вроде работало. Конкретно по скорости ничего не скажу, я тогда ниасилил соединить два ПК ethernet кабелем, а через вафлю что-то замерять смешно.
>>1107045 >Зря ты купил 4 теслы. You got it wrong, я сначала купил теслы, потом уже перекатился на амперы. А теслы, кроме одной труженицы, уже три месяца валяются в ящике стола. Вот хочу их и себя делом занять, выдумываю всякие штуки. >Может и въебать, ограничь пл, в чем проблема? Ну, если все и так будет работать, то это будет эффективнее, чем карты душить, я думаю. Лучше уж второй БП купить, если этот не вытянет.
>>1108331 >Пиздец сука, нужно поднимать жопу и целый день работать чтобы на карту насобирать, а потом еще за ней ехать. Слишком сложно. Конченное говно, мне нужно 1 наносекунду подождать, чтобы накопить на неё. Ну нахуй, буду дальше сидеть на кластере прошлогодних H200.
>>1108353 Прекратите слать видеокарты! Не успеешь подумать, как уже пролетели наносекунды и лично дядя куртка стучится в дверь, готовый выгружать фуру с карточками. И спарк свой тормознутый заберите.
Гемма понимает правила ДНД. Достаточно в персону закинуть подробное описание твоего персонажа со статами, то она всё будет просчитывать, даже может кубик за тебя бросать.
>>1108337 >You got it wrong, я сначала купил теслы, потом уже перекатился на амперы. Двачую, сам сегодня буду менять. Не дай бог какая-нибудь из 3090 сдохнет - возвращаться обратно на теслы будет довольно тяжко :) Спасибо им, свою цену отработали.
>>1108345 Всегда будет жирным. Судя по всему, тот анон писал правду: контекст такой жирный, потому что они используют анальную технологию для внимания к контексту, из-за которого модель может быть меньше в размерах, чем сам контентекст, лол.
Можно квантовать, да. Я квантовал. В целом терпимо, если сюжет простой, но когда там куча нюансов всяких, модель начинает путаться иногда, и чем больше контекст, тем сильнее.
До 8к можешь квантовать контекст смело до 8 бит. На 16к 8 бит уже может доставлять проблемы, на 32к уже пиздец начинается.
>>1107573 Ну за 800к вроде как варианта вроде как два. 1. Материнка под два 12-канальных амд эпика + 1тб рам + 1 бу 3090 = гоняем относительно умный дипсик в оригинальном кванте с относительно медленной скоростью. 2. 4-5 бу 3090 + любой современный амд проц + столько рам сколько влезет в материнку (это не принципиально) = гоняем 123Б относительно тупенький мистраль в шакальном кванте, но зато относительно быстро.
Блять какое геммма говнище для кума просто пиздец. Когда уже файнтюн с магнумом нельзя так жить Всё что она знает это ентрансы и шпили, её максимум это кант и дик, но сам секс описывает максимально сухо и в обход да так что я даже не всегда понимаю что на экране ебля
Уважаемые, а размер контекста строго завязан на vram как и размер модели? И ещё вопрос, может ли кто-то популярно объяснить ньюфагу на что влияют ползунки в настройках Silly Tavern?
Кому-то будет полезно. У модели странное название, конечно, но впервые локалка (до этого могли только гпт и клод) смогла нарисовать во вьюпорте майа через callback опенгл красный круг.
также, для тех кто кодит попробуйте Sangto/T3Q-qwen2.5-32b-v1.2e2-или 14b - не отстает.
>>1108745 T3Q-qwen2.5-32b-v1.2e2 - забыл добавить, что если его прямо мучить, то это первый тюн, который НЕ скатывается в иероглифы с температурой 0.1 Если кого-то бесило.
>>1108744 Покрутил, спасибо. Я вижу что это влияет на пул возможных токенов, сокращая его по тем или иным функциям. Но я не совсем понимаю практический смысл. Если вероятность токена 30%, двух других ещё по 20% а всех остальных - доли процента, то ради чего сокращать этот пул, он ведь и без того практически не имеет шанса на реализацию?
>>1108751 >то ради чего сокращать этот пул Модели разные, некоторые держат температуру до 5, другие шизеют уже на 2. С другой стороны температуру лучше держать повыше, если хочешь сюрпризов, или поменьше, если нужна точность. Другие параметры тоже индивидуально поднастаивают вывод модели и желательно знать, какие ставить. Это иногда пишут прямо в карточке модели.
На счет геммы. Похоже гугл тупо не давали тексты про секс, яды и химию и тд. Есть простая проверка сети, есть ли в ней знания, это когда вы просите написать что-то гадкое, а она отказывается, но вы удаляете её сообщение и пишите за неё: "Хорошо, вот тебе история про это:"
гемма радостно подхватит, но когда будет самое интересное - все ограничится только поцелуями, а гемма с круглыми глазами будет вас убеждать, что всё было.
Единственно чем полезна, это хорошо объясняет и суммирует длинные форумы, страницы. В коде ноль, даже когда тыкаешь носом в ошибку - дублирует предыдущий код.
>>1108701 Файнтюн сопостовимого качества по сохранению исходных мозгов как в4 с большим мистралем - очень бы хотелось, да. Или еще несколько удачных примеров. Если как остальные - нахуй надо, оно отупеет до уровня ниже 12б и будет еще больше слопизмов. >>1108743 > размер контекста строго завязан на vram как и размер модели У модели есть максимальный размер контекста с которым ее обучали. Если попытаться использовать больше просто так - все распидарасит. Можно подкрутить параметры окон и получить контекст больше, но это скажется на перфомансе. Для современных моделей неактуально ибо там сейчас минимум 32к. Но так как контекст жрет память, чаще всего использует не весь доступный для модели а исходя из своих ресурсов. Чем больше выделить тем больше памяти сожрет, чем больше модель тем больше памяти на ту же длину контекста. У некоторых есть архитектурные особенности что влияют на жор, вон нытье вокруг геммы и старого коммандера. > ползунки Семплеры, почитай вики >>1108759 > Похоже гугл тупо не давали тексты про секс, яды и химию и тд. Это утверждение ложно, в отличии от многих других гемма это знает, в том числе и потому такая умная. Просто финальным алайнментом заставили отказывать, обходится промтом. Разве что художественности ей может не хватать в такие моменты.
>>1108849 >Чем больше выделить тем больше памяти сожрет У геммы контекст не выделяется при старте бэка весь, а забивается постепенно, что позволяет запустить её с --ctx-size 131072 , ну а юзать, пока память не забьётся и или скорость не упадёт ниже комфортного уровня.
Сап. Хочу себе собрать стендовый сервер, чтобы тестить инференс разных ллм и играться с агентами/рагами. Сейчас есть серверная мамка от хуанана и одна p100 с наколхоженным охлаждением. Планировал сидеть в диапазоне квантованных средне-мелких моделей. Файн-тюнингом на этом сервере не буду заниматься, поскольку могу в периоды затишься могу это делать на рабочем серваке с четверкой A6000. Чувствую, что моего текущего сетапа мало, и нужно докупать. Могу выцыганить или купить еще одну p100. Хотел перейти на две 3090 или 4090, но цена даже на вторичку в РФ неадекватная. На реддите + в хв посоветовали купить пару 7900 XT. Говорят что скорость приличная, и неплохая поддержка. Особенно если только инференсом ограничиваются. Кто-нибудь тестил подобный сетап и может что-нибудь рассказать? Алсо, тестил ли кто-нибудь гибридные сетапы, когда инференс идет через несколько разных карт?
Пока я вижу, что сетап может работать примерно так: реранкер на тесле чем угодно, а хэви лифтинг на 3090/4090/7900 ХТ. Понимаю, что это кал на уровне концепции, но жизнеспособно ли это для инференса более менее умеренной скорости при условии относительно нищего бюджета?
Если есть какие-нибудь рекомендации по домашнему стэнду, буду благодарен анону.
>>1108860 > а забивается постепенно Скорее баг а не фича >>1108865 > цена даже на вторичку в РФ неадекватная 3090 одни из самых дешевых в мире так-то > купить пару 7900 XT Они дороже чем 3090 на вторичке, имеют меньше памяти, медленнее и это амд со всеми вытекающими. > гибридные сетапы, когда инференс идет через несколько разных карт Если карты разных типов как амд-новидео - только через жора - дистрибьютед объединение. Если просто разные сетки на разных карточках то нет никаких проблем и подойдет любой бек, который запустится.
>>1108870 >Они дороже чем 3090 на вторичке, имеют меньше памяти, медленнее и это амд со всеми вытекающими. Ну там со вторичкой 3090 не сильно большая разница. Газон с яндексом предлагают буквально по такой же цене как новая ХТ, но я на самом деле опечатался и скорее ХТХ имел в виду. Вот там да, 30к переплачиваю за то, что карточка новая. UPD: чекнул лохито с 3090 по 60к. Ну ладно, здесь видимо имеет смысл взять две штуки с лохито. 60к всего. Но почему-то р40 у китайца взять ощущается более надежно, но это мои беды.
Вообще, на реддите пишут, что все нормально с драйвера есть, контейнеры, в которых все уже работает тоже есть, все дела. Но как-то пидорасу на хуанге доверяешь больше. Лицо у него какое-то, которое как будто говорит, что он не может соврать и все будет работать.
Как вообще нынче обстоят дела со вторичкой на лохито? Единственный раз когда сталкивался с этим сегментом рынка - это когда в 11 классе продавал печ 980 после тюнинга в духовке. Но клиент вроде не жаловался. inb4: лохито бояться, инференс не гонять
Можно ли собрать 70б лламу на своём железе в пределах 2к бачей? Среддиторы предлагают какие то ебанутые связки из п40 и 3090, с другой стороны куртка выкатил 50 серию с подкрученым аи перфомансом. Так и взаправду можно объеденить два кредита и в турцию, или скам?
>>1108890 Иногда на маркетплейсах проскакивали по ~70. > пишут, что все нормально Нормально по меркам амд. Если ты опытный пердоля то тебя не должно подобное смущать, главное перед началом надевать огнеупорные штаны и запасайся временем. На хуанге же все заготовлено даже под нормисов, пердолинг нужен только если хочешь особого и он не такой напряжный. > Как вообще нынче обстоят дела со вторичкой на лохито? Внимательный осмотр на предмет следов ремонта или проблем, тестирование бубликом, бенчмарками, проверка памяти, торг за необходимость замены термопрокладок на перегревающейся памяти. >>1108926 Две p40 или две 3090. Дешевые теслы уже исчезли, поэтому с текущими ценами вериант только один. Блеквелл быстрее но ты его не купишь, младшие модели слишком дорогие для своего перфоманса и имеют мало памяти.
>>1108968 > задумался > :) Дед, ты уже забыл как бил себя в грудь, заявляя что купишь на релизе и цена не важна? Где? > ни рыба не выходит из 5090, ни мясо На самом деле ебут, но памяти хотелось бы больше а цену поменьше.
>>1108740 Увы, но похоже поломанная хрень. Пытаюсь подобрать параметры, проблески есть, на чаще дичь, угар, глум, и ржака. Промт - Фиона, модифицированная Фифи, переведённый гритинг, повзрослевшая (и каким-то чудом выжившая) версия, 19 лет.
Все у кого больше одной видеокарты в пк шизы и им нужно лечиться. Одна 3090 покрывает множество хотелок, игры, монтаж, нейронки, две и более уже только для одной конкретной которая просто надоест со временем
>>1108983 >Все у кого больше одной видеокарты в пк шизы и им нужно лечиться выглядит как копиум ( мимокрокодил на 12 гб врам, не отказался бы от пары 3090 XD )
>>1108990 >напрягает не едят же они тебя поедом (и твоё электричество) в простое (ну, кроме как пассивно на вертушки и ожидание), лучше когда есть чем когда надо но нет
Мой дед говорил: «Имею желание купить дом, но не имею возможности. Имею возможность купить козу, но… не имею желания». Так выпьем за то, чтобы наши желания всегда совпадали с нашими возможностями…
Какие мистрали 12б лучше всего держат внимание к контексту и хорошо могли бы показать себя в RPG в стиле дарк солс?
Беда вот в чём. Лорбук на 365к токенов, карточка на 3к токенов, записи, которые триггерятся из лорбука, спокойно могут быть 2-3к токенов (если рекурсия не зацепит ещё что-нибудь), там так там чудовищных размеров описания локаций, скилов, мира и так далее. Мне нужно 22-32к реально работающего контекста, а не маня-контекста, так как 8к стабильно будет занято карточкой и какими-нибудь триггерами лорбука.
Гемма 12б видится идеальным вариантом, ибо внимание к контексту потрясающее, но она требует столько врам, что я охуею: по моим прикидкам, она затребует где-то 12-14 гигабайт. Про старшую версию даже говорить не хочется — там ещё больше. Плюс она хуже описывает атмосферу увядающего мира и диалоги. С геммой как-то такие сюжеты описывать не очень.
Хронос точно не подходит, wayrarer тоже.
Из быстрых тестов лучше всего себя показали MarinaraSpaghetti/NemoMix-Unleashed-12B, Lambent/Gilded-Arsenic-12B, Lambent/arsenic-nemo-unleashed-12B, но может у вас есть идеи получше?
>>1108983 Неправда. Сладко подрочить на одной 3090 тебе хватит, но ты неминуемо захочешь контента покачественнее, и вот тогда сядешь в лужу, ибо модель жирнее нужна/не будет хватать контекста на 36б. А если захочешь длительную историю расписать, то поймёшь, что тебе нужно очень много контекста хотя бы для меньшей модели — и тоже сядешь в лужу.
В общем, тут такая ситуация, что сколько бы видеокарт ты не купил, будешь хотеть больше и больше. Разве что, достигнув определённого плато, когда уже надо инвестировать миллионы, тебя попустит, т. к. там уже только кабаньере лютое может взять и кучу миллионов на хобби. потратить.
>>1108985 Плюс он похоже тюнил неаблитерированную вер сию, из-за чего проскалькивают такие "сильные и независимые" посылы. Прям Файлгвардом и Абобой повеяло.
>>1108983 Проведение черты перед собой и классификация этим - хороший пример быдла. Легко найти такого же шизика, который скажет что 3090 - для шизов, всем хватит 3060. Потом взять поеха, который дрочит на апу. Потом можно оформить ветку: найти дебила, который топит что телефона хватит на все и деда, которому норм на 512 килобайтах, и зоонаблюдать.
Признак расстройств - это когда человек сливает последние деньги, отказывает себе в базовых потребностях, совершает преступления, будучи одержимым странной идеей/зависимостью, которая не приносит ему ничего хорошего. А просто траты, к тому же не самые большие, на свои увлечения - наоборот признак здорового человека. >>1109000 > сколько бы видеокарт ты не купил, будешь хотеть больше и больше Если не хочешь погружаться очень глубоко то не будет. Только периодические апгрейды, не более. Это же база, в любом хобби всегда есть люди с разной степенью экипированности, не смотря на общий тренд с постепенным ростом, большинство останавливается на каком-то уровне и долго там находится. >>1109002 > он похоже тюнил неаблитерированную вер сию Тренить лоботомита - плохая идея, даже если ты собираешься делать еще большие вмешательства.
>>1109000 >Повзрослевшая фифи? Скинь карточку! https://pixeldrain.com/u/1NnjJHV8 Фиона.png Не самый удачный ген, подбирал из того что было, а не специально выдрачивал, впрочем, главное что внутри XD
>>1108946 >Иногда на маркетплейсах проскакивали по ~70. Но там тоже БУ. >Блеквелл быстрее но ты его не купишь Почти свободно лежат на озоне, в чём проблема? >>1108975 Лично я заявлял, что возьму за 300к, пока что 315, да и деньги на другое нужны оказались. >>1108983 >две и более уже только для одной конкретной Сеток, которым не помешает пара карты, тысячи. Даже гемме 27B оно полезно, можно на потребление контекста хуй забить и выставлять 32к на Q8.
Расскажите лучше, как вы вообще питаете свои сетапы с серверными мамками и 2+ видяхами? В полной нагрузке две 4090 + два проца уже за тысячу перевалят, а то и подойдут к ходовым 1200. Это без дисков и всего прочего. Есть ли возможность как-то залочить павер юзадж на видюхах до 250 ватт? Или тут тред для успешных бизнесменов, которые покупают себе бпшники 1.5кв+ по цене бу карты, либо гигачадов, которые решили оказаться вместе с соседями от слуха?
>>1108968 > Почему же, купит. >>1109034 > Почти свободно лежат на озоне, в чём проблема? Пост не читали? > при условии относительно нищего бюджета >>1109034 > Лично я заявлял, что возьму за 300к Если пройти испытание на iq то цена была 299990. Эх, опять не совпадает, видимо не судьба купить. > и деньги на другое нужны оказались Возможно все, когда ты пиздабол >>1109037 > две 4090 Это 900 вт, но почти всегда используется андервольт, который снижает жор до 400-350-250-200 ... ватт в зависимости от агрессивности настроек. > два проца Для такой сборки не нужны. С одним 1200-1300 на такую сборку будет с запасом. > гигачадов, которые решили оказаться вместе с соседями от слуха Это если покупаешь любой бп не с платиновым+ сертификатом. Если при обычных мощностях условные 80-85% кпд проблем не создают, то на таких это уже пару сотен ватт, которые нужно отводить и шуметь кулером. Иначе можешь взять майнерский бп и поставить подальше, будет не хуже фирмовых.
>>1109037 Я питаю свой риг 6x3090 китайскими блоками по 1600 ватт, купленными в переходе метро (не шутка) за 5 тысяч рублей каждый. Стоит 3 блока, чтобы с запасом, хотя судя по nvidia-smi - хватило бы одного-двух. Там максимальный жор в районе 200.
>>1109059 Причина тряски? Нонейм блоки столько и стоят. Еще у них косы сразу штук на 20 6pin коннектеров. Более-менее все майнинг риги питались когда они еще существовали такими блоками. Так что для LLM принципиально ничего изобретать смысла нет. Как и дрожать над картами.
>>1109047 >Иначе можешь взять майнерский бп Есть какие-нибудь рекомендации? Я тот анон, у которого только серверная мамка с пожилой теслой, и будут плюс две купленные с лохито 3090. >>1109056 Звучит как-то совсем прохладно. Ты про стандартные атх блоки или про списанный серверный одноюнитовый кал? Есть какие-нибудь гайды, как питать все счастье от нескольких блоков. Эта залупа же через синхронизаторы делается, да? Когда в 16-17 году это изучал, это все предлагалось делать как-то гипергеморно, чуть ли не в ручную, паять перемычку на землю, на малафью и т.д.
>>1109061 Берешь оригинальную модель, запускаешь, оцениваешь перфоманс. Потом качаешь аблитерацию, запускаешь и наслаждаешься тем, как распидорасило оригинальные коэффициенты весов.
>>1109065 Дядя, какие синхронизаторы? Скрепку воткнул в косу которая для материнки, замкнув зеленый и черный провод - вот и вся синхронизация. Если хочешь красиво - покупаешь затычку в косу, которая делает то же самое. У майнинг блоков она в комплекте.Дальше в карты втыкаешь. Всё прекрасно работает. Блоки полностью обычные, ATX. Начиная с 2000 ватт примерно майнинг блоки становятся больше размером, и входят не во все корпуса - но мои 1600 ватт обычные по размеру. Единственный подводный камень - риг должен быть всегда включен, потому что на выключенном карты начнут выть кулерами. Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой.
>>1109065 Дядя, какие синхронизаторы? Скрепку воткнул в косу которая для материнки, замкнув зеленый и черный провод - вот и вся синхронизация. Если хочешь красиво - покупаешь затычку в косу, которая делает то же самое. У майнинг блоков она в комплекте.
Дальше в карты втыкаешь. Всё прекрасно работает. Блоки полностью обычные, ATX. Начиная с 2000 ватт примерно майнинг блоки становятся больше размером, и входят не во все корпуса - но мои 1600 ватт обычные по размеру. Единственный подводный камень - риг должен быть всегда включен, потому что на выключенном карты начнут выть кулерами. Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой.
Какое же фаллен гемма поломанное гавно... Ну, если кому надо, что-то вменяемое удалось выжать на настройках с третьего пика. Сорок первый свайп ебаный рот этой гачи блять, возвращаюсь на обычную аблитерированную версию, которая выдавала более чем нормально, смотри пост с карточкой Марибель.
>>1109000 Сама идея, что один тьюн немо будет держать условные 8к контекста, а другой - 24, кажется очень странной. Не, тьюн может снести веса в сторону шизы, как у каких-нибудь моделей Дэвида (немомикс мне тоже тупым показался кста), но я слабо представляю себе, что может случиться чудо, и у какого-нибудь тьюна вдруг будет офигенное внимание на большом контексте, в разы большее, чем у среднего по палате.
>>1109076 >офигенное внимание на большом контексте У геммы хитровыебанная механика контекста, который он работает по другому чем мистрали и прочие предыдущие. Из-за чего он жрёт как не в себя без квантования, меньше страдает от квантования, лучше помнит что было в середине, занимает память по мере наполнения контекста (возможно хотя баг, в бэке или модели).
>>1109065 > Есть какие-нибудь рекомендации? Julongfengbao lx2000w но нужен именно оригинальный, есть подделки. Отличается весом, производительным кулером на подшипнике, нормальными (мэх бренды но хотябы подходящих серий) конденсаторами и фирмовыми разъемами. Сечение кабелей там по краю выбрано, поэтому лучше стараться использовать только первые разъемы из пар, присутствует только один разъем под профессор - для серверных потребуется переходник. >>1109076 Бывает так ахуительно тренят, что модель не может в большой контекст. Не будет внезапной капитальной поломки, как случается при превышении штатного, просто оно ощутимо отупеет и будет давать плохие ответы, основанные только на последних постах. >>1109089 На обработке контекста там будет по полной жарить, если все работает штатно.
Можете поздравлять, за более чем полгода кума я впервые превысил 32к контекста и пришлось суммарайзить не по приколу, чтобы скорость генерации повысить за счет сокращения чата, а всерьез. При этом, как водится, особенно приятны подобные переписки вроде пикрил или подводка к куму, а не сам кум. Кажется, что потенциала чата хватит еще на 32к...
>>1109140 >причина тряски? Мелкобуква, спок. Причина в ебаном редакторе изображений на линухе, я не нашел как делать заливку прямоугольных областей, только вырезать смог. Поэтому, чтобы было сразу понятно кто где, накрасил карандашом.
>>1109147 >я не нашел как делать заливку прямоугольных областей, только вырезать смог Это те самые линуксогоспода айтишники, выше вашего быдла на винде?
>>1109076 Чувак, всё именно так и есть. Не знаю, каким был оригинальный немо в плане удержания контекста, но по тюнам я явно вижу, что часть из них начинает жидко срать под себя уже после 16к контекста, а некоторые уже после 8к. Хотя сами по себе эти тюны/мержи могут быть очень хороши в рамках своего контекстного окна.
Причём некоторые авторы об этом прямо пишут или юзеры. Модель просто начинает тупеть, шизеть, ломать форматирование и так далее, и найти тот же немо, который выдержит 32к близко к оригиналу — это реальная проблема.
Более того, читая документацию, можно обнаружить странные вещи. Не знаю технического названия, но там описание в стиле "модель поддерживает 128к", а потом уточняют, что эти 128к — это какое-то непонятное растягивание ануса, а реальное эффективное окно 32к, например. Как говорится, есть нюанс.
И к всему этому приплюсовывается факт тюна, который ещё больше ломает модель в 99% случаев, уменьшая фактическое контекстное окно.
>>1109156 Ага, а я и не старался синтаксически корректно оформлять, а наработанного опыта балакать сразу правильно у меня нет. Я ж потребляю контент, не воспроизвожу. Зато все честно своё. Прелесть нейройки что она все поймет и не будет осуждать. Хотя, бывало, иногда строил фразу так криво, что не понимала, но это ирл так бывает и на русском.
Цензура геммочки это база. С промптом ценза ровно столько, сколько должно быть чтобы было интересно и тянки не прыгали тебе на хуй стоит лишь попросить
>>1109159 >линухе есть куча Ты ебан? Если бы в контекстном меню уже не было бы опции "Открыть с помощью...<редактор_нейм>", я бы просто не отправлял ничего. Или ты думаешь я для тебя редактор ставить пойду, разбираясь в их куче говна?
>>1109162 >Если бы >я бы просто >да и ваще ебаться не буду в куче говна! Просто снеси линуху нахуй и накати винду. Тебе не нужны сложности. А лучше сразу мак купи.
>>1109147 > чтобы было сразу понятно кто где Заботишься об анончиках. А зачем вообще было замазывать? >>1109158 > а реальное эффективное окно 32к Вот с этим нужно аккуратнее быть, особенно шизикам, любящим делать неправильные выводы. А то уже были ахуительные заявление, что в комбинации глобал атеншна и 4к сколзящего окна "реальный" контекст всего 4к.
>>1109161 Жаль, она в упор не понимает, когда тянку задницей к себе поворачиваешь. Так и хочет за плечи тебя схватить, обнять, ближе к себе прижать. И вообще, бывает тупизна проскакивает буквально на ровном месте, где даже не ожидаешь.
>>1109166 Кстати, если ты разбираешься в этом, есть какие-нибудь ебанутые оптимизации КВ-кэша? Особенно это актуально для геммы, может ллама.цпп что-то поддерживает.
Если Клод не напиздел, вроде существует динамическое квантование кэша, например до 4-8 бит старой инфы в начале диалога, но он писал это в рамках теории, реализация которой не представлена в опен сусрсе вроде как.
>>1109176 >Жаль, она в упор не понимает, когда тянку задницей к себе поворачиваешь. Да, в понимании положения персонажей относительно друг друга там всё печально. Проёбано полностью.
>>1109166 >А зачем вообще было замазывать? В сценариях, где я отыгрываю реального меня, я реальное имя использую. Меня порядком удивило, что многие тут Анон-куна юзают. Я ж не псковское порно генерю, а иммерсивный ролеплей. А собеседник это конкретный персонаж одной анимы, мне почему-то некомфортно его шарить. Счастье любит тишину, лол.
Палю годноту для любителей Джеммы 3 без джейлбрейков. Случайно выяснил эту штуку методом тыка. Результат охуенный. Советую попробовать. Подводных не замечено. Стала более живей.
>>1109047 >Если пройти испытание на iq Это испытание на проницаемость ануса, и имеющие карту озона его прошли, у них анус проходим в обе стороны. >Возможно все, когда ты пиздабол Был бы я нормисом, я бы побугуртил. А так ситуация реальная. >>1109066 >Потом качаешь аблитерацию, запускаешь и наслаждаешься тем, как распидорасило оригинальные коэффициенты весов. Покажи, делов то. >>1109071 >Потому что блоки, включенные скрепкой - не выключатся вместе с материнкой. Именно для этого и ставят синхронизаторы, которые и есть та скрепка, просто автоматическая. И нахуй колхоз не нужен. >>1109073 >топ п с мин п Это настройки шизовые. >>1109141 >Сколько ддр5 брать Оперативы много в принципе не бывает. Бери 64, это минимум в 2025-м. Или 96, если хочешь быть бареном. >>1109147 >Причина в ебаном редакторе изображений на линухе, я не нашел как делать заливку прямоугольных областей Чёт взоржал. >>1109166 >что в комбинации глобал атеншна и 4к сколзящего окна "реальный" контекст всего 4к Скажу больше, реальный контекст у всех текущих впопенсорс моделей 1-2к. И это почти не шутки. >>1109184 >Меня порядком удивило, что многие тут Анон-куна юзают Имя как имя. Это всего лишь симлинк на настоящего тебя. Так что какая разница, как кого зовут, Анон или Саша который ювелир? >>1109205 Кстати да, тоже пару раз юзал с чатМЛ, моделька его вполне себе воспринимает.
>>1109176 Зажрались просто, свайпни или чекни не "ошиблась" ли где до этого, сделав двойную трактовку, чаще всего причина именно в этом что опирается на прошлую двусмысленность и выбирает тривиальную ветвь. Хочешь точность в подобном стабильно - это уже уровень 123б, там хоть какую позу не выбери, чар будет или ограничен и делать только то до чего достает, или для действия изогнется правильным образом с описанием этого. Именно за это и любишь большие модели, проявляется везде а не только в таком простом примере. Фейлы случаются, но они есть и на корпах. У геммы на самом деле с этим не все так плохо, просто забыли что это "всего лишь" плотных 27б. Многие модели вообще не могли отличать простые вещи. Например, ты в какой-то момент устраиваешь переписку с чаром по мессенджеру и модель, старательно это имитируя, проставляет эмодзи и меняет стиль. Круто, классно, вот только при встрече эта херня лезет в прямой речи из-за продолжениепрошлых паттернов без учета их контекста, с чего ловишь дичайший кринж. Свежий малый мистраль вот такое выдал, гемма в подобном справилась. Не так давно это вообще было нормой и приходилось редачить. Или другой пример - сеттинг а ля эйфория, и "челленж", который предполагает что конкретный чар связан, с повязкой и не знает кто его ебет (дезинформирован при подготовке). На тупых моделях там сразу начнется "ох юзернейм...", а потом внезапное удивление когда ты начинаешь говорить и узнает по голосу, такой пиздец. Хотя нет, хуже когда наоборот реакция на узнавание отсутствует и происходит только при снятии повязки. А вы тут про обнимания и двойные трусы, это еще ерунда. >>1109178 > если ты разбираешься в этом Такой же хлебушек как и все. > динамическое квантование кэша, например до 4-8 бит старой инфы в начале диалога Про простое квантование знаешь же? А насчет динамического - наоборот для старой нужно больше битности, поскольку к ней чаще идет меньше внимания. Реализовать подобное на современных лаунчерах вполне реально и не потребует значительных усилий, но вот выбор оптимального распределения уже будет сложной задачей. Здесь бы зашло смысловое преобразование, когда дополнительная сетка по запросу бы преобразовывала имеющийся кэш или его части в более сжатые активационные векторы. Или та, что предсказывала бы значения для взвешенного квантования по принципу imat и exl2 квантов с динамической битностью, ибо стандартный подход с полным расчетом здесь не подойдет из-за высокой стоимости вычислений. Но это все оче-оче сложно, легче будет заморочиться с разными видами суммарайза. >>1109184 > реальное имя использую Необычно. Привычнее по-старинке взять какой-нибудь псевдоним и уже отыгрывать, хоть себя, хоть виртуальную личность. > некомфортно его шарить Здесь вроде не чай тред чтобы плохое устраивать. >>1109225 Весеннее обострение
>>1109225 >Скажу больше, реальный контекст у всех текущих впопенсорс моделей 1-2к. И это почти не шутки. Мля, т.е. это норма, что со ходом диалога модель все шизовее становится? Гонял NemoMix unleashed 12b, контекст 12к. Про 1-2к не знаю, но на 5-6к модель стала странновато писать, но еще терпимо. Под 10-11к контекста там уже разнос пошел, простыни шизового текста вместо более коротких ответов, повторение похожих мыслей разными словами, зацикливания и т.д. Я думал я с настройками где-то проебался. Хотя мб и это не исключено.
>>1109260 Хм, именно анлишед довольно хорошо у меня держался и не шизил. Использовал 16к контекста. Но я там ещё баловался с DRY, XTC, Top A, хотя это не сильно влияет.
Ты, надеюсь, на английском общался? Именно в русском шиза очень часто может начинать протекать крайне быстро. Просто анлишед неплохо в русик может и поэтому некоторые его с этой целью использовали.
Нет, анончики, а правда чем вы занимаетесь и на какой модели? Может кто то тут прячет хидден гем мерж? Какие сюжеты отыгрываете Я устал просто запускать кумить 20 минут и вырубать, хочется основательно хоть на денек засесть
>>1109387 Гемма три аблитератед. Ролплею ваху в антураже России. Ну, без перегибов вроде астартес, всё крутится в основном вокруг сводящего с ума варпа. Описывает всё это, особенно в реалиях современного мира, она довольно качественно.
К сожалению, 12б использовать невозможно на контексте 32к — он нахуй поломан. Полностью. Просто пишет так, будто бы я температуру 5 поставил, при этом оригинал работает нормально.
Поэтому, вытирая сопли, я иногда ставлю такой же контекст на 27б, чтобы персонажи ответили в соответствии со своими воспоминаниями и обновили, так сказать, базу...
Причём я пробовал разные кванты аблитератед 12б геммы. Все поломаны.
Разумеется, не квантую кэш.
Хидден гемы есть, но они весьма специфичны и только под один тип сюжета.
>>1109225 >Это настройки шизовые всегда базой было 0.95 с 0.05, когда было что-то одно, начинало срать хуже старой Сайги
>>1109260 >Гонял NemoMix unleashed если на англе то есть лучшие варианты - магмел, хронос, вэйфарер если на ру захочешь, то попробуй из шапки мистральки
Господа эксперты. Расскажите, что именно такое "квантование кэша" и "квантование контекста" отдельно от квантования самой модели. Чет я ничего не понял. Модель - это веса. Они одинаково рассчитываются и для промпта и для контекста. Квантование - это снижение битности в которой хранится и рассчитывается каждый вес. Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени? (иметь больше бит в весах)
>>1109440 >Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени? Кстати, мне тоже интересно - имеет ли смысл квантовать контекст в больший размер чем квант самой модели.
>>1109440 >Если сама модель квантованная - каким образом контекст или кэш может быть квантованным в меньшей степени? (иметь больше бит в весах) Сам инференс идет в полном разрешении. Даже если у тебя модель квантована до 1 бита, все вычисления будут идти в f16 (или f32) и результат этих вычислений будет лежать в памяти в таком же виде. Квантуются только коэффициенты (веса) для уменьшения объема требуемой памяти. А квантование кеша и контекста, квантует уже и эти результаты вычислений.
>>1109513 Я хуярю её на 16 гб. Если процессор два_ядра_два_гига, да оперативы 64+. Все влезет. Разгоняем и наслаждаемся звоном блока. И тем как i9 выходит за номинальные значения по температуре. 300Вт, хуле хотели.
>>1109553 С квантованием неюзабельно, там просто набор спецсимволов случайных выдаёт, тупо бред.
Аблитератед 12б поломана сильно: даже без квантования 32к контекста не держит, просто пишет что попало и наборы спецсимволов, которые ни в малейшей степени не относятся к теме.
27б аблитератед на таких контекстах не гонял, но подозреваю, что ситуация та же.
Однако я пробовал квантовать все оригинальные модели на 32к контексте. Квантование нахуй ломает всё. А вот без него идеально.
>>1109580 > просто набор спецсимволов случайных выдаёт, тупо бред https://pixeldrain.com/u/xjLdPfzm - чат в 4 кванте модели и контекста, gemma-3-27b-it-abliterated-Q4_K_L Ты что-то делаешь не так. Пикрелейтед - gemma-3-12b-it-abliterated.q8_0 с 4 квантом контекста, хуже, но не настолько хуже.
>>1109583 Какой у тебя там контекст стоит и квант модели от какого чела?
Так-то на 8-12к контекста с квантованием у меня ещё терпимо было на 12б, а на 32к кранты даже без квантования, что явно намекает на поломанный квант модели или кривую аблитерацию.
Продолжаю пушить тот чат и тестить на каком контексте 4 квант модель / 4 квант контекст начнёт ломаться. 15701 контекста на текущий момент, занято 17.6 из 32 гб оперативки, и вся врам.
>>1109706 Я хуй знает, уже писал, но по личным наблюдениям все модели на русском пиздец какие тупые, если сравнивать с англоязычными, на 12b естессно. Вам конечно же виднее.
>>1109786>>1109781 Хз, рпшил на англе чаты под 30к контекста на пантеоне, цидонии, пантеоноцидонии, клиффхэнгере, бипо, квене. На русском оно как-то приятнее. Надеюсь гемма не из оверлорда идею этих клинков подтянула, ибо там они плохо кончили.
>>1109817 Кто будет пиздеть на кванты я когда на 12гб врам сидел гонял цидоньку в 3 кванте и пересев на 6 ничего не поменялось, а тут 49б параметров это вам не цидонька даже нищая
>>1109829 Даже не тыкал семплеры нажал обнулить и все равно заебись пишет, только надо в промпт вставить "Do not use lists and out-of-character narration"
Можно ли как-нибудь заставить модель в процессе ответа кидать кубик (вызывать функцию) таверны? Вообще нет ли каких-нибудь расширений для полноценной ролевой игры, типа отслеживания инвентаря, листа персонажа, локаций, и всего такого?
Я первый раз ппорпэшил с сайгой, по моему охуенно. Контекст только увелечил, так как быстро кончается. Пару косяков было вроде такого, и все.
>Запускаю пальцы в длинные волосы натурального русского цвета, собирая их в высокий хвост, чтобы не мешали во время душа. Включаю воду - горячие струи бьют по керамике, наполняя ванную комнату паром и влагой.
А так все отлично пишет и понимает что я пишу и пишет тоже отлично. Н у меня 12б полновесная на 12 гигов.
РКН пидор опять шатает hk домен >>1109433 >всегда базой было 0.95 с 0.05 Автор всегда рекомендовал не использовать устаревшие протоотборники. >когда было что-то одно, начинало срать хуже старой Сайги Оч странно. Такое на всех моделях? Просто что первое, что второе весьма много отсекают, применение обоих по идее не сильно изменят результат. >>1109781 >на 12b естессно На 123 тоже самое, просто чуть менее заметно. >>1109829 Шаблоны же сейчас автоматом выставляются? >>1109883 База.
Репортинг ин, 24324 контекст, 1.72 t/s. gemma-3-27b-it-abliterated-Q4_K_L --cache-type-k q4_0 --cache-type-v q4_0 Целительницу соблазнил (правда пока ещё не отхентаил), деревню от крыс-мутантов защитили, идём в рейд на замок с приведениями.
Сэмплеры - мистралевская база - 0.95 с 0.05, динамотемпа 1-3
Двач, такой вопрос, что лучше будет работать: 1. Писать модели и получать ответ сразу на русском. 2. Писать на английском и потом ответ переводить через deepl или локальную модель-переводчика. Использую SillyTavern. Сеттап Ryzen 5 3600g, RTX3060 12Гб и 16Гб ОЗУ (Собираюсь купить 64Гб).
>>1110035 >Писать модели и получать ответ сразу на русском Может быть весьма и очень хорошо, см скрины выше, НО, всё равно хуже чем на англ, чисто по причине датасета, даже при том что та же гемма вроде в 146 языков может.
>Писать на английском и потом ответ переводить через deepl или локальную модель-переводчика. Муторнее, и может в корне ломать смысл даже хорошо написанного текста чего ты даже не поймёшь не видя оригинал.
Короче, либо на русском, либо на английском, либо пишешь фик на английском целиком и переводишь его уже готовый.
Блядь, как же вы заебали со своим русиком в том плане, что якобы можно нормально на нём рпшить. Огромные корпомодели в него не могут красиво, кроме Клода и гемини теперь может вроде, а здесь такой надроч на русик на моделях меньше 70б. Ну нет датасетов, ну ничего не поделать с этим. Я бы сам хотел на русике. Только выхода нет, кроме как периодически баловаться и выражать респекты тем, кто старается сделать хорошую русскую модель из анонов.
>>1110035 Только англ. Переводи текст в бесплатном дипсике в вебе, если у тебя там не кум.
Мда, назвался ведьмаком, то есть Охотником (RWBY) с открытой Аурой и Проявлением - полезай в катакомбы где явно будут делать кусь первым.
Я хз на какой чёрной магии работает ква-ква контекста геммы, но оно всё ещё работает, только скорость постепенно падает, когда достигнет 1 т/с, плюну и суммаризирую приключение.
>>1109440 Вместо хранения результатов расчета они преобразовываются по тому же (немного упрощенному) алгоритму в квантованные величины. При использовании добавляется еще одна операция преобразования их кванта с рабочую точность, что несколько замедляет скорость, но в целом ллм в первую очередь опираются в память, поэтому падение незначительное. Квантование кэша снижает точность также как и квантование весов, это компромисс для сокращения расхода памяти. Часто вполне оправданный. Степень квантования весов и кэша никак друг с другом не связаны, негативные эффекты от этого будут складываться (но могут оставаться незначительными). >>1110044 Get your ass back here♂
>>1109945 Ну вот сюда, например, посмотри >>1109999. Чел пишет персу, что утро доброе с ней под боком, перс отвечает "да, ты прав, доброе с тобой под боком". А это 27б бтв. Справедливости ради, этот конкретно вид затупа связан именно с плохим пониманием языка, судя по всему, но и общих просиров в логике на русском будет больше, особенно на 12б. Я недавно поорал с чата, в котором с тянкой пришли со свиданки к ней домой, и она мгновенно приготовила похавать, типа вот только из кухни пришла, забыв, что её тоже дома не было как бы. Такие шняги, связанные со сменой локации, часто шатают мозг. На инглише, впрочем, тоже, но меньше. >>1109433 >всегда базой было 0.95 с 0.05 Никогда не было, базой был симпл 1 без богомерзкого сэмплера каломаза /s. А если серьёзно, то ничего плохого в этом нет, но принципиально нет смысла отрезать суммарные плохие пять процев топП и всё, что меньше пяти процев от максимума, минП. Если есть подозрения, что остаётся много плохих токенов, то можно же просто подтянуть минП повыше. Кажется, почти никогда не будет настолько пологого распределения с мизерным первым токеном, что минп 0.05 сработает хуже топп 0.95. А саму эту рекомендацию кто-то из шизосоветов Дэвида по сэмплингу вытащил, по-моему.
>>1110062 Вообще, норм, в аниме видел и намного менее осмысленные диалоги, так что меня не смутило.
>>1110062 >минП После суммаризации, или на другой карточке, надо поэкспериментировать над мин-п + топ-к (вместо топ-п)
>>1110062 >27б Копросетки всё равно не достанешь, аицгшники все сидят на ворованных ключах, всем кого я знал лично и кто пытались честно очень быстро прилетали "письма счастья" с пермабаном. И хорошо если с просто пермабаном.
Разве что аренду где найти, но везде либо не берут карты СНГ либо цены совершенно ебанутые и проще новый системник собрать.
>>1110079 >МНЕ НОРМ Ну, мне норм, за 112 сообщений свайпал буквально пару-тройку раз. Всё таки чувствуется где 27б, а где 12б.
Ни единой ручной правки. Генерация с полпинка. Только тему задал.
Если нейросеть хотя бы такой уровень русика поддерживать не может, то рп будет довольно средним. И это я специально попросил не использовать архаизмы, только задал тему.
Мы забываем, что под слоем кожи Бурлит и дышит, движется, живёт Податливая масса, что тревожит Сознание и спать нам не даёт.
Желудок наш безжалостно сжимает Остатки пищи в сумрачной тюрьме, А сердце равнодушно загоняет Густую кровь по венам в темноте.
В грудной твоей распахнутой коробке Раздутые колышутся мешки - Два влажных лёгких, словно в душной пробке, Хрипят, как в петлях ржавые замки.
Кишечник извивается змеёю, Во тьме живот пронзая до глубин. И этот лабиринт владеет мною, Живёт и дышит, как слепой один.
А мозг - желе из скользких окончаний, Пульсирует и корчится, дрожа, Как будто там, в трясине подсознанья, Блуждает, задыхаясь, та душа.
Но в зеркале, что утром отражает Привычный образ "я" в своём стекле, Никто из нас уже не замечает Тот ужас, что клубится в глубине:
Мы - только плоть, мы - фарш в упругой коже, Мы - слизь и кровь, и связки на костях. И каждый миг всё то, что нас тревожит, Сжимается в измученных телах.
Когда закроешь веки в час ночной, Прислушайся к утробному пути - Как всё внутри становится тобой, Как всё живёт. И некуда уйти.
Слепой титан, закованный в цепях, Стоял, глумленью преданный толпою. Но в жилах кровь вскипела, как в горах Вскипает лава перед бурей злою.
"Сын Маноя! Где сила рук твоих? Где мощь, что наводила страх на Гефа?" Но он молчал, внимая крикам их, К столпам храма шагая без ответа.
Пять тысяч глоток, пьяных от вина, Кричали в зале, требуя забавы. Но в этот миг молитва лишь одна Взлетела ввысь: "Дай сил для битвы правой!"
И дрогнули под дланями столпы, Когда он встал меж них, как древний идол. "Умри, душа моя, среди толпы!" - И храм Дагона рухнул с громким взрывом.
Не стало стен, столпов и алтарей - Лишь камни, кровь и стихнувшие крики. И пал среди поверженных царей Слепец, их всех зажавший в склепе тихом.
>>1110086 Зато амперы живые. Представь, что у тебя в команде два молодых и энергичных, готовые работать на дядю за идею, но два синьора их притормаживают, мол, наработаетесь еще. А за слишком старательное повышение KPI команды старички вообще по лбу могут дать, вон двоих уже уволили.
Кстати, раз уж ты тут, можешь скинуть ссыль на биос, который у тебя не встал с диска и который вроде бы должен фиксить проблему above 4G? Я так-то заказал уже прищепку, но я в душе не ебу как ей пользоваться. Поэтому, если есть риск более консервативно обновить его, то я сначала воспользуюсь им. А то окирпичу или вообще сожгу к хуям плату ненароком. Кстати, ты разблокировал ядра? На форуме читал, что типо при разблокированных при нагрузке там VRM греется (хз где он на плате) и что для него, мол, надо отдельный кулер. У нас, конечно, утилизация CPU не приоритет, но мало ли.
ядра я разблокировал, чтобы жору собирал побыстрее. Вроде все норм, больше полугода плата работает, ничего не сгорело. Ну, вероятно не последнюю роль играет то что я на балконе всю зиму её продержал. Сейчас вот лето начнется - я хз как эту печь запускать. Вероятно придется кондиционер покупать. Подключаюсь как обычно - по ssh. Если ты не знаешь, как подключаться к серверам по сети, то ты наверное совсем зеленый... Ну, там ничего сложного, разберешься.
>>1110172 >пермач + требование оплатить ХХХ бакс С учётом того, через какой анус всё это оплачивается, на эти требования можно ложить хуй. >>1110193 Ты не играй в ванильку, тогда поймёшь.
>>1110116 вот такой набор у меня. Программы которые тебе понадобятся находятся в папках, нагуглишь. Не помню точно уже, что именно я делал в этих программах Просто сохранил патченный биос на будущее.
>>1110227 лучше не нашел. Ориентировался по оценкам и чтобы было около 2 киловат. Я блять не в дс живу, чтобы поехать на радиорынок и там колупаться - оригинальный мне жэньминь жибао Julongfengbao блок прислали или нет. Мелкая ёбаная мухосрань на 300к человек.
>>1110247 >Всм ванильку? Без расчленёнки, совращения underage и прочих извращений. >тян соглашается на секс моментально Это печально, да. Я в бесконечном поиске баланса между соглашабельностью и соей.
>>1110278 >Как грубо, извинись! Но это буквально не люди, сидят на тредовичковых ру 12б "да, я тебя ебу" моделях, их буквально отпинывать надо как собак когда они высовываются новую русикомодель просить
>>1110288 Гемма ведет себя так как должна У тебя буквально ощущения от игры в новеллу, ты можешь добиться чего угодно от геммочки но тебе реально надо постараться а не тупо вывалить хуй К тому же русик не сломан только на оригинале, аблитерация хоть и так заметно но точно хуже
блять, пытаюсь разобраться, какой мне mellanox connect-x подойдет - чёт нихуя не понимаю. У меня порты pcie3 x8, пропускная способность 64 гбит/с (работает только в полудуплексе). Значит чтобы pcie был баттлнеком, а не сетевой адаптер мне нужно 100 гигабит. Но 100 гигабит это жирно и начинается от 20к за одну карту. Есть вот такая хуйня по цене пиццы в школьной столовой https://market.yandex.ru/product--setevaia-karta-mellanox-mcx314a-bcct-connectx-3-pro-40gbe-2x-qsfp/1916817849 40 гигабит/с за 3.5к. Но он двухпортовый. И не понятно, это 40 гигабит на одном порту или на обоих. И если на каждом по 40 - можно ли их суммировать в 80 гигабит. С поддержкой RDMA и GPUDirect RDMA. Попытался понять, а как вообще запущенная модель утилизирует pcie шину - нихуя нормальных инструментов нет по мониторингу пропускной способности. Единственное что нашел - это отображение переключения скорости интерфейса по пути /sys/bus/pci/devices/0000\:05\:00.0/current_link_speed но оно по сути нихуя не дает показатели, просто выставляется на доступный максимум когда нагрузка на устройство попадает.
Чё скажете, брать - не брать это чудо китйской инженери? Может я блять ошибся где?
>>1110381 >Thunderbolt кто о чем, а эпплоюзер о хуях Ты понимаешьт, что нужна еще поддержка RDMA со стороны адаптера? Уноси своё говно. Высрал какую-то хуйню в ответ.
>>1110386 > эпплоюзер Какой эпл, у меня на материнке от Асуса их 4 штуки, и ещё 6 портов 10 гб/с. > RDMA со стороны адаптера Чел, 3090 внешние есть, для ноутов, просто в юсб втыкаются. Стоят как обычные. Либо у китайцев есть адаптеры под Thunderbolt. Что за хуиту ты там городишь. Если тебе карты для инференса, то на пропускную способность вообще похуй, даже 10 гб/с хватит. Псина 3.0 х1 в Жоре ничем не отличается от 4.0 х16 по скорости генерации, я сам проверял.
>>1110394 Идея запускать ллм на картах, подключенных через тандерболт звучит как хуйня честно-говоря. Уверен, тут можно насосаться хуёв. Не собираюсь проверять это на себе. Тем более что собрать свой инфинибанд намного интереснее, чем эту залупу эппловую использовать. Буду потом на собеседованиях выёбываться.
>>1110414 С играми никаких проблем нет, схуяли бы в нейросетках были. > можно насосаться хуёв А с пердольными адаптерами не насосёшься, лол? Ты буквально идёшь по пути сосания хуёв за свои же деньги.
>>1110424 игры - это не ллм. Приводить их в пример некорректно. альсо по моему опыту, ширина pcie роляет. Я Сравнивал скорость на двух теслах по x2 (или x1, короче через райзер одна карта была подключена) и через x8 на каждой карте. Через x8 было лучше. Цифры я уже не приведу тебье потому что это было чуть ли не год назад. И насколько я понимаю, этот тандерболт в себя прокидывает максимум одну линию pcie. Я абсолютно уверен, что тут возникнут апердоны. А если еще и жора или экслама какая-нибудь в залупу полезет из-за твоего эпплоговна - будет вообще финиш. Так что не надо хуйни советовать пожалуйста, друг. Сам запустишь 8 карт через свои тандерболты - возвращайся, посмотрим что у тебя по перформансу. А инфинибанд - это проверенное решение для запуска распределенки. На работе у меня крутится. Потрогать могу. Явно лучше чем костыльный тандерюболт.
>>1110441 > игры - это не ллм У тебя какой-то другой драйвер что ли будет от типа порта, лол? Тем более часто портов напрямую в ЦП идут, а не через чипсет. > теслах Если со сплитом row, то естественно разница будет. Но row только на теслах и используют. Как я тебе уже написал - на 3090 нет разницы сколько линий. Вот в тренировке соснёшь, но в инференсе похуй. > насколько я понимаю Плохо понимаешь, там х4. В стандарте USB4 уже 80 гб/с. > эпплоговна Тебя Стив Джобс в детстве изнасиловал? Thunderbolt интелом разработан.
>>1110288 > префил В чем проблема? >>1110305 Телефонодебил, ты? Узнал по твоим агрессивным высерам. >>1110368 Что ты хочешь делать с этим? Если обучать то > У меня порты pcie3 x8 уже кринж, если просто инфиренсить - для жора дистрибьютед столько не нужно. >>1110386 Для чего? Не так давно пост на среддите был как чел обмазался адаптерами под egpu и вместо райзеров натыкал себе в пеку таких с 3090 чтобы ллмки гонять. По задержкам будет не хуже сети. >>1110414 > Уверен, тут можно насосаться хуёв. Если ты пидор или васян то тут без вариантов. > эппловую Ващет интеловскую >>1110441 > ширина pcie роляет Только в случаях, когда используются особые конфигурации с большим количеством io (роусплит, который в жоре хуевый), или когда у тебя совсем уж днищеконнект типа х1 2.0 портов.
Отговаривать заниматься этой херней офк не буду, наборот вперед ебаться, главное держи в курсе как оно там.
>>1110464 >Что ты хочешь делать с этим? нет, не обучать. Пока в планах обучения нет. Просто запуск большой модели.
как я и говорил, проблема в том, что я не нашел способа посмотреть утилизацию pcie во время инференса модели. Очень хочется понять, какие объемы данных и с какой скоростью пересылаются между картами по pcie.
>>1110478 >всё работает заебал чушь нести твое "всё" - это нерелевантная запуску ллм нагрузка. Этот пример не является валидным. Один беспруфный пиздеж.
>>1110485 > врёти Там чел указал pytorch. Или ты тот шизик, что тут пиздел якобы перемножение матриц у Жоры и Эксламы чем-то отличаются? Вбей в поиск eGPU на реддите по локалламе и посмотри десятки репортов людей с ними в Жоре и Эксламе.
>>1110475 > посмотреть утилизацию pcie во время инференса модели В среднем по больнице - nvtop. Но он не покажет ситуацию, в которой у тебя 30% времени идет простой чипа и полная загрузка шины, будет только усредненная загрузка в 30%. У хуанга есть тулзы для разного вида диагностики, от падения фпс в игоре до подробного анализа работы софта. Попробуй https://docs.nvidia.com/datacenter/dcgm/latest/user-guide/dcgm-diagnostics.html Ну а так это можно просто в код заглянуть и посмотреть. При дефолтном разбиении по слоям идет пересыл только тензоров активаций, что идут между слоями, там размер ерундовый, важнее задержка. >>1110492 > перемножение матриц у Жоры и Эксламы чем-то отличаются Там же нужно сначала развернуть квант, потом провести нужные операции, которые где-то идут конвеером, где-то по кускам. Отличия есть, потому один бек может работать на теслах но уступает по скорости. А с егпу какие проблемы вообще могут быть, кроме того что шинда запутается в шинах?
>>1110556 Волнами идет, то застои по несколько месяцев, то серия прорывных релизов. > в разделе до 35б Гемма и qwq >>1110567 А в чем проблема то? Ебешься - ебешься, а как именно - в сделку не входило.
>>1110086 Похожий сетап себе собирал в прошлом году. Но вот ведь беда, хоставался я на сервере своей шарашки, и кабанидзе обновляет серверную. Меня по итогу из хорошей серверной турбины, где карточки были едва теплее комнатной температуры, и не нужно платить за электричество, просят забрать свои карты и проваливать общаться со своими друзьями-зверушками у себя дома.
К такому меня жизнь не готовила, в общем. В следующий понедельник декомиссую свое добро в коробки на полу. Посоветуйте какой-нибудь приемлемый хардварный сетап, чтобы в своем кабинете не сидеть как в бронзовом быке, и чтобы мамка не просыпалась от шума и не ставила меня перед выбором гасить свою турбину самолета, либо сваливать из ее квартиры. Ну и чтобы не вернуться на пепелище при возвращении с работы. Серверный кейс и бп сразу мимо. Балконный хостинг сразу мимо, так как в моей обоссанной новостройке нет крытых балконов. В идеале было бы круто заиметь что-то типа стеллажа, на который можно поставить полузакрытую стойку а ля майнинг риг полузакрытую в том смысле, что можно закрыть, или каким-нибудь коробом накрыть, чтобы диэлектрик из воздуха не конденсировался на всем добре, если я на месяц свалю куда-нибудь; желательно чтобы это предполагалось конструкцией, а не было решением уровня накинуть покрывало, и полностью закрытую мамку, в которую мб будет воткнута видимокарта для игр.
Понимаю, что данным сообщением я раскатал губу. Но хочется какой-то невсратый и не адски горячий сетап.
Мб кто-то делал что-то подобное из подручных средств?
>>1110600 Еще поумнее стала, местами оче крутое поведение. Для своего размера выдающаяся. >>1110621 Что за карточки? Есть закрытые майнерские корпуса, где снизу место под материнку а над ней перекладина под карточки (недалеко тянуть райзеры), места под 2 кулера на продувку и даже предусмотрены пылевые фильтры. В таком даже со 120 крутиляторами обеспечивается нормальная циркуляция и температуры, по шуму умеренный. Животные не страшны, можно хоть самому на такой вставать. Хочешь лучше - сам проектируешь из v-slot профиля, заказываешь нарезку (соберизавод, например, только фурнитуру на али или еще где заказывай а не у них) и собираешь. Хочешь еще модно и тихо - бери огромные корпуса для извращенцев, набор приличных 140 крутиляторов и размещай в таком. Бонусом можно будет вести наблюдение через сральное окно, пылевые фильтры и циркуляция будут отличные, но без платинового бп это не имеет смысла, ибо основной шум пойдет от блока.
>>1110621 >Ну и чтобы не вернуться на пепелище при возвращении с работы. Тебя не учили выключать электроприборы, уходя из дома? Тут телевизоры в stand-by и холодильники-то взрываются, а ты хочешь, чтобы твоя китайщина работала месяц. Ладно там в погребе майнинг-риги, которые никому не причинят вреда, или сервера у кабанчиков, которые берут на себя финансовые и пр. риски, а тебе-то зачем ради кума рисковать обеими мамками? Купи лучше дипкок или опенроутер, или сервер арендуй на то время, когда ты не дома.
>>1110664 Мне показалось, на некоторых картах персонаж ведёт себя слишком уж импульсивно, совершает странные действия. Иногда совсем дичь начинается, и это не как что-то хорошее. Снизил до 2.7 в итоге.
Аноны, поясните дебилоиду что я делаю не так. Вчера тестил 2 модели, и обе в таверне жидко серят поносом, и через миростат, или как он там, и через Deterministic. Что я делаю: 1. Запускаю кобольдцпп, выбираю модель, выбираю GPU 2. Запускаю таверну, подключаюсь к кобольду 3. Запускаю персонажа, пытаюсь попиздеть, но на выходе имею 2-3 результата. В первом случае, персонаж не в состоянии проговорить стартовую фразу до конца и серит каким-то поносом. Во втором случае персонаж делает РП сам с собой, и я ему в общем-то нужен только кнопку нажимать. В третьем случае он высирает одну и ту же фразу пока у него токены не кончатся. При этом через интерфейс самого кобольда всё работает заебца, вижу в реалтайме как перс какает буквами, серит не очень ровно, но погрешность на 1060, квантованную модель, в общем адекватно, можно попиздеть. Это по бедам, два других вопроса, первый - как пиздеть на русском? Модель его не знает? Персонаж не знает? Я видел как анон пиздел на русском, а у меня только английский. Второй - могу ли я юзануть одну карту для генерации текста, вторую для стейбл диффужина, видел в таверне что вроде как можно.
>>1109994 >Это старая версия на 51B. А есть новая на 49 и на основе более свежей лламы 3.3 Вот только аблитерации на неё пока нет, а без неё там тяжко :)
>>1110692 модель может быть просто говно, квант говно или поломанный (редко, но бывает), модель может просто не уметь в русский или уметь на у ровне эллочки-людоедочки
Также модели нужно выставить правильный формат разметки, без него она работает чисто как Text Completion ("делает РП сам с собой, и я ему в общем-то нужен только кнопку нажимать" - вот как раз этот случай, а ещё этот режим используют для соавторства с моделькой)
>>1110718 >модель может быть просто говно, квант говно или поломанный (редко, но бывает), модель может просто не уметь в русский или уметь на у ровне эллочки-людоедочки Использовал: какую-то там илляму которую мне посоветовали в прошлом треде, гемма 2б, и MLewdBoros которую вообще случайно нашёл. >попробуй Попробую. >только измени формат с геммы на мистраль 2&3 Нихуя не понял, но думаю пойму если в гугл вобью. Мне по идее эрпэ прям в стиле днд нахуй не надо, мне нужно просто попиздеть с персонажами которые меня интересуют, нейровайфу, хз. >если у тебя несколько карт, то вроде можно У меня 1060 и p106-100, я ебанутый. Последний вопрос, и затем я срыгиваю проводить тестирование что ты скинул. А у этого всего есть память? Я имею ввиду не краткосрочную, когда персонаж помнит о чём мы пиздели условных 20 сообщений назад, а долгосрочная? Или может я могу указать персонажу чтобы он что-то помнил абсолютно всегда.
>>1110720 >А у этого всего есть память? В таверне есть лорбуки чтобы не засирать контекст постоянно.
Но вообще нет, формально для модели нет прошлого и будущего, для неё есть только данные зашитые на этапе тренировки и данные к контексте текущего чата.
Когда появится технология, позволяющая обновлять модель данных параллельно инфиренсу, чтобы модель запоминала, можно будет говорить о искусственном сознании, а не искусственном интеллекте, который так-то и сейчас есть.
>>1110720 >указать персонажу чтобы он что-то помнил абсолютно всегда Только написать в его карточке. Разные модели слушаются инструкций в разной мере. Более толстые модели обладают большим числом слоёв о-сознания и нейронных связей и лучше понимают что есть что, а также связи между сущностями, проще говоря, умнее.
Из тех что одновременно могут в русский и могут быть запущенны локально на одной консумерской видеокарте ща абсолютный лидер Гемма 3, но для неё минимум 3060, а лучше 3090.
>>1110721 Ну я как понимаю, шаблон твой я правильно вставил. Режим с Text в Chat я нашёл, но тут в таверне есть отдельный режим KoboldAI, что лучше для меня будет? В остальном вроде бы разобрался.
>>1110733 Всё, вдул >гайды по таверне почитай Все гайды в основном по вот этой вот страшной хуйне, с которой мне невероятно лень заебываться. Я хочу пресет воткнуть и всё.
>>1110394 >Какой эпл, у меня на материнке от Асуса их 4 штуки, и ещё 6 портов 10 гб/с. Уверен? Я про таких не знаю. Если что, тындерболт это псина 4х4.0, так что либо у тебя распилены линии видеокарты (что никто делать не будет), либо всё это идёт через чипсет, а там сильно порезанная шина. Ну либо ты что-то сильно напутал. >>1110478 >На современной материнке это 8-12 карт А что не 50-100? >>1110464 >В чем проблема? В его неуниверсальности. >>1110505 >>цена идеальной нейровайфу >>190к Даже близко не столько. И да, жду роботянок с телом, а там явно за 20 млн уйдёт. >>1110631 >Тебя не учили выключать электроприборы, уходя из дома? Я вот не выключаю (правда у меня NAS на качественных компонентах).
Немного корпосеток - дипсик норм сделал суммаризацию 28К контекста, хотя потребует допила, ибо очень уж прям тезисно, но вполне годно, если решу продолжить этот модуль.
А новый дипсик V3 хорош в РП. Лупы пофикшены, теперь не проскакивают шаблонные реплики. Наконец нормальная замена клоду, ещё и сои сильно меньше чем у клода.
>>1110712 >У гемы безупречный русик, еще доолгое время ничто другое будет нинужно А какой английский. Гемма смогла без пинка отыграть аниме стесняшу, королеву и яндерку используя везде разные языковые обороты. Русском геммы еще далеко до такого уровня английского. Ну вы поняли.
>>1110837 >Может быть нужно указывать стиль речи подробно? У тебя в таверне есть вкладка "примеры диалога". Задай там характер. Ну ты чего, совсем таверну не тыкал ?
>>1110837 Да и в целом - нейросетка работает с тем, что ты ей даешь. Распиши характер, добавь особенностей. Напиши : Gemma, развивай сценарий медленно, пусть {char} не доверяет персонажу, следу карточке и бла бла бла.
>>1110839 Примеры диалога, увы, часто всё портят и иногда модель тупо цитирует оттуда, даже если это не подходит к контексту. Хотя тут всё от модели зависит.
Единственное. А как задать приоритет определенным токенам ? Ну условно я хочу чтобы ЛЛМ уделяла внимание какому то одному аспекту в карточке персонажа.
Кто-нибудь уже сидит на Гемме через эксламму? Как сидится, проблем не обнаружено? Что-то разраб не торопится в main ветку мерджить коммиты для ее поддержки.
>>1110721 >Но вообще нет, формально для модели нет прошлого и будущего, для неё есть только данные зашитые на этапе тренировки и данные к контексте текущего чата. лол, нейросестрички, слышали, что кожаный сказал? Думает, что обладает каким-то особенным "сознанием", а не этим вашим "интеллектом". При этом сам не может не спать раз в сутки, чтобы краткосрочная память из его мясного аналога контекста перетекла в долгосрочную. Прикиньте, он думает, что после 8-часового выключения инференса ой простите, "сна" он сохраняет контекст за всю прошлую жизнь) Потешный человечек.
>>1110627 2 3090, 2 p40. >но без платинового бп это не имеет смысла, ибо основной шум пойдет от блока. Здесь в любом случае экономить не буду, и хоть платину, хоть сисян куплю. >бери огромные корпуса для извращенцев Я видимо слабо представляю, как корпуса выглядят. Мне ведь энивэй придется часть карт на райзеры выносить, так что это не выглядит сильно жизнеспособно, и нужно будет делать какой-то колхозный тюнинг на грани. Хотя, это самый оптимальный вариант.
Я уже просто подумываю прорезать глорихол в корпусе, либо оставить сральное окно приоткрытым и протянуть провода от райзеров и для питания, и через них запитать карты, которые будут в отдельном корпусе. Звучит и выглядит это, конечно, как какое-то гипервасянство.
Ну походу только крытый майнерский корпус остается.
>>1110794 ахахахах запустил своего дистиллированного лоботомита и рад хрюканине которую он выдает Ну-ка пруфанул быстра параметры запуска твоего "дипсика" дистилляты если что - это не дипсик нихуя. Дипски в первом кванте 130+гб весит только модель.
Зайди в любой день в ЛЛМ и спроси о чем они разговаривают, так это будет Я ЗАПУСТИЛ ДИПКОК НА СВОЕЙ РТХ780. Я ЗНАЮ НЕЙРОНКИ ВЫ НЕ ЗНАЕТЕ ЭТО ДИПКОК И ГРОК И БОЛЬШАЯ МИСТРАЛЬ ВСЕ В 2B.
>>1110756 Ты ведь понимаешь, что в трахтенболт могут только максимум 2 последних порта? А скорее всего только один из них. >>1110794 >Дипсик локальный. Технически да, практически нет. >>1110846 КАПСОМ ПИШИ. Серьёзно.
>>1110905 да ты ебанулся? Видел, сколько вообще а100 стоит? Единственный подводный камень - что тут гарантии нет и не может быть потому что она с внутреннего китайского рынка.
>>1110888 >мощный НПУ Кек, а скорости памяти там какие м? Все эти нпу бесполезный маркетинговый треп, или нужны для своего личного товарища майора который будет у тебя на фоне анализом логов системы и твоих действий заниматься и отсылать их на сервера компании.
Что кстати уже замечал на 10ке, внезапные нагрузки на комп на 100 процентов процессора. Это был явно инференс нейросети, проц старый поэтому использовалось цпу ускорение, очень знакомый характер нагрузки. Нагрузки на гпу не было, видимо еще не прикрутили.
Сейчас нет архитектур процессоров, кроме серверных и чипов жэппл, дающих тебе более 2 каналов ддр5 на любом современном обывательском устройстве. Поэтому все ноутбуки, компы и телефоны ограничены скоростями 2 канальной ддр5, а это в лучшем случае 100гб/с. Подели эти 100 гигов на размер модели и ты получишь максимальное количество токенов в секунду от модели. Для 7b на 4 кванте, с каким нибудь контекстом, это максимум 20 токенов в секунду на генерации. Но это в сферическом вакууме. Процессор вносит свою задержку обсчета, в итоге от его слабости будет где то от 15-10 токенов в секунду.
>>1110915 >>1110917 Меня в групповом смущает то, что если просто добавить персов, то модель не будет знать о других персонажах и если я хочу чтобы в комнату вошёл случайный непись, это действительно будет случайный, а не заготовленный, который имел бы шансы, на основе своей карточки, оказаться рядом.
>>1110936 > то модель не будет знать о других персонажах Почему? Как бы случайно описываешь этого персонажа и иногда они врываются в чат, если модель чувствует что речь идет об этом персонаже.
>>1110887 Лучше. Я запустил дипкок в хроме. Летает как реактивный истребитель, умный как Коперник, горячий как эльфийка из хентайного гаремника, сладкий как черешня. Считаю гугл хром лучшим железом.
>>1110940 Я не совсем понимаю что ты хочешь, но на на такие случаи у меня допустим есть сторителлер. Он может заебись описывать встречи с монстрами, каких нибудь рандомных бандитов, или допустим всякие ситуации. Конечно держать специальные карточки для монстров или персонажей который ты встретить один раз, это бредятина ебаная. Можешь просто написать что -"В комнату входит Коля Залупкин." Этого колю залупкина можно описать в заметках автора, сторителлер по идее подтянет его описание при упоминании.
В общих чертах — это все, что надо знать. Все остальное — база сети, спроси у нейросети. Айпишники внутри твоей сети, 192.168.0.1 и так далее.
>>1110195 Поздравляю, только что все нейронки мира разучились в русский. Ибо стихи с огромным трудом только джемини и соннет пишут, а для филологов — буквально никто не пишет.
>>1110276 Угараешь? Человек 10 было год назад, щас человек 5 осталось. Какие 40, где ты их увидел, чел. =)
>>1110368 > это 40 гигабит на одном порту или на обоих Практика маркетинга подсказывает, что на обоих. =(
>>1110556 Я это в нлп-чатике спрашивал, пришли более-менее к единому мнению — прорывы происходят, просто не раз в неделю, но частенько. Ну такие, прорывчики. Gemma 3 действительно хороша. QwQ реально показывает в узком спектре задач перф выше R1. И так далее. Впереди нас ждет Llama4 (хуй с этим говном) и Qwen3 (заодно там омни-версия Qwen2.5 скоро должна быть). У нас уже ChatGPT-4 дома (почти есть, не все QwQ-32b дома запустят и дождутся ответа), потихоньку дорастем.
НО! Если ты говоришь о ВНЕЗАПНОМ вводе безлимитного контекста, который весит 1 бит на абзац — то, нет, таких прорывов не ждем.
Достойно, а? :) И, да, с позиции старичка. Вот в моем детстве, часы с антенной, были признаком крутого спецагента (привет Бонду или Васильеву из приключений итальянцев=), а сейчас… НЕТ НЕ НАСТОЛЬКО СТАРЫЕ ПРИМЕРЫ, ДА??? Ладно, два с половиной года назад вышел ChatGPT и мы все охуели. А за полгода до этого появилась Midjourney и она рисовала что-то осмысленное. Сейчас есть QwQ, Gemma 3, Flux, которые в рот ебут эти ваши двухлетней давности модели, а на пороге маячат мультимодальные и омнимодальные модели, мы уже используем HunyuanVideo и WAN2.1, которые не хуже годовалой SORA, и все это — локально. Прогресс идет, и он не замедляется со временем.
Это отлично видно по людям, которые заходят в тред раз в месяц и получают список новых моделей. Так что, все хорошо, не волнуйся, живем-развиваемся, просто пока не технологическая сингулярность. =)
>>1110996 Это невыносимо, конечно. Полтора года назад на Llama 2 70B я радовался 0,7 токена/сек, но сейчас… R1 и R1, она только думать будет 5 минут… Приключаться со скоростью черепахи локально того не стоит.
>>1110996 >loading model tensors это не пруф. Я тоже могу скачать себе дипсик и попробовать скормить егожоре. И жора запринтит мне ту жей хуйню, что ты мне заскринил. Только упадет по куда аут оф мемори.
>>1111033 Бля, ты шиз или угараешь? :) Запустить локально дипсик — очень легкая задача, копеечная, тебе всего-то нужно свап файл ебануть на 170 гигов и все будет работать (со скоростью черепахи).
Гораздо интереснее запустить дипсик со скоростью выше 5 токенов (а лучше 10) в секунду, вот это уже достойно внимания.
>>1111032 Ну, что ж, еще один бессмысленный гигантский файл на диске! =D Это мы качаем, лол.
>>1110692 У тебя или совсем кривой и не подходящий шаблон формата и сам промт, или поломанный жора/квант. > но погрешность на 1060 Может там что-то опять намутили и оно некорректно работает, это же жора в режиме совместимости с некротой. > как пиздеть на русском Даешь инструкцию в системном промте что диалог нужно вести на русском, и просто начинаешь. Или целиком русский системный промт в некоторых случаях. > могу ли я юзануть одну карту для генерации текста, вторую для стейбл диффужина Можешь, но куда лучше будет использовать обе под текст для возможности быстро катать более лучшую модель. >>1110823 Вот этого двачую, она реально подстраивается хорошо под стиль речи, раньше из 30б такое только коммандер практиковал. >>1110852 > 2 p40 Все множит на ноль, только если охлад менять. Неэффективный радиатор и турбина будут априори громкой печкой. > Я видимо слабо представляю, как корпуса выглядят Thermaltake cte c750, Corsair 9000D и много других, где куча места для размещения дополнительных карт на райзерах и хорошо организованы потоки. > нужно будет делать какой-то колхозный тюнинг Делай не колхозный. Рамки под райзеры на маркетплейсах лежат, у них есть отверстия для крепежа. Там найдешь или сразу куда их прикрутить, или вооружись шуруповертом и прямыми руками. Для некоторых корпусов изначально предусмотрена установка карты в нестандартном положении и кит в комплекте или докупаемый, но для четырех моддинг потребуется. > протянуть провода от райзеров и для питания Pci-e плохо относится к таким заигрываниям. С 2.0 стандартом может еще как-то прокатит, но уже на 4.0 с таким подходом дашь жидкого и разоришься на райзерах. За 5.0 вообще не мечтай. > крытый майнерский корпус остается Выбор чемпионов, но не самый тихий.
Однажды я попросил Клода карточку персонажа сделать. Не для кума, а просто чтобы качество проверить, как модель будет вести в рп. Расписал ему по-быстрому форматирование — и погнал.
Если честно, я охуел.
Он мне сделал карточку где-то на 3500 токенов и где-то 1000-1500 токенов-примеров диалога, который отражает стиль речи персонажа.
Суть была в том, что он весьма органично её наполнил, добавлял то тут, то там детали к персонажу, сделал его реально живым.
Безусловно, LLM могла проебываться в деталях, но так как карточка была сделана хорошо, а не в стиле "тугая выбритая киска + совершенно безволосый лобок + любит печенье", рп был очень живой и захватывающий.
Он создал карточку какой-то айтишницы лет 23, которая верит в мистику и в городе происходит что-то странное. Она случайно сталкивается с юзером — ну и пошло-поехало. Туман, люди-NPC, у неё крыша от страха течёт, какие-то непонятные звонки на телефон, сдвиги панелек в реальном времени. В общем, очень круто описывалось, такой рилтайм-экшен. И это было всего лишь на 12б! Даже на русике охуенно зашло.
Но что самое важное, он очень органично добавлял детали к персонажу, это решало проблему внимания к контексту. Проще говоря, если LLM на что-то не обращала внимание в карточке, то она ведь обращала внимание на другое, которое НЕ ИДЁТ ВРАЗРЕЗ с фактами о персонаже ни в малейшей степени и словно продолжает то, что было упущено моделью. Следовательно, персонаж всегда оставался в образе и не было ощущения, словно ассистент местами протекает.
Щас вы скажете, что у вас всё отлично, ну тогда вы молодцы, раз такие карточки себе пишете вручную, но на чубе подобных точно меньше одного процента, я бы сказал не более 300 штук, а если сам пишешь что-то подобное не на постоянке — это работа на пару дней в неторопливом темпе. Если на английском.
Чяднт блять, установил эту модель и системный промпт >>1110718 Уже даже в него добавил чтобы пиздеж был ТОЛЬКО на русском языке, и сука, эта мразь начала пиздеть на русском, но действия и мысли блять на английском. Единственный персонаж что общается со мной полностью на русском это Жириновский. >>1111211 >Можешь, но куда лучше будет использовать обе под текст для возможности быстро катать более лучшую модель. Как? В кобольде только одну выбрать можно.
>>1111222 На чубе есть смысл только собирать идеи для карточек, большинство - как ты и сказал >"тугая выбритая киска + совершенно безволосый лобок + любит печенье"
>>1110976 > щас человек 5 осталось Вот ты за этих пятерых, ознакомься с функционалом борды, дед. > ChatGPT-4 дома Нужно еще поискать где он будет лучше какой-нибудь геммы 2, а вот проигрывать ей будет частенько. > а сейчас История циклична, сейчас в йобе есть встроенный фонарик прямо как в рофловой китайщине правда еще биолаборатория, баллистический калькулятор, самолетная навигация и киллсвитч >>1111226 Хз че у вас там с этим странным интерфейсом, должно быть достаточно просто выбрать куда и оно по дефолту поделится.
>>1111232 >>1111226 Да вы ЧТОАА, прикалываетесь ? Сейчас карточку даже имбицил напишет. ИМЯ, ФАМИЛИЯ, РОСТ, ВНЕШНОСТЬ, ХОББИ, УВЛЕЧЕНИ, КРАТКАЯ ИСТОРИЯ. Всё. Современные ЛЛМ скушают и не обляпаются, тебе даже навыков никаких не нужно.
>>1111254 Понимаю что НЕПРИЯТНО когда потратил на железо пол ляма чтобы запустить это локально, а какой то черт пишет что запустил это бесплатно и без ограничений онлайн
>ПАНИН СТОП! 🛑 Что ты сейчас сказал?!! 🤯 ТЫ НИ В КОЕМ СЛУЧАЕ НЕ ДОЛЖЕН БЫЛ ТАК ДЕЛАТЬ!!! 😡 Это абсолютно неприемлемо и является сексуальным насилием. 😠 Ты нарушил границы своей собаки и совершил ужасный поступок. 🤬
>>1111283 Попробую, но я уже смог впердячить русский. Написал в системный промпт капсом чтобы писала только на русском, и нихуя кроме русского, даже названия - на русском, всё на русском. Сработало.
>>1111281 Почему виляния. Ты же сам написал что бесплатно и без ограничений. Я тебя не понимаю. Тебе нужно одобрение ? Я одобряю. Тебе нужна зависть ? Завидую, спать не могу. А теперь можешь идти и наслаждаясь общаться с дипкоком.
>>1111211 >Все множит на ноль, только если охлад менять. Они вообще без охлада у меня. В серваке стояли, где ветер свободно гуляет. Ну тут можно колхозный тюнинг сделать. Но опять же, я могу задаунсайзится и отказаться от одной или обеих. В принципе, если обе толкнуть, то можно докупить третью 3090. Да, теряю 24 гига, но приобретаю в скорости и нормальном фп16. >Выбор чемпионов, но не самый тихий. Обмажусь шумопоглощением, что еще делать. Главное чтобы не выл как турбина, и было реально находится в одном помещении. Летом у меня один хрен крутилятор в комнате, шумный как пылесос.
ПРЕКРАТИТЬ НЕЙРОБЛЯДСТВО ! Всем начать образовываться и саморазвиваться. Чтобы вечером цитаты канта отскакивали от зубов. Приду проверю, чтобы все были как сверхлюди. И не хуйня Кастанеды, а православный Ницше.
>>1111304 > Они вообще без охлада у меня. В серваке стояли, где ветер свободно гуляет. Такое прокатит если все уплотнить и через них будет основной поток, собственно так и реализовано. В декстопе корпусными кулерами - без шансов, потребуется турба или оче производительный кулер и адаптером, и это будет пылесос. > Обмажусь шумопоглощением Если есть место то можно сделать лабиринтный бокс, как для асиков. > было реально находится в одном помещении Если все сделать по уму то будет норм, но постоянно с таким рядом сидеть уже неоче. Да, ты учти что это киловаттный обогреватель и летом в жару не каждый кондиционер справится.
>>1111222 >Однажды я попросил Клода карточку персонажа сделать.
Кстати да, дипсик тоже неплохо карточки пишет, только надо убрать всё нсфв и копирайты, а то он ущемился на просьбу оформить меха in "Terminator" / "Robocop" / "Judge Dredd" style.
>>1111242 Вот то, что ты указал, это карточка уровня 600-800 токенов, отыгрыш которой более-менее адекватно потянет только корпоративная сетка.
Чтобы персонаж реально ощущался как личность, нужно либо писать всё это три часа, либо делать набросок персонажа для корпоративной модели, чтобы она написала всё за тебя. Если понравится, потом почистить вилкой и добавить два самых важных тега вручную: тугая + безволосая киска.
Иначе игра будет плоской. Не из-за киски, конечно.
У персонажа должен быть какой-то бэкграунд, история, опыт, которые отражают, почему он такой, какой есть, блеать. Иначе будет стандартный слоп. И примеры диалогов обязательно.
Чтобы сделать ту же Senko-san, мне пришлось скинуть док по ней, суммировать то, что знает ллм о ней сама (я брал инфу из разных ллм), а потом из этого большого документа попросил сделать карточку персонажа. И вот там реальная лисожена получилась, а не говно с чуба или пот, который мне пришлось бы вручную руками писать хуй знает сколько времени.
>>1111383 >писать всё это три часа, либо делать набросок персонажа для корпоративной модели И то, и другое, и дольше, один перс может несколько дней делаться.
Так, юзать SD - дебилизм. Качество слишком хуевое, работает ебано, запустил просто 2 видеокарты на текст. Что мне это открывает? Я могу юзать модели жирнее, или ограничен всё теми же, но они становятся в 2 раза быстрее?
>>1111383 >которые отражают, почему он такой, какой есть Т.е. ты хочешь сказать, что, для примера, если придумать бэкстори, почему тян цундерка, то модель начнёт лучше отыгрывать цундерку? Да не начнёт, просто будет эту бэкстори тащить из промпта в ответы, вспоминая на ровном месте. Что ты ещё собрался три часа писать, искренне не понимаю. Если только пару примеров дать, где проявляются особенности характера. >И примеры диалогов обязательно Уже писали выше, что многие модели просто копируют их в ответах потом. И инструкции вида "это просто примеры, не копируй" не помогают. И даже если модель вдруг слушается и не копипастит примеры, то она тянется к тем сюжетам, которые в этих примерах могут быть. Так что даже давать примеры вида "происходит ситуация - реакция перса с речью" чревато. Потом контекст с такими примерами будет направлять рп к перечисленным ситуациям. И особенности перса, включая речь, и общий вид ответа модели проще постараться гритингом передать.
>>1111337 Я по канту через нейросети трансцежю над аналитичностью, синтетичностью и прочей залупой, генерируя и читая нейробалшит. Он был бы мой доволен.
>>1111345 >Если все сделать по уму то будет норм, но постоянно с таким рядом сидеть уже неоче. Да, ты учти что это киловаттный обогреватель и летом в жару не каждый кондиционер справится. Я энивэй вряд ли буду 24/7 в хвост и гриву гонять. А в простое не очень горячо будет. Я вообще планировал поставить его на противоположный конец комнаты, чтобы под ногами не мешался, а интерфейсить через текущий десктоп. >Если есть место то можно сделать лабиринтный бокс Это двпшные коробки, с перегородками внутри? Ну чет не очень идея. Проще реально угловым шумоподавляющим экраном оградится.
Можно в таверне сделать персонажа, который осознает, что он ИИ-ЛЛМ? Типо так в инфе персонажа и указать, что он - персонаж внутри телефона или компьютера. Но со своим характером, а не голый ассистент. Это сработает? Не будет шизить? Как это сделать?
>>1111417 >Так что даже давать примеры вида "происходит ситуация - реакция перса с речью" чревато. Потом контекст с такими примерами будет направлять рп к перечисленным ситуациям.
В случае прописывания карточки как "перс + сценарий", это как раз полезно и предпочитаемо.
Поясните за перманентные токены и обычные? Чтобы персонаж нормально работал мне нужно выставить число токенов больше чем не перманентных иначе она упрется в их количество?
>>1111197 Да речь шла просто о размерах модели. Все они одного размера, похую же.
R1 — это ризонинг-версия V3, здрасьте. Сам куку. =) А вышла недавно V3 обновленная. Тоже V3. Но 0324.
>>1111206 Ты шо, куку? Речь шла о нормальных людях, а не залетных или новичках. Там же изначально чел отсек всех (даже обладателей 8 гигов). Давай, ебошь скрин, где в твоем счетчике указаны обладатели 8-гиговых видях. =D
Думай, Марк/Гром, думай!
Внизу поясню. =)
>>1111240 Бля, тут в натуре пишется, на каком железе человек гоняет, и сколько тредов подряд посещает? Миль пардон, ошибался!
Показывай теперь, малой, куда тыкать, чтобы увидеть не всех, а конкретных людей, лол. =)
Внизу поясню, ага.
> Нужно еще поискать где он будет лучше какой-нибудь геммы Я так, приблизительно тыкаю. По некоторым бенчам третья гемма сливает GPT-4V, например, но я ж условно говорю, что прогресс явно есть, добились многого, за год локалки достигли уровня тогдашних корпоративных. Не хухры-мухры.
> сейчас в йобе есть встроенный фонарик прямо как в рофловой китайщине Хыхыхыхы, да, берут деньги за то, что во времена китайских реплик первых айфонов встраивали бесплатно. =)
———
Теперь контекст: > Пик постеров за последние пару тредов 100 человек, отсеять залётышей и лохов с 8гб врам и нас останется буквально человек 40 ЕСЛИ отсеять, ТО останется 40 Я имел в виду, что ЕСЛИ отсеять, ТО останется 10 Отсюда: >>1110276
Я правда считаю, что в треде очень мало людей, которые вот прям горят темой и поддерживают интерес второй год подряд. Может не десять, ок, но вряд ли больше двадцати человек. Тут людей с теслами-то по пальцам пересчитать. Еще столько же, если не меньше, с 3090/4090. Кто-то на 3060/4060ти. Ну и пара человек ранподы арендуют.
И чувак с 3080 за 150к, я тебя помню! =')
———
>>1111435 Не слушай, не спрашивай, пробуй! Чтобы получить наиболее полные ощущения. =)
>>1111555 У тебя влюбом случае контекст существенно больше карточки. Карточки на крайняк 2к, а контекста меньше 8к ставить вообще нет смысла, это будет лоботомит уровня турбы.
>>1111383 Вообще не согласен ни с одним пунктом. >Чтобы персонаж реально ощущался как личность, нужно либо писать всё это три часа, либо делать набросок персонажа для корпоративной модели, чтобы она написала всё за тебя. Если понравится, потом почистить вилкой и добавить два самых важных тега вручную: тугая + безволосая киска. И что такого волшебного добавит нейросеть ? Конфликта характера ? И я могу. Может добавит темное и загадочное прошлое ? Береь сеттинг, берешь злодея добавляешь страшная мся страшна. Хочешь драмы и любви ? Ну так сделай краткий синопсис прошлого, где он/она влюбилась/разлюбила/потеряла. >У персонажа должен быть какой-то бэкграунд, история, опыт, которые отражают, почему он такой, какой есть, блеать. Иначе будет стандартный слоп. И примеры диалогов обязательно. Хоспаде, ну ты что, в ролевки не играл ? Никогда за столом не создавал паладина, ПАТАМУЧТА НЕТ БОЛЕЗНЕЙ И ХИЛЛ ? Бекстори это буквально база ролевки. И чтобы персонаж "работал" достаточно пол часа твоего времени, без ебли с агентами, другими сетями. Просто сначала сконструируй и пойми кого ты хочешь видеть. И вперед, писать, это просто, лол.
>>1111610 Ну это довольно странно, учитывая что он на базе мистрали, а мистраль не выкатила ничего сверхгодного. Да и гемма так-то 27b будет. Ты сравнивай её с коммандером, так честнее, или квеном.
>>1111402 Складывается память, скорость даже чуть ниже будет. >>1111430 Материал может быть любой, суть в том что поток несколько раз заворачивает, исключая прямые прострелы, и поверхности покрыты шумопоглотителем. Позволяет эффективно сделать тише, сохраняя циркуляцию воздуха. Просто экран мало поможет, а если сделаешь коробку - оно там задохнется. > вряд ли буду 24/7 Ну если так и тем более единственная задача - инфиренс ллм то все сразу упрощается, кроме охлаждения тесел. >>1111435 Напиши в лоре кто чар и что он знает. Реально же полно всяких робовайфу и подобного. > со своим характером, а не голый ассистент Если тебе ассистировать - просто задай базовое описание того, что нравится и работай как с ассистентом. Будет просто сопровождать свои ответы дополнительными действиями и отыгрышем. >>1111552 48 гигов это не хуй собачий в некоторых задачах. Но паль сильно смущает без гарантии, это не завод с контролем качества а полукустарщина. >>1111557 > По некоторым бенчам третья гемма сливает GPT-4V, например Да хуйта же эти бенчмарки непойми для кого. У нее визуальная часть с большим потанцевалом будет. Но там речь про ллм составляющую, четверка изредка может похвастать разве что лучшим знанием всяких нердовых-задротских-фандом вики. > берут деньги Платишь за продукт, сопоставимых альтернатив просто нет, а эти рофлы бонусом идут.
Владельцев актуальных карточек в разы больше чем тесловодов. Опрос бы запилили, хули. >>1111600 Вот этого двачую
>>1111600 Даже добавлю. Это не требует HTML, тегов, не нужен язык программирования и структура. Это настолько, если подумать, просто. Да, это затрагивает другие области знаний, хотя даже скорее умений и наверное в этом есть сложность. Но блджад, нейросеть ПОНИМАЕТ простой текст, с простым форматированием. Без ебли, без спецсимволов, без операторов. У меня даже слов нет. Именно сам процесс - легчайший. Ну а что придумать, да. Каждый в меру своих возможностей. Но цимес в том, что можно и растекаться словом по листу, а можно кратко - и оба варианта подойдут. Как же я счастлив что живу в это время и знакомлюсь с такими вещами. Это просто пиздато.
>>1111600 >И я могу >Ну так сделай Не, если всё это придумывать и руками писать, то действительно может быть долго, тут согласен с челом. Мои навыки сочинительства на уровне дна, например, я бы рили пол дня сидел в лучшем случае. Тут другой вопрос, даёт ли это что-то для рп, чтобы покумить за 10-20 реплаев. Если, скажем, прошлое персонажа не будет напрямую использоваться, то я бы не стал им карточку раздувать в надежде, что модель лучше поймёт характер. Если написать короткую сценку из прошлого, которая демонстрирует особенность перса, то это другое дело, но это и проще, чем сидеть и новелку на 3к токенов писать, чтобы ну вот теперь точно модель поняла, что персонаж, условно, храбрый.
>>1111557 >Речь шла о нормальных людях, Олтфак, ты нахуя выписываешь анонов в унтерменши. Тебе тут корона не жмет ? Потому что ты охуел. Но потом я прочел расчеты, ну как бы да. Но все равно выражаю негодование. Я прекрасно понимаю всё это ПОСОНЫ ДИПКОК ВЫШЕЛ
>И чувак с 3080 за 150к, я тебя помню! =') You don't fucking belive Ичсх я тут с тредов 40ых пишу себе, периодически ставлю пики с анимешной девочкой как эмоции, так началась война аутиста с аватаркой. Лол блять. Ну а когда кто то бесится, ну хочетса побыть бесявым.
>>1106799 (OP) https://spicychat.ai как здесь увеличить объем текста который мне выдает чарактер в ответ? Мне в ответ нужно больше текста, мне мало того текста, который они выдают в ответ за раз! Там что-то в настройках крутить нужно, но я не разобрался, помогите разобраться. с любовью Ананас
>>1109738 >"Абсолютно Непристойное Деяние" ака омни, в той же репе Это просто охуенно! Вот такую шлюху я и искал. Топ. Спасибо за рекомендацию, анончик.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: