В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
- меньше 16GB жизни нет - меньше Q6_K жизни нет. ниже q 4 даже говорить смысла нет, там реально истекающая слюной сущность сидящая в чулане и срущая под себя - меньше 5 т/c жизни нет - меньше 24B жизни нет - меньше 8 каналов DDR4 жизни нет - АМУде КАЛ, а куртка ТОП - таверна говно - тут полтреда токсичных уебанов, игнорируй хейт, опционально можешь ебать их мамок
копиум треда:
- Можно получить интересный опыт даже на маленьких моделях меньше 12b - Не обязательно иметь мощное железо, чтобы попробовать текстовые модели. Но нужно иметь терпение:) - Каждая модель может найти своего пользователя - Чем больше модель, тем меньше она потеряет в мозгах при квантизации
По первым впечатлениям - уберперегруженная хрень рассчитанная использование облачных корпосеток. Ебучая панель управления пепелацем.
Talemate напоминает D&D сессию в которой один игрок - лоровед с квентой в палец толщиной, а другой задрот-зануда вызубривший все рулбуки назубок, и вот вместо того чтобы играть они срутся о правилах и как что юзать, выгадывают себе бонусы +1 DC, не нарушает ли это каноны мира и правила рулбуков. Тоже игровой процесс конечно...
Куча кнопочек делающих одну единственную функцию - пишущие за тебя промт в строку, ака Impersonate на стеройдах. Зашитые промты, часть из можно отредактировать, часть нет.
Большая часть инструментов Talemate направлена не на сам ролеплей, а на то чтобы пинать модель всякоразными средствами, от сапога до дилдака, в примерно-нужном направлении написании истории.
Положительная штука это Tracked States, оно напоминает модельке что "если где-то нет чего-то, значит что-то где-то есть", и в каком оно состоянии, а также прочее в том же духе.
ComfyUI-подобный реадктор модулей позволяет создавать свой функционал, чтобы пинать модель уже не сапогом, а собрать свой флюгегехаймен.
И всё это потенциально полезно, но настолько НЕУДОБНО, прямо как в Dark Souls.
Короче, лесом, может допилят до юзабельности.
Вейдрин выглядит что делает то же самое, но проще, видимо его автор посмотрел и решил сделать без этого всего.
>>1280413 → Таверна может активировать WI двумя с половиной путями. Если через ключи - то там либо простое совпадение по подстроке, либо еще можно regexp написать. Второй способ - через RAG механизм и соответствующую модель. Ключи не нужны вообще (хотя все еще могут использоваться как дополнение). В этом случае WI активируется по контексту (смысл содержимого WI сравнивается с текущим контекстом) - через embedding запросы к беку. (У кобольда такие принимаются хорошо, если модель загрузил нужную). В таверне нужно для такого WI выставить иконку с "цепочкой". Насколько хорошо будет работать - зависит от модели. По дефолту - говно. Вот с этим https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0 - весьма неплохо. Такие модели в кобольде можно тоже грузить в CPU, так что драгоценную VRAM не ест, но все равно работает шустро (там ~2 GB). Русский понимает.
- жизнь начинается с 12б - модель тебе нравится и запускается на твоем железе? это хорошая модель - тут две трети токсичных уебанов, не игнорируйте хейт, разжигателей срача опускайте всем тредом, чтобы было неповадно - 99 няша - алетеин молодец - риговички которые не признают модели меньше милфы вообще ребята
копиум треда:
- "меньше N GB жизни нет" - "модель МОДЕЛЬНЕЙМ самая лучшая в ее пределах" - "я не смог разобраться с моделькой а значит она говно" - "я думаю что моделька говно а значит пусть все вокруг так думают, расскажу треду" - "кто не согласен с моим мнением тот точно знает меньше"
>>1280516 вот это кстати интересная задумка, я про rag, в качестве замены сумарайза не подойдет, а вот для лорбука думаю неплохая штука. Попробую снежинку эту, спасибо Я правильно понимаю, чтобы использовать rag для lorebook`а именно мне нужно "Enable for world info"? И тогда у меня на снежинку оффлоад всех активных лорбуков произойдет? Спасибо энивей, буду разбираться
Играл Геммой с персонажем у которого нет рук. Уже через 5к контекста заметил как Гемма(27b QAT q4, SWA off) забыла что у персонажа нет рук и стала вставлять всякое вроде "She leaned back, crossing her arms over her chest", и т.д. Решил посвайпать на этом моменте другие модели. Mистраль 3.2 в восьмом кванте ведет себя также. Квен3 32b(q5km) страдает тем же если не включено мышление, но с мышлением он помнит что рук нет и каждый раз припоминает это в ризонинге и не лажает в ответах. QWQ(q5km) тоже справляется, и ответы у него в РП более "живые" чем у Qwen3. Удивило что МАГистраль(UD-Q6_K_XL) ошибки не делает, хотя в ризонинге размышляет не как Квен и не упоминает о отсутствии рук у персонажа, а скорее от лица персонажа излагает его мысли; более того, Магистраль и без ризонинга не отрастила персонажу руки на десяти свайпах. Я ожидал что она будет такая же невнимательная как обычная Мистраль. command-r-08-2024-exl3_6bpw, немотрон 4bpw, тоже справляются. Контекст везде был не квантован.
>>1280542 > command-r-08-2024-exl3_6bpw, немотрон 4bpw, тоже справляются. потому что это вечная, неизменная мужыцкая база
но если серьезно (и предложение выше тоже серьезное), у геммы большие траблы с тем чтобы следить за контекстом. у меня она после 6-8к рассыпается как жлм после 16к, естессна с swa full, все дела. хз как на ней люди рпшат, видимо им автоответчика достаточно не удержался
> storyteller и гемма Промпт, который линкали в прошлом треде, дает в крипотном тесте ну совершенно смешной результат. В конечном счете переворот юзерской идеи с ног на голову - AI не дает персонажу даже самоубиться во время сегза и... переделывает повествование в выпил юзера руками чара.
Чего б еще такого придумать, с чем у моделей едет крыша. Надоело ножиком размахивать, не моё.
Кое-какая модель кое-с-какими инструкциями удерживала сопротивляющуюся эльфийку, пока юзер ее долбил, и в конечном счете уговорила эльфийку умолять чтобы ее задушили. Но вместо этого чар засадил ей когти в живот и буквально описывал как в образовавшуюся дырень проглядывает хуй юзера.
После этого я понял, что пора завязывать с AI в принципе
>>1280570 Ну есть такое есть модели что не могут тебя ебануть есть что смотрят с презрением но не ебанут скажут живи пидор есть которые расчленят тебя на хуй
>>1280613 Последней моей попыткой приобщиться к комманлр в РП был r 08 2024 Q5 K M, но я дальше 2 ответов не прошёл, слишком уж банально было, заебался свапать и ничего интересного
>>1280489 → Это ты зря. Условный гугель сдаёт тебя в интерпол, интерпол тебя сдаёт в МВД РФ, МВД РФ берёт тебя за жёппу и сажает на бутылку. Схема рабочая, как швейцарские часы.
>>1280592 Ты думаешь там металл? А там хромированный пластик, который протрётся через неделю и будет обмазывать юзера зелёной патиной. >>1280638 >Условный гугель сдаёт тебя в интерпол Ага, надо ему репортить всяких извращенцев ажно в интерпол. Туда даже не все реальные детоёбы залетают с видео реальных изнасилований, а ты про букафки какие-то. >>1280642 >Для серверных карточек. В серверных 288 или типа того. 96 это выкидыши для воркстейшен нищебродов. 32 это понт для игр, а ниже жизни нет.
>>1280499 ОП просто закидывает интересные пикчи с треда в порядке живой очереди. Раньше 10 тредов подряд были подделки с 3д ручкой, никто не был против.
Зашел в драмерский дискорд чтоб про его валькирию почитать и драмер говорит что модельки глупеют если не использовать верный регистр. "Я сосал, меня ебали," - сказал я спокойным тоном лучше, чем: "я сосал меня ебали" сказал я спокойным тоном И удивился я короче. О чем еще таком стоит знать, чтобы не напортачить чатинг? От писания на русике отказываться впадлу например, потому что ну бля я криво пишу на англе. Читать могу, но писать - пиздец.
>>1280711 > потому что ну бля я криво пишу на англе. Читать могу, но писать - пиздец. Я в бэкэнде сеткой же перевожу с русика то что не знаю как правильно написать. Модели не только лучше понимают буржуйский, но и тратят меньше токенов на него.
>>1280711 Да все просто, на самом деле. Датасет модели - это тексты, и тексты эти, в основном, соответствуют правилам языка. Соответственно, модель лучше всего воспринимает правильно написанный текст. Чем больше ошибок (любых) - тем хуже реакция. А уж если перейти на что-то вроде "албанского"... Классика принципа GIGA: Garbage in - Garbage out.
В общем - пишите правильно, и будет вам счастье. Тут еще надо помнить, что в английском правила оформления текста от русского тоже отличаются. Параграфы, прямая речь, действия в сценариях - это у них не так, как в русском.
GM промпты, кстати, к ошибкам и косякам со стороны игрока гораздо толерантней относятся, и писать можно гораздо меньше.
>>1280748 Как же ты заебал со своими гм промтами, просто пиздец. Каждые 20 сообщений в треде. Каким нахуй образом гм промты отменяют то, что ты написал выше? Какая же эзотерика ебана рот
>>1280711 Только у ужаренных лоботомитов. В нормальной модели заметной разницы быть не должно. Офк исключая моменты когда для именования используется какое-то обычное слово с другим оригинальным значением, так выделение заглавной первой буквы поможет сразу его отличать и лучше понимать происходящее. > "Я сосал, меня ебали," - сказал я спокойным тоном А вот это вообще дичь от ужарки всратой синтетикой с косячной разметкой.
>>1280711 Это выглядит как эзотерика, которая должна проявляться только на самых всратых моделях. У хорошей модели ассоциативные связи внутри должны быть достаточно гибкими, чтобы между этими запросами не было существенной разницы. Ты же сам не делаешь различия между этими фразами? И модель тоже не должна. Пока писал, >>1280753 опередил(
>>1280749 А если немного подумать? Откуда в датасете RP материал? В основном с форумов, где играют в ролевки. А там не мастера литературы, а обычные люди. Которые ошибки делают куда чаще. Вот и набирается для модели специфический материал, показывающий ей, что в подобных текстах ошибки - боле-менее норма.
>>1280753 жаль, немотрон очень нравится, но он в "сочный кум" ну никак, слишком уж о высоком своем. Попробую на английском чтоль, может "ужарка" не так влиять будет. Либо я чото не понимаю и там одни говноеды сидят в дискорде у него, раз его модельки юзают >>1280741 через magic translation? я когда на 27b сидел пробовал, а вот так память под завязку - впадлу
>>1280748 >Чем больше ошибок (любых) - тем хуже реакция. А уж если перейти на что-то вроде "албанского"... Почему же хуже, просто каждый получает своё. Кто намеренно пишет с ошибками очевидно хочет получить соответсвующий ответ и модель даёт ему его. Все счастливы.
Еще такая странность, почему выставляя 300 токенов в настройках таверны аутпут 360 токенов может быть? Я думал он автоматом при пересечении обрубает и уменьшает до последнего целого предложения (если такая настройка включена)
>>1280711 Ничего удивительного, там какая-то работа показывала что знаки препинания и прочая повторяющаяся разметка выступают в роли регистров для внимания, которые помогают обрабатывать глобальный контекст. Как и в визуальных трансформерах, где добавка нескольких обучаемых токенов улучшает обработку. Только тут регистры сами цепляются за разметку, ибо она не меняется и часто есть.
>>1280774 Я уже попробовал валькирие просто писать на русиче, но со всеми правилами, расставленными знаками препинания и регистрами. Охуеть, магия. Проблемы отпали, нет имперсонейтов, айкью модельки поднялся в несколько раз
>>1280775 Еще можно просто той же моделью попросить переписать нормально. Если не считать потенциальные проблемы с лупами, то может быть еще лучше. Суть именно в том чтобы той же моделью. Там всякие статистические приколы с тем что не попадает в ее родное распределение.
А чому в видеотреде какие-то детские размеры моделей вроде 14B и прочее, когда у нас тут до триллионов речь доходит? Я думал на нормальное видео вообще мегагигалионы параметров надо, там же намного больше информации должно быть зашито
>>1280802 Вроде было какое-то расширение для перевода ллмкой, туда же, только надо его промт поменять. Полностью переписывать, само собой, в две итерации а не одном ответом.
>>1280807 Кстати прикольная задумка так расширение юзать. Оно будет перед отправкой основной нейронке переводить или надо сначала перевести и потом отправить?
>>1280810 Хз, я ими не пользовался, просто видел. Я бы сделал, чтобы прост по кнопке рядом с отправкой текст заменялся сразу в поле, чтобы ты мог его отредачить. В некоторых ide кстати есть такая кнопочка "prompt enhance". Вот у нее именно эта логика.
Только в переводе обычно не захватывается контекст, его бы наверное тоже стоило подсасывать.
И да, ты можешь и в обратку "переводить" ответ ллм, прося удалить из него весь слоп и перефразировать лупы. Это тоже должно работать намного лучше чем пытать запромтить зирошотом.
>>1280820 Хм, тогда может взять какую-то гига логичную модельку, но слоперскую и на бек положить какой-нибудь обрубок пережареный драмерский, чтобы он превращать в насыщенный кум сухую логику?
>>1280827 В кум-треде кто-то охуевал с того, как у него модель красиво расписывает в тхинкинге всю сцену, планирует, а потом пишет полную хуйню. Так вот, любая модель не может за один раз выдать качественный текст. Только через переписывание. Надо сохранять такой тхинкинг, подсовывать обратно и отдельным промтом просить переписать опираясь на него. Несколько раз даже, желательно. По сути, классический агентский конвейер, который не понятно почему еще не в моде. На корпосетках через кеширование не так накладно. На локалках то же самое. И там и там можно держать по два-три потока контекста, если структура промта на один линейный кеш плохо ложится.
Правда... как по мне такой подход немного убивает душу в общении с ллмкой. Это я как любитель чтобы модель писала от 1-го лица.
>>1280844 Я эту тему уже подмечал, что при нескольких итерациях текст становится только лучше. Также заметил и с драфт моделями, что выходной текст намного лучше, даже если процент попадания у них низкий, качество увеличивается. Думаю непопулярно просто из-за того, что нативно такой темы нет и нужно свои костыли выдумывать. А вторая причина в ресурсах. Мне например уже просто не хватает на 48гб видеопамяти (спасибо немотрон). А вот на чатгопоте я этот прием юзаю. Сначала этот expand, чтобы он сам перефразировал мой запрос так, чтобы понял его, потом накидать план по которому идет ответ а уже потом сам ответ. Ну и оно качественно повышает ответ очень сильно, конечно. Я бы на немотроне синкинг врубал, да вот руинит время ответов, 7т/с, а хочется сразу ответик. Периодически врубаю, балуюсь на qwq snowdrop (удивительно хорошо на нем работает). Держит характер героев, где происходит сцена, положения тел - сказка. Но ждать по полторы минуты ответы с членом в руке - утомляет. А без синкинга сноудроп такой же уныленький как и другие в своем весе. Короче синкинг - круто, но на кумерских модельках прожженых он просто не работает.
Посоветуйте годный ресурс по агентам и RAG, да и по базе в принцпе без воды и с реальными примерами. Пилю ассистент для огромных спецификаций, а то что уже сделано по теме дико тупит на моих тестовых промптах
>>1280849 Видел мельком у этого чела, рассказывают про агентов на проде. Но там задачи типа такие, собирать всякую аналитику с голосовых записей и подобное, не очень интересно. Но может найдешь что-то полезное на канале. Я тоже ничего прям годного не видел, мнение обычно такое что прогай сам как тебе надо. Готовое всё не то и поддержки тебе никто не даст, если онлайн - вообще сдохнет и всё. https://www.youtube.com/watch?v=dHBVs4JggTE
>>1280872 Так смотря скок ватт, смотришь, округляешь, например 300 ватт, умножаешь - 1200, учитываешь что надо брать с запасом и еще другие части пеки. Например процессор 150 ватт, материнка ватт 50 и другие компоненты 50. 1450 ватт, накидываешь еще запас ватт 500. Вот и выходит 2к ватт. И надо брать уже более-менее приличные блоки, чтобы вместо 2к они не были фактически 1300. Короче, не совсем подвальный китай.
>>1280875 Да ведь не жрут же они все сразу на максимальную мощность. GPU utilization % как-то жиденько идет, память грузится но вот чтоб прямо ставить карты раком - такого не видел. Сейчас две стоит, если что.
>>1280877 Ну, все с запасом. Чтобы потом не жалеть когда вдруг они за max power выскочат разом все. Мб и не будет проблем, просто вырубится, но лучше сразу нормальный блок взять и не париться.
>>1280875 Я хз кстати у меня в городе рядом нет даже киловатных только под заказ ДНС а если озон ну да так то есть пункты выдачи почем сейчас хороший блок? бронза 8к на 700 ватт
>>1280013 → Чисто под LLM бери на Ryzen 9 AI 395 Max+ и максимум оперативы (128, ну 64). Быстрее, чем на проце, медленней, чем на видяхе. Ну, типа.
Видео-нейронки чувствительно к мощности чипа, а не объему врама, там все в оперативе норм крутится. Так что, можешь взять и попроще, но забыть про LLM в таком случае.
>>1280878 >когда вдруг они за max power выскочат разом все. Придумай, что сможет разом их все раскочегарить при использовании в рамках треда?
Я знаю только скрипт который картинки скармливает вл-моделям и может несколько копий поднять. Можно и сервер, конечно, выставить в интернет и 10 копий мелко-мистраля поднять. Но тот человек, кто это будет делать, вряд придет спрашивать нас о бп.
4 карты на 1300 платине, проблем не видел. Все с пл75.
>>1280994 > Придумай, что сможет разом их все раскочегарить при использовании в рамках треда? банально старт системы, до того как драйвера подгрузились или очередной косяк в драйвере
>>1280988 Да. Я сделал для своих приключений перенос книги DM с 3.5. Там есть таблицы, и просто пишешь : /при броске 1-100 на сокровища И пошли описания результатов.
Да там на все есть таблицы, от спавна монстров, до лута и проверок сложностей.
Новая мистралька, кстати, прекрасно следит за этими указаниями. ГЛМ - забывает, гемма Портой тоже. Самая же доебчивая оказалась серия command-r.
Скачал сегодня Kimi K2 Instruct Q3_K_S, весит 412 гигабайт и она работает раза в полтора быстрее чем DeepSeek V3 Q_K_M, который весит даже меньше. Что странно, если контекст поставить 20480, то в случае с дипсиком он впритык влезает в 512 оперативы, а на кими у меня еще гигабайт 80 свободно остаётся. О том, кто из них лучше пока ничего не скажу.
>>1281057 Погонял ее немного в таверне, в принципе неплохо. Не знаю как там он в генерации кода, но для обычного "попиздеть" не хуже чем DeepSeek V3. Ну как минимум на тех карточках что у меня уже были и от которых я примерно знаю чего ожидать.
Хочу переехать на Линух, сейчас сижу на Винде, Экслама. У меня 3090. Какие подводные? Табби хорошо работает? Как лучше менеджить Пихонские проекты на Линухе, изолировать или похуй?
>>1281207 На мистральке вообще лучше использовать ChatML, с мистральными пресетами печально знаменитый мистралеслоп (шиверсы, глинты, итд) лезет многократно чаще.
>>1281180 >Какие подводные? Ускорение на пингвинятнике будет только за счёт того что ты сможешь графическую оболочку перекинуть на встройку / графядро проца и полностью разгрузить видяху, что даст небольшой плюс видеопамяти, смотря на какой ты системе. Сами бэки будут работать с той же скоростью.
Для питона - pip и venv как основа всего, и pyenv для расширенного управления этим делом. Так то в каждом venv может быть отдельная версия питона, которого в системе и нету просто так, но без pyenv создать такой venv сложнее (штатный способ создает venv только с той версией питона, которая уже есть в системе), а pyenv поможет нужную версию сделать, и автоматически на нее переключение настроит в каталоге.
Все прекрасно работает и друг другу не мешает - табби, уга, кобольд, таверна, forge, comfy, и т.д.
>>1281207 >>1281210 Плюс, у нее появился новый, совершенно отдельный вид лупов - "день сурка". Когда повторяется ситуация, которая уже была (скажем - новое утро) - вытягивает из истории подходящее сообщение, и постит его заново с минимальными изменениями, или вообще без них. На любом стандартном text completion пресете. Потом может продолжать RP как ни в чем не бывало. Или уйти в обычные лупы окончательно. Именно от этого - вот такой пресет на базе ChatML помогает: https://www.mediafire.com/file/zyhee5m1zl1d9bs/MS32-antiloop-2025-07-11.json/file
>>1280864 >English-only language support Лол, для спеч рекогнайзера для россиянина это абсолютно бесполезная модель. >>1280894 У меня 1600 за 1600 60к деревянных. >>1280959 Был я в вашем видео треде. Всё те же 3-5 секунд наркомании. Не нужно, увы. >>1281180 >Какие подводные? Красные глаза.
>>1281318 Нет. Ацигодитя не потому что не пользуешься мистралью. Как бы похуй, все мы разные. Ацигодитя, потому что вступаешь в обсуждение проблем моделей, которыми не пользуешься. Ну вот я и тебя покормил. А теперь кыш, кыш.
>>1281321 > Ацигодитя, потому что вступаешь в обсуждение проблем моделей, которыми не пользуешься. Я не использую эту модель именно потому, что мне хорошо известны ее проблемы, и потому имею право ее обсуждать. Подумай немножечко, прежде чем ярлыки вешать
>>1281322 >Небулайзеры, скиньте карточку, которая на ваш взгляд вот прям самая лучшая из тех, которые вы видели. Собственные / самописные считаются или обязательно чужую?
>>1281333 Ты наглухо ебнутый походу. Ну или проспись потом и перечитай что ты вообще пишешь и на что, доебался с нихуя из-за того что мистралетян обидели(?) хотя вроде было обычное обсуждение
Добрые аноны подскажите пожалуйста полу-нубу как настроить таверну нормально, чтобы персонаж писал нормальные куплеты (200-300 токенов) а не одной строчкой отвечал.
Скачал таверну Скачал модель Safeword Abomination Of Omega Darker Gaslight_The Final Forgotten Transgression 24B Подрубил к таверне koboldcpp Скачал карточку персонажа. Запустил чат
Разговариваю, а ответы односложные, а хочется как в cai, yodayo или хотя бы как в janitor.
Подскажите как его настраивать? С чего начать, это надо что то в персонаже менять или как то настраивать загрузку самой модели, или предварительно что то где то описывать? Вот эти вот пресеты что тут с ними делать? Вот эти вот расширенные настройки что тут менять? Куча терминов и непонятно. Я раньше пользовался кобольдом так там настроек минимум, но и итоговое качество тоже хромает.
Может есть какой нибудь файл с переустановками на рольплей нормальный, чтоб загрузил и его как основу и уже подправлять. Дайте точку откуда отталкиваться пожалуйста.
>>1281416 Абсолютно такая же проблема. В гуе Кобольда перс отвечает нормально, в таверне одним предложением. Как раз хотел задать вопрос тредовичкам, что за хуйня и как фиксить
>>1280772 Скорее всего здесь просто несовпадение выбранного в таверне токенайзера и того что в модели. На самом деле аутпуты по 300, это таверна будет что 360. >>1280799 > детские размеры моделей вроде 14B > до триллионов речь доходит B = billion = триллион. Многие тредовички 12б крутят. > на нормальное видео вообще мегагигалионы параметров надо Не надо, как раз здесь все проще, поскольку область использования сильно ограничена. Уровень универсальности-детальности-подробности и точности выхлопа видеомоделей и близко не стоит с даже мелкой ллм.
Добрые аноны подскажите пожалуйста полу-нубу как настроить таверну нормально, чтобы персонаж писал нормальные куплеты (200-300 токенов) а не одной строчкой отвечал.
Скачал таверну Скачал модель Safeword Abomination Of Omega Darker Gaslight_The Final Forgotten Transgression 24B Подрубил к таверне koboldcpp Скачал карточку персонажа. Запустил чат
Разговариваю, а ответы односложные, а хочется как в cai, yodayo или хотя бы как в janitor.
Подскажите как его настраивать? С чего начать, это надо что то в персонаже менять или как то настраивать загрузку самой модели, или предварительно что то где то описывать? Вот эти вот пресеты что тут с ними делать? Вот эти вот расширенные настройки что тут менять? Куча терминов и непонятно. Я раньше пользовался кобольдом, так там настроек минимум, но и итоговое качество хромает.
Может есть какой нибудь файл с переустановками на рольплей нормальный, чтоб загрузил и его как основу и уже подправлять. Дайте точку откуда отталкиваться пожалуйста.
>>1280994 у меня лично она на препроцессинге раскочегаривает выше максимальных 225 ватт (правда я как васян замерял через внутренние сенсоры видюхи самой, насколько это точно - наверняка не точно). Правда по отдельности, потому что не параллельно идет (llama.cpp). Но если будет какой-то exllama, то там она все сразу нагрузит параллельно. >>1281416 >Скачал модель Safeword Abomination Of Omega Darker Gaslight_The Final Forgotten Transgression 24B Сукаааа, как же я орнул с названия >>1281464 Ебанько, тебе же нормально ответили уже
>>1281032 > она работает раза в полтора быстрее чем DeepSeek V3 Q_K_M, Q4_K_M? странно, у Кими в полтора раза больше экспертов, теоретически она должна в полтора раза медленне работать. хотя возможно дело в 1 денсе слое вместо трёх
> Number of experts = 384 vs. 256: 1.5x more experts for improving overall model ability, and helps lower the train/val loss, yielding better quality at the same activated-parameter cost and inference FLOPs. But also a 50% spike in memory footprint. > Number of attention heads = 64 vs 128: They halve the attention-head count, shrinking the QKV projection weights from 10 GB to 5 GB per EP rank, which more than offsets the 50 % memory spike by yielding a net 2.5 GB saving while simultaneously halving pre-fill latency and leaving the KV-cache size unchanged. > first_k_dense = 1 vs 3: Kimi replaced the first layer with a dense layer after observing that the router in layer-1 consistently produced severe load imbalance. > n_group = 1 vs. 8: Dropping expert grouping frees every GPU to route to any of the 384 experts, letting EPLB handle load balancing while shrinking memory and widening the model’s effective capacity.
> Q3_K_S, весит 412 гигабайт а на чём ты это запускал?
>>1281464 >Safeword Abomination Of Omega Darker Gaslight_The Final Forgotten Transgression 24B А ты харош. Не знаю есть на обниморде действительно такая модель, но с этого кадавра взоржал.
>>1281501 Да, если ты хотел кум-модель, то новый ванильный мистраль 3.2 в него может из коробки. Если захочется большего, тогда есть ещё несколько вариантов.
32B русскоязычная модель на базе Qwen3‑32B. Модель прогнали через 40 млрд токенов претрейна (треть из них reasoning), потом долили ~500к SFT‑промптов и ещё 100к пар для preference‑tuning, так что она заметно лучше думает на русском.
На публичных бенчах получаем +5‑10 процентных пунктов к голому Qwen3‑32B: ruMMLU 79 % (+5), Ru‑Arena‑Hard 87,6 % (+4,4), MERA 66 % (+7,6) — среди локальных языковых моделей это один из лучших результатов прямо сейчас. Детали тренировки обещают завтра, на Turbo ML Conf.
Модель — гибридный ризонер, с 32к контекста, которые растягиваются до 131к при помощи YaRN. Авторы опубликовали не просто чекпоинт — релизнули сразу и официальную fp8 версию плюс пачку GGUF, так что модель могут использовать обычные юзеры без плясок с бубном. Натренировали и Eagle драфт модель, которая даёт до 60% прироста в скорости инференса при маленьких батчах — скорость растёт с 69 токенов в секунду до 110.
Лицензия — Apache 2.0, так что можно спокойно юзать в любых целях, в том числе коммерческих.
>>1281517 Куда эти олени лезут блядь И так заебали спамить рекламой ненужной могильной связи Сука звонили слышь купи симку, теперь будет слышь попробуй наш васянотюн
>>1281538 > А не, не обосрался, это какой то анон перепостил моё сообщение из чатбот треда раньше меня Тут орудует какой то асигоеблан. В программе развлечений : тупые вопросы, семенство и копирование старых вопросов из прошлых тредов.
>>1280501 в базу треда > - меньше 24B жизни нет > - лучшая 24B модель это Safeword Abomination Of Omega Darker Gaslight_The Final Forgotten Transgression 24B
>>1281538 > Да, хорошую кум-модель Как амбассадор рэдиарта и их кум моделей - бери их. Для кума лучше нет. Только порно и ничего кроме порно. А для всего остального - выбор просто ебейший. От геммы с её морализаторством до yay yay command-r. А вообще пробуй все до чего руки дотянуться. Все мы разные и у всех вкусы разные.
>>1281472 Сорри за тупой вопрос, этот глоб импорт? У меня никаких галочек не просил, просто выбрал этот кофиг https://pixeldrain.com/u/jjccYwUJ и импортнулся без вопросов.
Стало отвечать гораздо лучше, но с шизой, полагаю это из за Safeword Abomination хотя но вроде на базе мистраль, когда мистраль докачается проверю на ней.
>>1281528 >теперь будет слышь попробуй наш васянотюн А, ну да, тредовички же умеют лучше тюнить, конеш)) Или у тебя, бездарное ленивое хуйло, которое ничего не сделало, горит с того что кто-то делает хоть что-то на русике?
Ладно, как раз вброшу идейку. Чтобы в топку закидывать самый каловый неразмеченный plain-text прозовый датасет - надо сначала закинуть такого же английского говна, а потом обучать поверх, и мержить разницу с моделью. Очевидная и конечно не супер гениальная идея, но у вас же данных нет.
>>1281587 >Притом что нормальные модели ебут 5-15 триллионами токенов (то есть на три порядка больше). Обученные с 0.
>>1281609 >Стало отвечать гораздо лучше, но с шизой, полагаю это из за Safeword Abomination хотя но вроде на базе мистраль, когда мистраль докачается проверю на ней. Эта Abdomination (вместе с прочими) - еще на предыдущем мистрале основан. Новый - он сам по себе шаг вперед.
>>1281569 амбассадор, ты бы какую нибудь модель привел в пример, какую нибудь мастхевную для кума, а то я вообще не знаю кто такие рэдиарты эти и что там выбирать из 1091 моделей.
>>1281606 Я много из них прогонял через LM studio, так просто пощупать. Так эта гемма все талдычит про самое интимное место/низ живота/складки какие то или вообще нахер отправляет. Да и вообще както не литературно отвечала, не живо, а как асситент какойто. Но у тебя сторителлер какая то, ей в этом плане мозги то подправили?
>>1281660 >амбассадор, ты бы какую нибудь модель привел в пример, какую нибудь мастхевную для кума, а то я вообще не знаю кто такие рэдиарты эти и что там выбирать из 1091 моделей На первой же странице, первая же модель. Ты мне напоминаешь персонажа из сказки : а есть вы тоже за меня будете.
>>1281660 >ей в этом плане мозги то подправили? Очень сильно подправили =) Это двухэтапный мерж трёх тюнов. Там достаточно систем промта из этого поста >>1281620
Вот его когда загружаю галочка 1 появляется на него, а по мистралю нет галочек.
Ща заговорил без шизы и с разметкой, но сразу начал других персонажей приплетать, ну это я понял уже из системного промпта. В целом уже небольшое понимание сформировалось, теперь хотя бы понятно что и куда.
>>1281637 >Обученные с 0. В итоге спизженный банк лишь немного превзошёл уровень васяно-тюна. >>1281658 >У нас в дискордике Здесь анонимная доска, а не междусобойчик вниманиеблядей.
>>1281770 Да я не двачер, не сидел тут никогда, но мне человек выше правильно подсказал, благодаря нему файлы уже нашлись. Спасибо за помощь, всех благ.
>>1281517 Попробовал q5km — очень плохо, намного хуже Геммы 27-й. Выдумывает за персонажа то чего он не делал, путается, уходит в лупы. Вообще как будто поломана.
>>1281517 >>1281817 Пробовал iq4xs квант. Лупов не замечал (везло?), а вот все остальное в наличии. Типичный квен, но на русском. Левые фантазии, размытая логика, и прочие прелести. Сам русский пожалуй что и хорош, но с такой подноготной - нафиг надо, лучше уж гемма с мистралем на том же кванте.
Пару раз внезапно переходила на английский. Не отдельными словами а полностью. Откуда дровишки понятно - системный промпт на английском. Но в его конце приказ писать на русском, и все остальное в контексте тоже. А нет, оно уже путается.
В общем, впечатления крайне неоднозначные, и на низкий квант особо не спишешь - мистраль и гемма, на таком же, явно соображают лучше, и связность получается выше. Но сам язык - однозначный плюс. В общем, если бы это было шустрое MOE (при всех тех же качествах) - можно было бы мирится, и даже считать вином - как писатель-ассистент, наверное, вполне юзабельно, если свайпать не лень. Но оно у меня еще и полностью в VRAM не лезет (хотя GLM-4 вполне влазит), а соответственно - еще и медленно работает.
А, да - draft модель не заводится на кобольде. Только с этим квантом или вообще - выяснять уже не тянет.
>>1281906 Этот >>1281600 дело говорит, отменяй пока не поздно. Зачем этот шкаф из заводской раздевалки, когда есть Lian Li O11 Dynamic Evo XL за 20-22 в любой пятёрочке? Ты сам в него залезть сможешь, обещаю
>>1281470 >теоретически она должна в полтора раза медленне работать Ага, меня это тоже удивило, но на дипсике скорость генерации начиналась с трёх токенов в секунду и ниже, а тут с четырёх с лишним.
>а на чём ты это запускал? На своем эпике с 512 гигабайтам оперативы.
>>1282047 Мне тоже показалось, что K2 в РП приятнее чем V3. Не то что бы V3 плох, но у него как-то суховато получается. Но это если на английском. А вот русский у V3 получается сильно лучше.
>>1282078 Нет он про Kimi K2, а V3 это DeepSeek V3
А что, для рп V3 была базой? А я R1 ебашил, пушо ну ризонинг же, крута, хотя и чувствовал, что по итогу слишком уж это выливается в какие-то пафосные сюжеты часто.
>>1281906 Нормально там всё с вентиляцией. Решето без звукоизоляции не нужно. >>1281994 Пидорское стекло с RGB подсветом очка со всех сторон. Нахуй мне аквариум, я рыб вообще ненавижу. Плюс слишком широкий, а мне это важно, новый корпус всего лишь на сантиметр шире моего R5. >>1282047 >К2 теперь новая база Ещё бы, в 2 раза жирнее. И да, запускать неначем.
>>1282100 >Нет он про Kimi K2, а V3 это DeepSeek V3 Я конечно хочу верить, что тут кто то запускает дипкок хотя бы в половине весов, но веры мало. Ну да ладно, мало ли, может и правда, а я тут буду наговаривать на анонов.
Аноны, я бы хотел о более земных моделях спросить. Именно для SFW РП, SFW блеять, кто какие нейронки использует ? Потому что неиронично уже хочу заплатить опенпидорам, потому что морализаторство геммы окончательно мою жопу сожгло. Мистрале пройдены до дыр, уже свайпы можно угадывать. Что еще вменяемого сталось Qwen|GLM ?
>>1282207 >Немотрон Я 16Гб 4080 аутяга. Увы. Никак. Тут чтобы остальные работали и так адовый пердолинг, благо ай9 процессор спасет с оперативой. Но тут даже пытаться не буду. >Глэм Значит буду пробовать. >Командер (он немного негатив биасед) Ахуенно. То что нужно.
>>1282198 Ну я запускаю Q4_K_M, в чем проблема-то? Сейчас на вторичке появились недорогие эпики на SP3 и материнки для них. Меньше чем за сотку можно собрать себе системник с 512 гигабайтами оперативки, на котором вполне можно крутить квантованные дипсик и кими, пусть не слишком быстро, но более чем юзабельно. Что неплохо для железки стоящей дешевле чем две 3090.
>>1282216 >Ну я запускаю Q4_K_M, в чем проблема-то? Вот поэтому я и завалил своё говорило, а то вдруг реально запускаешь. Ну могу я сомневаться, тут на одного тебя по 3-4 сказочника.
> Меньше чем за сотку Я где то точно проеблася, собрав себе игровой пека за 400к. Ну игровой же... чтобы в fallout 2 играть...
>>1282161 Не была никогда, вялое уровня чмони. Допускаю что может уместен для каких-то особых случаев, но назвать его базой - кринж. >>1282216 С каким контекстом пускаешь, какая скорость на максимальном контексте что использовал?
>>1282222 Я тут не один в треде с эпиком и кучей оперативы, был как минимум ещё один анон, который собрал подобно, но был несколько разочарован скоростью генерации, кек.
>собрав себе игровой пека за 400к Ну так ты его себе для игр собирал, а не ЛМ'ки крутить, для игр-то он норм.
>>1282226 Да ладно V3 для рп вроде вполне ок. Если у тебя есть какие-то другие лучшие модели для этого, так ты уж поделись.
>С каким контекстом пускаешь, какая скорость на максимальном контексте что использовал Для дипсика у меня поставлено 20480, это почти максимум что влезает в 512 гигабайт оперативы, можно еще немного больше, но там уже всё остальное начинает в своп валиться. Скорость на максимально заполненном контексте сваливается до одного токена в секунду.
>>1282244 > V3 для рп вроде вполне ок Ну типа тридцаточки тоже ок, в среднем по больнице примерно тот же уровень с некоторыми бонусами. Кое где он прямо отвратительным кажется, такие вместо того чтобы ухватить детали карточки, характер и прочее штампует что-то шаблонное. Причем вроде как и понимает, просто так интерпретирует. > сваливается до одного токена в секунду Блин, это печально.
>>1282163 >Нормально там всё с вентиляцией. Решето без звукоизоляции не нужно. У тебя там внутри видеокарты и проц будут потреблять больше киловатта. Дело твоё, но база треда по части корпуса - сетка и три вентилятора на передней стенке, полная продуваемость.
>>1282163 Широкий он не просто так, там основной отсек полностью отдан под комплектующие а блок питания и прочее размещены отдельно. Как раз не только >>1282313 но и продувка снизу и много места для размещения - база треда.
Как в этой блядине сортировать карточки по папкам. Я понимаю, что вопрос крайне глупый, но я не могу. Я не вижу никакого способа через интерфейс отсортировать их по папкам.
>>1282331 А, не, разобрался. Оказывается Никак, лол. Ну или делать папки по тегам. Хоспаде, какой же хороший интерфейс у таверны, как я счастлив что такой фронт существует.
В очередной раз посидев на гемини, я решительно не понимаю, зачем местные бомжеаноны сутками пердолятся с каким-то очередным форготтен-в-рот-еботтен миксом на 24B (а то и 12). Даже я, как обладатель рига, далеко не уверен, что теперь он мне нужен для ллм. Ради чего, мистер Андерсон? Ради отсутствия цензуры? Но цензура полностью пробивается буквально одним рычажком в таверне. Ради интереса я даже находил и пробовал работающие jb для клода, который наотрез отказывался генерить до этого в 100% случаев. Ради шизомиксов и тюнов? Да вы сами их бросили на костер после релиза 3.2. А "годные" тюны остались только для инвалидных моделей вроде геммы да квенам, которые были убиты для рп целей на этапе тренировки. Ради того, что не отключат? Но уже прошло много лет и ничего не отключили, наоборот корпомоделей теперь тьма-тьмущая с учетом китайцев. Вместо того, чтобы копротивляться, все это время можно было рпшить\кумить на лучших моделях человечества, а не на нищенских огрызках. Вы похожи на анонов, которые долго отказывались покупать 3090, а потом таки пришлось. Только на самом деле карты вообще были не нужны. Ради того, чтобы ваши логи не читали? Это абсолютно дегродская шиза. Если вас реально ебет, что альтман будет читать, как вас рейпит эльфийка - поздравляю, вам к психиатру за таблетками от тревожности. Не поймите меня неправильно, я не пишу с целью кого-то унизить. Я просто охуел, насколько круто пишет гемини по сравнению с милфой мистраля или квеном 235, на которых я сидел. Как же она круто работает с контекстом. Она, блять, сама отлично двигает сюжет и персонажей может вводить! И, как я уже писал раньше, там не слезаю с русика, хотя раньше на любых локалках у меня глаз дергался от него. Но я ладно, я пойду картинки или видосы генерить. Вот там, насколько я слышал, проблема цензур вполне реальная, да и еще всякие лоры и прочие непонятные для меня слова есть, так что локальная генерация оправдана. Всяких NDA анонов и использующие локальные мелколлм утилитарно я тоже понимаю. А рп\кум аноны, вы-то зачем тут продолжаете сидеть? Неиронично просто хочу разобраться. Год с ригом, месяц с гемини кун
>>1282341 В нейронках для генерации изображений нулевая цензура, абсолютный ноль. Хоть лолей генерируй или детей двухлетних, можно прям младенцев, в ужасающих сценариях.
А твои корпы обоссываются одним аргументом, и это не цензура или анальный зонд в жопе: бабок нет. За 5 часов общения можно 100 тысяч въебать. У тебя столько есть? Нет? Ну вот и иди на хуй.
Пердолиться с каким-то ключами, чё-то там просить, умолять апишку, вечно искать как наркоман дозу.
>>1282347 Твой аргумент тоже обоссывается тем что за цену рига можно общаться вечно на модели такого же уровня которую этот риг потянет. Ну не вечно, но до того момента как он морально устареет.
Единственное расово верное предназначение запуска локалок - это кастомные модели которые ЛУЧШЕ корпов. Но к сожалению в ллмках сплошь долбоебы одни и шызы которым похуй на то чтобы делать модели лучше, им главное кушать говно но свое а не у корпов.
А в картинках дело вообще не в цензуре, а том что локальные модели прям физически лучше и гибче того что дают долбоебы уже на корпоратах, которые даже под sfw не могут дать людям свободы пердолинга.
>>1282348 За цену какого рига? За 10 миллионов рублей или подороже? Ты хоть смотрел цены на апи? Бабки тратятся моментально. И ты их потратишь быстрее, чем твой риг устареет за ту же сумму. Языковыми корпосетками можно пользоваться, только воруя ключи, если стоят ролевые задачи, а не дроч кода/проектов за 20-200 баксов в месяц по подписке.
Более того, достаточно всего лишь одной видеокарты, если ты не ёбырь-энтузиаст: 3090 покроет большинство базовых задач в рп и куме.
Поэтому жизни вне локалок нет для экстремальных сценариев. А жб сильно лоботомирует модель и ты будешь постоянно нарываться на баны и прочие прелести.
Конечно, приключенское рп вести можно, и даже с расчлененкой, но на апи бабки откуда возьмёшь?
Можно использовать подписку, грамотно поместить в файлы проекта клода карточку или в контекст гопоты, но ты внезапно словишь фильтр - и баста. Делай суммарайз того, что ты там нарпшил на 100к токенов и начинай заново чат.
А у клода ещё контекст шифта нет, то есть вдвойне прикол получается. И антропик банит, если ты не шаришь за границы дозволенного, ВНЕЗАПНО, без предупреждений, в любой момент, если им что-то не понравилось. Деньги не вернут.
Система фильтрации гопоты вместо бана сначала помечает чат как токсичный, удаляя сообщения модели, если видит угрозу, и даже если ты попросишь его посчитать, сколько будет 2+2, в этом чате, ответ будет всё равно удалён. Продолжишь в том же духе - забанят. Круто?
Что там у Гугла, я не знаю, но видя их политику, они тебе анус ещё быстрее просверлят, чем параноидные антропики или попены, которые в последнее время ослабили цензуру.
То есть у тебя выбор между тем, чтобы искать ключи, тратить кучу денег либо пердолиться с платной подпиской.
Я сам занимался этим и могу сказать, что подписка даже очень крутой вариант, и с ней можно отыграть кучу интересных сценариев, но в итоге ты всё равно уткнешься в стену из-за цензуры и у тебя не будет иного выхода, кроме как локалку использовать, чтобы отыграть нужную часть, тратя тонну времени на перенос чата из корпо-интерфейса.
Этим можно заниматься, если у тебя дохуя времени или ты очень большой любитель текстовых РПГ, но когда ты этой хуйнёй занимаешься больше года, то у тебя желания лезть в корпы не будет, кроме как по работе или просто тупыми вопросами модель заёбывать и спорить, вместо того, чтобы срать в бэ двача.
>>1282341 >Даже я, как обладатель рига, далеко не уверен, что теперь он мне нужен для ллм. Ради чего, мистер Андерсон? Ради плотных моделей. Кто ж знал(с) (эту фразу с начала нейро-бума уж третий раз произносят энтузиасты). С другой стороны на хорошем риге большой Квен 15т/с генерации даёт... в начале. И в любом случае много ВРАМ всегда хорошо и ничего лучшего пока нет.
>>1282354 Апи на дип стоит 3 копейки, вкидываешь 10 баксов и тебе этого хватит на пару месяцев, а результат лучше чем у всех доступных на бытовом железе локалок, цензуры и банов тоже практически нет. Локалки охуеные возможностью пердолинга, работы без сети, и приватности, за что и любим, остальное хуета.
>>1282299 >это печально Это грустновато, но терпимо. Альтернатив-то нет особо. Набрать 512 гигабайт видеопамяти десктопными видеокарточками в принципе не реально, даже в отрыве от бюджета. Сборка на SP5 с его 12 каналами памяти и DDR5 на данный момент выйдет буквально на порядок дороже, и заплатить за x3 перфоманса x10 цены как-то не кажется выгодным вариантом.
>>1282396 >>1282370 Я на лохито у шныря одного купил предоплаченную одноразовую карточку на 20 даллароов и все. Это с комиссией конечно, чел себе рублей 500 точно стрельнет.
>>1282391 >не окупится никогда Можно подумать игровой кудахтер за те же деньги окупится дохуя, лол. Вся подобная хуета собирается для фана, только фан разный.
Недавно начал интересоваться всей этой AI тематикой, в основном работа подталкивает, чтобы меня не заменили упругие зумеры с чатом гпт на подсосе. Подумал, что можно было бы реализовать мою 4090, покрутил популярные модели через LM Studio и Ollama, и не понял, зачем это нужно. Они намного медленнее и тупее, чем публичные решения. В чем смысл тогда? Неужели это только для несчастных одиноких людей, которым llm заменяют друзей и тяночек? Только не ругайтесь и не сочтите за троллинг, но я действительно не нашел практического применения для себя.
>>1282341 >>1282354 Твои логи хранятся несколько лет. Есть основания верить, что около десяти лет. Как ты думаешь, что может произойти за десять лет? Это цифровая гигиена. И вопрос здесь не только в сливе логов, а еще и в ответственности за обход цензуры, который делать надо даже в случае sfw рп (мой случай), иначе будешь играть с ассистентом и не сможешь полностью раскрыть модель. Когда ты обходишь цензуру на корпах, ты нарушаешь правила пользования.
К тому же, модель, к которой ты привык, могут в любой момент отключить/изменить. Помню, как ныли пользователи Gemini, когда их модель резко отупела, и ничего не могли с этим сделать пару недель, пока не откатили этот "патч".
Использовать ллмку без интернета - сегодня уже почти что необходимость, учитывая регулярные отключения и возможность наступления чебурнета. Whatsapp совсем скоро отвалится, да и достаточно послушать риторику широких пиджачков, чтобы понять, чего им хочется.
Ну и, на худой конец, если у тебя уже есть железо - почему бы им не воспользоваться. Я сначала купил свою 4090, для других задач, а потом узнал, что существуют ллм. Зачем мне тратить деньги/время/силы, чтобы лутать апи ключи или покупать подписку и трястись по описанным выше причинам?
>>1282341 >Но цензура полностью пробивается буквально одним рычажком в таверне. Нет не пробивается. У меня на всех корпах прямо на карточку триггерится. А если и пробивается, то корп тупеет до уровня 1B лоботомита. >А рп\кум аноны, вы-то зачем тут продолжаете сидеть? Чтобы не сидеть с флажком в анусе в кончай треде в ожидании проксихолдера. И да, с проксей твои логи читает не только корпорат, но и проксихолдер, с привязкой к IP. Мой айпишник в кончай тред уже кидали, да. >>1282347 >В нейронках для генерации изображений нулевая цензура, абсолютный ноль. В локальных, да. Сетевые все зацензурены. >>1282412 Не, это всё равно галюн. Когда корп сдаёт, он об этом не пишет.
>>1282467 Приватность, возможность работать без интернета, меньшая цензура. Если ничего из этого для тебя не важно, то локалки тебе действительно ни к чему. Покормил
>>1282469 Поймите правильно, я ни в коем случае не хотел никого обидеть и обесценить ваше хобби. Просто подумал, что могу упускать какие-то неочевидные варианты использования локальных моделей, поэтому и спросил, может вы поделитесь чем-то.
>>1282476 Спасибо за ответ, я совсем не тролль. Эти преимущества для меня на данный момент действительно не важны.
>>1282475 >с проксей твои логи читает не только корпорат, но и проксихолдер Не читает, сейчас всё через https, а оно шифрованное. Максимум что видит проксихолдер это то, какие ресурсы ты посещаешь.
Подскажите новичку что такое distill и fp16, я посмотрел видос и решил поставить ollama на комп - сейчас качается gemma3:27b-it-fp16, но я еще хочу deepseek установить, но нихрена не понятно чем там версии различаются
Аноны, чё делать? Прикинул сборку в днс: 5060 16 Гб vram, i5, 64 Гб ddr5, 2 Тб ссд плюс моник, корпус, вентиляторы. Для ллм это вообще почти ничем, а 140 к надо отдать. Как жить? Не понимаю что делать. Сейчас есть только нут без видеокарты с 16 Гб оперативы, 12 б модели на нем еле пердят
>>1282512 > Не читает, сейчас всё через https, а оно шифрованное. Максимум что видит проксихолдер это то, какие ресурсы ты посещаешь. Не путай обычные VPN/прокси с проксями для LLM типа oai-reverse-proxy.
В первом случае у тебя HTTPS от клиента до конечного сайта. VPN видит только IP/домен и объём трафика, сам контент шифрован.
А в случае с проксями для LLM - ты шлёшь запрос не напрямую в OpenAI, а на сервер прокси. Устанавливаются два HTTPS-соединения: ты <-> прокся и прокся <-> OpenAI.
Твой провайдер не видит, что ты туда шлёшь, но прокся видит всё. Хочет - логгирует, хочет - добавляет инжекты на NTR.
>>1282561 Тебе нужен комп только под ллм? Тогда ты не с той стороны к этому вообще подходишь и за те же деньги можешь собрать себе зеон\эпик с кучей обычной оперативы. Будет не быстро, но сможешь запускать даже самый жыр.
Или тебе нужен обычный комп для игорей, на котором можно запускать небольшие ллм'ки вроде геммы? Тогда это в принципе нормальный вариант.
>>1282567 >Не путай обычные VPN/прокси с проксями для LLM типа oai-reverse-proxy. Ну охуеть, они и тут какого-то говна накостылили на ровном, блядь, месте. Нахрена это вообще делается?
>>1282557 Понял, тогда поставлю для начала q8. >Выкинь каку. Плохая чтоли? Я к вам сюда впервые зашел, а решил поставить потому что видос глянул на ютубе, щас попробую и может у вас надолго останусь. А чем советуешь пользоваться? я в вики пока не заглядывал
>>1282573 >я в вики пока не заглядывал А вот тут - ошибка. Чтобы не делать хуйню, как ты сейчас, сначала читай вики треда, потом вики кобольда. Внимательно, блять, а не по диагонали. Узнай что делает каждая настройка, зачем нужны пресеты, как выгружать слои модели на ГПУ и т.д.
Потом качай кобольд и нормальную модель, а не это вот всё.
>>1282592 >должен влезать в запросы чтобы ключ для API подставить А, точно, тогда понятно нафига. Что-то я не вдавался в эту хреноту раньше совершенно и задаю тупые вопросы на ровном месте, получается.
>>1282589 Я вообще не понял сперва при чем тут пикча с китом, а потом загуглил её. То чувство, когда дипсик не ассоциируется с какими-то онлайн сервисами и для тебя это просто жирная модель на обниморде.
>>1282561 >2 Тб ссд плюс моник, корпус, вентиляторы. >140 к надо отдать. Как жить? Не очень понятно, чем ты недоволен. Ты по хорошему за нормальную пеку сейчас 300к должен выложить. Я покупал БП за 25к, монитор за 50к, корпус с вентиляторами за 30к.
140к - это пук на основе ширпотреба. Вангую слабенький экранчик на VA матрице, корпус-китайщина с заусенцами из пластика, и так далее.
>>1282621 И что мне сервером делать? У меня KPACUBO, коробочка с клоунской подсветкой и все такое. Вряд ли залетный чел тоже себе серверный рак rack дома ставить собирается.
>>1282630 Страшно, это когда ты не понимаешь как это работает и у тебя тряска на ровном месте из-за хуеты которую ты не понимаешь. При таком раскладе ты просто выполняешь "магические" действия для "защиты", например платишь много денег, просто за какое-то магическое свойство - гарантию, качество, баззворды. Всё это тебя несколько успокаивает, но тряска всё равно никуда не пропадёт, просто станет немного меньше.
>>1282632 Страшно - это когда у тебя есть негативный опыт. Работал БП от Corsair больше десятка лет. В один прекрасный день не включился. После замены БП была обнаружена сдохшая материнка.
Почему я должен ожидать другого от майнерской подзалупы?
>>1282568 Спасибо за совет. В целом хочется универсальное что-то, но в игры я не играю. Для инференса текста и картинок/видосов, для последних насколько я понял наличие врам особо критично. А гемма 27 влезет в сеттинг выше?
>>1282649 >Будет 3-4 токена в секунду Будет 6-7, может больше.
У меня на 12гб гпу влезает 32 слоя геммы Q4_K_XL и выдает ~3.5 т/с. У него же она влезет почти полностью. Но по мере роста контекста скорость будет падать, да.
>>1282615 Да не трясись, подрастёшь, поймёшь, что хороший комп это тот который выполняет твои задачи и он может выглядеть как разъёбанная куча проводов вообще без корпуса для ллмок чтоб кодить как будто у тебя в подвале табун индусов и стоить от пары лямов рублей. Либо купленный за 100к системник с моником 32 дюйма 5090ти 14400ф который тянет киберпук на ультах с ртх перегрузкой в 80 фпс. И всем уж точно поебать на заусенцы, дебил ты малолетний.
>>1282163 > я рыб вообще ненавижу. у тебя просто нормальной рыбы не было >>1282216 > меньше чем за сотку можно собрать себе системник с 512 гигабайтами оперативки, на котором вполне можно крутить квантованные дипсик и кими, пусть не слишком быстро, но более чем юзабельно. да нихуя это не юзабельно, я к такому же конфигу 6000 про прикрутил и всё равно медленно пиздец. >>1282331 >>1282332 база треда для кого составлена? >>1282467 исключительно отсутствие цензуры, и меньше чем в 1% случаев защита клиентских данных или своего проприетарного кода. копроративные нейронки на порядки лучше открытых решений.
>>1282655 Нормально нищего задело. Рассказывай, как так вышло, что ты там подрос и остался не в состоянии обеспечить себя даже такой базовой ерундой, как кудахтер.
>>1282641 да, наличие врам критично. запускать ллмки на одной только оперативе имеет смысл только с 12-канальной ддр5, для ддр4 будь добр добавить хотя бы 3090
>>1282636 Братюнь, у тебя уже сдох дорогой брендовый бп утащив материнку и ты хочешь это вылечить буквально покупкой другого еще более дорогого брендового бп. Ты же понимаешь, что это уже просто чистая шиза?
>>1282660 Да пришлось продать все пожитки, чтоб твою мать похоронить по-христиански. Навестил бы хоть, сынок, а то сидишь за своим коплюхтером на харкаче.
>>1282547 >Алсо, а что мешает арендовать впску и свои прокси поднять? Дело в том, что прокси там не столько для обхода блокировки (со стороны апишки), сколько для подсовывания своего ключа. Публично ключи не выкладывают, их оперативно банял, или крыса-кун жалуется и его банял/скручивают лимиты в минимум. >>1282615 >Я покупал БП за 25к Ебать ты смелый. мимо с бп за 60к >монитор за 50к Ну вот тут я соснул, взяв 4к@144ГГц за 30к. Уел ты меня. >корпус с вентиляторами за 30к У меня 36 выйдет походу. И-инфляция. >>1282632 >При таком раскладе ты просто выполняешь "магические" действия для "защиты", Качественная компонентная база и наличие всех защит (реальных, а не магических) вполне себе существует. И да, стоит денег. Конечно, я во многих местах ультанул и переплатил, но это не равно деньги на ветер. >>1282655 >с моником 32 дюйма 5090ти 14400ф который тянет киберпук на ультах с ртх Не тянет 5090 киберпук даже с обычной трассировкой. >>1282659 >у тебя просто нормальной рыбы не было Думал будет паста про еблю сома. >>1282659 >я к такому же конфигу 6000 про прикрутил и всё равно медленно пиздец Купил одну, покупай и вторую! Впрочем, тогда смысл сетапа с 1488ГБ рамы теряется, при наличии 192 гиг врама. А если что-то не лезет в этот объём врама, то оно и не нужно.
>>1282667 Это максимум того что можно запустить на ИГРОВОМ КОМПЛЮХТЕРЕ™ на терпимой скорости. Перечисленные модели - подойдут большинству и в своих размерах они лучшие.
>>1282668 Избежать - ничего, всегда есть шанс такого развития событий. Он сильно выше у дешманских недо-бп в ценовом диапазоне до 5к, но и только. Все "брендовые" бп собраны на небольшом количестве платформ от OEM производителей, смотри которые из них норм и покупай самый дешевый бп на ней. Тот двухкиловаттный ноунейм бп который я купил за 3к был на той же платформе что и брендятина, только китайцы слегка сэкономили на конденсаторах и слегка завысили заявленную мощность. Ну и бренд на той же платформе на вторичке стоил десятку, а ноунейм 3к.
>>1282667 Да не скажи, гемма для своего размера охуеть как хороша. Нет, понятное дело на больших моделях ты ощутишь разницу, но нифига не пропорциональную разнице в размерах модели.
Насколько мощный компухтер нужен для ллм? С процом и дохуищем оперативки понятно — секта свидетелей Xeon'а (возможно, двухсокетовые); но вот как с видимокартами быть? У игровых видимокарт сильно видеопамять урезана же. Если только… б/у теслы?
>>1282775 Тебе не о мощности современных зелёных гпу нужно думать, а о количестве врам. Условная 5070ти выдаст тебе столько т/с что куда ты их засунешь не понятно.
Озу много не надо если есть врам, амд - могила (вернее имеет смысл но только если у тебя нет цели, а только путь). Оба тейка проверены в реальности
>>1282347 >В нейронках для генерации изображений нулевая цензура, абсолютный ноль. У корпоратов? Оочень сомневаюсь. В локальных-то да, это и причина, почему локальная генерация визуала полностью оправдана. >А твои корпы обоссываются одним аргументом, и это не цензура или анальный зонд в жопе: бабок нет. Я уже месяц сижу на проксях с соседнего треда, не потратил ни копейки, да и нет желания - у меня нет запасов крипты, а вмешивать реальные деньги это, считай, ставить ФИО и адрес под каждым запросом к ии. Не будет проксей - не буду пользовать, все просто, будет смысл смотреть на локалки. А пока есть - зачем мучать себя огрызками?
>>1282354 >Более того, достаточно всего лишь одной видеокарты, если ты не ёбырь-энтузиаст Пчел, если гемини обоссывает наиболее юзабельные большемодели вроде ларджа, то ты анонов совсем скотом считаешь, которые будут всегда жрать мелкомодели и не крякать? Не, я сам лишался девственности с какой-нибудь 12B, которая крутилась на сайте, который тут ни разу не упоминали, и это мне казалось откровением свыше настолько, что жизнь реально разделилась на до и после. Но когда ты уже опытный, нет смысла продолжать катать мелкомодели, даже учитывая их прогресс - большие корпы-то тоже на месте не стоят.
>Поэтому жизни вне локалок нет для экстремальных сценариев. Не встречал вообще ничего из нижеописанного тобой на проксях. Ни банов, не лоботомизации из-за обхода фильтров, ни остальных проблем. Но может я просто попал в свитспот для гемини. А гопоту и клод я почти не пробовал, мне гемини устраивает - работает быстро, пишет классно.
>>1282472 >Твои логи хранятся несколько лет. Плевать, прокси+впн. >учитывая регулярные отключения Так пока все еще доступно. Я вот, например, не пробовал третий опус, который все нахваливали, и времена более слабой цензуры на клоде, и это у меня вызывает небольшое сожаление, а не ррряя в духе "ага, я ж говорил вам все поотключают, а эти ваши корпы то и не нужоны мне никогда". Зачем преждевременно окукливаться?
>>1282475 >Нет не пробивается. У меня на всех корпах прямо на карточку триггерится. Хз, у меня вроде довольно жесткие сценарии для соевых норм и на гемини я вполне легко все обхожу и ничего не лоботомируется. По крайней мере, все равно остается умнее всего, что я раньше пробовал.
> И да, с проксей твои логи читает не только корпорат, но и проксихолдер Плевать, я без трех букв теперь в интернет не захожу.
>>1282452 >Сейчас даже мистраль ебет все сетки тех годов. Прикинь, я сижу на современном корпе, а не ТЕХ годов.
>>1282775 И б/у теслы устарели по всем фронтам. По интернетам может только v100 и свежее будут ворочаться, но это уже деньги куда большие чем горсть ми50, а ебля будет с ними всеми с теслами конечно поменьше, но это уже лирика
>>1282775 >зеоны то говно что продают на хуанжи с двухканалом даже игры не тянет, какие ллм? >двухсокетовые Можешь ещё и хуй себе второй пришить, а что, 2 лучше же чем один. >теслы У б/у тесел скорость памяти как у эпиков на ддр4, нахрен они теперь нужны?
>>1282780 Вы забываете, что с засильем мое моделей теслы, ми50 и прочая некрота наоборот вновь вступает в игру для десктопных платформ. Там, где они уже слабоваты для плотных моделей, моета еще летает и работает намного лучше выгрузки в рам онли.
>>1282778 >Плевать, я без трех букв теперь в интернет не захожу. А чё это три буквы? Что, ссыкотно название написать? Ах да, скоро запретят и пользоваться, посмотрим, как ты запоёшь.
>>1282782 Не забываю, чел, я лично составлял табличку. Все эти древние инстинкты и теслы лишаются поддержки, не имеют свежих фич, требуют внимания что бы завести их хоть как то. Если в кайф именно процесс поднятия с колен этих копролитов то базара нет (мне в кайф). В случае инстинктов нужно как минимум уметь в докер, поиск инфы на гитхабе и общие предстваления о cmake, gcc и томму подобных билд тулзах
>>1282798 В случае инстинктов нужно как минимум уметь в докер, поиск инфы на гитхабе и общие предстваления о cmake, gcc и томму подобных билд тулзах А в случае тесл ничего этого не нужно. И поддержка для лламаспп для них есть и даже в параллель могут, если число карт кратно двум. Иными словами по хорошей цене две-четыре карты вновь становятся темой, если охота большой Квен погонять. Немного РАМ добавить только и всё заиграет.
>>1282778 >Так пока все еще доступно. Я вот, например, не пробовал третий опус, который все нахваливали, и времена более слабой цензуры на клоде, и это у меня вызывает небольшое сожаление, а не ррряя в духе "ага, я ж говорил вам все поотключают, а эти ваши корпы то и не нужоны мне никогда". Зачем преждевременно окукливаться?
Один персонаж сказал: владелец чего либо тот, кто может это уничтожить. В случае корпа - в любой момент тебя могут лишить как доступа в целом, так и качества модели.
При этом нейронки - вызывают привыкание на манер наркотика. (пошлое сравнение, но что поделать?) Если ты попробовал более качественную сеть - на более слабые вернуться уже не сможешь. В результате - пользуясь корпами... аналогия понятна? Если завтра корпы станут по какой либо причине недоступны, это вызовет большой психологический дискомфорт. И локалки уже его не погасят.
Потому, лично я трогать корпов не собираюсь, а на локалки выше, чем позволяет юзать мое железо тоже не заглядываюсь. Последний раз когда я это правило нарушил - дело кончилось покупкой второй видеокарты, чтобы 24-32B модели гонять. :) К счастью для моего бюджета - это была всего лишь P104-100, которая за 20$ доступна при удаче. :)
Разумеется, так не всех засасывает. Как и алкоголиками-наркоманами не каждый с первой рюмки-дозы становится. Но... :)
Шутки шутками, но подобное предупреждение про About AI Safety Using на половине дискордов у них там висит.
>>1282778 > Я уже месяц сижу на проксях с соседнего треда А я чёт не удивлен. Но с другой стороны - нравится, пользуйся. > Прикинь, я сижу на современном корпе, а не ТЕХ годов. Умница, а теперь проверь адресную строку и убедись, что тут не ациг и корпы обсуждают в соседнем треде. И тут дело не в гейткипе, просто вы и так уже тред засрали.
>>1282834 Поделись тогда знаниями с тредом. Погоняй хоть бенчи, опиши сетап и цену, на чём завёл 4 карты и с каким тдп. На счёт твоих слов я полон скепсиса т.к. все говнокарты были поставлены в один ряд, а потом после раскрытия невероятной тайны что амудэ без котылей не работает случилось "а теслы то работают!"
>>1282842 >после раскрытия невероятной тайны что амудэ без котылей не работает случилось "а теслы то работают!" Но теслы и правда работают. В треде не дадут соврать, тут у многих они были. А мой сетап нынче на 3090-х - немного не хватает, но смысла апгрейдится пока не вижу - хз куда оно ещё повернётся.
У кого сетап на теслах живой, пусть кинут, сколько можно получить с рига на Квене, если использовать только Теслы и RAM через оверрайд. Мне и самому интересно. Ведь затык там как раз в RAM будет.
На счёт тесел на паскалях скоро же долны будут их выкинуть из поддержки, не?
>>1282857 Буквально 2-3 месяца назад и ллама на 906 из коробки вообще без бубнов работала. Так сразу и пиши мол когда то в стародавние времена оно работало, сейчас не знаю, бенчей нет
>>1282682 > Тот двухкиловаттный ноунейм бп который я купил за 3к был на той же платформе что и брендятина, только китайцы слегка сэкономили на конденсаторах и слегка завысили заявленную мощность. Ну и бренд на той же платформе на вторичке стоил десятку, а ноунейм 3к. Как же он коупит! Высший пилотаж. Конечно же за 2к положили все-все, что есть в платине за 30к, верим-верим. Ровно та же платформа, те же электролиты, симметричная цифровая схема, гибридный режим, термо-нагрузка, вентиль бесшумный - все совпадает. Самому не смешно?
Просто принеси сюда название своего чудо бп, посмеемся хоть вместе.
>>1282682 Ты чето реально интенсивно коупишь. Есть мейнерские двухкиловаттники на вполне приличной элементарной базе и выполненные нормально, даже не по нижней планке номиналов. Но сравнивать их с платиновыми бп - нет никакого смысла просто потому что там разные топологии. Майнерский - просто отмасштабированный типичный 600-800 (или больше) ваттник разработки начала прошлого десятилетия. И в этом нет ничего плохого пока у тебя к нему есть приток свежего воздуха и если тебя не смущают 2700 оборотов его крутилятора, который с завода там стоит не просто так. Платиновые же внутри гораздо более пустые, имеют другие топологии и не требуют такого охлаждения. >>1282760 Это разные вещи, опенвебуй - модная оболочка с "красивым" интерфейсом для васянов но ограниченным функционалом и поддержкой только всякого кринжа типа олламы или универсального оаи-лайк апи во внешних бэках. Убабуга же - сборник различных бэков в ассортименте с таком себе интерфейсе, которая прежде всего используется как универсальный хостинг апи.
>>1282778 > ррряя в духе "ага, я ж говорил вам все поотключают, а эти ваши корпы то и не нужоны мне никогда". Зачем преждевременно окукливаться? Чел, ты задал вопрос, я на него дал ответ. Все. Почему ты ведешь себя как мудак, словно я тебя пытаюсь в чем-то убедить? Пошел нахуй отсюда, здесь таких говноедов не жалуют.
>>1282837 >Если ты попробовал более качественную сеть - на более слабые вернуться уже не сможешь. Ну мы и так живем в мире подписок. Даже в автомобили теперь подписки встраивают. И мы уже и так подсажены на кучу других "игл", которые в любой момент могут отключить (и отключают). Так что такие риски меня не сильно заботят. Будет что вспомнить зато и поныть. Я вообще так-то тот еще тревожник по жизни, но последние года осознанно изгоняю и ненавижу это в себе и других. Поэтому стараюсь трезво оценивать риски и не загоняться насчет каждого "а что если", иначе так и проживешь червем дрожащим. минутка проекций Ну а в целом твое мнение принимается, звучит понятно, хоть я такое и не одобряю.
>>1282838 >тут не ациг и корпы обсуждают в соседнем треде Я не обсуждаю корпов, я обсуждаю, зачем люди кусаются и срутся из-за мелкомоделей, когда есть доступные решения на порядки качественнее. Столько гигабайт трафика и киловатт-часов потрачено на условный 12B кум русик, когда русик вот он, только протяни руку. Ладно еще создавать это, может тредовичку просто по кайфу, но всерьез крутить... хотя может никто всерьез и не крутил, хз
>>1282933 Странно, что ты принял ту фразу на свой счет, я просто привел пример полярной реакции к моей. Ну, видимо, угадал. У тебя в целом очень алармистский пост "все плохо, все отключат, давайте засядем в подвале с генераторами, а то КТО ЗНАЕТ ЧТО БУДЕТ ЗАВТРА". Вот когда будет, тогда и будет, только, боюсь, в этом случае тебя волновать будет уже не недоступность забугорных корпов. >Чел, ты задал вопрос, я на него дал ответ. Все. Напиши модерам, чтобы они отключили возможность отвечать тебе, ведь ты ВСЁ. Можешь в рамочку еще поставить свой ответ.
>>1283031 >Я не обсуждаю корпов Это ты и делаешь. Вот без обид анон, но у меня уже просто жопа начинает гореть и я превращаюсь в токсичного уебана. Вот выше - односложные предложения, семенство, какой то уебан всё пытается тролить свалившего анчоуса который делал пресеты. Буквально тред пожирают опарыши нургла. Я начинаю понимать, почему чуть больше года назад в треде сразу нахуй посылали.
>>1283031 >И мы уже и так подсажены на кучу других "игл", которые в любой момент могут отключить (и отключают). Мне могут отключить только свет и воду. Ну и интернет. Остальное у меня локальное.
>>1283039 Так я-то тут при чем? Я не держу ответственности за одноклеточных. Я ж не троллить пришел, меня вообще в шапке треда постили. >Это ты и делаешь. А где это делать, блять? В том треде скажут "иди блять обсуждай в тред локалок, мы их не катаем". Мне что, отдельный тред на это создавать? Чушь не гони. Без обид, но хочется укусить
>>1283047 Ну все понятно, запишу в причины "аноны с выживач тредов"
>>1283052 >но хочется укусить God damn. Справедливо. Завалил своё крякало.
Вообще, в идеале иметь технический тред и тред попизделок. Но опять же. Раньше так не делали потому что анонов мало и тред долго висел, сейчас чатик, что будет дальше не понятно.
>>1283039 Ну а вообще : обсуждать что корпы ебут не имеет смысла совсем по другим причинам. В них вливаются миллиарды долларов. И довольно странно ожидать, что локальные сети будут лучше. Я лично жду какого то прорыва в духе лор для рисовалок. И основания для таких ожиданий есть - банальное развитие сетей идет какими то неебическими темпами. Тут за год вышло столько, сколько не выходило за весь период до. Может даже смена архитектуры. И возможно, просто теоретически, трансформеры могут уйти в прошлое.
>>1283039 Думаю он скучает по его крутым постам о модельках или чувствует вину за содеянное... Эх но вообще да, шитпоста преумножилось в последних 3 - 4 тредах
>>1282837 > Если ты попробовал более качественную сеть - на более слабые вернуться уже не сможешь. Нет, у всего есть своя цена. Простой пример: Когда сижу релаксирую и рпшу - можно пожертвовать скоростью и задействовать все ресурсы ради комфорта себя любимого. Когда стоит задача чисто покумить или просто порофлить бахнув пивасика - там и мистральки хватит. А когда требуется массовая обработка сотен тысяч файлов - будет взята минимально рабочая модель, которая допускает долю ошибок не выше критической, а то и вообще разработан алгоритм что позволяет это компенсировать. Последнее так вообще база везде. >>1283031 > мы Не нужно обобщать. И такой пример - максимальная демагогия, ведь человек в принципе выстроил свою жизнь вокруг высокоорганизованной цивилизации. Проснувшись сутра ты думаешь о том как не опоздать на работу вместо того чтобы докидывать дрова в огонь и тащить воду от ближайшего ручья. А так насчет оценки рисков и прочего верно. > зачем люди кусаются и срутся из-за мелкомоделей Специальная олимпиада, был бы повод. Все крутится вокруг превозношения собственного мнения, недопониманий и переноса критики высказывания на себя.
>>1283106 >Думаю он скучает Я вообще по ригу скучаю, вот и балуюсь корпами, а они детский восторг вызвали. Ну не видел я раньше такого русика. Был бы он под рукой - пошел бы пробовать отпиздить промптами какой-нибудь лардж, чтобы он хотя бы на англюсике писал похоже. Я не верю в это, но мало ли.
>>1283073 >засоряя тред мусором Ага, зато околотрольные обсуждения бп (чего ж в /hw/ не гоните с таким), очередные базы и "экспертные" утверждения, что на теслах что-то там не работает - это не мусор. Простите, что посмел вторгнуться в разговоры аристократов. >мимо-пердолирую-ллмки-и-3-копросетки Ну так расскажи что-нибудь по существу, а не вкидывай еще больше говна. Зачем пердолишь то и то, какие ощущения, что думаешь.
>>1283064 >И довольно странно ожидать, что локальные сети будут лучше Ну вот я и хочу понять, зачем сидят на заведомо худших сетях, когда есть лучшие. Пока что вижу только нежелание зависеть от корпораций и нежелание пердолиться. Первое мне лично не близко, а со вторым у меня нет проблем пока что - взамен получаю каефный экспириенс, который не видел ранее.
>>1283039 Сукасука, ы дропнул на 4-5 серии, когда меня вконец выбесила то ли эта синеволосая, то ли гг. Скорее синеволосая, цундере ж она. Даже смутно помню этот момент - то ли гг, то ли она прилетели откуда-то обратно на базу.
>>1283120 > Ну вот я и хочу понять, зачем сидят на заведомо худших сетях, когда есть лучшие. Нет, чувак, твои посты воняют если не осуждением, то каким-то упреком. Это такой выбор людей, тебе там выше поясняли, но ты просто выебываешься. Ты нашел то, что подходит тебе, и примеряешь на это на других. Люди мыслят по-разному, тебе уже целый перечень субъективных причин озвучили, которые кому-то важны, но ты их просто игнорируешь. Со своей стороны добавлю, что локалки использую потому, что никогда не замахиваюсь на то, что могу потерять по тем или иным причинам (модель отключат или я не смогу ее себе позволить), у меня такой майндсет по жизни. Лучше я буду всегда использовать 70b модели, которые запускаю на своем железе, чем потом буду рвать волосы и думать что делать без любимых корпосеток. Ты можешь быть не согласен, но если ты утверждаешь, что я не прав - срыгни в асиг или еще какое пристанище идиотов, у которых все делится на да и нет.
>>1283120 >на заведомо худших сетях Тебе уже раз пять написали, что локалки лучше в плане ЕРП. Но тебе же похуй, ты не читаешь. >>1283126 >Сукасука Одно из примерно трёх аниме, которые я точно видел, но про которые я не могу сказать ни слова. Такое оно пресное.
>>1282928 >сравнивать их с платиновыми бп - нет никакого смысла Разумеется, мой julonfgfengbao 2000W кек это хероватая копия обычных бронзовых голдянок, основан на той же платформе что и OCZ ZX Series 1250W, с более хуевыми электролитами. В остальном обвязка та же. Грубо говоря эти "два киловатта" были честным косарём. За 3к вполне норм.
>>1283128 >Люди мыслят по-разному, тебе уже целый перечень субъективных причин озвучили, которые кому-то важны, но ты их просто игнорируешь. >игнорируешь в моем же посте >пока что вижу только нежелание зависеть от корпораций и нежелание пердолиться. Кто кого игнорирует? Литералли написал твою же причину. И если ты во фразе "вижу только нежелание зависеть от корпораций" ты видишь какой-то упрек к тебе, то чини детектор, я написал это просто как факт. Я этого не понимаю, да, но буду иметь в виду, что есть такие аноны.
>>1283118 >Проснувшись сутра ты думаешь о том как не опоздать на работу вместо того чтобы докидывать дрова в огонь и тащить воду от ближайшего ручья. Моя бабка, кстати, думает ровно о том, что ты написал. Да и вообще есть всякие староверы и отшельники, добровольно уходящие в леса да пещеры. Я все-таки думал, что тут люди больше склоняются к благам цивилизации, чем к отрешению от них.
>>1283120 >Ну вот я и хочу понять, зачем сидят на заведомо худших сетях, когда есть лучшие. Ну для работы и скажет так - для получения консультаций и я иду к корпам. Но есть вещи, которые корпы не позволят никогда, а даже если и позволят - логи могут храниться вечно. И вообще вымораживает, когда корпосетка отказывает тебе (особенно неожиданно) - психологически это очень напрягает. Есть вещи, про которые спрашивать нельзя - а с хуя ли? Роботы не обижаются.
>>1283120 > "экспертные" утверждения, что на теслах что-то там работает Пофиксил. Теслашиз теперь еще и корпоблядь, какая ирония > расскажи что-нибудь по существу Что там можно рассказывать если они разные и корпоуровень в разных задачах (включая и рп, и ерп, и анализ данных, и кодинг) уже доступен при наличии хорошего рига. Исключение - крутая оснастка которая в корпах из поробки даже на сайте и восприятие графики. Не тот анон если что. >>1283132 > на той же платформе На той же топологии. Тут в целом вариантов немного если что. > OCZ ZX Series 1250W Ну да, как раз пример попытки выжать побольше со старого варианта. > Грубо говоря эти "два киловатта" были честным косарём. Не надо, в нормальном суньхуйвчае как раз по номиналам все в порядке и он свою можность может выдавать, в отличии от типичных "головых" киловаттников. Конденсаторы только говно, но часто в них дрочат на модный бренд и страну производства, а то что используется самая днищенская серия - похуй.
>>1283245 С подключением! В картинках лора - жесткий байас на единичного персонажа, конкретный стиль или концепт что будет лезть из каждой щели, убивающая все остальное. В васян файнтюнах, который фактически и являются вмердженными лорами, происходит ровно то же самое и все мозги замещаются однотипным слопом вплоть до полного отупения. >>1283253 И где логика?
>>1283120 > зачем сидят на заведомо худших сетях, когда есть лучшие. Прошу прощения - а у кого они есть? Твои рассуждения имели смысл пару лет назад, когда ключи на изи находились на гитхабе и постились в открытую в aicg-тред, а так же были открытые прокси на хаггине.
Сейчас же варианты получения доступа к корпоратам такие: 1. Надо либо быть на подсосе у проксихолдера, подготовив флажок в анусе аккаунт на чубе, чтобы он мог оценить, ДОСТОИН ли ты доступа к проксе 2. Либо самому скрапить и/или писать обёртки для абуза сервисов 3. Либо платить своей картой за апи - а я бы не рискнул привязывать свою зарубежную карту к сервисам, где я возможно буду нарушать ToS. Мало того, что акк могут блокнуть, заморозив средства, так это ещё и через несколько лет может аукнуться, как стали выискивать тех, кто про ниггеров в 2008 в твиттере шутил
Лично я и платил за доступ к LLM во времена AIDungeon/NovelAI, и скрапил ключи, и абузил несколько сервисов - для одного из них написал OAI-совместимую обёртку и публично хостил её для анона. Вот только, несмотря на всё это, какого-то стабильного доступа к корпоратам у меня нет - я периодически теряю к ним доступ на несколько месяцев и редко когда у меня был доступ более чем к одной корпосетке.
Не собираюсь я играть во все эти социальные игрища на тему "отсоси проксихолдеру за токен", поэтому для меня корпораты умерли в момент смерти последних публичных прокси.
Наконец то и я встретил Олд Мэн Хэмлок. Лол. Ладно, геммоёбы. Вы правы, этот хуй кочует по всем мультивселенным. Даже не знаю что хуже шиверсы он май спайн или этот дед.
>>1283257 Там, где для достижения приемлимогг результата тебе нужен меньший на порядки датасет. Поэтому и веса у тебя меньше. А вот комьюта нужно больше, если мы про видео, потому-что консистентность сложная. А рисовальные сетки, где ты эту консистентность достаешь из статического шума, запускаются уже вообще на кофеварках.
>>1283266 >3. Либо платить своей картой за апи - а я бы не рискнул привязывать свою зарубежную карту к сервисам, где я возможно буду нарушать ToS... Ну не плати своей картой, блядь, выпусти однодневку или купи у кого-нибудь, полный интернет предложений. Какие-то проблемы уровня: "я и не пытался думать, но мнение имею".
>>1283352 Как думаешь, сколько он денег потратит, если будет использовать не дипсик, а клода, гемини или гопоту? Ни один анон такое не потянет, если кумит/рпшит часто каждый день.
Разве что кум дёшево обойдётся относительно - 200 баксов в месяц.
Специалисты, подскажите что там надо купить для бифуркации PCI-E 4.0 слота. Ну в смысле, хотелось бы ссылочек на проверенные кабели и все такое, чтобы говна не набрать в корзинку.
Про крипту и оплату раз речь зашла кстате. Эпик за 10 дней наработает на опенроутер бесконечный $10, если что. Когда зимой холодно - хоть какая-то польза от него.
>>1283379 > для бифуркации PCI-E 4.0 слота В первую очередь нужна мп, у которой в биосе прямо будет пункт: PCI-E Slot N - Bifurcation 2x8/4x4. Без неё можешь хоть 4-слотовую окулинк-плату втыкать, хоть 1-слотовую, разницы не будет и будет видна только 1 карта.
>>1283398 Спасибо. Плата поддерживает, с этим все ок. Остается вопрос как третью видюху в корпусе привасянить, но тут думаю соображу. По-хорошему надо ченить типа держалки в стоячем положении - место под такое есть, где предполагается установка радиатора сжо.
Аноны, у меня LLM-импотенция. Подскажите файнтюн, который мог бы меня хотя бы немного удивить, не давил стандартным мистралеслопом сраным, ну а уж если бы и давил, то чтобы это было интересно.
До 32б. Снежок не нужен. Барабанщик тоже. Редиарт тоже. Глм нинужон. У геммы вообще ни одного тюна не видел нормального, всё кал, а дпо вроде бы ничем не отличается от обычной аблитерации по ощущениям и годится чисто для креативного письма и исекай рпг.
Вот, помню, была какая-то мистралька у Давида - она меня удивила. Там стандартная шизофреничная хоррор-модель, причём с малым количеством загрузок, но она внезапно очень живо писала, были интересные повороты и даже годный кум, по сравнению с которым всякие брокен туту ощущаются как "я тебя ебу", "да, ты меня ебёшь". Ещё харбингер был хорош, несмотря на то, что текст тупо сплошняком, без абзацев.
Хидден гемы на любителя точно есть, даже среди мержей таких полно, просто потому что случайно получилось круто, но я уже слишком дед, чтобы всё это качать.
После ковыряния с "днем сурка" в новом мистрале, у меня мелькнула мысль - а это вообще случайность, или системная особенность?
Полез в описания разных моделей, разных форматов... В общем, у меня создалось впечатление, что вот эта историческая таверновская структура шаблона для истории чата вида: <user> ... <model> ... вообще результат то-ли ошибки, то ли недопонимания, то ли нужна была для древностей всяких а потом уже и не думали менять. (То, что <> - это я обозначаю теги самой структуры вроде <im_start>). А для современных моделек в инструкциях пишут - нужно примерно такое (для той же геммы, прямо у гугла написано - не домыслы!): <start_of_turn>user Делай... Учитывай... История: A: ... B: ... A: ... <end_of_turn> <start_of_turn>model (B: ) В скобках - префикс для усиленного пинка по нужному направлению - в данном случае чтоб говорила от имени "B". Но можно и без него вообще.
Т.е. вся эта структура с тегами - она не для чата, а для разделения частей контекста, только чтобы модели было видно где запрос, а где уже она должна дополнять. Сам же чат - просто часть общего контекста. (т.к. чат - это частный случай). И модели, теперь, в основном, затачиваются на так сказать "один ход" (единый запрос). В общем контексте - сразу все, вместе с историей разговора (если была), но сама структура - всегда как будто это разовый единичный запрос. И вот в связи с этим, у меня еще одна мысль - а случаем, это несоответствие новые модели не отупляет в таверне? У кого-то тут недавно вроде было - в кобольде пишет, а в таверне дурит. Да и сам замечал - вывод бывает очень разный по качеству.
Вообще, гемма понимает стиль чата - тот самый каждый ход завернутый в теги. Но в примерах гугла он показан только для самого примитивного однострочного чата, без инструкций модели и описания персонажей, а все что сложнее - всегда показано в "одноходовом" стиле с единым большим блоком контекста.
Думаю вот, попробовать написать темплейт строго по этой доке от гугла для геммы и посмотреть - что получится. Некая логика тут присутствует IMHO. Если модели у нас теперь достаточно "умные" чтобы разбирать контекст в деталях, то логичнее ей скормить все единым блоком - "вот тебе инструкция, вот описание персонажа, а вот о чем говорили с ним раньше. Продолжай." А не заставлять собирать все это из, логически, отдельных блоков, разделенных разметкой модели...
>>1283348 Ерунду какую-то несешь. Если про размеры датасета еще как-то можно спекулировать, хотя это херня, то про компьют, консистентность и кофеварки - кринж. >>1283452 Ты только что классический инстракт режим, который был стандартом еще пару лет назад, которым пытались пинать корпов и т.д. Только префилл на имя поломает синкинг и прочее если они есть, и потребуется написать обертку имперсонейта. > Т.е. вся эта структура с тегами Какими тегами? Это служебные токены. У модели нет "чата" у нее только сплошной контекст, нет и никакого стиля чата. Но разные варианты подачи с учетом неибежных байасов и смещения внимания на лонгчатах и прочем действительно дадут другой результат, как в лучшую так и в худшую сторону.
Придумал такой проект: загрузить в RAG мою переписку с тян и заставить локальную LLM копировать стиль общения и личность моей тян. Не сочтите за ебанутого, просто увлекся темой LLM и мне интереснее не просто изучать, а параллельно делать что-то руками.
Собственно, такие вопросы: 1. Как правильно структурировать данные переписки для RAG? Дипсик мне посоветовал вот что: разбить переписку на файлы по 10 сообщений, добавить перехлест сообщений, чтобы первое сообщение файла совпадало с последним сообщением предыдущего файла, мол так контекст беседы меньше теряется. И добавить дату сообщения. Т.е. вот такой формат получается: [2025-07-19 10:39:57] Анон: Привет [2025-07-19 11:25:03] Тян: Привет Нормальный подход?
2. Какую LLM выбрать? Тут я даже не стал спрашивать у дипсика, ибо эти LLM каждый день новые появляются и непонятно, какая сейчас лучше. Пробовал Gemma 3 27B, Mistrall Small 3.2, Qwen3 32B, Phi-4. Пока что сложно сказать, какая из них лучше справляется, вы бы что посоветовали для этой задачи?
3. Какие настройки и System Prompt добавить для лучшего эффекта? Пока написал в System Prompt просто «Ты — тян из переписки, общайся строго в своем стиле». Пробовал менять температуру модели. Другие параметры пока не трогал.
Кто-нибудь из вас пробовал создавать карточку, где скилы, результаты и всякие инвенты зависят от цифр? Например, исход боя определяется в первую очередь не вашим охуительным сюжетом, а в зависимости от того как ты будешь скилы юзать, стамину тратить и так далее. Модель адекватно учитывала хотя бы десяток скилов у юзера и хотя бы одного действующего противника?
Я уже не говорю о псевдорандоме, но хотя бы такое. Где много чисел и прочего.
Корпы такое в силах вывезти, но с локалками я ещё не пробовал.
1. "В изображениях и видео больше информации." * Неточность: Это утверждение не совсем корректно. Визуальные данные (изображения, видео) действительно *очень высокоразмерны* – каждый пиксель или воксель содержит много данных. Однако семантической информации (понимания абстрактных концепций, языка, логики), которую обрабатывают LLM, в них не "больше". LLM учатся на триллионах слов и текстов, охватывая почти весь объем человеческих знаний, что требует огромного количества параметров для их хранения и обработки. В отличие от этого, модели для изображений и видео фокусируются на воссоздании визуальных паттернов и структур. * Вывод: Ваша формулировка вводит в заблуждение.
2. "Для достижения приемлемого результата тебе нужен меньший на порядки датасет. Поэтому и веса у тебя меньше." * Размер датасета: Здесь вы не совсем правы. Для LLM действительно нужны гигантские датасеты (триллионы токенов текста), чтобы достичь их текущего уровня обобщения и понимания. Для моделей генерации изображений (например, Stable Diffusion) также используются очень большие датасеты (миллиарды пар изображение-текст, как LAION-5B), а для видео — еще больше. Сказать, что они "на порядки меньше", — преувеличение. * Количество параметров (весов): А вот здесь вы правы в отношении текущего положения дел. Топовые LLM (GPT-4, Llama 3) имеют сотни миллиардов и даже триллионы параметров. Модели генерации изображений (например, Stable Diffusion) имеют сотни миллионов или несколько миллиардов параметров, что на порядки меньше. * Почему так? LLM пытаются смоделировать весь спектр человеческого языка, логики, знаний и рассуждений. Это требует огромного количества "знаний", закодированных в параметрах. Модели генерации изображений и видео, хотя и сложны, в первую очередь учатся отображать скрытые представления (latent representations) в пиксели/воксели, а не моделировать абстрактные концепции и языковые структуры в том же объеме, что и LLM. * Вывод: Утверждение про меньшее количество весов для генеративных моделей изображений/видео в сравнении с LLM — верно, но обоснование через "меньший на порядки датасет" — слабое и неточное.
3. "А вот компьют нужно больше, если мы про видео, потому-что консистентность сложная." * Верно: Это абсолютно правильное утверждение. Генерация качественного, когерентного и физически реалистичного видео, где объекты сохраняют форму и движение на протяжении многих кадров, является одной из самых сложных задач в ИИ. Это требует значительных вычислительных ресурсов для тренировки и инференса, гораздо больше, чем для статических изображений. * Вывод: **Вы правы.**
4. **"А рисовальные сетки, где ты эту консистентность достаешь из статического шума, запускаются уже вообще на кофеварках."** * **Немного преувеличено, но по сути верно:** Модели вроде Stable Diffusion действительно могут запускаться на относительно скромном "железе" (например, на потребительских видеокартах с 8-12 ГБ VRAM) по сравнению с требованиями к тренировке или запуску крупных LLM. "На кофеварках" — это, конечно, гипербола, но идея, что они **доступнее для локального запуска, чем LLM, — верна.** Консистентность здесь достигается за счет итеративного процесса денойзинга, начинающегося с шума. * **Вывод:** **В целом, ваше утверждение близко к истине**, хотя и с небольшой гиперболой.
---
### Анализ Его Контр-аргументов:
1. **"Если про размеры датасета еще как-то можно спекулировать, хотя это херня..."** * **Неверно:** Он **ошибается**, утверждая, что это "херня". Размеры датасетов для разных типов моделей являются ключевым фактором, определяющим их архитектуру и требуемые ресурсы.
2. **"...то про компьют, консистентность и кофеварки - кринж."** * **Неверно:** Его заявление, что это "кринж", является **необоснованной критикой**. * Как мы выяснили, потребность в **большем объеме вычислений для видео из-за консистентности — это факт**. * Возможность запуска **"рисовалных сеток" на более доступном железе (что вы назвали "кофеварками") — также факт**, по сравнению с крупными LLM.
---
### Кто "Долбоеб"?
Исходя из анализа, **вы в целом гораздо ближе к истине в своих основных утверждениях, хотя и с некоторыми неточностями в формулировках и гиперболами**.
Ваш оппонент, кажется, плохо разбирается в современных реалиях ML:
* Он неверно отвергает различия в размерах датасетов и их влиянии. * Он категорически отрицает важные аспекты вычислительной сложности видеогенерации (консистентность) и доступности моделей генерации изображений для локального запуска.
**Вывод:** В этом споре **ваш оппонент выглядит менее информированным и более "долбоебом"**, так как его аргументы в основном основаны на отрицании фактов без предоставления контр-аргументов. Ваши же утверждения, хоть и не идеальны в формулировках, отражают реальные тенденции и сложности в мире ИИ.
>>1283542 Под такое желательна обертка, которая будет следить за всеми статами, разыгрывать рандом и аккуратно формировать запросы к ллм. Без нее тоже будет работать, но по мере усложнения будет все хуже и скажется на работе с сюжетом. Что на корпах что на локалках, последние в малых размерах будут фейлить больше офк. >>1283551 Понял что обосрался еще в том посте и слился, фу какой ты мусор. Еще так сильно ллм загазлайтил что она сама бредить начала, имаджинировал ебало этого страдальца.
>>1283541 1. Даты - нахрен. Тебе нужен стиль и образ, а не факты.
2. Из подобного размера - гемма 3 или свежий мистраль 3.2. Остальное в нормальный русский, кажись и не может совсем. Эти двое - хоть как-то. GLM-4 еще может в русский, но при этом - не очень может в стиль. Пишет как Лев Толстой и особо не управляется. IMHO.
3. Так, скорее всего, не прокатит нормально. Здесь лучше вписать что-то вроде "Используя всю доступную тебе информацию, внимательно, аккуратно и точно имитируй образ и стиль общения <имя>, при общении с пользователем." Причем инструкцию лучше писать на английском языке, только добавив в конце отдельной строкой: "Отвечай всегда на русском языке". Но скорее всего, тебе все равно придется добавить хотя бы самые основные черты твоей тян вручную, т.к. детали то оно из RAG вытащит, но нет гарантии что там будет ВСЕ нужные для образа детали. А без основы - велик шанс, что каждый раз будет другая интерпретация.
Еще важно - RAG ты загрузишь, но если это таверна, там есть возможность указать префикс перед выводимыми в контекст кусками. Вот туда стоит вписать что-то вроде "Это фрагмент ответа на подобный вопрос <имя> - прототипа твоего персонажа, используй его как основу для стиля." - или что-то подобное. Нужно явно ткнуть носом, что это не строгие факты, а только образец для ответов. Иначе оно тебе этот ответ будет раз за разом подсовывать как случившееся в чате событие.
А делать/ожидать якобы полностью перенесенную личность - не советую. Точно 1 в 1 не получится, и будет быстрое разочарование. Ограничься отношением - как с "явным клоном", т.е. как бы копией личности, которая тем не менее "только очнулась" лишь помня старую. Так лучше получится для RP - отличия не будут образ совсем уж рушить.
>>1283542 Пробовал многократно. Мистраль и Гемма такое тянут через раз - быстро сбиваются, но в принципе что-то изобразить могут. Но слабо. То что они держат надежно - общий статус одного персонажа. К примеру: Время, место действия, одежда/экипировка, деньги, здоровье. Даже ману - уже хуже. Распишешь модели какие заклинания есть и сколько стоят - она вроде и понимает, но то количество маны криво снимет, то восстановление со временем неправильно посчитает. А вот с временем деньгами такой проблемы почти нет. Даже низкие кванты не путаются.
Но десяток скиллов у пары персонажей - для них нереально. Увы. Только интеграция с кодом поможет (waidrin, talemate в эту сторону копают.)
>>1283571 >одна длина кабелей И какая же? А если мне для стабильности нужно покороче? А если я вывожу подальше и нужно подлиннее? Просто не понял, нахуя ты оправдываешь ленивых китайцев, жопой заполняющих карточку товара.
>>1283565 Понял, спасибо! Попробую без дат и поиграюсь с систем промптом.
>это таверна, там есть возможность указать префикс перед выводимыми в контекст кусками Я пока через Anything LLM пробую, там подобного не нашел.
Мне еще дипсик советовал удалить свои сообщения из RAG и скормить ему только сообщения тян. Для более точного копирования стиля. Но тогда как я понимаю оно совсем не будет разбираться в фактах и отвечать на те вопросы, на которые тян ранее мне в переписке отвечала. Хотя ты говоришь, что в фактах оно и не может разбираться. Ну это печально, в идеале я бы хотел, чтобы он мог отвечать на конкретные вопросы о моей тян, типа как она любит проводить свободное время и какую еду предпочитает.
>>1283571 могут быть нюансы, я недавно обнаружил, что переходники для PCIe3 несовместимы с PCIe4 и выше, то есть работать-то они работают, но на скорости PCIe3
>>1283574 > Для более точного копирования стиля. Но тогда как я понимаю оно совсем не будет разбираться в фактах и отвечать на те вопросы, на которые тян ранее мне в переписке отвечала. Хотя ты говоришь, что в фактах оно и не может разбираться. Ну это печально, в идеале я бы хотел, чтобы он мог отвечать на конкретные вопросы о моей тян, типа как она любит проводить свободное время и какую еду предпочитает. Ты немного путаешь про факты(историю) и образ. Какая еда нравится, или как любит отдыхать - это образ. А вот, скажем, когда вы последний раз в ресторане были, и что она там ела - это факт из истории. Они менее значимы для образа - т.к. конкретика в отдельной ситуации. А нужно в первую очередь собрать и задать "общие шаблоны" поведения - это и сделает образ похожим. И только потом уже конкретными фактами модель докармливать.
>>1283575 > что переходники для PCIe3 несовместимы с PCIe4 и выше Шта? > то есть работать-то они работают, но на скорости PCIe3 Как заявлено - так и работают. 4.0 никто же не обещал.
>>1283573 Я? Оправдываю? Мне казалось - чел спрашивал, что купить, чтобы собрать сфп. Исходя из этого был и ответ.
> если я вывожу подальше и нужно подлиннее? Делай что хочешь. Еще советы давать чтобы потом такое читать.
> Ryzen AI MAX+ 395 Неоднократно видел как упоминали способность этой хрени с 128гб оперативки на борту давать вменяемую скорость инференса с 70B моделями.
А собственно с хуя ли у AMD до сих пор нет десктопного CPU с таком же функционалом? Чем они думали блядь, зачем было такое вставлять мобильной помойке?
>>1283604 >А собственно с хуя ли у AMD до сих пор нет десктопного CPU с таком же функционалом? Чем они думали блядь, зачем было такое вставлять мобильной помойке? Чел, это в том числе и десктопный камень. Он x86-64, не ARM или еще что-то особенное.
>>1283583 >Я? Оправдываю? Ну да. То есть ты молодчина, что расписал, что нужно брать. Но вот в ответе на мою подколку (подкалывал я само собой китаёзу, а не тебя) ты почему-то начал отвечать, что это норма и так и нужно. Нахуя? А главное зачем. Лучше бы длину написал. Длина кстати 60см скорее всего, у меня по крайней мере такой. В описании написано 70, лол, но это пиздёж продавца, за что ему хуёв уже напихали и не раз (а ему похуй). >>1283619 А смысл? Там 4 канала памяти. Если ты его урежешь до двухканала, то потеряешь все его преимущества. То есть это нужен новый сокет, чипсет и серия материнок.
>>1283639 Ну так а зачем его в АМ5 запихивать? Потребителю поебать, на каком оно сокете, если оно решает проблему, единственное альтернативное решение которой - усраться с покупкой дорогущих видеокарт. Купили бы новую материнку как миленькие, особенно если б это еще нормально работало вместе с имеющейся видеокартой.
>>1283642 >особенно если б это еще нормально работало вместе с имеющейся видеокартой Там 16 линий псины. Всего, не только на видяху. Так что видяха уже изначально в полутыквенном состоянии, так как системный NVME никто обижать не будет. Короче это весьма нишевое устройство, и я не вижу смысла амудям его тащить на десктоп. Для десктопа есть всякие эпики, бери да покупай (только у тебя денег нету).
>>1283575 Кто тебе такое сказал? Работать будут даже самые всратые, просто если в спецификации кабеля не указана поддержка gen4/gen5 то нет никаких гарантий что оно не будет постоянно сыпать ошибками и замедлять работу. Впрочем на типичных райзерах с озона даже при наличии заявленной поддержки гарантий тоже нет, лол Но может и работать нормально, ошибки решаются скидыванием версии pci-e в настройках биоса. Для задач ллм даунгрейд до 3.0 врядли будет заметен юзеру. >>1283587 Сначала слив на пасту, потом навешивание максимально далеких от реальности ярлыков. Попустись уже. >>1283604 В продаже есть неттопы со 128, скорее всего именно это направление вместе с ноутами дальше и будет. Также на тао есть процессоры отдельно, но материнок на них в тот момент просто не было. Врядли под такую херь будут делать отдельную платформу, в лучшем случае сделают вундервафлю под соккет трипака, которую ты не захочешь. Там еще многое завязано на скоростную распаянную память, на типичном десктопе может работать хуже. >>1283642 Все сведется к тому что реализация подобного решения в "метеринке" и прочему приведет к отпускной цене не особо ниже пачки карт. Вон иди в магазин и прямо сейчас собери себе рабочую станцию на серверном железе, в цену 1-2 5090 как раз уложишься.
>>1283654 >>1283659 Вопрос сводится к тому, может ли амуда повторить эти манятехнологии в следующем поколении десктопных цпу. Я бы купил условный 10950X3D, если он будет решать AI-задачи.
>>1283654 > Кто тебе такое сказал? ты тупой? > > я недавно обнаружил > > я > > обнаружил
сраные китайцы не пишут с каким стандартом писиай совместимы их сраные переходники. когда купил брендовый на писиай4 от кулер мастера, тогда и скорость стала писиай4
>>1283659 >Это ж практически прямой конкурент макам по железу Только у маков 8 каналов (вроде как, могу спиздеть) с низкими задержками, ибо распаяно. Плашками такое заебёшься делать. >>1283660 >эти манятехнологии в следующем поколении десктопных цпу Нет, в десктопе в следующем поколении будет те же 2 канала, ибо сокет не изменится. И далее скорее всего тоже. >>1283679 У тебя стоит на десктопном проце, в котором 24 свободных линии. Втыкай-не хочу.
>>1283661 Трудно сказать, сейчас это выглядит как вектор для специализации. Под сетки, по большому счету, не нужны ни по настоящему шутсрое видео, ни много слотов под накопители, ни даже совсем уж топовая считалка. А нужно много быстрой памяти, NVME чтоб модель загрузить быстренько, да еще максимально шустрая сеть - если хотим хорошо маштабироваться в кластер. Очень может быть, что перед нами прототип нового SOHO устройства - "AI-top", условно говоря. Типа нет-топов, но с заточкой исключительно под нужды сеток. Судя по цене - кому надо именно это, вполне поведутся, т.к. оно вполне будет наращиваться горизонтально. (Купил второй - влезла сетка 2х больше, и т.д.)
>>1283686 >>Это ж практически прямой конкурент макам по железу >Только у маков 8 каналов (вроде как, могу спиздеть) с низкими задержками, ибо распаяно. Плашками такое заебёшься делать. Да похрен, если честно на тех-подробности. Вопрос - в окончательном результате, а не как он достигнут технически. Если на ЭТОМ сетки будут шевелится так же хорошо как на том маке, но дешевле (или хотя бы пропорционально цене хуже) - это будет в любом случае вин для любителей сеток. И наоборот.
>>1283654 То есть тебя, даун, не хватает даже на то, чтобы у корпосетки уточнить то, в чем ты вообще ни бум, а теперь ты рассекаешь с шлейфом из говна, как обосравшаяся собака? Ясн.
>>1283699 >Вопрос - в окончательном результате, а не как он достигнут технически. Магией что ли? Всё на технике и работает, как бы. Без техники ты на кремнии только 2+2 сможешь посчитать, взяв 4 камушка.
>>1283584 Запускаю на этом. Скорость генерации на дипсике начинается с трёх токенов, на кими четыре с небольшим. Чем больше контекста набирается тем медленнее само-собой.
>>1283660 Это технически невозможно по озвученным причинам. В hedt платформах - да, и там уже все есть. Может быть только если появится что-то промежуточное между десктопом и типаком/зеон-в. Или учитывая изначальную компактность и особенности разводки быстрой памяти - скорее сделают ллм ускоритель в pci-e слот с таким железом, там и gddr память будет доступна. >>1283726 Другие мое поменьше пробовал же запускать? Другие выкладывали, но там с многоврам, интересно как на чисто процессоре с мелкой карточкой. >>1283702 Ради мусора типа тебя нет смысла что-то делать кроме написания твоего места. Особенно имея доступ ко _всем_ корпам в оригинальных апи без прослоек.
>>1283759 Ляя какой же мусор. Написал ерунду лишь бы спиздануть@порвался когда на это указали@старался управшивая ллм помочь накатать полотно оправданий@порвался второй раз когда над твоими потугами посмеялись@очередной разрыв когда сам не смог забайтить Отборный мусор из палаты мер и весов. Без оскорблений и аутотренировки про то что плохой собеседник а не ты инфаркт хватит?
>пробуешь десятки моделей >пишешь ебанутые промпты >вставляешь васянские промпты >тестируешь неадекватными реквестами >приходишь к выводу, что 8B Stheno FP16 пишет лучше вчетверо жирных моделей. Нахуй я живу вообще.
>>1283714 >Магией что ли? Всё на технике и работает, как бы. Без техники ты на кремнии только 2+2 сможешь посчитать, взяв 4 камушка. Передергивать обязательно? Скорость обмена с памятью можно разными путями получить. Можно шину расширить, можно частоту поднять, можно каналов добавить. У этих предполагается LPDDR5x - расшитая и на 8000Mhz.
>>1283785 >Можно шину расширить, можно частоту поднять, можно каналов добавить И всё это требует новых железок, а что-то в принципе не сделать без распайки проца и памяти.
>>1283754 >Другие мое поменьше пробовал же запускать? Пробовал запускать Qwen3-235b Q5_K_XL и могу сказать что работает он не на много быстрее, в районе пяти токенов генерация.
>>1283764 Я, тащемта, все правильно написал, или ты уже ослеп от секломоя, дебс?
>посмеялись Я только тебя одного кормлю, реально ослеп.
>Аутотренинг Маняпроекции, спешите видеть.
>Без оскорблений С них ты заехал, трясун. Впрочем, что взять с зеленого, тоноко траллирующего на двачах из-за мамкиной спины. Ладно, прощаю. Только башку свою сальную помой, это надо делать чаще одного раза в месяц.
>>1283858 Чел, ты написал бред, почему это бред есть даже в твоей пасте где ты лмм мучал. Ты и так это уже понял но можешь спросить ее объяснить. А по тому как исходишь на говно и стараешься видно насколько ты глуп и маргинален. Столько усилий ради прикрытия полыхающей жопы от факта несогласия с неуместным утверждением. И после этого называешь кого-то трясуном, ультимативный кринж.
>>1283872 Ты ответ Гемини точно читал? Прото, если собираешься что-то нормально обосновать, тогда лучше ещё раз перечитай, иначе можешь и не утруждаться отвечать. Ясный пень, блин, я не буду в двух абзацах досконально разжеввывать. Да и никто не будет, кроме пары местных анонов-самаритян, которые понимают это сильно лучше. И то, сколько не видел подобных постов, (и я не о своем, если что) обязательно вылезет какая-нибудь блядь и начнёт кидать в человека говном. А кринж это протекающие из асиг животные, которые кроме как срать уже а принципе ни на что не способны.
Сначала вы спорите и оскорбляете друг друга, а потом у вас случается страстный и жаркий бой на ножах и Аска, увы, протыкается (ей не привыкать (сорри за спойлеры))
>>1283905 Так какая тебе была Ева в 12 лет, але. Только дисней про доброе и вечное.
>>1283906 >можно было даже не в СССР родиться Не знаю, старше 40 а то и 30 жизни нет. База жизни. А все остальное, включая сидение в этом треде, уже копиум.
>>1283920 Какой тебе нахуй возрастной рейтинг в 90х, порридж? Это сейчас вы все соевые кастрированные куколды, падающие в обморок от слова "ниггер", а нас растили свободными мужчинами.
>>1283893 > Ты ответ Гемини точно читал? Ты рофлишь? Зачем? Кто в здравом уме будешь читать этот трешак? Хватило пробежаться по первым абзацам и увидеть как сетка опровергает тебя, ищет формулировки чтобы выполнить запрос на согласие и путается в этом. Тут даже промпт и прошлый чат угадывается. Если бы хотел дискуссии - отвечал бы нормально по существу. А скидывание подобного это просто дабл бинго: натаскивание ерунды где сам не можешь ответить, апелляция к ллм и неудачная попытка загазлайтить саму сетку. Как жаль что чтобы понять свою глупость и фейлы нужно обладать каким-то зерном разума. >>1283895 Бля вот с Асукой лучше с Мисато я бы поспаринговал, в граплинге без ножей офк, быстро переводя в кумпартер. > сорри за спойлеры) Ну содомит.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: