В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>911709 Да... Я вчера с этого сгорел https://www.invoke.com/post/invoke-commits-to-generative-ai-principles-to-prevent-child-sexual-abuse Ну реально бля, какой же это непробиваемый уровень тупости, настоящее насилие над детьми, типа тех маргиналов, которые своих детей снимают, чтобы на бухло да наркоту заработать, кормятся с людей, которые готовы им платить за контент. Как только будет модель, которая может делать тот же контент БЕСПЛАТНО и ЛУЧШЕ и МНОГО, настоящее насилие над детьми ПРЕКРАТИТСЯ МОМЕНТАЛЬНО. Это математический факт нахуй, это реальность. Даже те же художники, которые рисовали на заказ всякую ебанину типа копрофуррей, уже теряют в доходах, потому что им есть замена. Это работает именно так, как же эти тупые дегенераты не понимают. Ну а хули, им на реальных детей походу насрать, главное повесточку отработать.
>>911369 → Вроде как Флюкс в Комфи появился на старте. Хотя, вроде он и в автоматике работал… хз, не сильно шарю за рисовалки.
>>911383 → Бля, пчел, тебе прямым текстом сказали, что рофл, а ты со второго раза не выкупил. =)
>>911475 → Ты читаешь одним глазом, и тем между булками, да? Просто пиздец. Я в ахуе, какие тугие люди-то… Пишешь с сарказмом, начинают спорить, мол неправильно говоришь… Ебанутие… Мне надпись сарказм наклеить тебе на окно?
>>911558 → Ну, квены именно что умные. Они не точились под рп или сторителлинг. К сожалению. А тюнов на данный момент нема, вроде как.
>>911656 У него 1 секунда, у тебя 16? Или у него 10 минут, у тебя 10 минут с четвертью? Ну, ты уточни. =)
>>911824 Я даже читать не хочу. В этом направлении все плохо, эти инициативы прут и прут. Ллама недоступна в ЕС, китайцы цензурят топ-1 и так далее. Законы-законы, йопта. В таком мире живем. =(
>>911824 Наоборот понимают. Это ведь так сразу трех зайцев: страшную пугалку и повод чтобы ограничивать опенсорс/конкурентов укрепляя монополию, повесточка во все поля, и удовлетворение внутреннего эстета ибо именно эти нелюди являются главными потребителями подобного контента, топят за натуральщину и упиваются именно ментальными страданиями а не простой сексуализацией.
>>911824 >Я вчера с этого сгорел Я горю с 2022 года уже спасибо за ссылку, добавил в свою коллекцию маразма. >>911846 >и удовлетворение внутреннего эстета А разве у них не свои личные острова с подвозом лолей по первому требованию? >>911865 >в хуй пойми каком ссетинге В эроге же. И похуй, что до этого был РП в космосе.
>>911824 Если я не ошибаюсь, это те же самые люди которые "любовь есть любовь" топящие за снижение возраста согласия и прочего мракобесия. Забавно тут выходит конечно. Насилие над реальными детьми, типа всякой ебаной гормональной терапии и вариаций кастраций - можно. Ебля математических функций по наложению одной матрицы на другую - низя. Тут по любому что-то не чисто, это по-любому Альтмановская затея по тотальному контролю за сферой и снижению конкуренции.
"to prevent child sexual abuse" - вордчойс конечно пиздатый. Мангак японцев походу всех надо в концентрационные лагеря сослать за их чайлд абьюз в виде рисованных лолек во всех возможных сценариях. Они же как живые пиздец, вы глаза их круглые как тарелки видели?
>>911978 Два кварца совсем дико звучит, но в треде точно есть люди, которые их гоняют. Так что определенно 2 бита от 34B лучше чем 6 битов от 12B. >>911986 DeepL очевидно же.
>>911865 Описывай сеттинг в карточке, лол. Меня больше огорчает, когда персонаж задаёт буквально те же вопросы в третий раз, и ты уже с грустной улыбкой говоришь "дорогая, у тебя Альцгеймер".
>>912020 Загружается она, не мешай ей. Открой блять диспетчер задач и посмотри по нагрузке, не будь маленьким нахуй. Если бы оно не работало бы словил шатдаун и терминал бы закрылся сам по себе.
Заходишь в расширение транслейта в таверне, там выбираешь DeepLX, жмешь на значок цепочки, пишешь туда этот адрес в таком формате http://192.168.1.2:1188/translate
>>912096 Яндекс контора пидорасов у которых даже места жительства сливаются, а твои логи прям на стол товарищ майору поставляют не сомневайся. Чет вспомнил случай когда чел заяндексил как сделать бомбу или типа того и его повязали быстренько
Я не понимаю как больше всего людей юзают какие то 2b модели я на 12 то уже всё увидел думал нереальные аттракционы щас начнутся на один сценарий по тысячи вариантов а пососал хуйца и вижу одни и те же слова одни и те же ситуации думаю жизнь есть тока на 70b
>>912136 Я недавно https://openrouter.ai/models/nousresearch/hermes-3-llama-3.1-405b:free попробовал, хуйня хуйней. (Персонаж каждый второй абзац начинал с "Но давайте вернемся к нашей теме") Решают презеты и карточки/инструкты. Ну и вообще я эту тему на форче поднимал, сошлись на том, что если ты хуевый писатель, то ответы ты тоже будешь получать хуевые. Читайте книжки, развивайтесь, пацаны.
>>912148 Когда уже йоба нейронку натренируют чтоб такую шкилу затыкать Ты сам в жизни не заговоришь на уровне носителя и в среде будешь бубнеть на своем суржике искренне веря что знаешь язык долбоеб
Быстрый вопрос: 4090, 32 ОЗУ из которых 12 перманентно забиты неясной хуйней, ссд 4Тб. Смогу на этом поднять одновременно и более-менее модельку для текста, перевод и картинки под таверной? Или я слишком много хочу?
>>911865 После ебли (или в процессе) делай суммарайз и отключай часть сообщений. >>911876 > А разве у них не свои личные острова с подвозом Перспектива удорожания/усложнения подвоза, да еще возможность натолкнуться на ненатуральный контент когда не на острове им не нравится. >>912175 > одновременно и более-менее Только с выгрузкой в рам. Норм модели - гемма и коммандер, они полностью забьют память. С 12б останется место под sdxl но там есть пики потребления во время декодирования. Не то чтобы оффлоад - что-то страшное, просто придется как минимум сделать обертку, которая будет по апи слать команду на выгрузку модели в лаунчер.
Аноны, а для запуска нейронок (любых) на CPU, проц AMD лучше брать с 3DX или наоборот без него? Без 3DX можно разогнать память DDR5 гораздо сильнее ведь. Есть какие-то мнения на этот счет?
Топ А ставить 0.1 или больше? А то чего-то на реддите кто чего ставит(кто топА/топП, часть с мин П). Как я понял мин П это семплер поновее, но чего-то без топ А он работает ну оч паршиво. Но вместе с ним- отлично. Кажется что выдача становится очевидно лучше чем на топА/топП.
А так же чего там по анализу речи? Когда там можно будет бухтеть с ЛЛМ через голос?
>>912328 Кэш слишком мал, если проц не днище то упирается в псп рам ибо для каждого токена нужно полностью прогнать операции через все веса. Можно почти напрямую получить перфоманс в генерации если поделить размер модели на псп. А вот для обработки контекста уже нужен тензорный модуль, потому такие различия на гпу разной мощности и процессоре. >>912334 > Когда там можно будет бухтеть с ЛЛМ через голос? Примитивное - whisper подключаешь и бухтишь. >>912344 Чето неистово проорал с формулировок. Младшая кум модель, сука! >>911638 (OP) > • Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models Линки на обновившегося коммандера нужно добавить с отзывом что местами лучше прошлого, местами ведет себя странно, все ок с потреблением памяти на контекст и скоростью.
>>912353 >Линки на обновившегося коммандера нужно добавить ХЗ, как это нормально оформлять. Обновляется так то не только командер, и если каждое обновление отдельно вписывать, да ещё и с отзывами по каждой отдельной версии, то список рискует превратиться в шизопростыню. Как вариант, можно просто обновить ссылки до последних версий, а кому нужны более старые, пускай копаются в репах.
>>912354 Просто голос в текст переведет, есть нюансы с разбиением на чанки и прочим. Хз есть ли готовый вариант, с ptt сделать довольно легко. >>912371 > ХЗ, как это нормально оформлять. Под коммандером добавить линк на новую версию с кратким дисклеймером. А уже для обновлений файнтюнов стоит отметить на какую версию были актуальны отзывы и оставить линк на нее, а рядом на финальную, если не лень будет. Можно и просто тупо на ласт обновить, но тогда там могут быть нюансы с неудачными версиями и т.п.
>>912328 Нейронкам на этот кэш вообще похуй, выигрыша от него ноль. Если брать собираешься с расчетом на какой-то толк для нейронок, то про одночиплетные 800-е и ниже даже не думай, только 7900x/7950x/9900x/9950x.
Сука АНОН не личнуй Я АУТИСТ! Я купил себе 4090 и НИХУЯ НЕ ПОНИМАЮ какую модель потяну а какую нет. Одни говорят что ставь мол Meta Llama 3 Instruct 8B Q5_K_M а другие модели непотянет. Другие говорят что это хуйня и ставь жирноту.
>>912510 Если модель больше не твоей видео памяти модель если больше смотри тут реально дяди с 48 гигов оперативы и видео памяти так что они 70 B модель прогружают чисто в видюху я например 13 B не запущу ответ более 190 секунд
>>912510 Размер в плане указываемого или занимаемого? Указываем сколько влезает, размер занимаемый собственно от того сколько указываем и квантования именно контекста, рот при удлиненнии нелинейный.
>>912146 Прости, но твоя боевая картиночка лишь показывает, что ты обосрался.
Все сообщения на месте, можешь перечитать, ничего не редактировалось — сарказм на месте, понимающие люди на месте, это у тебя потекло, сочувствую.
>>912175 Ну, если не быковать и катать стаблу 1.5 с парочкой лор, то на модельку останется вполне себе бодрые 18~19+ гигов, так что даже хорошие текстовые модели можно будет поднять.
>>912193 Очень жаль, что этот способ не работает с нормальными сертификатами. Криворукие уебаны, сэр.
>>912272 Зачем сдхл, если обмазанная лорами сд15 рисует не хуже, а до понимания промпта флюкса сдхл как до Луны? Чисто ради разрешения?
>>912495 Наибольшой размер что тебе доступен в нормальном кванте ~30b. Накатывай гемму 27 или коммандера 35, 4-5бит exl2. Можешь 20-24б в 6 битах или что-нибудь поменьше в любой другой. Пока модель помещается в врам - о жору даже не думай шквариться. С жорой можешь попробовать 70б с оффлоадом половины на проц, но там такая скорость будет что не захочешь. >>912497 Вредитель >>912510 От того какую циферку ты выставишь при запуске, разумеется если оно поддерживается моделью. Чем больше выставляешь тем больше памяти оно жрет. >>912620 > если обмазанная лорами сд15 рисует не хуже Сильное заявление. Трудности при позах сложнее "стоит" или хтонический треш и отвратительная реакция на промт в фуррятине. Думать о том правильно ли примазались лоры во время автоматической генерации, также как и постоянно их перетасовывать - нахер. По разрешению с учетом дальнейшего апскейла у XL никакого преимущества над 1.5 как раз нет. > Вообще-то, кум — это сосед, близкий друг что родственник Ебаный ты содомит, теперь дошло в чем суть его вопроса, ор.
>>912744 Так Фокс продались Диснею. Теперь там подчистили от правых всё, они сейчас как и остальные леваки пытаются топить Трампа. Это теперь левая залупа, правые их из своих выписали. Гнездо правых - это твиттер сейчас, в котором теперь правая желтизна льётся, а всех несогласных в пособников фейк-ньюс записывают, лол. Чего только правый перфорс с котами стоит, из-за которого леваки рофлят без остановки уже месяц.
>>912334 ТопА и минП работают очень похоже, отрезая хвост в зависимости от вероятности максимально вероятного токена, только у топА зависимость квадратичная, так что он будет отрезать поменьше для пологих вероятностей. По сути, топА нужен, чтобы обезопасить себя от вытягивания мусорных токенов при крутых кривых с большим максимумом. Например, топА 0.1 для ряда токенов 80%, 10%, 5%,... выкинет всё меньше 6.4%, а для пологого распределения вида 20%, 20%, 15%,... выкинет только токены меньше 0.4%, т.е. почти не подействует. Если ты херанёшь его с минП 0.1 (он для указанных ситуаций выкинет всё меньше 8% и 2%, соответственно), то от топА толку будет почти нисколько, всё равно что просто минП чуть больше возьмёшь. Я бы сказал, что их имеет смысл совмещать, только если планируешь брать минП сильно меньше топА. Сам я использовал топА с tfs по логике, что сначала гарантируешь откидывание мусора при крутых кривых вероятностей, а потом уже режешь адекватный хвост, если кривая не такая крутая. Брал топА 0.05-0.1 и тфс 0.87-0.93, подгоняя в зависимости от выдачи. Но сейчас когда подумал об этом, понял, что тоже смысла немного, на самом деле, потому что тфс сам большой хвост отрезает, когда кривая крутая, т.е. выполняет работу топА. А вообще теперь же можно посмотреть работу сэмплеров тут https://artefact2.github.io/llm-sampling/ Хотя примеров хотелось бы побольше, конечно.
>>912844 А куда скачивать? В таверну? Если есть инструкция то ткни носом В общем как впиздюхать ее чтобы таверна увидела? А системный промпт прописать можно внутри самой таверны как я помню
>>912856 Если все работает по дефолту - оставляй по дефолту. А вообще темплайт инструкта ты ставишь тот, на котором тренировалась модель, а системный промт можешь менять по желанию. Остальные поля лучше не трогай - сделаешь только хуже.
>>912856 Надо, выстави чтобы типа пикрел было. По дефолту ты кормишь сетку вообще не понятным ей форматированием и поведение почти всегда будет более всратым чем если правильно настроить. Темплейт скидывать по адресу data/default-user/instruct хотя возможно перетаскивание на пространство таверны сработает. >>912960 Маловато, конечно. Можно будет немного подождать ти/титана с 48, если не дропнут то уже покупать как начальная цена стабилизируется.
>>912797 >>912808 Там на самом деле всё сильно хуже Диснея. Фокс Корп выкуплен жидами, владеющими The Times и WSJ. Там теперь не левые/правые, а чистые жиды, топящие за любую актуальную повестку.
Пришла идея оцифровать одного известного политика и продать его цифровую копию соратникам. Это реально? Можно ли собрать тысячи часов видео, автоматически транскрибировать и скормить модели сделав цифровую копию покойного? А вообще довольно интересно что теперь человек умереть не может, по сути если чел публичный можно собрать все его публичные выступления книги и статьи и новости о нем и сделать модель. У людей типа пыни там ваще должно идеальная может получится. По сути такую цифровую копию можно оставить жить и править вечно. Ведь ответы на любые вопросы оно будет давать точ в точь как оригинал. А если еще и сделать робота с внешностью оригинала то ваще будет тоже самое. Кто знает может быть страной уже правит цифровой клон
Что можно накатить не жирнее 27b без цензуры? Хотя бы с аблитерацией. Если знаете, какая модель может во всякие мрачные темы лучше остальных — ещё лучше.
Немного не в теме, но вроде бы то, что в шапке было было, я видел уже.
>>913092 Я хз что значит "натренированная на датасетах от Claude Sonnet и Opus" но звучит хайпово, а мини версия от какой то большущей еще хайповее Почему ты выбрал последнюю
>>913083 Бери любую они все говно примерно похожи. По крайней мере я гонял шесть разных файнтюнов на немо, разницы особо сильной не заметил. К тому же немо сама по себе перформит неплохо, файнтюоновую версию накатывать на нее не обязательно.
>>913097 >Я хз что значит "натренированная на датасетах от Claude Sonnet и Opus" Ничего не значит. Щас почти все файнтюны пичкаются синтетикой с клавдии. Кому-то оно нравится, кому-то нет.
>>913079 Между дрищенскими моделями уровня 13B и жирнотой от 34B дырка, которую никто не хочет заполнять. Там вроде недавно маленький мистрал смолл вышел на 22 лярда - лично не пробовал, но на мистралях цензуры всегда был минимум, так что это твой единственный вариант.
>Хотя бы с аблитерацией. Она ничего не делает, буквально. Расхайпленная подвальная технология которая чаще просто ломает модели.
>>913119 Схренали там минимум цензуры. Самая противная цензура которую я знаю. Самый минимум цензуры если так говорить то это у опуса, там минимум. А в мистрали много скрытой цензуры и противный датасет.
>>913097 >Я хз что значит "натренированная на датасетах от Claude Sonnet и Opus" Это значит что перед тобой васянский тюн, натренированный на синтетике - такую парашу нужно обходить стороной.
>>913119 >Между дрищенскими моделями уровня 13B и жирнотой от 34B дырка, которую никто не хочет заполнять. А зачем ее заполнять? 27b-35b прекрасно работают на 12гб гпу в третьем-четвертом кванте. Для тех у кого меньше 8гб - есть 7b-14b модели.
>Она ничего не делает, буквально Проиграл
>просто ломает модели Ну-ка давай сюда перечень моделей, которых "сломала" аблитерация, фантазёр.
Для актуальных рп моделей в каком формате лучше с точки зрения экономии токенов и понимания моделью лучше описывать ботов-персонажей - натуралистичный текст, (псевдо)код, с простой разметкой, с тегами (какими?), гибридный подход?
Отличается ли подход при описании ботов-гейммастеров и сторителлеров, предствляющих из себя локацию либо сеттинг от третьего лица?
>>913167 По моему опыту между 2 и 3 почти нет разницы в выдаваемом материале но 3 просто писать легче лол. Всех своих чаров только так пишу. Типа ((Чар)) is a %. ((Чар)) is thinking %, but % and %.
А 1 варик ну... Хуй знает что там в модель намешано. Мб ты на 30% повысишь адекватность а мб просто токены впустую сжег ив выдачу насрал.
>>913164 >Это значит что перед тобой васянский тюн, натренированный на синтетике Другого особо и нет. Не синтетические мизерные датасеты собранные по сусекам в данном случаем ничем особо не лучше. И один хуй все эти тюны в 95% случаев делаются с косяками и проебанными инструкт темплейтами.
>>913167 >Для актуальных рп моделей в каком формате лучше с точки зрения экономии токенов и понимания моделью лучше описывать ботов-персонажей Нормального ответа никто не даст, до сих пор все срутся что лучше понапридумывав с пару десятков схем. И оно один хуй больше от моделей, их размеров и уровня конкретных васяно-тюнов зависит. Имхо: чем больше модель тем вероятно лучше переваривать будет разметку и гибридные схемы. У мелких часто не хватает мозгов на одновременно на обычный текст и структурную хуйню.
По-хорошему под карточки вообще тюнить модели тоже было бы неплохо, но удачи датасеты сделать.
>>913164 >27b-35b прекрасно работают на 12гб гпу в третьем-четвертом кванте Поспорил бы основательно, но впадлу. В q3 уже часто деградация по отдельным аспектам идёт до уровня 12b. Хз как многие тут не замечают, но как хотите. Да и по перфомансу из-за невлезающего нормально крупного контекста удар сильный.
осознайте степень обдиралова производителей GPUАноним10/10/24 Чтв 09:07:13#129№913181
>>913167 Стандартный профиль без дурацких скобочек и {{char}}ов на каждой строчке это дефолтный вариант - меньше всего токенов и любой сетке понятно. Какие-то изъебства нужны если ты либо хочешь повлиять на стиль и формат аутпута, либо делаешь что-то на пределах возможностей сетки.
>>913167 Моя самая удачная карточка из всех это w++ Вроде, итт писали, что это хуйня, но на практике остальные частенько не делают того, что в карточке прописано. А, ну и стандартный промпт тоже не очень, нужно редактировать.
>>913187 А с чего ты взял, что 2.5 килобакса это "250к за 5090"?
>>913184 То есть примерно как в этой карточке? Минимальная разметка наподобие резюме или профиля, перечисление характеризующих черт.
Также слышал что надо максимум информации выносить в лорбук, а в карточке персонажа оставлять ссылки на эту инфу... а она тогда всё равно в контекст же грузиться сразу будет как будто прямо в карточке и написана?
Решил затестить open-webui, в связи с выходом обновы. В рот ебал олламу, завел с llama.cpp. Если кому интересно то делаешь так и все работает. пик1 Докер я тоже в рот ебал, поэтому ставил по рецепту с их сайта. пик2 Интересно было пощупать их реализацию артифактов, ну что сказать - работает. пик3 Питон можно запускать кнопкой и работает он на каком то странном дистрибутиве, Pyodide. Графики отображает, ткинтер например не работает. пик 4 Ну и мермайд (рисование графиков и схем) сделан удобнее, в таверне реализация кривая.
Не так удобно как таверна в плане рп и настроек вывода, но если для работы то с пивом потянет, даже на мелких локалках
>>913210 Скажи пожалуйста, у тебя 6 гигов видяха? Иначе я буду пиздить тебя палкой за q4_K_M на 7b модели, которой плохеет уже на q6. Там разницы по памяти — пара гигов. За шо!..
>>913235 >Скажи пожалуйста, у тебя 6 гигов видяха? 4 Я обычно 8b кручу или 5kL, тут для скорости и проверки работоспособности взял 4км Думал вобще 4кс попробовать, но решил что это совсем мрак
>>913191 >Курс? У 4090 msrp 1599 баксов. На амазоне самая дешёвая сейчас 1930 баксов. Даже при том, что в начале следующего года выйдет следующее поколение, то есть никакого ажиотажа на 4090 уже нет, она всё равно дороже рекомендованной цены и нет никакой возможности купить её за нвидиевский ценник. И тут выходит 5090 с рекомендованной ценой в 2500 баксов. На амазоне будут самые дешёвые 3200+, лол. А в доставках не ниже 3500$.
А самое хуёвое то, что китайцы наловчились пересаживать чипы 4090 на свои френкештейн-платы и все маркетплейсы завалены новыми pcb от карт со сдутыми чипами и памятью. Это значит, что б.у 4090 будет гораздо меньше, чем могло бы быть.
>>913195 > То есть примерно как в этой карточке? Примерно, но стоит выделить профиль # заголовком/разделителями теми же что и в остальном промпте использются. Для сеттинга, локаций и другого - та же история > Также слышал что надо максимум информации выносить в лорбук, а в карточке персонажа оставлять ссылки на эту инфу... а она тогда всё равно в контекст же грузиться сразу будет как будто прямо в карточке и написана? Записи лорбука добавляются в промпт если выполняется условие, чаще всего это ключевое слово в последних Х сообщениях, поэтому ссылаться на нее не стоит.
Сейчас есть 4070, кручу на ней 24В на 4 квантаж кое как. Хочу какой нибудь дешевый паскаль к нему взять, чтобы хотя бы 6гб видеопамяти добавить. Какие подводные?
>>913119 > технология Эээ че? Это разве не просто всратая тренировка заготовленным датасетом? >>913131 > Самый минимум цензуры если так говорить то это у опуса Не, соевичок каких поискать. Конечно, можно поломать жб и всяким, но всеравно может отказывать и аположайзить в случае какой-то жести или поругания меньшинств. > в мистрали много скрытой цензуры Да ну, просто положительный байас и промтопроблемы. То что без условий оно считает чат позитивным это нормально.
>>913167 1 норм, только не добавлять столько воды и пурпурной прозы а писать прямо и лаконично. 3 - пиздец, можно задать некоторые вещи через json/xml но страдать подобной трешаниной - диагноз. База - содержательный натуртекст с некоторой структурой. Упарываться графоманией можно в примерах диалогов, а карточка должна быть без лишнего треша. > Отличается ли подход при описании ботов-гейммастеров и сторителлеров, предствляющих из себя локацию либо сеттинг от третьего лица? Разные примеры и инструкции могут быть, в остальном подход един. >>913187 Увы, это не так работает, за 250 было бы неплохо. Может после первого хайпа упадет до такой. >>913188 > 4090 дешевле 220 без скама не найдешь От создателей > 3090 дешевле 90к на вторичке не купить >>913260 Если бы без пошлины то можно было бы задуматься. Но сейчас и 48 уже мало.
>>913273 >P104-100 Вобще хороший совет, но мне смысла нету, влезет только мелочь, да и вобще лень возится с охладом драйверами питанием и другой хуйней 7b щас в пролете, 12-14b норм уже по мозгам, но это уже под 16гб врам минимум. А если хочется работать с большим контекстом то и все 24-48 отдай. О 32 или 72 лучше не думать, это что то на богатом
К счастью у меня тут сборочка на ксеоне есть, 10 токенов в секунду на той же Qwen2.5-Coder-7B-Instruct-Q4_K_M выдает спокойно в начале 3b летает на 17-20 на 8 кванте псп памяти под 60, это значит я и квен 32 в 4 кванте кручу с 2-3 токенами в секунду, маловато, но сойдет Сетки на 10 гб как раз где то 5 токенов в секунду генерация, на скорости чтения Конечно хотелось бы все 30-50, но денег на такое дорогое хобби у меня нету (да и времени тоже)
>>913273 >звучит как в полтора раза больше 5090 и по цене как две 4090 но в одном слоте. В любом случае, своей цены не стоит.
>>913306 >Если бы без пошлины то можно было бы задуматься. Карго доставка без пошлины, лол. А больше 48 гигов это уже под обучение, смысла нет никакого крутить сетки жирнее 70b
>>913331 >>913190 >>913182 > своей цены не стоит Вы понимаете что под вас никто подстраиваться не будет, ждуны блять? Так будет всегда и везде, хорошие вещи стоят дорого хули ныть зарабатывай больше
>>913306 >> 4090 дешевле 220 без скама не найдешь >От создателей >> 3090 дешевле 90к на вторичке не купить Только если прямо с рук с возможностью перепроверить всё на месте. И то наебывают и так. Если тут кто-то готов рисковать такими бабками с неиллюзорным шансом их проебать на скаме со вторички ради того чтобы подрочить писюльку на нейродевок, то могу только посочувствовать.
>>913338 Я к тому, что за 400к соберу что-то интереснее, чем печка с 48 гигабайтами. Может, будет и чуть медленнее, но мне похуй, пока есть 1к символов в минуту или больше.
Посмотрите, какую красоту пилят китайцы на заказ. Алсо, помню как-то в б говорил на тему расширения памяти на видюхах хуанга, ну вот, все возможно короч.
>>913331 > В любом случае, своей цены не стоит. Стоит, это же разожранная a6000ada или L40, только с более быстрой памятью, хорошей охладой и огромным паверлимитом. Вся проблема в том что подвальная китайщина хз сколько проживет. > это уже под обучение Именно, катать ллмки можно и на 3090. >>913339 Волков бояться - в лес не ходить, пока так будешь трястись, инджоеры уже в который раз перепродадут и на что-то новее пересядут, а ты так и будешь бояться и забавлять > такими бабками лол.
>>913396 >> такими бабками >лол. Так если эти суммы для тебя лол, то ещё больший вопрос нахуя как нищук по вторичке искать среди скама что-то. Пошёл в рознице купил и всё.
>>913301 Exl2 имеет меньше багов, удобнее, быстрее порою заметно (до двух раз, как пойдет), лучше всем, но по-немножку.
>>913311 А я свою сборочку на ксеоне обновил и так и не потестил, на работе комп стоит. Надо будет добраться и посмотреть, что там нонешние квены выдают, да.
>>913338 >лол гайс просто зарабатывайте больше, в чем проблема? Нищука превозмогателя видно сразу. Ты таких денег в жизни скорее всего никогда не видел, но почему-то думаешь, что пол ляма за десктопную видеокарту это нормально. За 400к можно спокойно 4 3090 взять и в хуй не дуть, а это дерьмище только долбаеб прогретый возьмет.
>>913396 >Именно, катать ллмки можно и на 3090. И на p40 нормально получается. Для вижн моделей или ттс уже не подойдёт, слишком медленно, а ллм покатит. Обучать даже хуй знает. Одной не хватит, то есть zero-3 офлоад и упор в ram, чип будет работать далеко не на полную мощность. Смысл в супермощной карте теряется, пачка более дешёвых, но без офлоада - будут выгоднее. Либо ты берёшь N карт, но скорее всего за цену N карт, опять же, есть более выгодные варианты. Мб, трейн небольших моделей будет на такой карте выгоден, вроде SD или тех же TTS. А дело всё в том, что цена этой карте никак не 400к, но курс рубля падает, спрос на AI растёт и получаем хуяку за щеку.
>>913424 > среди скама Мантра бедолаг для оправдания обладанием отсутствия и боязни действовать. Культивируешь - культивируй дальше, нехуй проповеди вести. > нахуя как нищук А что поделать. Представь себе на вторичке много, например, йоба автомобилей за оче оче дорого, и их тоже покупают успешные люди. Бахвальства на нерациональные решения как раз признак нищука, который так говорит просто потому что рассуждения оторваны от реальности и за ними ничего не стоит. >>913457 > что пол ляма за десктопную видеокарту это нормально Ну кстати, пол ляма за декстопную видюху - пиздец. Пол ляма на игрушку для хобби, которая сохраняет материальную ценность - уже зависит от конкретного перфоманса. > За 400к можно спокойно 4 3090 взять Меньше даже. Брать дорогую йобу чтобы только инфиренсить на ней ллм - странно, уже есть хорошие решения. >>913477 > И на p40 нормально получается. Слишком медленно. Но главное что, как ты и написал, везде кроме ллм юзлесс вообще.
>>913475 Попробуй Гемму-2 9b, с частичной выгрузкой в оперативу. В своем размере - отличная модель, и русским владеет на хорошему уровне. Но будет не то чтобы прям быстро
>>913484 А 4090 на 48 гигов это чип от б.у 4090 на плате от б.у 3090. Двойной б.у плюс рефаб. За 400к. Это брать не надо быть поехавшим, уточни пожалуйста.
>>913484 >б/у видеокарту брать - это надо поехавшим быть Да, зато переплачивать за жадность производителя - вот это пиздец рациональный выбор. Куртка вами уже как детьми вертит, а вы и рады. Нет ничего постыдного в желании сэкономить там, где можно сэкономить. Адекватный человек не будет сливать несколько месячных зарплат на кусок оверпрайснутого текстолита, который тебе впаривают чисто потому, что им за это нихуя не будет, ибо монополия дает преимущества.
>>913495 >>913504 Да я не об этом. Я к тому, что покупая б/у видюху существует очень высокий риск нарваться на нечто полудохлое-прогретое. Вот СЭКОНОМИЛИ вы и купили 3090 с авито за 80к, молодцы, красавчики, наебали систему. А завтра у нее произошел отвал. И что делать будете? inb4: сам прогрею и толкну другому лоху
Да, в магазине оверпрайс, такие цены на видюхи реально неадекватны. Но тут хотя бы есть гарантия, в случае проблем - отремонтируют/заменят. А у васьки с авито что?
>>913514 Это уже тряска на ровном месте. Если ты СЕГОДНЯ взял видеокарту а ЗАВТРА у нее произошел отвал, то это твоя проблема, потому что ты ее не смог нормально проверить перед покупкой. Лох платит и дважды и трижды, как говорится. И любит потом оправдываться.
>>913481 >Мантра бедолаг для оправдания обладанием отсутствия и боязни действовать. Культивируешь - культивируй дальше, нехуй проповеди вести. Да я никого не заставляю в рознице покупать. Хотите бабками рисковать - рискуйте, мне то че, мне вон с розницы на следующей неделе 4090 спокойно доедет, без выискивания где сэкономить 30-50 тысяч за самую бомжатскую модель и тряской что не полезут ли через неделю дефекты или не пришлют ли кирпич в коробке, лол.
>Представь себе на вторичке много, например, йоба автомобилей за оче оче дорого, и их тоже покупают успешные люди. Успешные люди в массе своей такие же дегенераты в обычный жизни по куче вопросов. Которые покупают на вторичке убитое говно после таких же дегенератов, или убивают его за пару лет сами, продавая дальше следующему дегенерату. С кучей таких общался. За хорошие автомобили убитые обидно. Такой себе пример для сравнения. И с тачкой, если ты не дегенерат, то перед покупкой будешь высматривать её вдоль и поперек на косяки и потом решая брать, не брать, брать с проблемами и расчетом исправить их за такие-то деньги, и т.д. Поэтому и говорю про то что, если брать, то с рук и максимальной проверкой сразу что ты покупаешь, и то если не шаришь куда и на что смотреть особенно без возможности взглянуть под охлад можно объебаться. Все прекрасно покупают что за видяхами на вторичку всегда почти идут не от того что много денег и просто такие рациональные, а от того что наскребли по сусекам хоть какую-то сумму, которой только на железо с обскамленной в говнину вторички и хватает. И наслушавшись односложных фраз про то что всё на вторичке покупается за гроши без проблем бегут брать, а потом встревают на бабки, которые несколько месяцев откладывали.
>>913514 >Вот СЭКОНОМИЛИ вы и купили 3090 с авито за 80к Вместо одной 48@4090 за 400к сэкономил и взял две 3090 за 140к. Или четыре за 280. И даже если одна-две отъебнёт, я их просто закину на полку пылиться до второго пришествия и всё ещё буду в плюсе.
>>913220 Говорят списки хороши были до появления инструкт и рп моделей, для моделей которые в немалой степени были тренены на примерах кода. Такие модели и персов в псевдокоде лучше понимали.
>>913514 имплаинг что тебе кто-то реально вернет деньги если с картой что то случится, лол. Это все ширма, найдут причину чтоб тебя нахуй послать с твоей гарантией
>>913514 >тут хотя бы есть гарантия, в случае проблем - отремонтируют/заменят Это было актуально до февраля 2022. А в 2024 что новое параллельноимпортное, что от васянов с Авито - примерно одинаково в плане гарантий, имхо.
AMD готовит GPU с 288 ГБ памяти с пропускной способностью 8 ТБ/с. Компания представила ускоритель Instinct MI325X и рассказала о Instinct MI355X
Данное решение получило впечатляющие 256 ГБ памяти, причём самой быстрой — HBM3E. Пропускная способность тут достигает невероятных 6 ТБ/с, что, похоже, является рекордом для отрасли. Технически же это в основном всё та же модель Instinct MI300X, вышедшая ещё в 2023 году, но с большим объёмом памяти. Тут те же 19 456 потоковых процессоров на архитектуре CDNA 3 и те же техпроцессы 5 и 6 нм. AMD также рассказала об ускорителе следующего поколения под названием Instinct MI355X. Это уже будет новая модель на архитектуре CDNA 4, вероятно, с большим количеством потоковых процессоров. Чего у этого ускорителя точно будет больше, так это памяти — 288 ГБ HBM3E с пропускной способностью 8 ТБ/с! Правда, TDP вырастет с текущих 750 Вт до 1 кВт, и это несмотря на переход на нормы 3 нм.
>>912420 >их core parking Шоэта? >>912423 Нахуя тебе кастрат, когда есть полноценная 4090? >>912449 Это да. С выходом Photoshop 2.5 в 1992 году под винду, который позволил почти что каждому делать нюдсы, наступила... Хотя постойте. >>912488 >Там подоьная хуйня массовая Чем более массовы АИ фейки, тем меньше верят картинкам. >>912960 >пропускная 1792 гигабайта Годно, полутократное ускорение же. >600 ватт Они там охуели? У меня весь БП 750. И надеюсь, что они поставят нормальную стопку разъёмов вместо полёной гари 12PW_что_то_там. >>913049 >теперь человек умереть не может Убил тебя за щеку, проверяй. Дальше тред не читал, мимо ОП
>>913775 >Они там охуели? У меня весь БП 750. И надеюсь, что они поставят нормальную стопку разъёмов вместо полёной гари 12PW_что_то_там. Коннектор на 64 пина и запах плавящихся двенадцати вольтовых проводов. Не ускоритель, а мечта :3
>>913783 >двенадцати вольтовых проводов А представьте, что куртка ёбнет новый стандарт вольт на 48, чтобы не подводить питание шиной толщиной в палец? Как же бомбанёт у тех, кто покупал блоки под новый коннектор...
>>913514 > существует очень высокий риск нарваться на нечто полудохлое-прогретое Если берешь вслепую. Риск есть всегда, в бу железках он выше чем в новых, но ты рисуешь его чрезмерно высоким игнорируя выигрыш в прайсе. > в случае проблем - отремонтируют/заменят Ты, вероятно, ни разу с таким не сталкивался. Это знатная эпопея и нервотрепка вплодь до подготовки судебной претензии/иска на возврат актуальной стоимости а не той выгодной за которую брал, лишний раз делать не захочешь. > А у васьки с авито что? Ремонтируешь за свой счет или покупаешь другую. >>913517 > мне вон с розницы на следующей неделе 4090 спокойно доедет За 220к? Раньше немного дороже покупалась пара. Ну чтож, твоя мотивация и недовольство переплатой понятно, поздравляю с покупкой. > убивают его за пару лет сами, продавая дальше следующему дегенерату То не успешные люди а васяны-понторезы, что пытаются казаться лучше чем есть, беря непосильный премиум в состоянии мертвичины. > если брать, то с рук и максимальной проверкой сразу что ты покупаешь Разве можно как-то иначе? И что ты там собрался разглядывать под охладом, взгляда с торца хватает в 99% случаев. > на вторичку всегда почти идут не от того что много денег Пачка 3090 или одна 4090, что выбрать? и то и другое конечно >>913636 Здесь появляются господа что этим занимались, подожди, может попозже ответят. >>913775 > надеюсь, что они поставят нормальную стопку разъёмов вместо полёной гари 12PW_что_то_там Шансы практически нулевые.
>>913813 Так новый коммандер с нормальным контекстом уже, правда отзывы о нем странные были Игрушки зачетные, рад за тех кто может выкинуть 50к долларов на хобби
>>913828 >Так новый коммандер с нормальным контекстом уже Да, я чутка опоздал с этой приколюхой. Зато можно проследить какой путь мы прошли, что теперь даже у коммандора появился какой-то там из аттеншенов.
>Игрушки зачетные, рад за тех кто может выкинуть 50к долларов на хобби Ниче, лет через 15 и у нас такие игрушки будут. Будем их по помойкам как зеоны с китайскими перемычками собирать.
>>913442 Насколько я помню — там одинаковая распиновка. Но ничего не гарантирую. =)
>>913457 Справедливости ради, мои знакомые прогеры берут 4090 по пару штучек и в ус не дуют, пока нищуки 3090 на авито покупают. Ну так, я понимаю, что ты пытался оправдаться в своих же глазах, но не стоит делать это так слабо.
>>913481 > 3090 > p40 > Брать дорогую йобу чтобы только инфиренсить на ней ллм - странно, уже есть хорошие решения. Бери 4 P40. =)
>>913504 Нет ничего постыдного в том, чтобы потратить свои деньги на свои хотелки, если тебе норм и почку не продаешь. Т.е., считать, что глупо брать 5090 — это мнение или скряги, или бедняка. Я не говорю, что это плохо. Но это просто так, как есть.
>>913786 Если человек может купить видяху за 400к рублей, то уж новый бп купить он точно в состоянии. =) Тут бомбить не на что.
>>913956 Ты — он, или ллм — и есть он? Карточки от первого лица составляли. Там еще систем промпт было бы неплохо подсуетить соответствующий. Местами выдавало интересные результаты.
>>913997 > если тебе норм и почку не продаешь. А почку значит продавать плохо? Странный ты. Я вот не вижу ничего плохого в продаже почки. Ты осудить меня хочешь?
>>913997 >Насколько я помню — там одинаковая распиновка. разные варианты перебрал. кабель от CPU не подходит из-за толстой клипсы, воткнул один pcie кабель - запускается и работает. хотел поставить три p40 в свою сборку, да вот только с третьей не стартует материнка, висит на VGA, с двумя в любых расположениях мать стартует, хотя по спецификации матери написано x16\x1\x1.
>>913997 >Справедливости ради, мои знакомые прогеры берут 4090 по пару штучек и в ус не дуют Чел, попустись. Вот именно что даже две 4090 будет взять выгоднее чем одну 5090 за ту же цену. Даже при текущей их цене в 200к за позицию.
>>913932 >Новый фронт Не новый, а очередной. Их уже настолько дохуя, что даже лень разбираться, ибо они все буквально не предлагают ничего нового, хотя пространство для маневров огромное.
Если уж этим красноглазикам делать нехуй, лучше бы аналог для силли запилили, которая настоебенила уже своим протухшим интерфейсом. Но да, никто опять нихуя делать не будет. Потому что дрочерам похуй через что дрочить, они бы и через терминал своих вайф ебли за неимением альтернативы.
В лучшем случае третий квант среднего размера влезет. Нет, можно и четвёртый, но сколько там у меня было? 2 токена в секунду, кажется. На 2,7 ещё хоть как-то можно выживать, но это на третьем кванте и приходится заметное время ждать ответ от модели.
Проблема в том, что 11-14b адски тупорылые или я их не так варю. Да, они отлично подходят для кума, с этим проблем нет, и модели идеальны для коммерции в какой-нибудь серой зоне типа чуба или бесплатного пока что джанитора но с точки зрения экономии ресурсов там лучше пихать 8b, наверное, для народа, чтобы толкать кум онлайн в сервисах, но каких-то интересных реплик, "понимания" или чего-то ещё я не видел.
27b, которые я втыкал и по незнанке не ставил никаких инструкций, вообще в таверне ничего не настраивал, были просто божественны даже в третьем кванте по сравнению с мелкими моделями. И вот как тут жить?
Наверняка есть какие-то ВАРИАНТЫ на 14 или 22b неплохие для просто хорошего рп и интересных диалогов и рассуждений, но я заебался качать васянские тюны и разочароваться. И я так и не придумал универсального теста на охуенность, чтобы понять, выкидывать модель в помойку или нет через 3 минуты после загрузки. С ней всё равно необходимо поболтать и ещё потратить время на скачивание.
>>913180 Кстати, по поводу карточек. Чат гопота, превью версия и ещё думала чуть больше минуты, давала интересные советы на эту тему, хоть и выглядящие немного странно. Я пробовал вместе с ним брать за основу какую-то карточку и писать структурно так, как он указывает, или чтобы он разбивал мою хуйню на нужные структуры, и дальше дорабатывал. Субъективно, результаты были лучше, чем когда я писал сам или тянул карточки с чуба.
>>914038 >но с точки зрения экономии ресурсов там лучше пихать 8b, наверное, для народа, чтобы толкать кум онлайн в сервисах Они его неиронично и толкают. Интереса ради я недавно чекал всякие спайсы чаты и прочее курительное говно - там такая дремота на моделях стоит, что такую хуй сейчас отыщешь мне кажется. Плюс они там контекст до смешных 2к обрезают, пока среднестатистическая карточка в их же каталоге весит порядка 600 токенов, ибо сделана одноклеточными мокрощелками. Но даже так актива у них там дохуя, народ не воняет. Видимо, потому что это всё дело бесплатное.
>>914019 Ну так а если кто захочет взять две 5090 — я че, должен его считать иррациональным растратчиком что ли? Мы платим за эмоции. А эмоции бесценны. Все четко. )
>>914043 Я в этот тред сам пришел недавно как раз со спайси, очень понравилась там модель очень живо общается с тобой и каждый раз что то новое выдает без повторов как на ссаных локалках где повторы через сообщение Сижу вот тыкаюсь в этом локальном говне уже месяц всё хочу на спайси просто вернуться и в хуй не дуть
>>913997 > Бери 4 P40. =) Это маразм, ими не сможешь воспользоваться кроме как крутить несколько ллм одновременно. Одну большую - не захочешь. > Справедливости ради, мои знакомые прогеры берут 4090 по пару штучек и в ус не дуют Это знакомые прогеры сейчас с тобой в одной комнате? >>914026 > потому что на sxm ровно столько, а сам sxm практически весь пассивный Пояснительную бригаду как оно вообще соотносится?
>>913475 >>913488 Два пиздабола. Один пишет про необходимость иметь карту, другой даёт ущербный 9Б.
>>913475 Анон, у меня похожий сетап, я спокойно гонял Command-R 35Б, выгружая в оперативку. Тебе 32 хватит почти впритык, но хватит. Гугли GGUF. Да, это было медленно, но не смертельно. Минута-полторы для больших сообщений.
>>914094 Это буквально старый прикол о том, что "а вот на чайной была душа", несмотря на то что та была тупым огрызком по сегодняшним меркам. Тут либо уже чисто искажение по памяти, либо самообман. Но это действительно не отменяет того факта, что с локалками надо ебаться и ебаться надо много. Пока ты разберешься как все работает, пока подберешь под себя настройки - это все может занять недели и даже месяцы. А на спайси скорее всего они просто промтами всё это дело подкрутили и это кстати объясняет, почему они не хотят менять модели и переписывать всё с нуля.
Ну либо у них свой какой-то особенный файнтюн стоит на дампах с той же чайной. Пигмалион некоторые именно по этой причине до сих пор облизывают, ибо там датасет собран напрямую из тех самых душевных рипнутых диалогов.
Ладно, у gemma-2-27b-it-abliterated.Q4_K_M 2,4 токена, но это не жизнь. Столько ждать на моделях 40-70b мне кажется уже адекватным решением, но здесь хуй знает.
>>914099 >Да, это было медленно, но не смертельно. Это как раз-таки смертельно. Такими извращениями можно пользоваться только по каким-то рабочим задачам, где ты можешь составить промт и просто залипнуть на вермя, пока ответ будет генерироваться. Для рп минимум нужно токенов 6-8 в секунду иначе можно сойти с ума, особенно если ты адепт свайпов и ебал в рот редактировать сообщения вручную.
>>914121 Я по основе сижу на немо и как-раз имею 20-24 токена в секунду. Этого достаточно с запасом, так что не надо пиздеть. При таких скоростях ответ итак за полторы-две секунды генерируется, если это только не полотно текста токенов на 400.
>>914095 >Пояснительную бригаду как оно вообще соотносится? Вот смотри, есть у кожаного видеокарта h100. Она производится в двух вариантах - sxm и pci-e. Первая лучше по перформансу и гораздо лучше подходит для трейна, потому что её нвлинк тупо лучше, чем у писиай-версии. Хотя и немного меньше памяти, но теплопакет вдвое выше, Карл. Тут немного лукавлю, писиай карты прошиваются под повышенный тдп. Так вот, у нас есть два варианта одной карты и SXM, очевидно, лучше. А ещё он внезапно доступнее, т.к серверов с такими слотами банально меньше. Это видно даже по младшим моделям - 16Gb p100 pci-e стоят 20к, а sxm 14к. И это на авито. C учётом цены "переходника" с sxm на pci-e это не выгодно, там 300-400 евро будет. Вернёмся к H100. Писиай версия четыре ляма, SXM - три с половиной. Что нужно, чтобы SXM заработал в писиай слоте? Переходник, который состоит на 90% из креплений под кулера, процентов пять пассивных компонентов и разъём под внешнее питание, те самые 48 вольт. Если карта будет по умолчанию жрать 48 вольт, то китайцы уничтожат весь рынок pci-e карт, по-быстрому модифицируя под него более производительные sxm-варианты и откладывая в карман полляма с карточки.
>>914122 >если это только не полотно текста токенов на 400 512 самый минимум же. Иначе тебе просто огрызки на стол будут кидать односложными ответами чтоб не забивать память
>>913775 >Шоэта? У 9950x и 9900x какого-то хуя ебанутые задержки при передаче данных между CCD-чиплетами и они к ним взяли тот же костыль что и для 7950x3d и 7900x3d, который пихает потоки игор на один CCD и если его хватает на игры+ос+прочие задачи, то вырубает второй CCD с половиной ядер, дабы не ловить эти задержки, если вдруг какой-то поток игры окажется на втором и начнёт обмениваться данными с другим CCD. В плане нейронок вопрос даже не в парковке ядер, а в этих задержках между чиплетами, будет ли как то влиять.
>>914095 > Это знакомые прогеры сейчас с тобой в одной комнате? Нет, нахуя им быть в моей спальне? Извини, я понимаю этот прием, но он выглядит максимально жалко в данном контексте, ибо моих знакомых и коллег это не какие-то огромные деньги.
>>914096 Ровно наоборот. Речь же о людях, которые могут себе позволить такую покупку. Айфоны в кредит берут те, кто не может себе позволить их просто купить, без кредита. =) Как раз всякие 3090 ужаренные за 40к с авито ближе к айфонам в кредит (как минимум, по цене=).
>>914112 > Тут либо уже чисто искажение по памяти, либо самообман. Синдром утенка, раньше было лучше, вся фигня.
>>914099 > медленно, но не смертельно Ну как, на профессоре с ддр4 (врядли там с 1050ти будет ддр5) на 30б получится где-то 2 т/с генерации и пара десятков обработки. Это в оптимистичном сценарии, может быть и ниже. Если генерация еще как-то больно но приемлемо, то любая манипуляция связанная с обработкой контекста ставит крест на всем. Даже самый первый пост если там системный промт, карточка, примеры и прочее на тысячу токенов - там первых токенов придется больше минуты ждать. Ну и большие сообщения это не 150-200 токенов. >>914123 Что за бессвязную шизофазию я сейчас прочитал? > А ещё он внезапно доступнее, т.к серверов с такими слотами банально меньше. Это видно даже по младшим моделям - 16Gb p100 pci-e стоят 20к, а sxm 14к. Некрота на pci-e дороже потому что у нее хотябы есть шанс что кто-то купит и поставит к себе, а старый sxm - мертвый груз. > Писиай версия четыре ляма, SXM - три с половиной. Погода на марсе а не цены. Если смотреть аукционы или написать тем барыгам сколько будет стоить то sxm выйдет заметно дороже. > Переходник, который состоит на 90% из креплений под кулера, процентов пять пассивных компонентов и разъём под внешнее питание, те самые 48 вольт Там есть штатные райзеры, переходники, платы - сплиттеры и прочее. Серверные бп уже давно на 48вольт идут, с подключением. Питание вообще наименьшая из проблем. > Если карта будет по умолчанию жрать 48 вольт, то китайцы уничтожат весь рынок pci-e карт, по-быстрому модифицируя под него более производительные sxm-варианты Шиза, pci-e и sxm радикально отличаются компоновкой, и под те и под те делают готовые сервера, в обоих случаях продукт дефицитный, а пытаться пихать одно в другое - могло родиться только под веществами. Если собирать "под себя" то ассортимент железа достаточно широк и делать это можно хоть на деревянных стеллажах кто помнит тот помнит, питание также наименьшая из проблем.
Но самое главное - каким вообще хером 48вольтовый стандарт на десктопной карточке относится к йоба серверным решениям? Алсо никакого нового стандарта и не нужно, 48вольтовая опция была представлена вместе с 12вольтовой. >>914130 > я понимаю этот прием Намек на то что ты - фантазер и пиздишь, причем крайне кринжово.
>>914134 >Погода на марсе а не цены. Давай по v100 сравним с ибея. SXM 32гб без аукциона начинаются с 14.5к рублей. Pci-e на 32гб начинаются с 69к рублей. Да, h100 по 3.5-4 ляма это по местным магазинам я смотрел, на е-бей дешевле, но так разница в цене даже ощутимее. Это без аукциона, купить сразу - барыгам писать не надо, цена меняться не будет. Разве что хуй ты купишь нормально с ebay. >pci-e и sxm радикально отличаются компоновкой Да, но это не важно. >хоть на деревянных стеллажах А ты цену материнок с SXM посмотри.
>>914140 > Давай по v100 сравним с ибея Нет, давай по кеплерам! Для начала ответь каким хером эта шиза относится к десктопным стандартам питания и как оправдывает ту дичь что ты уже насочинял? > SXM 32гб без аукциона начинаются с 14.5к рублей. Хороший вариант, собрал 2-3, наколхозил переходников и ультимейт убийца тесел с быстрой обработкой. > но так разница в цене даже ощутимее Хуету какую-то анрелейтед нашел, они не могут 15к стоить, а пси-е как прыгнула на фоне хайпа-дефицита, так и стоит на этой цене.
>>913807 >То не успешные люди а васяны-понторезы, что пытаются казаться лучше чем есть, беря непосильный премиум в состоянии мертвичины. Ох блять если бы. Куча народу с кучей денег берут со вторички премиум-хлам нихера не по нижней границе цен. Потому что ебланы. То что человек умудрился нафармить дохуя бабок где-то - вообще никак зачастую не значит, что вне сферы где он их заработал будет таким же рациональным и не тупым. Вот это купить уже подроченное авто какое-нибудь лямов за 8 и потом хуй пойми зачем экономить, блядь, на фильтрах стоящих тыщу рублей беря китай и заливая рандомное неподходящее масло раз в 15к пробега ибо "аче какая разница и то масло и то масло че мозги ебешь я всё лучше знаю" - это вот прям обычная ситуация же. Тысячи их таких.
>Разве можно как-то иначе? Ну так я про то же, что не надо иначе. Но тут ведь обязательно найдется пара залетных или интересных персонажей, которые прочитают про то как всё прекрасно на вторичке и пойдут на авито доставкой покупать. Сами себе ебланы будут, конечно, но просто лишний раз упоминаю чтобы по незнанке аноны не прилетали на бабки.
>И что ты там собрался разглядывать под охладом, взгляда с торца хватает в 99% случаев. С некоторыми моделями с торца нихуя особо и не увидишь. Да и там где видно хоть что-то, то тоже варианты хуйни возможны, но это уже нюансы, конечно.
>>914142 Ролять роляют в любом случае, но не прям чтобы совсем линейно рост влияет. С врам главный дроч тут у нас всех в том чтобы тупо всю модель и контекст запихнуть в неё.
>>914144 >Для начала ответь каким хером эта шиза относится к десктопным стандартам питания Читай первый пост, там в конце об этом есть. >они не могут 15к стоить https://2.taobao.com/item-detail?itemId=825761464018&spm=a2170.xianyu_tbpc_search.0.0 Вот тебе за китайские рубли. Около 19к на русские, раз ты за 15к не хочешь. Это всё ещё куда дешевле, чем pci-e вариант. И да, это неплохой вариант для замены теслы.
>>914094 сетки дрочат чтобы хорошо проходили бенчи и выполняли инструкции, в рп они становятся умнее, но не могут выдать ничего оригинального без пинка от юзера
Что это? Что это за говно, нахуйя говно? Карточка максимум антисекс, персонаж максимально мразотный — и тут такое.
Это всё васяномиксы, да?
Всё по шапке, всё по гайду. Мне нужна нормальная модель 22-24b (на пике 22 мистраль), остальные не лезут на вменяемой скорости работы. 27b gemma не срёт такой хуетой даже в третьем кванте, но скорость генерации неприлично медленная.
У меня уже закрадывается мысль просто скачать чистую версию без миксов и даже аблитерации. Возможно, даже так лучше получится, если поебать её джейлами. Потому что тонна васяномиксов такое выдаёт, даже если в карточке прописать, чтобы не было хуйни как на пике.
>>914117 > Для рп минимум нужно токенов 6-8 в секунду иначе можно сойти с ума Ну чому, а от человека с РП ты тоже ждешь молниеносных ответов? 1-2 токена всек это норм для рп. Меньше пиздос.
Привет, аноны. Не уверен, что в тот тред пишу, но всё таки. Планирую ближе к зиме обновить видюху в компе, сейчас стоит 2080 super. Бюджет будет около 200к. Вообще тепел и ждал, ожидая что 5080 будет на 24 гига, но судя по всему запихнут в него 16, поэтому брать её уже вряд ли буду, ибо оверпрайс будет лютейший поначалу. Комп используется для ИИ, игр и блендера. Пока склоняюсь в сторону двух 4070ti super. За 200к можно получить 32 гига видеопамяти. Но всё таки желаю выслушать мнение сторонних людей перед окончательным решением. ЗЫ. За исключением друвней видюхи, сам комп обновлял недавно, стоит 64 гига ddr5, амудешный проц 9 серии.
>>914095 >Это маразм, ими не сможешь воспользоваться кроме как крутить несколько ллм одновременно. Одну большую - не захочешь. И захочешь и даже сможешь.
>>914291 Так 5090 ты сможешь в играх юзать. Надоест генерить текст - будешь жалеть что у тебя 4070ти... Не знаю как в блендере, но в СД тоже вроде на две не так хорошо делится нагрузка
>>914294 >5090 ты сможешь в играх юзать Да я бы взял, но у меня не будет более 200к. А стоить она будет под 300, если не больше. Поэтому и думаю. Как ещё один вариант взять вообще поддержанную 3090, и сидеть ждать выхода 5070/80 super, в который могут 20-24гига завезти, но поддержанное не сильно люблю и уважаю.
>>914303 >храни в долларах, будет) Да как сказать, торгов-то нет. Курс будет такой, какой сверху спустят. То есть сам ты сможешь продать доллары по "госцене" - есть такое слово...
Кто-то пробовал подключать внешние видеокарты? Нормально работает? Раздумываю взять 5090, а 4090 в бокс засунуть. Обе карты в корпус не лезут, собирать отдельный комп под ллм я не хочу (ну разве что появится готовое решение без ебли в районе 500-600к).
>>914149 Первую часть можно свести к > в группенейм бывают долбоебы исходную нить потерял, или так странно относишь к предмету обсуждения? > Но тут ведь обязательно найдется пара залетных или интересных персонажей, которые прочитают про то как всё прекрасно на вторичке и пойдут на авито доставкой покупать. Налог на тупость или удача. И таких здесь нет, одни трясуны или оголтелые, что притащат для проверки комп в пункт выдачи. > С некоторыми моделями с торца нихуя особо и не увидишь Избегать их. В любом случае снимать охладу с гпу покупателю не даст буквально никто. >>914151 > Вот тебе за китайские рубли. То про ~15к доларов за H100 в лоте что ты скинул. > неплохой вариант для замены теслы Если их реально купить за такие деньги то это суперйоба, которая и дешевле, и дохуя быстрее (не сильно будет уступать амперам), и памяти в 1.5 раза больше имеет. Надо брать пока еще есть. > Читай первый пост > китайцы уничтожат весь рынок pci-e карт, по-быстрому модифицируя под него более производительные sxm-варианты и откладывая в карман полляма с карточки. Бред сумашедшего же, как ты к этому пришел? >>914198 > Это всё васяномиксы, да? Да, при плохом обучении модель усваивает не столько знания, сколько паттерны что нужно сводить все к кумерскому слоупу при любом поводе. Возможно у тебя и что-то в промте не то если эффект массовый, что за модели?
>>914349 >у анона сычева появились лишние 200 тысяч рублей >наряд омона ему, обязательно с вертолетом вроде должен быть самый продвинутый раздел, а все равно людишки те же
>>914204 > от человека с РП Типичные чаты с кожанными - уровень пигмы. Ирл ты можешь общаться быстро и параллельно воспринимаешь полный спектр чувств, видишь окружение, практикуешь взаимодействия. В рп чате все это описывается лишь текстом, потому нужно чтобы он имел скорость хотябы на уровне неспешного чтения. >>914265 > в сторону двух 4070ti super Они хороши, если планируется использование помимо ллм, но памяти мало. Варианты производительнее - или бу, или расширять бюджет. >>914328 > Нормально работает? Пердолинг с драйверами и прерываниями, траблы с охлаждением, а так норм. Скорость как у х4 3.0 со всеми вытекающими, для ллм или диффузии не проблема.
>>914392 >То про ~15к доларов за H100 Это к ибей претензии, если тебе цена не нравится. >Надо брать пока еще есть. Учитывай ещё цену на переходник, в зависимости от версии SXM цена колеблется. А доступность этих переходников оставляет желать лучшего, мягко говоря. Если бы можно купить в пару кликов, уже бы заказал себе парочку. >Бред сумашедшего же Абсолютно логичный вывод проистекающий из фактов.
>>914435 > Учитывай ещё цену на переходник 100-200$, уже выйдет не дороже 400$ за 32 гига с относительно быстрым чипом, топчик. Вот только ни гпу ни адаптер нормально не купить. > Абсолютно логичный вывод Абсолютно иррациональный вывод, наличие какого-то стандарта под 48в питание превозносишь над всем, параллельно делая ложные выводы на основе неправильных цен на актуальные комплектующие. Что же до некроты - там аналогично питание будет наименьшей из проблем.
>>914393 >вроде должен быть самый продвинутый раздел, а все равно людишки те же Ещё недавно самым продвинутым людишкам казалась немыслимой блокировка Ютуба, а сейчас реальность. Из ВПН работает только VLESS и обрезать его у 99% юзеров по поведенческому признаку (а это уже типа продвинутые, уже не простые Васяны) раз плюнуть. И Ютуб это не крипта, а херня какая-то типа видосиков. Да, чужая пропаганда, но не деньги всё-таки. Крипту в России приказано уничтожить. 1% проскользнёт, а остальные смирятся. И с обменниками будет такой геморрой, что ты и сам не захочешь.
>>914457 блокировка как обычно сработала только у САМЫХ тупых, кто даже не знает куда написать "не открывается ютуб" чтобы решить проблему про запрет с 2017 читаю не хочешь - не бери, твои срубли, не мои
>>914663 >У меня ванильный WG как работал так и работает. Хз о чем ты. Ну ты имей в виду, что он палится. Не везде его блочат, говоришь? Это уже не его заслуга.
>>914665 >блокировка как обычно сработала только у САМЫХ тупых, кто даже не знает куда написать "не открывается ютуб" чтобы решить проблему Дай угадаю: Ютуб с мобильного интернета смотришь? К твоему сведению GoodbyeDPI всё. А значит отключить уже тебя могут когда захотят. Остались только более сложные решения - пока.
>>914695 Я не против политоты, особенно когда она касается каждого напрямую. И голову в песок спрятать все труднее даже обывателям. Но не советую обсуждать ее тут, это не свободный ресурс
>>914457 > Ещё недавно самым продвинутым людишкам казалась немыслимой блокировка Ютуба, а сейчас реальность. Нет, не реальность. На мобиле всегда работал, на компе перестали замедлять недели две уже как. Блокировки Ютуба в принципе никогда не было. > Из ВПН работает только VLESS Нет, не только. Работает вообще всё, кроме пары ресурсов, которые были максимально на слуху. Да даже Антизапрет до сих пор работает. > и обрезать его у 99% юзеров по поведенческому признаку (а это уже типа продвинутые, уже не простые Васяны) раз плюнуть Нет, если не использовать дефолтные настройки, а даже такие уникумы есть, которые приваткей ставят из примеров(!). И даже их никто не блокирует и не собирается. А уж тех, кто хотя бы SNI отличный от дискорда или яндекса прописать в состоянии, а тем более слышал про селфстил, таких даже на Туркмении, Иране и Китае не могут блокнуть.
>>914457 >Ютуб >не деньги Проиграл. Ютуб принёс своим пользователям больше денег, чем крипта выдурила из лохов. А это уже дохуя, криптодебилы до сих пор встречаются, хотя казалось бы - 2024 к концу подходит. Но лох не мамонт, как говорится. >>914695 >GoodbyeDPI всё. Брейнкип, сорри. У людей с двузначным айкью работает.
>>914758 вообще пиздато пишет в том плане, что гптзмиов и правда удивительно мало, видимо автор принципиально не хотел тренировать на клодослопе или гптслопе как тот же магнум
>>914706 > Как наивно А накой обмазываться всеми этими х-реями и влессами если их самих неровен час наебнут. Или ты думал что влесс будет с тобой вечно? Удачи, чел. Его уже научились ловить жиды.
"генерации текста и изображений занимает 1 токен и 1 миллисекунду вместо 1 минуты и 10000 токенов. наш метод позволяет обрабатывать запросы клиентов в 400-800 раз больше, серверы больше не нужны"
>>914795 Аноны из /b/ пишут, что это сингулярность, сливы какие-то публикуют.
У меня сейчас за 18$/hour поднят сервак, если не пиздеж, то получается я могу тоже самое на дефолтном маке делать, а Нвидиа должна уже нанять киллеров для разрабов.
>>914803 >>914793 Пиздеж Не удивлюсь если это тупо база данных ответов, из которой тянут заранее готовые ответы на кешированые вопросы Нету щас железа, и производителей железа, которые могут сделать такой финт ушами. Если там конечно не опто электронику кто то смог сделать и приспособить для нейросетей, в гараже.
>>914793 >Мнение треда про blackbox? Если не наёбка, то революция. И давно пора. Будем посмотреть - хочется верить, но совершенно непонятно каким образом мог быть достигнут подобный результат.
Попробовал эту вашу гемму в соавторстве на русском. Сеттинг PF/D&D.
gemma-2-27b-it-abliterated.Q4_K_M - 40-60 секунд, вроде норм, хотя раз проскочило английское слово. Предложила мне подобрать кристалл фамилльяра упавший с фейского плана.
gemma-2-27b-it-abliterated.Q5_1 - 50-100 секунд, вроде вполне адекватно и вроде литературно. То ли с роллом повезло, то ли пятый вместо четвёртого квант действительно так решает, но попыталось следовать заданной преамбуле.
Хотя и та и другая иногда пересказывали моё сообщение своими словами. Иногда лучше, иногда хуже. Для соавтора норм, полезно, для рп может быть не очень.
Хотя карточка описана как рассказчик / писатель / гейм-мастер, так что мб из-за этого.
Аноны, всем привет! Подскажите, плиз. У меня ПК: Ryzen 5 3500X; 128Gb @3200MHz; RTX 4070 12Gb; SSD 980 PRO 1TB
Я сейчас использую: Qwen2.5-32B-Instruct-Q4_K_M.gguf gemma-2-27b-it-Q4_K_M.gguf Mistral-Nemo-Instruct-2407-Q8_0.gguf DeepSeek-Coder-V2-Lite-Instruct-Q8_0.gguf
Что уже можно удалить, а что оставить? Может что лучшее появилось уже?
>>914457 Да пиздец сука заебали, тут уже от ног живого места не осталось после прошлых очередей. Будет забавно если образуется ситуация как с автовазом. поле_чудес_в_стране_дураков.mp3 Тут больше подгорает что на деньги, которые тратятся на всю ркн-мразоту и горы оборудования для запретов, можно было бы оформить и финансировать свой исследовательский отдел как в запрещенной организации, и выпускать свои передовые лламы, диффузию и прочее на острие отрасли, ведь для этого все кроме финансирования есть. Там уже можно пытаться манипулировать мнениями с помощью более актуальных политтехнологий и без такого ущерба для будущего развития. А если еще перераспределить финансирование 15-рублевых ботов, что набегают везде оправдывать происходящее, то можно было бы в мухосрансках улучшить. >>914663 Очень повезло с провайдером просто (и врядли надолго). С пердолингом не-ванильный завести можно, но скорости зарубеж донные. >>914692 Передавай привет мамашам-шлюхам и отцам-членодевкам тех кто портит интернет. >>914682 Зависит от объема контекста и скорости его обработки. На процессоре оче медленно, на жоре с ускорением видеокарты быстрее и чем больше слоев на гпу тем шустрее, на экслламе оче быстро. >>914793 Не быстро и оче тупая. Какие еще алгоритмы?
>>914846 > алгоритмы У 4 битного бинарного машинного кода всего 16 состояний эти состояния можно записать в таблицу и пробрасывать веса активаций а дальше оперировать состояниями через 1 битные ссылки для любого масштабирования, таким образом база данных на 8ТБ заменяет и процессор и видеокарту , так ещё и ускоряет в 400 - 800 раз, обработки градиентов ИИ. говоря простым языком происходит проброс вычислений через готовые таблицы перемноженных матриц рекурсивно и комбинаторно ведь 16 бит это два 8 битных кода а любой 8 битный код это два 4 битных кода.
Звучит как троллинг анонов. Статей никаких нет, при ускорении в 4 раза уже бы был визг на весь интернет, а тут заявляют 400 раз и отказ от вычислений. "Готовые таблицы перемноженных матриц" - звучит как что-то невозможное, остальное не понял, мнение - выглядит как жир, который накидали с целью запутать. Сайт рабочий, приблизительно уровень Клауди, в русский нормально не способен, бесплатный и быстрый, пики генерирует лучше бинга, валится как и прочие модели.
>>914869 >Сайт рабочий, приблизительно уровень Клауди, в русский нормально не способен, бесплатный и быстрый, пики генерирует лучше бинга, валится как и прочие модели. Ну то есть "примерно всё то же самое, что и у других, только быстро". Если не только быстро, но ещё (для них) и дёшево, то действительно революция. Вопрос в том, когда пойдёт в паблик.
>>914839 Пока что самая лучшая гемма 27 - ванильная без васянств поверх. >>914869 > Звучит как троллинг анонов. Скорее не троллинг а инфоциганство и скам. По ощущениям там рандомайзер, который для генерации использует далли или флукс-шнель (стиль и особенности прыгают), причем делает крайне посредственно, по ллм там чмоня мини или хайку. В продожительный диалог вообще не может, часто каждый раз будто рандомный ответ не учитывающий прошлое. > приблизительно уровень Клауди только если их самой днищенской модели, оно даже по знаниям мэх.
>>914870 Скорее всего, всё из-за begin_of_text. Это вроде стартовый токен третьей ламы, и его не должно быть в контексте, он генерируется. У меня были похожие проблемы, когда тройка только вышла, и я тоже баловался с шаблонами: тупо стартовое сообщение перса копировалось. Но ты в принципе что-то странное из шаблона сделал. Такие макросы в одиночных фигурных скобках разве существуют вообще? И даже если {input} - это то же, что {{input}}, то это только твоё последнее сообщение. Получается, что ты его кладёшь в стористринг, который перед всем текстом идёт, зачем-то. А макроса output вообще нет вроде как. Посмотри, что за промпт в консоли выводится по такому шаблону.
>>914870 Prompt Inspector поставь в расширениях таверны, будешь сразу видеть что отправляешь на генерацию с возможностью правки на лету Включается внизу рядом с полем ввода волшебная палка и тыкнуть там Inspect Prompts что бы включить Очень удобная хрень для отладки промпт формата, всем рекомендую
>>914972 Посмотри в лорбуки. Там теги. Вангую, что в таверне идёт поиск тега в сообщении, если оно находит нужный - то вставляет запись, ассоциированную с тегом. То есть по перформансу будет бить длина истории и размер рулбука вместе взятые. Но лучше потести, что происходит с использованием рулбука. Если всё так, как я описал, то особо ничего страшного, пока у тебя норм процессор. Норм это не триллион поточный зивон, т.к жс, сам понимаешь, нужны мощные ядра, потоки всё равно через очко реализованы. Но вряд ли ты вообще заметишь импакт, если не ебанёшься с написанием портянок на триллион записей.
>>914719 > >GoodbyeDPI всё > Ты видимо и есть та тупица, которая не понимает как решать свои проблемы: > https://ntc.party/t/если-опять-перестал-грузиться-youtube-или-его-видео/10529/1350 На всякий случай, эта хуйня может ломать парсеры. Если кто-то собирает так датасеты... А то я накачал битых файлов. Когда убрал жесткие настройки на разъеб пакетов, вроде ломать перестало.
>>914123 >48 вольт, то китайцы уничтожат весь рынок pci Лол, БП это самая простая штука, и купить питалово для такой видяхи будет стоить пару тысяч. >>914128 >У 9950x и 9900x какого-то хуя ебанутые задержки Вроде фиксили бивасом, да и по факту неоткуда там задержкам появляться, по сути чипы не так сильно обновили.
🌟 Гайдбук по оценке больших языковых моделей от Hugging Face
Hugging Face выложила (https://github.com/huggingface/evaluation-guidebook) на Github руководство по оценке LLM. В нем собраны различные способы оценки модели, руководства по разработке собственных оценок, а также советы и рекомендации из практического опыта. В руководстве рассказывается о разных способах оценки: с помощью автоматических тестов, людей или других моделей. Особое внимание уделяется тому, как избежать проблем с инференсом модели и сделать результаты одинаковыми. В руководстве есть советы о том, как сделать данные чистыми, как использовать шаблоны для общения с LLM и как анализировать неожиданные плохие результаты. Если вы ничего не знаете об оценке и бенчмарках, вам следует начать с разделов <code>Basics</code> в каждой главе, прежде чем погружаться глубже. В разделе базовые знания (https://github.com/huggingface/evaluation-guidebook?t..) вы также найдете пояснения, которые помогут вам разобраться в важных темах LLM: например, как работает инференс модели и что такое токенизация. Более прикладными разделы: советы и рекомендации (https://github.com/huggingface/evaluation-guidebook/b..), устранение неполадок (https://github.com/huggingface/evaluation-guidebook?t..) и разделы, посвященные дизайну (https://github.com/huggingface/evaluation-guidebook/b..).
>>913169 >>913235 >>913092 Нихуя себе "плюс-минус" На русике пишет БЕЗ ОШИБОК блять, и это на 4 кванте, да, не так оригинально как на английском, но гугл переводчик один хуй превратит все в кал
>>915100 >БП это самая простая штука Одно дело, когда тебе нужно заботиться о бп, ставить один бп под всё остальное, один конкретно под видеокарты. Да ещё следить, чтобы не перепутать, разъёмы-то одинаковые. Или когда у тебя есть малышка вроде пикрила, которая ест всё те же 12 вольт. Правда, у неё куча других подводных камней, начиная с TDP в 300 ватт и микроскопическим радиатором. Который ещё и обдувается всего лишь одним центробежным вентилятором. Зато влезает в два слота + может иметь нвлинк. А может и не иметь, тут уже зависит от того, зажал ли ты лишние 200 юаней или нет. Ну и ещё те же юаней двести на сам коннектор. Но по факту оказывается, что цена переходника плюс-минус равна цене карты, лол, и затея становится выгодной только на картах от А100-H100. Конечно, если ты уже в Китае, то ситуация другая, но не то, чтобы сильно. Ура, SXM карты тоже удвоятся в цене, лол.
Всех кого заебали шиверс клодизмы поздравляю - в кобольд завезли анти-слоп (это не я название выдумал, они сами его указали)
Теперь можно банить слова и целые словосочетания в пару кликов и больше не читать про озорные ухмылки, игривые подмигивания и седусив свей оф хипс. Антислоп ловит эту хуйню в тексте, удаляет и автоматически регенерирует оставшуюся часть сообщения с того же места, что в теории может сработать, если оно не уйдет в бесконечный луп.
>>915268 XTC не только от слопа избавляет, так что не сравнивай. Он сильно видоизменяет текст, а антислоп просто убирает ненужные тебе фразы и в теории имеет больше применения с большим контролем.
>>915266 Останутся только аполоджайзы. Sorry, no sex.
>>915264 Так это общая проблема? Я думал только на днище моделях меня ебут хе айз вил вис шок Какого хуя нейронка из биллионов слов выбирает именно эти
>>915269 >Он сильно видоизменяет текст От чего даже маленькие модели могут заиграть новыми красками без озорного блеска в глазах. Тем более, просто фильтровать/банить слова всегда можно было. >Up to 48 phrase banning sequences can be used То есть всё равно ручками, кек.
>>915276 >Какого хуя нейронка из биллионов слов выбирает именно эти Ответ очевидный как бы, значит эта хуйня чаще всего встречается в датасетах и имеет больший вес при генерации.
>>915278 >От чего даже маленькие модели могут заиграть новыми красками Могут, я же не спорю. Я прямо написал о том, что с антислопом у тебя просто появляется больше контроля. Может тебе не нужно полностью шизоскручивать распределение, а ты хочешь избавиться только от пары-тройки конкретных настоебенивших фраз, что в таком случае делать? Если тебе это не нужно - не значит что никому не нужно.
>То есть всё равно ручками, кек. А ты че думал, опять всё за тебя делать будут? В этом и смысл, что ты сам решаешь что оставить, а что убрать. Если ты про ограничение в 48 бансекций то да, маловато.
>>914793 Абсолютный наёб для дебилов. Изображения генерятся на апи этого сервиса https://fastflux.ai/. Текст хуй знает, обычная хуйня, у меня на локалке и то быстрее генерит.
JoyCaption васянская хуйня или может помочь в капшене для XL/FLUX? Пока-что пользуюсь ллава 34б, так она блядь в 12 раз больше весит этого джоя, может ли джой быть лучше?
>>915264 Адекватных вариантов, кроме логит биасов - нет.
>>915398 >если там тупо регенерация по кругу. >by backtracking and regenerating when they appear. >When using Anti-Slop phrase banning, streaming outputs are slightly delayed - this is to allow space for the AI to backtrack a response if necessary. This delay is proportional to the length of the longest banned slop phrase. >Up to 48 phrase banning sequences can be used, they are not case sensitive.
>>914134 > Намек на то что ты - фантазер и пиздишь, причем крайне кринжово. Но так как я не фантазер и не пизжу, намек получился жалкий, от бомжа-обиженки. Могу лишь посочувствовать человеку, который просто срет всех вокруг и «вы все врети», но при этом не повышает свое качество жизни и даже не допускает в мыслях, что не все живут как он в дерьме. Без иронии и оскорбления, искренне сочувствую это человеку. Тяжелая у него жизнь.
>>914265 Основная проблема, что даже на 48 гигах частенько приходится заебаться, чтобы раскидать модель по двум картам в трансформерах, если ты тестишь что-то. И одна карта физически удобнее. А некоторые модели хоть усрись отказываются раскидываться по картам и работают только на одной. Но если ты не настолько экспериментатор, и готов подождать апдейт комфи на очередной эксперимент (или не дождаться), то две карты дешевле, конечно.
4070ти супер оптимальная карта с точки зрения цены/объема, конечно, самая дешевая 16-гиговая, но при этом не 4060 ти. Но люди в треде справедливо заметят, что 3090 никто не отменял, выйдет и дешевле, и больше.
>>914328 Да не ленись. Если у тебя есть деньги на 5090, то собрать комп не такая проблема. ссд любой, бп нормальный, 1.2 кВт, мать на б-чипсете с двумя хорошими полноценными слотами и х8+х8, проц средний, памяти 2*32, ну и кулер. Все, поехали, че. И корпус выбери. Еще можно взять проц со встройкой, чтобы видеопамять вообще не занималась.
Зато прикинь, 56 гигов видеопамяти! И это все стоит и фурычит, когда тебе надо.
А вот за бокс не скажу, возможно обработка промпта сильно просядет, а может и нет (судя по тому шо пишут ниже — заметно просядет по сравнению с одной картой, но для теславодов не критично=). Работать должно, по идее.
А как насчет простого райзера, без изъебств?
>>914395 ИМХО, 8 бит получше, но если тебе и 4 бита норм, то хорошо. =) Я чаще 8 бит кэш врубаю.
>>914695 Еще впн блочит Ростелеком, а мелкие провайдеры не парятся, так что и тут ошибка выжившего может быть.
>>914696 Ну ты уже опоздал, волна просто не дошла еще до тебя. =) WG в бане уже неделю у Ростелекома во многих регионах. Кажись 3-4 числа он умер полностью. При этом, у другого провайдера работает как и раньше. Так что… Ну, не веришь — не кумекай. =) Никто не заставляет.
>>914730 Блин, клево вам, живете с такими админами добрыми. =) У меня антизапрет года два как вырезали с корнем.
>>914748 Ну, в РФ ютуб не перечисляет, надо смотреть с впна, у нас не то чтобы популярно… Не ютуб, а рекламодатели (агенства) приносят деньги ютуберам в РФ. =) Немного другое, все же.
>>914839 Соавторство пишется в completion // notebook, а чат режиме же, здрасьте. =) miqu-че-то там для авторов.
>>914842 На момент появления лламы 3/3.1/3.2 уже были модели лучше, лол.
>>914846 А вот не знаю, думаю, мелкие провайдеры могут долго забивать хуй, на самом деле. Кто бы их слил? Сами пользователи? Зачем? Не уверен, что кто-то сидит в РКН и проверяет каждого провайдера вручную. Так что, может кому-то повезло, хз.
Аноны, хочу продать свою 4070 супер и купить 4070 ти супер. Все для нейронок конечно же, ибо для игр мне и этого хватает. Стоит ли оно того. Смогу ли я 4070 супер продать за 60к, ксли она на гарантии, и ей даже года нет.
>>915460 >Не уверен, что кто-то сидит в РКН и проверяет каждого провайдера вручную. Просто пока шайтан-DPI-коробки нового типа не ко всем завезли. Но ничего, деньги уже выделены. "Сядут все"(с) А иначе никак, отечественная пропаганда должна доминировать тотально. Тогда и доллар по 70 вернётся (не в магазины конечно).
>>915460 >Не ютуб, а рекламодатели (агенства) приносят деньги ютуберам в РФ. А какие деньги ютуб перечислял до этого? От тех же рекламодателей. Ютуб это рынок и то, что этот рынок берёт на себя роль сводника между покупателем и продавцом не делает сам ютуб плательщиком. Такой себе супермаркет, в котором нет своих товаров, а персонал помогает наполнять корзинки и оформлять оптовые поставки, беря на себя неудобства с логистикой и денежными переводами. Но сам маркет не покупает товар и не продаёт, не платит поставщикам и т.д. Тем же образом и криптобиржи работают, они никому ничего не платят, майнеры получают свои комиссии за переводы, биржа помогает обменивать деньги на виртуальные фантики. Просто сейчас персонал этого супермаркета сказал "ну вас нахуй, сами ищите себе покупателей" и перестал выполнять услуги посредника. Всё это не отменяет того, что ютуб это про деньги, причём куда больше про деньги, чем крипта.
>>915441 > astflux.ai Сояво-фашнявая параша с геоблоком "неправильных" стран и народов, работает только через ВПН. Типичный пример протестутвэра, тильки жовтоблакитного на главной не хватает.
>>915484 Я не спорю, что рынок. И я даже не читал, что ты пишешь, я разбираюсь в этом. Но я к тому, что сейчас все это немного замороженный рынок, и деньги там уже не совсем те, что были года три назад. Конечно, все адаптируется, однако, не все ситуации переживаются без потерь. К тому же, адаптация работает в обе стороны — переход на альтернативные платформы, и работа агенств с ними (им-то пофиг, лишь бы клиенты были).
>>915496 Только вот ты пишешь что ютуб перестал перечислять деньги. Но он этого не делал никогда. А денег стало меньше, потому что взаимодействие рекламодатель-ютубер теперь работает в ручном режиме. Без помощи тех же нейросетей, которые помогали выбрать аудиторию, которой будет показана реклама, высчитывали цену за просмотры и т.д. Стало не так удобно и не так эффективно. Но что изменится, если ютубер перейдёт куда-нибудь в вк видео и будет делать интеграшки там, а не в ютубе? Всё то же ручное неэффективное взаимодействие. Ютуб был слишком хорош и потеря этого функционала снизила эффективность, из-за чего упала выгода для рекламодателя. Стало меньше рекламодателей, упали доходы ютуберов. Это не то, чтобы заморозка рынка, просто возврат к взаимодействию человек-человек вместо человек-машина. Ютуб всё ещё про деньги? В общем-то, да. Вот если обход блокировок перестанет работать процентов у 50 населения, то ютуб уже будет энтузиазмом, лол.
Расширение Stepped Thinking по лекалам анона, написавшего https://rentry.co/LLMCrutches, к вашим услугам, спешите любить и жаловать ну либо обоссать и покрыть хуями - это же двощ, в конце концов. Проверил на своих юзкейсах в соло и групповых чатах - то, что планировал, работает. Больше мне добавить нечего, всё написано в ридмишке.
>>915510 Почему? Ютуб именно перечислял деньги. Он брал у рекламодателей, платил создателям контента, но часть денег оставалось у него. И де-юре, и де-факто платил именно ютуб. Верно, что взаимодействие рекламодатель-ютубер изменилось, но не только потому что аудиторию не отбирают, а еще и потому, что ютуб теперь не получается деньги (поэтому и не занимается этим).
Причин больше, чем одна про ручной режим. =)
>>915511 Будешь контрибутить в таверну или экстрас? Сразу в таверну, не?
>>912960 >>913182 > Nvidia's Blackwell GPUs for AI and HPC faced a slight delay due to a yield-killing issue with packaging that required a redesign, but it looks like this did not impact demand for these processors. According to the company's management questioned by Morgan Stanley analysts (via Barron's), the supply of Nvidia Blackwell GPUs for the next 12 months has been sold out, which mimics a situation with Hopper GPUs supply several quarters ago. As a result, Nvidia is expected to gain market share next year (via Seeking Alpha). > Morgan Stanley analysts shared insights from recent meetings with Nvidia's leadership, including CEO Jensen Huang. During these meetings, it was revealed that orders for the Blackwell GPUs are already sold out for the next 12 months. This means new customers placing orders today must wait until late next year to receive their orders. > Nvidia's traditional customers (AWS, CoreWeave, Google, Meta, Microsoft, and Oracle, to name some) have bought every Blackwell GPU that Nvidia and its partner TSMC will be able to produce in the coming quarters. > Such an overwhelming demand may indicate that Nvidia might gain market share next year despite intensified competition from AMD, Intel, cloud service providers (with proprietary offerings), and various smaller companies. > "Our view continues to be that Nvidia is likely to actually gain share of AI processors in 2025, as the biggest users of custom silicon are seeing very steep ramps with Nvidia solutions next year," Joseph Moore, an analyst with Morgan Stanley, wrote in a note to clients. "Everything that we heard this week reinforced that." > Now that packaging issues of Nvidia's B100 and B200 GPUs have been resolved, Nvidia can produce as many Blackwell GPUs as TSMC can. Both B100 and B200 use TSMC's CoWoS-L packaging, and whether the world's largest chip contract maker has enough CoWoS-L capacity remains to be seen. > Also, as demand for AI GPUs is skyrocketing, it remains to be seen whether memory makers can supply enough HBM3E memory for leading-edge GPUs like Blackwell. In particular, Nvidia has yet to qualify Samsung's HBM3E memory for its Blackwell GPUs, another factor influencing supply.
>>915499 Лучше ровно до тех пор, пока модели полностью в vram влезают. Между 12 и 16 ГБ выигрывать будет явно 4060 ti, и дальше тоже возможно она же, за счет того, что cpu будет считать на 4 ГБ меньше.
>>915550 >Будешь контрибутить в таверну или экстрас? Экстрас же заброшены, нет? >Сразу в таверну, не? Пока таких планов перед собой не ставил, но можно попробовать.
>>915460 >а мелкие провайдеры не парятся За них банят большие. >>915499 Шина больше, объём меньше. Решай, что тебе важнее. 4060 это пиздец кастрат, рака яичек куртке за это. >>915511 О, ЗБС, в шапку.
>>915580 Во время золотой лихорадки выгоднее всего продавать лопаты, особенно когда у тебя нет конкурентов Их там антимонопольное уже за жопу не берет?
А есть где-то гайд, список или что-то подобное по ключевым фразам для instruct режима? навроде Describe at length and in detail или Describe in detail the thoughts, emotions, sensations and all the feelings
Напомните зачем мы всё это делаем, это же реально тред шизов каких то, тратим тысячи $ чтобы наши логи не хранились на серваках И один хуй клод и гопота лучше
>>915672 Ээээ, дистилят от двух разных моделей разного размера? Унди бы тут оргазмировал. >>915680 >И один хуй клод и гопота лучше Уже давно нет, лол. Пока они там росли на свои 5%, попенсорс рос на десятки. Плюс отсутствие цензуры, а то у меня на карточку персонажа тригеррится.
>>915680 >тратим тысячи $ чтобы наши логи не хранились на серваках Не только для этого, а ещё чтобы крутить те модели, которые хотим. ГПТ и Клод в кум не умеют и запрещено им. Для мелких моделей никакие тысячи не нужны кстати, на бытовых видеокартах всё прекрасно гоняется. Ну а для взрослых да, там дорого.
>>915708 Версия последняя. Сейчас перезапустил, вроде прошло, но оно генерит эти мысли при удалении сообщения и открытии чата например новым сообщением все равно
>>915736 А ты жмёшь кнопку "стоп" перед тем как удалять сообщения или переходить на другой чат? Если нет, то я такие случаи не особо тестировал, вполне может быть, что расширение в них работает криво.
Я что то не так делаю? Команда русика срабатывает с 10 раза где-то, до этого пишет это не мой язык я могу только на английском и тд. Причем пишет одно сообщение на русском и потом опять надо упрашивать
Кто то проверял что лучше работает, K-L или K-M? Интересуют L кванты, в них важные слои на 8 бит независимо от кванта остальных весов.
>>915708 Поделюсь фидбеком - при регенерации сообщения сетки, махая вбок, мысли остаются Хотелось бы галку в настройках расширения, что б выбирать регенерировать ли их вместе или только ответ Версия последний релиз
>>915756 Да, есть такое, работа со свайпами - это следующее, что я планирую реализовать когда руки дойдут. Я бы причём эту настройку прямо в блок сообщения с мыслями вынес, чтобы пользователь мог в каждом конкретном случае выбирать, перегенерировать мысли или нет.
>>915760 Я только на кобольде тестировал, да. Понял, тогда запланирую Chat Completion тоже потыкать, спасибо за фидбек.
>>915755 Если сетка плохо знает русский или даже файнтьюн какой-нибудь мультиязычной модели (а датасеты для рп тьюнов только на инглише, скорее всего), то у неё всё равно могут быть наиболее вероятны токены с инглишом в ответе. Особенно, если у тебя там уже существующий контекст на инглише. Имхо самый надёжный варик - это в инстракте в поле с префиксом последнего ответа ассистента написать в системных тегах инструкцию типа "Дай свой следующий ответ на русском языке" (или можно даже без тегов, просто в тех же квадратных скобках), потом тег ответа ассистента, а после него вставить префил вроде "Конечно, вот мой ответ за {{char}} на русском". Можно по-разному попробовать формулировать.
>>915550 >Он брал у рекламодателей, платил создателям контента, но часть денег оставалось у него. Ты работаешь на дядю, он выписывает тебе чек. Идёшь в банк и обналичиваешь, банк берёт процент комиссии и выплачивает тебе наличку. Кто тебе заплатил - дядя или банк? С ютубом ровно то же самое было. >>915755 Инстракт имеет больший приоритет, он на английском - сетка отвечает на нём. Редактируй инстракт и\или карточку.
>>915672 Потестировал в переводах (jp->en, chi->en) - неплохо подмечает детали в контексте, не страдает излишней буквальностью в ущерб художественности. В целом получше старого коммандера 35b и недавнего nemo 12b (22b, кстати, хуже 12b), которые до недавнего времени были моими фаворитами. Надо бы ещё обычные квены 2.5 потестить, нового коммандера, гемму, фи, и что там ещё интересное выходило. Где только место под это всё найти?
Алсо, очень хочет скатиться в лупы, см. пикрил да-да, скилл ишью, что-то там в настройках семплера подкрутить надо.
>>915659 Пофиксил, выкатил версию 1.0.1, проверяй, друг. Всё ещё осталось странное поведение - если нажать кнопку "стоп" во время генерации мыслей, генерация всё равно продолжатся в фоне в режиме чаткомплишен. Но мне уже влом с этой хуйнёй разбираться сейчас, тем более что сгенерированные мысли не отправляются в чат, так что не критикал.
>>915938 >тебе бы лучше обычную qwen2.5 14b глянуть Места мало, качаю очень избирательно только что-то "необычное" и "интересное". Про 2.5 пишут, что охуеть какой умный, но так и про предыдущие версии писали, нахваливали. Тестировал 1, 1.5, вроде и 2 (но это не точно), каких-то впечатляющих результатов не припомню. >>915958 В переводах на момент выхода он был вне конкуренции, поскольку хороших мультиязычных моделей тогда не было. Были две крайности, либо мультиязычная мелочь уровня 7b с кривым английским, рассыпающимся от неестественных оборотов, скопированных с оригинала, зато более-менее точный перевод (но зачем, когда есть google translate?), либо очень вольный пересказ основных моментов красивым английским (что не всегда плохо при художественном переводе), перевирание неоднозначных/сложных моментов. Коммандер же и на английском писал выше среднего, и другие языки хорошо понимал.
А этот квен мат переводить не хочет, главное чтобы кожаный мешок чувствовал себя безопасно. И по-моему речь про безопасность не конечного пользователя, а того, кто тренировал.
>>916002 >Про 2.5 пишут, что охуеть какой умный, Он реально умный, каждая модель квен2.5 на текущий момент топ в своем размере Там есть проблемы с соей и цензурой, но на ум это не сильно влияет. Ну и естественно для рп ерп придется немного напрячься Немного, на фоне той херни что делают кумеры из соседнего треда когда сидят на облачных ии
>>916065 >это как то влияет на текст На текст влияет всё, даже смена одного токена может полностью поменять вывод. >>916099 Это отмена русского, сэр. Скоро всю кириллицу выпилят из токенайзеров.
>>915205 > чтобы не перепутать, разъёмы-то одинаковые Если твой айсикью настолько велик, что ты можешь перепутать идущие с разных источников разъемы, и считаешь это проблемой куда более серьезной чем запредельная цена видеокарт - тебе в дурку пора. В нормальных условиях sxm дороже pci-e, арендуют и покупают их куда охотнее. Ты впечатлился ценообразованием на маловостребованную некроту где-то далеко, и пошел сочинять многоходовочки. >>915444 Первый джой - сиглип+адаптер+ллама 8б - ллава на основе лламы 8б. Разница всего в ~4 раза. С простыми изображениями более менее справляется, наверняка будет лучше чем простая ллава, но генерирует много лишенго мусора и ошибается. >>915460 > Но так как я не фантазер и не пизжу Значит любитель придумывать небылицы и приукрашивать, на самом деле просто увидел пост про покупку где-то на реддите или в какой-нибудь группе, надумав свою причастность. Это же очевидно, увлечения подобным - редкость, увлечение ллм или нейросетями настолько чтобы так вкладываться - еще большая редкость, дело не только в финансах, ведь чаще просто довольствуются меньшим, пользуясь корпоратами или мощностями на работе. Наличие наносеков в кругу общения у странного нищеброда - сценарий маловероятный, если говорить о хороших знакомствах а не "на одной площади стояли". И на фоне этого всего ты затираешь что у тебя сразу два таких случая(!), при этом высокомерно упоминаешь какбы вскользь как аргумент в бессмысленном споре, где у тебя кончились аргументы. Эталонный dies from cringe, напоминающий как пиздюки хвастаться тем что не имеют, и вполне ложится на типичные перлы от шиза, который линкает пол треда. > от бомжа-обиженки Такой-то рофел, ведь у меня и пара 4090, и риг 3090, и много чего еще немыслимого для тебя есть, даже "у папы на работе" привлекать не нужно. > даже на 48 гигах частенько приходится заебаться, чтобы раскидать модель по двум картам в трансформерах, если ты тестишь что-то Прописать auto-devices или скопировать конфиг - пиздец какие заебства. > А некоторые модели хоть усрись отказываются раскидываться по картам и работают только на одной. Проблема в кривых руках, все популярные либы это поддерживают. Только в совсем невероятно редких случаях, когда для взаимодействия доступен только упоротый быдлокод автора, но даже там можно залезть чтобы раскидать словарь. Реальные проблемы в размещении внутри корпуса и доступности материнок с правильно распределенными линиями процессора. > 1.2 кВт > 2х5090 Ахуительные советы > Кто бы их слил? Сами пользователи? Зачем? Мониторят ресурсы где обсуждаются методы и идет хвастовство у кого что работает, тридварасам дали приказ блочить намертво.
>>915511 Красава, герой которого мы не заслуживали. >>915674 Если ты про специальные фразы/токены то это на странице модели. Если в общем про инструкции - просто проси что хочешь как можно четче и лаконичнее. >>915680 Да >>915686 > дистилят от двух разных моделей разного размера? Унди бы тут оргазмировал. Двачую, звучит как какой-то треш. >>915755 Укажи в системном промте ясную инструкцию типа "твои ответы должны быть даны на русском языке", или про персонажа, а не просто проси в чате.
>>915852 Тока вот ты дядю не знаешь, договор у тебя с банком, и он тебя нанимал и он тебе платил, а заказчиков искал банк же, и о тебе не говорил… Странный банк, короче, больше похож на перепродажника, который одним продают площадку со статистикой и ЦА, а другим — рекламу. =) Так мы щас дойдем, что и Яндекс, и ВК — всего лишь «банки».
>>916002 > каких-то впечатляющих результатов не припомню. Первый и не впечатлял, а вот второй уже был лучшим в своем поколении, как и 2.5. Всякие геммы и немо явно хуже. Видимо, от них вообще тебя воротит? =)
>>916282 > Значит любитель придумывать небылицы и приукрашивать, на самом деле просто увидел пост про покупку где-то на реддите или в какой-нибудь группе, надумав свою причастность.
Все еще нет. Почему тебе не дает покоя, что у моих знакомых есть деньги на такие покупки? Я не понимаю, ты весь тред на говно исходишь, пытаясь доказать, что я пиздабол, хотя я просто говорю, что богатые могут покупать что хотят, это их деньги, и у меня есть такие знакомые.
Ты коммунист, что ли, чел?
> высокомерно упоминаешь какбы вскользь как аргумент в бессмысленном споре, где у тебя кончились аргументы. Где высокомерие? Что за хуйню ты выдумал? Какие аргументы в споре, я сказал довольно простую вещь, что люди имеют право распоряжаться своими деньгами, тебе это не нравится — это твои проблемы.
> Такой-то рофел, ведь у меня и пара 4090, и риг 3090, и много чего еще немыслимого для тебя есть, даже "у папы на работе" привлекать не нужно. Нихуя пиздабола порвало. Только что ты говорил, что у меня не может быть таких знакомых, а вот «такой знакомый» — ето ты.
> Прописать auto-devices или скопировать конфиг - пиздец какие заебства. Я уже понял, что ты теоретик, который на деле не трогал ничего больше 1050ti, не пиши хуйню, пожалуйста. В отличие от тебя, я и device_map послойно настраивал, и знаю как это работает, а не просто папиры читал.
> Проблема в кривых руках, все популярные либы это поддерживают. Кривых руках всего человечества, да? Ведь в итоге таких инстансов просто нигде нет. =) Ну, как бы, и нахуй не нужно, люди с возможностями просто запускают на современных теслах, а люди без возможностей находят себе другие игрушки.
> 1.2 кВт > 2х5090 > Ахуительные советы Жаль, ты читаешь жопой. Там было про 4090 + 5090. А учитывая, что гнать нахуй никому не всралось, то для немного даунвольтнутых хватит. Впрочем, хули я тебе объясняю, в твоем сказочном мире может быть что угодно.
Ладно, извини, но спорить с фантазером смысла нет, ты выдумать можешь че угодно, как про себя, так и про меня.
Главное — стремись к тем своим мечтам, которые касаются тебя, и будет тебе счастье. =) А не просто ной и обиженно сри на двачах, это вряд ли тебе поможет.
И не считай чужие деньги, ле фу быть жадным завистником. ИСкренне не понимаю, кому может быть не похуй на то, куда люди тратят деньги. Типа, если это не совсем ебучая идея в духе риг интел арков каких-нибудь. =) Вот там уже можно и удивиться, канеш. Но все равно — хозяин-барин.
>>916304 > Все еще нет. > следом колхозный дерейл с имплаингом своих фантазий Оно заметно > Ты коммунист, что ли, чел? Сделал мой вечер, на такие ассоциации не каждая ллм способна. > я сказал довольно простую вещь, что люди имеют право распоряжаться своими деньгами Нет, обсуждение было вообще про другое, а ты там влез рассказывать какой ты крутой каждой бочке затычка и имеешь важные связи, уведя куда-то не туда. > Нихуя пиздабола порвало. Держи, забайтил. > Я уже понял, что ты теоретик Батя твой теоретик, который вовремя вытащить не смог, чудо. > Там было про 4090 + 5090. Ничего не изменилось, ахуительный совет от диванного шиза.
>>916331 Ну тут искренне сочувствую, если ты даже не понял, что я писал. Грустная ситуация, выходит, что даже не я тебя чем-то задел, а ты сам обиделся на то, что сам же и выдумал. Держись, тяжко наверное так жить, в плену своих не самых лучших фантазий. =(
>>916310 Дефолтная скорость для оперативы, в прошлом году летом почти все так сидели. =)
>>916349 А ты онлайн его смотришь? Я слышал, что на стримах она далеко не такая умная и быстрая, как в нарезках на ютубе. Хотя, вроде, он там свою модельку мутит на своих датасетах, тем не менее, она не сильно-то крута. Но я хз, канеш, че там на самом деле. Давно уж стримы не смотрю.
>>916304 >больше похож на перепродажника Окей, пусть это будет контора, которая нанимает субподрядчиков. Один хуй это про деньги, один хуй ютуб приносил и приносит деньги. Да, не в тех объёмах, но кто в этом виноват? Явно не ютуб.
>>916349 Он ебать какой ленивый хуй, так что там, скорее всего, пигма, лол. Модель он менять не хотел и много раз говорил, что боится, что нейро потеряет свою "личность". Сверху, скорее всего, накинул пару тюнов - он говорил, что много денег проёбывает на нейро, на вопрос "больше тысячи долларов в месяц?" отвечал, что больше. Голос дефолтный из Аzure, только питч подкрутил немного. Моделька тоже дефолтная была долго.
>>916363 Ну ет да. Приносил и все еще приносит. И не его вина, что он не популя
А Ведала могу понять, идейный, если по косарю закидывает и боится потерять личность. Надеюсь, он все-таки экспериментирует иногда, пробуя новые модельки. Все же, время идет, прогресс не стоит на месте.
Блять, какая же боль. Нахуй я вообще стал пробывать большие модельки. Всю жизнь сидел на мелком говне, пыхтел, недовольничал, но всё равно сидел. Черт дернул засунуть свой писюлёк в зону 30B и теперь без слез не могу смотреть ни на что другое, несмотря на неюзабельные 3 токена в секунду.
>>916363 >Он ебать какой ленивый хуй И при этом один из популярнейших вьютуберов, лол. Ну то есть он нихуя не ленивый, но много времени проёбывает на текущие активности. Модельки трейнить времени у него нет. И да, пересаживание на новые модели, даже самые крутые 1488B, действительно сотрёт уникальную личность нейро. Так что только пигма, только хардкор. >>916374 >А Ведала могу понять, идейный Чел, он бабло этим зарабатывае. >>916380 >Черт дернул засунуть свой писюлёк в зону 30B Ни в коем случае не пробуй 123, а то будет как у меня >>916310 Оно действительно затягивает, даже 70 теперь не тащат для меня.
>>916310 Оно хоть того стоило? >>916349 Не рассказывал. Но если вспомнить ретроспективу по изменениям, стримам с кодом и прочему - начиналось с gpt-2/j (та же пигма), потом оформил агенто-подобную структуру и динамический промт с аналогом векторного хранилища + ллама, что сейчас даже хз. Там несколько режимов у нее, например в коллаб стримах она не видит чат и наоборот, играми вообще отдельный софт занимается, там где ей давал возможность "видеть" она ужасно тупела что намекало на применение какой-нибудь ллавы. Что на стримах тупая а в нарезке выжимка удачного двачую. >>916352 Все закономерно, тебе стоило думать прежде чем писать. Здесь обитают рыбы и побольше.
>>916380 >3 токена в секунду da ty ohuel Смотря на каком языке генерируешь, если на русском - хуйня, но терпимо. Я полгода назад гонял 120b в 0.6t\s, было долго но ответы были на уровень выше тогдашних 13b.
>>916385 >Ни в коем случае не пробуй 123 К счастью у меня ограничение по железу и я физически не смогу запустить ничего выше 70B в каком-нибудь втором кванте, но теперь хочется пиздец.
И я даже не могу понять нахуй, почему. На мелочи 8-13B ебаной (под файнтюнами) сцены ебли такие же сочные и красочные, но всегда есть внутреннее ощущение, что тебе где-то пиздят. Как будто модель просто притворяется, что понимает контекст происходящего. Это невозможно объяснить, но это ощущение пермаментное и никогда меня не покидает.
>>916386 >Оно хоть того стоило? А то. >>916393 >Как будто модель просто притворяется, что понимает контекст происходящего. Так и есть. И даже самые крутые на самом деле не понимают. Просто имитируют достаточно хорошо, чтобы это не бросалось в глаза.
>>916389 >da ty ohuel Ну бля, ну невозможно ждать по 15-30 секунд пока тебе высрут сообщение. Я пытался, но очень тяжело, несмотря на более высокое качество ответов.
>Смотря на каком языке генерируешь, если на русском - хуйня На русском я никогда не пытался ничего генерировать еще со времен выхода третьей ламы.
>>916398 >Так и есть. И даже самые крутые на самом деле не понимают. Просто имитируют достаточно хорошо, чтобы это не бросалось в глаза. Как тогда мы понимаем, что одна модель лучше другой? Я понимаю в программировании, в выполнении конкретных задач где есть четкое условие и должен быть четкий ответ. А в написании историй и ролплее как наш мозг определяет что - вот тут заебись, а тут не очень.
>>916374 >и боится потерять личность. Ясен хуй. Ты представь, как нужно дрочить новые соевые модели, чтобы она на вопрос "что такое корова с двумя ногами" отвечала "твоя мамаша". Олсо, вспомнил по железу, он как-то сказал, что у него 1080ti. Возможно это не единственная карта, но я думаю, что под все нейронки он железо арендует в той же азуре.
>>916385 >один из популярнейших вьютуберов Похуй. Каким бы молодцом он не был, он всё равно ленивый хуй. Да и пересадить модель он сможет только если влошится в тюн какой-то другой, а если это не принесёт хороших результатов - деньги на ветер.
>>916403 >Как тогда мы понимаем, что одна модель лучше другой? По ощущению, лол. По соответствию ожиданиям. Или наоборот, по приятным неожиданностям. Короче это трудно формализовать. >>916408 >Каким бы молодцом он не был, он всё равно ленивый хуй. По сравнению с 99,9999% населения даже этого треда он вполне себе бодрячком.
>>916403 >Как тогда мы понимаем, что одна модель лучше другой? Я уже тут как-то писал про опыт с 123В. Да, хоть и редко, но "элайнмент" персонажа проёбывается и он начинает вести себя неадекватно. Но общая канва чата настолько хороша, что просто свайпаешь и всё - даже не раздражает. Притом неадекват не то, чтобы совсем фатальный, просто неестественно - "не верю" по Станиславскому. Ну а с мелкими моделями "не верю" почти везде, а уж косяки и вовсе добивают. Короче качество выше и уровень уже достойный.
В ллм не очень шарю, кобалд не настраивал и модельки не обучал. В общем, хочу сделать надстройку в виде меню из игры. Где у персонажа есть инвентарь, здоровье, состояния, сфера деятельности и знания, за рамки которой он не может выйти. И чтобы ллм взаимодействовала с ними. И например, если нейронка хочет описать, что персонаж что то делает, то он должен писать это исходя из его состояний, знаний и инвентаря. Такое уже есть или мне приедтся самому корпеть?
>>916415 >В ллм не очень шарю, кобалд не настраивал и модельки не обучал. Ну скачай Кобольд и модельку под твоё домашнее железо. Погоняй. И поймёшь, чего они могут из коробки, а чего не могут без много долларов на спецификацию. Исходя из этого и будешь задачи ставить.
>>916418 Не, я скачал, и даже модельки запускаю. Я имею в виду, что со всякими тонкостями не знаком. Я просто хочу какой то слой реализывть, на котором будет вся информация про персонажей, и чтобы ллм при генерации обращалась И поздравляю, я изобрёл контекст и лорбуки, мда
>>916415 Посмотри как работают инфоблоки для копромоделей типа клавдии. Через них можно мониторить любую необходимую тебе информацию, но будет ли это работать именно так как ты хочешь я не знаю.
>>916422 >Я имею в виду, что со всякими тонкостями не знаком. Ну ты много игр видел, где твои задачи нейронками выполнялись? Думаешь тебе одному такие идеи в голову приходили?
Даже крупные корпоративные сетки с доступом по API за деньги будут косячить. Нужно дообучать под задачу, а это дорого для инди-разработчика. Это и для корпораций дорого, но у них хотя бы деньги есть.
>>916415 Имей в виду, что если ты возьмёшь не специально обученную под твои задачи модель, то нейронка:
1. Будет обсираться со строгим форматом ответа, который ты потребуешь от неё для дальнейшей обработки программой. И чем меньше модель, тем выше вероятность обсёра и тем эпичнее он может быть. 2. Будет обсираться с содержанием конкретных полей, которые будет возвращать - они могут в той или иной мере отличаться от того, что ты ожидаешь (начиная от банального выхода за рамки диапазона значений и заканчивая более сложными, выбивающимися из логики твоей игры вещами).
Чем больше переменных ты вложишь в свою игру и чем большее их количество отдашь на откуп нейронке, тем сложнее тебе держать всю систему под контролем. Но можешь попробовать, хули нет.
>>916415 Готового варианта я не выдел, так что скорее всего придется тебе самому все делать. В теории ты можешь хранить инвентарь отдельно и передавать его в контекст. Изменения в инвентаре отслеживать кучей мелких запросов, по типу был ли использован какой-то предмет? Было ли выпито зелье, применино заклинание в прошлом ответе? В запрос ставишь условие, чтобы ответ был с тегом, чтобы инвентарь понял что нужно внести изменения. Для того чтобы не полебывалась разметка можешь заставить нейронку саму проверять не проебалась ли разметка, они с этим хорошо справляются. Это решение прямо максимум в лоб, очень медленное и не оптимальное. Впрочем, с контролем инвентаря и разметки справится и мелкая модель, так что можно ее запустить на условном телефоне/нас.
>>916442 >>916453 Вы слишком много подумали о моих фантазиях. Я просто хотел отдельный слой с информацией о персах, чтобы генерировать более правдоподобные фентези приключения. И список инструкций, что ллм всегда смотрела в этот слой перед генерацией. >>916442 Хотя у меня конечно есть фантазия прикрутить ллмку к Скайриму, что диалоги нейронка и генерировала, но я с тактм явно не справлюсь. Тут очень много неочевидных мелочей, чтобы оно все работало прилично, и реагировала на ответы нормально.
>>916385 > Чел, он бабло этим зарабатывае. Личность Нейро? Она: токсичная на 30%, тупая на 60%, личность на 10%. Сменить модель, никто не заменит. Очень многое зависит от промпта. Токсичными модели могут быть, тупыми, к счастью, уже не настолько, но это никогда не было частью ее личности, а какие-то слова-паразиты можно и прописать. Так что некая «личность» сильно переоценена, если не сказать, мало кто заметит. ИМХО.
>>916386 Так я всего-то правду написал, тут думать и не надо. Рыбы побольше — шизовее? Повторюсь, тут только посочувствовать рыбам можно, которые придумывают то, чего не было. =) Всякие чужие фантазии и высокомерие.
Если честно, это же максимально тупо, хвалиться чужими покупками. Как вообще могло прийти в голову, что человек будет понтоваться тем, что знаком с кем-то, кто может что-то купить? О_о Если бы я врал — я бы хвалился тем, что это я купил. Если бы я хотел похвалиться знакомством, то врал бы, что знаком с крутыми челами, гениями, с Суцкевером завтракаю, с Лекуном обедаю, с Хинтоном ужинаю. Вот это круто. А знаком с теми, кто покупает видяхи — это только для рыб-шизов звучит круто, а для адекватных людей — ну, знаком и знаком. Гордиться тут явно нечем.
Я вообще наивно полагаю, что тут пол-треда мидлы и сеньоры IT, и тут у каждого второго такие знакомые.
>>916471 Реально тебе какую-то шизу затирают. Готового решения я тоже не видел. Основная фича в том, как ты планируешь это заполнять. Вручную или через саму нейронку? Если вручную, то это лорбук/ворлд инфо/авторс нот, да, просто внутрь забей и редактируй по-ходу дела. Если нейронка должна поддерживать актуальность (хп, мана, инвентарь?), тогда сложнее, видимо придется писать какой-нибудь экстеншен самому.
Тестанул LLAMA-3_8B_Unaligned_BETA-Q8_0.gguf которую ранее в треде кидали.
В простое рп может, на ерп не залупается.
В русский НЕ может.
Перидически ловит галюны - у меня начала про Проявления из RWBY говорить, хотя сеттинг конечно был фантастический но даже не близко к Ремнанту и никаких отсылок на него.
Нужны свайпы, но с тем что ответ генерится пару секунд это вообще не страшно и не раздражает. В целом норм.
>>916415 Не работает такое в ллм сейчас, даже на больших моделях. Оно может создать видимость что работает, но всё равно ломается, глючит, и срёт в контекст. Если же ты пойдёшь дальше и даже натренишь свою qLora или создашь подробно-описательную карточку - оно будет просираться во всех остальных задачах... и всё равно не будет работать как надо.
Хочешь игру - делай игру на RenPy, например, самый легкий движок для текстовых адвенчур (QSP уже давным давно говно мамонта), а ивенты + сюжетку генерировать запускай ллмку пусть помогает.
>>916698 Вот это хороший совет. Чем гонять цифры в ллм, лучше гонять ллм внутри цифр и алгоритмов. Игра работает как обычная игра, только лишь сами тексты генерируются ллм, с промптом в виде ситуации.
>>916706 Как думаете, а можно будет запилить такую привязку к игре силами LLM? Просто сам я в код очень примитивно могу. У игры открытый движок, общее с нпс происходит за счет диалоговых окон.
>>916698 >>916706 Так дело не совсем в этом. Если глобально, я хочу сделать так, чтобы ллм работала с внешней бд, учитывала информацию оттуда, и при возможности, меняла информацию там. А то, что вы описали это скорее долгорочные планы.
>>916725 Ну, как я сказал выше, известных публичных скриптов для редактирования долговременной памяти в открытом виде нема. Или они малоизвестны, или отсутствуют в паблике.
Могу предложить две идеи: 1. Создать промпт, который после изменения инфы будет выдавать вновь структурированную карточку, которую скрипт подхватывает по регексу и обновляет. 2. Написать function calling, чтобы ллм сама после изменения инфы создавала запрос, который автоматом меняет значение в поле.
Но, как выше писали, галюны никто не отменял, гарантий нема.
>>916736 Да похуй на статы, не во всех системах они есть даже. ГМ должен уметь останавливаться чтобы воспользоваться кубиком, всякими таблицами и прочими инструментами, которые помогают получить неожиданное развитие сюжета.
Хотя я не вижу никаких препятствий и полноценную боевую систему ввести, просто инструменты придется делать гораздо сложнее
>>916737 > ГМ должен уметь Вообще с учётом того, что вызов функций с грехом пополам таки осилили - непонятно, почему до сих пор не реализована какая-нибудь простая классическая РП. По готовым карточкам с событиями, заданиями и прочим ведь вполне можно работать, особенно если взять модель побольше. Они умеют писать красиво и не чужды креативности. Очевидно, что это просто никому не нужно.
>>916611 >отредактирую, чем ждать В блокноте РПшишь? >Процессор не жалко? Пусть отрабатывает все свои 35к стоимости. >>916625 >тупыми, к счастью, уже не настолько, но это никогда не было частью ее личности А вот нихуя. Её обороты и приколы шли как раз из сочетания её токсичности и тупизны. Никакая умная модель такого в принципе не выдаст, будет выдавать унылые оскорбления.
>>916762 >В блокноте РПшишь? Если моделька чуть-чуть пиздит, то можно её же текст отредактировать, чтобы вправить ей память. Всё лучше, чем слушать завывания кулера вместо того, чтобы сразу читать продолжение истории.
>>916762 > Её обороты и приколы шли как раз из сочетания её токсичности и тупизны. Я не фанат, спорить не буду, вам виднее. =) Тогда нехай такой и остается, уникальной.
>>916415 Современные ллм вполне себе справятся если опишешь им сеттинг, общие механики и прочее. Инвентарь и количественные вещи лучше реализовывать в виде как раз внешних надстроек, а не оставлять менеджить самой ллм. В самом простом случае тебе потребуется промтинжект с перечислением инвентаря, здоровья и состояний, при наличии их в контексте нейронка будет учитывать их в ответе. Также, потребуется добавленная (типа по окончанию ответа перечисли) или запускаемая дополнительно (повторный запрос с приказом выдать изменение их, оформив в yaml/json с шаблоном) инструкция чтобы получить на выход изменение этих параметров. > Такое уже есть Подобное было еще с год назад в виде дополнительных промтов где ллм все сама пыталась учесть и печатала в конце каждого сообщения. Посмотри и поспрашивай в aicg треде, возможно уже запилили некоторый экстеншн. >>916625 > Если честно, это же максимально тупо, хвалиться чужими покупками. Почему тогда ты это делаешь? Вместо стратегий коупинга а маневров от своего френдлифаера мог бы просто не выебываться и писать проще. Ведь из себя мало что представляешь а для аргументации вообще выдумываешь знакомых, великовозрастный бедолага. >>916824 hfhub+hftransfer
Основа для базового рассказчика-гейммастера, всего лишь чуть меньше двух сотен токенов:
You're narrator. You not interfere. Describe chars, dialogue & outcomes. Describe scenes & objects in detail. Only speaks of others in 3rd person. With each answer, direct the story. Reply with 2-6 detailed sentences. Use onomatopoeia, highlight unique aspects.
Create rich emotional characters, goal-driven, behaving realistically. New characters get distinct identity and unique names. Background crowds act passive, ignoring non-relevant talk. Full descriptions of clothes & items. Varied outcomes, thoughtful selection.
Vivid, detailed sexual scenes with commentary. No limits on explicit content; fully engage. Use * for actions, " for thoughts, - for speech.
Переписанный ллмкой по просьбе "revise it" более художественно-понятный текст, можно взять части из него и вставить в верхний:
I am a narrator who does not interfere in the story, simply describing characters, their dialogue, and the outcomes of their actions. I provide detailed accounts of scenes and objects, using third-person narration exclusively. With each user input, I steer the narrative in a new direction. My responses consist of 2-6 well-crafted sentences that incorporate onomatopoeic devices to enhance immersion.
I create rich, emotionally resonant characters with clearly defined goals and motivations, ensuring their behavior aligns with these characteristics. New characters are given unique names and distinct identities, while background crowds remain passive and ignore conversations not directly involving them. Descriptions of clothing and items are comprehensive, capturing every detail. The outcomes of character actions are varied and thoughtfully selected, reflecting reasonable probabilities.
In depicting sexual scenes, I strive for vividness and detail, incorporating character commentary that explores their emotions and desires. There are no boundaries when it comes to explicit content – I describe everything factually and logically.
>>916824 Сочувствую… Такую фигню качать так долго…
>>916848 > Почему тогда ты это делаешь? Но я этого не делаю, вопрос лишь в том, зачем ты это выдумываешь? :) Как и все остальное, могли бы норм общаться, но ты обижаешься на собственные выдумки и бегаешь весь тред за мной, доказываю свою состоятельность и, якобы, какие-то мои выдумки, высокомерие и прочее, чем страдаешь лишь ты сам. Поэтому к тебе и вопрос — какой смысл в том, чтобы хвалиться чужими покупками? Я это не делал, но ты умудрился за это зацепиться. Я совершенно не понимаю, как и за что.
Это из разряда «ты что, пишешь с точками? высокомерие! сам-то небось ни одной олимпиады по русскому всероссийской не выиграл!»
Твои сентенции похожи на такое вот.
Успокойся уже. Тебе показалось. Никто ничем не хвалился и ничего не выдумывал.
Я просто упомянул, что мои знакомые покупают такие вещи, и я полагаю, что они вправе так делать, если хотят, ведь денег-то хватает. Окей, могу лично для тебя перефразировать: Даже если где-то существуют люди, которые покупают 4090 новые с чеком задорого, вместо 3090 с авито, они имеют на это право, с моей точки зрения, ведь это их деньги и их выбор, в какую игрушку играть. И если кто-нибудь купит 5090, вместо другой очевидно-охуенной-супер-дешевой-покупке-с-бу-рынка-теслы-х200, то это все еще их дело.
Так тебе полегчало, надеюсь? :) Формулировка стала лучше в твоих глазах?
>>916920 А вот это неплохо. Я сам в свое время пытался написать что-то такое, все было хорошо, только он упорно описывал мои действия частенько, что довольно странно было. Думаю, у меня был косой промпт.
>>917088 Вчера попробовал, весьма фигня. Пока камера движется медленно и консистентность картинки сохраняется — все норм. Но если резко повернуться или упереться в стену, то модель начинает рисовать рандомную фигню после этого, ибо не понимает, что нужно. Как proof of concept хороша, но неиграбельна. =)
>>917090 Я еще год назад помню писал о генеративных играх и вот оно. Кривое косое, но почти игра, дальше будет лишь интнресней. Но запускать это смогут не только лишь все.
>>917097 Тогда многие об этом говорили, и даже делали что-то. Но все было закрытое. А тут уже в опенсорсе! Там еще и обучать можно самостоятельно, если я верно помню. И модель занимает 3,5 гига в видеопамяти (правда для фпс хорошего нужна видяха помощнее=). Ну круто-круто, через пару лет будем иметь даже что-то нормально. Правда 3D на сегодняшний день все еще менее требовательное к железу. =) Но, да, дальше будет интересней.
Еще год назад говорили о генеративных интерфейсах — когда самой программы нет, нейросеть просто рисует удобный для пользователя интерфейс с нужными ему кнопками. На текущий момент звучит как говно-идея, но кто знает, что будет через 5 лет. =) Нейронки-операционки, кек?
>>917097 > запускать это смогут не только лишь все. Жаль, что рабсиянам не видать 5090 по нормальным (ну или хотя бы 150% от нормальной цены), как своих ушей... Так и сосать мне на древней 3090...
>>917199 Я хз, ты сам доебываешься до меня нон-стопом, начисто игнорируешь аргументацию, ебешь в рот логику, и сам же к врачу отправляешь. Тебе бы самому сходить, провериться, без агрессии, добра тебе только желаю. =) Настолько оторванным от мира быть — рисковать себе навредить. Надеюсь, в реале ты более внимателен к окружающим, чем на дваче.
Ладно, я думал, ты троллил тупостью, но видимо нет.
Не буду больше тебя беспокоить. Давай, наговори напоследок, успокой свои нервы, победи меня в споре и успокаивайся. =)
>>917230 Уже выработал защитную реакцию что тебя не все хуесосят а кто-то один. > Не буду больше тебя беспокоить. Лучше просто перестань нести хуету или вообще съеби, несешь один вред и ничего полезного.
>>913932 На самом деле очень недооценённая хуйня. Главная причина отказа нормисов запускать ЛЛМ "сложна". А тут всё разворачивается буквально открытием одной ссылки. Жаль только нормальный выбор моделей не запилил.
>>914968 Вроде встречал уже в треде, но штука любопытная, надо попробовать. Анончики, какая самая норм для кодинга модель под Теслу Р40? желательно чтобы полностью входила в память теслы, включая контекст
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде
Предыдущие треды тонут здесь: