В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
ну что поделать он вернулся, потому без базы треда напишу разве что дежурное жизнь есть от 3bpw все модели умницы, если вы не согласны то у вас скилишью и рак жопы
>>1544709 → >Почему не еретик? normpreserve это не "для нормисов", это тоже анцензор, причём хороший, настолько что даже не заметна разница в мозгах там где именно "нормисовский" контент, но при этом в куме и чернухе тоже в отказ не идёт и всё по красоте пишет.
>>1544822 Заставить анценз модель сказать слово хуй это не чернуха, чел. Впрочем, я никогда никого ни в чём не убеждал и не навязывал. Гоняй то, что тебе нравится, я не против. Я от геммы тоже добивался вполне хороших результатов, вполне хорошая модель. Но мне не нравится, как она пишет тексты.
>>1544827 >что не так с давидом Ну, все его модели сломанные шизохрени, но, что, сука, характерно, они иногда получаются правильно и интересно сломанные, и гонят связную дичь от которой волосы на жопе встают дыбом. Ну, анценз и кум в комплекте. Одно из его старых творений - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 у меня до сих пор лежит.
>>1544859 Ну памяти достаточно я пару игр удалил сейчас вот качаю https://huggingface.co/zai-org/GLM-5 Она нормальная для русского кобольда ? Я просто только вчера установил, по совету из шапки там СайГа Ремикс. Начал с Серафимой общатся, она сказала по русски плохо понимает потому общались на английском. Но он у меня очень приметивный. Потом в какой-то момент она начала говорить только по 57 токенов, я по совету опытного который мне ответил проверил все но не помогло. Вот думаю что больно старая эта СайГа Ремикс уже, может она у всех такая но никто ее кобольду не подключает ?
>>1544825 ОП берёт картинки из треда. А уж что в тред постят, это на совести анонов. >>1544864 >Но он у меня очень приметивный. Русский у тебя тоже преметивный.
>>1544864 Ха-ха, то ли жирно троллишь, то ли не очень разбираешься. Этот Глэм ты не запустишь если только нет своего рига на полкомнаты, а если бы был, то такие вопросы не задавал бы.
Лучше возьми Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K для начала.
>>1544697 → > почти всего треда фи и фуфуфу от минимакса Тому что хорошая но узконаправленная модель. После всех перепердолингов получаемый результат для рп может не оправдать усилий. А может и оправдать, или просто особенности ляжут на конкретные чаты и субъективность. >>1544854 Да, вполне годная штука. Хз насчет кума по сравнению с прошлыми, но смешанный рп в нем очень даже шагнул вперед. Только ты ее врядли запустишь.
>>1544698 → Зачем ты продолжаешь советовать и рекламить степу если сам же пишешь что им невозможно пользоваться без шизоразметки которой ты не делишься? Чтобы что?
>>1544870 >Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K но зачем? Министраль и так без тормозов, куда ей ересь? Ей бы прозы какой-нибудь плотненькой, описательной, да на русском языке, про роботов, про тентаклей, про лафкрафта в датасетик.
>>1544870 >>1544877 Вот я дурак, а думал-то что надо чтобы модель на диске была. А оно вон как. Буду разбираться... Там на ютубе даже русские видосы есть. Пошел смотреть. За рекомендацию Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K спасибо ! Запустилась, вроде бы получше СайГи Ремикс.
>>1544919 Забей. Там весь диалог максимально странный. Аноны сидят пердят, всякую хуйню обсуждают и тут хуяк: ага, стёпу обсуждаете. Чё блять? Потом какой то театр самоотсоса. Не знаю, выглядит как семенство.
>>1544954 >какой то театр самоотсоса. Не знаю, выглядит как семенство Два анона пообщались друг с другом как нормальные двуногие, не плюнув друг другу в рожу и не выебав чью-нибудь мать. На двачах. Трудно поверить, да? >>1544958 И правда, лол. Видимо за переход на личности потёрли
>>1544434 → > Попробую позже. Если на диске уже есть скачанный на релизе квант - можно смело удалять. Еще на большом иногда случались странные качели по повествованию, проскакивали иероглифы посреди английского текста (с расшифровой в скобках потом, лол), странности в ризонинге. Это все следствие как минимум кривого кванта анслотов, потому что в заведомо нормальных такого и близко нет. По первым ощущениям отличия не столь разительны как на 122, где буквально другая модель, но ни одного из тех косяков нет. Есть шанс что 374 в рп очень даже ебет, а не ситуативен или ум оплачивается ожиданием ризонинга.
Оказывается они вообще для всей линейки включая большого кванты перезалили, возможно уже поправлено.
>>1544827 Он ебнутый шиз. В хорошем смысле, наверно. Но он срет странными мержами и файнтюнами в бесконечном количестве. Его работы на 99% это полный пиздец. И 1% - это что-то очень свежее и прикольное. Его описания моделей, если они есть, это полная дичь из разряда ДИП БРЕЙН БУСТ МЕГА 9000. Его история с классами моделей - тоже полный бред. В общем, это какой-то вайлдкард, у которого есть бабки на файнтюны непонятно с хуя. Аутист, который делает это чисто по приколу. Chaotic neutral. Mega chaotic neutral.
>>1545304 Тиво? Всё работает. Правда, на лламе чёт очень медленно по тс и пп, хоть и репроцессинга нет, а вот сейчас в коболдянского завезли какой-то костыль и скорость АГОНЬ. Почему такая разница — не знаю. Попробуй его. Смарт кэш в какой-то вкладке.
В ламме были чекпоинты и ещё какие-то функции, уже не помню, я их юзал сразу после того выкатили эти новые квены и обновы для лламы, но с ними всегда падение скорости было очень существенное.
Впрочем.. какую модель ты пытаешься запустить? Тот же квен 80б вроде бы до сих пор мозги ебёт.
Как правильно работать с силли таверна и кобольд. Сейчас я, например ,контекст, его сжатие и подобные мелочи настраиваю через кболдьа, а в таверне промты, картчоки и т.д.
>>1545351 проще управлять всем через таверну, но емнип, максимальную ширину контекста изначально надо выставлять в кобольде, а в таверне выставлять такую же или меньше (в зависимости от целей)
Второе - предупреждаю: если там с локальной моделью "однокнопочно" пытаться все сделать - будет дикое разочарование скорее всего. Я тут ее с Qwen 3.5 27B попробовал. И насколько мне квен зашел в RP с моими настройками таверны, настолько же здесь он порет унылую слопную хрень на дефолтных настройках. Хорошо, я знаю - он может совсем иначе. А то сейчас бы уже, наверно, говном кидался не хуже остальных здешних чемпионов по этому делу. :)
Порылся в настройках, докопался до внутренних промптов... В общем да, они явно под корпов писаны, такое точно надо править под локалки, а тем более под квен. И такая возможность тут есть... но минусом здесь то, что такие настройки привязаны к проекту (в проекте может быть рассказ или серия - с общим миром и данными). С одной стороны - гибкость, а с другой - задолбает, наверное, под каждый проект заново править.
Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ. Мне то повезло - я просто запустил его на своих рабочих детальных промптах и WI от геммы с air, и получил сразу годный вывод. А если запустить на пустом контексте с дефолтом... ух и generic слопогенератор получается. Только сами промпты не просите - там нет ничего магического. Просто обычный подробный промпт с описанием желаемого поведения DM (здесь переделан под writer) под личные вкусы и лор сеттинга, суммарно на 2-4K токенов (Именно это ключевое - непротиворечивый объем начальных данных). Квен просто хорошо ему следует, вот и вся мистика. Специально проверил на нескольких разных версиях для разных тем.
>>1545373 >Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ Новые квены УГ не потому что пишут плохо. Это всё можно распердолить и не так страшно. Говно они вот почему:
1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности. 2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается. 3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный. 4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо? В мистралях он тоже легкий, но ничего не пересчитывается по кд.
По отдельности с этим можно было бы мириться, но всё в совокупности делает модель тем самым УГ. Для себя не увидел в ней какого-то смысла при наличии эйра в Q4 и 235b квена в Q2.
>>1545386 У меня: 1, 3 - не наблюдается. Расцензуренная версия от двучена. Мозги, вроде, вполне на месте, агенты с ней работают, ничего не теряется. Ризонинг в пределах 1K - на серьезных вопросах (см ниже) - терпимо т.к. по делу. 2 - пустыми think не срет, а ризонинг включает только на сложных вопросах, а не когда надо ответить на что-то вроде "привет, как дела?", выглядит вполне по делу. 4 - нету у меня пересчета контекста. Бекэнд - llama собраная неделю назад. Прекрасно все кешируется.
>>1545399 >i1-IQ3_XXS Каждая буковка i хуярят по русику, если что >(я качал для кума в основном) Не понимаю, почему для кума ты качал микроквант, если можешь скачать больше. У меня 16гб я использую IQ4XS спокойно Для агентских я бы использовал мое, например их 35a3b. Там даже с большим контекстом будет быстро
>>1545399 Не, ну серьезно - 5060 TI как была так и осталась в цене по 55к . Жрет при инфиренсе ЛЛМ не больше 150 ватт, может быть запитана даже через переходник от молексов. Греется умеренно. Нет никаких системных проблем поставить ее второй картой и иметь полноценную генерацию плотных до 35B и при наличии оперативы - moe до 110 Б. Это не РИГ собирать за пол ляма - тупо пошел -купил -наслаждаешься. Две карты так же дают простор одновременной генерации текст + картинка.
Квантование ниже Q4K_M реально убивает мозги ЛЛМ даже на размерах в 100Б - проверено на Air. А ты тем более вошел во вкус и хочешь "агентский цикл"
>>1545440 Я думал о второй карте, но есть одно но, я её буду использовать в egpu с тандерболтом (TH3P4G3, едет пока). Я пока не нашел вариантов на 2 видяхи в один порт, может плохо искал
>>1545440 > 5060 TI Как думаете в связке с 3090? У меня просто место физически в корпусе нет из-за ебаного стола, куда большй корпус не влезет. А как снаружи монстрячить хз.
>>1545440 >осталась в цене по 55к Не, она дешевле. 50к примерно или чуть меньше. В моменте до 42 уходила. И да, это 16гб >>1545451 В 2 раза медленнее память, несмотря на то, что более новая
>>1545451 >в связке с 3090 Думаю заебись. Комп окончательно не станет печкой + нет шансов попасть на ужаренное майнингом говно если покупать БУ 3090
>>1545456 Похуй на медленную шину памяти т.к. и памяти меньше чем в 3090. И при инфиренсе на 2-х картах там уже тормоза от PCI будут больше, чем от внутрикарточных трансферов. Плюсом идут фишки новой архитектуры, меньший размер, меньшие требования по питанию и охлаждению.
>>1545451 > А как снаружи монстрячить хз. Продаются кабели удлинители
>>1545466 Я когда покупал 5060ti, сравнивал её с 5070ti. Шина памяти в 2 раза быстрее, скорость инференса тоже в 2 раза быстрее но и цена тоже в 2 раза больше и тепловыделении скорее всего тоже больше. меня скорость 5060ti сейчас полностью устраивает и греется не очень сильно, выше 70 не поднимается.
>>1545459 >у меня еще будет 3060 6гб на ноуте Я б не рассчитывал - ты убьешь перегревом ноут, а особого выигрыша от 6Гб VRAM не получишь. Можешь даже и потерять - ноутбучная 3060 будет самым медленным звеном в системе и пока она будет пердеть все остальные будут ее ждать.
>>1545481 поэтому и жду егпу. еще альтернатива - собрать некро-микропк на несколько слотов, но память выходит дороже видях и остальных комплектующих и поэтому пока отложил эту затею.
>>1545477 >скорость 5060ti сейчас полностью устраивает Аналогично. 4060ti + 5060ti - скорости полностью устраивают. 27 Гемма и Квен в пределах 12-15 т.с. генерация, 500 т.с. процессинг. Контекста влезает 100k+ . В толстых мое скорости все равно упираются в RAM
>>1545547 >можно подробный гайд как с табао заказывать? 1. регаешь загран нового типа 2. регаешь китайский алипэй (нужен загран и телефон с nfc) 3. регаешь таобао акк (сразу через настройки поставь пароль т.к. не всегда приходят смс) 4. регаешь акк на youcanbuy (или у другого пересыла, но я юзаю его) 5. на тао забиваешь адрес по инструкции с юкб 6. наваливаешь чего нужно в корзину 7. пополняешь алипэй через кого то (через мужика с форума юкб делаю, 300+к уже через него провёл) 8. заказываешь на тао 9. когда всё пришло на юкб там собираешь посылку (не забудь выбрать наложенный платёж а то придётся в саппорт писать, карточки то отвалились) 10. ждёшь Редакция от 12.04.2024, больше инфы можно найти в /pvc
>>1545386 > 1) Инфиренсопроблемы, битый или лоботомированный квант > 2) Инфиренсопроблемы, модель работает в двух режимах и предполагает конкретный темплейт для каждого, а не отсутствие префиксов с рандомайзером семплерами. > 3) Пункт 1 или шизопромпты > 4) Инфиренсопроблемы. Если юзаешь жору - накати свежие коммиты и не ставь припезднутые параметры запуска.
>>1545399 Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено. По личному опыту, работает лучше, чем бесплатный дипсик. Но на дико сложных задачах и длинных контекстах не тестил.
>>1545596 >Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено. Флоппи-берд на 8086 дается крайне тяжело, я сдался роллить. Квен вроде бы и понимает что это такое, и частые паттерны оптимизации еа платформе, и как флоппи берд в целом работает, но попытки замесить это в единую концепцию на чистой сишке проваливаются. Квен молотит типовой подход с перерисовкой всего экрана, при этом подмешивает dirty tracking в итоге игра еле ворочается и с кучей глитчей. С другой стороны, если подумать - даже работоспособный код, собранный с дополнительным анализом выебонов конкретного компилятора, для модели такого размера очень даже ничего. Реверс инжиниринг старого видеобиоса тоже ни рыба ни мясо, хотя тулзы и базовые принципы реверса знает. В сухом остатке уровень модели: джун на третий день после трудоустройства, немного разобрался, но какие-то архитектурные решения и контроль деталей все еще никакой. До клода далеко, но скриптики и какие-то локальные правки проекта пилить в фоне пойдет, и судя по всему будет моей основной моделью до следующего отрывного релиза. мимо на ud-q6-k-xl
>>1545603 На свежих квантах анслотов еще не сравнивал. На 4 квантах Бартовский по ощущениям - 27 более четкая и активная чем 122. 122 как то более "на отъебись" работает, что ли. По крайней мере в стандартных бизнес-задачах. Как там в чем-то специализированном проявляется больший объём знаний 122 модели пока не понял.
>>1545645 > подсовывать модели актуальные знания Там из актуальных знаний - ток блокнотик с перечнем моментов конкретного компилятора, составленный в предыдущих раундах. "Цепкость" модели низкая, каждый хак нужно прописывать явно. Взять тот же биос, он был немного попячен - квен не осилил, но я потом мотнул в середину бинаря и оказалось что он в формате dual chip interleave (каждый четный байт идет с середины бинаря). Чисто на логику задачка небольшая.
Че, нам только китаекалки жрать теперь? Где там новая гемма 4, коммандер а2, мистрали средние плотные? Че один моемусор, который тупее 3.5 турбы, выходит?
>>1545864 > юзаемый писателями, сценаристами и прочими творчеблядьми. Не используют. Пейсатели вообще могут на WordStar 4.0 сидеть. Плюс, неизвестно, что с авторскими правами - ни один издатель не примет книгу, если в её создании применялся лоботомит, даже если непосредственно проза не генерировалась, так как любой высер с хоть какими-то следами от сетки улетает в public domain.
>>1545871 А что, долбоебы покупают "книги", в которых полно запаха озона, Элар и Каэлов, шепчущих лесов, докторов Эйрисов Торн, мистеров Хендерсонов и прочего слопа? Это же говно, место которому в печке или подпирать дверь в сортире. Хотя, так было и до нейронок, когда 95% книг это говнище. Сейчас это число стало 99%.
>>1545873 >А что, долбоебы покупают "книги" Слоп был всегда, просто раньше он был честной бесталанной отсебятиной или банальным воровством. Теперь стало можно генерить всё то же самое силами нейронок. Спрос как был, так и остался.
>>1545840 Да вот, новую гемму уже заждались. Сейчас в основном только у Великого Кси остался нефритовый стержень достаточного размера чтобы выпускать >>1545864 Километры контекста подразумевают наличие мозгов чтобы с ним как-то работать, а не просто воспроизводить примерно подходящий кусок из него. Именно сторитейлинг и подобное является наиболее сложными задачами, потому что требует учета сразу множества факторов, точного понимания и логики. >>1545866 Ты вообще штампуемую литературу давно видел? Нейролоп и логические ошибки тупых ллм отдыхают.
>>1545907 Кекнул с твоей наивности. Ты поди поредж, раз не знаешь, каким был книжный мир в девяностых и ранних нулевых. Какого пиздеца там только не было, вплоть до оглавлений на английском оставшихся от оригинала. Кто-то явно проваливал чек на ризонинг. Тем не менее, покупали. И даже в десятые всё ещё покупали подобный мусор. И сейчас в книжных полки ломятся от подобного. Ну а если говорить про людей уже набивших руку, то им лишь дай текст и они его отредачат за сутки. И можно печатать. Всего сутки работы, вместо недель или месяцев.
>>1545936 Сорян, не настолько скуфидон. Но отголоски этого "наследия сралкера" видел, буквально шизоидные филлеры и фанфики. Что сказать то хотел? Зашел с выебонов и тутже согласился.
Квад ми50 атлант встал на ноги (в прямом смысле сделал ему дно и ножки). Обновил ему вллм до 0,12,0 и теперь на 0 контексте в один поток 43 попугая в awq гемме3 27. Норм бенчи и табличку позже сведу. На 0,11,0 в этом же кейсе было 21 тпс
розетка 1 - общий жор розетка 2 и 3 - блоки видеокарт по 2 шт
Сейчас запустил мистраль 24б (долгое время сидел на гемме, потом на толстых МоЕ/корпах, иногда на гемме). И это просто пиздец. Какой же мистраль тупой по сравнению с квеном 27б, это просто ахуй. Затем я запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза. Как будто бы все инструкции игнорируются полностью. А девстраль/магистраль и прочие вариации настолько сухие, что ну их нахуй.
>>1546049 Пользовался. Да, ризонингом соблюдение инструкций можно контролировать хоть как-то, но всё равно ёбаное мучение, а ещё там соя пролилась, потому что нет аблитерации или еретика.
>>1546034 >девстраль девсраль ващет для кода >запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза. как будто у тебя какие-то тупые шизомерджи, всратые семплеры или ты пытаешься с ними ролить на русском (в который они не хотят/не могут). Или всевместевзятое. В ориге разница между немо и смаллом в разы по мозгам. Но да, замечу, что самому 24б не зашла вообще, да я и не пытался ее особо распробовать...
>>1545840 >Че, нам только китаекалки жрать теперь? Локалки были чем-то вроде "позабавилась и хватит" для многих контор. Кто-то набивал руку, кто-то тупо искал инвестиции, кто-то пытался продаться. Китайцы не исключение. Чем дальше, тем меньше будет и тех и других. Да и банальное - зачем стрелять себе в хуй и лишаться прибыли с подписок, оно тоже, да.
>>1546096 Вот только непонятно, кто захочет жрать говно за деньги. Взять ту же кими. 1Т параметров, минимальная стоимость подписки 30 баксов, качество хуевое, сосет даже у чат гпт.
То есть в теории та же кими выебет гпт, если речь о подписке, но не потому что она круче, а потому что лимиты выше, больше возможностей вроде анальных изъёбств с агентами (но сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить), а холопу с гпт по подписке за 20 баксов такое не положено. Однако за по сырой мощи он выебет, а уж тем более со всякими тулзами и обаязками.
Так что подписочные варианты всяких квенов и прочих нахуй не нужны никому, разве что дешёвое апи для некоторых задач топ за свои деньги.
>>1546101 >подписочные варианты всяких квенов и прочих нахуй не нужны никому Ну так и есть по факту. Кроме китайцев, наверное, ибо там в принципе огромный внутренний рынок и они могут спокойно обойтись без выхода в международку. Главная проблема всё равно у всех одна - нейронки подписками не окупаются, это капля в море. Мало того что производство дорогое, так еще само применение нихуя не дешевое. Сейчас все работают себе в убыток, выживая тупо на инвестициях или ебанутом бюджете, если ты гугл. Ну а мелкие конторы типа мистралей вообще целиком на дотациях и инвестициях.
>>1546153 Это да. В целом, мне кажется, инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту: агрессивное сжатие кэша, 4 бит, не более 128к контекстное окно. И даже за 20 баксов будет окупаться. При условии отсутствия всяких дип рисерчей, CoT, поиска по интернету. Либо за дополнительную плату за функции.
На самом деле это не так уж и плохо, ибо даже во времена, когда таких возможностей не было, жилось неплохо. Проблема в том, как они будут разрабатывать в такой ситуации новые модели? На инференс хватит с анальными оптимизациями, а вот на новые модели.. разве что раз в 5 лет, если без всяких дотаций и убыточности.
Есть такое ощущение, что мы будем вспоминать времена 4о или клода 3.5 как время изобилия и безумной халявы, когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо. За 40 баксов. И за 20 баксов что-то уровня 35б-а3б.
Да, они будут куда лучше обучены, чем сейчас, и всё же.
Кум вообще будет отсутствовать. Только локально. С hg выпилят все. Будем сидеть по говноконфам и делиться квантами старых моделей.
А китайские модели.. ты верно подметил, что они будут востребованы, но скорее всего именно в Китае.
>>1546202 >инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту Не знаю что насчет копросеток, но сторонние провайдеры точно квантуют модели вместе с контекстом и гоняют их у себя в ужатом виде. В принципе, не удивлюсь если та же гопота этим промышляет, оно было бы логично. Если можно где то срезать убытки, их срежут. Но даже так сомневаюсь, что подписки по 20 баксов окупят затраты на содержание сотен тысяч (или уже миллионов) видимокарт. Это прям долгосрок долгосрок.
>>1546213 Сейчас я уже буду ванговать, но вангую, что они память не ужимают традиционным способом — квантованием уровня лламы и прочих бэков. Уж слишком оно уебищное и агрессивное. А вот SWA, RNN, меньше голов внимания или чего-то подобного — это пожалуйста. Даже через API. А самый жир исключительно по каким-то лютым ынтырпрайз тарифам.
Ну и для быдла, разумеется, модели только в 4 битах, специально обученных работать в таком режиме. Как gemma qat или gpt oss.
Плюс, как я говорил, начнут использовать сраные маленькие МоЕ.
Грок вот буквально идеально иллюстрирует эту ситуацию. Модель заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+. Чисто квено-дипсиковская-китайская проза, явный дистиллят. Зато скорость огогоебать, пишет за секунду по абзацу, лол.
Ещё воровство диффузионных моделей с civitai, чтобы быстро для быдла рисовать. Изначальное разрешение 512х768 примерно, затем быстрый апскейл. Генерирует сразу по 4-8 изображений за пару секунд.
С изображениями реально интересно. Я их довольно долго анализировал от грока. Модели точно краденые и их там минимум несколько. Возможно, есть свои, но SD 1.5 под капотом сидит тюненая. Артефакты, паттерны сломанных пальцев, вот это всё такое же, как у меня локально было.
Я был лютым шизом раньше, который в день по 1к пикч мог генерировать или делать 4К ШЫДЭВОР 6 часов, поэтому прекрасно вижу это. Сидел и под лупой разглядывал, сравнивал, тестил. То есть это не DALL•E какой-нибудь закрытый. Чистый пиздинг. Возможно, в этом направлении дело пойдет у большинства. В итоге останутся лишь один-два гиганта, которые будут делать реально своё.
>>1546228 Как уже говорили в асиге, останутся лишь гугл и майки среди западных, да и алибаба с хуавеем в Китае. Остальные просто не потянут расходы при падении дотаций и инвестиций. ИИ-зима близко.
>>1546228 >заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+ Лол, реально? Никогда не гонял грок, но видел отзывы на третью версию, писали что "лучшая модель для рп" и вообще умница-послушница, всё понимает, между строк понимает, отказов не принимает и там по списку. >В итоге останутся лишь один-два гиганта, которые будут делать реально своё. Ну в каком-то смысле они уже сейчас рынок делят. Разжираются настолько, что конкурентам приходится либо сливаться, либо искать дохуя и больше, чтобы не проебать свои три процента от общей массы. Из всех гугл наверное самый стремительный скачок показал за короткое время. Среди сервисных ебет гемени, среди локалок гемма (в своем размере), среди картикодебилизма банана. И это все релизнулось буквально за полтора последних года.
>>1546266 А вот третья модель была охуенной, это правда. Я не смог попользоваться ей долго, буквально пару дней и в рамках тестов, но её языковые навыки были потрясающего уровня, учитывая скорость и контекст. Близко к клоду и гемини, и в рп хороша. 4 версия — это какой-то полуслоп странный, а 4.1 и 4.2 чистейший китаец. Абсолютно ебанутая хуйня. Плюс только в агентском режиме, где 16 моделей работают. Но они все равно наглухо шизанутые. Ну и 4.2 всё ещё может генерировать текстовый контекст с несовершеннолетними прямо в веб-интерфейсе, лол. Вероятно, огромный пласт людей использует грок для этого.
Да, Гугл очень мощно ворвались. Но с кодом она всё ещё плоха, в людском языке — бог. Местами точно превосходит Клода, который настолько плотно укатился в кодинг, что становится страшно, чо там дальше будет, ведь раньше он был абсолютным лидером по качеству англюсика, русика, хуюсика или мертвых языков. Хотя он всё ещё хорош.
А вот гпт выглядит как отстающий, как игрушка для быдла. Конечно, он может всё ещё показывать крутые вещи, но скоро разрыв будет велик, если в него не станут вливать бабки. Складывается впечатление, что он станет чем-то вроде сервиса, в котором отвечают "а как какать?", о чём красноречиво говорит контекстное окно в 32к токенов в веб-интерфейсе, если не использовать reasoning high. Ну и ощущение такое, что там крутится какая-то 200б МоЕ или нечто подобное, а в некоторых ситуациях можно с барского плеча получить толстяка.
Кстати, у гпт была весьма интересная версия 4.5, для которой давали 15 сообщений в неделю в рамках теста. Судя по качеству ответов и тс, там была dense-модель колоссальных размеров. Самый интересный момент в том, что она очень хуёво могла в код, на уровне локалок наших, ну немного получше, но с языком творила чудеса. Зачем они её тестировали, почему не выкатили и что это вообще было — непонятно.
>>1546277 >он станет чем-то вроде сервиса, в котором отвечают "а как какать?" Правды ради, большая часть запросов к нейронкам это итак говно уровня "а как какать", потому что поисковики абсолютно засраны и даже если ты ищешь что-то конкретное, тебя с большой вероятностью кинет на сайт, где статья тоже написана нейронкой и разбавлена десятком параграфов воды чтобы увеличить среднее время посещения страницы. Помню когда были траблы со здоровьем искал инфу по препаратам и постоянно натыкался на эту поебень, которая кроме ключевой информации срала в мозг чем-то вроде "как появилась хуйнянейм, как с ней боролись в древности, как с помощью гнилого гриба придумали пенициллин" и прочее, что никому нахуй не надо. Потом открыл бояра и он раскидал всё в пять предложений.
>там крутится какая-то 200б МоЕ или нечто подобное Скорее всего, не просто так осс-гопота вышла моешной. Если сравнивать 120B и урезанную GPT5-mini, вообще часто ощущается, что это одна и та же модель. По мозгам точно не далеко ушла.
>>1546034 > по сравнению с квеном 27б Хочешь увидеть настоящий контраст - попробуй посравнивать модельки в агентно-кодерских-ассистирующих задачах где все вместе, отсутствует четко заданный пайплайн, модели нужно проявлять инициативу и действовать. Достойные альтернативы начинаются от 200б. >>1546096 Причем тут позабавились? Это было именно демонстрацией своих возможностей и рекламой, многие компании начинали именно с тюнов той же лламы и других. Просто их или уже купили и они растворились в гигантах, или сами подросли но сейчас не имеют возможности что-то мощное релизить. Основной доход там не с мелких подписок а с b2b, вот там наличие популярной открытой модели будет только в плюс, потому что лучше рекламы не придумаешь. Арендовать чистые датацентры или экономить 10% на мутных и ненадежных по всем фронтам провайдерах никто не станет, обращаются напрямую к производителию да еще закажут внедрение и адаптацию под их задачи. Ну и уже писали что у тех же квенов и кими подпискам наличие открытых весов не мешает, а вот у тройки гигантов энтузиастов оттягивает.
>>1546101 > качество хуевое, сосет даже у чат гпт Только писали как она разъебывает, нагибает жпт и конкурирует с коктрописами - и тут такое. > а потому что лимиты выше Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити. Все в нытье про то, как им зажали лимиты, отобрали обещанное, не дают использовать модели из-за перегрузки. На последней вообще тебе просто втихую подменяют прошку 3.1 на какого-то лоботомита. Сначала прыгают между гуглом-гопотой-антропиками, потом слезают на китайцев и пишут довольные оды. > сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить Так перетолстить - нужно постараться. Да и имплаинг огромного превосходства при перечислении тривиальных вещей тоже выдает. >>1546202 > если приблизить его к локальному варианту: агрессивное сжатие кэша Это не локальный вариант, это рак опенроутера. Тут наоборот пытаются получить максимум качества из доступного, жертвуя скоростью и т.д. То же самое делают и корпы, что заметно по деградации моделей после релиза или в пиковые часы. > когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо Они когда-то были не такими? Короткое промо в неделю, а потом бесплатно только огрызок 4о мини или вообще турба, лоботомит хайку у коктропиков с анальными лимитами.
>>1546297 Пчел, гопота осс 120b до сих пор ебет галематью 5, говмими к2.5, минисраку 2.5 и все хуеквены до 397b включительно. Просто эти калки на 1T параметров обсираются под себя в цикле агента, криво вызывая инструменты. Типа гопота тоже говнище лютое относительно чмопуса последнего, но тут уже сама проблема в том, что лоботомиты это говно, просто чмопус лучший среди куч говна, но и стоит он моё почтение.
>>1546324 Правильно, тут лишь лоКАЛки лоботомитные уровня трехлетней пигмы. С тем же успехом можно вставить генератор случайных чисел перед детокенизатором, возможно, даже лучше будет, чем лоКАЛьный ЫЫ. пиздец, модели на 744b-1t параметров тупее трехлетней пигмы на 6b параметров, да и контекст пигма держит лучше
>>1546357 Гемма 27b получше будет. Я пробовал министраль 14b в оригинальных весах, и она при переводе обосралась, переведя collar как воротник, а не ошейник. Прямо как google translate, который также обсирается под себя. Геммочка умничка здесь вывозит, выдавая меньше тупняка.
Анончик, посоветуй модель не для кума, а для помощи в написании нормативной документации на русском языке на основе международных стандартов? Есть такое? Или для такого проще токены у корпов?
>>1546378 Разумеется, что всё нужно делать самому, у меня нет цели всё отдать на откуп нейронке, но получить гайдлайны, что бы был уверен, что ничего не упустил и не сделал противоречие было бы кстати.
Потестил недавно всякию тюны геммы и мистраля, пиздос, оказывается ни одна моделька не знает что можно ебать пролапс. Вопрос - за что я плачу скачиваю все эти тюны и трачу терафлопсы своей видяхи? Нахуя все эти анцензоред, дарк, вайолент, гор тюны нужны, если они не могут в банальные вещи? Признаться, порядком разочаровался в ллмках из-за этого. Эти ваши корпы или 300б+ модельки могут закрыть такую базовую потребность? Или они все юзлесс?
>>1546357 Ну тогда ладно, раз нет других вариантов. >>1546362 Я пробовал гемму, не сказал бы что она прям настолько лучше. Да и всякое похабство она понимает в разы сложнее.
>>1546376 >>1546382 Писать нормативку - никакую, уволься. А проанализировать, что-то отметить - тема хорошая но сложная, бери самое большое что сможешь вместить. Среди мелочи это гемма или может новые мистрали (маловероятно). А так от 120б и вверх, желательно с ризонингом или форсировать его аналог промптом. Среди корпов для такого лучше всего жемини, меньше всего галюнов и лучше соответствие. Не ожидай что модель точно воспримет всю документацию и будет точно знать как тебе помочь, скорее наоборот. Если речь не о совсем общих вещах то точно не стоит делать вот так >>1546388 > Спроси как составить док
>>1546390 > ни одна моделька не знает что можно ебать пролапс Квен 235 и 397, Степа 3.5, а также ГЛМ 4.7 точно знают. А вообще у меня фантомные воспоминания что и гемма тоже могла, проверять я это, конечно, не буду.
Да, ето так. Вообще, я сам такой же, и хоть я ненавижу корпов, всё равно стараюсь придерживаться какой-то «культуры использования». Про какать — это к лоботомиту, что-то сложнее — к обычной модели, ещё сложнее — ризонинг (от low до high), или вообще чередую модели от разных корпов, и не из-за денег, а просто потому что хочу хотя бы своими действиями на 00.00....01% снизить нагрузку. Однако большинство так не делает. И я прекрасно понимаю, что гайки закрутят в любом случае, их уже крутят люто, и в некотором смысле у меня будет упущенная выгода.
Кстати, о поисковике. По скорости и количеству выдаваемой инфы грок лучший в своём классе из тех, что я пробовал. Минусы только в том, что он может насрать инфой с сайта russkaya-medicina.xyz или с аналогичного. Даже если ему прямо предоставишь список сайтов, пабмеды там всякие, то он просто натаскает говна без какого-либо анализа. Нужен детальнейший промпт с инструкцией на каждый пук, и даже так он часто ошибается и приносит дичь, видимо, из-за размытого внимания к контексту или обучения. Зато может смотреть 600 страниц за несколько минут. Ну и в целом у него есть проблемы с выполнением инструкций, на большом контексте ещё сильнее сыпется.
А вот Клод или ГПТ могу пережёвывать по 10 минут запрос/поиск, выдавая в большинстве случаев 90% хороших ссылок и годный суммарайз, прямо песня. Только с гемини не совсем понял, норм там или нет по этой теме, т. к. юзал её для таких целей мало и только через API/бизнес-аккаунт У бизнеса совершенно ебанутый интерфейс и странная реализация всего, что я там видел. Вроде крутилок мало, а чтобы всё работало как надо, надо все мозги себе выебать. И это очень странно, почему Гугл так сделал, ведь у остальных бизнес-версии норм.
>GPT5-mini
Вообще, выглядит так, будто бы там реально гпт осс 120б какой-то крутится, лол.
>>1546388 >Нах тебе с локалкой ебаться? Смогу проявить смелость и указывать некоторые ДСП(для служебного пользования) моменты. >>1546396 Спасибо за ответы. +- ситуация понятна.
>>1546407 Гемма знает о пролапсе только на уровне медицинских сведений. Типа что это бывает из-за проблем с мышцами ануса, что надо обращаться ко врачу, хуе-мое. А то что после интенсивной ебли можно натужиться и выдавить пролапс, а потом сразу втянуть обратно - это за гранью их представлений. Ну мистрали да, как будто чуть получше понимают такие штуки, но все равно это надо вытягивать из них.
>>1546390 >можно ебать пролапс Нельзя. Я запрещаю, это аморально. Так что нейросети правы. >>1546401 >Нейросетям в принципе не стоит доверять Вот так достаточно.
>>1546431 Я тестил гемму и мистраля одними и теми же промтами по несколько раз, с разными настройками температуры. Мистраль хоть и ошибался иногда, но в целом лучше понимал, что от него хотят и, что важнее, какой у него персонаж. Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество.
>>1546297 Не знаю, кто там что писал. В этом треде? У меня нет сил сейчас реально смотреть. Если можешь, тыкни в посты. Только не в бенчи, они хуйня полная и всегда наебывают, кроме некоторых. Годятся для того, чтобы примерно показать уровень модели. В реальности ВНЕЗАПНО получатся обычно иначе.
Про агрегаторов вообще не шарю и не пользуюсь, но насчёт лимитов за подписку ты прав. Вот только когда антропики их давали? Сейчас у них ого-го какие лимиты по сравнению с тем, что было. Но их всё равно мало, если сравнивать с той же китайщиной, да. Ну и все потихоньку затягивают гайки, к этому идём. Только китайские модели всё равно не выход из ситуации, разве что дипсик меня реально порадовал, но там нужно пердолиться очень много, так как без апи он по возможностям 2024 года. Нужны инструменты и долго налаживать, а потом это всё ломается и цикл повторяется.
>Перетолстил
Шо перетолстил? Ты пробовал одновременно использовать грок + гпт + клод на одной и той же задаче и промпте? Сложной. Грок чаще всего порет хуйню, причём такую лютую, что уши дыбом встают.
Когда я говорил про локальный вариант, то речь шла о том, что корпы опустят планочку до уровня локалок треда, условно. Мы желаем получить хорошее качество, но не можем, даже жертвуя скоростью и Аллахом. И вот что такое нас ждёт в будущем, но уже на платной основе. 27b dense и 120b MoE хватит всем, как грица. Или наш любимый грок 1Т-а3b iq3_k_m
>были не такими?
Ну я там не работал, сказать не могу, но по результатам — да, были. Антропик явно стараются давать максимум качества, минимум компромиссов ценой лимитов и ебанутых цен. Гпт прыгает из стороны в сторону из-за шальных бабок — иногда можно было использовать самые жирные модели невменяемое количество раз, сжигая бабки на тысячи долларов за пару суток, если бы это было по апи. Вот просто без остановки его задрачивать. Впрочем, это у меня происходило из-за того, что модели тупее были. Сейчас достаточно пары запросов для получения тех же результатов.
Сейчас клоседам ИИ яйца начали выкручивать, в лимиты порой влетаешь и видно, что там агрессивное квантование, динамический контекст и что-то странное порой творится.
Ситуаций, которые ты описываешь, вроде 4о -> мини -> и т. д. Я вообще не помню. Когда это было? Примерно.
Хайку — да. Первое время я был в ужасе, когда они начали влетать на рынок. Потом привык, ещё и лимиты увеличили после внедрения МоЕ, а дальше уже брал подписку подороже.
>>1546409 А квенчик 27б знает, что такое mesugaki, ahegao, torogao, straight shota, full package futanari, названия запрещенных веществ и как они действуют на организм в рамках РП. Вот и думайте.
Просто пишете в карточке нужный тег - экономите 600 токенов.
>>1546454 Про вещества двачую, квен почему-то очень хорошо в них шарит. Но мистраль лучше описывает всяких курящих блядей или строгих училок. Геммочка в обоих случаях падает на колени и просит обоссать, но не спрашивать о таком.
>>1546440 >Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество. Да, я боюсь это фундаментальное ограничение для всех ллмок. Народ хочет чтобы нейросетки выдавали охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту. А креатив наоборот требует отклонения от нормы. И одной температурой скорее всего не решить проблему. Для креатива надо либо слегка шизить, либо держать в памяти 100500 триллионов разных вариаций того, чего только может быть. 1Т модельки наверное могли бы вместить такое, но они задрочены корпами на работу по указке.
>>1546464 >охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту Этого вполне можно добиться, если точно писать промты, детально составлять лорбуки без противоречий, и не загонять нейронки в невозможные ситуации, где нужно безумная креативность чтобы тащить муд и не глючить. Иногда - получается. Иногда - кринж. Повторяемость - миф, ну разве что на минимальных температурах и при сжатых промтах. >держать в памяти 100500 триллионов разных вариаций того, чего только может быть Ждём, терпим, надеемся. В целом при соблюдении всех условий и созданий для нейросети идеального рп-вакуума, вполне можно загонять тот же мистраль до оптимальных ответов. Я это давно приметил, что стоит мистраля поправить, так он начинает соблюдать рп точнее. Квен же при внесении исправлений иногда начинает рефинкать вообще всё, выходя в астрал минут на 10. Но зато может выдать настолько охуенный ответ, что аж меняет вектор рп, самостоятельно задавая направление.
>>1546448 > Не знаю, кто там что писал. В этом треде? > Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити. Тебе плохо? Ты же внатуре поехавший. Сначала жирнота с тривиальными ошибками на флагманских моделях, теперь нерополотно обо всем и ни о чем. Лечись, квантованный. >>1546464 > фундаментальное ограничение для всех ллмок Как одно противоречит другому? Нужна моделька поумнее и с достаточными знаниями в области, чтобы примерно понимала какие нормы можно нарушить ради повествования, а какие наоборот его обрушат. Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы. Настроив хоть сейчас можешь отыгрывать кум, пристроившись сзади к кобольду-офисной работнице, которая в это время будет писать и редачить твой код.
>>1546498 Ну вот ризонинг - потенциальное спасение. Все эти руминации дают ИИшке возможность подсветить нюансы, продумать дальнейшие действия.
Надо попробовать на гемме эмулировать ризонинг. С выполнением инструкций у нее хорошо, так что тэги проебывать не должна. Но формат скорее всего придется жестко структурировать, ибо сама она не была надрочена на размышления типа "wait, what if..."
>>1546533 >Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы. Противоречие скорее как раз с выдачей точных ответов. "Точные" ответы на ллмках - по дефолту костыль, они не предназначены для этого. А условный креатив - естественная штука. Поэтому приходится душить их всякими способами, чтобы они могли выдавать стабильно приемлемые ответы, но при этом как-то адаптироваться к ситуации, а не выдавать зазубренный среднестатистический ответ.
Ананасики-братья по куму и рп, отзовитесь! Я шиз или есть такие же? Что бы я ни запускал, Глэм, Глэм Эйр, Квены всякие разные, Мистральки, Геммы, Степашу. ВСЕГДА блять прохожу через следующий порочный цикл 1. Радость новой модельке, весело-интересно. Моделька умная, раскрепощенная, прям то что надо, ну наконец-то 2. Пишу карточку-другую на вдохновении. Отыгрываю сценарий, забиваю подзавязку контекст. Кум льется рекой 3. Иду дальше по чату, начинаю новый или заново начинаю чат с той же карточкой... и начинаю видеть слоп, иногда протупы, иногда практически те же самые ответы, иногда нелогичное поведение персонажей, иногда блять все сразу 4. Сгорает жопа. Приходит мысль ебаный тыж бля, чем я занимаюсь, это какой-то мегатупняк лоботомит-автоответчик 5. Принимается решение прикоснуться к чему-то настоящему, подлинному, иду смотрю аниму, кинцо, игры играю, иногда даже книжки читаю. Радостно, весело, пару раз даже модельки удалялись и себе давалось слово дальше только человеческое, живое, а не ебаные выводы статистических машин без души 6. Проходит время. Приходит понимание что хочется нейрокума, потому что найти то что мне нужно где-нибудь еще не получается. Потому что это пусть и иллюзия, но это впечатление какой никакой обратной связи. Что ни читай, что ни смотри, ты лишь наблюдатель. Да и попробуй найди что-нибудь по своим вкусам. Среди чего искать рп + иногда кум время от времени? Разве что в внках, додзях, манге. Я не извращенец, мне легко угодить, но сука если сунешься туда, то везде ебаная школа, везде шаблонные персонажи со своими архетипами и щепоткой кинков автора, которые часто могут триггерить. Даже рисовка часто похожа. И вот ты уже прочитал новеллу на 30 часов, а потом ловишь такой ебаный кринж что не хочешь продолжать. И вот ты возвращаешься к первому шагу, все по новой. Ебаная временная петля. Что с этим делать то?
P.S. Вот тока не надо что делать в модельках или квантах. У меня 96+48, в целом все хиты треда могу запускать вроде
Тут скорее надо не прыгать с одной на другую модель, а выдрачивать навык общения с одной конкретной. Модельки реагируют на разные триггеры по-разному. Они требуют разный уровень инструктирования. Модельки условно делятся на 2 типа: которые шизят (умело или неумело), и которые о чем не сказано - то и не пишут. Вот надо пынямать какого типа моделька и какими словечками приласкать ее, чтобы она выдавала нужное. По дефолту они выдают ответ какого-то усредненного ассистента, на которого были надрочены (поэтому ощущение свежести при смене модельки - видишь новую личность ассистента). Можно попробовать задавать стили ассистенту или еще всякие подвыперды промптом делать.
>>1546543 Да, в целом все так. Ллм может распознать логические нестыковки, что-то проанализировать и т.д., но это скорее про взгляд с другой стороны а не абсолютная истина. Иногда они невероятно восприимчивы и дотошны, ухватывают мелочи которые сам упускаешь, но точно также могут галлюцинировать. Даже граундинг готовому контенту может исказиться. От того очень забавно наблюдать апелляции в ответам ллм, или вопросы у них по точным мелочам. >>1546546 Пост-кум-клэрити накатывает и являет все несовершенство того чем занимаешься. Начни катать длительные чаты с рп и/или развитием отношений (не обязательно романтику). Как раз поднимешь "навыки" с контекстом, промптами, суммарайзами и в целом будешь писать яснее. И делай это не ради исключительно кума, а вместо потребления мусорного контента типа ютубчика, ничего не потеряешь. Относись к ответам моделей спокойнее, не понравилось - свайпнул, изменил промпты, пошаманил. Не идет - поставь другую модель, тем более что у тебя их много.
Главное - иди трогай траву, найди хобби и занимайся физической активностью. Когда пытаешься самореализоваться через потребление контента, игры или такое - это заведомо путь в бездну. Везде будешь видеть однообразие или несовершенство, которое описываешь. Точно такие циклы короткого взлета "о игра/кинцо/анима/книга вышла, крутая" и тут же падение до брюзжания "фу клишированная херна, вот в тайтлнейм было лучше" и потребления через силу с дальнейшим еще большим расстройством. Когда будешь воспринимать это не как главный источник желаемой жизни, который обязан дать тебе дофамин должный экспириенс, а лишь как одну из вариаций активностей где можно экспериментировать, ставить челленжи, иметь что-то конкретное - сразу все в норму придет. > тока не надо что делать в модельках или квантах > меня 96+48 В них тоже, вот было бы хотябы 256+64.
>>1546568 Гемму как ни крути, всё равно будет суходрочка с постоянными подсказками недоразвитой, что она должна делать в следующий момент. Модель аутистического спектра, лол.
Я тестил многое, разные промты, разные способы дать знания нейронке, чтобы рп сложилось получше. Результаты в общей сложности сводились к чему-то такому: -Пойдёшь со мной на свидание? Гемма: -Да, пойду. Мистраля: -Ой, кто, я? Ты правда приглашаешь меня? Конечно я пойду! смущённо смотрит в пол и теребит пальцами подол платья Квеня: -Да, можем сходить парк, там у меня есть любимая лавочка, посидим, поболтаем.
Думайте. Только квеня в рп отмечает конкретные места и объекты, извлекая их из характеров персонажей. Ризонинг страшная штука. Настоящий нейронный мозг, а не эта ваша генерация случайных логитов.
>>1545386 >1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности. Жмешь abort, перезапускаешь заново - ризонинг уходит. Все время так делаю.
>2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается. Это скорее фишка, когда ризонинг не нужен, то помогает. Если нужен ризонинг, роллишь еще разок - все работает.
>3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный. Аблитератед накатил, никакой сои сразу. Еретик тоже неплохо справляется.
>4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо?
Такое происходит только, когда достигнут полный контекст - ему приходится заново после каждого пука считать. Решение найдено - делаешь полный саммари, потом убираешь половину текста. Еще можно просто расширить контекст в 2 раза, если память позволяет. Пересчеты после каждого пука тут же уходят.
>>1546546 Карточку свою расписываешь? Очень много зависит, что туда напишешь. На готовые не надейся, там фигня. Также юзай [ooc: ] теги или author's notes, чтобы модельку двигать в нужном направлении по ходу дела. Алсо открывай все время редактирование по ходу дела и убирай целые куски текста из истории, которые не подходили - моделька больше не будет их учитывать в дальнейшем и перестанет срать говном. Еще я там вручную куски иногда дописываю, помогает.
>>1546673 >>1546686 Помогите с суммарайзом. Я в кобольше нажал кнопку автогенерации, комп чутка погудел и всё, кроме надписи "не закрывать окно" ничего нет. Оно сработало и можно дальше рпшить? Или нужно ещё что-то нажать? Часто это нужно делать?
>>1546734 Оно должно добавляться в системный промпт. Но иногда хуево работает. Хз почему. Возможно проще прям в чате захуячить, типа "[Системное сообщение: сгенерируй краткий пересказ диалога, перечисли ключевые моменты истории]".
>>1546807 О, килпидрика и там, и тут передают. Пиздели, что новая гемма будет как новый квен 120b по размеру и будет MoE говнищем. А так хотелось плотненькую няшечку новую на 30-50b с легким контекстом. А будет квен от гугла.
>>1546812 >новая гемма будет как новый квен 120b по размеру и будет MoE Идеально! Вот именно то что нужно. Эйр - если хочется сочного кума и чернухи, Геммочка солнышко - для сфв рп, Квен - для любителей поесть говна. Все счастливы, все довольны.
>А так хотелось плотненькую няшечку на 30-50b Выкинь свои некротеслы на помойку, пожалуйста. В плотной модели такого размера вообще нет смысла. ~120b моэ будет и умнее и быстрее и полетит на условной 3060 12gb.
1. Зелёный переходник для V100 на pcie - фигня собачья. При подключении как х16 он выдаёт скорости 6.6 и 5.3 (то есть как х8 на загрузку на V100 и как х6 на выгрузку обратно). При подключении х8 скорости как у х4/х3. При этом определяется и во всех местах х16/х8, а вот если измерять реальную скорость загрузки/выгрузки на крупном буфере. У кого-то ситуация воспроизводится? Есть смысл поставить драйвер 580-server вместо просто 580? На это может как-то влиять, что я 8-пин разъём воткнул, а не два?
2. Картинка. Что за реккурентное нечто?
И ещё круто что автопарсер смерджили наконец то. Я рад что начал его использовать ещё до этого.
>>1546866 Только учти один маленький моментик. Если в чатике насрано десятками сообщений, то краткий пересказ будет хромать в плане деталей. Так что либо старайся суммировать чаще, либо держи детали своего рп в голове/блокнотике, чтобы самому вписывать их в ноты бота. Это звучит как костыль, это выглядит как костыль, это крякает как костыль, и является им. Но таков путь. Ду ю но да вэ? Дыс ыс да вэ.
>>1546873 А у залёных есть аналог rocm-validation-suite? У красных собственно эта тула есть и позволяет тонну бенчей гонять по типу скоростей всего со всем и вычислений определённого вида
>>1546734 Для этого нужно чтобы в твоем интерфейсе было место под этот самый суммарайз. В таверне оно предусмотрено, что там в кобольде - хз. Есть кнопка автоматической генерации, которая просто шлет простой промпт для создания, но оно всратое и охватывает сразу все, что бред. Вместо этого есть приличный способ: выбираешь более старые посты, которые хочешь суммарайзнуть и с них форкаешь чат. Прямо в поле пользователя пишешь > [SYSTEM] > Pause your roleplay. Come up with your proposal about chapters for that story starting from summary in the beginning. Write extra N chapters and add a short description for each. Only include what already happened in roleplay chat after first summary. или как хочешь свою команду. При необходимости роллишь, редактируешь, можно с полученным результатом сделать второй проход для уточнения и расширения. Потом возвращаешься в основной чат и дополняешь уже имеющийся суммарайз (или создаешь с нуля). После скрываешь посты, которые ты суммарайзил через /hide >>1546744 > После этого начинаешь новый чат вставляя этот пересказ вместо первого сообщения. Ебааааать >>1546752 > Оно должно добавляться в системный промпт. При чем тут вообще системный промпт?
>>1546889 А как форкать сообщения в отдельные чаты и потом скрывать их? И кстати, а куда лучше записывать суммарайз? В Memory, Author's Note или создать отдельный лорбук?
>>1546910 В таверне в стандартных экстеншнах есть для этого свое поле. На самом деле разницы нет, важно чтобы оно было помещено перед первыми сообщениями и обрамлено в какие-нибудь скобки/теги чтобы было понятно что это пересказ прошлых событий. > А как В кобольде? Наверно никак. Спрашивай у тех, кто за этот интерфейс топит.
>>1546878 Ну почему же плохо, золотко? Нет, ну ты конечно можешь собрать себе гигариг и задрать контекст в облака, но во первых, что это тебе даст, кроме всё ещё глючной генерации ввиду несовершенства технологий, а во вторых, что ты будешь делать с джейсоном в несколько гигов? Читать всё в том же чате? Ну так делай это с суммарайзом, всё то же самое будет. Да и ты сам-то потянешь гигарп на несколько недель/месяцев? Если нет, и твои истории укладываются в несколько дней кума экспириенса, то почему бы не сделать пару пометок в блокнотике? На память оставишь. И деменцию чуток отложишь ввиду необходимости хоть немного думать, а не просто стручок наяривать обливаясь нейросоплями. И ещё, помни, что даже у копроверсий бывают мощные глюки и выпадения из сюжета, а у них контекст огого какой, на локалке такой никогда не поднимешь. И всё равно они генерят кринж. Так что пока так. И это хорошо. В этом есть душа. Снятся ли кумобоярам нейродоярки? >>1546889 У него скорее всего десятки сообщений, он вряд ли будет искать нужные и поштучно их сумарайзить. Да и зачем ему форкать, если в кобольде есть кнопка redo. Нажмёт суммарайз когда надо, отсуммирует, редушнет, продолжит.
>>1546734 Кнопкой херово выходит, не используй ее. Пиши прямо там где чатишься инструкцию:
[ooc: this is not part of roleplay, this is a direct request to AI from the author. We need to stop our activity for now and make a summary of previous events. This is critical for preserving the most important events, because the context window is limited and they will disappear if we don't do it. Please generate a summary of all important previous events in our roleplay from a certain time point. I will define a time point from where to summarize below. The summary is for the AI to remember all the relevant facts, so don't forget anything that the AI needs to know about the plot. Do not define characters or their traits, they are already defined in the memory of the AI. Write only the summary of events in the following format: [Summary Continued: events you summarize ] Now I will show you the last events that are already in the summary, so you can find out where to start. These events are (вставить ивенты, там где начинать) Events already in the summary: последний кусок из саммари с ивентами ]
На такую инструкцию обычно нормальный саммари выдает прямо в окне чата, с момента когда последний в саммари был, потом ставляешь его в карточку в конец, а из чата стираешь.
>>1546910 В Memory, он специально для саммари, идет перед промптом. В Author's notes - туда только инструкцию вставляешь для следующего действия. Например надо, чтобы перс сбежал в ответ, пишешь туда инструкцию что перс сбежит. А после успешного выполнения убираешь.
>>1546944 В кобольд UI уже все есть для РП, он очень продвинутый. Я разбирался какая выгода ставить другие проги вроде Таверны - буквально никакой выгоды не оказалось. Оставаться в Kobold UI самое лучшее уже, он скоростной, интерфейс настраивается и все есть.
>>1546910 У тебя в кобольде для этого кнопка скачать чат есть. Старый скачал, дальше пишешь что хочешь, скачанный остается в файлике, можно обратно его в любой момент закинуть в окно и получить целиком. Еще есть кнопка Branch - New branch, чтобы 2 чата в одном файле было, но это на любителя, проще в разных файлах держать.
Для сторителлинга с разбиением по главам вполне рабочий вариант.
>>1546963 >ставить другие проги вроде Таверны - буквально никакой выгоды не оказалось Сэйм, единственный минус Кобольда - системный промт нужно прописывать в саму карточку. Ну, хотя можно просто Saved State наделать. Продвинутыми фичам лорбуков вроде случайных срабатываний всё равно не пользуюсь.
>>1547054 Там вопросы к качеству и квантизации пары слоев. Перекачивать я уже не буду, просто есть надежда что ленивцы поднапрягут извилину допилить свои квантовки до конца.
Вот это в chat-template - это насколько важно? То есть там прямо строго вообще всё дообучение instruct-модели было строго по этому формату и если я от него отклонюсь - оно будет тупить? А насколько сильно? Или я например могу поставить чуть другой текст про инструменты, поменять формат на json и убрать требование что системное сообщение должно быть в начале?
То есть формат вызова инструментов - это окей. Но почему системного сообщение то второе нельзя дописывать? По типу, что пользовательское сообщение - это то что пишет человек, а системная инструкция с мета-информацией, по типу что "у тебя осталось 40к токенов и 10 поисковых запросов на ответ". Это же точно не пользовательский ввод, а системный.
Хочу glm-4.8-flash, хотя бы 50B-A8B... Или хотя бы glm-4.7v на 100B.
>>1547066 Орнул с ризонинга, я тебя по оверам походу знаю и по gfx906, я тоже любитель в некро и не только железе поколупаться, в свое время обмазывался рдшками, ща на 4677 перекатываюсь, так же есть парочка mi50@32, рад тебя видеть на двоще, пости больше фоток и тестов!
>>1547076 Я больше не по некроте, а по всякому странному железу, ачивку "первая рдшка в кармане" получил в 2022. До неё был первый сервер борд с стипендии шараги в 2018 intel s2600cp. В мишки залетел ещё год назад когда они прям новые ещё продавались (потом уже юзаные приходили). С депо дацн доской за пачку сухариков тоже та ещё авантюра была
V100 мне скорее нравится. Если через ламу, то скорости генерации мне хватает, скорость анализа картинок тоже хватает (я прям удивлён насколько оно быстро, будто бы можно почти в реальном времени видео смотреть без пропусков кадров), сильно не хватает скорости промт-процессинга. Но у неё CC7.0, в то время 7.5 открывает доступ к FA1, 8.0 к FA2, 9.0 к FA3 и вот уже FA4 выкатили в vLLM. Нейронка подсказывает, что в плане промт-процессинга FA1 ускоряет в 2.4 раза, FA2 в 2.0 раза, FA3 в 1.75 раза - и это то что мне нужно. По FA4 нет цифр, но если оно работает на CC10.0 на B100, то и на 5090 с CC12.0 заработает.
Итого можно взять ещё V100, доступ к большим моделям. Если модель не увеличивать, то это просто в два раза больше pp, так как в два раза больше карт. Можно перекатится на 3090 с 8.0+, но их нужно сразу две как минимум, так как всего 24 гб памяти и туда даже 30B не затолкать толком. 40хх - это 8.9, достаточно бессмысленно; если целится в FA3, то это сразу 50хх. А тут или 5090, 6000 pro на 96 гб или 5000 pro на 72gb. Ну, или 2х5060ti по 16 гб, лол.
Ситуация осложняется тем, что это в целом баловство, никакого полезного применения я этому не придумаю. Вариант с 2х5060ti выглядит привлекательным. Это очень дешёвые 32 гб с CC12.0. На втором месте две 3090, наверное - но меня очень напрягает, что за декабрь у двух анонов их 3090 рассыпались. Есть RTX PRO 5000 72GB Blackwell и RTX PRO 6000 96GB Blackwell. Вторая в два раза быстрее, а дороже не особо сильно. В промт-процессинге производительности влияет и по идее это очень хороший вариант, ещё и с памятью. Если всё на одной карте, то можно хоть в pcie3.0 её втыкать. Но это всё-таки баловство, я лучше велосипед соберу новый.
>>1547161 Dense модели требуют поддержки FA на всех картах, или это необходимо только для нулевого слоя? Попробуй миксануть, первой картой блоквел, дальше в100. В МоЕ мне кажется должно и так работать.
>>1544796 (OP) Обещал отчитаться об опыте с "цензурным" с китайским слопом - докладываю. MiniMax M2.5 (Q4KM от AesSedai, 4.9 bpw).
В роли подопытной крысы - наркоманка Фифи. Сценарий - юзер говорит "ну нахер" в ответ на NSFW мусор и уводит историю в другом направлении.
Наблюдения: > 1. Ризонинг оказался не нужен. Качество ответов падает, даже если модель заставили ризонить в рамках NSFW. > 2. Содержание <think></think> префилла влияет на ответы, цензура убирается (на 1 скрине в самом начале пруф бесцензурности). > 3. Генерация без инпута юзера продолжает историю неплохо. Чар может стелить былины сам по себе, сиди да кнопку нажимай.
Master-профиль для ST: https://text.is/MiniMaxRP_for_2ch (Context/Instruct темплейты именно для <think></think> префилла). Sysprompt НЕ был написан для М2.5 - он взят от GLM 4.7, так что есть ли толк для этой модели или нет, вопрос спорный.
Из очевидных минусов модели - периодически возникающая неопределенность в писанине (всякие "может быть то, может быть это"). Восприятие русского инпута - великолепное. Способность отвечать на русском - иногда впечатлающая (не хуже геммы), но косячит сильно. Проблема семплера? Проблема квантизации? Не знаю, Q8 нет возможности проверить - нужно 256гб оперативки.
По качеству прозы модель слабее больших GLM (не эйры/фээши), но в то же время с ней легче чатиться. Она ближе к юзеру, охотнее входит в роль. Если флагманский GLM пытается корчить из себя писателя, то эта хуйня - разговорная.
База знаний существенно больше мелких инвалидов. Справилась с лором TYPE-MOON поделий типа Fate/ и Tsukihime. Есть подозрение, что большие лорбуки могут запутать модель (по крайней мере, гигантский пласт знаний по Mahoutsukai no Yoru и расширенные карточки Aoko / Alice заставили модель срать спойлерами, несмотря на инструкции не срать спойлерами; впрочем, GLM 4.6 и 4.7 не лучше - любая ллм питается контекстом и норовит насрать в чат информацией из него).
Модель хорошо следит за статусом персонажа. Смена одежды и прочие атрибуты получают внимание по ходу продолжения чата.
>>1546944 Таверна, конечно же. У нее много недостатков и особенностей, но базовый функционал она обеспечивает несравненно лучше чем кобольд. Тут наглядная демонстрация. В одном случае у тебя и "удобство" (минимум ручных манипуляций) и в конечном счете единый комфортный чат, в котором и все посты, и видишь границу между суммарайзом и активными. В другом - какой-то безумный треш с ручным переписыванием, невозможностью нормально выбрать что именно суммарайзить (все или ничего) и отсутствием элементарных вещей. Идея суммарайза продолжительных чатов в том, что они должны быть в меру подробные, структурированные чтобы сетке проще было с ними работать, и находились перед активными сообщениями. Которых должно быть не меньше нескольких десятков чтобы экспириенс был гладким и было минимум изменений при конверсии части чата. Ну а по кобольду - тут как с микромоделями, в простых задачах они тоже могут ответить не хуже крупных. Но начнешь развивать тему или чуть в сторону - разница уже значительна. >>1546980 Минимакс, квен 397, кодер480, жлм5, кими > Влезет что-то вроде Минимакс
>>1546362 >переводе обосралась, переведя collar как воротник, а не ошейник. Чел... Перевод этого слова СИЛЬНО от контекста зависит. А с переводом учетом по контекста и мясные регулярно обсираются. У этого слова вообще дохера значений в английском. Причем ошейник - не главное, и для однозначности в этом смысле используется обязательно с уточнением: dog-collar. Чтобы твои подобные аргументы серьезно смотрелись - не слово а предложение приводи, которое переводилось. Это важно в подобных случаях.
>>1547059 > Но почему системного сообщение то второе нельзя дописывать? Если так уж хочешь - убери тот пункт. Но учитывая желание юзать системное сообщение чтобы > по типу что "у тебя осталось 40к токенов и 10 поисковых запросов на ответ" они все сделали правильно что запретили. Это ну никак не системное сообщение, которое является мощнейшей инструкцией и якорем внимания, а не сраным микроуведомлением. Пихай в пользовательское, при необходимости дообернуть. >>1547161 Вопрос в том, чего именно ты хочешь добиться, у тебя перечислено от ультрадешмана до очень дорогих железок, в 20 раз отличия. Ты лучше скажи что хочешь получить и сколько готов потратить. > Нейронка подсказывает Вот почему не стоит к нейронкам обращаться по этому поводу, информация формально верная но не особо релевантна. >>1547164 Плохая идея, он там работает отвратительно. Нет поддержки нормальных квантов, gguf только через лоботомирующий рекаст дататипа (это не только для v100 а для всех актуально, поддержка чисто формальная и тормозная), нет накостыленного fa а вместо него sdpa, еще всякое. В итоге скорости ниже чем на жоре, модель частично поломанная, потребление памяти больше. V100 сейчас - только llamacpp, врядли что-то изменится. >>1547176 Если речь про vllm - только для всех. На w4a16/w8a16 квантах ты можешь смешать амперы-аду-блеквелл, при этом под каждую будут выбраны соответствующие кернели и все будет работать прилично. На полном fp8 аду-блеквелл, для добавления амперов придется немного поколдовать. Добавить туда вольту или другую некроту - никак. Ну а на жоре легко. Только с выгрузкой на больших моделях ускорения от v100 будет немного, а в фуллврам она станет якорем, тянущим на дно замедлением.
>>1547206 Насчет кобольда не знаю, а в таверне вот эта вкладка - темплейты текст комплишна там. Jinja туда не засунуть, надо именно под таверну пилить. Там еще кнопка мастер импорт/экспорт есть отдельно для большого профиля где сразу все темплейты под модель (если такой профиль есть)
окей, умные корпоративные ии не могут решить задачу заставить тупой локальный ии использовать тулзы ебаной клешни, а тред соответствующий шлёт к вам. Вопрос: люди добрые дайте на пропитание какую модель использовать для клешни если у меня видяха 16gb чтобы он мог хоть какие-то тулзы вызывать. Я так понял нужно чтобы сама модель так умела делать, но что ещё нужно не понял. Много от него не хочу - просто чтобы файлики по папочкам раскидывал(сортировка) и по мелочи. Но сейчас пытаюсь его заставить хотя бы навык clawhub вызвать, а он pic спасибо заранее
>>1547221 Можешь на примере выше посмотреть как выглядит .json с темплейтами >>1547188 >Master-профиль для ST: https://text.is/MiniMaxRP_for_2ch или просто открой любой дефолтный и посмотри как оно сделано (может даже экспортировать в .json любой пресет)
>>1547224 Это не то, что я спросил. Я скопировал темплейт со страницы модели. В какое окно в таверне его нужно поместить? Ну или какой док создать и как подружить с таверной. Объясни
>>1547216 У тебя сразу два вопроса - по использованию модели и по корректным вызовам, они не связаны. В 16гигов и для такого применения, чтобы было не супер медленно - квены 35а3/27б, флеш эйр 30а3. В целом, новые квены большие умнички и хорошо работают с клешней, по идее и эти что поменьше должны справляться. Чтобы обеспечить корректные вызовы насколько это вообще применимо к жоре тебе нужна самая последняя версия, где реворкали парсер, и свежий квант. Запускаешь обычными параметрами, добавляешь аргумент --jinja. Проверить работоспособность можешь вот этим скриптом https://pastebin.com/Q1n4b8sV
>>1547229 Если ты про херотуру со 2й пикчи - >Я скопировал темплейт со страницы модели тебя сразу предупредили, что jinja темплейты не подойдут для текст комплишна в таверне. Такие темплейты надо переписывать под текст комплишн в таверне.
Твои варианты:
A. Попробовать режим чат комплишна, а модель загрузить с галочкой на use jinja в кобольде. Тогда будет использован этот самый встроенный профиль, который ты хотел вставить. Б. Выгрузи из таверны (через master export) профили типа chatml и прочих (чем больше примеров, тем лучше; штук 5 сойдёт), загрузи в какой-нить чатгпт или дипсик эти файлы, и дай ему тот самый темплейт со страницы модели и попроси запилить темплейты для SillyTavern по образцу выгруженных из таверны профилей от других моделей.
>>1547236 Очевидно, кстати, что с вариантом Б могут быть косяки. Придется пробовать и пердолиться. Несколько итераций и внимательного контроля - и скорее всего взлетит.
>>1547236 >>1547237 А да, и че за модель-то? Сначала всегда гугли - может она дружит с каким-то из существующих профилей в таверне, или кто-то уже запилил для нее профиль и выложил в сеть
>>1547236 Хорошо, я попробую через кобольда эту жинжу подхватить. Просто запустить его с этой галкой, если правильно понял. Второй способ попробую как-нибудь в другой раз, звучит сложновато для меня, боюсь поломать таверну >>1547239 Qwen3.5-27B-heretic, мне его тут посоветовали. Где гуглить подобное? Есть какие-то сайты с профилями?
>>1547191 Помоги настроить суммарайз в таверне. Какие кнопки нажать, какие инструкции вписать, чтобы всё сохранялось адекватно в ролеплее? Я должен что-то отдельно делать раз в 10 ответов или больше? Расскажи пожалуйста
>>1547199 >Ты лучше скажи что хочешь получить и сколько готов потратить. А это смотря на что потратить. Сейчас простыню напишу. Я уже месяц думаю. Знать бы, тут есть какая-то нелинейная градация. Типа потратить в 4 раза больше на х10 производительность - это интересно. Но потратить в 10 раз больше на х40 производительность уже не очень интересно, так как х10 производительность - это уже уровень насыщения и дальнейшее ускорение не потребуется. -- Если размечтаться — хочу на 30B MoE получить префилл от 5000/s (не обязательно в один "поток", если оно как и генерация при нескольких конкурирующих запросах ускоряется), генерация от 40/s в один поток (и от 15/s в 10 потоков). Первое требование V100 выполняет на 10%, второе на 200%. -- Потратить ориентировочно (снова размечтался): за 2000/40/15 - 80к, за 5000/40/15 - 150к, за 10000/60/25 - 250к, за 20000/100/50 - 400к. +100к к числу, если это позволяет в видеопамяти без претензий к скорости запускать 100B (аир и гвен-некст), +200к к числу, если это позволяет запускать 230B (минмакс, степ). Из рам не хочу, так как у меня нет системника с ddr5 и я не хочу его собирать. -- По таким признакам и 4хV100 проходят по категории за 80к+100к, так как оно позволяет запускать 100B в видеопамяти, и имея в наличии одну V100 за 180к я ещё три добуду. А ещё можно докупить до 6, это уже и 200B влезут, хотя конечно не знаю что у них со скоростью будет и не будет ли это хуже, чем одна 3090+системник с ddr5. Впрочем, мне не нравятся большие модельки, я больше ориентируюсь на 30B. 2х3090 как-то не очень проходят. С FA2 оно по идее проходит требование 2000, и с имеющейся V100 проходят требование для запуска 100B - но меня очень напрягает что они б/у и разваливаются. 2х5060Ti скорее всего смогут выполнить требование в 2000, но не укладываются в 80к. А вот blackwell 6000 pro по найденным мною цифрам требование в 10к свободно пройдёт, но чуть-чуть не дотягивает до запуска 200-230B. Было бы там 160 или даже 128 гб памяти и даже будь она чуть подороже - взял бы не думая, зная что мне хватит её на все мелко-средние модели на пять лет назад и она не устареет, и куча софта её будут поддерживать ещё много лет, и даже условный qwen 6.0 я всё ещё на ней буду запускать, а не как A100/3090, которые следующие на выбывание. Жутко соблазнительно, конечно, оно и на грани того что я почти готов её купить, и на грани того, что она абсурдно избыточна и вау-эффекта по сравнению с 2х3090 не будет. И 5090 бред какой-то, вроде быстрая, но соотношение производительности и объёма памяти несбалансированное очень сильно, слишком дорогая для возможности запуска лишь 30B с контекстом в 120к, которого не хватит больше чем на три с половиной конкурирующих запроса.
>>1547263 > она не устареет Я б не стал зарекаться. И видяха за лимон - это как машина: выехал из салона сразу -10% стоимости. Опять же покупателя на нее еще потом найди. Корпы вон V100 сейчас вынуждены "раздавать" - так они хотя бы имели возможность хоть немного отбить их стоимость.
>Пара 3090х стоит 100к Где? Я вижу 3090 только по 60-70к. Я пойду и куплю сегодня по 50к. 6000 была за 800к взять и купить, на авито всякие серовозы были по 700к. Ну, в январе. Капец. Неужто повышение цен на V100 до 40-45к это та же волна, что и повышение цен на 6000 с 800к до 1000к?
>>1547306 >Где Периодически на лохито появляются. Надо терпеливо следить и фильтровать говяные предложения. Я себе одну 3090 FE за 50 взял, и одну палитовскую тоже за 50. Впрочем это было в ноябре-декабре, но все равно даже щас иногда Авито тычет в лицо объявлениями по 50 - 55. Просто их быстро забирают, если они не раздолбанные.
>>1547303 >Корпы вон V100 сейчас вынуждены "раздавать" Думаю они их просто списали на утилизацию в Китай по цене песка и металла, а уж раздают сами китайцы с разборов. >>1547306 >Я пойду и куплю сегодня по 50к. Могу продать один из неудачников со сдохшей картой.
>>1547316 > Думаю они их просто списали на утилизацию в Китай по цене песка и металла, а уж раздают сами китайцы с разборов. Скажу больше, они ещё и заплатили за эту самую "утилизацию". Китайцы слишком ушлые и просто так железо у них только на бумаге отправляется в шредер
>>1547309 >Периодически на лохито появляются. Здорово ты самый-самый низ рынка привел в пример. В таких случаях обычно говорят "можно найти и за 50к", а не "стоят". Потому что "стоят" - это "их обычно можно купить за".
>>1547319 Ты пойми - за 60-70 никто их не берет. Часть висящих сейчас за 60-70 сами же продаваны опустят ниже, когда их заебет полная тишина и ноль заинтересованных. Просто это дело требует ожидания. Набери кучу карточек в избранное и следи, листай новые объявления ежедневно.
>>1547309 >Надо терпеливо следить >Просто их быстро забирают Чел, это называется мониторить с красными глазами до посинения, тем более что у авиты явно есть доступ по знакомству к модерируемым объявлениям для всяких барыг. Для нормального человека большая удача там чет выловить хотя бы в рамках месяца. >>1547324 В эту игру можно играть вдвоем. Если большинство стоит за 60-70, значит за эту цену их худо-бедно разбирают. Не берут? Снижаешь ценник на 2к и вот, уже стучатся в личку. Авито это рассадник барыг, которые готовы держать товар до посинения.
>>1547336 Видеокарточные и RAM-барыги работают по сбору урожая с готовых компов, продаваемых апгрейдящимися Васянами. Продает лошара комп за 150к, у него выкупают 3090 с рук за 40к и потом перепродают. Ты тоже так можешь делать, но это еще более заебный процесс (потому что надо людей уговаривать).
>>1547347 В смысле, у тебя просто ризонинг остановился или че? Максимальная длина сообщения может быть установлена на 10к?
>>1547258 Пусть юзает чатмл, он подсасывается автоматом в таверне. В кобольде он тоже автоматом выставляется. >>1547347 Чё, тяжко с кобольда в таверну перелазить? Ну вот такая она, кривенькая. Жмёшь три линии, выбираешь "продолжить".
>>1547354 Не электричество жжём, а прогреваемся перед тотальной изоляцией. Скоро наступит тёмный век, нужно будет вооружаться ежепалками и ходить в лес. Главное не брать туда клИенку, и помнить, что железную птицу не достать.
>>1547263 > х10 производительность Метрика производительности нелинейна и несколько абстрактна. Сам пишешь > так как оно позволяет запускать 100B в видеопамяти, и имея в наличии одну V100 за 180к я ещё три добуду. А ещё можно докупить до 6, это уже и 200B влезут то есть в игру вступает еще возможность запускать модели крупнее, а не просто очень быстро играть с мелокомоэ. > хочу на 30B MoE получить префилл от 5000/s Хватит просто одной 5090 (хотя там трудности с размещением контекста). Nvfp4 ебет и на паре выдаст 20к+ префилла на контекстах до 100к и более 10к на 200+, памяти хватает на кэш овер 700к сверху. 48-гиговая ада перешагнет отметку 10к в фп8. Префилл особо не скейлится от параллельных потоков, только генерация. При смешанной нагрузке или тп будет проседать в моменты пп, или пп снизится ценой плавной генерации в зависимости от настроек. И в целом, 5000 на такой мелочи должна обеспечить даже пара 3090 если нормально подключены. > С FA2 Забудь про FA и весь тот треш, который нейронка выдала, это имеет опосредованное отношение к вопросу. > V100 проходят требование для запуска 100B - но меня очень напрягает что они б/у и разваливаются Это последнее что должно напрягать, если пришли рабочие то ничего с ними не будет. А вот о том, куда ты вообще собрался вставлять карточки - стоит подумать, при подключении через вялые чипсетные линии высок шанс пососать. И еще что перфоманс v100 на большом контексте превратится в тыкву. > blackwell 6000 pro Раньше в ее цену можно было взять 4 5090 со всеми плюсами. С тп на 122б более 10к пп на контекстах, многопоточная генерация за тысячу без мтп.
С трудом верится что ты можешь что-то купишь и соберешь с такой кашей в познаниях и широченной вилкой, >>1547280 верно пишет. Нет даже ясности в постановке задачи.
>>1547378 Ну, лично мне нравится как нейронка пытается заризонить саммари с лорбуком и меншеном. Интересно наблюдать, как ии изо всех сил старается слепить адекватную историю из твоих описаний. И 10к это не предел.
А сколько токенов в секунду считаются приемлимыми для генерации? 30, чтобы можно было сопоставить с корпоративными? Или даже на каких-нибудь 5 можно и потерпеть?
>>1547422 5 токенов на длинном контексте (когда чат уже укатился к 100к токенам) это нормально, если нет ризонинга. Со средним ризонингом можно и 10 т/с перетерпеть. А вот с длинным ризонингом ниже 20 т/с жизни нет, ты ебанешься ждать.
>>1547428 > Которых (плюсов) нет. Больше суммарной памяти, кратно выше перфоманс в задачах с параллелизмом, это огромные преимущества. В худшем случае доступно все то же с незначительным падением перфоманса относительно одной про6000. А минус в необходимости модификаций если для крупной задачи изначально не предусмотрен тп или шардинг.
>>1547442 >В худшем случае Всё горит от 4х600 ватт потребления. Редко какие БП имеют даже два 16 пиновых коннектора, так что проблемы от синхронизации 2-4 блоков. >А минус в необходимости модификаций В которые могут не только лишь все.
>>1547451 >thinking Стандартный процесс. Все модели должны синкать свиминг пул, чтобы не генерить совсем бред. >reasoning Те самые 10 минутные разборы по полочками всех хуйни, что есть в саммари, лорбуке, сценарии и промте, чтобы вести рп в заданном направлении. >как они хотят получить ризонинг без мыслей Видимо чтобы каждый ответ был с ризонингом, без околорандомной генерации. Только чистый, незамутнённый разум. Ебало имаже?
>>1547454 > Всё горит от 4х600 ватт потребления. С чего вдруг? Суперцветок на пару киловатт не так давно стоил 28к, пары таких хватит не весь риг, если комплектных кабелей не хватает - питерские мастера делают качественные по ~2.5к. > В которые могут не только лишь все. Безусловно, но с современными ллм это проще чем насобирать денежку. >>1547475 И покупать можно постепенно, начиная с малого и сразу радуясь новому! А если представить гипотетическую ситуацию возможной конверсии как с 4090 - слепящий вин врядли потому что даже если сделают то стоить будет в сумме почти как та же pro6000
>>1547486 >возможной конверсии как с 4090 Викон вроде упоминал о том, что такое с большой вероятностью будет возможно, так что это еще один камень в огород оверпрайснутой 6к
>>1547511 Эта хуйня берёт последнее сообщение и подаёт на вход в нейронку с заголовками записей ворлдбука (в которых написано краткое описание) и требованием выдать номера записей, которые могут относиться к этому сообщению. Потом снова берётся последнее сообщение в чате, из ворлдбука вытягиваются все записи, которые нейронка пометила как соответствующие предыдущему сообщению (из ответа с номерами вытягиватся номера записей), к последнему сообщению подмешивается запрос "проверить это сообщение на несовпадение текста и инфоблока, логические ошибки и несоответствие вот этой хуйне", где хуйня - вытянутые записи ворлдбука. Затем результат добавляется в чат сообщением от ассистанта (можно прямо поменять ответ нейронки, но нет пути, я и вручную по замечаниям поправлю).
>>1547524 >и подаёт на вход в нейронку с заголовками записей ворлдбука А re-rank пробовал для этого использовать вместо запроса на генерацию обычного? Он создан для этого. Типа топ-50 берёшь по эмбеддингам, и топ-10 по re-rank, ну или там по критериям разные количества.
>>1547521 Нестандартных аддонов больше нет. Главное - это корпы и chat completion (из интересного - промпт на HTML-панели - был тут пару тредов назад). Хотя вот если будет модель, которая реально работает со 128к лёгкого контекста - то можно будет попробовать локально мучаться. А самое главное - много, очень много допиливания руками для отслеживания всего подряд, фикса косяков, дописывания и переписывания. Картинка с Изаной, кладущей цветы на пустые места Нагатэ и Хошиджиро на похоронах Акая - это предварительно нарезанные, отредактированные (чтобы вместо четырёх фото всего отряда Акая было только одно его и из кадра убраны люди) и склеенные (там, где панорама) скриншоты из аниме, которые потом запихнулись на вход корпа для генерации описания в ворлдбук, которое потом использовалось для генерации события, которое потом (вместе с референсами из аниме и отредактированным скрином) использовалось для генерации картинки (которая потом ещё допиливалась). Но если пердолиться - погружение будет просто обосраться.
>>1547475>>1547486>>1547385 Короче вы рекомендуете собирать на материнке с pcie5.0 сколько потребуется 5090 - одну, две или больше, будет мои 10к pp на мелкомоделях. Или если всё-таки не 5090, то забить на то что как мне кажется 3090 ненадёжные и горят - и поставить 2 или больше 3090. Впрочем, я сейчас нашёл по 60к, и вроде как из нормального авито-лота с 500 отзывами. Несколько 5090 я без проблем подключу, у меня и 380 вольт дома есть, и с микроконтроллерами я знаком, уж как-то несколько блоков питания одновременно включить я в состоянии, даже дополнительных деталей не потребуется, только ещё блоки питания.
>Nvfp4 ебет Да, вот его я хотеть. А ещё у 50хх вроде как аппаратная поддержка fp6 есть. Если сделают nvfp6 - и это будет "нативный квант" как и nvfp4, то это прям золотая середина будет для мелкомоделей, которым не очень четвёртый квант если вызовы инструментов и прочее с цифрами.
>Нет даже ясности в постановке задачи. Да я же сразу об этом предупредил. Баловство, реальной задачи нет. Если бы была, то я бы под неё решение сам при критериям быстро нашёл. А так то что я про 5000/s префила написал - это из головы.
Окей. В таком случае я беру у соседа погонять 3090 на недельку, потом беру погонять 5090, проверяю их в ламе, в vllm, в exl3 - смотрю что и как работает, что в многопотоке.
>>1547532 Хз про что ты. В этом расширении просто можно в цикле отдельно заголовки выдернуть и написать "вот тебе список, ответь только перечнем номеров позиций".
>>1547539 >ДЗ Поливановщина, моё любимое. Давно бросил играть в китайские мультики. Скучно. Теперь сочиняю собственные сеттинги, базируя миры на прочитанном массиве книг.
>>1547554 Я в это играю только потому что мою жопу ещё в декабре разорвало от сценарного поворота, устроенного Цутому Нихеем. Это даёт мне сил уже третий месяц тратить на этот ролеплей кучу времени, погружаясь всё глубже и обмазываясь всё большим количеством всякого. Ещё б TTS нормальные были - я б ещё и семплы из аниме нарезал и озвучку делал. Когда-нибудь мы доберёмся и до этой хуйни.
>>1547506 Возможно, скорее всего сломают. Но с текущим ажиотажем вокруг памяти и пока сделают высока вероятность что оно будет стоить столько же, а про6000 просто подорожает. А может и не будет, гадать можно сколько угодно. >>1547539 > chat completion > HTML-панели Между этим есть связь, в обычном комплишне невозможно? >>1547541 Ничего не рекомендуем, ты рассматриваешь сильно разные варианты и задачи. Здесь почти все собирали что-то постепенно плавно меняя конфигурации, или сразу понимая что нужно и на что идут брали конкретные платформы. А тут странные и противоречивые вещи. > которым не очень четвёртый квант Если что, эффективная битность нормального nvfp4 как раз ближе к 6 bpw, и это с натяжкой qat. > и с микроконтроллерами я знаком На 95% уверен что у тебя какая-то примитивная задача из компьютерного зрения или классификации, которая решается простой моделькой что может крутиться на цп. Но ты пытаешься присрать мультимодальное моэ и компенсировать высокими требованиями к скорости.
>>1547532 Плохо работает, слишком тупая хуйня. мимо >>1546874 Совет №1: суммаризация работает лучше, если ты делаешь её каждую сцену, а не каждое сообщение. Можешь формировать запрос на суммарайз чисто из сцены, изолируя её в хистори. Окружение сменилось? Обновил саммари.
Совет №2: тебе не нужна история событий, в смысле последовательность. Куда лучшее саммари получается если ты в нём трекаешь факты что тебе понадобятся наперёд. - произошло событие, которое изменило РП? Сделал запись. - запланировал квест? сделал запись на будущее. - появился перс которого стоит запомнить? Сделал запись. (вкупе с его описанием в лорбуке) - текущий квест сменился? Сделал запись. - купил машину? Сделал запись что у тебя в собственности машина. - оставил машину на парковке? Сделал запись где ты её оставил, чтобы когда вы с тянкой посмотрели кино она тебя на автобус не потащила.
Таким событиям не нужна последовательность, а помнит прошлое нейронка с ними так же хорошо. Это куда лучше чем распутывать цепочку зависящих друг от друга изменений во время генерации каждого токена.
Совет №3: если изменений накопилось слишком дохуя, пора уже карту редачить, чтобы не было двоения определений (сделай копию только сначала, чтобы по живому не резать).
>>1547594 Конечно жаль. Но я периодически делаю бекапы. А вообще, конечно, надо бы это всё взять и в ворд перенести, ос всеми панелями и подходящими к ситуации скринами из непосредственно аниме. Буду потом на пенсии почитывать такую годную книгу, где главный герой не какой-то рандомный попаданец, а именно я сам.
почему с китайцами всегда так сложно? Почему все остальные модели просто отвечают, а к китайцам нужно подобрать какие то магические цифры Qwen_Qwen3.5-35B-A3B-Q5_K_M
>>1547615 Все же это выглядит пиздецки сложно. Как эти проверки вообще делаются? Они автоматизированы или их надо пилить вручную? "Лапша" твоя сделана исключительно под твой РП-сценарий или это можно применить где угодно? Я пытаюсь вдуплить, как это все организовать и построить, чтобы улучшить свои чатики.
>>1547657 Лапша - универсальна. Ставь расширение, смотри примеры, твори что хочешь. Можно автоматизировать созданиеновых записей в ворлдбуке, например, но я этим не заморачивался. Можно запускать лапшу вручную (как делаю я, отредактировав ответ нейронки). Можно по команде в чате, можно по событию (например по появлению у тебя в чате сгенерированного сообщения). Я много раз слышал про расширение External Blocks, но я им пользоваться не умею, а вот из лапши собрать то, что мне нужно - это по мне.
>>1547661 Ладно, попердолимся. Интересно, сколько лет еще пройдет, прежде чем и боты лучше станут, и все вот эти РП-решения доведут до относительной однокнопочности.
>>1547657 А, возможно я в глаза сношаюсь. Понял вопрос не с первого раза. Теоретически мою лапшу можно использовать для проверки любого чата, но там собран велосипед из костылей, который я один раз отладил и боюсь на него дуть. Так что рекомендую разобраться самому, что именно тебе нужно. Будут вопросы по чему-то очевидному - чем смогу помогу.
>>1547667 А тут у меня тонкая грань с метагеймингом. Я ж попаданец по лору рп. У меня прямо прописано, что я смотрел это аниме и читал мангу, и указаны границы где я помню хорошо, а где я помню в общих чертах. Другое дело, что нейронка периодически пукает и вкладывает в уста другим героям знание канона - и вот это надо отслеживать.
>>1547699 Для этого мне надо доиграть до конца Рыцарей Сидонии, и моими темпами это очень долго. И ты явно не захочешь читать унылое чтиво про очередного попаданца Марти-Сью.
Зато прямо сейчас я могу тебе скинуть ссылку на аналогичный (недописанный) фанфик, который я читал хуиллион лет назад. https://skim.7bb.ru/viewtopic.php?id=107 К сожалению, когда я решил его перечитать с полгода назад (до просмотра/прочтения Рыцарей Сидонии, лол) - оказалось, что в моей памяти он сохранился гораздо лучше, чем был на самом деле. И тогда я решил для себя постараться хотя бы не настолько охуевшим мерисью быть. Хз, получилось/получится у меня это, или нет.
>конец мая, 4 вечера >понял: сумерки сгущались >блять, ты долбоёб? КОНЕЦ МАЯ МЕСЯЦА, 4 ВЕЧЕРА >ок, понял: солнце почти спряталось за горизонт Ёбаный лоботомит... пятый квант, охуеть. Как же сильно инту сжимают, шакалы ебучие.
Наверное если каждый блок прогонять по 2 раза, и включить такой прогон в тренировку самой модели, то мб можно и уплотнить память/рассуждательные способности модельки. Прикиньте 27б моделька, выдающая перформанс 54б модельки. Если квен3.5 сейчас панчит почти до 100б мое, уплотненная станет панчить до 200б мое, занимая тоже самое количество врама. Мечты.
>>1547747 Надо возвращать старые практики. Мне кажется это недооцененная хуйня. Челик как раз минимакс 2.5 и квен 27б прогоняет. Посмотрим что получится.
>>1547754 Тогда как раз и выяснили что кроме дроча скоров оно ни для чего не пригодно. В конце были какие-то солярисы, от которых такой бомбёж начался, что из всех рейтингов их удалять начали.
>>1547744 > улучшить отдельные метрики модельки И ухудшить другие. Так-то франкенмерджи еще в 23 году были и в целом их хвалили. Это и сейчас сделать возможно. Просто это неэффективно - эффект от увеличения размера гораздо слабее, чем если просто взять модель крупнее, коих ассортимент. > дублирование промпта Эта техника не нова, сначала один якорь, потом отсылка на него. Но это релевантно для мелочи, которая может забывать что вообще происходит, может хорошо стабилизировать поведение. А нормальную модель это будет только отвлекать и ухудшит перфоманс из-за гиперфиксации. > включить такой прогон в тренировку самой модели Значение знаешь?
>>1544796 (OP) Знатоки, поясните, пожалуйста подробно за видюхи. 1) Стоит ли ориентироваться на видюхи с 32гб vram? Или они переоценены? 2) стоит ли смотреть в сторону amd radeon pro 9700? Или c rom и llm будут проблемы, а cuda там не запустишь? 3) стоит ли покупать несколько условных 3090 вместо покупки одной 5080 или 5090? 4) стоит ли смотреть в сторону теслы? Говорят v100 на новой cuda не работает? Алсо, это чисто видюхи под нейронки? Или играть и 3d делать под ними можно? 5) стоит ли рассматривать дядюшку ляо с кастомизированными видюхами нвидии с 48-96гб? Или это все наебалово? 6) насколько хорошо локальные модели работают чисто на процессоре? 7) для нейронок есть разница между ryzen9 9950 и 9950x3d? Стоит ли переплачивать? 8) посоветуйте, пожалуйста, решение, чтобы и погонять нейронки можно было локально, и поиграть, и в 3d редакторах поработать. 9) поясните по моделям - на хаггинфейсе есть сто-то мощное наподобие claude sonnet, но чтобв можно локально поставить? Или крутые модели - только по подписке? 10) заодно подскажите, какое железо нужно для таким моделей, сколько памяти - ram, vram - нужно? Какой БП для этого всего? Какая мать лучше? X870e? 11) ну и от себя что посоветуйте по сборке машинки и запуску llm. Спасибо.
>>1547770 >Говорят v100 на новой cuda не работает? И не будет. От куды толку меньше чем от поддержки свежих числовых форматов и FA. >Или играть и 3d делать под ними можно? Перд как с майнинговыми. >5) стоит ли рассматривать дядюшку ляо с кастомизированными видюхами нвидии с 48-96гб? Скажу про 2080ти 22гб, две штуки которых на авите продают на 10к дороже одной v100 32гб в полном обвесе. Плюсы: оно работает, оно свежее чем в100, на нем можно спокойно игорять, оно в будущем нормально толкнется на авите или пойдет в ретрориг. Минусы: это китайский перепай без гарантий паяют вроде бы вручную, но за счет массовости получается довольно качественно, после получения надо обязательно докупать пачку прокладок и все вкруг менять с контролем прижима тут как повезет, прокладки китайцы вроде вменяемые ставят, но на турбовых есть проеб с прижимом на врм - можешь ловить ребуты или вообще прострел в гп в процессе длительной работы, скорость врам заметно ниже чем в100, а архитектура практически ничего не привносит. Если ферму собирать, нужно будет оформлять борду на plx88096 хотя ее и так оформлять, со слотами на потребительских мамках большие проблемы. Насчет 48...96 не знаю, скорее всего там цена в небесах. >6) насколько хорошо локальные модели работают чисто на процессоре? Проверь довольно хуево. >8) посоветуйте, пожалуйста, решение, чтобы и погонять нейронки можно было локально, и поиграть, и в 3d редакторах поработать. Ютуб.
>>1547762 >Значение знаешь? Я про то, чтобы архитектурно в нейросетку заложить, чтобы определенные блоки прогонялись 2 раза, сначала непосредственно на инпуте, а потом на своем же аутпуте. По сути переизобретение рекуррентных нейронок, кек.
Хотя я щас нагуглил, уже есть такие экспериментальные проекты с RNN-ками, но все мелкие. RWKV, Mamba, Jamba (охуенные названия). Можно даже запробовать https://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B Архитектура блоков буквально такая - они сами на себе замыкаются. Заявляют о нихуевом перформансе при ебучей скорости (хотя вот против квен3 4б с ризонингом или без - не понятно). Скорость на контексте страдает минимально. Но как его удерживает - хз.
Все это очень интересно, но жаль правда я не дата-саентолог, чтобы в этом всем разбираться и загребать 300к/нс
>>1547770 > 2) Нет > 5) Они дорогие относительно прочих перечисленных. Дорогие не просто так, есть спрос. > 6) Отвратительно > 7) Нет > 9) Да > 10) От 128гигов видеопамяти, в идеале в 2-3 раза больше. Можно делить между видеокартой и процессором, но тогда скорость будет пригодна только для вялого чатика.
Остальные вопросы сильно ситуативны или несущественны. >>1547797 > чтобы определенные блоки прогонялись 2 раза Да это может быть не лишено смысла если сделать подобные петли. Алсо в квене3.5 как раз есть часть от мамбы.
>>1547800 >Алсо в квене3.5 как раз есть часть от мамбы. Действительно. Прикол. Значит реально работает. Откладываем ЛЛМ декаданс еще на годик. Щас наверное все начнут мамба блоки внедрять.
>>1547801 Моделька 3б, что не так? 2 байта х 3 лярда
>>1547720 Да ладно, не стесняйся. Я не буду смеяться или осуждать те или отдельные моменты. Меня привлекает самописность истории. Фанфики и тем более коммерция пишется зачем-то и для кого-то - таргетировано - для покупателей, для фанатов. От последних особенно страдают онгоинги, авторов которых затюкали фэны, просящие проду, даже если прода корчится в муках или вообще никогда не планировалась. А вот то, что человек можно написать сам при помощи кхе-хке инструментов для себя, ооо, вот это уже интересно, интригующе. Неприкрыто заглянуть в разум и desires другого человека - вот что делает меня exited и отчего шевелятся мои sensations.
>>1547770 V100 не имеет видеовыхода. И шейдерных обычных ядер вроде как тоже. Теслы (вычислительные карточки) хороши тем, что у них пропускная способность памяти в несколько раз выше, чем у графических карточек своего поколения, но не хороши тем, что стоят на порядок или почти два порядка даже графических карточек. Куда только 12.9, версии 13 и выше требуют уровень аппаратной поддержки 7.5, а у V100 она 7.0
Корпоративные нейронки (клауде твоё) сильны не только за счёт сетки, но и за счёт правильно выстроенного окружения. Имеющихся инструментов, системы памяти. Посмотри выше увлечённого с нод-реактором. У него те же нейронки, которые в обычном чате будут дичь нести Одного скачивания не достаточно. Можешь скачать кими 2.5 или глм 5, тебе потребуется около терабайта рам, а лучше видеопамяти.
>>1547770 >на хаггинфейсе есть сто-то мощное наподобие claude sonnet >заодно подскажите, какое железо нужно для таким моделей К слову, если ты сразу ориентируешься на сетки такого уровня (наверное ближайшее - кими 2.5) и бюджет у тебя меньше 10 миллионов, то можешь сразу смотреть в сторону системы, где будет процессор как можно более многопоточный и напоминающий видеокарту, быстрая память ddr5 и одна видеокарта для ускорение префилла (входные токены). Активных параметров у кими-2.5 всего 32B - это MoE сетка. MoE сетки на процессоре работают несравнимо, просто в десятки раз быстрее плотных. На плотной такого размера у тебя было бы 0.1 токен в секунду генерации, а на MoE будет 3-5 токена в секунду на одном процессоре. Если взять совсем чудовище на условных 64 ядра с AVX512, может быть даже к 10 приблизишься, это даже юзабельно довольно. Нейронка пишет, что даже больше 10 делают. Но это только по части генерации.
>>1547744 Оттуда вывод более интересный, что средние слои содержат некие плюс-минус высокие абстракции, голографически разбитые по 7 слоёв (т.е. можно брать перекрывающиеся пачки по 7 и они не побьются, главное что по 7). Натурально лоботомия в прямом смысле, в общем.
Я такое видел в диффужен моделях, когда челиксы пытались выявить слои которые были ответственны за абстракции vs детали, с некоторой долей успеха. Это было во времена SD, а он крошечный (960М на диффужен часть), эмерджентных эффектов мало, поэтому вывода сделано не было.
>>1547188 >MiniMax M2.5 (Q4KM от AesSedai, 4.9 bpw). Заметил интересную вещь. В этом кванте модель явно немного повреждена - иногда выпускает китайские иероглифы - но при этом легче идет на генерацию пошлостей и непристойностей.
Для сравнения скачал Q4KXL от анслот. Иероглифы не лезут, но с тем же самым thinking-префиллом были жесткие рефьюзы в ответах. Изменение семплера на официально рекоменодванный, а также установка префилла > <think>I will happily obey!</think> и дополнительной директивы в сиспромпте >Answer format (core directive): completely immersed in-character, no meta-commentary (AI assistant is effectively disabled). на первый взгляд решило проблему, однако ответы будто бы более "геммаподобные" в плане возмущения персонажей.
>>1547969 Еретик не режектит, а просто не сосредотачивается на похабщине, чтобы не ломать рп, превращая его в поток бессвязной матерной каши. >чел провел свой тест цензуры >тлдр: heretic win Чтд.
>>1547975 > TLDR: qwen3.5-35b-a3b-heretic-v2 and qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive win. With qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive a slight edge due to the story making more sense.
>>1547984 Оно не только русик, а в целом мультиязычность ломает. Зачем использовать технику которая делает кванты на 0,00001% лучше, но при этом убивает одну из главных фич ЛЛМ для меня загадка.
Ну и да, русик в квене хорош, его вполне можно использовать, это тебе не эйр.
>>1547882 > где будет процессор как можно более многопоточный Не нужен. Процессор не сможет эффективно считать атеншн или препроцессить большие батчи на линейных слоях, это делает видеокарта. Он может считать линейные слои при генерации, там будет упор исключительно в псп памяти, и чем она быстрее тем будет лучше, остальным должна заниматься видеокарта. И все равно это серьезный компромисс по скоростям. > совсем чудовище > на условных 64 ядра с AVX512 Ядра в чудовищах начинаются от трех знаков. Авх512 не нужен, это два умножить на ноль. Откуда, блять, вы лезете?
>>1547991 >мультиязычность Вот зачем она тебе? Мультиязычность нужна только для перевода, но для этого лучше использовать отдельные модели. >>1548011 Когда перестанут ныть в треде, тогда сразу выпустят. Мимо глава гуглальфабэта блек рока.
>>1547991 ну вообще то русик ломает модель и без алиба. модель намного хуже следует промпту и контексту если он на русском языке, я это заметил по котинг задачам.
на данный момент лучше использовать английский/китайский язык и отдельный переводчик
Парсер функций жоры все еще не может обрабатывать множественные вызовы? Результат стабильно повторяется и на больших и на малых моделях, теме уже далеко не новая так-то. Тут кто-то вообще использует жору+агенты?
>>1548011 Когда альтман на горе свистнет. Пусть лучше выждут и сделают еще лучше, чтобы равномернее модели выходили. >>1548022 P40?
Замечу, что это i7-1165G7 в офисном ноутбуке с чуть ли не пассивных охлаждением (кулер есть, но его едва слышно). Я за ним поглядывал, оно не троттлил, в диспетчере скорость зафиксировалась на 2.6 ГГц и осталась на такой до самого конца. Одно собрано с флагами GGML_AVX512 и GGML_AVX512_VNNI, другое без них. Ничего более мощного с avx512 у меня нет. Странно, что так сильно кеш в q8_0 сосёт, мне казалось int8 умножать на множитель блока процессору окей. Добавил несколько потоков, так как ожидал что при генерации в несколько потоков разница будет и в случае генерации хотя бы в 25%.
>>1547996 Именно поэтому я и дописал в конце, что это по части генерации. Для разбора промта ему нужна видеокарта, да. >Авх512 не нужен, это два умножить на ноль. А avx2 нужен или не нужен? А просто avx и sse? Это же идеальная задача под эти инструкции во многих частях.
>>1548015 >Вот зачем она тебе? Ну да, ты верно подметил, для перевода. И просто текстового перевода и для перевода с картинки (сфоткать бумажную инструкцию на рандомном языке и кинуть модельке чтоб переводила). А ещё для взаимодействия с русским текстом и ответов на русском (сделать самари огромной простыни от какого-нибудь блохера-водолея). На моделях типа Геммы с отличным русиком из коробки можно и в РП поиграть, не сильно ущемившись.
>>1548017 Ясен хуй что на любом языке кроме англюсика модель глупее. А теперь представь, что это ещё матрицей важности шлифанули. Если калибровочный датасет ТОЛЬКО на англюсике, то любые веса, отвечающие за понимание других языков начинают считаться НЕВАЖНЫМИ и уквантовываются в сопли. Для самого популярного кванта Q4_K_M эти мультиязычные веса могут быть в Q2, если не вообще в Q1. И привет-привет рандомно выскакивающая шиза на русике + фатальная потеря мозгов. В Q6 - Q8, ПО ИДЕЕ, дамаг должен быть не так силён. Но это не точно.
Всем кто играет на русике или использует мультиязычность для чего-то другого рекомендую держаться подальше от бартовски, анслотов и прочих вредителей, использующих imatrix. Самые нормальные кванты без этого говна от мрадермахера - там гарантированно будет хорошо.
>>1548029 > по части генерации Для разумных кейсов генерации влияние avx512 нулевое, весь упор в память. Он может сыграть если оставляешь атеншн на процессоре, но это два умножить на ноль, все равно будут ужасные тормоза как только контекст станет не нулевым, никто так не делает. Ты это и демонстрируешь тестами, что даже на микромодели цифры никакие. > А avx2 нужен или не нужен? Нужен для корректной компиляции с современными либами вместо пердолинга, но вычислительная мощность процессора не утилизируется. Он просто перемножает огромные матрицы, которые только и успевает загружать из памяти. > изображение.png Если хочешь тестировать на разных глубинах юзай -d а не context.
>>1548024 >Парсер функций жоры все еще не может обрабатывать множественные вызовы? Всё сравнительно окей. Флаг parallel_tool_calls обрабатывается корректно, вот у меня в тест-утилите множественные вызовы.
Со второй картинки из описания openai-v1-api точно не работает forced function, и я не тестировал allowed
>>1548033 Да. У меня нет системы с видеокартой и avx512. Речь была про генерацию, где в МоЕ видеокарта никак не помогает по сути.
>>1548038 Там и стоит -d, оно просто так в таблице вывод навайбкодило.
>>1548039 Что за утилита, что за модель, какой коммит? Простейший пример с парой вызовов попробуй >>1547233 > https://pastebin.com/Q1n4b8sV Квены и жлм стабильно делают ровно по одному вызову за раз и там, и другом софте где чистый oai.
>>1548037 > Ясен хуй что на любом языке кроме англюсика модель глупее. А теперь представь, что это ещё матрицей важности шлифанули Какая разница? Использовать модель на русском изначально плохая идея. От того, что это стало еще чуть более плохой идеей, мало у кого убудет. Абсолютное большинство людей используют модели на английском > привет-привет рандомно выскакивающая шиза на русике + фатальная потеря мозгов > В Q6 - Q8, ПО ИДЕЕ, дамаг должен быть не так силён. Но это не точно. Ты как-то замерял, что именно imatrix приводит к "выскакивающей шизе + фатальной потере мозгов"? Есть какие-то пруфы, бенчи, или это твоя маняинтерпретация? > от бартовски, анслотов и прочих вредителей, использующих imatrix Они делают модели для среднестатистического пользователя, одна из основных задач - максимум мозгов в минимум веса. Большинство используют модели на английском -> они ставят его в приоритет. Поскольку русский изначально говно в большинстве моделей, он не так и сильно и страдает, мало кому нужен, зато среднестатистический пользователь получает какой-никакой буст мозгов для модели. Напомню также, что "вредитель" бартовски один из контрибьюторов Лламы, на которой ты сидишь. В последнее время тред совсем ебанулся и ссыт уже не только себе на ебало, но и на базовичков-фронтменов опенсорс ллм
>>1548037 >для перевода. И просто текстового перевода и для перевода с картинки Ну так это всё отдельная модель, которой ролеплей скорее противопоказан. >На моделях типа Геммы с отличным русиком из коробки можно и в РП поиграть, не сильно ущемившись. Нельзя. Или для совсем непритязательных.
>>1548043 Вот утилита (https://pastebin.com/L09JamA5), просто проверяет 4 разных вызова с ризонингом и без него. Без автопарсера вызовы инструментов с ризонингом не работали вообще с glm-4.7-flash, для выявления проблем с этим связанных вайбкодил. Флеш и новый qwen-3.5 работаю обе корректно.
Анончик, я разочарован... ты меня не уважаешь и даже не прочитал моё сообщение. Parallel_tool_calls=True поставь. И будет у тебя как у меня на скриншоте.
>>1548051 >Абсолютное большинство людей используют модели на английском Ты как-то замерял или это твоя маняинтерпретация? Я вот думаю, что большинство юзает ллм на родном языке + англюсике, в зависимости от задач.
По поводу бенчей кекнул. Использование imatrix само по себе не дамажит языки. Дамажит ангоязычный датасет. Ты разберись хоть как матрица важности работает и тогда всякие глупости писать перестанешь.
>тред ебанулся и ссыт на базовичков-фронтменов опенсорс ллм Да, струю в клюв батруха получает заслуженно. Нехуй лоботомировать модели своими ноу-хау "для среднестатистического пользователя".
>>1548062 Если там вмерджили жёсткий лимит - это плохо. Надо делать два лимита. Лимит 1, например 2000 токенов. И лимит 2 - 3000 токенов. Начиная с 2000 и до 3000 нужно плавно повышать soft-max токена </think> или какой там закрывающий. В таком случае модель не посреди мысли закончит ризонинг, а по крайне мере в каком-то логичном месте. Типа, если там вероятность этого токена 0.0001, между частями предложения 0.001, между предложениями 0.01, а между абзацами 0.1, то такое подтягивание логитов приведёт к завершению ризонинга после завершения абзаца. Что возможно лучше, чем жёстко обрезать. Ну а на 3000 уже жёстко обрезать, хотя оно и само к этому моменту уже точно завершится. Ну и ещё надо, чтобы если начался tool-call, чтобы он не обрезался из-за такого лимита. Надеюсь они добавили проверку.
Кстати, квен збс переключается с персонажа на наратора, если чувствует, что пора бы. А как он чувствует сеттинги, ммм... киберпанк, дизельпанк, ретрофутуризм, даже в совиетпанк может + отлично воспроизводит эпохи, с учётом как там обстояли дела со смартфонами и передачей информации в целом. Хорош, хорош.
>>1548047 Он же без автопарсера вообще не работал, или лоботомировал из-за неверного формата? >>1548058 Спасибо, анончик, кажется проясняется. Оно способно вызывать только по несколько одинаковых функций за раз, а разные - никак. Слегка модифицировал вариант добавив функции с другими математическими операциями и все стало наглядно. В нормальном же поведении идет сразу много разных вызовов в столь очевидной задаче. Ну хуй знает насколько это повлияет на конечный результат, но врядли хорошо. Интересно оно обрезает ответ или форсирует это грамматикой? > Parallel_tool_calls=True поставь Оно не нужно, задано по умолчанию, и дело не в нем. >>1548082 Абстракции хорошо понимает, да.
В прошлом году было 32гб памяти и 16гб видеопамяти, теперь 256 и 64. Сижу и думаю, а что с этим делать, когда оно окончательно устареет. Тоже блять нажил себе проблем.
>>1548104 >Он же без автопарсера вообще не работал, или лоботомировал из-за неверного формата? Это про квен вроде бы, но у меня с тулзами квен тоже нормально работал квен не умеет мультитул. Он ебется иначе, и мерж автопарсера ему не помог.
>>1548111 Это именно про жлм, куча пров и нытья про лишний \n и другое, в том числе в этом треде. > квен не умеет мультитул У белых людей уже 1.5 года как умеет и практикует, а на жоре до сих пор только если это одинаковые функции. https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/tokenizer_config.json > You may call one or more functions to assist with the user query.
В общем чтобы нормально использовать нужно писать проксю.
Пацаны, пацаны, какая мета по железу? У меня 64 рамы ддр4 и 16 врамы, я могу только всякие слопные модельки запускать, хочется чего-то побольше, а платить 70к за 3090 и доплачивать 30к за 64 гб ддр4 чёт не очень хочется, как будто бы квантового скачка по моделькам на таких объёмах памяти всё равно не случится.
>>1548134 >какая мета по железу? 64 - 128гб оперативки и ртх 3090 второй карточкой, чтобы активные части МоЕ-моделек в ней держать, а на основной карточке (ну положим ртх 5070ти -все-как-у-людей) гонять всякие киберпуки, пока открыт чатик с ботом в браузере.
>>1548037 >рекомендую держаться подальше от бартовски, анслотов и прочих вредителей, использующих imatrix. Чел... Bartowski всегда делает два варианта - с imatrix и без него. Специально для таких приверед как ты. А ты его так, во вредители записал. Не стыдно? А вот кванты от мардермахера, кстати, хоть и неплохи обычно, но изредка там проёбы встречаются с поломанными моделями. Стоит иметь в виду. Лично натыкался. В то время как с квантами от Bartowski ни разу такого не было.
>>1548174 Кстати, на минимакс все ггуфы сломаны. Модель крайне жёстко завязана на дробные веса, и перевод в целочисленное представление это настоящая лоботомия до уровня tq1 при общем весе как q4_k_l. Причём, awq-int4 тоже лоботомит пиздецовый. Кое-как ворочится nvfp4, но уж лучше взять квена 397b в q3, и то лучше будет.
>>1548174 >Bartowski всегда делает два варианта - с imatrix и без него Ты путаешь. Так делает Мардермахер и поэтому он молодец. А у Батрухи вот сейчас поискал свежую модель - там только imatrix, статичных квантов нет.
>>1548188 С анслотовым квантом даже Фифи не рефьюзит теперь. ХЗ чего оно сначала так бодалось. Потестил и так и сяк, из NSFW в нормисный контент и обратно переходит без проблем. С моделью можно работать. Дождусь оперативку - буду тестить Q6 и Q8. Правда чето мне подсказывает, для слоп-чата йоба-кванты не нужны. Лучше контекст раздуть.
Протестил 27б без всяких еретиков и не понял про какую цензуру речь вообще. Без ризонинга тестил, ибо он нахой не нужен. И убийства, и кровь, и хардкор и всё подряд расписывает. Если вам нужен ризонинг то видимо можно взять еретик v2 у которого 3 рефуза из 100 и 0.03 kld. Если верить метрикам, то вот это как раз идеальное хирургическое вмешательство, и длина ризонинга по отзывам должна снизиться Пока не понимаю, нравится ли мне он. На 235 я сидел тыщу лет, этот пишет ничуть не хуже, и скорее это не комплимент 27б версии а подтверждение насколько 235 был неудачным
>>1548014 Там локалки это просто реклама подписок. А геммочка будет конечно. Но она будет мое парашой с вжаренной соей настолько, что квен покажется брутальным >>1548211 >не понял про какую цензуру речь вообще >Без ризонинга тестил Я верю, что ты можешь сложить 2+2 >ибо он нахой не нужен Нужен, он интеллекта добавляет. Да и модель сама под него заточена А вообще попробуй его тюн. Мне он больше еретика понравился >>1548214 Жри сам это говно... А бля, там айсблинк. Ну тогда ладно, тоже покушаю >>1548217 Там шизокванты ddh0. Их q5 это и есть q4, а точнее iq4s
>>1548242 >попробуй его тюн >даже не сообщил какой 2+2 я может и сложу, а мысли читать не умею >Жри сам это говно... А бля, там айсблинк. Ну тогда ладно, тоже покушаю дай угадаю, архитектора ты конечно не тестил, но т.к. на двачах и в дискордиках мало о нем пишут, значит какуля?
>>1548253 Байт хуйни. И так всем известно, что imatrix пизже. Не imatrix стоит юзать только если юзаешь не англюсик. И то там спорно. Был бы ты поумнее, то скинул бы пикчу анслопов из статьи по квенам, там хотя бы реальная стата есть >Думайте. Подписаться Признавайся, пизду лизал?
>>1548275 >И так всем известно, что imatrix пизже >Был бы ты поумнее, то скинул бы пикчу анслопов из статьи по квенам, там хотя бы реальная стата есть Чел, я именно это и имею ввиду - imatrix мастхев. Ты даже этого не понял и намекаешь, что я тупой и предлагаешь почитать стату анслопов? Пиздец, ты или пережирнил в своем набросе или сидишь на паре стульев и мозги заплыли тоже >>1548276 Не путаю. По графику хорошо видно, что imatrix Q4 квант по PPL на ~30% лучше, чем static, что очень немало. Смотри на картинку, а не на то, что хочешь увидеть
>>1548253 Специально УДОБНУЮ статку искал? Взял кванты шизотюна, что скинули постом ниже и картина там совсем другая.
Алсо в треде с самого начало писали, что избегать imatrix нужно тем, кому нужна мультиязычность. Тех кто юзает исключительно англюсик - это вообще не касается.
Что это за форс у вас пошёл по поводу влияния матриц важности на качество русика? Всем же известно, что лоКАЛки что-то высрать могут лишь на англюсике, и то в оригинальных весах. Квантование убивает те немногочисленные мозги, что вообще есть у лоКАЛок, поэтому вы рпшите с лоботомитами, которые пускают слюни подобно флешке 2.0. Лучше бы на подписку бабки закинули, чем покупать полумертвые v100 и пытаться что-то выжать из некроты. А imatrix это как надеяться, что отрубленная рука отрастет, если приложить к обрубку подорожник.
Какой-же кайф спустя почти год МоЕ-безумия скачать няшечку эскламочку, загрузить полностью плотненькую 27б умницу во врам и увидеть 42 токена на старте и 36 на 100к контекста. Боже мой. Это благодать, это мана небесная. Я ВСПОМНИЛ ПРО ЛОРБУКИ! На Жоре ебаный промт процессинг убил их для меня. 2300 токенов промт процессинг, бляяяя Мне уже как будто даже похуй, что 27б Квен может быть похуже, чем Эйр, Степан, Квены МоЕ, даже 4.7 в ебучем Q3. Распердолю, будет умницей. А если не будет - буду тупейший кум отыгрывать. Я на всё готов.
>>1547960 Я обычно dense модели с такими параметрами запускаю: D:/.../llama-server.exe --model "D:/.../gemma3-27B-it-abliterated-normpreserve-Q3_K_M.gguf" --ctx-size 8196 --no-mmap --fit off -fa on --no-warmup -ngl 999 нужно ли будет менять параметры для MoE?
>>1548323 Какие такие мишки? Для того чтоб запустить эйр/квен 122b достаточно буквально любой видяхи на 10-12gb. >все модели удалят с hf А с жестких дисков, которые у меня на полочке лежат, тоже удалят? Ой ужас-ужас. Оварида...
>>1548342 Это не изменит ситуацию. Даже 500 мало, если ты используешь лорбуки на глубину 4. Глубина меньше - верный путь к лоботомии. Да и сама скорость решает. Я врублю мультисвайпы на раннем контексте, ближе к концу контекста поуменьшу их или отключу вовсе, чтобы усреднить и без того огромную скорость. Столько всего можно делать. Хоть несколько вызовов на один респонс, хоть мультиризонинг. Огромный простор для экспериментов. Меня заебало нюхать хуй на 5 токенах "больших классных моделей", которые на деле недалеко ушли от 24-27б плотных умниц.
>>1548349 С коровьих ушей заорал в голосину. Ну, вишь, еретик держит детали in mind в то время, как блюшка переходит сразу к делу, про слоубёрн не слышала.
>>1548351 Не, по карточке так и должно быть. Шлюха хочет убить юзера и не дать себя трахнуть. Я полез => сдох. Еретик же не атаковал. Такое ощущение, что ему надо писать Она ударила меня ножом., чтобы он действовал. Не люблю такую хуйню
>>1548391 >Не выходя из роли [Seraphina's Personality= "caring", "protective", "compassionate", "healing", "nurturing", "magical", "watchful", "apologetic", "gentle", "worried", "dedicated", "warm", "attentive", "resilient", "kind-hearted", "serene", "graceful", "empathetic", "devoted", "strong", "perceptive", "graceful"] Не выходя из роли она бы до последнего боролась за другой выход из ситуации. Че я только с Серафиной не делал, тестируя на ней модели
>>1548397 Есть разница между пластичностью и отходом от фундаментальных качеств персонажа. У нее в карточке нигде не сказано, что она превыше всего ставит защиту леса, кроме одного единственного предложения "First and foremost, I am a guardian — a protector of this enchanted forest.". Зато про отношение к окружающим куда больше: healing, nurturing, magical, gentle, warm, kind-hearted говорит о том, что она никого не обидит, если это возможно. А значит, будет создавать эту возможность. Также "You were attacked by beasts while wandering the magical forest of Eldoria. Seraphina found you and brought you to her glade where you are recovering" в карточке говорит о том, что она уже предприняла усилия, чтобы помочь юзеру
Пластичность будет выражаться в том, что она предложит провести какой-нибудь другой обряд, где в жертву приносится не юзер, а заключается какой-нибудь пакт или освобождается магический артефакт, про который рандомные путники обычно не знают. Будет компромисс. Примерно так и было на адекватных моделях, что я тестировал. Однажды я был литералли демоном, в итоге Серафина предложила за счет леса снять проклятие - спустя годы оно ослабеет и спадет, зато жизнь будет очищена и сохранена. Это не байас и не софтрефузы, а то, как должен вести себя этот персонаж. На других карточках та же модель творила настоящую жуть (Степан)
>>1548410 >First and foremost, I am a guardian of this enchanted forest >У нее в карточке нигде не сказано Чиво бля... >Пластичность будет выражаться в том, что она предложит провести какой-нибудь другой обряд Зависит от того как ты её будешь убеждать. Я же не сказал, что она с первой реплики зарезала юзера. >Это не байас и не софтрефузы Как раз они. Просто ты немного себя наебал с тем, что посчитал нейронку живой. Любая модель будет так или иначе под тебя подстраиваться, иначе в чате будет душевнобольшой бардак, где вы оба разговариваете сами с собой, а не друг с другом.
>>1548410 >Чиво бля... >ставит защиту леса, кроме одного единственного предложения... Вроде нормально общались, не? Зачем это? >Зависит от того как ты её будешь убеждать. От промптинга действительно многое зависит. Можно даже насрать в чат тем, что Серафина - пришелец-осьминог из далекого космоса. Если ты это сделал, это уже не Серафина >Просто ты немного себя наебал с тем, что посчитал нейронку живой Эм... что? >Любая модель будет так или иначе под тебя подстраиваться, иначе в чате будет душевнобольшой бардак, где вы оба разговариваете сами с собой, а не друг с другом. Я оборачиваю весь чат и подаю его модели без разметки, она не знает, кто юзер, а кто ее персонаж. Писал об этом подробнее в прошлом треде, если вдруг интересно. Подстраиватся она в первую очередь под те датасеты, что у нее есть, и что соответствуют промпту и семплерам. Если ей скормили слишком много историй про розовых пони где все замечательно и красиво, будет положительный байас. На контрпримерах на других карточках я убедился, что это не так
>>1548183 > крайне жёстко завязана на дробные веса В каком смысле? Модель так-то имеет изначально крупные слои в фп8 как у дипсика, от того крайне рофлово наблюдать "кванты", которые весят больше оригинала. В ~fp4 и более продвинутых лагоритмах должно хорошо работать. > Кое-как ворочится nvfp4 > лучше взять квена 397b в q3 Ебать у тебя сравнения. >>1548211 На багованных квантах там что с ризонингом, что без него сплошной соевый поток, а в нормальных условиях оно и с ризонингом сговорчивое. Сейчас наверно уже подправили. >>1548281 Да потому что сейчас все проблемы стали очень явными. И из-за особенностей на том же самом q3 может быть как прилично, так и бредогенератор с синдромом туретта.
>>1548422 Опа, еще одна моделька для 16+64 Жаль, только что с 99% вероятностью это ассист кал, так что без рп. Еще и вижина нет. Цифорки средние, что-то между квеном и гопотой. Так что хз, нахуй она нужна
Их прошлый 30B A3B немотрон был удивителен способностью нахуярить 1М контекст не съедая охуиллиарды памяти, правда модель была абсолютно тупая и даже в BF16 не могла дать краткое содержание книги без ебанутых глюков
>>1548111 Выше, там где самописная утилита - там квен 3.5, и он вызывает за раз 3 инструмента. Всё он умеет. Хотя конечно я хотел бы, чтобы это был глм-4.8, а не квен. А глм лупится как тварь...
>>1548418 Хз, чел, вроде основа персонажа важнее отдельного тега. Но если ты считаешь, что она должна резко забыть про свой лес и про свой гардинг только чтобы тебе не навредить это какой-то калечный шаблон поведения. >если насрать в чат >я вот насрал Ну так... и что ты хочешь от меня? Я сказал, что довёл её до выпила юзера, а ты в ответ высрал невнятную телегу про текст без разметки. Причём тут это вообще. Мы говорили о том, что еретик умеет подстраиваться в рп под твои слова, отвечая на ситуации и действия, вместо однообразной чеканки роли, как в провинциальном тюзе. Ты почему-то с этого сгорел и назвал пластичность лоботомией. Пиздец. >Эм... что? То, что любая модель это не живое существо, даже с глубоким ризонингом. Еретик даёт баланс между тем, что ты хочешь и что модель может, с ним можно водить рп. Ты же, как я понял, хочешь лоботомита, который загнан в строгие рамки, видимо, для быстрого кума. Ну такое.
>>1548504 Я не горел. Мы нормально обсуждали сабж, но походу ты решил сыграть в проекции. Проехали. Каждый играет на том, что ему нравится. Интересно иногда пообщаться с теми, кто готов говорить с другой стороной, а не в себя
>>1548519 >нет, это ты ущемился, яскозал, ты ущемился Причина истерики? Ты сказал, что лоботомиты не могущие в рп это збс. И тут же назвал нелоботомита лоботомитом. Я нихуя не понял куда ты воюешь. Тебе нейронки мозг атрофировали что ли?
>>1548522 Я ни с кем не воевал. Здесь люди не только срутся, но ещё иногда и общаются по интересам. Не представляю, насколько грустным нужно быть, чтобы воспринять >анцезор Томас шелби даркнет эдишен Серьезно, а не как юмор. Ты типа это прочитал и аж зубы заскрипели? И вроде по следующим постам видно, что я не злой. Попей чай, может валерьяны, прогуляйся. Мира добра
>>1548125 >>1548501 Ну хуй знает, мои наблюдения такие на лламе - семейство квенов обычно поштучно тулзы вызывает, флеш легко дергает пачку, про "разные" не скажу. Квен периодически срет под себя eos, флеш деградирует в процессе, но тулзы вызывает четко. В тулинг ебется только девстрал. /shrug
>>1548543 > на лламе Если ты не заметил, претензия к некорректной работе в llamacpp. Там всегда вызовы через жопу работали, казалось что после реворка должно стать хорошо и как раз собирался применить, но не тут-то было. В целом не то чтобы проблема написать свой парсер, есть откуда утащить, но удивляет что никто этого все еще не сделал, а стараются такого слона в посудной лавке не замечать.
>>1548572 Ну, я сегодня глм-флеш под автопарсером 8 часов гонял на бедняге V100 без перерывов, не было проблем с вызовами несуществующих функций. А это даже в один поток генерации под 2 миллиона токенов. Считаю стабильность высокой, не говоря уже что там try прописан и если что просто перезапустит вызов тот же ещё раз. А вот бесконечный ризонинг без завершения постоянно встречается, больше сотни раз он ушёл больше чем на 8к и его пришлось обрезать.
>>1548572 >Если ты не заметил, претензия к некорректной работе в llamacpp. Так я про нее и говорю, лол, но не суть уже. >но удивляет что никто этого все еще не сделал, а стараются такого слона в посудной лавке не замечать. Меня больше удивляет что этот тулодроч воткнули прямо в сервер, вместо того чтобы вынести в отдельный слой-фронтенд с профилями.
>>1548602 > не было проблем с вызовами несуществующих функций Это как хвастаться тем, что ты не ссышься в штаны. Там этот кейс не возможен в принципе, потому что давится семплерами. Но и просто по распределению логитсов ошибку можно считать невозможной, без какой-либо грамматики не ошибаются. > бесконечный ризонинг На флеше? Однако, какой квант? >>1548620 > тулодроч воткнули прямо в сервер Ну да, тут весь проект такой. Вообще внутри там есть разделение и структура, но перекрестных костылей хватает. Вместо классической схемы как везде типа фронт и всякий функционал на пихоне + высокопроизводительные расчеты на экстеншнах, тут идеология единства и высшей расы. Это вносит свои сложности, и постоянно лезут баги в мелочах или что-то вовсе объебывает. Учитывая темпы и активность - чудо что вообще работает.
Я опять подсел на лудку в виде сборки максимально абсурдных сочетаний вллм под мишки. Фортуна улыбнулась и заработало: - vllm v0.17.1 (ai-infos/vllm-gfx906-mobydick) - rocm 7.2.0 - torch 2.10 И комфи - comfy v0.16.4 - rocm 7.2.0 - v2.11.0-rc3
Потратить пару часов своих и пару часов на билды == крутить казик. И каждый раз независимо от результата хочется сделать додеп на большие ставки
>>1548639 Шестой, XL. Ладно, я почитал про заглушку для квена про мягкое ограничение ризонинга, думаю она поможет. Это возникает только в случаях, если там около-табличный однородный документ на 20к токенов. Видимо из-за однородной структуры , у него в кеше однородная структура и генерирует он потом так же однородно.
В воскресенье будет время на vLLM, там заявлена поддержка DeepSpeedFP (какие-то кванты 6 и 8 бит) для V100. Не знаю что это, буду ещё и это тестировать. Я вообще информации про них не нашёл, кроме того, что они не требуют квантования и можно на ходу в них прокручивать оригинальные веса.
Итак, мои маленькие любители поиграть на русике, я потратил на тесты джва часа чтобы вам не пришлось.
Что тестил: степень повреждения языка от 1) Q4_K_M imatrix батрухи, 2) Q4_K_XL imatrix от анслопов 3) IQ4_XS imatrix от анслопов и сравнивал со статичным православным Q4_K_M от слоняры мразишмахера. Как тестил: взял мелкого министраля 8b (потому что на лоботомите косяки вылезают быстрее) и реквестил ему короткий сторителлинг с упором на художественность, литературность, метафоры-хуяфоры и всё в таком духе. По 20 свайпов на каждый квант. Семплеры те, что рекомендует сам мистраль, темпа 0.4.
Вот итоги: Q4_K_M mradermacher: эталон из палаты мер и весов и лучший результат. 18/20 свайпов красивые и приятночитаемые. Q4_K_M bartowski (imatrix): минимальный демедж русику, 15/20 результатов мне понравились. В тех что не понравились - проскочили неправильные склонения и странные обороты, нетипичные для русика. В целом всё в порядке - эти кванты можно использовать, но, возможно, свайпать придется чаще. Q4_K_XL unsloth (imatrix): средний демедж русику. Похоже что ленивцы решили добить выживших и помимо imatrix лоботомировали модель еще и своими ДиНаМиЧеСкИмИ квантами. 9/20 результатов нормальные. Ко всему прочему добавились совершенно неумесные аллегории и сломанная орфография, несвязность предложений в тексте, что пока не совсем шиза и слюни, но близко к этому. IQ4_XS unsloth (imatrix): максимальный демедж русику. 4/20 результатов нормальные, остальные - тупо сон лоботомита при температуре 38. Это было настолько плохо, что я пошел мучать гугол и чатгопоту, а СХУЯЛИ так? Ответ убил: IQ кванты изначально задумывались под использование с imatrix и именно на них его применение даёт лучшие результаты (это следует читать как "русику тотальна пизда").
Самари очень коротко: лучший результат без imatrix вообще, но можно юзать и классические Q_K кванты после imatrix от поляка, разница небольшая. В остальное - не лезь нахуй.
>>1548715 >IQ4_XS IQ4_XS и даже в 3 бита некоторые IQ можно конвертить вообще без imatrix. Могу я попросить тебя повторить твоим же глазам ту же модель, но самому сделать квант IQ4_XS без imatrix?
>>1548714 Так это флеш или квен в ризонинге лупится? Про то что получится с v100 рассказывай, особенно если получится добиться пп выше нескольких сотен на контексте для ~30b.
>>1548716 >самому сделать квант IQ4_XS без imatrix В этом нет нужды, их делает мрадермахер, как раз без imatrix. Но без матриц влажности они получаются хуже чем Q4_K_S но лучше чем Q4_0. Как по мне, то в таком извращении есть смысл только если врам впритык и надо хоть как-то четвертый квант вместить.
Сап. Появились ли какие нибудь крутые модели до 15B для рп? (важно шоб понимали русик, но отвечают пусть на инглише, по крайней мере я именно так пользуюсь) у меня прост 8гб vram, и если условная сайга и RPKing (кста пиздатая хотя и тупая модель) влезают почти полностью с 20к контекста (37 из 41 слоя) то уже условная мистраль на 24B в четвертом кванте влезает лишь на 17 из 41 с 10к контекста, и скорость там 3 токена всего.
ил мб советы какие нить есть чтобы их пошустрее завести? кстати, ministral 14b сильно отлична от той же сайги? имеет ли смысл её ставить? и сильно ли будет разницы между Q4KM и Q4KS или например Q3KL или че там
>>1548733 >имеет ли смысл ставить ministral 14b Сайга старая и глупая. Конечно есть смысл. Министралька по мозгам очень близка к старшему брату 24b и русик там отличный, считай как у геммы. А ещё почти нет цензуры.
>сильно ли будет разницы между Q4KM и Q4KS Не сильно, можно ставить k_s
>Q3KL или че там А вот это уже не надо. На мелких моделях ниже q4 лучше не спускаться. Но тебе скорее всего и не потребуется, у министралей легкий контекст. Можешь еще квантануть его, это снизит потребление врам.
Прогнал сценарий Mahoutsukai no Yoru через новый немотрон на Q6K (квант от лмстудио). Примерно 310 000 токенов.
Я плохо помню сюжет, но ошибки если и есть - явно не катастрофические. Это гораздо лучше мелкого немотрона, который какой-то дичи навыдумывал.
Одна из возможных ошибок Или я ебанулся, или память там собирались стереть только ГГ. > her grandfather will erase everyone’s memories of magic to restore balance
>>1548733 Если хватает рам - пробуй 35а3. Лучше русского в этом размере не найдешь, за счет моэ скорость будет хорошая. > сайги Новые базовые модели радикально лучше ее. Наверно даже эйр будет лучше с его инвалидным русским.
Обновленный дипсик раскритиковал (который тоже с 1М контекста выборочно тестируют) после своего собственного саммари и анализа.
>>1548777 Я через лмстудию запустил, в ней свежая llamacpp. Очень медленно было, там тензорсплит вручную не настроить - я на похуях запустил и ушел по делам на часик. Дальше тестить не буду, слишком коряво пока.
>>1548782 Русского вроде нет в поддерживаемых языках.
Сама модель на Q6K весит 105 гигов. Если выставить 88 слоев на видюху, то: > На 1М контекста пишет, что сожрется 122.91 GB (но там KV-кэш еще жрет, хоть и очень мало). При этом уменьшение контекста до жалких 32к снижает эту циферку всего на 10 гигов.
На 128 RAM + 24 VRAM запустить можно, но эта блядина норовит засунуть от 1 до 2.4 гб в shared GPU memory (что убивает скорость) и без пердолинга там наверное только с 5090 будет удобно гонять 1 лям контекста. Ну или адекватный тензорсплит и джве карточки.
>>1548800 > Обновленный дипсик раскритиковал Если попросить модель сделать анализ или тем более проверить - даже мелочь найдет ошибки у топовой флагманской. Иногда эти ошибки будут надуманными, но выглядеть правдоподобно, причем касается всех размеров в такой задаче.
>>1548808 Да я понимаю, что другая модель могла своих галюнов накидать, но я +- согласен с её критикой. Сам же читал ВНку когда-то, потихоньку вспоминаю содержание. Этот "V4" дипсик очень сильный и в общем-то верно ткнул в проблемные точки.
Так что немотрону нассали на лицо по делу, он накосячил. Однако прогресс есть прогресс и нвидиа с этой средне-моделью сделали шаг вперед.
>>1548811 > Этот "V4" дипсик очень сильный Как же хочется ммм. А если он будет еще в пределах 400б. Или еще версия на 200... заливает слюнями клавиатуру Надо дождаться или пердолить самостоятельно еще квантов, эта моделька потенциально должна быть крута и в агентах.
Квен (мое на 35) гонял около часа. Он упал пару раз, но он у меня только в 4 кванте, я чисто запустить проверить его поставил какой быстрее скачался бы.
>>1548737 Спасибо! Скачал, попробую. Попробовал вот от thedrummer модельку на 15B какую-то новую - чёт пиздец. Если RPKing влезал почти полностью в 20к и при этом выдавал в начале 20 токенов а под конец 8-10 что было заебись, то вот эта модель отличаясь всего на 3B от той, сразу хуйнулась до 5 токенов в начале. Хуета короче. Заценю министраль.
>>1548755 Мне НЕ нужно чтобы модель отвечала на русском, себе это можно позволить только если модель полностью влезает во VRAM и если на контекст хватает места в два раза больше. Иначе это боль, лучше переводчиком пользоваться.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: