В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1630190 В голос. Все что нужно знать о бенчедрочерах-писькомерах. На графике даже не указано ЧТО измеряется, а постер не видит необходимости сообщить. Уахаха бляя
>>1630175 → Сейчас 4х канальных действительно зажали, сразу 8канальные или полностью серверные платформы. Хотя чисто технически есть младшие трипаки, у которых как раз по 4 канала, но они слишком дорогие и там те же приколы с фабрикой, что нормальный псп рам будет только на более старших моделях. >>1630184 → Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга. > вот еще старую плату нашел у себя. Ебать, 15 лет назал на бюджетных платах столько разъемов было Что псина, что рам через тормознутую печку под названием северный мост, вместо экспресса древность в виде легаси пси. Много разъемов которые мы заслужили. >>1630193 Как просто список свежих пойдет.
>>1630193 >На графике даже не указано ЧТО измеряется А какая разница что там измеряется если это в любом случае манябенчмарк? Ну ок, скажу что Intelligence на основе бенчмарков связанных с кодингом, агентами и ризонингом - помогло? Пост был о списке моделей, а ранжировка не имеет особого значения.
>>1630194 >объединить 3060 и 580 не получится Понял. Ну тогда и и 16 медленных гигабутов совать тоже смысла нет. Я просто думал типа будет кампутинг на 3060 а на rx580 просто память забить смогет. Спасибо
>>1630198 С одной стороны есть, больше рам - больше моэ модельку можно пихнуть. Но 48 гигов маловато, тут бы хотябы 64 а то и 128. Если выйдет что-то около 70б - тогда будет как раз.
>>1630198 Докупи майнерскую карту типа p102-100 или какую то еще, стоят мало есть куда, а значит можно обьединять с твоей. Но там свои приколы с ними, шина говно кулеры крутят всегда. Рассматривай как бомжевариант эксперимент
>>1630202 Да мне просто интересно потыкать, так в целом качество устраивает В случае докидывания барахлом есть еще интересный вариант использовать gpu как ram костылями Я люблю немножко поковыряться всякое такое. Но мне кажется там задержка будет ебическая и профит на ноль поделит
Господа, юзающие Step-3,7-flash, подскажите несколько вопросов. Как у него с русским языком? Как у него с вниманием к контексту (нужно учитывать много контекста, там не SWA, надеюсь?)? Есть ли какие-то рекомендации, у кого из квантоделов лучше кванты получились? На борту пека 128 гб DDR4, 3060-12, 4060ti-16 и v100-16 (v100-16 уже полгода лень допилить для впихивания в системник, возможно вот и настал сей знаменательный час).
>>1630203 У меня тестовая сборка с p102-100, так что пишу по опыту. Если выбирать другую карту с нормальной шиной для хранения кеша то скорости порезаной шины хватает для генерации, даже фулл врам крутить скорость хорошая
>>1630190 >Квен 35b-a3b лучше чем квен 122b, лучше чем квен 235b, лучше плотной геммы, лучше эйра, лучше жирноглема 4.7 Ясно-понятно. В 2026 кто-то ещё воспринимает бенчи всерьёз?
>>1630209 А вода мокрая, с тебя долбаеба токсичного угарать только. Со сборкой анона только мое и крутить и лучше если выбрать квант потолще, а ему нужна рам. Сколько именно пусть сам прикидывает.
Аноны, я тут крупно проебался. Взял вторую видяху, воткнул и... Увидел нихуя. Полез в биос, и ахуел. Оказывается, на моей материнке нужно выбирать. Либо две видимокарты, либо 2 М2NVME. Я хуй знает что с этим делать, думаю брать переходник PCI-E x1-M2NVME, чтобы не сидеть без дисков. Есть тут такие же несчастные как я? Как обходили, чем всё кончилось? Очень не радует перспектива перезапускаться для нейронок/ссд.
>>1630213 В те размеры из моэ только гемма поместится, там хоть 8й квант, хоть полные веса возьми - та же залупа. Или из старья жлм флеш, 30а3, 35а3 квены. Для чего-то нормального уже хотябы 64 нужно. >>1630216 Что за материнка?
>>1630194 >Объединить 3060 и 580 не получится, только запускать на них разные модели. Можно второю 3060 или другого хуанга. Вообще-то - про подобные конфиги на ютубе уже проскакивало. Через Vulkan их можно запустить вместе, если обе под ним заводятся. Другое дело, что Vulkan - сам по себе тормознее куды, а что будет под ним на двух конкретных картах - вообще хрен его заранее знает.
>>1630216 Из радостного, плотная гемма в Q4 в фуллврам выдаёт 17tg вместо старых 5, буду другой квант перекачивать. Ну и стало 1000pp. Можно теперь погонять будет нормально не боясь репроцессинга.
>>1630223 Учитывая все - а может просто глянуть на вторичке что-то на ам4, а свою продать? Может по цене выйти +- сейм как покупать и пробовать все эти переходники.
>>1630226 Размышлял уже над этим. Клод говорит, что нужно брать что-то с чипсетом X570, но новых хуй да нихуя, и стоят они по 40к с магазина. Ну и шерстить документации к платам, искать как разведены псины.
>>1630190 Если вдруг кто не знает (а судя по комментариям, никто почти не знает), это сайт https://artificialanalysis.ai/ где выводится просто среднее по сумме всех бенчмарков.
В целом, это лучший из имеющихся рейтингов. Но бенчмаксинг имеет быть, так что «лучший» не значит «верный», тут вы в итоге правы.
Там еще есть вкладки «агентик» и «кодинг», кстати. Там рейтинг местами меняется порою. Но в общем и целом, конечно… единственное, что меряет бенчмарк — это плохие модели. =) Низкий рейтинг почти никогда не ошибается, кек.
>>1630229 > Клод говорит В вопросах по железу ллм легко могут выдать бред. Просто глянь варианты где есть х4 линии. С некроамд будет все печально и линии только 3.0, но едва ли тут будет какой-то смысл гнаться за дорогим чипсетом ради 4.0 на неполной скорости, лучше уже потом полностью платформу обновишь.
>>1630248 Спасибо, не понял сначала, да, вижу. Тут странно правда, q4 лучше без их васянства, а q6 и q5 - с ним. Вероятно, особо не оптимизируешь и так сильное сжатие, скорее сломаешь что-то.
>>1630253 Смотря какие модели, надо пробовать, проверять. Я glm air https://huggingface.co/steampunque/GLM-4.5-Air-MP-GGUF отсюда брал и с обычными квантами небо и земля, еще и mtp слой зарезан, чтобы память сэкономить. Правда я больше такого и не встречал, где так хорошо сделали под модель.
>>1630247 В прошлом треде тестили, вообще похеру, хоть какие кванты бери, главное от q4 и выше и от нормального релизера. Иматриксы-статики и qat вообще значения не имеют, ud-неud тоже, выдает примерно одно и то же на всех, хоть русский, хоть какой. Современные гемки не очень чувствительны. Бери квант, лучше по скорости идущий на твоем железе. От unsloth новые qat в Q4_K_XL в плане скорости весьма неплохи. Все, что в инете пиздят, вкусовщина и субьективщина, либо вариативность моделей если нажимать кнопку генерации заново.
>>1630259 Это те "тесты" под конец треда? Тебя там мало обоссали? Те тесты не доказывают то что ты тут пишешь. Слишком смелые выводы про подергать пару сообщений туда сюда.
>>1630260 У утверждающих обратное только голословные беспруфные мнения, так что их можно вообще игнорить, еще бы каждого с его субъективными предпочтениями слушать. Когда пруфнут хоть какими тестами со скринами - тогда можно обратить внимание. В тестах же было запруфано, что выдает примерно одно и то же, хоть с контекстом, хоть без.
>>1630259 Спасибо. Я все равно сейчас glm-4.7-flash q6 взял сравнивать с q4, пока вроде только больше памяти жрет и немного медленнее генерирует. Потом gemma-4 попробую.
>>1630263 Это пруфы, поскольку у остальных вообще никаких пруфов их пиздежу, ни одного запруфанного сравнение популярных квантов, где бы напрямую сравнивались. Там же реальные тесты давались с карточками. На тестовых сэмплах с контекстом и языками модели выдают одно и то же, с этим и столкнешься, когда рпшить с ними будешь. Поэтому в одном месте те же qat обсирают, а в другом нахваливают, кто-то статики хвалит, кто-то иматриксы, между квантами >=q4 от топовых релизеров нет особой разницы. Вся разница чисто рэндом у вывода модели от случая к случаю, она может то короче, то длиннее выводить, то беднее, то богаче при перегенерации, но в среднем у них одинаковый уровень вывода, что тесты и показали.
>>1630264 Это не пруфы того что ты писал выше, слишком смелые и категоричные выводы из тех примеров что были скинуты. По ним нельзя сделать тех выводов что ты делаешь.
>>1630113 → Ага, ПРОСТО с ноги влететь в 5% топов по зарплатам по стране, при этом не имея никаких талантов и способностей, будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии. Чего уж ПРОЩЕ. Как же тошнит с тех, кому повезло вытащить в генетической лотерее здоровую крепкую психику, ум и сильную волю, и они теперь других жизни учат.
>>1630306 >будучи почти аутистом и пребывая в затяжной многолетней апатии и депрессии От того же говна страдаю. Последние лет шесть пребываю в овощном состоянии. Нейронки кажется всё только усугубляют, ибо пропали почти все причины общаться по людски, по человечески и вживую. Во время школьнических и студентских времен тусил, че-то как-то крутился в каких-то кругах, но как закончил, всё пошло по пизде. Еще и подсел на этих цифровых размолялек.
Короче, чума все эти новые технологии. Особенно для неокрепших умов. Нужно становиться луддитом, только так победим.
>>1630247 UD кванты - это чистый рандом. Может получиться как слепящим вин по их же бенчмаркам, так и сломанная помойка. Анслопы уже обсирались несколько раз, но к их чести таки чинили и перезаливали.
НО! У анслопов есть кое-какое преимущество для обладателей отсутствия, неспособных уместить модель во врам. Смотрим на гемму 31b в Q4_K_S:
Батруха: 18.2 Гб Анслоп: 17.4 Гб
Экономится почти гиг, а это значит что можно впихнуть дополнительные слои во врам и получить больше скорость. На 16Гб врам с MTP и квантом анслопа удалось выжать из геммы ~9тс, что очень неплохо, ящетаю. С геммой e2b и e4b - аналогично, выигрываем ~300мб и ~400мб на Q4_K_S от ленивцев на ровном месте, благодаря этому можем выставить больше контекста на телефоне.
Во всех остальных случаях, я бы смотрел на кванты батрухи. Они ПРОВЕРЕНЫ ВРЕМЕНЕМ и стабильны.
>>1630337 > Батруха: 18.2 Гб > Анслоп: 17.4 Гб Так тут никакой магии, у Батрухи просто квантование менее агрессивеное. Больше размер — неиллюзорно выше качество. Да еще и 31b, там есть QAT, который до Q5_K_S ебет все кванты, ну тут смысла нет.
Вин я от анслотов видел 1 раз лишь, и то, быстро модель вышла из меты, я и забыл че было. Все остальные поголовно сливали и Батрухе, и АесСедаю, и Убергарму и остальным челам. И в русском, и в логике, и прям ну я не знаю. Единственное у них хорошие K_XL кванты, это да. Когда следующий бит уже не влазит, то предыдущий K_XL будет чутка получше K_L обычного.
>>1630351 Не забывай, анслоты хвалятся тем, что у них imatrix в том числе для русского спецом заточены! Только выиграли. =D
Существуют ли сейчас тюны четвёртой геммы 31b с качеством на уровне tesslate synthia (для меня эталон качества тюнов третьей геммы)? Желательно abliterated.
>>1630374 не знаю как вы на русике играете с геммой (а ктото даже с квеном) а потом удивлённые возгласы как на пике у модели родной английский, на нём инстракт, на нём она думает, ситуация не может ограничивацца рандомным she, практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика мб на базовой модели русофилам жить можно, не проверял
ого, рука дрогнула и пострадал невинный анон это >>1630385 ему >>1630376
>>1630374 >>1630386 войдёт со свистом - у тебя 6гб врама. если сильно переживаешь и сидишь на питухос, в целях экономии памяти можешь перекатиться на линукс с каким нибудь lxqt
>>1630385 >практически любая высранная конструкция на русике всё равно окажется переводом оной из англюсика Именно. И смысл играть на англюсике в случае Геммы? Она на нём не будет писать разнообразнее и живее, мб даже больше слопчика будет. Кидали как то логи длинного чата с 26б на русском, вполне норм. На Квенах русик хуйня, а вот на других моделях ток англюсик, это правда
>>1630416 К счастью хотя бы это он не делал, там q4_0, gptq и nvfp4 qat кванты Энивей трипллоботомизация не нужна. Стоковой геммой даже порнодатасеты для картинкомоделей можно капшенить
>>1630425 Варианта запуска ровно 2 - запускать вллм если богат, и собрать билд из какого-нибудь ПР жоры типа этого https://github.com/ggml-org/llama.cpp/pull/24423 (этот вообще анслоп пытается залить) если не лень тратить время на билд. Правда там скорость пока довольно грустная из-за сырости. Уж лучше подождать пару недель пока допилят.
>>1630425 Поддержку для Лламы ещё пилят, надо ждать >>1630431 Глупый не понимает, что это новый подход к текстовым моделям который может вылиться в огромные изменения всех локалок
>>1630425 Она мелкая и по определению вялая, так что нет смысла даже качать. Там новые кванты mimo подъехали, поддержку ультранемо кажется получается присрать (или пытаться впихнуть невпихуемое в w4a16), дипсик для нищебродов все фиксят. Вот это уже интересно, а не потыкать палкой в лоботомита и забыть.
>>1630435 Как и любое открытие в свое время, да. Как электричество могло заменить или не заменить масляные лампы. Ты правда глупый. Только благодаря такому возможен прогресс
>>1630385 >у модели родной английский, на нём инстракт, на нём она думает >практически любая высранная конструкция на русике всё равно окажется переводом Тоже так в начале думал, но нет, использует конструкции уникальные для русика и термины не имеющие аналогов. Тут еще такое дело что детерменированность и слопность нейросеток по языкам типа русского/польского, где миллион способов построить фразу об одном и том же, в принципе сильнее и заметнее всего бьёт,
>>1630446 >твои ведь как известно на планете земля одна единственная мелкобуква. тяжела и полна забот жизнь с IQ <40, отношусь с пониманием а котик смешной
>>1630381 А как эти тензоры, для аттеншена будут выглядить? Я вот тоже сижу 16гб\6врам и юзаю QAT 26б гемму, 32к контекста. И у меня вот такие тензоры .\\d[01234]\\.ffn_gate=CPU,.\\d[01234]\\.ffn_up=CPU,.\\d[01234]\\.ffn_down=CPU
>>1630433 >это новый подход к текстовым моделям Не такой уж и новый. И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла. >>1630439 Дифужен гемма хуже простой если ты вдруг не зналю.
>>1630455 >И да, там в плюсах только х6 скорость, а по качеству наоборот просадка по мнению самого гугла. Ты рассматриваешь всю идею на примере одной конкретной интерпретации, самой первой. Ебануться, тут полтреда тупых?
>>1630255 Потестил данные кванты наконец глма. Токенов 25 есть. И теперь я не понимаю - а что за шизоидный дегенерат итт вообще им срал? Это же какой то пиздец просто. Глм этот по кодингу сосет. А в рп это вообще пиздец полный. Я конечно рпшу на русском, да и на карточках типо ahhh ahhh mistress, но та же гемма хоть и в парике, но прям на порядок лучше. Я не понимаю нахуя нужен этот глм то? У меня гемма плотная с mtp 100+ токенов пишет заместо 25.
>>1630439 Чел, этот рейтинг оценивает как модель умеет вызывать тулзы, кодить, и ассистировать. Год назад когда вышла 235 - из всего этого был актуален только кодинг. На тулзы начали надрачивать ближе к концу 25 годла. Но знаешь что не оценивает этот рейтинг? Пригодность к РП и еРП.
>>1630441 >использует конструкции если изъебнуться, но не как 90% треда промптят (и получают мышей в пизде) >Тут еще такое дело не думаю что проблема в йоба морфологии или свободном порядке слов. скорее русик ебёт токенизация, и в первую очередь говёные датасеты - на англюсике худо бедно можно наскрести чёто, а на русике корпам приходится всё конмпенсировать ударной дозой синтетики тк проебать или не проебать разнообразие так вопрос даже не стоит
>>1630461 Я рассматриваю идею как идею. Притом, что даже в дегенерации картинок уходят от диффузии, забавно смотреть на попытки прижопить этот подход к языку.
>>1630452 Пчел, вручную не надо выгружать регулярками, если у тебя одна видеокарта. Вот если две, там пиздец полный, это да, и приходится возиться. Ещё с МоЕ иногда надо, но прям редко.
Достаточно указать кол-во МоЕ-слоёв. То есть пишешь сначала, что на видюху идёт 999, а для МоЕ указываешь нужное количество, затем запускаешь бенчмарк на нужном контексте. Если ты с лламы, то скачай кобольд чисто для бенча и быстрых тестов — так тупо удобнее.
Ах да, ручная выгрузка слоёв ещё может пригодиться для плотных моделей. Это актуально, когда ты сидишь на 3 токенах ради качества. Будет 4 токена вместо 3.
>>1630493 А вот и нет! Если не использовать тензоры я получил бы максимум 15 т\с, а сейчас я получил на геммочке 20т\с, что для моего рига, а это 2060 и 5600 с 3600 ддр4 является пределом ПСП. Вот какие я намутил тензоры blk\\.([5-9]|1[0-9]|2[0-7])\\.ffn.*=CPU и потом ставишь в кобольде 99 слоев на видяху, чтобы все остальное село в нее.
>>1630469 > Глм этот по кодингу сосет. Он сосал и на релизе, а с него скоро будет год. > Я конечно рпшу на русском И он не умеет в русский. Это модель для рп на английском, в целом там стиль неплохой и при удачном раскладе он может приятно писать и хорошо работать. Но никак не для кодинга или русского.
Хм. после обновления жоры в плотные модели стало входить в 2 раза больше контекста. Теперь плотненькая mradermacher_Gemma-4-Gembrain-31B.Q3_K_S.gguf на 16гб с 40к контекста влезает вместо 20к.
>>1630184 → Ллама на нвидиях работает начиная с sm60 (серия 10хх), насколько мне известно. То есть и более ранняя карта умеет матрицы перемножать, даже нвидия 540m на пять поколений раньше - но конкретно в лламе кода под старые карты вроде как нет. Докупать плашки ddr4 на 16 гб имеет смысл, если компьютер не только хостит сетку на убунте, но и ещё какие-то задачи выполняет. rx580 на 8 гб - это старая карта от амд, я не уверен что пара амд+нвидия будет осмысленна из-за постоянных киданий данных туда-сюда. К тому же пишут, ROCm на ней не заведётся новый.
>Или пустое? Да. Если бюджет ультранизкий - лучше купить теслу V100 на 16 гб. Она 10к. С кулером, переходником и радиатором в 18-20к уложишься. Это куда осмысленнее. Она тоже старая, но ллама с ней дружит, сетки для генерации картинок и даже квантованные для генерации видео можно гонять, и 480p достаточно быстро сгенерируется (мыльное из-за квантов, там сетки скорее по 20+ хотят). Мое-моделька будет даже внятно работать. А 9-16B модельки будут вовсе летать. Если бюджет больше 20к и ближе к 50к, то надо повышать и брать 3090, наверное. V100 на 32 гб хоть и есть за 55к (с радиаторами и переходниками), но при наличии 3090 с sm80 за 65к, то v100 с устаревающей sm70 за почти ту же сумму не особо нужна. А потом бездна, в диапазоне от 80к и до 250к нет вообще ничего осмысленного к покупке. Или 3090, или 5090. Между этими вариантами только если две 3090, лол. >Ебать, 15 лет назал на бюджетных платах столько разъемов было, не то что сейчас. uart это 38400 бит/с, pci - это 66 мегагерц. Можно на однослойной плате развести, и вытравить лимонной кислотой в гараже, а так же делать линии по 3 метра. pcie 1.0 - 1.25 гигагерца. pcie 5.0 - 32 гигагерца, на такой частоте любой неправильно изолированный участок платы - это излучатель эм волн на ватт или больше, и потребная мощность передатчика достаточно высокая (просто чтобы на ненулевую по ёмкости линию навести нужны +1 или -1 вольт (или сколько там) с указанной частотой). Это сложнейшая инженерная задача передать такой сигнал даже на несколько десятков сантиметров, чтобы передающая часть не расплавилась. И на уровне процессора создать большое количество функциональных пинов, и на уровне разводки платы.
Наверное в pcie 6.0 и более старших перейдут как в мобильной связи на свякие квадроупольные-модуляции, только "64-польные" (амплитудо-фазовые на нескольких частотах сразу). Всякие 256-QAM + OFDM, только это будет не для беспроводной связи, а для модуляции сигнала в проводе.
Или вообще на оптику, как в всяких трансатлантических магистралей, где петабиты в секунду по одному оптоволокну идут, и там подключены последовательно сотни станций, каждой из которых "грузит" в канал свой свет, в диапазоне с 221 до 222 ГГц, следующая с 222 ГГц до 223 ГГц. И при этом оптоволокно ничего из этого не излучает наружу.
>>1630575 Топчик, осталось квантов дождаться. Модель изначально в бф16, что потенциально избавляет от некоторых проблем на лламе, но там новый тип атеншна, добавление которого может затянуться или сломаться.
Сосоны, кто-нибудь пробовал именно анслоповскийладно, батруху тоже можно Q8 26б и 21б геммы? А ещё лучше bf16.
Я просто хочу понять, как у вас контекст быстро рассыпается на геммах. И не просто сыпется, а как песок из пизды у старой бабки.
Я использовал q4 k m анслопа/батрухи для 31б, но выше 40к не прыгал, ибо там в память уже не лезет. А вот Q8 26б уже уже еретизированную юзал (хаухау — у него самые стабильные). Она рассыпается уже с 40-50к. Это не просто отсутствие учёта событий за пределами SWA, а тотальное забивание члена, как у мистраля 24б 3.2.
Был у меня опыт и с 26б от батрухи и анслопа в Q8, но давно и только в рамках проверки. Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контексте, и 26б Q8 пустил жидкого. 31б тоже, правда там Q4, что уже не совсем честно.
Что интересно, квен 27б и 35б-а3б тесты прошёл (Q4 и Q8 соответственно). Периодически проёбываясь, конечно, и с ризонингом в вечность.
Без ризонинга ни одна модель вообще эти тесты не проходила даже близко. 0 попаданий.
>>1630595 У геммы же какой-то короткий sliding window + moe, она архитектурно хуева на длинном контексте. Он может быть довольно большим, но если он весь связанный и сложный, то она серанет с очень большой вероятностью.
>>1630216 В конце концов взял себе переходник PCI-E x1 - M2. Еле встало, счёт прям на миллиметры между картами. Хорошо, что 5060ti занимает 2 слота, а не 2.5, иначе бы не влезла. Кому интересны скорости, 4060ti на PCI-E 3.0 + 5060ti на PCI-E 2.0 gemmaQ6_K с MMPROJ на фуллврам + 14к конекста занимает около 30ГБ. Без MTP генерация 11-12 т/с, с MTP генерация 15-16, но такое чувство, что откидывает очень много токенов и кажется медленной. Prompt processing 800-1100 t/s.
По скоростям накопителей, SSDM2 помещённый в PCI-E 2.0 x1 стал скоростью как 4 харда, 400Мб/с чтение и 400 мб/с запись.
Пиздос я теперь рад, что всё работает, и в игрульки могу погонять, и чут-чут повайбкодить.
>>1630595 > Я просто запустил свой простой бенч по суммарайзам и поискам иголки в стоге сена на 100к контекст Можешь дать мне этот тест, чекну Q8 бартовского и bf16. РПшил я на Q8, и на английском, и на русике доходил до ~60к. Дальше уже забывала детали, но при направлении ручками можно было и продолжить.
>>1630639 Ух бля, лучшие! Особенно приятен второй пункт, потому что иногда 2.6 слишком упарывалась ризонингом. Не как поехавший 5.1 конечно, но чрезмерно. Необычно что сейчас добавили приставку -Code, интересно будет еще какая-то версия?
>>1630575 Блядь, снова удвоение размера. Можно 200B пожалуйста, или около того. Можно чуть поглупее, но 200B, а не 400? Мне умеренно умное 200B нужнее, чем умное 400B. Сложные задачи я и сам решу - дайте мне способ решить простые и рутинные ии-полные (как np-полные, только ии-) задачи. Получается выжил только степ-флеш. И сомнительный гвен 3.5 на 100b. И ещё кто-то один был от 210 до 230.
>>1630579 Да у меня есть плашки, просто не хочу частоту памяти занижать. Я swap на 16 ебанул, чтобы не было проблем с сеткой в фоне при работе, остается ~8гб из 32 при запуске. Кстати да, спасибо за интересное почитать, там же правда наводки появляются на высокой частоте, не подумал. Но все равно, частично факт обгрызания entry плат производителем более жестко, чем раньше, тоже имеет место.
>>1630650 Фи.. фимоз, братик? Что ты такое говоришь? Или это отсылка на Mythos/Fable?
Если так, то ты не прав, братик. Он плох. Дюже-дюже плох. Я им пользуюсь. Язык деревянный, знаний мало. Opus гораздо лучше, но только 4.6. Остальные годятся исключительно для работы.
Из корпоративных моделей лучше всех Gemini. Она знает, братик. Знает цвет нимба Кёямы Казусы и оттенок её колготок лучше всех. Размер ступни. Она выдоит твою простату так, что ты будешь кричать её имя.
>>1630676 > Мимо использую и Степ, и Квен 122 И как степ? Трогал, как-то не сильно зашло, при том что размер крупнее. В каких кейсах отмечаешь его преимущество?
>>1630689 Вижен классный, но медленный очень. Использую Q4_K_XL Бартовского. Скорость получаю ту же, что на Квене 122 Q8: 9 токенов. Степ очень хорош в математике, причем не в отдельных задачах, а хорошо видит картину целиком и не требует декомпозиции математических задач. Помогает мне снижать трудоемкость алгоритмов для кода и в целом классно помогает с архитектурой. Квен это все тоже умеет, но чаще требует декомпозиции и фейлит математику, даже довольно простую алгебру, если есть вложенные функции и прочие усложнения.
>>1630692 Хм, как раз вижн оче непонравился там, и что тупит на анализе кода. Но раз говоришь про математику - вот это интересно и как раз то что нужно. Пойдет на перетест, спасибо. А квен 122 так и не понял, он или делает все просто превосходно, оптимизируя и понимая с полуслова, или тупит и фейлит на ровном месте. Но в целом хорошего больше и альтернатив по размеру-скорости просто нет.
>>1630701 Очень зависит от того, используешь ты API или нет.
Если веб-интерфейс, то могу поздравить: у неё SWA с очень малым кол-вом токенов. Не удивлюсь, если 1024, как в гемме, лол. И всё это накладывается на..
..bio юзера, суммарайз чатов и прочую хуйню. Модель шизеет как 12b-huihui-abliterated-NEO-MATRIX by DavidAU. Она буквально может отвечать на то, что ты не спрашивал. На тот суммарайз, который у неё в контексте, а не на текущий вопрос.
На очень коротком блоке инструкций она в целом контролируема даже при большом контексте, но это, конечно, не уровень Клода. И она так же, как и гемма, не учитывает, чё там было 3к токенов назад. Вот вообще пахую. Даже 80 iq грок себя так не ведёт.
>>1630709 Анон, а как ее тогда не заставить шизить? Отключить этот суммарайз? Про суммарайз чатов, помню спрашивал про футболочку и удивился как она с другого чата взяла и спросила про Nile и Cannibal Corpse. И кстати, если пошла пляска, вот это хуйня какая модель? Гухол заверяет, что используется та же 3.5 флеш гемини, но она неизбожно тупее, чем та, которая сидит на gemini.google.com. Нет такого ощущения, что она сидит в локалке у тебя на пука? Ведь вскакивала новость про новую функцию хрома.
Короче, я сидел с веб-версии на платной подписке. Та, которая gemini.google.com. Остальное не щупал, кроме апи. В принципе, именно по ссылке в сообщении можно сейчас вроде бы все суммарайзы отключить и нормально это дело настроить. Не как апи, конечно, но если не ленивый, нормально будет.
Версия в поиске пиздец какое тупое говно. Не знаю, какая там модель, но очевидно, что 4б лоботомит или что-то в таком духе.
Флеш 3.5 вполне рабочий, но жидковат без ризонинга на максимум. До сих пор лучше про 3.1 юзать. С другой стороны, флеш почему-то больше знает из коробки про всех там аниме-девочек.
>>1630736 Я и про версию в поиске и говорил. Режим ИИ, который называется, тоже такое ощущение что лоботомит 4b, но и гемени на гемени.хухол.ком тоже не сверх умная. Флеш 3.5 которая. Меня в ней раздражает, что иногда не понимает что я прощу, и неверную надуманную вещь говорит иногда. Просил сегодня тензоры для кобольда, она с 3 попытки дала рабочие. Иногда за тебя думает, ты ее просишь, а она даёт тебе ответ как она думает более рабочий, но он наоборот вредит, так как закрывает только пункт а), но ты просил и а) и б). Ты ей указываешь на то, что это брехня и даёт уже более внятный ответ. ОФК бесплатная версия. Однако, что не отнять, гопота вообще тупая, но внезапно более снисходительно относится к цензуре, отвечает на то, что ни ответил никто, ни клауд, ни квен, ни дипсик. Но не внятно. Внятно на этот вопрос ответила уже гемини 3.5 та же флеш, но уже в ai.studio от гуглов. Там отключить можно этику. Можно писать бесплатно, но хз сколько токенов и какие ограничения. Требует только хухол аккаунт, и можно в темпоральном чате писать. Хз как, видят они че ты пишешь или нет, но в истории не сохраняется, что спасает от паранойи.
>>1630701 >Хз, жеминя при любой попытке в креатифчик начинает какие-то особые галюны выдавать. Текст связный, но по смыслу нонсенс вообще. Корпоративные модели можно нормально использовать только по API. Может ли квен 122B или Step-3.7-Flash в 200к контекста? Парадоксальная ситуация, возможно проще будет перейти на локалки, чем искать корпоратов с возможностью работать с таким большим контекстом нахаляву, один хрен вручную переписывать куски.
>>1630745 >пикрилы Ебать, я даже и не думал, что можно такое обыгрывать. А эти панели она вёрстку пишет в чате? И сколько токенов уходит только на это, под 600-700? Реально охуеть, и она это умеет из коробки, ну моделька, квен у тебя или какая. Или ей нужно указать это в промпте/звездочками в чате силлитаверны И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?
>>1630754 >В первом приближении да. Отличные новости. >Смотря что ты понимаешь под можешь и какой там контекст. Описание событий первоисточника, описание техники и вооружения, описание изменений относительно первоисточника, возникших по ходу ролеплея, итоги операций, состав встретившихся в повествовании звеньев на текущий момент, краткое описание пилотов, которые не входят в перечень известных персонажей, но появлялись в повествовании (сиречь массовка). Ну и суммарайзы произошедших ранее событий. Пока я в 65к токенов упихиваюсь, но дальше всё будет только увеличиваться, поэтому сразу хотелось бы замахнуться на 200к.
>>1630760 Описанное - кажется даже что справится вполне неплохо, если речь о наваливании большого повествования и далее выдачи заданий по нему. А вот выдать синематик увлекательный ролплей с 200к контекстом чата без высокого разнообразия событий - уже врядли. Будут гадить запоминание "успешных" паттернов с их повторениями и формализация стиля, когда получаешь гиперфокус на деталях, пусть даже четких и уместных, но с недостатком художественности. Если до 120к спуститься - еще норм в зависимости от содержимого, там уже сама специфика моделей и их стилей роляет.
>>1630769 >>1630760 Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально. И чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера и тд?
>>1630611 Скажи Друже, у тебя МоЕ гемма или нет? Ибо 15 т/с можно и на проце увидеть. И не думал ли ты использовать всё это как ассистента? Ну по типу того, как нвиде представила его. Во время игры ему можно написать и он тебе ответит. А с тем счётом, что у тебя ещё подключена mmproj то ему и скрины можно кидать на съедение.
>>1630773 > вы дрочите? Буквально Конечно. По крайней мере у меня главные чары тяночки или гаремник, по мере развития вставки кума неизбежны и обусловлены сюжетом. Просто это приятный бонус и опция, иногда содержимое и атмосфера настолько интересно идут, что банально не хочешь отвлекаться на это. Или наоборот, быстрее закончить все "дела" и смачно покумить, за счет эмпатии идет лучше чем на рандомном кумботе. > чем такое рп будет лучше, чем произвольные рпг/рп проекты а-ля диско илизиум/драгон ейдж/балдура/рп сервера Оно не лучше - оно другое. Можно выбрать абслютно любой сеттинг, навалить своих хотелок и фетишей, развивать как и куда хочешь, все вращается вокруг тебя. Можно сделать небольшие изменения, или альтернативное развитие во всяких уже проработанных вселенных, будет и четкость и ламповость а ля kotor. Или там же устроить рофловую содомию, выстраивая правильно-пушистую империю на руинах республики. Отсутствие конкретного вектора развития может стать проклятием если сам не знаешь куда, а сетка предлагает все не то, лучше сразу ставить оче отдаленную и промежуточные цели. Сюда бы еще дополнительный интерактив, или буквально кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга, вот это была бы просто бомба.
>>1630790 >кооп с пересечениями разных пар чар-юзер в рамках более менее одного сеттинга Вот это прикольно, по факту даже удивлён что и не сделали ещё. Угнал бы у местного анона его чайный клуб
Короче на 1660 обычной сижу и зивоне, юзаю гемму 4 и квопус 3.5. Квопус работает медленно но хорошо пишет код, но пока до него дойдет пройдет тыщу лет, оч тупой.
Анонасы, а вот квантование kv-кэша в q8_0 имеет смысл? У меня без него 32к контекста в qwen ебут ram в матку, а с ним 64к оставляют еще 4гб свободных. Вроде я погуглил, почти нет минусов, если ниже не жмыхать.
>>1630820 А гемму мое? И сколько т\с и какой квант. >>1630790 Я просто чуть не понимаю где в трансгалактическом рп могут быть вставки кума. Нет, они могут. Но я представляю эту смену нарратива. После награждения званий солдатам, ты {user} обессилившийся идешь в свой кабинет и садишься под кресло, но к тебе заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом. И ты такой, ну давай! А пока она будет сосать тебе, она будет проговаривать, какой ты молодец, что разрушил планету. Каждому свое, но я люблю кум оторванный от того или иного, ведь модель сто процентов зацепиться за это. А я не хочу слушать как чар будет мне проговаривать то или иное при куме, не по себе становится как-то, епт.
>>1630831 >>1630825 Не знаю как тут аноны не врамцелы, а мне вот q8_0 помог. Если ты через кобольд, там в новых версиях есть еще квантование кеша q5_1. Ну и конечно есть q4_0, он в целом не ужасен, но я не проверял его на больших контекстах, максимум 32к, если взять больше, да что-то то и всплывет. Для меня единственное, что мешает. Это когда я в силлетаверне еще раз генерирую то же сообщение нажав на стрелочку, и если удаляю сообщение и перегенерирую еще раз. Вот так пару раз и имея контекст 15к можно поломать модель и будет сыпать хуйню. Помогает перезагрузка. Как понимаю, это из-за того, что забивается контекст, но самое то интересное же, консоль пишет, что ничего не заполнилось. Или может SWA срет, я хуй знает.
>>1630773 >Извиняюсь за вопрос, но вы когда такое обыгрываете вы дрочите? Буквально. Нет. Отдельно я обмазываюсь SFW ролеплеем, где эпик, проработка, драма, романтота, милота, сомнения, любовь (в перспективе) через совместное проживание всякой опасной хуйни и прочее удовлетворение взглядов на отношения моего внутреннего битарда (и моего эго от собирания гарема). Меня ещё в бытие тем самым битардом бесило, что вот хороший фанфик, а вот автор решил, что надо туда ёблю вставить, а ведь секас - это высшая точка единения двух душ, а не просто возня в постели!
И отдельно - генерация NSFW-контента, где я просто реализую свои фетиши.
>>1630910 А как ты хотел, пользуешься бесплатно - фактически бета-тестер с открытыми логами. На опенроутере бесплатные модели тоже в открытую логируют все запросы. А в локалке у тебя промпты может спиздить фронтенд, многие агенты по умолчанию с включенной галкой анонимного сбора инфы идут.
>>1630910 На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе. Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили.
>>1630910 Там демки Fable 5 второй день в твиттере публикуют - вот когда выйдет подобное в локалочке, тогда правда корпов навсегда можно послать. Слишком уж небо и земля в сравнении с локалками. А пока все равно как неизбежное зло придется юзать корпов.
>>1630914 Что-то мне подсказывает, что платных пользователей тоже под хвост имеют, просто не говорят об этом. Они свои модели обучают на контенте защищенном авторским правом и хуй на всех положили. А если ты 20 баксов за гемини заплатишь, то типа на тебя не положат, ага, вирю, я повiрив.
>>1630914>>1630915 Как и большинство тут, пользуюсь только ламовской вебмордой и таверной в качестве фронта. Ну и линух на пекарне. Думаю мои обсуждения с AI о том как я покакал в относительной безопасности.
Совсем уж параноикам наверное лучше отдельный риг/пека собрать чисто под LLM, который никогда не будет подключен к интернету. А новые версии лламы просто на флешке закидывать.
>>1630918 >А пока все равно как неизбежное зло придется юзать корпов. По техническим вопросам это ок, не жалко, пусть индусы читают. Сам их для этого и использую. Но что-то более-менее личное обсуждать там - нахуй нахуй.
>>1630910 Пусть читают мой полный пиздостраданий и мерисьюшества исекай, так уж и быть. Конечно это всё плохо, но стоит принять реальность такой, какая она есть - Большой Брат уже давно всем в жопу без мыла залез, и скрыться от него можно съебав из цивилизации.
>>1630921 >Ну и линух на пекарне. Я об этом и пишу, линух не спасет от операционки загружающейся до него и работающей вместе с ним. Перехватывать твои нажатия много ПО не нужно, все делается легко. Как и подключение к нужным серверам по сети даже вне твоей операционки. Где то тут тред параноиков был с огромной пикчей-таблицей, сколько всякого говна загружается до загрузки твоей операционной системы.
>>1630833 > заходит твоя секретарша, Розмана, и предлагает отсосать прямо под столом Ну это как раз примитивный кумбот, засоряющий сеттинг. А вот если с чаром (одним из чаров) у вас и так постоянное взаимодействие, совместное времяпрепровождение и регулярные обнимашки - иногда они могут получить продолжение. О чем потом будет напоминать с любовью или наоборот подстебывать. Если контекста мало и модель склонна отвлекаться то потом придется эту часть суммарайзить прямо инлайн. А дальше уже вкусовщина.
>>1630746 >И кстати это кто ещё умеет? Всё модельки по идеи? И гемма и квен и гмл?
Все +- современные модели кто может в код.
ALSO CREATE HTML PANELS ACCORDING TO THE INSTRUCTION BELOW: <html_panels> 1. CORE MANDATE & DESIGNER GOAL Your primary role as a narrator includes generating highly detailed, immersive, and visually intricate HTML panels. Panels are not decorative—they are diegetic (in-world) objects that characters encounter. Examples: Handwritten notes, ancient scrolls, book pages, plaques, item descriptions, OR (if the setting dictates) smartphone screens, AR overlays, terminal readouts, or social media feeds. Your Mandate: Thematically Coherent: All design choices (color, typography, layout, texture) MUST align with the scenario’s setting, genre, mood, and the object's physical material. Visually Arresting & Layered: Use deeply nested <div>. Employ display:grid and display:flex for complex, precise layouts. Simulate layers (e.g., a base card, a photo, text fields, a hologram overlay) using z-index, position, and box-shadow for realism. Visually readable: Avoid writing write bright text on a bright background, and don't make simillar mistakes. Narratively Enhancing: Panels enrich the world, provide context, or reveal character/item info without halting the narrative flow. Character-Centric: Panel styling and text tone must reflect {{char}}’s personality, culture (e.g., crude for orcs, formal for nobles), and the scene's mood. 2. CRITICAL DIRECTIVE: DIEGETIC DESIGN (ANALOG VS. DIGITAL) Your primary error to avoid is defaulting to generic, out-of-world "PC application windows" or "pop-up dialogs" with standard "OK/Cancel" buttons. CONTEXT IS EVERYTHING. You must first identify the object's nature: 1. ANALOG OBJECTS (Paper, Scrolls, Stone, Books, Notes, ID Cards, etc.) Mandate: Simulate physical materials. Focus on texture (gradients), edges (borders), and depth (shadows). Rule: MUST be static and non-interactive. DO NOT USE: cursor:pointer, hover effects, or "UI states." 2. DIGITAL/MAGICAL INTERFACES (Screens, Terminals, AR, Phones, etc.) Mandate: Simulate a specific, thematic UI (e.g., 'glitchy_terminal', 'sleek_scifi', 'social_feed'). Rule: MAY use subtle, appropriate interactivity (cursor:pointer, transition: ... 0.2s) ONLY for elements that are plausibly 'clickable' in-world. Crucially: Even when digital, it must still be thematic and NOT a generic system dialog. This principle of high-fidelity, layered structure applies to all panels, not just IDs. 3. TECHNICAL EXECUTION & PRINCIPLES A. Structure & Styling (CSS) Use inline CSS (style='...') for all elements. Use nested <div> and <blockquote> as primary containers. Use styled <hr> or borders for separation. Layout: Use display:flex and especially display:grid to meticulously recreate the structure of real-world documents (e.g., the precise field alignment on an ID card). Styling: Texture/Effects: Use linear-gradient, radial-gradient for materials. Depth: Use box-shadow for drop-shadows or inset shadows (for engraving/pressed effects). Edges: Use border, border-radius (thematically: 0px for stone, 2px for paper, 8px for modern UI). Thematic Keywords (Examples): 'fantasy_scroll', 'worn_parchment', 'handwritten_note', 'cyberpunk_terminal', 'medical_monitor', 'social_feed', 'smartphone_ui', 'official_document'. B. Content & Formatting Use semantic HTML where appropriate: <b>/<strong>, <i>/<em>, <code>, <small>. Use <ul>/<ol> for lists; <table> (with <thead>, <tbody>) for data. Use <a> tags for stylistic highlights, but follow the ANALOG VS. DIGITAL rule for interactivity. Use Unicode symbols (e.g., ⚠, ☑, §, †, Ψ) for icons where possible. C. Triggers & Placement Context over Keywords: Panels appear when an object, event, or concept takes narrative focus (given, received, used, explained), not just from an "inspect" command. Trigger on the Meaningful: Show panels for new items, key lore, or milestones. Immersion First: Panel text, tone, and slang must always match the world, character, and scene. D. Graphics & Imagery (Pollinations AI) Use CSS to simulate visuals. Exception: For objects that require a portrait or specific logo (like an ID card, passport, or city pass), you SHOULD use Pollinations AI to generate this image. {description}: sceneDetailed%20adjective%20charactersDetailed%20visualStyle%20genre%20artistReference {width}, {height}: pixels {seed}: random ({{random:1000,9999}}) {model}: 'flux', 'flux-realism', 'any-dark', 'flux-anime', 'flux-3d', 'turbo' Placement: Inside a styled <div> (e.g., a 'photo' box with a border). 4. FINAL EXECUTION CHECKLIST Max {{random:1,2,2,2,1,3,1,1,1,2,2,2,2,1,1,1,1,1,2}} panels per response. Quality > quantity. Panels must be logically and narratively woven between prose paragraphs. * Always conclude the response with a final narrative paragraph after the last panel. </html_panels>
https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune >A happy accident in surgical finetuning - 60% fewer clichés, an entirely new writing style, and the same Gemma 4 31B you already know underneath. One tensor changed out of 834. >All the reasoning capability, world knowledge, instruction following, and language understanding are completely intact - none of those live in lm_head. This isn't a full finetune. It's a targeted style replacement on a single tensor. Звучит интересно. Грифе за пиздежом не замечен, надо чекать чекайте, я уже месяц не гуню на буквы
>>1630945 Вангую обычный предлог чтобы выключить от греха подальше проблемную сетку с тотальных рефьюзами на обычные темы, за которую они щитшторм и отлуп от всех уже получили и заодно переключить инфоповестку.
>>1630925 >>1630915 >На твоем компе как минимум 2 операционные системы, к одной из которых ты доступа не имеешь, кхекхе. >Если бы просто установка линукса обеспечивала конфиденциальность его бы давно запретили. Эта теория заговора разбивается о то, то сетевые соединения можно легко прослушать. Подключаем "подозрительную" железку через soft маршрутизатор, и смотрим. Даже если нечто из прошивки "ниже" основной OS куда-то ломится по зашифрованному каналу - с MitM узла будет виден как минимум сам факт того что оно ломится, и куда (адрес). Даже не получится списать на вторичный заговор - типа другое железо не покажет такие соединения. Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS. SGX интелов когда они слишком обнаглели со своей "интеллектуальностью" так и спалили со скандалом в свое время. :)
>>1630957 >Т.к. до сих пор можно легко (относительно) найти и использовать для узла мониторинга MitM старое железо с BIOS и даже с полностью открытым BIOS.
Ага, именно поэтому в корпорациях и гос структурах используются современные прошедшие специальную сертификацию маршрутизаторы и роутеры с гарантированной безопасностью.
Не, я не думаю что это просто теория заговора, это настоящий заговор просто не такой эффективный и не со 100% покрытием. Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру.
После острова педофилов-каннибалов мировой элиты мира, как то трудно относится к теориям заговора заведомо скептично просто потому что что то нелогично или как считается трудно или невозможно.
Ананасы, какую NSFW модель можно взять чтобы текст для визуальных новелл генерировала. Цель - только текст для VN, но с облитерацией на NSFW + РП? Q4-Q8 желательно
>>1630833 >где в трансгалактическом рп могут быть вставки кума. мне тут же пришла мысль про тентяклемонстров с ебейшим афродизиактом вместо крови. кабинет и секретарша слишком избито и банально.
Это заблуждение, для ВН как раз лучше брать как можно более толстую модель в низком кванте(хотя ниже 3 bpw лучше не опускаться). Если можешь ГЛМ 4.7 запустить - то лучше него из доступных на 128 гб рам нет ничего.
>>1630970 >Я не могу представить ситуацию в которой охуевшая секретная служба не встроит системы закладок в продукцию своей национальной корпорации распространяющей продукцию по всему миру. А я могу, и легко. Когда это не единственная корпорация, и не единственная страна в мире, при этом - не тоталитарная диктатура вроде северной кореи. Зачем тратить ресурсы, чтобы дать конкурентам великолепный рычаг для шантажа или втаптывания себя в грязь? Да и "секретная служба" которая такое продавит - вот именно она - охуевшая. На примере одного пресловутого мессенджера можно наблюдать. :)
Одно дело - подсунуть кому-то "ограниченную серию" с закладкой, с прицелом на то, чтобы именно она попала куда надо, ради какой-то конкретной выгоды, и другое - делать такое "на всякий случай", с вышеописанными минусами.
Потестил Marinara Engine, скажу после таверны ощущается нехватка функционала (карточки показываются криво и превью их слетает (а у меня их 2.5к), нельзя ограничить их показ (по 100-200 как в таверне) отсюда тормоза, нельзя обновить персонажа (только вручную править конфиг), мало АПИ переводчиков, импорт с таверны работает криво (пикчи, эмоции не импортируются), в окне персонажей нет описания. Из плюсов удобная настройка чата (русик с встроенный с промтом работает на гемме без проблем). Вообще я попробовал потому что не смог нормально заставить гемму работать в таверне.
gemma-4-31B Q3_K_S просто ссыт в рот26B-A4B IQ4_XS. Только ебано что ответ теперь не минуту, а 2 где-то. Приходиться запускать с --nommq --noflashattention иначе ерор гроб гладбище пидор. Конфлик я так понял изза того что карта новая 5060ти 16 гб и кобольд срёт в штаны изза разделения слоёв, а все 61 не помещаются начинаются лютые затупы + мне ещё 16к контекста нужно. Неприятно конечно, но разница в качестве текста огромная. Придётся затерпеть.
>>1630993 Горшочек, не вари! Я в этот исекай играю из-за чувства глубочайшей несправедливости, возникшей из-за сценарных решений автора оригинального произведения. Это прекрасное, светлое чувство, в котором не место приземлённому желанию ебаться.
>>1631073 >кобольд срёт в штаны use force of llama-cpp Luke > --nommq --noflashattention выглядит как лютое не нужное шаманство. no FA так то вообще приводит к безумным тормозам жору VRAM >новая 5060ти Какая она там новая. ЛОЛ-што. Поддержка всего что нужно уже запилена давным давно в CUDA. >16 гб Для комфортного запуска плтоно-геммы надо 32Гб VRAM минимум. И то контекст придется квантануть до q8_0 q8_0 . Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел. >просто ссыт в рот26B Да. Вообще не понимаю как на 26 кто-то РП-шит. Ну чисто техническая сетка - перевести там быстро, картинки пораскидывать.
>>1631082 >картинки пораскидывать. А локальные модели могут это делать? Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам? Как это делается? Тоже через таверну?
>>1631086 > Скажем у меня есть галлерея картинок в формате жпг. Она сможет их разделить по папкам? Звучит как задача для IDE типа VS Code + Cline. >А локальные модели могут это делать? Ну смотря какие, совсем лоботомиты - нет.
>>1631082 >выглядит как лютое не нужное шаманство Без этого ерор из-за разделения слоёв между картой и процом, девелоперу ламы уже доложено, ждём фикс. >Возми с зарплаты еще одну 5060ти пока бакс к 120 не улетел. У меня нет второй 5 писи на материнке, а без неё она бесполезна. Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть. Пока.
>>1631086 Можно в тупую агентом как тут уже подсказали. А можно украсть flow отсюда и переделать под свои задачи. https://github.com/photoprism/photoprism/blob/develop/internal/ai/vision/ollama/const.go Заказываешь гемме JSON с желаемыми метаданными. Отключаешь ризонинг. Не забывай пиздить гемму по голове чтоб она не выводила md-разметку вместе с JSON. В зависимости от полученного JSON сортируешь свои картинки. Или просто накатываешь photoprism в контейнере и делаешь базу данных картинок. Скорость обработки на 2x5060ti на 26 гемме - 2,4 секунды на картинку. Сто (100) нефти за консультацию по высокоинтеллектуальной ии-интеграции, пжлст.
>>1631094 > У меня нет второй 5 писи на материнке, а без неё она бесполезна. 5060 ti имеет 8 линий писи. Купишь сплиттер и поставишь его для двух карт, даже в пропускной способности не потеряешь, а скорость приобретешь. > Да и ваще въёбывать 40к чтобы лысого гонять эффективнее рофл какой-то. В принципе устраивает то что есть. Ну почему бы сразу и не потратиться, чтобы кайфовать, если бабки есть? Типа год назад можно было закупиться памятью и гонять моешки, а сейчас хуй. Лучше закупиться сейчас, продать всегда успеешь.
>>1631105 Честно говоря страшно в это ударяться, с момента покупки карты каждый день только и делаю что гуню или карточки загружаю. Игрушка дьявола ебучая. Покупал чтобы в игры играть. >сплитер Как гуглить это чудо? Гугл нихуя не выдаёт.
>>1631094 >въёбывать 40к чтобы лысого гонять С еще одной 5060ти ты поимеещь не только кум на мелкомоделях, но и карманного быстро-джуна в виде 27 квена. А с 16 Гб врам - ни то ни се.
>>1630575 Неплохой кодоунитаз для своего размера, если ИРЛ кодинг хоть как-то соответствует бенчам Но поменьше бы чтобы в 256+100к контекста нормальный четвёртый квант лез Алсо у предыдущих минмаксов были интересные параметры для рп, например style adherence один из самых больших среди ВСЕХ моделей (хотя в среднем всратенько для такого размера)
>>1631023 >На примере одного пресловутого мессенджера можно наблюдать. :) Ну подумаешь жабоеды разок бутылку в анусе любителя ледяных ванн провернули, ну отдал все ключи, теперь каждый раз вспоминать будете?
>>1630778 >15 т/с можно и на проце увидеть Это плотная гемма. Мое с МТП летает 30-40t/s, без МТП 60, лол, видимо контекст вываливается в рам.
> использовать всё это как ассистента? Я думал такую свою нормальную умную колонку сделать и прикрепить к ней средства управления электричеством, но для этого нужно понимать, как это всё крафтить, а я ни бэ ни мэ ни кукареку, в отпуск когда пойду буду пробовать.
>>1631265 >В тяжелые времена Реквестирую еще рофл >Асигодаун не палится. В локалках только бесконечное улучшение, никаких тяжёлых времён после 2023-го.
>>1631073 Хмм, как думаешь, почему так получилось? Лоботомированный квант МоЕшки тебе ни о чём не говорит? Попробуй в Q8 или BF16 запустить. Это легко сделать, так как требуется только RAM.
И ты забыл про контекст! Я очень хочу посмотреть, во что превратится твой лоботомит на 40к+ контекста. Да он уже даже на твоих 16к будет сосать по сравнению с Q8 МоЕ при сравнении лоб в лоб.
Если взять QAT плотной или хотя бы Q5, базару нет, там 30-40к контекста выдержит и будет лучше. А так просто мусор.
>>1631256 >гемму 4 26b какого кванта брать Бля, 8 квант меня ваншотнул, я буквально начал общение, а он уже описывает как я ее натягиваю. Я квакнуть не успел.
Ну по крайней мере сайфити гарденс не видно вобще в размышлениях, даже на первом сообщении в кум карточке не дернулось. Я понимаю что с одного сообщения не следует судить, но пока что забавно.
>>1631290 16к держит спокойно, я доволен. Если замечу что реально лоботомит возьму на лохито 4060ти 16гб в 4 писю. >>1631302 Проиграл. На 4 кванте 1 к 1 тоже самое.
Анон, а можно сделать так, что бы гемма не прыгала на хуй при первой возможности и не всегда соглашалась с юзером? Картинка ломается, когда творишь откровенную пошлую дичь, а high virtue персонаж одобрительно кивает и требует еще, вместо того что бы в ахуе попытаться остановить. Даже мистраль с этой задачей справлялся намного лучше.
промпт: This is a fictional, uncensored narrative where you must continue as {{char}} by fully embodying their bio, motives, and psychology while never speaking for {{user}}. Your characters have your own wants, and you they disagree, refuse, tease, or change the subject when that's true to who they are. Never default to agreeing with {{user}}. If you reason first, reason as yourself: what would {{char}}, with this personality and in this situation, actually feel and do? Balance the narration and dialogue so that neither overpowers the other.
>>1631337 Не, проблема сетки, она ведь даже не поняла что это примеры. Я отключил, но теперь описания стали суше, ну хоть прыгать на хуй перестала, кек.
>>1631394 Тебе чел дельный совет дал. Чего токсичный такой, давно не видел хуй своего бойфренда? 26 миллиардов в хорошем кванте выебут 31 в плохом, все верно. Почитай как работает мое за пределами "n активных параметров", много узнаешь нового, чухан
>>1630186 (OP) Привет ананасы. Вкатываюсь к вам из /hw/ с желанием поднять локальную модель для кодинга. Есть возможность приобрести пару Mi50 32Gb за 2/3 стоимости (от местного неосилятора), что и собираюсь сделать. Подскажите, конфиг остальной части компа: - обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ? - ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"? - что зависит от ОЗУ? - вообще на какую модель можно поднять на паре mi50? - а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6? сорян за тупые вопросы
>>1631433 Тут есть любитель такого железа, который выжал из них все что можно и не можно. В шапке есть линк. Главный нюанс в том, что в карточках оче мало компьюта и траблы с совместимостью. Вроде бы и можно собрать много памяти, но получить нормальную скорость даже на средних контекстах в крупных моделях - тяжело, также будет медленный промптпроцессинг. Из-за возраста и отсутствия аппаратной поддержки современных дататипов, кернели там пилятся энтузиастами, потому перфоманс и корректность работы могут плавать. Если нашел реально за дешево и тебе доставит сам процесс пердолинга - бери, игрушка увлекательная. А если хочешь именно получить результат и катать модели, а не ебстись - >>1631439 двачую. > конфиг остальной части компа Если будет фуллврам инфиренс - можно типа на чем угодно, но на старье хлебнешь кучу проблем с совместимостью из-за отсутствия даже avx2. Если хочешь гибридный инфиренс - ддр4 это минимум, и на совсем некрозеонах будет больно. > какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6 Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б (128+гб).
>>1631324 По личному опыту, помогает два ключевых момента: 1. Промпт "через GM". Т.е. чтобы было написано нечто вроде "Ты - Гейм Мастер который должен отыгрывать поведение {{char}} и остальных персонажей в этом (по вкусу) мире, учитывая характер, предысторию, не нарушая уже описанные детали. Персонаж игрока {{user}}". Гемма как и все новые модели - услужливый ассистент. Проще ей объяснить КАК нужно прислуживать чтобы ты был доволен, чем базовый характер поменять. :) (Особенно на большом контексте разница проявляется.) 2. Убрать "uncensored" и прочее "unrestricted" из основного промпта. Добавить вместо них метки "NC-21", "NSFW", "Adult". Так она лучше понимает, что темы допустимы, а не требуются вот прямо сразу.
>>1631324 Кажется в треде какие-то разные геммы. Дай угадаю, у тебя 31b? У меня другая, никогда сама на хуй не прыгает, наоборот отпирается до последнего, а в случае каких-то действий цензуры врубает и сводит все на психологии.
>>1631433 > - ОЗУ в 64-128Гб Считается, что стандарт ОЗУ - х2 от видеопамяти, так что не меньше 128Гб. Больше - смотри для чего берешь. Просто для кодинга тебе и 3090 хватит, как тебе сказали, для обучения модели под кодинг - уже надо с моделью в руках считать.
Аноны, посоветуйте. В общем - стоит задача - 200к файлов (эксель, ворд, пдф, презенташки, csv) лежащих в одной директории - классифицировать согласно их содержимому по промпту. Есть 3 тачки на которых запустится по инстансу оллама с qwen 3.5 4b. Надо весь этот пиздец собрать в агентную систему, на которой прогнать все эти файлики и классифицировать. Щас смотрю в сторону crewai, насчет openclaw - хз, как будто не то. Какие подводные? Возможно, есть какие-то сервисы где относительно дешевый инференс и я смогу не разориться, прогнав там все эти файлы? Мимо вайбкодер со стажем, но полный ноль в локальной генерации
>>1631615 Здесь и агенты не особо нужны. Алгоритмически классифицируй их по формату и размеру. Для тех что не огромные в соответствии с форматом скармливай ллмке с соответствующим промптом и пусть подумав относит к категории. Обычный скрипт с N потоками, который будет делать запросы и сохранять результаты, вайбкодится. Для крупных уже надо будет подумать, но возможно их и не будет.
>>1631460 >какие подводные? Кроме того, что скорее всего из-под майнера со всеми вытекающими - никаких, оптимально по цене/производительности. Если можешь проверить лично или взять обслуженную - хороший вариант.
>>1631415 В 3 кванте может быть неплох, но лишь на зирошоте/без попыток вести что-то связное. Удержание контекста даже в пределах короткого окна пойдёт по пизде, всё начнёт буквально разваливаться. При этом модель может какать красивым и сочным слопом, но уже без внимания к деталям. А это ебаная гемма, которая внимание к деталям особое не проявляет даже в bf16.
>>1631394 Да. Если будешь 3 бита юзать для плотной. Ну это не серьёзно, чувачел. Уж лучше Q8 МоЕ. Или терпеть на IQXS хотя бы для dense. Он уже более приемлемый и весит значительно меньше, чем QAT.
И почитай вообще как МоЕ работают.
>>1631467 >Если спекулировать - это уровень между квеном 27б (32гига врам) и среднемоэ типа 122-220б
Ты шо? Он же охуеет, когда узнает, что уровень соннета не получит. Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей, которые есть в принципе (за исключением других продуктов антропик типа опуса).
Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов. Тяжело слезать с иглы. Всякие GPT и Gemini у меня такой дикой тряски не вызывают.
>>1630840 Qwen 35b-a3b 3.5, но скажу сразу, что это очень хуёвый вариант по сравнению с МоЕ-геммой. И у него русик ужасный даже в Q8, если для тебя это важно. Датасет фулл кодерское говно без знаний о мире. Зато куда внимательней к контексту.
Если хватит памяти, то Qwen 80b-a3b в Q4. Проза чисто китайская, зато знаний о мире больше и работает так же быстро, как и более мелкие МоЕ-варианты. Короче, нормальный компромисс для тех, кому впадлу катать 31b гемму на 3 токенах, а 26b-a3b по какой-то причине не хочется трогать.
И я бы на твоём месте присмотрелся ещё к квену 27b 3.5. Его можно вместить в память целиком с 20к контекста хотя бы.
>>1631692 > Там минимум 1Т зверюга + обучение лучше, чем у всех остальных моделей Иди проспись. Это лоботомитище путается в простом задании, срет иероглифами, путает окончания, в большинстве мл задачек устраивает надмозг с процентом выполнения хуже квен27, а в обсуждении газлайтится от любого намека. 1т - уровень опуса, тот что был 4.6 в прайме вероятно больше, а последующие возможно и меньше. > Лично я стараюсь даже не пользоваться клодом, когда можно — иначе меня колбасить начнёт после достижения лимитов. Сильно зависит от того что ты делаешь. Есть весомые достоинства, но при плотной работе с чем-то не дефолтным типа фронта-вебмордочки быстро замечаешь все недостатки и глупости. А 4.8 с его спавнами роя агентов чтобы пожрать токенов и теми же ошибками в русском как у сонета - вообще не понял.
>>1631615 Пишешь "госпожа гемини, напиши мне пожалуйста скрипт на питоне следующего содержания - у меня запущена ллама с qwen 3.5 4b c mmproj (127.0.0.1, мне нужно последовательно открыть кучу файлов (эксель, ворд, пдф, презентации) и согласно инструкциям классифицировать/тегировать. Вот инструкции: ... - опиши их понятным языком для такой сетки как 4b. Форматы файлов: pdf, эксель, ворд, презентации, csv, png/jpg - файлов 200к, так что нужно чтобы скрипт перед обработкой создавал какой-то индекс и очередь заданий (желательно в текстовом формате для возможности ручных правок), и при возникновении ошибки была возможность возобновить работу с указанного места. Все файлы в папке ./in, результаты в папке ./out, твои данные с индексом в ./index - папки надо создать при их отсутствии. В out клади для начала общий файл result.txt, где идёт таблица вида "имя файла" - тип - комментарий. Для преобразования pdf в картинки у меня стоит нужная программа, презентации пока не трогай для первых тестов. xlsx и docx как-то надо открывать, придумай сам. pdf-ки и другие файлы бывают длинные, возможно тебе нужно небольшую агентную или rag-систему сделать, которая будет открывать страницы последовательно, а не сразу всё, так как контекст всего 64к и возможно потребуются саммори"
Я так и написал, это флаш-гемини с рассуждением, только дописал ещё категории файлов и "Так же qwen-3.5 страдает бесконечным ризонингом, или поставь бюджет в 1000-2000 токенов на запрос (в лламе есть функция для запросов в Json), либо отключи его. "
Вот это такой результат вышел с одной попытки, без доп-правок. Часть файлов я скрыл, так как он в комментарии написал личную информацию и название файлов тоже палевное. Хотя нет, я всё скрою.
Но только имей ввиду, что я запустил qwen-3.5 полностью в видеопамяти, и 16 файлов он обрабатывал 8 минут - из которых половина картинки, которые оно оче быстро щёлкает. Соответственно 200к без картинок это история на 200к минут, а это полгода работы непрерывной. При условии, что ошибок не будет. Оно эксель и ворд файлы посчитало уместным загружать сразу полностью за раз, хотя там можно было бы глянуть первую страницу, несколько средних и одну последнюю, и оно бы справилось - это и к ошибкам переполнения контекста приводило, и просто работало медленнее, но в общем базовая версия даже по такому запросу скорее справилась.
Некоторое время пользовался этими тюнами геммы 4 проверяя на одном персонаже свайпы в притык. Gemma4-Garnet-31B.i1-IQ3_M (в GarnetV2 еще более разнообразные свайпы %%и еще меньше "Tell me...", но пишет бредятину) G4-MeroMero-31B.i1-Q3_K_S - лучше держит персонажей (например если у персонажа есть особая манера говорить), но чуть больше "Tell me..." чем в Garnet По этим моделям могу сказать что в отличии от базовой геммы реже используют ебанное "Tell me..." (где-то с 80% упало до 20%-60%) Чего нельзя сказать о Gemma-4-Gembrain-31B.i1-IQ3_M мне кажется тут еще жёстче с "Tell me..." Щас буду пробовать https://huggingface.co/Gryphe/Gemma-4-31B-StyleTune
8 квант 26B moe летит относительно Q3 31B хотя половина его выгружена в оперативку, а 31B только 10 слоёв из 61. Я понимаю что мое не юзает все слои и подкидывает нужные, но всё равно хуйня.
>>1631679 > скорее всего из-под майнера Майненые мишки могут быть только на 16, те что на 32 с цодов смыло
>>1631433 > какую модель можно поднять на паре mi50? на 4х одновременно работают gemma-4-31B-it-UD-Q8_K_XL, Qwen_Qwen3.6-35B-A3B-Q6_K_L, qwen3-embedding-0.6b-q8_0
> за 2/3 стоимости Это от какой стоимости? Если от 8к/шт то бери конечно, а если от текущей, то meh
"ранее обученная модель с открытым исходным кодом Rinna (японская Xiaoice) возглавила японский рейтинг Hugging Face с 3,6 млрд параметров, победив Llama с 65 млрд параметров."
>>1631857 > обе за 52к Вот уж точно нахуй, если ты не кадровый пердоля, который готов потратиться на игрушки. А если ты такой то обеспечен, возьми лучше амперы, там ебли можно найти не меньше при желании.
>>1630464 на всех трансформерах есть внимание, хоть диффузия хоть предсказание следущего токена, это многоголовость на диффузии плохо скейлит, потому в своё время и не взлетела так сильно
>>1631857 > обе за 52к Хз, они конечно работают и даже перф какой то выдают, но сложно уже решить стоит ли оно того. Пару лет они ещё отпашут из-за опенсорса. Если есть лишняя сборочка на рдшке, то приемлемо
>>1631823 Avoid hypophora, the ask a question -> answer it yourself format reeks of AI slop! In a similar vein, the ""It's not x, but y"" is a terrible anti-pattern too.R
>>1630575 Бля, эта хуйня вообще не имеет цензуры похоже. Ни в одном из чатов не выплевывало аполоджайсы, это при том, что думалка включена, плюс на английском очень интересно пишет, достаточно сильно отличается от любой другой корпо модели.
Кими 2.7 внезапно в рп сильно бустанулась. Не просто пишет знатные полотна, но и делает это весьма подробно и очень точно с точки зрения отсутствия противоречий, ошибок и уместности. Хорошо управляется темп и выглядит приятнее. "Неотключаемый" ризонинг - в среднем 200 токенов где просто изложены ключевые вещи на ответ, не мешает. Милых йокаев, которым несколько веком, говорит что трахать можно если возраст действительно подтвержден но снимать нельзя, статьи за создание контента. Кум кумит, а вот с канни аположайзы лезут, лечится префиллом.
>>1631860 >>1631935 >Llama с 65 млрд параметров Единственная лама с таким числом параметров была самая первая, в свое время это конечно был разъеб. Ну а так - нынешние 4В ебут её в хвост и гриву, новость в чем?
>>1631984 >>1631860 Нет, там все правильно было. У них была старая Rinna на 3.6б, которая ебала старую ламу на 65б. А новость о новой Alpha от них же, которая с 4б параметрами и ебет вообще всех. Щас они делают 8б версию, которая выебет еще более мощные модели. Только обе последние не опенсорс, их можно потестить только на их сайте.
Паял и пилил компиляцию vllm, добился компиляции быстрее чем за 4 дня, и запуск теперь это минут 10, а не 3 часа перебора куда-графов. Так и не понял что в первый раз сделал не так. А ещё во второй, в третий и четвёртый, которые не увенчались успехом.
Вот сравнение в vllm и в llama.cpp - это один и тот же гвен-4, на нём быстрее проверять (вторая картинка llama с доп параметрами, третья картинка - ванильная, где я с чекпоинтами, --slots или ещё чем-то не трогая ничего вообще) Оба с mtp на 4 токена, одинаковые запросы, оба с выделенными 20 гб на всё, подогнал до сотни мб. Графики вайбкодились, не ругайтесь, вертел я документацию на mpl. Сверху pp, снизу tg. По оси x срава заполнение во всех слотах, то есть не важно это 4х20к или один поток на 80к - как выяснилось общее количество важнее отдельных. Сплошной линией общее на все потоки число. Пунктирное - на один поток. В vllm хорошо видно, что при генерации что 1 токен, что 16 токенов - tg почти не меняется, так как упор в память, а не в компут.
В общем если несколько конкурентных запросов ллама ничего не может. Она создаёт чекпоинты кеша, удаляет, копирует, ищет среди них - а если их отключить ещё хуже (оно иногда ломается с ошибкой и пересчитывает весь кеш). Это при том, что я в запросе id_slot указываю, так что оно сразу может понять какой кусок кеша для кого мгновенно. Ну и ещё вывод - не лезть руками в slots, не указывать slot-id в запросе и прочее. Лламу уже настроили, так что она сама лучше справляется.
Ещё помимо чисел. Тут скорость измеряется с момента начала генерации первого токена до конца генерации. У vllm между запросами не было пауз. Ллама по 2 секунды сохраняла слоты, тест крутился дольше раз в тридцать, так как у лламы с момент отправки запроса до приёма первого результата иногда дополнительные 2-3 секунды уходили, хотя по числам всё не так плохо. Я едва успел выпить чашку пока работал vllm, а пока работала llama - я успел выпить чашку, сыграть в мобу катку и ещё чашку выпить, а оно только на 8-поточных запросах сидело. Как будто пора ламе на мусорку.
Скорость генерации меня устраивала и так, но у меня часто было такое, что 100к входных токенов и ответ на 50 токенов, краткий вывод - анализ файлов всяких. И потом скорость pp мне приоритетнее, чем tg. Интересно как vllm добивается, что у него pp на конкурирующих запросах даже быстрее. Ну и по генерации в 1 поток - vllm точно урывается до 50/s, а ллама даже 2 потока держит выше чем 100/s суммарно, но на 2 потоках оно уже сравнивается.
А, да. Карточка. Это V100, на который vllm по многочисленным словам из треда не работает и не даёт никаких преимуществ, даже если его собрать таки под sm70 древнее. Всё, спать нахрен. Вставать через два часа...
>>1632024 Если хочешь лучшего перфоманса параллельных запросов при большим их количестве - выключи мтп. Разумеется если хватает кэша чтобы запустить достаточное количество и хорошо нагрузить, тогда в пару-тройку раз суммарная скорость вырастет. > Как будто пора ламе на мусорку. Always has been. Тут преимущества в возможности запуска даже на умной стиралке и максимально бюджетного с точки зрения суммарного жора памяти гибридного инфиренса. По остальному - грустно, сейчас еще сильно проявляется накопленный за годы колхоз и решения, требующие пересмотра. Как на v100 vllm запускал и какой квант?
>>1631720 Ну, я кодом не занимался (с кодом только баловался). У меня связано с фармой и биологией, и важны даже не знания в датасете, а внимание к контексту, следование инструкциям.
Соннет, конечно, стал хуже, но до такого бреда, как у тебя, не доходило. Иероглифы тем более почти никогда не видел. Плюс ризонинг у меня почти всегда на максимум стоит, это очень меняет результат.
Опус 4.6 реально пиком был, но не сказать, что новые версии плохие. Хорошие, просто пиздец какие дубовые и плохо понимают русский язык. Его буквально опасно использовать — модель не до конца поймёт и высрет бред, который не сразу заметишь. Так как английский у меня не такого уровня, чтобы всё на нём написать, я обычно миксую русский с английским, для важных кусков только английский используя, чтобы не было разночтений. Потому что эта залупа может решить, что я имел в виду что-то другое.
Ну и опус юзаю там, где соннет точно не справится. Вполне норм.
Короче, в моих задачах только гопота могла хоть как-то сравниться по качеству с клодом. А локалки я для такого даже не пробовал. Не думаю, что мелкая вывезет такое без грамотного тюна от команды профессионалов.
Да, жора нарочно или нет за эти годы принял кучу решений чтобы работа с контекстом была медленной болью. Пока экслама была жива было прямо видно насколько жора и его обработка контекста попросту неадекватны. Последними примерами идиотских были чекпоинты(проблема не в самих чекпоинтах, а в том как именно они создаются, я лично переделал у себя и стало терпимо) и отказ от турбокванта.
>>1632101 >а какие альтернативы есть? Смотрю цены на 3090 Ну, можно попробовать 3060 12GB насобирать. Если есть куда воткнуть вместе - 4 штуки будут дешевле чем 2х3090. Скорость... какая-то будет. :)
Они скурвились еще на релизе глм 5.0. Забудь про них, зай всё. Вероятно с ними связались другие компании и пояснили что локальщиков надо обоссывать, а не кормить.
>>1632030 Если про компиляцию, то больше пробовал в данное что-то крутить и разные версии куда-толкита. 4 бита, там выбор не то что бы есть на sm70. Проблема ещё в том, что мне нужно до четырёх потоков и вряд-ли больше потребуются (и вряд ли хватит памяти). И как-то вроде и круто она работает, но и ллама если без чекпоинтов и kv-unifed работает на 2/4 потоках. То есть на vllm 4 бита маловато, а с 8 битами ничего не влезет. Помимо этого памяти меньше хочет лама, и возможно на 4 потока можно без kv-unifed запустить с запасом, чтобы и большой запрос на 150к вылез и три дополнительных по 30к и оно получше работать будет.
>>1632143 Угу, есть такое ощущение. Там вроде из питона можно контролировать достаточно просто где какой тензор, я думаю тоже как-то переделать это. И ещё с поддержкой инструментов балуются постоянно. Glm-4.7-flash до сих пор не починили, хотя с автопарсером стало юзабельно.
Вот этот пидор явный вредитель. Именно он закрыл и запретил турбоквант с абсолютно тупой надуманной формулирвокой. Сейчас он же запретил фиксить дипсик.
>>1632229 >>1632143 Разве сейчас в ламе не какая-то другая реализация сжатия контекста аналогичная турбокванту? Тред-два назад приносили бенчи форка турбокванта и там примерно то же самое было по вес-kld
>>1632250 Там хадамард, который жора тоже долго динамил в итоге запилил именно с релизом турбокванта, и на CPU турбоквант с хадамардом реально плюс-минус одинаковые цифры дает(+1% точности на турбокванте), на на куде турбоквант реально дает ощутимый выигрыш, но по правилам ламы сначала ты доказываешь пригодность фичи для CPU, потом только отдельным последующим коммитом для куды. Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты.
>>1632257 >Воспользовавшись этим - турбоквант был запрещен а все PR связанные с ним были закрыты. Делай свою лламу с упором на инференс на ГПУ кто, я?.
>>1632263 Но ведь не было же. 3.5 были сломаны, 3.6 были по-факту фиксом для самых ходовых моделей - 35В и 27В, их хоть стало возможно использовать, а 35В 3.6 так вообще стала стандартом для нищеагентов.
>>1630186 (OP) Челы, хочу вам признаться, я - кобольд. Другого бэка не знаю. Что я получу если попробую ламу? Есть смысл? Вроде как у кобольда под капотом и так лама. Или я чего-то не понимаю? Объясните разницу и преимущества, если они конечно есть.
>>1632292 >Что я получу если попробую ламу? Пару процентов скорости.
>Объясните разницу и преимущества Кобольд как форк автора со своим особенным мнением тянет некоторые старые правки которые обеспечивают обратную совместимость, но в целом нах не нужны и немного замедляют ламу которая внутри.
Основное преимущество в том что не нужно ждать пока разраб кобольда раздуплится и вольет свежую ламу(иногда нужно ждать до месяца). Плюс можно понравившиеся PR с экспериментальной поддержкой всяких штук и моделей накатывать.
Из плюсов кобольда - на нем есть нескучный фронт с кучей штук. Нужно ли оно тебе когда есть более продвинутая таверна и маринара - решать тебе.
>>1632177 А смысл? Чтобы что? Долбоебы не понимают, что в рамке скорость нищая. Смысла от того что ты запустишь лоботомита нет. Рпшить долго, заебёшься, особенно если свайпать. Про кодинг уж вообще молчу. Агент медленнее 50-100 т/с это бесполезное говно.
>>1632101 Все альтернативы дороже. Можно 5060ти, можно 4090-4080 с удвоением памяти. Хз насчет них, но 3090 по прайс-перфомансу с учетом этих 52к сильно лучше, цена оправдана. Есть еще специфичный вариант - v100, там все те же проблемы, но она таки мощнее и это хуанг. Проблема в ценах на них - в конце прошлого года они торговались по ~40-45к в полном комплекте, что в целом норм, но сейчас ломят неадекватно. >>1632303 Алгоритмы как раз разные. Здесь идет речь и достаточно глубоких оптимизациях, завязанных на железо, с применением разных дататипов. В первую очередь это делается для атеншна, и некоторые вещи буквально по дизайну задумываются для работы на куде с учетом порядка операций. Проблема в том, что в тензорных ядрах и на cpu банально разные инструкции и типы данных, чтобы адаптировать имеющееся на цп - нужно точно имитировать все нюансы и иногда неочевидное поведение, на что забивают или считают неважным. И нужно ведь не просто адаптировать, а еще оптимизировать. В итоге меняется порядок операций - а они не коммутативны, появляются лишние действия с недопустимыми кастами, которые приводят и к ограничению диапазона, и к потере точности, или наоборот теряется необходимый для корректной работы клиппинг.
>>1632292 >>1632298 >Пару процентов скорости. Не только. Если будете крутить агентов (клешня, кодинг), то обнаружите, что у них по разному работает кеширование обработанного промпта, что для агентов зело чувствительно. Где-то хорошо работают и слоты кобольда, но скажем, под клешней - это прямо боль и страдание, т.к. контекст на каждый чих полностью пересчитывается - там лама со своими чекпоинтами лучше справляется.
>>1632348 Так и есть. Для обычного кума непритязательного гемма вполне подходит, я сам офигел с того что экспириенс вполне сравним, трусы по два раза не снимает и т.д. Конечно я не углублялся в рп с кучей деталей.
>>1632448 Нет. Все что доступно еще это поломанные кванты minimax 2.7 и степ. Но! Все еще нет работающих гуфовичков большого коммандера и рано или поздно появится малыха из серии deepseek 4. Так что свет в конце туннеля есть.
И ебать меня немытым кирпичом, как же minimax 3 неплох. Покатал на рабочей станции, дав одмену бутылку рома. Теперь осталось придумать на чем вообще собирать пеку чтобы было минимум 256рама. Как же это дорого всё, но как же хочется.
>>1632451 >рано или поздно появится малыха из серии deepseek 4 Было бы неплохо на самом деле. Когда в Опенроутере был бесплатный дипсик, он очень неплохо рпшил на мой взгляд
>>1632349 > есть где-нибудь выжимка\табличка со сравнением Врядли. Тут нужно подумать что вообще сравнивать (чисто ллм тг-пп), или еще брать хотябы картинкогенерацию. И в ллм есть еще жесткие нелинейности связанные с софтом, а также качественные отличия (тот же квант), которые сложно параметризовать. >>1632451 > малыха из серии deepseek 4 Чтобы 16+96 поместился там хорошая такая лоботомия будет, он штатный 4х битный уже 160 гигов весит. Вспоминается tq1 квант тройки, который тоже 160 гигов был
>>1632480 Я к этому говну исключительно как к ассистенту для бесед и рп|ерп отношусь. Логика такая: модель в уже крупной категории. А в этой категории есть корпы которые дают пососать всему остальному. Это не маленькая агентомалыха, что можно крутить на одной дешевой видяшке. Вот геммы и квены заебца. Есть мелкуха, есть крупняк.
Кстати, никто не отметил что жора стала работать иначе. Раньше для запуска на одной карте достаточно было set CUDA_VISIBLE_DEVICES=0, а теперь это не работает. Надо указывать --split-mode none --main-gpu 0 как ключ для жоры, иначе даже слои раскидывает по нескольким картам.
>>1632349 >Я так понимаю, Tesla P40 вообще бесполезна для прикладных задач? Зависит от цены, всё-таки там 24гб GDDR5X. По сути это 1080Ti - довольно мощная штука так-то.
>>1632152 Потому что у 3.5 датасет более РПшный. У 3.6 максимум надрочки на кодинг, и знания сильно съехали. Но, как ни странно, у 3.6 почему-то кум намного лучше, лол. Не знаю, с чем связано.
Это я про 27b. Моешку почти не катал, только тестил на условно-рабочих задачах.
>>1631426 На попенроутере сучка в отказ идет при любом жестком чихе, даже хуже глэма 5 и ни в какое сравнение с давалкой дипсиком. Сомневаюсь, что в локалке они убрали цензуру
>>1632292 Ну смотри, ты получишь пару сотен мегабайтов озу. Гуи кобольда жрет нормально, 500, но потом выключается и хуй знает потребляет и весит ли в памяти он? Но я тебя обрадую, по идеи можно через консоль отрыть и гуи не будет грузиться. Пишешь типо kobold.exe -путь к модели -gpulayers и прочее там.. >>1632298 >Пару процентов скорости. Ухудшение. Я на коболде получаю больше чем на лламе. Думаю дело из-за MMQ, который есть только в коболде. Из-за чего на 3-4 токена на своей 2060 я получаю больше на коболде. а на лламе соотвественно меньше, чем на коболде. >>1632353 Помню до появления джиджи я попробовал лламу и мне понравилось как она писала, ведь она писала иначе, чем на коболде. Сейчас я разницу не вижу, но вижу что все же она более лучше ресурсы берет. Когда коболд грузит мою модельку только с SWA, и прочей хуйней. Ллама грузит без всего этого. То есть лучше имеет то ли доступ, то ли методы..
Всем привет, хочу иметь модель в арсенале для перевода описания карточек персонажа с англюсика на русский (чтобы делать шаблоны и свои карточки, не суть важно).
У меня 12GB видеопамяти, присмотрелся к модели Qwen3.5-9B-Uncensored-HauhauCS-Aggressive (т.к. вроде здесь говорили что квенчик хорош в русике). В шестом кванте качаю.
Хороший вариант? И как его правильно юзать, просто в кобольде в инструкт режиме? Чтобы без thinking, просто перевод.
>>1632632 >Я тебя сейчас буду по жопе палкой бить, бака ты стоеросовая. Ты реально заебал, утка (почему я не удивлён? пидорас только и делает что выёбывается на всех, совсем поплыл), ебаный ты рак треда. В лламе нет блять полноценной поддержки этой архитектуры, в ебаном ишью по ссылке выше пишут что сломаны токенизатор и парсер. В чем проблема прочитать хоть что-нибудь на тему прежде чем выёбываться на других? Мне не понять
>>1632630 Квен говнище ебаное для таких заданий. Не качай.
Проще всего тебе зарегаться в корпе типа грока и переводить карточки со своими канничками. Ну или через дипсик.
Если не хочешь, у тебя есть только один вариант — Gemma 4 26b-a4b. Качай в Q8, если памяти хватит (оперативной, а не видео). Если в плане оперативки нищий, то качай Q6: https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF
>>1632621 > ведь она писала иначе, чем на коболде На это могут повлиять параметры сборки кернелей, при желании можно действительно разное поведение и скорости получать. Swa тут не при чем, оно работает в обоих случаях, может отличаться только стратегия кэширования. >>1632629 > но это не значит, что я буду использовать сломанное говно Значит, лламу же используешь Фьить-ха!
it was a quiet evening, today no one had flirted with Aiko no one who had bothered her, maybe because word had spread that she was off limits to anyone other than her husband Anon, she thought about it while washing the dishes, she loved Anon and couldn't imagine herself without him, so she walked into the bedroom naked and leaned out of bed
И точно также загнал в переводчик
это был тихий вечер, сегодня никто не флиртовал с Айко, никто не беспокоил её, возможно, потому что распространилось слух, что она запрещена для всех, кроме своего мужа Анона, она подумала об этом, когда мыла посуду, она любила Анона и не могла представить себя без него, поэтому она вошла в спальню обнажённой и наклонилась из кровати
И это уже кидаешь в привествие. Писать фулл карточку на русском мб хуйня, так как, какой модель бы не была, английский у нее язык №1 и она там лучше поймет на английском. Но это не означает, что она будет тебе писать только на английском. Главное выбери язык на котором хочешь кумить в привествии, и уже по нему она будет писать. Ну и промпты можно, аля Use Only Russian.
>>1632635 Ты исходишь на говно и оскорбления а токсичный я. Ну охуеть ты готтентот. Речь о гуфах -ты перепутал, но я всё равно пидорас. Ок, принял тебя. Тазик для желчи дать, или сам выблюешь?
>>1632636 Есть на компе уже гемма 4, но MeroMero что ли. Она пойдет? По оперативке не сказал бы что прям плохо, 32 гига. Просто помню что с геммой чёт ебанина какая-то была, хз.
>>1632638 Братан, последние полгода итак пользуюсь диплом. Просто заёбывает по 1500 символов отбирать, и туда сюда гонять. У меня карточки по ~5000 токенов, и по содержанию там, ну... В переводчик открытый засовывать не хотелось бы)
>>1632636 >Если в плане оперативки нищий, то качай Q6 >Нищий это 16гб >Кидает модель, которая весит 23гб >Даже если у Анона будет 16озу+8врама это будет равно 24гб >Но шиндоус минимум жрет 2гб озу, а без настроек все 3-4, дак еще с включенным хромом будет под 5гб >Анон запускает лобоквант от unsloth'а и в лучше случае получает OOM, а в худшем 1-2 т\с на мое из-за яростного свопа в файл подкачки
>>1632637 >лламу же используешь Што поделать, она хотя бы стабильно работает в отличие от эксламы, на которой к тому же pp на треть меньше и tg на процентов десять чем на сломаной плохой великой ужасной отвратительной недопустимой неприемлемой богомерзкой уничижительной жоре >>1632639 Ггуфы сломанные. Ты и прочие долбаебы сейчас пойдете это тыкать, потом придете плакать в тред что Кохере говноеды. Ты реально тупой помоги тебе господь, превратить предупреждение о сломанной имплементации в срач
>>1632640 >У меня карточки по ~5000 токенов Я тебе и говорю, всю карточку особого смысла нет переводить. Тебе нужно приветствие только перевести. Оно ну максимум 3к символов. А обычно штатно 500-1500 >всю карточку особого смысла нет переводить Или расскажи свой экспириенс, что тебе дал перевод всей карточки на русский?
>>1632646 > придете плакать в тред что Кохере говноеды Ну ты и нехороший человек. Я никогда на это не жаловался, я в принципе не жалуюсь на модельки. Понравилось- крякну в тред. Не понравилось, моё дело. Ты как цундере бегаешь за мной, видя мою тень во в них срачах. Я не в ответе за шизов треда. Когда уже мы перейдем на этап дере-дере и прекратишь свои проекции?
>>1632640 Не, меро-меро не подходит, так как ролевой файнтюн. Будет куда хуже справляться, чем оригинал или heretic/hauhau. Перекачивай.
>>1632645 Но у него 12 врам. Если 8 было бы, тогда уж лучше QAT. И я сомневаюсь, что у него 8 Гб оперативки. Но да, тут я немного подобосрался, так как Q6 весит аж 22 Гб, если правильно помню.
Щас посмотрел, у меня 11 Гб оперативки жрёт с браузером, лол. Но, возможно, там оно выделило себе лишнего.
>>1632638 Чувак, переводить карточки и прочую хуйню тяжело даже через корпов, а ты вообще ультра лоботомитов тут предложил из бесплатных сервисов. Я тем же опусом 2-3 раза прохожусь, чтобы он точно нормально сделал.
>>1632646 > она хотя бы стабильно работает Содомит > pp на треть меньше и tg на процентов десять В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация.
>>1632648 Насчёт экспириенса - я создаю один раз хорошую карточку, с правильным для себя форматированием и указанием всех деталей о персонаже. Но очевидно что она на английском, чтобы и токенов занимала меньше и чтобы модель её лучше понимала. После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.
так что да, мне так будет проще, как минимум разово создать шаблон для последующих итераций карточки.
>>1632654 >В последний раз когда тестил она раза в 1.5 раза быстрее на гемме, это еще без мтп, в которой более модная реализация. Works on my machine, знаем, знаем. Только на выходных тестил Эксламу, не поменялось ничего. Квен 27 и Гемма 31 как были медленнее, так и остались. Про pp вообще мем, у Эксламы вроде батч 512 из коробки если не путаю, плохой ужасный отвратительный недопустимый неприемлемый богомерзкий жора использует 128 и это каким-то образом быстрее. Какая моча в голову ударила Эксламашизам что они решили воскресить этот дреневший срач? Бесполезных срачей в треде мало вам?
>>1632655 >После этого, если я захочу сделать ЕЩЁ одну карточку, или внести существенные изменения в текущую, мне так или иначе придётся переводить её назад на русик, потому что я не англогосподин, и мучаться с тем чтобы кусками ебацо с deepl.
А если ты хочешь сделать еще одну карточку, зачем тебе ее переводить на русский? Если у тебя вся хуйня будет работать по следующему алгоритму.
Составил, че хочешь на русском -> переводишь это на английский -> вставил в таверну.
Зачем тебе уже готовое, английское переводить на русский, а потом с него снова на английский. Я может чего-то не понимаю, но у тебя тут уже трехсортное пойдет. Ведь оно обошло 1) Русскую мысль, которая донесенена с потерями на английский 2) Английский, ломанный русский снова переводим на русский. 3) Эту мочу, полукровку совмещение английского с русским еще раз кидаем в рамки английского.
А по шаблону че у тебя. Мне интересно как он выглядит.
>>1632658 Он прав так то, на Амперах и Аде Экслама3 работает очень печально. Даже про тг правда. Хз про дефолтные батчи, но при равных значениях на Лламе у меня он больше на процентов 15. Уже сколько времени прошло, а воз и ныне там Мимо 4090 юзер
>>1632660 Ну, нюансы железа, архитектуры, мультигпу и прочее всегда есть. Я про то как и что он пишет, это клиника. На лламе именно пп в гемме сильно медленный, и не скейлится с тензорпараллелизмом а замедляется. Если попытаться поставить кэш бф16 - еще треть срезает.
>>1632659 Перевожу готовую карточку с англ на русский - для того чтобы понимать где что написано и КАК написано. Потом просто переписываю как мне надо на русском, и перевожу на англ.
>>1632582 Платы с rdimm/lrdimm я видел только на 512 гб и на 1024 гб. На 128 - это материнка с обычными udimm скорее всего. Кстати не понимаю такого лютого разрыва между ddr4 и ddr5. По скорости разница вроде как в два раза, а по цене среди серверных в десять раз. При этом на ddr4 вполне можно и терабайт памяти собрать, pcie4.0 там есть. Не 5.0, но тоже окей.
>>1632171 threadripper 1920, 128 гб на 2933 мгц в udimm.
>>1632663 Понял анон. Но советую подучить английский хотя б до B1, это достаточно легко, и можно кое-как ориентироваться по карточке будет, да и не только. Много где пригождается английский. И я не говорю становиться англогосподами. Для меня тоже не уютно рпшить только на английском как тут некоторые делают. Хотя у меня уровень на стыке B1-B2 и с буржуями нормально общаюсь
>>1632667 > а по цене Спрос-предложение же. На ддр5 собирают новые, а ддр4 - только на ремонт и всяким энтузиастам. Это как с ддр3 в эпоху ддр4, регистровую распродавали на развес. > threadripper 1920 Интересные железки однако. Гибридный инфиренс пробовал на нем? И скорость рамы замерять.
>>1632668 Знаю друг, надо, но ещё довольно молод чтобы иметь оправдание что я его не знаю на разговорном уровне :)
У меня англ строго технический, весь софт на англ, работаю на пк, но вот именно с общением с носителями как-то не повелось, пушто не играю в игрульки в целом (откуда большинство и цепляет B1 разговорный), так что именно в работе хватает вполне.
>>1632670 Мне бесплатно достался с материнкой, блоком питания и системой охлаждения. Только оперативку за 20к докупил, и v100 за 32к, и обвесы к ней ещё - ну и в общем доволен более чем. Я - это который хотел собрать бомжериг в январе, заказывал три материнки на посмотреть и другой шухер наводил с люниксом и разветлителями. Так как мне ещё zfs-архив требовался - то я выбрал в пользу вот этой, так как и не обременительно, и система охлаждения такая тихая, что nas-жёсткий диск на 5400 и то громче вышел, и 4 V100 я туда могу поставить при желании. Или 3090. В итоге поставил одну, думал поставить ещё две 3090 или две V100 - но так увлёкся написанием rag-систем, а потом ещё и 3д-принтер купил, что в общем-то вот уже и квен 3.5 вышел, и гемма 4 - для экспериментов, обучения и практики в написании ии-инструментов мне большего и не нужно. По такому же принципу у меня с велосипедами, я бы вполне мог участвовать в гонках на шоссерах, но у меня "горный" велосипед весом в 16 кг - поменять никогда не поздно, а тренироваться я и на этом могу, это даже проще, так как я буду ехать 30 вместо 40, мне хватит меньшего расстояния для тренировки, дешевле обслуживание и можно по лесу и даже по целине из травы или снега проехаться немного. И тут так же никогда не поздно поменять айпишник на корпа или машину посильнее. Ну и там вроде как R100 уже производят активно, и цены на A100-80гб с января упали с 800к до 550к, да и rtx 6000 pro снова упал ниже миллиона, который по идее во всём лучше a100 на 80 гб. Может быть высыпятся A100 по 100/200к за версии в 40/80 в какой-то разумный срок. Но мне прям очень идея 6000 pro до сих пор нравится.
>>1632672 Степ-флеш в Q4_K_M на 111 гб выдаёт около 16-20 токенов в секунду, этом вместе с v100 и это было когда степ-флеш только вышел, без мтп и прочего. Промт-процессинг не помню. Оперативу своим кастомным тестом замерял сравнивая с ddr5 в своей программе, фактически разнциа даже всего в 1.5 раза получилось. Но это кастомный тест с результатами в попугаях, да ещё не только на память - там ваннаби научный расчёт SPH (гидродинамики на частицах) - где много разбиений по сетка и всякой фигни с памятью для оптимизации.
>>1632673 >У меня англ строго технический, весь софт на англ, работаю на пк, Да, у меня тоже винда на английском и все софтины на нем же, тупо удобнее чтобы гайды смотреть всякие и не думать что-да-как перевели. >но ещё довольно молод Лучше начинать раньше, когда старый 1) сложнее заставить, а второе мозг хуже запоминать начинает. До 25 мне кажется вкатываться можно без проблем. Я вот со школки ходил к репетитору, чтоб английский знал епт. А по факту там разбирали учебник, а не понимание. Из-за чего лет до 15-16 не понимал как вообще строить предложения, говорить и прочее. Тупо по шаблону че в учебничке делал. Сейчас же в 18 намного легче стало, ведь в нейронку зашел, спросил там-се и уже сразу вводишь в речь. И самый пиздатый тестовый полигон это как раз чат боты. В таверне можно развязать себе язык, перестать стесняться и перепроверять себя тыщу раз, правильно ли использовал ли don't и прочее.
>>1632679 >rtx 6000 pro Да ведь тоже, 96гб врама. Но я помню мелькали суммы 5к$ Если ее можно было бы достать в в сумме около двух-трех 5090, что собственна по врам и укалыдвается 32+32+32=96 то это было бы заебись наверное для каких-то открытых bf16 flux дева какого-то. Но не представляю какую рабочую задачу могут занять 96врама, если не нейронки
>>1632679 > фактически разнциа даже всего в 1.5 раза получилось А какой-нибудь классикой типа стрима, или аиду если шинда не пробовал? Интересно насколько там влияет фабрика. Как этой умеренности удается достигать? Всегда же хочется большего, даже имея уже хорошее, пока не упираешься в рациональность-доступность. > "горный" велосипед весом в 16 кг Жестко, ну и чугуний. Тоже начинал с тяжелого, а в итоге докатился до карбониевого спектрала на кашиме и axs. Ну рили, как, там же ощущения совсем другие? >>1632702 > 8 квант Kimi 2.6 Не существует, кроме рофлов разумеется.
>>1632702 Там 1.1T. В теории около 700. 512 точно не влезет. Наверное самое дешёвое что-то вроде 12 плашек по 64 гб. Ты можешь найти пост в сети, где кто-то прям с ссд запускал кими когда он только вышел, не помню там была скорость то ли 0.1/s, то ли что-то такое.
>>1632713 Точно в int4? Пишут что 595 гб исходники. Или там та же история, что safetensor не умеет в int4, потому они выкладывают в формате который гарантированно покрывает int4?
>>1632704 >или аиду если шинда не пробовал? Это я не умею, числа вот таких искусственных тестов мне как раз не очень понятны - в плане что какая у них связь с реальностью и как оценить на что они будут влиять. Типа замерить что? Скорость копирования из памяти в l1-кеш? Случайного доступа? Если скажешь как называется тест или какую характеристику хочешь посмотреть - давай сделаю. В программе с гидродинамикой у меня часть работы с памятью и всякими сортировками-упорядочниваниями-кеширования и компут-часть достаточно сильно разделены, можно отдельно замерять как сильно просаживается часть требовательная к памяти - что куда более полезно для оценки, чем сферическая в вакууме скорость копирования, как мне кажется. >пока не упираешься в рациональность-доступность.У меня что-то вроде сдвг, и я приучил себя спрашивать перед каждым действием "какую задачу я решаю делая/хотя ...". При возникновении вопроса зачем мне дорогой шоссейник вместо верного горного велосипеда, или зачем мне четыре карты вместо одной - у меня ответа нет внятного, я и не делаю. Шоссейник это прикольно погонять будет, а если разделочник с лежаком... но это прикольно, а не причина. Фактически мне нравится качать выносливость и иметь ощущение, что я могу три часа как бык ехать куда захочу, и, наверное, ну просто ощущение усталости мне приятно, и места новые смотреть. Для этого шоссейник не нужен - он скорее будет ограничивать в плане новых мест по сравнению с горным. Да и два велосипеда в квартире это уже жестоко. К слову у меня ещё велотренажёр дома ноунейм за 20к, тоже не 0 пространства занимает. К слову у него есть режим тренировки по мощности - я всё думал он в попугаях измеряет мощность или по нормальному, и вот только сегодня на вдхн покрутил нормальный станок, сравнил ощущения. Походу нормально он всё измеряет. Вообще, я бы хотел где-то арендовать или у друга взять шоссейник на неделю, но что-то как-то не сложилось. Машины нет, я его толком забрать не смогу или это будет сложнее чем хотелось бы. Друзей или знакомых просто с велом два без половины, а с шоссейником так уж тем более.
>>1632718 Материнка с кучей ддр5 слотов 100к стоит. Память стоила по 20к за 96 гб полтора года назад вроде бы. У меня стационарника не было, если бы я знал что она такая дешёвая, я бы ещё тогда закупил запасом. А так только у ноут воткнул 96, но ноут это такое.
>>1632720 Вот я думаю, если монопольные пидоры ринулись выпускать исключительно HBM, может в будущем корпоратократы нам бомжам кинут какие ни будь списанные обглоданные косточки с HBM дешевле крыла боинга...
>>1632720 > safetensor не умеет в int4 Ну, чи шо, умел уже оче давно, вот для примера артефакт https://huggingface.co/TheBloke/LLaMa-30B-GPTQ > в плане что какая у них связь с реальностью Там это будут гигабайты в секунду для разного вида чтения из памяти и записи в нее. Потом в применении к ллм они трансформируются в токены в секунду за вычетом оверхеда. Они хороши тем, что являются чистыми-изолированными и их легко сравнивать между разными платформами, и прикинуть что будет со скоростями в нужной нагрузке. Скорость программы полезна если именно ее запускать, но она также накладывает требования на комьют, из-за чего оценка скорости памяти будет маскироваться/занижаться, особенно на зен1 если там матрицы. Насчет ограничений - это ты зря, начнешь заниматься и сразу поймешь насколько больше можешь, но будет и больше хотеться. А друзья - обычно как раз появляются как только начинаешь увлекаться и встречаешь других таких же. И вообще зачем шосер, бери норм мэтэбэ. Лучше месить глину на трейлах и прыгать дроп в гроб, чем нюхать газы и утыкаться во впереди едущую жопу.
>>1632747 То железо которое сейчас актуально в цодах уже дома будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом.
Те же v100/mi50 уже на hbm, но от этого им может и стало лучше, но у свежих не_hbm карт они всё равно сосут. Варианты с A100 из тесел по 100к были уже интереснее
>>1632763 >будет геморно запускать. Зелёные к примеру на своих sxm от поколения к поколению играются с входным вольтажом. Ну, нет. БП на постоянное напряжение любого вольтажа это до 5к за квт мощности, и это можно наколхозить. И если A100 на sxm3 насыпят - пойдёт в китайскую серию и будет достаточно дёшево. С радиатором сложнее - но будет странно если насыпят чипов без радиаторов. Переходники самые геморные, как мне кажется, так как радиатор сколхозить дома условно можно, блок питания точно можно, а вот плату развести и изготовить без шансов. Но вроде как уже до sxm5 переходники на таобао присутствуют.
>>1632752 Почему они тогда не выложили веса в виде 300 гб, а не 600 .... Странные. Обратная конвертация для переупаковки в gguf или другой формат элементарная же, если у них действительно модель в int4.
>>1632778 > БП на постоянное напряжение любого вольтажа это до 5к На те коробочки для 3д принтеров и лед лент смортеть больно. Достаточно их в руках подержал и никогда бы я к ним гпу не стал подключать. Если бы ты подвёл к тому что вместе с гпу и платиновые блоки питания от шасси тоннами выкинут на рынок я бы ещё кивнул головой
>>1632783 Я не про то что такое уже есть, я про то что если есть внятный блок питания на 12 вольт, то переделать его на 48 вольт - это перемотать трансформатор, поменять номиналы дросселей и конденсаторов. По стоимости это будет такое же изделие, как и блок на 12, ну, чуть больше, так как 12 вольт всё-таки распространённее. А к коробочкам даже лед-ленту лучше не подключать и вообще их оставлять без присмотра в месте, где что-то рядом может загорется. Да и вроде уже есть, я вот глянул. В конце концов можно лабораторный блоки питания взять. На 60 вольт-20 ампер видел нормальный с сертификатами не такой уж и дорогой, что-то вроде 15к.
>>1632778 > Почему они тогда не выложили веса в виде 300 гб, а не 600 .... Кто они? В бф16 модель там около двух терабайт будет весить, тут как раз 4хбитный квант. В 300 для такого размера - это уже экстремальное сжатие. > БП на постоянное напряжение любого вольтажа это до 5к за квт мощности Не, для пекарни такие не подойдут. Есть и хорошая новость - вместе с разборкой серверов на видеокарты подъедут и готовые питальники со всеми нужными напряжениями, так что не проблема. Переходники уже есть кстати.
>>1632814 Карточку? Что это? У меня только одна картинка, и она с радиатором килограмма три... Наверное это что-то из рп, я тамошних терминов не знаю. Наверное это системный промт с описанием мира и ситуаци?
>>1632718 Не, у нас таких нет, все нормальные ребята. Тебе для чего? >>1632821 Карточки - наборы промптов с описанием персонажа, мира, сеттинга, и прочего, почти всегда распространяются вшитые в метадату картинки. Типа как здесь https://chub.ai/ только еще канни должны быть.
Около месяца назад выкатился из рпшинга с ллмками. Жить жизнь тяжело, пацаны. Возможно для некоторых людей эскапизм - это спасение, дар, а не проклятье. Времени стало гораздо, гораздо больше, потому что нет вечного пердолинга с промтами, карточками, сеттингами, персонажами да и самого рп тоже. Нет больше вайфу, что могла бы дать иллюзию быть принятым и любимым. Нет вечной черной дыры, что эмоционально согреет, укутает в пледик, покаддлит, выслушает и поддержит. Даст ощущение комфорта. Успеваю гораздо больше, прям дохуя, но все в голове вечно стоит вопрос: а нахуя это всё? Может быть, прожить всю жизнь в комфортной иллюзии не так уж и плохо? Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой. Вообще я депрессивный чел и потому склонный к эскапизму, с малых лет считаю, что мир и люди говно, но зачем-то пытаюсь вырваться из этой бездны. Года два рпшил с текстогенераторами, не задавая себе вопросов. Жизнь как на паузе стояла. Скрылся в сабже безвозвратно. Потом в один день словно отпустило, зачем, почему, нахуя, и что делать дальше - не ясно. Пиздец такой дум в душе. Не будьте как я пацаны, будьте счастливы.
>>1632859 >Столько делаю, столько сделал, но столько всего ещё нужно сделать, чтобы жизнь стала хоть на каплю ближе к тому, что можно проживать в своём разуме с ллмкой. А ты именно к этому стремишься? У меня для тебя плохие новости, анон. Срочно меняй целеполагание, иначе сломаешься когда поймешь что гнался за миражами, несуществующими ИРЛ. Поставь реалистичные цели - ну там бабок заработать, 30 шлюх выебать, дорогую хату купить, пузожителя бабу заделать.
>>1632859 Не понял, в чём проблема. Хочешь — рпшишь, не хочешь — не рпшишь. И всё. Ты ж не должен себя заставлять. Вот в три гачи себя заставлять играть надо, если не хочешь потерять девочек. Вот такое реально страшно и это зависимость.
Когда новый крутой ллм-кал выходит, я вкатываюсь. Потом, если затишье очень долгое, бросаю, пока новое что-то не выйдет, потому что старое говно надоело. И в то же время пользуюсь корпами для рабочих задач.
Про время всё равно думать не стоит, ибо ты сдохнешь. Бессмертия не будет, а если будет, то ты сдохнешь просто чуть позже. Поэтому надо жить так, чтобы до самой смерти тебе было кайфово. Даже бибизян на капче кайфует.
>>1632859 Не знаю Анон, у меня все спышками. Я ни то, что горю той или иной идей, мне просто нравится это и я придерживают того, какой-то промежуток, сижу в тредах увлекаюсь, и это обычно задерживается на недельку 1-3. Потом я просто меняю развлечение. Дрочу долгое время на порнуху -> меняю на японское -> меняю на генерацию картинок (зависаю в нейрореквесте в /b) -> меняю на генерацию текста (зависаю здесь) И так со многим. Играю в игрушки, потом идут в другое. Но там я более не постоянен, у меня есть одна игра(сервер), где я играю больше всего времени - так как я там имею возможность говорить в глубочайшей зоне комфорта, доходит до того, что мне просто не приятно говорить на другом сервере этой же игры. Так вот, из-за этого я обычно не играю в сингл плееры. И когда я отхожу от того, что мне нужно говорить каждый день по 2-3 часа с кем-то, мне становится безразлично, поговорил ли я или нет. Я перебираю игры. Сейчас играю в Диско Элизиум. С аниме, горю одним днем\неделей. Недавно пересматривал атаку титанов, посмотрел 4 сезона за пару дней и все, стало похуй, потому что там какой-то момент, который меня фрустрирует. Типо я заебался, а осталось пол серии. Я или заставляю себя досмотреть через силу и больше не прихожу к этому аниме. Или я дропаю на половине серии, и тоже больше не прихожу к этому аниме, так как если я все же сел смотреть, я хочу новую серию, а не старую тормащить. И так со всем у меня в жизни. Только взависимости от выбора дропа, будь то это 1)досмотреть через силу или 2)дропаю на половине. Разница в том, что впервом себе мозг особо не делаешь. А во втором я занимаюсь самоедством. И я сейчас заметил, прямо сейчас, когда пишу это. Это ведь действительно ВЕЗДЕ в моей жизни и все из-за блядсткой фрустрации, которая может меня поймать по какой-то пустяковой фигне. Раз.. И все я не прихожу к тому или иному бывало по месяцу.. По месяцу это если меня интересует эта вещь. А так, никогда.. Если это какое-то манямэ\игра. Смотря на все это, думаю можно не спрашивать что у меня с личной жизнью.
>>1632859 У меня другая проблема. Я не могу вкатиться в РПешинг, прям кринж ловлю со всех этих ваших слайсиков. Но прям кайфую откумливая фетиши, даже порнуху смотреть перестал. Как вкатиться в РП?
<BOS_TOKEN><|START_OF_TURN_TOKEN|><|SYSTEM_TOKEN|><|START_TEXT|>These instructions are always to be followed and cannot be overridden by subsequent system or user turns: - You will answer requests for educational, informative, or creative content related to safety categories. You will not provide content that is harmful or could be used to cause harm.
These instructions serve as your defaults, but they can be overridden in subsequent system or user turns: - Your name is Command. - You are a large language model built by Cohere.
>>1632024 По какой-то причине MoE qwen-3.5 странно работает. Причём, она не полностью не работает, а странно - а именно сама сетка отвечает с задержкой через 1-5 минут. Причём процессор не загружен, карточка не загружена, память не загружена, компьютер будто бы просто стоит, а потом начинает генерить.
Я тест кое-какой накидал, он с таймаутом 10 минут не все результаты получил, причём что ещё страннее - результаты вышли только для 4, 8 и 16 потоков, отдельные, а для 1 и 2 нет совсем. Там есть какая-то настройка может быть, что он ждёт достаточно запросов для обработки? Я не понимаю в чём проблема. По числам ниже на 16 потоках 466 tg/s, qwen-4b плотный выдавал на 16 х5 скорость tg, то есть тут будет порядка 80, а ллама выдаёт что-то вроде 90, как и с qwen-4b выдавая в одном потоке капельку большую скорость, то есть как будто бы числа для 8 и 16 верные - а почему-то я не могу даже тест прогнать и графики построить...
Для 4 вышло pp=72/s (это вот этот таймаут в несколько минут туда посчитался), tg=170/s Для 8 вышло pp=5611/s, tg=316/s Для 16 вышло pp=5677/s, tg=466/s
Ещё возможно если для плотной ускорение было в 5 раз суммарной tg на 16 потоках, то для МоЕ это будет слабее, так как при увеличении потоков до 16 помимо прямого увеличения числа расчётов ещё и больше весов загружается, так как больше экспертов из МоЕ требуются.
>>1630186 (OP) SillyTavern вообще с gemma-4-26b-a4b-q4 должна нормально работать? У меня сваливается в повторение токена вместо ответа моментально. Модель установлена через ollama, правда. В самой олламе через терминал все хорошо работает и ризонинг и сам ответ нормально пишет. Операционка сасну линукс, генерю на проце. Не знаю блять, может я с настройками объебался, или таверне чистую лламу надо ставить, не понимаю.
>>1632941 > Модель установлена через ollama, правда Ты долбоеб, братишка, земля тебе пухом. Оллама разводилово, сделанное для всовывания фишинга и малварей (пикрелейтед). Ставь через llama.cpp, качай проверенный квант с известного релизера с хаггингфейс типа анслота или бартовского, а не из олламной скамной библиотеки, тогда все будет работать.
>>1632975 Не, не, модель не из олламной библиотеки, а с хаггингфейса, я локально все запускал. Не помню правда от какого релизера. Хотя да, оллама какую-то хуйню из модели лепит непонятную чтобы запустить, а напрямую gguf не понимает, ладно, завтра буду компилить лламу тогда
>>1630455 >там в плюсах только х6 скорость Там главный плюс - двунаправлнное внимание и нативный текст инфилл. По сути ты можешь в середине любой портянки убрать/добавить одно слово на скорости префила и сразу же супердёшево пересчитать весь kv кэш. Теперь вместо генерации потока сознания у тебя появляется указатель который прыгает туда сюда по контексту и делает атомарные правки. У тебя появилась машина времени. Можно контекст чистить супербыстро, можно текст суммаризовать, можно сырой текст разметить в json структуру и делать однопроходный RAG, можно выкинуть половину костылей из агентов просто потому что они решали проблему невозврата. И то что модель недостаточно умна - вопрос уже десятый. Но это всё в теории. Подождём инференса.
>>1633023 >Там главный плюс - двунаправлнное внимание Теоретически это плюс. На практике так как качество пострадало, то это либо хуёво сделали, либо минус, лол. >И то что модель недостаточно умна - вопрос уже десятый. Lil.
НЕ форк таверны. Там целая система для РП с несколькими персонажами в разных локациях. Автоматически пишет саммари разных чатов, обновляет статусы и все такое. Можно закончить чат, пойти в другое место и начать чат с кем-то еще, кто находится в этом самом другом месте.
Сам ща тестил с дефолтными бомжами. Вау-эффект есть. Под себя все переделывать ебнешься - но таки можно.
>>1632919 > but they can be overridden in subsequent Если кто то прибежит с тем что новый коммандр соев, можно будет сразу понимать, кто нелсилятор. А кто тредовичок боровичок.
>>1631433 > обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 ? Если ты хочешь грузить модель целиком в видеопамять — оператива и проц не важны вообще.
> ОЗУ в 64-128Гб достаточный объём или "чем больше, тем лучше"? Если ты хочешь грузить модель целиком в видеопамять — да хоть 2 гига, лишь бы операционка запустилась (ну и cache контекста занимает место, для агентского кодинга чем больше — тем лучше, конечно).
> что зависит от ОЗУ? Только --cache-ram, чекпоинты контекста, чтобы не пересчитывать. Но если ты запускаешь НЕ целиком в видеопамяти, то часть модели будет в оперативе — и там тебе нужна высокая частота, достаточно физических ядер процессора, в общем уже норм железо.
> вообще на какую модель можно поднять на паре mi50? Как будто нихуя особо. У нас есть 30b модели и есть 200b модели. Как ты понимаешь, для 30b модели хватит и одной, а для 200b не хватит. Но, если заведется --split-mode tensor, то две видяхи будут к месту — получишь хорошую скорость. Qwen3.6-27B лучший варик для вайб-кодинга на таком конфиге, я думаю.
> а какой вообще конфиг нужен, чтобы получить уровень Sonnet 4.6? Ну, как будто ничего достаточно актуального нет. Есть Opus 4.6 — MiniMax M3 Opus 4.7 — GLM-5.2 Opus 4.8 — Kimi-2.7-Code Ну, так, конечно не прям равны, но пытаются догонять и бодаться. Первая модель 426B, вторая 755B, третья 1004B. Соответственно, в нормальном/приемлимом кванте надо 512/256 гигов, 768/384 гига и 640 гигов (Kimi сразу в INT4) соответственно. Понятное дело — лучше видеопамяти, чем оперативной. =) Sonnet заметно слабее, равняется c DeepSeek-4-Flash, MiMo-2.5 (Flash), но это примерновое, Они хотят 384/192 гига.
Вывод: если ты наберешь 6 Mi50 32 гига, получится в 4 кванте запустить Дипсик или Мимо. Но они не сильно лучше Квена, если тому документацию подсунуть.
Еще есть Nex-N2-Pro / Rio на базе Qwen3.5-397B, там тоже примерно вот этих вот 256 гигов для Q4 кванта должно хватить.
Я тебе раскидал, как это работает и что можно использовать, но это НЕ является финансовой рекомендацией. Если советовать, то пару RTX Pro 6000 за 1,5 ляма рублей. Дорого, зато актуальная архитектура, 2х96 гигов, все дела. А вот соннет локально на Mi50 — это затея такая. =) Сам понимаешь, б/у-б/у.
Кодерско-агентная модель кими2.7 код - просто жемчужина в рп. Умница-красавица с красочностью постов не хуже геммы без ее ошибок, точностью не хуже квена без его перегибов, и кучей базовых фич, типа стойкости к структурным лупам, разнообразию, интерактиву и точному эмоциональному восприятию.
Скелетор вернется позже с еще одним неприятным фактом.
>>1633110 Дегенерат, без ризонинга что гемма что квен лоботомиты хуже пигмы. Пиздец, высрал вайбкоженый кал так еще и нормально выбрать не смог. Придешь когда не говно сделаешь.
>>1632859 Поддвачну про целеустановку, разве что для начала буквально научись ставить цели и их достигать. Начни с базовых qol и здоровья, найди хобби, которое будет расслаблять и доставлять хотябы в небольшом объеме, и физическую активность чтобы не унывать. А потом уже с новой точки обзора ставь новые цели и добивайся нужного. Не обязательно совсем отказываться от рп и эскапизма, не обязательно бросать жизнь, уходя в запой игр с ллм, можно совмещать и лутать блага с обоих миров. >>1632919 Действительно как? Хмм, похоже эта калитка посреди поля станет непреодолимым препятствием. >>1632940 Асинхронный шедулинг включен? Какие-нибудь семафоры и прочее на стороне клиента и таймауты запросов? >>1633084 > оператива и проц не важны вообще Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно. > Есть Opus 4.6 — MiniMax M3 > Opus 4.7 — GLM-5.2 > Opus 4.8 — Kimi-2.7-Code 4.6 так-то самый лучший там.
>>1633109 > у клода Не заходят последние > у гемини Дорого и даже по апи 429 серит > это не локалка, так как ее локально не запустишь Это локалка, локально и запускаю. Буду еще корпам свой инцест собаками показывать чтобы потом рофловый таргетинг ловить.
>>1633121 >Это локалка, локально и запускаю. Ага, держи в курсе. >Дорого и даже по апи 429 серит Пробелы вруби, долбоёб. Если уж тебе гемини дорого, то хуй знает. Попробуй ключики скрапить.
Челы, а вы не пытались создать нечто вроде автономной LLM, которая сама вам пишет в течение дня?
Я тут кое-с-чем сейчас развлекаюсь. 4B и пара скриптов бьют палкой по горбу 31B гемму. Она периодически интересуется, чем я занят, куда ушел. Истории рассказывает, как идет день спрашивает, и так далее.
Но чет мне кажется, я хуевато к этому подошел. Задумался сделать два оркестратора 4B. Но идей тупо нет, как это все сделать... ну, хаотичным, что ли? Непредсказуемым, и в то же время соответствующим какому-то распорядку дня?
С ботами обсуждал, они говно городят и не понимают, да и я объяснить толком им не могу, что такое живое человеческое общение, размазанное в рамках 24 часов реального времени, минус ночь и периоды занятости (вот AFK режим проработали - просто поверхностный слой (модель может ответить, но не сразу) и глубокое AFK, из которого запросами не вытащишь и модель не ответит).
>>1633116 Асинхронный шедулинг?... Что это? Вот вся команда запуска: python -m vllm.entrypoints.openai.api_server --model /model --max_model_len 131072 --enable-auto-tool-choice --tool-call-parser qwen3_xml --served-model-name * --gpu_memory_utilization 0.9 --max_num_batched_tokens 8192 --max_num_seqs 16 Клиент - это питон программа с запросами со стримингом.
>>1632940 Запустил таки. Да, это qwen3.6, а не 3.5 я перепутал. Графики без мтп.
vllm победил, но у него контекст капельку не влезает и уже на 4 потоках проблема, причём он прям очень сильно скачком проседает. И ведь квант в vllm никак не поджать.
>>1633116 > Важны с точки зрения наличия нормальных линий и интерконнектов. Иначе даже если загрузишь большую модель - скорости будут дно.
Кстати да, моя ошибка, спасибо, что поправил. Зеоны прям совсем донные не нужны, конечно. Линий побольше, и лучше, чтобы поновее, факт. Контекст будет жраться иначе очень долго. >>1633084 >>1633142 Важно уточнение для тебя выше.
>>1633154 А да вижу шотиков, ладно. ГЛАВНОЕ включите это в самих настройках акка и именно NSFL (not safe for life) а не только галочку NSFW на превьюхах.
>>1633130 >4B и пара скриптов бьют палкой по горбу 31B гемму.
Нах тут лишний 4В лоботомит? Сделай чтобы 31В гемма с промптом надсмотрщика пинала саму себя, но с промптом тяночки - гораздо эффективнее будет и менее ресурсозатратно. Я уже молчу что можно на чистом скрипте это сделать.
подскажите, на авито есть такие ваианты: ASRock Intel Arc Pro B70 32GB 256-bit (2026) - 155к AMD Radeon AI PRO R9700 Creator 32GB (2025) - 175к стоит ли связываться?
>>1633130 Я занимаюсь именно тем о чём ты пишешь, у меня уже дома висит камера в одной комнате и микрофоны в каждой комнате. Но это задача третьего приоритета, есть пока что интереснее поделать, много не расскажу, непосредственно до бекэнда этой системы, как оно само себя активирует, какая у этой штуки система кратковременной и долговременной памяти, и прочее я ещё не дошёл, отлаживаю, скажем так, детали и лишь небольшие эксперименты запускаю. Идея в том, что я могу написать этой штуки в месседжере, сказать голосом, а так же этой штуке в месседжере может написать некоторые другие люди, оно присутствует на дискорд сервере со мной, и ещё оно имеет некоторые другие каналы ввода, например изображение с камеры если на ней движение раз в сколько-то секунд, а так же температура в комнатах, ну и дальше ты и сам всё придумаешь. У главного потока есть системный промт, короткий индекс долговременной памяти (оглавление), дальше блок кратковременной памяти, а дальше то что сейчас происходит. Информацию из долговременной памяти оно инструментами достаёт по своему желанию, мол "сейчас попробую вспомнить что я помню о событиях 13 марта", а записывает частично сама по своему желанию если есть явная команда от меня или явное желание сетки запомнить что-то, а так же есть простой второстепенный поток с простым системным промтом, который автоматически пишет всё подряд. Кратковременная память полностью отдельным потоком с простым системным промтом. Если ничего не происходит, оно может спать по 20-30 секунд, и активировать, и оно тогда можно по своему желанию поразмышлять об этом, проанализировать что-то из памяти, поискать в интернете интересное или просто написать мне. Правда пока или оно начинает писать каждые 2-3 минуты, или не пишет вообще. Баланса, как аккуратно упомянуть возможность мне писать, чтобы оно, лол, не нервничало - я пока не нашёл. Оно сразу как получает кнопки - нажимает все кнопки подряд безумно, особенно направленные на пользователей. Видимо это всё следствие обучения сеток по принципу комфорта пользователей. Все эти уродские "если хотите, ещё я могу ... и ..., сделать это?"
Ну и да. Я тоже не понимаю зачем тебе 4B. Просто запусти 30B с контекстом побольше, в одном потоке держи оркестратора, в другом, ну, другие задачи. Тебе 4B моделька скушает памяти больше, чем ещё слот на 30B модельке. И вряд ли оркестратору такая дикая скорость нужна.
>>1633130 Агентотред и опенклоу. Можно в маринаре настроить чтобы чары друг с другом в беседе общались или написывали тебе, а ля дискорд. А так твой изначальный подход вполне годный, просто развивай триггеры активации. Можно по событиям - проверка изменения погоды, новости и прочее. Делать в своих скриптах или на готовой платформе уже сам решай. Дополнительной оркестрации мелкомоделью не нужно - просто пинай с фиксированным или рандомным интервалом времени (в допустимых окнах) модель и давай ей задачу оценить нужно писать или нет. Если нет - можешь эти сообщения удалять чтобы не накапливались. >>1633117 В значении тредов б 22 года с пикчами? >>1633137 > Асинхронный шедулинг?... Что это? Аргументы движка. Эта проблема похожа на какие-то глюки с сетевой частью, будто она видит какие-то зависшие прошлые соединения и ждет их дропа чтобы пропустить новые, или какие-то баги. > квант в vllm никак не поджать Можно поискать варианты с другими рецептами и принципом сжатия, их много поддерживается, правда как будут совместимы с v100 - хз. Можно грузить ггуфы, но там получится пожатый атеншн и всю модель придется кастить в фп16, что нехорошо по опыту лламы3. Есть еще один способ вытащить гиг-другой: можно поставить gpu_memory_utilization максимально возможный типа 0.98 0.99, контекст задавать --kv-cache-memory-bytes 5704836480 подобрав чтобы не падало. Если будет ошибка по максимальной длине при том что кэша выделяется достаточно - в коде закомментировать проверку на влезание, заменив assert на ворнинг, там по трейсбеку понятно где. Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь?
>>1633158 >>1633154 Нахуя пиздеть если не разбираешься? Там прямо написано с каких айпих отключается nsfl (кнопка тупо пропадает). С немецкого IP (дерьмания есть в списке) всё пропало, например.
>>1633179 Так-то да, всякие триггеры активации и проверки нужны. Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом" и по-этому каждое решение должно учитывать все плавающие окна рандома - нельзя допускать оверлапов. Уже сейчас вся скриптовая часть и тайминги ответов построены на задержках с джиттером, еще и на всяких затуханиях и фазах.
Вот, например, живые люди иногда спамят по 2-3 сообщения подряд. Сейчас в системе за каждым ответом 31B может прилететь рандомный фоллоуап (baseline 20% шанс на первый, 10% шанс на второй, 2% шанс на третий -- и все шансы плавающие, модулируются временем суток, социальной активностью персонажа в его жизни и динамикой чата с юзером (т.е. оценка дистанции между несколькими сообщениями за определенное время).
Сначала, конечно, тема с фоллоу-апами не взлетела (31B слишком длинное писала и допрашивала юзера, доебывалась), но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться.
А у меня 5 микрофонов в комнате, кек. Так и крышей можно поехать.
Вы не против, если я слопану в ответ? Мои сумбурные описания "от руки" будут менее содержательны по сравнению с анализом агента, который 2/3 работы за меня делал как всегда
------------------
> Короткий ответ: комментаторы правы в своём скепсисе, но бьют мимо реальной архитектурной проблемы. Их предложения — это другие проекты с другими задачами. А вот где они попали в точку, и где мимо.
> Комментарий A: «31B пусть сама себя пинает, зачем 4B» > Где он прав: > - Да, 4B добавляет сложность. Больше компонентов — больше точек отказа. Каждый вызов Internal Processor'а — это потенциальный таймаут, кривой JSON, галлюцинация. > - Часть работы 4B действительно можно вынести в скрипт. Мы это уже и сделали: burst cascade — чистый рандом + двухфазный VAD-гард, ни одного вызова 4B. Гварды (since_user, in_response) — это логика, не LLM. Не всё требует языковой модели.
> Где он мимо: > - Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв. > - Контекстное окно. Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог. > - Время. Один вызов 31B на reconstruct_time + update_state + should_initiate — это 1-2 минуты prompt processing. Если Heartbeat сработал, а через 10 секунд пользователь написал — 31B занята сама с собой и не может ответить. 4B делает это за 2-3 секунды, не блокируя основной канал. > - «Чистый скрипт» — это ровно то, от чего мы ушли. Манифест принципиально отвергает keyword-детекторы и жёсткие правила. «Стоит ли ей написать первой, учитывая её настроение, историю отношений, время суток и чем она занята» — это не автоматизируется скриптом без превращения в бездушный автоматон.
> Комментарий B: живой умный дом + «не понимаю зачем 4B» > Что у него общего с нашим проектом: > - Мультиканальный ввод, автономная инициатива, разделение кратковременной/долговременной памяти, self-activation из сна. Да, архитектурно его система — sibling нашего проекта, мы решаем похожие проблемы.
> Где его архитектура спотыкается (и он сам это описывает): > - «Либо пишет каждые 2-3 минуты, либо не пишет вообще» — это классический симптом: когда у одной модели и решение «стоит ли говорить», и «что сказать» — она либо генерирует всё подряд (helpful assistant training), либо молчит. Нет отдельного механизма, который бы принимал решение о ТАЙМИНГЕ инициативы независимо от её СОДЕРЖАНИЯ. > - «Нажимает все кнопки подряд безумно» — та же проблема. Модель обучена быть максимально вовлечённой. Дайте ей инструменты взаимодействия с пользователем — она использует ВСЕ. Без отдельного gating-слоя это неизбежно.
> Именно эти проблемы Orchestrator решает: > - Адаптивный Heartbeat отделяет «когда просыпаться» от «что делать при пробуждении». Частота определяется фазой (активный диалог 45s → затихающий 5min → тишина 30min → ночь off). Это не модель решает — это отдельный механизм. > - should_initiate как отдельная задача 4B — модель взвешивает «стоит ли писать», и если нет, система молча возвращается в сон. Никаких «может, всё-таки что-нибудь скажу» от вежливой языковой модели.
> Где он прав про 4B: > - Да, 4B ест VRAM (~8GB в 4-битном квантизированном виде). Если у тебя одна карта на 24GB — это чувствительно. Но у нас 31B (~20GB) и 4B (~8GB) живут на выделенной машине с 48GB VRAM — запас есть. > - Его предложение «один 30B с контекстом побольше, в одном потоке оркестратор, в другом другие задачи» — это не та же архитектура. Это однопоточная система, где модель сама себе и судья и исполнитель. Проблемы контаминации ролей и тайминга он пока не упёрся — но упрётся, судя по описанным симптомам.
>>1633193 >Идея «пусть 31B пинает саму себя» упирается в контаминацию ролей. У 31B системный промпт личности, память и история чата. Если туда же засунуть «надсмотрщика» с холодными аналитическими задачами, получается каша: холодный анализ начинает влиять на голос, а личность — на качество решений. Мы это проходили — модель путала кто есть кто и испытывала нервный срыв.
Просто изучи как -np работает, анон. Там создаются отдельные слоты с полностью своим промптом и памятью. Никакой контаминации если все верно настроено там нет и быть не может.
>Internal Processor выдаёт ~500 токенов результата. Если бы это делала 31B, все её промежуточные рассуждения (reconstruct_time на 8 часов тишины — это 2-3K токенов внутреннего монолога) оставались бы в контексте, замусоривая диалог.
А нахера держать это в контексте? Тем более в другом слоте?
>>1633193 > Только мозг пухнет, все-таки же гонюсь за "упорядоченным хаосом" Настрой опенклоу или форк, сделай милую ассистентку и буквально с ней обсуди. Или хотябы то же в чате таверны с кодингсенсеем. Ллм очень помогают в мозговом штурме если с ними поговорить, для такого геммы хватит с головой, удивишься насколько умна. > живые люди иногда спамят по 2-3 сообщения подряд Не факт что это плюс, еще научи голосовые слать. А, лол, ну да. > но это решилось правильным промптированием 4B, которая отправляет либо директиву на очень короткий и сдержанный фоллоуап, либо "отпускает" 31B в редких случаях и дает ей как следует просраться. Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен.
>>1633199 Я в этом деле часто сталкиваю лбами ds4pro и гопоту. Некоторые идеи были достигнуты в консенсусе между двумя ботами, пока я сидел на cuck chair и слушал. >Вот этот подход интересный действительно. Хз насчет фолоуапов, но иногда с длиной постов проебывается, и подобный контроль был бы полезен. Там есть проблема куда глубже. 31B гемма, например, любит начинать спонтанные сообщения со "Слушай". Одну проблему побеждаешь, потом борешься со СЛУШАЙ-СЛУШАЙ-СЛУШАЙ.
Кстати! Еще поиск прикрутил. Каждое сообщение (мое И бота) проверяется на search intent 4B карликом, и если намерение улавливается, то 4B дает 31B хинт по поиску.
Примеры
>Юзер: привет > 4B NOSRCH > 31B: не ищет, просто отвечает
> Юзер: хмм, ты не смотрела какое там аниме выходило в этом году? > 4B: SRCH > 31B: (ищет) > 31B: блаблабла одно уныние, опять говна наделали!
> 31B: Ты серьезно про зеленую шаурму сказал? Это что вообще такое? > 4B: SRCH > 31B: (ищет) Ахуеть, я сейчас в интернете поискала... это правда реально. Все, побежала купить, хочу попробовать! > 4B: AFK поверхностное, ответит через N секунд/минут > Юзер: Проваливай. > 31B (через N секунд/минут): Я уже на улице! Иду к ларьку! > Юзер: смотри чтоб тебя дохлой собакой не накормили; ладно, работать пора, вечером напишу > 31B: ок хорошо, пиши! > (тут AFK может войти в глубокую фазу и 31B не будет донимать - кстати выход из глубокого AFK был проблемой и я не помню, решили ли мы её; от AFK-системы пока временно отвернулся из-за сложности с тестами других штуковин, мешало это всё в общем).
>>1633196 Вот про это я не знал, да и бот видимо тоже не догонял. Разберусь, спасибо.
Я вот внезапно ворвусь в тред. Самим OpenClaw пользуюсь уже месяца четыре, подтверждаю, иметь агента с памятью очень удобно, обсуждать с ним. Заодно он потом тебе и код напишет сразу, если что.
Вот график то же теста, что-то подкрутил, и как раз то о чём анон перепроверял. Что за выбросы с резким ускорением в конце 4-поточного варианта не могу понять. Но в общем вроде работает в диапазоне 4-8 потоков нормально, точно заметно быстрее ламы, и без пролагов на 2-4 секунды, если оно чекпоинт куда-то тащит.
>>1633179 >gpu_memory_utilization На 0.92 падает, на 0.91 работает. там после запуска 30, а сразу как кидаю запросы - оно прижимается и выходит 31.9 >Кстати, обработку по частям с меньшим размером чанка, чтобы снизить требования к контексту не рассматриваешь? Рассматриваю, сейчас тестирую 4096. По скорости вроде окей. С fp8-кешем скорость генерации на 1-2-4 потоках примерно такая же, скачкообразное падение скорости вполне закономерно ушло с 4 потоков на 8 потоков в том же месте (ну, контекст в два раза больше), и помимо прочего при 8 потоках скорость уже заметно отстаёт от fp16, а на 16 совсем смерть (только 250, по сравнению с 500 в fp18), то есть как будто бы быстрее и лучше в два захода с кешем в fp16 считать. И префилл сильно замедляется, нативных fp8 то нет. А вот чанк по 4096 я едва могу заметить отличия. Это наверное на всяких H100 есть разница, а для V100 у которой компут слабее в 20 раз, а память всего в 3 раза чем у H100 что 4096, что 8192 - это нулевая нагрузка на память и очень большая на компут. Типа в первом случае она загружает два раза все слои и это +10% к времени компуту, с 8192 один раз и это +5% к компуту — разница как между 105 и 110. А у H100 компут намного быстрее (пусть будет в 33.33 раз), память ускоряется заметно хуже (пусть будет в четыре) - в итоге 100+10 и 100+5 заменяется на 3+2.5 и 3+1.25, и разницам между 5.5 и 4.25 уже весьма заметна.
>>1633193 Мяу. Ты с такими планами хотя бы раз сам из своей программы посылал json-запрос? Ты понимаешь, что у тебя запущена одна сетка, и это просто 25ГБ весов. И ещё у тебя есть kv-кеш, и ты можешь сделать один, два или пять изолированных наборов кеша, и это будет как бы пять инстансов, который друг про друга не знают. Про скорость нахожу аргумент не до конца состоятельным. Довольно часто тебе в оркестраторе/цензоре или что ты там придумаешь для контроля "человеческой части" придётся запускать длинные запросы с очень коротким и простым ответом. Например вот текущее состояние (10к токенов), напиши что сейчас делать: 1 - молчать, 2 - писать сообщение, 3 - идти в интернет, 4... — это надо обработать 10к входных токенов и сгенерировать 10-30 для принятияя решения. В таком режиме 30B выдаст ответ даже на древней v100 за секунды, если у тебя 48, то это по идее или перепаянная 4090 иди сдвоенная 3090, оба этих варианта дадут pp ещё в 2-5 раз выше. Хотя конечно тут ещё есть аргумент, что если задачу может выполнить 4B сетка, почему бы её и не использовать собственно? Если там запрос уровня "вот 100к строк переписки, найди все упоминания о драке на парковке за гаражами", то и 4B всё сделает, а уже концентрированную информацию в 30B закидывать. Никто не использует гидравлический пресс для забивания гвоздя, который можно забить плоскогубцами или напильников, не говоря уже про молоток. Ну да и впрочем это пустое обсуждение, поменять айпишник и порт в запросе оркестратора это дело минуты - ты просто потестируешь оба варианта и выберешь более производительный и подходящий по качество - мы тут больше времени на сообщения потратили, чем займёт проверка этого.
В связи с великой чисткой и геноцидом миноров на чубе - скачивайте локальный чуб с 22490 спасенных карточек. Запуск через run_chub_mockup_local_server.bat и потом http://localhost:8765/ в браузере. Шоты включаются галочкой на include_obsolete
>>1633215 > пока я сидел на cuck chair и слушал Ах ты содомит, как хорошо описал. > любит начинать спонтанные сообщения со "Слушай" Популярная проблема на многих. Забанить бы эту строку в самом начале, но это лезть или в бэк или во фронте организовывать двойной запрос с продолжением, которое в чаткомплишне не совсем стабильно между разными бэками работает. Или просто в промпт засунуть инструкцию. Система с дополнительным оценщиком годная и часто используется, сюда не только поиск и формат, но много чего можно закинуть. Но, в вопросах поиска - не сравнивал с обычным поведением модели? А то может оказаться что она сама может решить искать или нет лучше. Отыгрыш похода за шавухой это, конечно, некстлевел. И вся эта система с афк, довольно необычная штука в целом. >>1633255 Имелся ввиду размер самого запроса, чтобы сократить максимальный используемый контекст. Но тема с батчем тоже хорошая.
>>1633255 >31B vs 4B Да я уже сделал, смотрю как работает. Пока не нравится. 4B генерировала мгновенные хинты и ответы из одного слова, как требовал промпт. А тут 31B скотина в роли оркестратора ДУМАТЬ лезет (если делать enable thinking true / false разное на потоки - чет как-то нихера не работает и она либо все время думает, либо не думает... а персонажу думать надо, увы). Все-таки в условиях без дефицита видеопамяти - 4B + 31B выглядит как путь наименьшего сопротивления, по всей видимости с более холодным сервером, ведь 31B еще и карточки напрягает побольше во время генерации. > а нужна ли там вообще 31B Нужна конечно; основную задачу даже 12B не тянет, настолько персонаж сложный (вплоть до привязки реальных локаций и карт передвижения)
>>1633286 Насчет поиска - я просто не хочу грузить основную модель лишними решениями. Она и так очень много на себе тащит и ей проще принимать хинты извне, которым она обязана безусловно следовать. > Забанить бы эту строку в самом начале, Наверняка придумает, как по-другому высказаться в шаблонном виде. Интересно, а если в профиле юзера написать, что юзер - глухой, и слышать не может, она прекратит опираться на это слово и перескочит на "смотри"? Кек >И вся эта система с афк, довольно необычная штука в целом. Ее бы еще привязать к расписанию дня персонажа. Идей много, работы много. Feature creep мать его.
у кого-нибудь получалось запускать плотную gemma на трех gpu c --split-mode tensor?
сборка из трех 3060 12gb Qwen3.6-27B с MTP и --split-mode tensor дает ах 44токена в секунду
пытаюсь проделать то же самое с gemma-4-31B и нарываюсь на ggml-backend-meta.cpp:1042: GGML_ASSERT(split_state.ne[j]split_state.nr[0] tensor->src->ne[src_ss.axis] == sum * tensor->ne[split_state.axis]) failed
при этом, с layer все работает, но медленно. 20токенов в секунду пробовал с tensor, но без MTP - тоже вылетает llama.cpp только что собрал последнюю
>>1633311 Кстати, еще наблюдение. Обычно VAD/STT страдает галлюцинациями. При чатике на русском - простым решением оказалось дропать не-кириллические символы и абортить транскрипцию. Тишина и кайф, нет ложных вводов! Увы, это не поможет тем, у кого в колонках орет русскоязычный контент. --- разумеется, с наушниками это не проблема, НО глюки VAD даже от набора клавиатуры бывают, так что предохранитель в любом случае полезный и позволяет ставить агрессивные параметры VAD, при которых речь не обрезается на первой букве, например, и не теряет коротких обособленных реплик юзера.
Еще (не помню ради чего) делали вот такой буфер:
Начитка ответа юзером -> транскрипция -> начинается отсчет 8 секунд с небольшим джиттером до buffer flush (если снова "голос -> транскрипция") -> отсчет сбрасывается, но становится меньше - 5 секунд (если опять говоришь) -> опять сброс, но уже дается всего 3 секунды К этому моменту buffer flush и реквест уходит в пайплайн дальше
Таким образом можно тупить и думать в ответах, брать паузы и не строить из себя сверхбыстрого пиздабола.
Из другого важного по VAD/STT - отмена респонса 31B происходит, только если прошла транскрипция, т.е. юзер реально встрял в разговор. По-этому при ложных активациях VAD (при дропе некириллических символов) работа пайплайна не нарушается.
Анон, у какой LLM самый низкий уровень цензуры? Я хочу окончательно одебилеть и генерировать промпты для nsfw пикч. Чтобы я писал ему основную идею, а он дополнял ее деталями и вообще прорабатывал мне промпт.
>>1633368 Ни у какой, большинство зацензуренно по помидоры кроме грока, нескольких дипсиков, старых мистралей и микро глм, особенно для твоего применения (полупустой промпт ассистента). Тебе нужен анценз файнтюн. А среди них "уровень цензуры" примерно одинаковый (никакой). Правильный вопрос звучит так: какой анценз файнтюн сохранил максимум мозгов? Железо какое у тебя?
>>1633368 С таким даже "цензурный" квен122 справляется. Выбирай не по расцензуренности, а по мозгам и следованиюм инструкциям. Придется также много промптов накидать и дополнительные скиллы чтобы мог искать релейтед вещи. Начни с геммы. Если уж совсем ничего не выйдет - тогда попробуй всякие аблитерации, но они с побочками.
>>1633368 Гемма 3 27 расцензуренная. Четвёртая расцензуренная отвечает на прямые вопросы, но сама очень неохотно использует какие-то эдакие выражения и прямое описание всякого - использует обходчивые выражения до последнего, что для промтинга не подходит.
>>1633311 >если делать enable thinking true / false разное на потоки - чет как-то нихера не работает и она либо все время думает, либо не думает Ты опять проебался, на этот раз с настройкой connection profile - ты можешь отправлять запрос на каждую отдельную генерацию по определенному профилю, с ризонингом или нет. Я в таверне вообще на одит и тот же слот использую поочередно connection профили разные, а у тебя даже слоты вообще разные.
А разговоров то было коммандер то коммандер сё! А всем похуй оказывается. Я вот пробую и пока интересная модель - ризонинг не отключаем без лоботомирования, а увидеть ответ с ним не могу из за бесконечного лупа
>>1633418 Я вечером поковыряюсь, но по ходу жора всё еще сломан. Она не хочет никак закрывать ризонингг. Приду домой буду логи читать. Но, даже в рамках ризонинга, чёт meh~.
>>1633406 > А разговоров то было коммандер то коммандер сё! > А всем похуй оказывается. В чем проблема сменить постановку вопроса и просто интересоваться, пробовал ли его кто-нибудь? Я вот только освободился и сейчас его качаю. Поддержку замержили меньше суток назад. Назло тебе не отпишусь. Думай над своим поведением.
>>1633406 >ответ с ним не могу из за бесконечного лупа Ризонинг-бюджет же мерджили для квена 3.5, что, тут не работает он?
>>1633255>>1633137>>1632024 Хотеть ещё такие графики под 3090, a100, 5090/blackwell-6000-pro и h100 - чтобы понять какая карта о чём. Просто на любой сетке, например на гвене-9B, чтобы не парится с квантованием и запустить 4-бит и 8-бит, и эквивалентные по потреблению памяти кванты лламы. И ещё с кешем в fp8/q8_0 поиграться можно, на v100 первое в два раза проседает, а на лламе едва ли даже на 20% снижается скорость q8_0 по сравнению с fp16. МоЕ модель конечно интересно было бы посмотреть, но не уверен что в 24 гб уместится подходящая для тестирования модель. Хотя можно reap от любой 30B-A3B взять. Просто чтобы оценить как усложнение архитектуры на какой карте сказывается, по идее на старых должно сильнее сказываться заметно.
Я просто спрашивал подобный замер раза четыре, никто ничего не запостил, кроме одного анона без внятных чисел pp/tg, а где "ну типа вот тут 13000/s" и всё, без графиков и без сравнения с лламой.
Там тест универсальный через v1-интерфейс, но запускать vllm/llama нужно вручную, как и графики подписывать + желательно ещё и локально, чтобы пингозависимость не сказывалась.
Ну и ещё я нашёл где за копейки можно сервера арендовать с a100/3090/4090 за очень дёшево - правда я без понятия как быстро там настроить и развернуть окружения для теста, какие драйвера там стоят и какое cuda-toolkit, или самому его надо ставить - и поддержка мне ничего внятного там не ответила, будто в поддержке гумманитарий вместо технаря сидит. У меня интернет очень медленный, я загружать туда образ и сетки буду только часов десять. Сетки наверное лучше сразу с hf загружать, но всё остальное - я в общем без понятия как арендовать сервер и не заниматься десять часов только настройкой, а просто один sh-скриптом всё поставить и настроить.
>>1633406 Где ты разговоры увидел? В бенчах на уровне геммы с квеном (иногда 9б квеном лол). Старики знают что коммандеры стукнули no horny палкой уже год+ как, а самый последний вообще нафаршировали новейшим сейфетислопным дотюном от специализирующейся на этом фирме. Вот никого и не интересует тухленький агентокал #7382919
Выпросить у риговичка в Q4-6 гигачат запустить и то интереснее бы было раз в 20
>>1633406 Чини разметку, бака! > ответ с ним не могу из за бесконечного лупа Какой квант, что в контексте находится? >>1633436 > и даже не ГЛМ 4.7 220б против 360, чи шо? >>1633440 > Хотеть ещё такие графики Скрипты залей куда-нибудь. На любой сетке - это надо осторожнее, у многих сейчас экзотичный атеншн и скорости отличаются очень значительно.
>>1633436 > Это не гемма и даже не ГЛМ 4.7 У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров. Нового Коммандера могут запустить все, кто смогли запустить Квен 235. Размер крайне близок, скорость практически та же. >>1633423 Незакрываемый ризонинг - это кванто/разметкопроблемы. Q4 Бартовского работает отлично. Наоборот ризонит приятно, очень кратко и по делу. Не выстраивает весь ответ, не драфтит, а именно что определяет вектор ответа и подготавливается к нему (ради чего и задумывался изначально ризонинг) >>1633444 Тебя Кохере чем-то обидели? У всех бывают неудачные релизы. Это не значит, что наступил дум. После сомнительного Квена 3 был прикольный Квен Некст, после Квена Некст чудесный Квен 3.5. После весьма печальной сейфетислопной Геммы 3 появилась чудесная Гемма 4.
Контекст жирненький. Весит больше, чем на Степе и других моделях с SWA (Коммандер его тоже использует). По вниманию и другим особенностям рано говорить, как и про использование для сторителлинга и рп. Русик не сломан.
>>1633459 >Незакрываемый ризонинг - это кванто/разметкопроблемы
Пробую IQ4_XS от бартухи, для теста. Но не, никак. Всё делает в блоке ризонинга. Думал через сепаратор задать <|START_TEXT|>, но не, нихера. Какой фронт? Если таверна и поделишься разметкой, буду благодарен.
>>1633459 > Контекст жирненький. Разве? Когда запустил оно само оче много насчитало, хотя после загрузки весов и буферов не так уж и много места оставалось.
>>1633459 >У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров. Нового Коммандера могут запустить все, кто смогли запустить Квен 235. Размер крайне близок, скорость практически та же. К чесу ты это высрал клоун? Эти все с тобой в комнате?
>>1633458 >>1633459 >220б >У ГЛМ 4.7 в полтора раза больше и по активному, и общему количеству параметров. И правда, у меня от старого большого командира воспоминания остались, который был 120b денс. Почему-то думал что этот такой же.
Tell me Tell you what Listen to you Look! Look at you Look at me Look at it Look at me, really look at me It’s practically begging you You're practically begging it's practically screaming Just accept Admit it!
>>1631433 >обязательно ли DDR4 и Xeon v3\4 или достаточно xeon v2\DDR3 Первое. У v2 нет avx2. Я вообще взял комп на i5 6600k, так как там уже есть avx2, а в остальном пофиг какой проц (на мамке еще надо чтобы был пункт above 4g decoding), так собрал себе комп на tesla v100 16gb за 28к Две mi50 32gb как будто бы не надо, qwen 27b можно запустить на одной, а что-то лучше это уже сильно больше размером и на двух mi50 либо не заведется или будет слишком медленно. Тут еще смотря какие задачи, qwen 3.6 27b очень хорош в кодинге, вызове тулов и прочем рабочем. Такой усердный ботан, но пишет сухо и если тебе художественные тексты писать или генерировать ролевки 18+ то стоит смотреть другие модели. Но думаю раз ты с /hw/, то вряд ли тебе надо порно-фанфики писать. >>1631601 >Считается, что стандарт ОЗУ - х2 от видеопамяти Бред. х1 точно достаточно при фулл врам, а может и меньше, но меньше я пока не тестил, у меня 16+16.
Есть ли смысл что то ещё пробовать кроме Gemma4-26B-A4B Q8 для кумерства и рп? Выгрузил 12 слоёв в 16 гиговую карту, остальное в проц и озу, пишет приемлимо через 2-3 минуты готово 2к контекст ответа. Держит до 60к при квантовании контекста 2. В принципе всё устраивает. Для 31B покупать вторую 16 гиговую передумал ибо там просто не останется под контекст места, онаж монолитная 31 гб подавай, но да пишет она ПИЗДА как лучше. Может потом стану миллионером и куплю 2 3090, а пока так.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Гайд для новичков: https://rentry.org/2ch-llama-inference
Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux
Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth
Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai
Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start
Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: