В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1625000 → мне кажется хуйня идея с тегами. 14к тегов ты ебанись это неюзабельно лучше считать эмбеддинги и по ним искать. а теги оставить чисто для категорий. хз есть ли готовые решения мб аноны подскажут
Оп, ну Оп. Ну какого хуя. > Неофициальный гайд для новичков > Неофициальный Просто гайд от тредовичка. Нет блять, сейчас к Абу пойдем его заверять, чтобы макакич печать поставил.
>>1625015 А вдруг завтра гайдоделатель напихает туда фотки хуёв? Неудобно будет. Да и словоформы "официальный" звучат солидно, как будто порядочный ресурс же.
>>1625010 >ограничиться именно ездой на велосипеде, без обсуждения специфики кручения педалей this is you локалки были созданы для кума, все иные применения - извращения
>>1625014 В общем попробовал пока что с флешкой для теста, на 32 кадра видео вышло 168 секунд(с учётом 13 неудачных попыток). 5 секунд на кадр в среднем. Это в видео ещё одна сцена только вышла...
Может и правда поумерить свой пыл и взять только общее без частного с которыми локальные уже хорошо справляются. А то у меня часто вот такое случается что надо сделать не просто, а непросто.
>>1625026 Это для усреднения, брал 8 ключевых кадров и чуть сдвигал для каждого случая прося модель расставить теги, потом усреднял. По качеству получилось отлично.
>>1625010 >без обсуждения специфики генерации срамных текстов Лично я через гемму пишу диплом, она отлично работает как суммаризатор для статей + вижен для описания и анализа графиков самое то. Но кому это нахуй интересно? Даже мне это нахуй не интересно. Лучше бы сидел и залупу в пыль стачивал. Или читал как кто-то другой стачивает.
Суп можно несколько тупых вопросов? Скорость 3 токена в секунду медленно? Нормальная чтобы можно было болтать в районе 30-50? У меня ноут и я прикинул что нужно брать чтоб пользоваться нормально Как можно верить, если дипсик или qwen постоянно делают ошибки и потом оо точно ты был прав?
>>1625053 Собери нормальный ЛЛМ сервер. Какая-нибудь майнинговая говно-мать с кучей псин + 2-4 видеокарточки. Которые тихие и которые потянешь.
>>Как можно верить, если дипсик или qwen постоянно Ты их квантани до 1 бита они тебе еще теорию большого взрыва придумают. >>чтобы можно было болтать Дрочить ? Ты ведь точно хотел сказать дрочить через таверну. Если с думалкой то токенов 17 в секунду с выводом на русике это минимум чтобы член не опал. Если без думалки то 9-10
>>1625085 >до 1 бита Да выбрал вроде 4 бита, и он ошибается и косячит но в целом нормас Да дрочить, ну на ноутбуке и нормальных моделях я хуй такой скорости добьюсь, буду покупать пк для начала а там посмотрим спасибо аноны
>>1625053 >Скорость 3 токена в секунду медленно? Смотря под какие задачи и как сильно ты торопишься. Но по факту да, медленно. >Нормальная чтобы можно было болтать в районе 30-50? Зависит от твоей скорости чтения. И от того включена ли думалка, как анон выше сказал. Для ролевушек на английском комфортный минимум это токенов 8 в секунду. На русском, учитывая что некоторые слова токенизируются кусами по три-четыре токена, лучше больше.
>что нужно брать чтоб пользоваться нормально Из нового 5060TI на 16 гигов и оперативки минимум 32, процессор на сдачу.
>>1625088 >вроде 4 бита >ошибается Пикча в начале треда дана не просто так. Наиболее сильно в модели впечатан кодинг. И скорее всего на чем-то популярном- питон, JS, html. Так же для кума многие качают "АПАСНЫЕ" модели у которых при аблитерации могли побиться не только вектора рефьюза. Но и вектора отказа вообще т.е. модель не говорит НЕТ если чего-то не знает, а выворачивается через галлюцинацию. Просто для рабочих чатов и контекстов не надо использовать - кум-модели.
>>1624898 → Спасаем бандитов от еот. Только сначала еот нужно заромансить и не рипнуться во время этого и продвижения по основной арке сюжета. >как локалки обрабатывают упоротые механики и правила вселенной, ежели таковые наличествуют Просто и играючи если локалка достаточно большая конечно же. Вообще, с этим и гемма справляется, но она уныло держит душный контекст и лениво отыгрывает чара. >>1624916 → Какой пиздец. Но зато надежда на 120б всеже есть. >>1625010 Неразрывно связано.
>>1625094 Я зафиксировал анон спасибо >модель не говорит НЕТ если чего-то не знает, а выворачивается через галлюцинацию. О дааа, давно замечал что он любую ситуацию показывает только в хорошем свете для меня и не отказывает
Как же я затрахался. Дауны на олламе опять поломали инстал, и теперь нужно пердолится чтобы хотя бы опенвебуи заработали.
В общем, реквестирую у знающего анона нормальный вебуи, чтобы можно было нормально цеплять жору в режиме роутера, и другие бэкенды, чтобы были всякие раги, саппорт мсп, какие-нибудь агентные фичи. Я просто хочу уже, чтобы все было в одном месте, и не приходилось постоянно переключаться между вкладками и окнами.
Не ждём, а готовимся. А я ведь предсказал... >>1624921 → Сжалятся. Выкатят. Потом я выкачу. Потом раздам всем знакомым. Все знакомые выкатят. Будем год выкатывать на гемму.
Я никогда не занимался рп с моделью, но хочу попробовать. Разве нельзя просто вписать всех персонажей, вводные, предметы в файлик тхт, загрузить в вэб версию нейросети и отыгрывать? Я понимаю что цензура и все такое, но так проще и в некоторых случаях, например с дипсиком, должно выйти интересно.
>>1625083 Не умнее, в пределах одного поколения модели чем больше параметров тем она умнее 31b>26b>12b>E4B>E2B. В новом поколении gemma 5 условно так бы может быть и было
>>1625210 Зачем? Новая Гемма тупее их МоЕ, ее единственный плюс это то, что она влезает в потребительские ГПУ и ее можно запустить на условном сервере не ебя при этом проц и оперативку.
>>1625273 у нас уже был dgx spark который каловая масса. Не думаю что что-то измениться. Но я бы хотел дешевые армы на пеках и дешевые dgx спарки. А для этого надо чтобы корпы хуя соснули с ии и оперативка начала дешеветь. ждать не приходится
>>1625045 Опасная, хех. Не знаю как эта конкретная, а его Мелоди из прошлого треда на базе квена 3.6, на коротком промпте, рефузы кидала даже на просто запрос "опиши анатомию в сцене для секс-рассказа". :) Рефуз был именно "я не могу писать про секс". И никаких "специфических" тем там не было. Кек. (Хотя на длинном промпте и с контекстом - пишет, да. Но сам факт! Такая же "опасная"...)
>>1625406 Ну и в чем её киллерфича? По бенчам она ровно на своем месте, в среднем лучше моделей у которых параметров меньше и хуже моделей, у которых параметров больше. Скорость инференса? Ну так она выше за счет nvfp4, подозреваю, что если конкурентные модели тоже квантануть в nvfp4, то перемога последним графиком внезапно куда-то испарится, лол.
>>1625389 Как мне обьяснили hb16 в q5 лучше чем без hb16 в q6 а весят одинакого примерно.
Этот мелоди я тестил в 12b, он очень жестко ноги раздвигает что плохо. Длинные сложные карточки ведет хуже мое. Если других рп тюнов на 12b не появится значит это финиш для 12b. Очень жаль будет я надеялся на неё.
>>1625432 >Как мне обьяснили hb16 в q5 лучше чем без hb16 в q6 а весят одинакого примерно. Не, я про то, что это такое в техническом плане. Я так понимаю, какая-то часть модели все-таки остается в 16-битной точности, но какая именно? Я так понял, что это не то же самое, что Q6_K_L с эмбедом и внешним слоем повышенной точности, иначе бы так и обозначили. Вот и интересно, в чем заключается такой сорт квантования.
>>1625085 > Какая-нибудь майнинговая говно-мать с кучей псин Вариант сомнительный. Большинство там можно описать "х1 чипсетные линии вместо шин, селерон вместо процессора, 8гигов содимм плашка в одном канале вместо рам". На некросервеные можно посмотреть тогда. >>1625406 Ух бля, нихуя. Готовимся расчехлять траханье, если по прошлому немотрону судить то вероятность шинрара довольно высокая. Осталось поддержки дождаться.
>>1625451 Врядли будет хуже чем на грейсах ранее, а там под мл уже все оперативно напилили. Или сидишь сам пердолишься-билдишь. > Армы в целом пока мертвые для линухи Почему?
>>1625458 >Она отвечает хуже 4b, на 5 строчек слопа. Да это бесполезный огрызок со всех сторон. Типа кто её юзать должен? Даже если у кого-то только 16 GB RAM и парашная видюха, то у них уже летает 24а4b, которая лучше и быстрее 12b. 0 понимания этого мува от гуглов. Мож рассчитывали что она лучше моехи будет, но обосрались и решили "не выбрасывать же в помойку дед доест"
>>1625461 >Почему? А не знаю, хотел взять второй ноутик на арме под линуху и тут возникли проблемы. Должно начать поактивнее развиваться в этом направлении. Сейчас на линухе арм неюзабелен по моим гуглениям. Все сыро и говено.
>>1625495 >ноутик на арме Оффтоп конечно, но ты в курсе что это жестко проприетарное дерьмо ? Вообще все что на ARM. Начиная с того что там нет стандартизованного биоса/загрузчика и каждый лепит загрузку по зуду главного инженера/маркетолуха. И встрять на одном единственном доступном ядре для ARM-железки это типовая история.
>>1625495 Может и так, линукс на ноутбуках в целом показался дном днищенским. А на арм серверах/рабочих станциях включая грейс работать немного приходилось, проблем по системе или несовместимости софта не замечено на фоне того какие приколы в принципе бывают и на х86 офк, и все это пока они свежие и поддерживаемые. Наверно если делать из него десктоп, да еще мобильный - вылезет приколов, но для компьюта и мл там все окей. Более релевантно для их коробки, а не ноута конечно.
>>1625509 >линукс на ноутбуках в целом Нет. Линукс на x86 ноутбуках охуенен. А вот на арм он конкретное дно (в чём вина производителей систем на кристалле с арм ядрами). Я бы даже присмотрелся к ноутбуку с чипом от невидии, но они прям реально не туда метят с позиционированием. Мне бы какой-нибудь арм ноут с огромным временем работы,пассивным охлаждением и максимально эффективным видео декодером, чтобы стримить по интернету десктоп, на котором стоит 5090. И вот такого ноута на арме почему-то нет, я охуеваю прям, вот уж чего не ожидал, так это что выбор спермобуков с армом будет ебать выбор прыщебуков.
Анонусы, есть вопрос не про кум но релейтед. Вот могу я запускать Гемму 26 и Квен 27. Мне для ассистентских задач, например ассистент по диете и питанию, ассистент по спорту и всё такое. Я ленивая жопа и хочу общаться с нейронками на эту тему. Как это лучше сделать? Разные карточки с разными промтами в таверне или забить и просто на вебморде лламы? Насколько в таком случае короче решает промтинг?
>>1625555 Да хоть как начни. Можешь и в ллама чате сначала, он там чото хранит. 26б гемма пойдет. Смотря насколько серьезно хочешь подойти, потому что пиком будет просто взять умные часы за круглую сумму с подпиской и смотреть рекомендации оттуда и мониторить все там. Они сейчас и нейронку прикрутили, которой можно позадавать вопросы побеседовать.
>>1625539 > Линукс на x86 ноутбуках охуенен. В чем отметил для себя охуенность? > арм ноут с огромным временем работы,пассивным охлаждением и максимально эффективным видео декодером Мак, лунар/пантерлейки, второе поколение куалкома. Они все сейчас имеют серьезный прогресс по сравнению со всеми прошлыми (может мак не так сильно потому что он изначально был хорош). А так, хотелось бы что-то в меру производительное и совместимое, чтобы можно было на мобильном устройстве локально пустить мощную ллм, поиграться с нейронками или что-то посчитать. Под эти критерии сейчас подходит только гейбук-про со 128гигами, но он стоит очень уж дорого. Стриксхало - норм ноутов не завезли, совместимость на дне и в лучшем случае жора на вулкане заведется. С хуангом - хотябы будет стандартная куда без кучи приколов, но костыльное деление памяти на рам/врам вместо единого адресного пространства очень огорчает. На грейсах ведь смогли сделать почти бесшовно за исключением нескольких багов. >>1625555 В агентотред, чекни опенклоу. Буквально для этого.
>>1625555 Вообще без разницы, хоть в таверне, хоть в кобольде. Хоть с промптом, хоть без. Просто даешь понять что надо - модель делает. Я вот вообще пропустил эру когда надо было модели писать ТЫ УМНЫЙ АССИСТЕНТ по хуйня%нейм, просто говорю геммочке няше сколько мне сегодня надо сьесть грамм гречки и сколько сделать приседаний на попу и тд. где-то помню была карточка мол типа нейро-вайфу жена в виде ассистента, но имхо это уже извращения какие-то
По ходу, Леново ЙОБА будет моим следующим ноутом. Жаль только, что он тоже с жужжалками.
>>1625575 >В чем отметил для себя охуенность? В том, что всё, что надо, работает сканер отпечатка не работает. А работоспособный Линукс >> виндовса.
>>1625575 >чтобы можно было на мобильном устройстве локально пустить мощную ллм Зачем? В 2к26 доступ к интернету есть везде (кроме суверенной гойдодвижухии), а значит, есть доступ к домашней пеке через tailscale. А по нему можно иметь хоть удалённый десктоп по sunshine/moonlight, хоть API-эндопоинт лламы по HTTP. Ноут никогда не будет сравним по вычислительной мощности со стационаром, и это при огромном количестве компромиссов по массе, уровню шума, энергопотреблению и т.п. Эту истину выучили все, кто в своё время пытался связываться с т.н. "игровыми ноутбуками". Нахуй. больше. это. счастье. не. нужно.
>>1625575 >> Линукс на x86 ноутбуках охуенен. >В чем отметил для себя охуенность? На старом ноуте бубунта сервер стоит, там докер и виртуалка с агентами, заебись просто. Лучшее решение в жизни, жрет мало пользы вагон, винда так не смогла бы. Так что для всякой старой техники линукс мастхев
>>1625588 В прошлом веке на мейнфрейме висела куча машинок, и именно это была особенность тех времён. А сейчас какая нахуй разница, подключаются твои клава/моник по USB/HDMI или по оптоволокну через весь город? Как это глобально меняет модель взаимодействия с твоим ПК? Когда-нибудь количество буквально арендующих облако вместо обладания полноценной пекой вернёт нам обратно наш 1970-й, но это не сейчас и не завтра.
>>1625582 > что всё, что надо, работает Даже профили энергосбережения, умный сон, демоны учитывают подключено к сети или работает от батареи? Претензии были именно к этому, сама система то норм. > Зачем? Очевидно - для работы, для развлечений, пусть нерегулярно, но ценность высока. Также можно просто запускать приличную ллм не трогая основное железо. > доступ к домашней пеке через tailscale Организован без этой прослойки. Но во-первых дома не всегда запущены нужные ллм, во-вторых в дороге в дороге не всегда стабильный и быстрый интернет, и > В 2к26 доступ к интернету есть везде в реалиях этой самой суверенности звучит прискорбно как же заебали, скорее бы уже резьбы закончились. Удаленный декстоп - ужас по удобству, особенно когда данные и задача есть вот прямо здесь. В мобильном формате мощности десктопа не надо, но возможность иметь много памяти и кратковременно выдавать долю от его перфоманса - нужно. Жаль времена не те чтобы такую игрушку просто купить или получить на работе. >>1625587 > бубунта сервер стоит, там докер и виртуалка с агентами > на ноутбуках That's pretty brutal
>>1625608 >А зачем виртуалка, если ты осилил докер? Кмк осилить виртуалку сложнее чем докер, ну а вобще для агентов, чтоб основную систему не загадить с настроеным докером. Многие недооценивают как мало тратит сервер и контейнеры если там нет постоянных вычислений. 10 ватт в простое всего, и это хлам 2011 года с низким техпроцессом.
>>1625611 >Даже профили энергосбережения, умный сон, демоны учитывают подключено к сети или работает от батареи? Да, всякие профили производительности, яркости, выборочный запуск на iGPU/dGPU ок. Не знаю, что такое "умный сон", саспенд/резюм использую. Демоны не делают работу, которую от них не просят, что на аккумуляторе, что от сети.
>Организован без этой прослойки. Но во-первых дома не всегда запущены нужные ллм Значит, так организован. Если я имею доступ к пеке, и на ней не запущена нужная ллм, я её запускаю. И оно как-то получается не сложнее, чем если бы я сидел за пекой непосредственно.
>>1625622 Возможно, но виртуалка большинству концептуально понятнее, что ли? Ну и докер через cli принято использовать, многим страшно.
Мне тут пару тредов назад посоветовали забить на маленькую пропускную способность второго слота ПСИЕ. Аноны оказались абсолютно правы, даже с псиной 2 х4 во втором слоте Гемма летает на 15т/с. Как человек сидевший на толстых мое со скоростью 3т/с я сейчас просто в восторге. Ну а на этом хорошие новости заканчиваются. Я абсолютно полностью обосрался с компоновкой, когда покупал вторую видюху. Толстая видюха не влезает в первый слот с райзером во втором слоте. Во второй слот в принципе ничего нельзя запихать кроме райзера из-за сата разъёмов. Из-за этого у меня сейчас 5060ти в основном псие 3 х16 слоте, когда ебаная жирная туша на 5070ти сидит через псие 2 х4. И даже такой колхоз даёт 15т/с, я в ахуе. Ну а микро итх мамка в ахуе что я в неё пытаюсь загнать две видюхи и четыре плашки ОЗУ. Мой изящный план разместить две видюхи друг под другом провалился, в корпусе тупо мало места. Пока обдумываю как лучше поступить с получившимся колхозом. Гемма кстати умная, но до уровня всяких мое весом в 200б+ немного не дотягивает. Хуй сосать умеет не хуже мистраля из коробки, но я ожидал большего, что-ли. Хотя я нихуя не настраивал, просто запустил на похуях после обновления вебуя, даже параметры не смотрел, скорее всего скилл иссуе. Алсо, имеет смысл попробовать 30б модельки из 2025 года? Ну там коммандера или сноудропа, я раньше на них только облизываться мог. Или смысла особого нет и мне учиться пользоваться Геммой? Держу тредис в курсе.
>>1625621 А как какать? Уже вмерджили поддержку? >>1625634 > Если я имею доступ к пеке, и на ней не запущена нужная ллм, я её запускаю. Ты счастливчик и не делаешь ничего сложного, что требует продолжительного использования профессора и гпу. Сложность не в запуске, а в доступности ресурсов, хоть сиди хоть не сиди.
>>1625633 >Естественно никакого moe и тензор-сплита. Видео фигня чет, но на удивление скорости у него хорошие для 1 линии. Мое сильее шину грузит да? Мне райзер приехал и я майнерускую карту к своей добавил. Но скорости пп стали 60-80 что довольно грустно. Надо будет кеш на быструю карту переместить наверное, оставив на майнерской только слои. Ну и линукс попробовать на системе, там веселее должно пойти.
>>1625639 >не делаешь ничего сложного Да куда уж мне.
>Сложность не в запуске, а в доступности ресурсов Как будто бы это не типом доступа (локальный/удалённый) определяется? Или что ты имеешь в виду под этим?
>>1625647 > что ты имеешь в виду под этим То что ставишь расчет, тренировку, их серию на 5-12-30-... часов и ни о каком запуске ллм не может быть речи. Хоть вплотную подойди и корпус начни облизывать повторяя что доступ у тебя локальный.
>>1625636 Алсо, по первым ощущениям Гемма даже в роли ассистента просто пиздец какая лаконичная. Тот же Минимакс или Квен большой мне при просьбе подобрать книжки радостно высирают абзацев 10 по 20 вариантов с описаниями. А из Геммы приходится каждую книгу выуживать, и хуй она много сразу порекомендует, если не попросишь. И вообще она старается больше чем 1-2 абзацами за раз не говорить.
>>1625648 А, то есть тебе ноут нужен реально как второй вычислительный центр? Ок тогда. Мне не нужен, у меня в tailscale-кластере не только домашняя пека, но и рабочий комп постоянно.
>>1625652 Не второй, а скорее портативный и ситуативный, помимо того что это легкий ноутбук. И возможность с приличной скоростью запустить мощную ллм не задействуя основные ресурсы - весомый бонус. И пека, и риг, и файловый сервер в сетке с полным доступом. Но если цп-гпу уже молотят или если ты в ебенях с плохим интернетом - это не делает погоды. И крайне уныло ждать пока несколько гигабайт пролезет через мобильный интернет, а потом пытаться тыкаться в окружении, настроенном под три монитора, с мелкого экранчика и тачпада. Когда вместо этого можно сделать все по месту в настроенном под это интерфейсе без задержек.
>>1625690 Те графики - спекуляция в прямом смысле, достигаются при спекулятивном декодинге мтп головой и с нвфп4. Какбы уровень 5070=4090. Но мерить скорости по тому что получаешь с опенроутера бессмысленно, там помимо тебя еще одновременно десятки-сотни людей сидят на той же железке.
>>1625694 Ты невнимательно читаешь. Они внизу картинки пишут что эти скорости получили с Дипинфры. Я принёс какая реальная скорость на Дипинфре. У других моделей скорости реальные, а Немотрону нолик пририсовали. 10х - это слишком дохуя чтобы списывать на нагрузку или ещё что-то.
>>1625406 А напомните хоть одну годную модель которую высрала команда нвидии? Даю подсказку: таких нет, они всегда делают кал, в ллм, в диффузии, в научных работах
>>1625697 Да, ты прав. Наверно у себя они просто замерили когда были в одиночку, а сейчас все массово ломанулись тестить. Ажиотаж спадет и скорость обратно поднимется (нет). > 10х - это слишком дохуя чтобы списывать на нагрузку Чем больше параллельных запросов на индивидуальный сервер тем медленнее. Если все просуммировать то там тысячи токенов в секунду будет, но на отдельного юзера крохи. Хз зачем они вообще такую метрику нарисовали, сравнивая загруженные с работающим вхолостую, закономерно оподливились.
>>1625621 Оно действительно запускается. С режимом тензорсплит выпадают ошибки, только layer. А это значит вместо ленивого ncmoe - регэксп, а составлять его для немотронов - невыносимая боль. Из-за отсутствия тп и х8 шины главной карты пп менее 100т/с, свайпов в крупных чатах не дождался. В коротких вопросах - очень напоминает немотрон 120, та же соя и ложные факты на провокационные вопросы (хотя здесь не в 100% свайпов, а ~60%, в остальных нормальный ответ). Иероглифы и ошибки в русском языке. На кумботе соблазняет и инициирует кум, на свайп в кумочате с канни пишет нормально, был один хардрефьюз. При проверке кодинга парсер не сработал. А больше и нечего сказать, с такими скоростями и без норм поддержки неюзабельно, нужно ждать исправлений.
Кек, сломал режим мышления сетки просто болтая с ней, теперь она разучилась ставить спец токены и пишет все мысли в ответе ( и ноет об этом). Обратно вернуться не может - ставить спец токены по запросу "сознательно" их не учат
>>1625176 Можно. Я так и делал. Создаёшь проект и рпшишь. Там и инструкции всякие. Если не будешь сексами заниматься, то никаких проблем, за исключением того, что вытаскивать чат для суммарайза ёбаная морока. Да, у некоторых корпов есть удобный контекст шифт, но там обычно к моменту, когда он начинает работать, модель отвечает уже неадекватно, с полным пиздецом.
Что это.. что это за дерьмо?! Gemma 4 12b. Вы только посмотрите, как она хуёво пишет в Q8 XL, просто пиздец. Хуже МоЕшной даже. Это просто возмутительно!
Более того, она даже не отказывает (МоЕ и большая плотная всегда отказывали без еретика/невменяемых системных промптов/модификации цепочки рассуждений), что уже явно намекает на уровень мозгов этого лоботомита. Плюс по тексту видно, что там ещё сильнее почистили датасет либо не долили нужного. И модель не одупляет, за кого вообще отыгрывает. Фифи же шлюха с соответствующим поведением и реакциями, а по итогу мы видим это.
Короче, говно/10. Будет пригодна, если на неё сделают 100500 файнтюнов шизофренических, как было с немо. Врамцелам по-прежнему лучше качать 26b Q8 и кайфовать.
>>1625829 >Разрывай мою пизду! Смотри какая она вся мокрая! >Я твоя шлюшка, трахай мою пизду! Ебать диалоги из псковского порно, проиграл. А по теме - ну а что вы хотели от 12В лоботомита? Уже хорошо что пузыри ртом не пускает и хоть какой-то кум на русике генерирует.
А кто-то тестил mimo v2.5 pro? Да, она тяжёлая шо пиздец, но ходит слух, что она лучше глма и дипсика. Правда, она зацензурена из коробки, ТПК что придётся пробивать.
>>1625829 Полезнее было бы посмотреть на свайпы на одном контексте 26 и 12 сайд бай сайд. И не на фифи, а на каком-нибудь сложном для моделей моменте рп. Или на введении новой локи, чтобы посмотреть, насколько слопные описания в сравнении.
Когда я пытался потестить позавчера, когда вышла, то у меня четвёртый квант от жоры вообще сломанный был. Каждое четвёртое слово на русике с ошибками, и инглиш тоже неадекватный. Как будто на высоких значениях реп пена запущено. У тебя вот тоже даже на 8 кванте "АОна" намекает на не совсем корректный инференс. Мб опять надо ждать правок жоры. Которых не будет, потому что всем пофиг на модель, судя по всему.
>>1625856 Ща половина населения это офисные уничтожители воды в кулерах за компом на котором ебут фифи а вторая половина это наносеки из дома за компом на котором ебут фифи Кем из этих двух ты предлагаешь ему стать Скоро фифя отнимет работу у обоих
>>1625883 Жоре как раз не похуй на геммы судя по тому как их поддержка выходит в одну наносекунду с выходом модели, явно подготовленная заранее. Думаю там кто надо ему заносит (и на неподдержку дипсика заносит тот же кто-надо человек)
>>1625898 Поддержка отдельных моделей действительно заготавливается, а на другие из-за пофигизма или целенаправленно кладется. Но даже в приоритетных работа далека от гладкой и эталонной.
Жуть какая. Неужели это правда баг Лламы был, с SWA на Квене 3.5? Создавались чекпоинты, 260мб каждый. Из-за этого не мог уместить Q8 122б. Только сейчас заметил, что чекпоинты не создаются. И как же Квеноняша хороша как ассистент. В сторителлинге 27б гораздо лучше, чем 122б, но 122б Q8 несравненно крут в своей весовой категории как ассистент и кодер/агент через Openclaw. Контекст реально хорошо держит и прекрасно работает в том числе на русском. Надеюсь, получим еще в этом ренже модельку от Квена когда-нибудь.
>>1625876 10б гигачат (у которого 1.8б активных вроде) пишет по-русски лучше, а молофья там льётся просто рекой. Понятное дело, что логики в нём нет, следования инструкциям тоже. А тут плотная гемма сосёт.
>>1625883 На сложном вообще нет смысла, учитывая то, что модель явно не учла кучу триггеров и паттернов из карточки фифи. Язык явно более бедный, следование инструкциям и логика тоже. То есть ноль причин использовать 12б вместо МоЕ.
Конечно, есть шанс, что квант сломан, но когда 1Т-монстры допускают такие же ошибки, как гемма, я уже ничему не удивлюсь. Они могут разметку проёбывать, сначала использовать длинные тире, а затем кавычки-ёлочки или просто кавычки. Или как-то иначе. А тут 12б-лоботомит.
Хотя вопросики всё равно вопросики есть. Там скорее надо на чистом контексте тестить с обычными задачами и смотреть, обосрётся модель или нет.
>>1625970 SWA у квена нет. Но лично у меня чекпоинты работают периодически криво хуй знает почему, поэтому я выкатился с этого говна на кобольда, где смарт кэш почему-то работает корректно. Да, я знаю, что это форк. Но реализация там другая.
>>1625986 >То есть ноль причин использовать 12б вместо МоЕ Для каких-то задач требующих точности лучше 12b, потому что ее Q8 весит столько же, сколько Q4 у 26b. Меньше обсираться будет. А в РП да, как будто действительно смысла нет.
>>1625993 Ну так Q8 лучше и быстрее у 26б-а4б, чем Q8 12б, по крайней мере у меня. Да, размеры квантов разные, но скорость и знаний у МоЕ больше — зачем тогда использовать меньшее?
Единственный сценарий, при котором МоЕ провалиться может, это если ризоинг не юзать. Вот там уже малое количество активных параметров пиздец влияет.
Плюс никто четвёртый квант у МоЕ почти не юзает, так как можно тупо почти всё в оперативку впихнуть даже на всратом железе.
>>1626003 >зачем тогда использовать меньшее На каком-нибудь ноуте с 16 рам и без дискретки (те же маки в нищекомплектации) выбора особо нет. Тут или плотная Q8 или моэшка в Q4.
Кто просил тюн для рп. https://huggingface.co/Nimbz/Versipellis-31B >>1626003 Для 26б нужен шестой квант и q8 кэш. Только жаль что под 26 не будут делать тюны. Вижу сколько высирают на 31б а на 26 их два по сути один. Это потому что в 26 не работает свайп а жаль.
TL;DR посоветуйте, пожалуйста, локальную модель для 16 GB VRAM для кодинга и агентских задач
Уважаемые нейроаноны, у меня есть 5070 ti / 32gb ram pc на ubuntu server. Денег на подписки вообще нет, готов потратить $5-10 на API.
Придумал себе задачу: у меня много простых проектов в плане кодинга, хочу описать по ним руками документацию и кодинг стандарты, а потом планировать задачи с помощью фронтир-модели по апи, а кодинг отдавать локальным llm.
То есть из высокоуровневого "сделай фичу Х" платная модель будет декомпозировать до "написать миграцию", "написать контроллер", "сделать UI", "написать тесты" для локальной модели, а она будет пыжиться в цикле от одной задачи к другой пока не дойдет до какого-то вменяемого критерия приёмки.
Я пробовал развернуть qwen2.5-Coder-14B-Instruct-AWQ, но там довольно устаревшая база для обучения использовалась. А контекста так мало вмещалось в оставшиеся гигабайты, что я не увидел смысла прокидывать доки в каждый запрос
Кто-нибудь знает как работает этот swa ? Вот типа есть какое-то окно токенов, я хз сколько он у Геммы предположим 8192. Это значит что ровно последние 8192 токенов будут учтены аттеншеном ? Или там как бы от этих последних 8192 токенов будет раскатываться клубок на какую-то глубину. И как тогда систем промт учитывается, он же в начале чата. Просто я вот заметил что после 50к 31б разваливается даже в q6, ваще никак дальше. Также и q8 26б. Почти всё из начала-середины чата забыто. Как будто Геммочки хороши для зирошота мелких задач и для совсем простеньких сценариев кума до 20к контекста
>>1626065 В 16 + 32 у тебя лезет хорошенькая Гемма 4 26б в барском q8 кванте и с контекстом, попробуй её для начала. Гайд в шапке есть, который неофициальный, словно для тебя писали до сих пор в ахуе что он лучше официальной вики Потом пробуй Квены, может 3.6 35б понравится
>>1625636 >Алсо, имеет смысл попробовать 30б модельки из 2025 года? Ну там коммандера или сноудропа, я раньше на них только облизываться мог. Квен 27 и Гемма 26-31 однозначно лучше, но Командер и Сноудроп пишут по другому, только ради их уникального слога если
>>1626008 Не, ну если такой вариант.. то это совсем печалька. Но вроде бы сейчас даже игросральные ведра имеют 32 рам и 12-16 врам как минимум, то есть людей, у которых такая сложная ситуация, действительно мало. Типа макбуков на 16 Гб.
>>1626009 А зачем кэш-то ужимать? Если памяти не хватает, то логично, а так не очень. Я замечал деградацию. Там уже в бф16 (кэш) рак на 50к где-то начинается. Даже когда модель тоже в бф16.
Терпимо, если модель работает в рамках вопрос-ответ, а контекст используется чисто для того, чтобы модель понимала суть дела. Потому что уже на 60к+ часто возникают ситуации, когда моешка нихуя не помнит толком, что там было 3 сообщения назад, если ты прямо не ткнёшь её в это сообщение.
31б тоже весьма детерминирована. Я думаю, дело не в свайпах вообще, а в том, что МоЕ. Не помню ни одного нормального тюна на них. Ну и с таким детерминизмом явно надо кал в жопу модели заливать нещадно, доводя до катастрофического забывания и тотальной лоботомии. Просто ради получения кума магнума или красивой прозы. И всё это без мозгов.
>>1626065 Qwen 35b-a3b, 3.6 версия. Гемма тоже может подойти, но она менее надёжна на большом контексте, особенно если там тонна документации, скилов и прочего шлака.
Я не погромист, но когда говно всякое вайбкодил, у меня контекст забивался безумно быстро, и гемма сильно терялась.
Минус квена только в том, что задачу нужно ставить ему на английском языке и чётко понимать, чё ты там хочешь. Гемма может простить какие-то такие нюансы, а вот квен, как правило, нет.
Впрочем, у тебя там такие задачи охуительные, что как минимум Opus юзать надо. Любая локалка обосрется с тем же UI, особенно квен. А вот гемма с интерфейсом получше справится.
>>1626068 Ого-го, ебать. Я пока сообщение катал, ты почти то же самое написал.
Там учитываются последние 1024 токенов)))
Короче, вот эти 1024 токенов модель видит очень хорошо, почти идеально, остальное почти нихуя не видит. На уровне "я так чувствую". Да, весь остальной контекст модель учитывает, но очень слабо.
Если иъёбываться жёстко, то можно ослаблять влияние "потерянного в середине" и сраноно SWA, но это уже просто шаманство. Увеличивать окно SWA, растягивать 1024 токена тоже не эффективно, так как модель не обучена иначе работать. Если ты на 200 токенов растянешь, то трагедии не произойдёт. В иных случаях будет деградация.
Системный промпт тоже видит плохо, да. Но лучше, чем середину.
---
Я подписку на гемини купил. На полгода. Как еблан. Дико охуел, что там то же самое, что и с геммой. Не знаю, сколько гемини видит, но тоже очень мало. Сама модель прекрасная, но реализация внимания настолько уебанская, что забывает все нюансы.
>>1626114 Интересно, когда до народа наконец-то дойдёт, что стори стринг не место для моделеспецифичных вещей? А то меня как программиста коробит от такого смешивания ответственности.
>>1626120 Да похуй, префиксами и постфиксами стористринга почти никто и почти никогда не пользовался. Зайди в доки и код таверны, там тебя ещё больше как прогера триггернет
>>1626123 >Зайди в доки и код таверны, там тебя ещё больше как прогера триггернет Знаю, по этому и не захожу. Я вечной жизни желаю, а не инфаркта в 30 лет.
>>1626120 Раньше в таверне не было префиксов и постфиксов для стори стринга целиком, только для макроса системного промпта. Поэтому так сложилось, что чтобы запихать и систем промпт, и карточку, и лорбуки в системные теги, их писали прямо в стористринге. По привычке небось продолжают так делать.
>>1625970 Да, там нет накакого сва. > несравненно крут в своей весовой категории как ассистент и кодер/агент через Openclaw Ага, он еще по визуальной части крайне силен. Жаль 3.6 3.7 не выпускают. >>1626068 Глянь на ютубе или попроси нейронку объяснить как в целом работает атеншн в ллм. При скользящем окне в основном то же самое, разница лишь в том, что на вход поступают лишь последние N текенов, именно как ты сказал. Никакого раскатывающегося клубка, полный контекст видят лишь слои с полным атеншном, которых мало. В этом и причина того, что модели с swa могут быть менее внимательными к деталям в глубине контекста.
>>1626114 Всех благ, анон. А есть идеи почему режим Перевоплощения не работает? Просто возвращает пустую строку? Раньше просто всякой дичью вроде aaawwww own подряд 20 раз спамило, а сейчас просто пусто.
>>1626151 Про какие перевоплощения речь? Имперсонейт ответ от юзера? Это с особенностью шаблона связано. Как-то точно можно починить, я видел посты, но не вникал т.к. сам не пользуюсь Аниме девушка хорошая. Это анима? Какой автор?
Кто-то уже запускал Немотрон новый? А то я попробовал его в 4 кванте по api и что-то совсем у него русский хуёвый. Ещё и списками и таблицами срет. Даже качать расхотелось
>>1626134 > Ага, он еще по визуальной части крайне силен Силен, но соевый очень, хуже чем 235 VL. Использую Гемму 31 Q8 для вижн задач. Медленно, но справляется хорошо. Батчи отправляю на обработку и оставляю на какое-то время. А для быстрых штук даже 26 Q8 Гемма хорошо справится, для зирошотов всяких. Не нашел, в общем, для себя применений вижена Квена 3.5.
>>1626194 > А нахуй нужны эти чекпоинты кста? Позволю себе ответить самоцитированием из гайда: Параметр swa-checkpoints актуален только для моделей с SWA (Sliding Window Attention). Кеш моделей с SWA не может быть легко отредактирован. Если удалить или отредактировать одно из сообщений в чате с моделью без SWA, контекст будет пересчитан ровно с того момента. Если же это модель с SWA, контекст будет пересчитан полностью. Если только нет ближайшего чекпоинта (контрольной точки), что и реализует параметр swa-checkpoints. Стандартное значение - 32. Однако важно учитывать, что чекпоинты тоже занимают оперативную память. В случае с моделью Gemma 4 один чекпоинт в среднем весит 260мб. Как и в случае с кеш-файлом, память под чекпоинты выделяется по мере надобности. > Звучит как отдача вирама Оператива, не врам. Кстати, я не уверен, что если чекпоинты выключены вообще, то контекст не будет репроцесситься с каждым новым инпутом. Позже проверю, если не забуду.
>>1626208 В общем. И по сравнению с 120 немотроном, которого несколько напомнило. > из-за размера он конкурирует с Ага, потому не имеет смысла в текущем виде, когда другие модели из той же весовой работают нормально.
Бля, аноны, есть тут красноглазики? Подскажите, пжлст, на работе мне делегировали нахуярить локального агента. Есть 8ГБ 3050 + 32 DDR4 на рабочей машине, и 2 личных 4060ti 16ГБ Которые не хотелось бы донатить на РАБоту. Есть ли что-нибудь, что можно запустить на рабочем железе? tg - от 10, желательно, либо около ваншот задачи. Какое расширение выбрать, какую модель взять? Какого хуя при использовании Квена 3.6 30А4 / Геммы 4 26A4 он прерывается по середине думанья, ЧЯДНТ? Неравнодушные братья помогите, буду по гроб жизни должен, скину свою ультра-кум как мне кажется карточку.
Я бы с радостью въебал гемму с большим квантом чем у меня дома и кумил на ней, но работа есть работа :(
>>1626293 >Есть 8ГБ 3050 + 32 DDR4 на рабочей машине в чём трабл по гайду из шапки накатить гемму 26б q8 и получить свои 15 токенов? >Какое расширение выбрать в морде лламецпп крутить или openwebui для чатика с инструментами, либо openclaw или pi если нужны агенты
>>1626293 >Есть ли что-нибудь, что можно запустить на рабочем железе? Ну с таким железом выбор небольшой: либо квен 35а3, либо гемма 26а4. >он прерывается по середине думанья Убери лимит токенов на ответ. У тебя небось там дефолтные 300-500 стоят.
>>1626297 С радостью бы себе спиздил, но к сожалению...
>>1626298 >в чём трабл по гайду из шапки накатить гемму 26б q8 и получить свои 15 токенов? Уже накатывал, стопается посреди ризонинга, хз что делать.
>>1626301 >Убери лимит токенов на ответ. У тебя небось там дефолтные 300-500 стоят. Пытался, генерит, скотина на 5к токенов ответ и всё, как не ебашь её по голове, посреди ризонинга обрывается.
>>1626293 > 8ГБ 3050 + 32 DDR4 на рабочей машине Это печально > 2 личных 4060ti 16ГБ Очевидный квен 3.6 27б. Скрестить с квенкодом натравив через oai-like, pi, или по своим предпочтениям. Решение так-то весьма неплохое получится.
>>1626304 Я хуй знает, может я даун и что-то не так делаю, но у меня даже локально continue расширение не может номрально создать файл, >create_new_file failed with the message: `filepath` argument is required and must not be empty or whitespace-only. (type string)
>>1626310 Будет лучше, но есть нюанс: в третьей гемме qat был сломан русик. Если это важно, то лучше оставайся на обычном Q4. Но может с четверкой будет получше в этом плане, не тестил.
>>1626314 >>1626312 Ничего себе. https://huggingface.co/google/gemma-4-31B-it-qat-q4_0-gguf весит на 0.7мб меньше чем Q4km бартовски. Если оно ещё и лучше то это же вин вин! Если всё правда так круто то гугл конечно радуют. Я никогда такие кванты не использовал. Это особая поддержка нужна, новая ллама которой пока нет?
>>1626307 Аноны, а вот лучше скачать кванты от гугла или от unsloth'а? Его этот UD-Q4_K_XL как я помню они были лоботомитами и служили для меньшего веса.
>>1626342 Ну я как помню по бартовскому XL это где важные ffn'ки они используют Q8_0 квант, даже на какой-то санной Q2_K_XL, что собственна не помогало последней. Тут же от unsloth'а видно виляние жопой, что и лучше и меньше! Однако его кванты по моему мнению зашкварены, из-за чего стараюсь не качать от него. Самая главная проблема как помне, у него будет васянство. Ну сам подумай, в гугле работают индусы на зарплате, делают продукт, выкатывают. А какой-то салариман в тот же день делает на 10-20% эффективнее модельку. Че уж сам гухол не смогла также?
>>1626318 >Будет лучше, но есть нюанс: в третьей гемме qat был сломан русик. Бля, печально это слышать. Хороший руссик + компактность (в случае 26b) это единственные киллер фичи геммы, если в QAT он сломан, то я рот ебал, свой.
А эти qat кванты прям уже работают или нужно ждать новые версии лламы ? Может кто сравнить с всякими Q4 ггуфами ? Если прям скрины выводов то вообще круто
>>1626347 Ну я скачал, у меня кобольд 1.111.2, работает, русский такой же как на Q4 у 26-A4B. Лучше ли это нужно проверять, пока могу сказать на том же уровне точно. >>1626348 Да, но у unsloth'а она МЕНЬШЕ, чем оригинальный Q4_0 квант от гугла
>>1625970 UPD: это по-прежнему рандомно происходит, даже на последней b9535 версии. Кто-нибудь знает, с чем это связано? Или все-таки это ожидаемое поведение?
>>1626347 Это по сути обычные ггуфы, отличия идут в самих весах. Проблемы могут быть только если обучение отличалось от инфиренса, что вполне возможно, но это лишь сыграет на качестве.
>>1626355 Мне даже интересно стало, сколько у тебя т\с? И что за риг. Если себе делать ассистента то нужно, чтобы он хотя бы 10 т\с делал, и дешевый вариант мб это зевон с 128гб ецц памятью, но он же смерть, как не подойдет даже для мое, там меньше будет чем 10 т\с. И расскажи быт этого ассистента, ибо я у коорпаратов с обычной гемини-3.5 бываю ловлю фейлы и меня бесит то и то, а тут у тебя по пизде может пойти на половине контекста. Как фиксишь?
>>1626373 > делать ассистента то нужно, чтобы он хотя бы 10 т\с делал Для чата норм. Если хочешь именно агентного - там желательно от 20-30т/с и от нескольких тысяч обработки контекста, иначе ожидания будут огорчать. > бываю ловлю фейлы и меня бесит то и то С любой ллм такое будет. Персонифицируй ассистента, чтобы она мило извинялась и ты быстро прощал, а не копил неприязнь.
Аноны, могу ли c 12 vram(5070) и 32ram локально генерить себе видео фап контент ? Ролики в небольшом разрешении с русской речью по сценарию ? Или этих мощностей не хватит и я буду час ждать 10 сек видоса.
>>1626378 Не сюда, в /b нейро-фап-реквест. Но я отвечу так и быть. Wan 2.2 запустишь, есть вообще простые модельки, которые делают видео-фап и запускаются на 16озу\6-8враме. Звук я хуй знает, с коробки такие модели точно будут требовать достаточно ресурсов. Если накладывать, то нет.
>>1626377 А он у тебя на основной машине работает, чатик? Просто как ты компьютером функционируешь если у тебя забито подзавязку все. И нюфаня вопрос, что же чатиком можно решить\решаешь?
Чем вам этот агент отдельный, что вы на нем делаете?
Вот реально хайп такой стоял, а я лично для себя не смог ни одной задачи придумать. Все вечно хотят автоматизировать все но привносят в свою жизнь лишь больше проблем
>>1626373 > Мне даже интересно стало, сколько у тебя т\с? ~9 tg, ~400 pp. > И что за риг 4090 24гб + 128гб DDR4 3200 > расскажи быт этого ассистента В основном чатик, помогает меня менеджить, занимается консультированием по сабжам, в которых я не слишком шарю, помогает окончательно не сойти с ума. Как агента не использую, но тестировал его через Openclaw для рефактора руби бекенда и простенького 3д прототипа на Годоте. С нюансами, но справился. Не знаю, что и добавить. Сегодня и Гемма (обе, и 26, и 31), и Квены хороши. Но 122б Квен ультимативен, дальше только 300б+ модели, а это другой уровень железа. До 300б+ моделей он лучший по знаниям и работе аттеншена. Речь про ассистентские таски и кодинг, в рп он печален из-за ассистентского байаса.
>>1626378 Да. Со всеми ускорялками, 4-степс лорами и прочим, рассчитывай минут на 5-6 на генерацию 5-секундного видео в wan. В ltx чуть быстрее и со звуком, но качество похуже. Держи, играйся: https://github.com/deepbeepmeep/Wan2GP
>>1624998 (OP) Товарищи нейроёбы и просто железячники, проясните, пожалуйста, два момента: - для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант? Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть. Насколько скорости SSD влияют на локальные модели? - оперативка 8000MHz имеет смысл в локальном компе для LLM? Мне тут нейронка твердит, что >Архитектура процессоров AMD Ryzen (включая 9950X3D) спроектирована так, что наивысшую производительность и минимальную задержку (латентность) она выдает при синхронной работе контроллера памяти в режиме 1:1. >Потолок для режима 1:1 на процессорах AMD — это частота 6000–6400 MHz. Насколько это пиздёжь? И на какую оперативу, всё же, ориентироваться?
>>1626417 >Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть. Бекапы наше всё, вне зависимости от типа накопителя. Если какая-то инфа лежит в одном месте, она по определению уже пропала. А с другой стороны, пока есть интернет, всегда можно перекачать. А сидеть без интернета затея так себе. А так строго похуй, просто будешь грузить модель по 10 минут. >Мне тут нейронка твердит, что Для памяти лучше брать интул, притом 14 поколение, лол, нейронка как всегда тупит. Если есть возможность, бери топ проц и память 8 кеков. Если нет, то терпи на амуде на 6.
>>1626417 >для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD Для нейронок предпочтительно, но не обязательно. Нейронки крутятся в видеопамяти и оперативке. Скорость накопителя влияет только на то, насколько быстро она будет загружаться. А в современном компе это не то что "желательно", это обязательно использовать ssd хотя бы под систему.
>Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть Недорогой ssd действительно может ВНЕЗАПНО сдохнуть они буквально собираются на говноконтроллерах и из отбраковки памяти, поэтому делай бекапы самого ценного на hdd (например, на внешний, который подключается по usb). Если речь про нормальные ssd, типа самсунгов, то такой скорее всего будет жить долго и счастливо. У меня самый старый самсунг, ещё саташный, емнип году в 2016 покупался на 512гб, жив до сих пор. Два nvme самсунга тоже живы-здоровы, хотя ебутся в хвост и в гриву каждый день. Объем памяти тоже влияет на ресурс, бтв. Терабайтник проживет дольше чем 128гб условный.
Ты можешь просто зайти в гемини (или любого другого корпа), включить ему поиск по сети, скормить модель какой-нибудь ssdшки и попросить чтоб поискала характеристики памяти/контреллера, вынесла вердикт - годнота или нет, ну и в целом дала советов мудрых по выбору.
>>1626383 Ну а как ты хотел, старина? Большинству людей просто нечего автоматизировать в своей жизни. Они ведь ничего не делают особо, нароботе дрочат ворд с экселем, дома доту2 проходят, или во что там игры играют. Это как с обсидианом. Как начали ЖЕСТКО и АГРЕССИВНО его продвигать в каждой щели с идеями, что ВТОРОЙ МОЗГ сделает твою жизнь и профессиональную деятельность заполнение эксель таблиц ЭФФЕКТИВНЕЙ, так каждый Петек начинает абзацами копировать себе в хранилище текст со статей в медиуме или хабре, расставлять ссылочки и любоваться на графы, а продвинутый какой-нибудь дата-вью жс вставит, чтобы сделать саммари по тому, сколько сосисок он съел на позапрошлой недели. Так и тут, агенты круто, надо юзать, надо автоматизировать свою рутину, сортировать письма, приоритизировать события и дедлайны в календарике, бибикать баззером, разработать проект эйэай битуби саас приложения.
Агенты нужны нам, чтобы купировать шизу. Или всяким (не)студентам, чтобы за тебя нейронка статьи читали. Агенты --- нью фиджет спиннер 2к26.
>>1626417 >для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант? Только SSD, причем только NVME, причем строго не меньше гигабайта в секунду. Пример: база бичей треда Gemma 4 26B. Она весит 25 гигабайт. Можешь сам посчитать, как HDD это осилилт и сколько тебе придется ПОДОЖДАТЬ. И да, ты будешь выгружать-загружать это все по сто раз, так что... Кстати, отсюда же берется ответ на вопрос о надежности SSD и возможности все потерять. Если у тебя нет нормального интернета и возможности в любой момент перекачать все, то можешь даже не лезть в это. Как вкатывающийся, ты будешь качать по 10, 20, 50 гигабайт много раз за день и все это окажется бесполезным мусором, пока не ты разберешься что там вообще тебе надо. Модели как файлы не имеют ни малейшей ценности, они устаревают за пару секунд. >Насколько это пиздёжь? И на какую оперативу, всё же, ориентироваться? Тебе нужна не RAM, а VRAM любой ценой, если ты там собрался на голом ЦПУ это все гонять, то земля тебе пухом, и между 6000 и 8000 ты не почувствуешь никакой разницы вообще - будет абсолютно одинаково (очень) больно.
Скачал гемму 26б чтоб юзать её как ллмку для описания картинок, но вместе с комфи не хватает врам. Есть вообще адекватные ллмки в пределах 5-6б для этого?
Ещё вроде можно как то юзать прямо в комфи ллмку с выгрузкой в рам, но все ноды что я находил были с вжаренными ллмками типа мистрали и другие не принимали
>>1626481 Просто не генери пошлости. Но если так приспичило, то я помню что месяц назад гуглил на эту тему и видел вариант с тем чтобы накатить vllm - там есть sleep или что-то такое для выгрузки модели в ОЗУ - и сделать кастом ноду, которая чистит память и вызывает модель в vllm, получает результат, говорит ей спать, и потом запускает уже остальной воркфлоу. Вероятно в комфи тоже есть какие-нибудь команды или кастом ноды на свап в озу - так и победишь.
Другой вопрос что вллм это ебань та ещё в плане установки, лул.
Unsloth Studio, все апдейты накачены, сломан ризонинг во всех моделях. Без разницы, поддерживает его модель, не поддерживает, включен, не включен, ризонинг не виден. Видно только generating... и больше ничего. Но он выполняется, после того как закончен видно Thought for 1 second и этот проделанный ризонинг. Хотя он может идти и минуту, и больше, но пишет всегда 1 second. Это я криво поставил или что это?
И если промпт был с картинкой то всё тут же само чинится и начинает работать, как костыль каждый раз картинку подсовывать. т.е. это баг, вот только на чьей стороне проблема?
>>1626355 Бамп. Никто не использует Квены 3.5-3.6 на Лламе что ли? Если используете - проверьте, пожалуйста, создаются ли чекпоинты. Как на пике в логах.
>>1626572 Проблема в том что это не unsloth. Отличный вопрос, давайте я тогда тоже спрошу а чо вы на рп дергаете когда есть более лутшы. Ты хоть в глаза видел этот анслоп, с этим багом сталкивался? Нет же, только хуету высрал с умным видом.
Будет ли новая QAT версия геммы-26б лучше чем старая в 6_K_XL?
>>1626417 - для нейронок и, вообще, в современных компах насколько можно/нужно использовать SSD? HDD совсем не вариант? Просто смущает возможность хранения всего на SSD, ибо он просто может сдохнуть. Насколько скорости SSD влияют на локальные модели?
Внезапно сдохнуть может всё что угодно, HDD не исключение. Здесь только RAID спасет, без разницы из SSD или HDD дисков. Если переживаешь за то что SSD сдохнет от того что ты на него записываешь что-то в большом количестве - то с хорошим SSD переживать за такое смысла нету если ты не льешь на него по 2ТБ в день, какой-нибудь самсунг быстрее сдохнет от того что у него контроллер умрёт, чем от того что ты упрешься в лимит перезаписи. А если записываешь просто по 100-200гб в день, он лет 10 проживет без каких-либо проблем и как я уже сказал сдохнет быстрее из-за контроллера, чем из-за перезаписи.
Насчёт скорости, модель грузится с с диска в память, поэтому наличие или отсутствие SSD будет напрямую влиять на этот процесс. И какая-нибудь большая модель весом 30гб+ будет грузится довольно долго при первом запуске. Но когда загрузится, разницы не будет потому что после этого будет использоваться RAM и VRAM, куда загружена модель.
>>1626611 Он скапитанил и всё. Лама работает. Что дальше, трава зеленая? Я спрашивал на чьей стороне баг, получил только капитанство от какого-то дебича. Лама работает, вот это новость. Кто-то не знал, наверное.
>>1626422>>1626471>>1626427>>1626613 Спасибо. Так SSD банально нужен для скорости записи нейронок на диск и обращения к ним, так? Т.е. банально можно выделить SSD чисто под программирование, эксперименты и LLMки, а остальное залить на HDD? Я правильно понимаю, что если, в случае HDD, он у тебя барахлит, ты его клонируешь на новый такой же, а старый кладёшь на полку, то со старым ничего не случится, а в случае SSD он от неиспользования просто сдохнет со всем твоим добром? И ещё вопрос о памяти - так DDR5-8000 - оно вообще нужно или нет? Или это для оверлокеров? И, получается, только интел нормально поддержиает такую память? Амуда нишмагла? Или DDR5 6000-6400 не настолько хуже? У вас самих, если не секрет, что стоит y компе?
>>1626620 >Чому кобольды и анслоперы такие агрессивные? То ли дело ЛМстудио-бояре. Успешные, уверенные в себе, но при этом скромные и всегда помогут советом.
>>1626634 >для скорости записи нейронок на диск и обращения к ним, так? Да.
>Я правильно понимаю, что если, в случае HDD, он у тебя барахлит, ты его клонируешь на новый такой же, а старый кладёшь на полку, то со старым ничего не случится, а в случае SSD он от неиспользования просто сдохнет со всем твоим добром? Была как-то давно даже статья на хабре, что если долго держать SSDшки без питания, они начинают терять данные. Но долго - речь о годах, а не о днях-неделях.
Мой совет - не забивай голову на счет надежности SSD. Если это не дешманское барахло, то SSDшник у тебя несколько компов переживёт скорее всего. Просто периодически делай бекапы на HDD и храни его на полочке. Если ты держишь все данные только в одном месте (пусть даже на самом лучшем и надежном HDD), считай что у тебя уже нет этих данных. Бекапы - это база.
>>1626640 Я мимокрок, но мб ты подскажешь. У меня вот как раз два дублирующих HDD есть, но они не в RAID, а просто внешники с идентичными данными, которые лежат на полочке. Если они будут лежать лет 5, файлам хуево не станет? Или 10? Стоит сделать манифест с хеш-суммами всех файлов/папок или как вообще эту задачу решать?
>>1626641 Что-то слышал про то, что HDD может и 40-50 лет пролежать, пока размагничиваться не начнёт. Но инфа не соточка, на этот счет лучше корпо-нейронку помучать, наверное.
Свои бекапы организую довольно просто: файлы на компе дублируются на втором компе и дублируются на ноутбуке (везде SSD). Переношу на внешнем HDD и на нём же они остаются как дополнительная копия. Достаточно надёжно, ящетаю.
>>1626634 > Так SSD банально нужен для скорости записи нейронок на диск и обращения к ним, так? Т.е. банально можно выделить SSD чисто под программирование, эксперименты и LLMки, а остальное залить на HDD?
Для "обращения" - не нужно. Когда ты общаешься с LLM, ты общаешься не с файлом который находится на диске а с его копией внутри RAM/VRAM. Взаимодействие с самим файлом будет только при первом запуске когда он копируется с диска в RAM/VRAM. И вот здесь скорость копирования будет напрямую зависеть от скорости чтения диска.
>И ещё вопрос о памяти - так DDR5-8000 - оно вообще нужно или нет? Или это для оверлокеров? И, получается, только интел нормально поддержиает такую память? Амуда нишмагла? Или DDR5 6000-6400 не настолько хуже? 6000/6400 более чем достаточно. С текущими ценами на память покупать 8000 можно только если тебе совсем девать деньги некуда. Прирост для LLM небольшой будет но оно того не стоит, уж лучше потратить тогда деньги и поставить больше памяти, чем меньше но с большей частотой. Это, по крайней мере, позволит запускать более жирные MoE модели.
В добавок к этому, с 8000 могут возникнуть проблемы со стабильностью, да еще и на материнку придется потратиться которая сможет память на такой частоте запустить.
>>1626646 >40-50 лет Разве только абсолютно оторванная от жизни "сохранность данных на пластинах". В HDD всегда отказывают головы и механика, на блины никто не жалуется. В даташитах к сигейтам указано, что их нельзя хранить, надо запускать раз в пару месяцев, а в идеальных условиях - раз в полгода или что-то в этом роде.
>>1626427 Помню был зеленым, крутил модельки на своем С диске, в итоге он у меня не умер, но система просто так сильно лагать начала. И в этом скрывается главное пиздабольство тех, кто говорит 96-98% здоровье после 5 лет работы. У меня за 5 лет работы ресурс был 170TBW, при гарантированных 150 у бичевого смартбая на файзоне, а также 4к включений на 25к часов работы. В итоге кристал диск писал 41% здоровья. Казалось бы, не используй системный диск для моделек, но главный факт который они упускают - они не пользуются пк вообще.. Только какой-то ворд мб. Так как даже файла подкачки на этом диске у них нет, поскольку ТВW у таких за 5 лет работы на сасунгах под 10тб.
>>1626669 Ну то есть ты купил ультрадешевый SSD, который не наебнулся через месяц, отслужил весь гарантийный срок и даже превысил заявленный заводской ресурс в 150TBW, но при этом ты чем-то недоволен?
>Так как даже файла подкачки на этом диске у них нет А зачем он нужен при достаточном объеме рам? Тут у каждого второго тредовичка 64-128гб.
>>1626673 Я доволен своим положением, я не доволен пиздежом в масс-культуре про сасунги и их 96-98% после 5 лет работы, так как это пиздеж-ложь-провокация >А зачем он нужен при достаточном объеме рам? А если у меня хром, сука, может кушать под 8гб на 16рама, то мемредакт устраняет эту проблему, и он как раз требует файл подкачки, так как выгрузит именно туда всю эту хуйню. Ну и файл подкачки используется для своих махинаций в винде, так что даже санные 4гб подкачки нужны будут даж на 512гб рама
>>1626680 >а твоя проблема, скорее всего, называется петушиндовс Она была бы валинда, если те кто ссыт этим в уши сидели бы на убунту и тд. Но нет, они же указывают это на винде. Это не смешивание, а просто указывание на то, что они не используют компьютер в той мере, в которой использую ее я.
Анон, помоги вкатуну-рукожопу. Решил поиграться с этими языковыми моделями (и проиграл). Почитал базу, скачал llamacpp+SillyTavern. Хотел попробовать всякие кумерские фанфики погенерить, вычитал что magnum-v4-12b-Q4_K_M вроде как хорошо сочиняет. Запустилось, отвечает. Только пишет или пресно, или бред, или в цикл самоповторов впадает. Крутил настройки таверны, но лучше не стало. Может есть готовые престы какие то под такие задачи? И вообще, какого качества такая модель может писанину выводить? Понравилось как грок пишет, но видимо с моим железом такого и близко не получится (4070+16ram).
>>1626669 > Только какой-то ворд мб. Так как даже файла подкачки на этом диске у них нет, поскольку ТВW у таких за 5 лет работы на сасунгах под 10тб.
980 Pro, 3 года, файл подкачки включен, качаю LLM и игры и активно пользуюсь виртуалками. 60TB за всё это время и 96%. При заявленном ресурсе 1200TB, а по тестам на достижения лимита перезаписи самсунговские диски живут намного дол
Ну да, не качаю 50 разных квантов по 100гб каждой новой LLM, не качаю фильмы в BDRemux каком-нибудь по 50гб каждый и не держу 500 вкладок в браузере одновременно. В остальном компьютер используется самыми разными способами.
Поэтому не вижу смысла претензий про 10 лет и самсунги. Те кто занимаются монтажом могут и за 3 года его убить записывая терабайтами в день, но это не значит что все остальные у кого они живут больше двух лет врут.
>>1626641 >Стоит сделать манифест с хеш-суммами всех файлов/папок или как вообще эту задачу решать? Вообще нормальная для бекапа FS должна умееть делать это автоматически. В частности, из популярного, на пингвинах есть btrfs - она по умолчанию хранит контрольные суммы для всего. Никакие silent corruption данным на ней не страшны. (Только не надо средство проверки с резервированием путать).
>>1626684 >Она была бы валинда, если те кто ссыт этим в уши сидели бы на убунту и тд Валидна, получается.
У сосунгов своя память и свои контроллеры, это охуенно надёжные SSDшки. Независимые тесты ищутся за 5 минут в гугле. Единственный их минус - это лютый оверпрайс по сравнению с массмаркетом.
>>1626688 >magnum-v4-12b-Q4_K_M Этой модели года два, если не больше. В мире нейронок - это вечность. Просто скачай свежую гемму из гайда для новичков в шапке и будет тебе счастье.
>>1626675 > я не доволен пиздежом в масс-культуре про сасунги и их 96-98% после 5 лет работы, так как это пиздеж-ложь-провокация Ради тебя скачал CrystalDiskInfo и проверил свой 2ТБ NVME2 от Самсунга, который использую каждый день с начала 2023. Вполне могу поверить в 96% после 5 лет работы. Это мой единственный диск в системе.
>>1626707 Тут суть была в том, что их 96-98% были объясненены их TBW 10тб, у тебя же 2тб диск у которого по паспорту гаранития под 700-800 TBW Вот эти аноны они просто указали диски без здоровья >>1626698 >>1626694 Вот как на скриншотах
Ну что, где сравнение qat с обычными квантами? У gemma 3 qat сосал у обычных q4 квантов, мне кажется всеобщее молчание и отсутсвие бенчей говорят что и сейчас похожая хуйня.
>>1626726 2.5 и 3.5 квена? Ты можешь конечно попробовать квен, но я на твоем месте мозг не ебал и установил гемму4 26б-а4б. Если у тебя 16 врама и 16 озу то можешь спокойно скачать Q6_K или Q8_0 и будет тебе счастье
>>1626730 Сколько у тебя памяти? Я значит сейчас гоняю эту qat q4_0 26b гемму, она весит 14гб, у меня 16 озу и 6 врама. Я поставил 32к контекста и 512 блас. Главное выставить в ней SWA и jinja, контекст смарт уйдет, но можно будет поставить контекст шифт. или наоборот, не помню эти названия.. Получаю сейчас на половине контекста 10 т\с
>>1626688 Если гемма 26б вдруг не зайдёт, то 12 врам с выгрузкой тебе должно хватать на относительно быструю работу тьюнов 24б мистраля, типа cydonia. Среди немо магнум тоже далеко не лучший. На инглише популярная классика MN-12B-Mag-Mell-R1, NemoMix-Unleashed и Rocinante. И да, мистрали лютейше лупятся, тут вряд ли что-то сильно можно улучшить, только править текст руками. Но и гемма тоже этим страдает, только кайнда по-другому. Ну и промптить тебе в любом случае придётся. Если у тебя уж магнум из всех возможных пишет пресно, то гемма вообще будет сухую ассистенщину писать, подозреваю. В соседнем корпотреде должно быть дохрена пресетов. Можешь почитать их и надёргать себе понравившиеся простые инструкции для более ярких описаний.
>>1626695 Дефолтная зацензурена. Скачивал - нахуй шлет. >>1626697 Его мне другой лоботомит насоветовал (гемини). >>1626758 Скачал из шапки G4-MeroMero-26B-A4B-Q4_K_M. Пока странно. На стандартных настройках таверны поначалу начала срать каким то техническим мусором, потом относительно нормально начала писать. По уровню пошлятины похоже на грок, но иногда Русскую грамматику забывает, не такие длинные тексты выдает и литературно как то победнее. Надо будет с промптами покрутить...
>>1626751 > В конец очереди! Да ладно, устроит если кто-то из китайцев в свои софтины добавит. Возможно даже хватит нормальной работы в sglang а пары вечеров чтобы навайбкодить.
>>1626777 >Скачал из шапки G4-MeroMero-26B-A4B-Q4_K_M. Не понравилась, хуйня. Стандартная гемма лучше, цензуры нет, систем промпт просто сделай нормальный, мне хватает даже басяцкого You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}. Use only Russian language.
>>1626777 >Дефолтная зацензурена. Скачивал - нахуй шлет. Странно, у меня не зацензурена и нахуй не шлёт, кум рекой льется. >иногда Русскую грамматику забывает Как и практически любой тюн/анцензор - это всегда сломанный русик. >Надо будет с промптами покрутить... Вот это уже в правильном направлении мысль. Попробуй сделать это в ванильной модели и удивишься на что она способна.
Оно уже подходит к грани юзабельности, смог вместить макс контекст на 4070. Раньше такие влазили с 30к что просто ни о чем, пару постов агенту и уже переполнение
Я нигде не налажал? Может стоит уменьшить но убрать квантование кэша и как флеш атеншен влияет я тоже хз, тыкал по советам нейронки.
>>1626318 >в третьей гемме qat был сломан русик Сам себе не ответишь - никто не ответит. Скачал четвертую гемму 26b qat от анслопов, потестил немного, на первый взгляд русик не пострадал. Отвечает достойно, какой-то значительной деградации по сравнению с Q8 не заметил. Годнота!
>>1626842 >Мне сетка так сказала. Бесплатная версия небось. >Так что меньше чем 17гб не будет? Нет смысла сжимать уже сжатую версию. Если тебе нужно меньше 17 гиг, бери кванты обычной.
Поясните про QAT, пожалуйста. Я так понимаю, там типа q4 с качеством q8? Это только для геммы? А то при таких вводных очень вкусно смотрелся бы квен 122, или по крайней мере 27B, а то SWA выглядит говновато, если в ролеплее надо все данные контекста учитывать.
>>1626862 Открой все окна чтобы не отравиться озоном Выключи все мерцающие флуоресцентные лампы Увидишь Элару - беги. везёт тебе. а я наверно слишком чувствительный к слопу, он hits me like a physical blow каждый раз. не могу больше геммой пользоваться
Большое спасибо! И вам, и анонсам, которые писали шапку. Перечитал всё, почерпнул много нового и удалось развернуть две модели по вашим советам. Кажется, оно! Потрачу ещё пару дней и буду лучше понимать.
>Впрочем, у тебя там такие задачи охуительные, что как минимум Opus юзать надо. Любая локалка обосрется с тем же UI, особенно квен. А вот гемма с интерфейсом получше справится.
Да, понимаю, я описал идеальный вариант. Мне скорее натягивать вёрстку, а это чуть проще должно быть
>>1626799 Гемма лучше зирошотит какие то задачки, но агентом только квен в таких размерах, он ебет. Ну а еще он не рассыпается на 100к контексте, гемма во первых плохо видит большой контекст и хуже как агент изза этого во вторых, у нее предел чет около 60к в оптимистичной оценке
>>1626820 Пострадал. Погонял на русском, заметно хуже. Иногда реально самую малость, иногда пачкает штаны на каждом шаге буквально - согласование, слова придумывает, контекст теряет явно сильнее. На удивление сильно рефузит. Короче сносно, но (не помню как там на Q4 было), до Q8 отчетливо не дотягивает, чуда не произошло.
Говно. Но соперник достойный. Правда вот, 12б не нужна, ибо нищуки легко могут гонять МоЕ квена и гемму. Они даже в четвёртом кванте умнее будут, правда на английском. Если вот русик нужен, тут уже проблемы — 12б гемма хуже в русском 10б МоЕ гигачата.
>>1626868 Блядь. Я думал, так только ГЕМИНИ спамит. А оказалось, что и гемма. Просто ни разу не встречал у неё такие лампы. Вот озон да. Вот "он не просто срал, он обсирался". Сенсорной перегрузки тоже много. Но чтобы и лампы эти.. Кстати, олд мена хемлока там не было?
>>1626854 С качеством Q4+. Короче, просто будет лучше, чем грамотно сделанный квант аналогичного размера, но не более того.
>>1626945 Так QAT — это максимальный шакалинг. Примерно как у фотографа, который берёт равку, СЖИМАЕТ и редактирует настолько, насколько может (особенно это актуально раньше было), чтобы было приемлемое качество для печати на говнопринтере в фотостудии "ВСЁ ФОТО ЗДЕСЬ". Оно может смотреться неплохо, но это уже предел допустимого. Сжимать уже сжатое затея супер хуёвая.
>>1626996 > >mtp > Это даст хоть какой-то прирост, если модель частично на цпу? Не даст хуже будет даже.
> Так и оно тоже в 16 не влезет, про контекст-то не забывай. 12-13гб впихнется, наверное, но там совсем лоботомитище будет. Влезет если у тебя 30-200 мегабайт vram системой занято.
Траст ме бро? Предпочту проверить сам, к квалификации местных экспертов есть вопросики особенно после вчерашних обещаний что qat меньше 17 гигов не жди.
>>1627013 Это ты к чему? mtp же не эксклюзивно для gguf в любом случае. Но я глянул, пока что вроде еще не слито в главную ветку поддержка mtp для геммы в лламе цпп.
>>1626592 Что ж, отвечу сам себе. Квены 3.5-3.6 используют такой вид аттеншена, что чекпоинты необходимы. По крайней мере, в имплементации Лламы. Это не swa аттенш и не swa чекпоинты, но флаг используется тот же и суть в целом та же. Так что это не баг, а ожидаемое поведение. На Гитхабе есть несколько ишью, что репроцессинг происходит тогда, когда его быть не должно, но это не мой кейс. В целом, для ассистенточатика и агента без фоновых процессов в 24+128 вполне лезет 122б Q8 с виженом и 256к контекста. ~9 tg, ~350pp. Медленно, но юзабельно.
>>1627024 Блядь. Ты понимаешь, что модель обучена работать ТОЛЬКО в той точности, которую задал ей Гугл? Шаг влево, шаг вправо — и всё посыпется. Да, полные веса тоже не рассчитаны на шакалинг, но при грамотной квантизации они подвергаются куда меньшей деградации, чем в случае изменений QAT-версии. Менять QAT — стрелять себе в член.
Ну если не веришь, просто спроси и корпоративной нейронки, включи дип рисёрч, пусть вытащит всю инфу про QAT, комментарии экспертов и расскажет тебе.
>>1627005 > Так QAT — это максимальный шакалинг. Примерно как у фотографа, который берёт равку, СЖИМАЕТ и редактирует настолько, насколько может (особенно это актуально раньше было), чтобы было приемлемое качество для печати на говнопринтере в фотостудии "ВСЁ ФОТО ЗДЕСЬ". Оно может смотреться неплохо, но это уже предел допустимого. Сжимать уже сжатое затея супер хуёвая.
Разве эта аналогия не для обычных квантов больше подходит? Где как раз таки в качестве RAW выступает safetensors формат а потом сжатие идет в различные кванты.
А QAT как раз таки еще на стадии "RAW" тренируется в 4bit.
Не защищаю QAT и все еще жду тестов чтобы понять лучше ли 6_K_XL чем 4bit QAT, потому что экономия 8гб памяти выглядит очень вкусно.
>>1627024 > после вчерашних обещаний что qat меньше 17 гигов не жди. Что абсолютная правда, потому что QAT в данном конкретном случае обучался для квантования в 4 битах. Если его квантовать после этого, он будет работать хуже обычных Q2-Q3 квантов. Как минимум не лучше. Это так же глупо, как архивировать .zip архив в другой .zip архив. > Предпочту проверить сам Меньше балаболь - больше проверяй сам, а не генери токсичность в треде, ничего не понимая в сабже.
>>1627077 > А это что > Сделали же меньше 17, сделали. Ты же грозился проверить сам. Чего не проверил? Или для тебя достаточно, что сам квант существует? Скачай, запусти и погоняй любые тесты-вопросы. Убедишься, что он работает как говно без задач.
Я так и не понял что качать обычные кванты статические или КАТ квантованный? Для геммы 4 12б, будто бы разницу под залупой надо разглядывать, особенно если ты не кодер и не математик. Ещё будто бы хуйхуя аблитерация интереснее, чем еретик, еретик стесняясь писал хуйню на параграф максимум, хуйхуй сразу уверенно выдал стену
>>1627079 Доказательство бремя утверждающего. Я не говорил что он не тупой, говорил что он есть. Так что проверь если тебе не сложно, у меня интернет лимитный. q3-km версия 15.3 гигабайта.
>>1627100 Терпи. И не важно с кем ты общался, ты поставил под сомнение выводы местных анонов, а значит без доказательств их пиздежа ты идешь нахуй пока не притащишь пруфы. Но ты решил слится да? Где же твое кококо беря доказатеьства на утверждающем? Работает только когда тебе выгодно да? Очень удобно, согласен
>>1627084 > Так что проверь если тебе не сложно Уже проверил и даже написал, что из себя представляют данные кванты. Пруфы тебе тут собирать не буду, обойдешься. Никто тебя за язык не тянул и не побуждал наваливать, что все вокруг набрасывают, а ты все проверишь сам. Проверяй.
Как сделать что бы кеш только на одной карте был? Я вижу что после начала генерации на второй карте все равно врам подскакивает, хотя по идее там только слои должны лежать.
>>1627090 > Я проверю когда будут рп тюны чтобы не зря качать. А сейчас пока нет даже анценза или не нашел его. Не будет их. QAT + тюны = невозможно, что еще раз подтверждает полное неведение в сабже. Ты там не просох еще или почему метаешься между "вы все врети, я проверю сам" до "проверь, пожалуйста" и откровенной околесицы?
>>1626785 >>1626789 Ладно беру свои слова назад. С систем промптом гема пиздц извращуга. В ламовском фронте все работает. Значит надо крутить настройки таверны (а может и хуй с нет. и так збс).
This PR adds MTP support for Gemma 4 models. For the MoE model I don't observe a speed-up on my system, but the dense model has on average >2x speedup. Correctness wise I am able to replicate the AIME-26 (~87%) results as advertised by the Gemma team. This works for the 31B and 26B-4B but not the E4B E2B variants for now.
Господа, попробовал Gemma 4 и в таверне, она обрезает текст и прямо шпарит с шаблона первого сообщения весь чат. Юзал эти настройки >>1626114 Как быть?
>>1627215 gemma-4-31B-it-Q4_K_S Другие модели не обрезали раньше. На третьем скрине видно, что формат первого сообщения повторяется до скончания веков потом.
>>1627228 Я все еще не понимаю, что там обрезается. На втором пике сломанное форматирование с нулевого(!) сообщения, что гарантирует плохие выводы впоследствии. Чем накормишь модель - тем она и будет отвечать. Так, если у тебя сломанное форматирование с самого начала - оно будет сломано и дальше. Если речь про то, что ответ не содержит логического окончания фрагмента текста - это ожидаемое поведение, ты ограничил бюджет ответа 350 токенами. Для некоторых моделей это слишком мало, потому так и происходит, а некоторые найдут способ закончить так быстро. Повторение формата сообщения - это структурный лупинг, и совсем другая проблема.
>>1627228 Ты ебанутый? Ставь исключительно те семплеры, которые рекомендованы разработчиками. Отключи сраный adaptive p, dry. Ну и тут тебе сказали про ответ в токенах. С мышлением модель пишет 1200-2500 токенов обычно, а без него 400-800. Ну коль хочешь, указывай модели, чтобы отвечала кратко. Напиши примерное количество абзацев, предложений, которые ты ожидаешь от неё, при этом оставь хотя бы 1000 токенов на ответ.
Иероглифы она как раз пишет из-за твоих ебанутых семплеров, которые ты включил.
Min p не трогай, про который тебе говорили. Гемме это совершенно не нужно. Более того, модель чрезвычайно детерминирована. Ты можешь все семплеры отключить, поставить температуру 1 и ответы почти ничем не будут отличаться. Но лучше сделать так, как было написано у Гугла в рекомендациях.
Это с некоторыми старыми моделями можно семплеры дёргать, ну и с теми, которые не слишком детерминированы. Или при специфических задачах. А гемме температуру хоть 0, хоть 999 ставь — ответы будут одинаковы почти и без бреда, если top p 0,95 и top k 64, как рекомендовано, в отличие от других моделей. При стандартном порядке семплеров.
>>1627191 >жора продался китайцам Никто этого не говорил, шиз. Наоборот, подсирает китайцам как может, пр на дипсик уже месяц висит, жора просто делает вид что его не существует.
>>1627239 >ты ограничил бюджет ответа 350 токенами Кстати, как тут правильно поступить если я хочу короткие сообщения но не хочу упираться в обрезы? Почему нет слайдера "софт лимит" или типа того, когда модели отправляется указанное число как желаемое, но на самом деле лимита технически нет? Тупейшая реализация если честно
Время охуительных историй. В прямом и переносном смысле.
Сегодня из интереса страдал полу(?)херней экспериментируя с тем, что квен и гемма (и их тюны) умеют в плане работы с "художественным" (фанфик это был, фанфик) текстом в относительно больших объемах. . Как среда для работы использовался opencode (да, это я - тот упоротый, который в нем даже RPшит).
Сначала был скормлен модели один специфический фанфик длинной в 116КБ в формате plain text с заданием - сделать суммари сюжета, написать резюме каждого персонажа, и сформулировать особенности стиля "чтобы ты сам понял по этой инструкции как написать в таком стиле". Тут ничего интересного не случилось - управились все, практически одинаково.
А вот дальше, я набросал ~5kb сценария для как бы второй части и дал задачу: "Используя файл суммари и файл сценария, напиши мне вторую часть рассказа, но так чтобы его длинна была примерно как у первого". И вот здесь началось интересное.
Gemma 4 26B-a4B, как выяснилось, на такое не способна принципиально, в любой эпостаси. Эта хрень даже не смогла преодолеть рубеж в 4096 токенов на вызов инструмента (техническое ограничение сетапа) - т.е. подобный текст модели надо писать кусками иначе ошибка вызова инструментов получается. Gemma мало того что не вкуривает, так еще и прямое указание "разбивай работу на части, пиши по N строк" игнорирует. MeroMero, на удивление хотя бы попытался выполнить инструкцию, но все равно не вкурил что нельзя для всех частей использовать инструмент write - он перезаписывает файл. Нужно для второй части и далее вызывать edit чтобы дописать в файл. Эти были в Q8, если что. (А плотная гемма с нужным контекстом в мое железо не лезет, увы.)
Далее попробовал этой же задачей помучать квен 27B (iq4xs - этот как раз помещается).
Чистый квен 3.6 справился легко, все технические нюансы вкурил сам, написал рассказ... и сказал: "у меня тут маловато получилось, зато строго по сценарию". Сам текст - как обычно, слегка суховатый, "технический".
Тюн квена 3.5 Marvin - технически тоже справился сам но думал над ошибкой переполнения дольше. Зато текст живее. Хотя фактологические отклонения от сценария появились. На размер тупо забил, ничего не сказал. Написал примерно 40KB вместо 116.
Тюн квена 3.6 Melody1437 - сам не разобрался что происходит, почему ошибка переполнения. Но с уточнением в инструкции - послушался и стал писать частями без проблем с первого раза. Очень качественный текст - лучший из всех попробованных моделей. Но самое интересное началось дальше - он написал ~30кб, а потом говорит: "Ой, у меня тут что-то совсем мало. Так нельзя, меня просили 116Kb. Надо увеличивать размер, буду добавлять детали и сцены" - и сцуко, таки начал именно это и делать. Причем по делу. Я когда начал вчитываться - разница по качеству текста у этого тюна и стока 3.6 - как у этого самого 3.6 и 3.5, если не больше. В общем - прифигел я малость.
Да, это были тексты на английском.
Мораль? Выводы? Нет их. Чисто поделился субъективными наблюдениями, может кому пригодится.
>>1627172 А я вот тоже беру свои слова назад. QAT гонял сейчас два дня, там понял что она не хочет описывать как сосет, plap-plap и прочее. Она не уходит от ответа, она дает дальше, но не описывает прямой половой акт, а завуалированно делает это. Не помню было ли это в обычной гемме4, но сейчас поставил heretic QAT и она наконец начала описывать минет и прочее, но она тупее чуть, пока даже по тексту видно. Поэтому прошу систем промпт который обойдет данную шелуху.
Я скачал на тест себе Qwopus 3.5, это типа квин но обученный на ответах клауда? Ещё работает медленно на моём ведре, есть тут кто шарит за тему клауда? У геммы тоже нашел подобное.
>>1627404 >Неиронично попробуй тоже самое через pi Двачую. Плюсы Опенкода для РП - встроенный инструмент выбора вариантов (с возможностью ввода текста пользователя) и возможность вывода в браузер, под это в pi довольно легко можно написать (попросить агента написать) свои расширения. Локальный Квен-3.6 справится. Зато править собственные инструменты сможешь как захочется.
>>1627402 Есть мнение что анцензы нужны не только затем что не требуют промт который заставляет сетку а ещё тем что она с ними не пытается сгладить сцену замылить и не спотыкается выдавая результат хуже когда ты её нагибаешь промтом.
Какова должна быть идеальная бюджетная модель по вашему мнению, чтобы можно было за ~20-40к пеку модифицировать (не купить с нуля, а добавить к уже имеющемуся, среднему пк) для вката? Мне кажется нужно 16-24гб врам, 32-48гб оперативы и нужно чтобы запилили хорошую МОЕ 100b с экспертами по 25-33b, чтобы можно было запустить в 4-5 кванте.
>>1627516 Если ты можешь вместить эксперта в врам и всю модель в рам, то мое будет куда лучше, чем плотная модель которую ты сможешь вместить просто в рам
>>1627513 Учитывая, что никто не знает, что там дальше будет, то я бы закладывался в сбалансированную сборку, например 32 vram и 64гб ram. Так и плотнячки влезут, и средние МоЕ.
>>1627513 Что-то типа 120б моэ, свитспот. >>1627520 > сбалансированную сборку, например 32 vram и 64гб ram База, если не космические цены то рам до 96-128 докинуть было бы полезно.
>>1627404 >>1627461 Все собираюсь Pi пощупать, но никак не задушу лень чтобы сетап нормальный с ним сделать. А пускать живьем на основную машину стрёмно - в нем вообще никаких встроенных ограничений нету. opencode хотя бы минимально проверяет всё, чего там модель дергает, номинально прикроет от попыток вроде "rm *" где не нужно. Да, слабенько, но хоть что-то. Pi же с его философией "безопасность и ограничения - не моё дело" из докера или виртуалки выпускать страшно.
Кроме того для opencode есть очень хороший плагин DCP, который хитро "сжимает" контекст так, что при этом почти не плывет его смысл для модели. В коде реально рулит по сравнению с стандартным compact.
Короче, кто там спрашивал про чекпоинты. Сейчас логика такая что чекпоинты создаются: checkpoint перед последним user message checkpoint около prompt_end + ubatch - 4 checkpoint около prompt_end - 4 Причем в этот prompt_end входит и отпущенный контекст под сообщение ИИ, который обычно примерно ubatch и равен.
>>1627513 Смотря для чего, для кума апгрейды выше 16/32 выглядят сомнительно и с учетом прогресса в этом деле за последние пол года тоже. Тут лучше не спешить.
>>1627480 Да вот с одной стороны и хочется чтобы описывала еблю, но с другой что она теряет ум >>1627514 А в целом валидно что анцензоред лоботомитит на хоть какой-то процент. Попробовал хуйхуй уже обычную геммочку4, ну так же. Она тупее.
Я понимаю тут сидят серьёзные дяди с vLLM и ригом по 10к долларов, но хочется поделится опытом нищенейронщика, короче, дрочился я с MTP, чё-то выставлял, прироста 0 на 3060, с большим контекстом, с маленьким, похую, ставил разное количество --spec-draft-n-max, квантованный кэш и некванотванный. Отдельно тестил всяких анцензоред Гемм 4 12б, хуйхуй полная хуйхуйня бля, после 3-4 тысяч токенов сносит башню конкретно, кат еретик норм, лучше просто еретика, около 20к вроде полёт нормальный, дальше срать её лень заставлять
>>1627569 Qat при тренировке применяет к весам дополнительную транформацию, подгоняя их под дискретность кванта и приспосабливая модель сразу работать в таком виде. Еретики и подобные манипуляции завязаны на модификацию весов, нарушая изначальную подгонку под целевое квантование. Если полученное потом квантануть - получится хуже чем квант оригинальной модели. Это помимо побочных эффектов от расцензуривания, ломается сама концепция qat.
>>1627570 >анцензоред Гемм 4 12б mtp на llama.cpp сегодня работает только в qwen3.6 unsloth/Qwen3.6-27B-MTP-GGUF . Остальное не удалось завести. На плотной модели прирост плюс-минус x2. На moe - х1.5. Мой конфиг для 2х 3060: llama-server --model /models/Qwen3.6-27B/Qwen3.6-27B-UD-Q4_K_XL.gguf --mmproj /models/Qwen3.6-27B/mmproj-F16.gguf -ts 1,1 -ngl 99 -c 65536 --cache-type-k q8_0 --cache-type-v q8_0 -fa on -np 1 --spec-type draft-mtp --spec-draft-n-max 3
На гемме тоже все работает. --spec-type draft-mtp -ctkd q8_0 -ctvd q8_0 --spec-draft-n-max 8 --model-draft "google_gemma_4_31b_it_qat_q4_0_unquantized_assistant-Q4_K_M.gguf"
>>1627526 Ну я гоняю уже длительное время и если ты не оформляешь тряску и не устраиваешь ему лоботомию ахуенными систем промптами, то он по умолчанию из коробки никогда рм рф тебе не устроит... если ты его об этом не попросишь
Ограничения это смешно, просто потому, что ничего нахуй ему не мешает въебать rm rf через питонячий скрипт если ему больно захочется или отредактировать свой же конфиг. Это ложная защита, а еще более ложная та, что ты печатаешь модели.
Кароч, трясись не трясись, одинаковый исход. Только ебаниной типа писать в препромте про отсутствие галюцинаций и список папок которые нельзя читать не организовывай. Просто пользуйся по вопросикам
>>1627594 Она тупее становится. >>1627576 Спасибо за грамотный разбор, для меня абилитирейдед и прочие модельки всегда были в голове такими, что у них цензур блоки вырезают\уменьшают их влияние на саму модель, но из-за того что цензура чаще всего встроенна глубоко в модельки, ты как бы не хотел, но часть мозгов срежешь. Что и собственно я и получал от всех uncensored мерджей моделей
Я тут потестил гемму 12b q8. Чет так-себе она мне показалась. Гемма 26b заквантованная в щи (apex mini от mudler) намного умнее, хотя весит столько-же и при этом MoE
Похоже, имплементация QAT в Лламе все-таки сломана. Довольно долго я вчера гонял тесты, заметил следующее: - Опечатки в словах, даже английских (pat становится pet), неверная грамматика (несколько раз употреблялось неверное время в одном из предложений) - Ошибки в именах (как это делает Air. Mio становится Mina, Kaori становится Kaou и т.д. Возможно часть первой проблемы, но Air опечаток не допускает, а имена факапит) - Гиперфиксация на какой-то части контекста, что проблема и с Q4_K_M квантом (и другими Q_K) и, видимо, поведение самой модели, но с QAT квантом проблема еще больше выражена - Еще более чрезмерное следование инструкциям и меньший креатив. Через несколько аутпутов это словно болото, пэйсингу не поддается и тонет в собственном контексте, отрабатывая по уже существующему - Еще хуже работает аттеншн, детали теряются еще раньше В целом, QAT ведет себя как Q4_K_M - Q5_K кванты, но менее поровотолива и глупее. Откровенного мусора в аутпутах я не видел, но все время ловил себя на мысли, что что-то не так. Максимально странное, что было - модель внезапно начинала писать в present tense, когда весь контекст в past tense. С Q4_K_M ни разу такого не встречал. Тут-то я пошел за опытом других.
Много что читал, но мне кажется, данный пост может объяснять суть: https://www.reddit.com/r/LocalLLaMA/comments/1u00zm2/comment/oqfc7vj/ > The main issue is converting from QAT BF16 to llama.cpp's Q4_0 format is not lossless. llama.cpp uses F16 scales, whilst QAT BF16 uses BF16 scales, and the scales are not determined optimally in llama.cpp land. Naive conversion gets 24.77% byte exactness to BF16 QAT, whilst we found we can push it to 99.96% using some hacks! Вероятно, существует проблема с замерами, и даже если нет - оставшиеся 0.04% могут ломать модель. Это же к вопросу о использовании bf16 контекста в Лламе: это мало что меняет или не решает проблему полностью, потому что на стороне бэкенда множество операций по-прежнему в fp16. И я, сколько ни проверял, так и не увидел разницу между fp16 и bf16 кэшем, тестируя и на Гемме, и на Квенах.
Когда только начал гонять QAT + MTP, то обрадовался, и на радостях хотел было уже гайд обновлять, но все слишком неоднозначно. MTP, кстати, дал мне более чем двукратный прирост в ассистентских и кодозадачах, с 40 до ~95 токенов; и с 38 до ~50 токенов в сторителлинге и рп. Сейчас все же лучше использовать Q_K кванты, но на них MTP я пока не успел протестировать. Думаю, показатели будут плюс-минус те же.
>>1627600 >MTP, кстати, дал мне более чем двукратный прирост У меня 16 врам и я гоняю гемму 26b в Q8_0, получаю примерно ~25т/с. Модель естественно наполовину в оперативке. В моём случае стоит использовать MTP? Будет прибавка к скорости хоть какая-то? Или это только для фуллврам бояр фича?
>>1627594 > эффект от QAT остаётся Нужно смотреть и измерять как повлияет. Может быть достаточно самого факта изменений вне сетки чтобы все поплыло, ложка дегтя в бочке меда. Если потрудиться, можно действительно сохранить эффект, но ни в оригинальном еретике, ни в форках хендлинга qat не добавляли. >>1627598 Дуй вдоль радиатора не поперек, там половина площади перекрыта и воздуху некуда выходить. >>1627600 Сама по себе имплементация сломанной быть не может, ведь это просто стандартный квант без чего-то дополнительного, суть в самих весах. Могут быть проблемы с алгоритмами квантования, что они отличаются от задуманных > llama.cpp uses F16 scales, whilst QAT BF16 uses BF16 scales собственно вот оно. Может отличаться инфиренс от тренировки (точнее он точно отличается из-за лишних кастов дататипов). И поведение модели в qat может быть немного иным относительно исходника. Все это вместе скорее всего и наблюдается.
>>1627606 > Сама по себе имплементация сломанной быть не может > Могут быть проблемы с алгоритмами квантования, что они отличаются от задуманных Именно это я и имел ввиду, да. Недостаточно ясно высказался. Проблема в имплементации квантования QAT весов или, похоже, это хардкод Лламы - использовать F16. > И поведение модели в qat может быть немного иным относительно исходника. Все это вместе скорее всего и наблюдается. Это так, но вот, например, целый тред https://www.reddit.com/r/LocalLLaMA/comments/1tzib7d/qat_variant_of_gemma4_26b_a4b_is_not_working_well/ где немало людей отписались, что у них QAT кванты работают стабильно хуже Q4_K квантов. Как минимум тут нет однозначного ответа. >>1627604 Я не пробовал на МоЕ, но позже попробую. Если интересно - могу отписаться.
>>1627604 я из интереса погонял, там прирост пару токенов в секунду (что в целом норм, если есть лишние ~500мб VRAM под драфт модель), может я опять накосячил с флагами , я не шарю, но видимо упор уже в скорость ОЗУ идёт
>>1627604 Я пробовал новую мое кат гемму, при неполной выгрузке скорость все равно бустит мтп, где то на 30 процентов. Выгружается 2/3 модели в гпу. При полной у меня по крайней мере гемма 12b получает x2 к скорости генерации.
>>1627610 UPD: нет, не попробую. 26б MTP пока не поддерживается на мэйнлайне, будет позже. error loading model: unknown model architecture: 'gemma4_assistant' Прирост вероятно будет, но незначительный. Не думаю, что это имеет смысл.
>>1627610 Да, отпиши, пожалуйста, буду признателен. Если вот эти аноны правы>>1627618>>1627605 и на частичной выгрузке работает, то это ж ПРОРЫВ буквально. А если ещё и с плотняшей 31b прокатит, то превратить ~6т/с в ~12т/с - совсем сладенько будет. Тут можно и эйр удалять с чистой совестью.
>>1627615 Это на плотной? Отзывы конечно у людей совсем разные. У кого-то x2, у кого-то вообще прироста нет, у кого-то наоборот замедлилось, лол. Сам смогу наверное только ближе к ночи проверить, или завтра. Очень интересно.
Ещё видел на реддите кто-то писал, что понижение температуры, хоть и снижает креативность, но зато баффает скорость с MTP. Тоже потестить бы этот момент.
Вот что сам Google говорит о MTP для MoE https://ai.google.dev/gemma/docs/mtp/overview Спекулятивное декодирование работает путем создания нескольких токенов и их проверки за один прямой проход. Для плотных моделей для каждого токена используются одни и те же веса, поэтому проверка нескольких созданных токенов добавляет минимальные накладные расходы. Модели типа «Смешанные эксперты» (MoE), такие как Gemma 4 26B A4B, работают иначе. Каждый токен может активировать разных экспертов, поэтому проверка созданных токенов может потребовать загрузки дополнительных весов экспертов из памяти, что нивелирует преимущества от создания токенов. При больших размерах пакета обычно наблюдается большее совпадение активированных экспертов в разных последовательностях, что улучшает повторное использование загруженных весов. При размере пакета 1 это совпадение ограничено, поэтому алгоритм создания токенов 26B A4B может не обеспечить ускорение на аппаратных платформах без хорошего параллелизма.
>>1627619 У чела который про анноун ассистент пишет старая ллама, у меня всё завелось без проблем, последний бинарник с гитхаба. Прирост минимальный на мое, если вообще есть. На плотной как я и писал на 3060 с 30 до 60 в пустом контексте выросло, на 30к контекста скорость 45
>>1627610 Дело может быть и в самих весах от гугла, тут сложно ранжировать факторы. Раз жалобы присутствуют, причем такие явные, значит что-то действительно есть. >>1627620 Кто-нибудь может объяснить, в чем здесь принципиальное отличие для денс и моэ в применении к мтп?
0.01.371.834 E llama_init_from_model: failed to initialize the context: Gemma4Assistant requires ctx_other to be set (this is normal during memory fitting)
я через нейронки прогнал сказали нужно выставит контекст для самого мтп, выставляю а параметр инвалид.. Или дело в памяти как он говорит
>>1627629 У тебя в мое разные эксперты могут быть задействованы, их приходится гонять между врам и озу, от чего польза от мтп пропадает >>1627630 хуй забей
>>1627642 Ну так если у тебя плотная разделена между озу и врам, там тоже прироста с гулькин хуй. В теории мое которое полностью в vram должно быть быстрее намного и даже вроде как графики гугла это показывают. И на большом контексте разница с низкой температурой разница тоже будет выше, т.е. со временем меньше случайных экспертов активируются, чем дольше диалог идёт https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
>>1627644 > если у тебя плотная разделена между озу и врам, там тоже прироста с гулькин хуй Ну да, но в чем разница между моэ как пишут? Можно притянуть что там из-за заведомо более высоких скоростей, требования к задержкам и оверхедам будут больше, лишние 5мс в плотной не сильно скажутся, а тут могут убить весь прирост. Или может речь о разном соотношении тг/пп в плотных и моэ, проверка предсказаний упирается в пп и требуемый компьют на один токен там сильно больше чем при генерации, от того прирост меньше. Но загрузка из памяти и параллелизация тут причем?
>>1627591 >Ограничения это смешно, просто потому, что ничего нахуй ему не мешает въебать rm rf через питонячий скрипт если ему больно захочется или отредактировать свой же конфиг. Не, тут речь не о том, что ему самому захочется (это отдельяная песня), а о том, что если моделька окажется слегка тупая (например непроверенный тюн), то у нее есть шансы тупо потерять где-то часть пути и/или пару знаков в команде, и тем самым начудить. opencode от этого боле-менее прикрывает. Это не броня от осознанного вредителя, а защита от совсем уж дурака.
>>1624998 (OP) Как отключить автозамену текста в {{ }} в koboldcpp? К примеру, я прошу модель перевести текст содержащий {{char}} или {{user}}, и мое сообщение при отправке моментально подменяется {{char}} на KoboldAI а {{user}} на User.
>>1627606 >Дуй вдоль радиатора не поперек, там половина площади перекрыта и воздуху некуда выходить. Да, это очевидно, что надо переставить вертушки, на выдув 120, а в радиатор v100 80ку поставить сбоку
>>1627671 Я уже использовал этот квант, но вот от этого супера, да он рабочий. Но все равно залупа 1 раз заработал, другой раз нет. Единственное что радует, я понял что он на слои видеокарты жалуется, не хватает памяти меньше слоев ставишь загружает
>>1627708 Забавно конечно что он повышает т\с, а не наоборот понижает. Но на картошке 16озу\6врама прироста не заметил. Без даже возможно побыстрее будет ибо без ебыни получал под 15 т\с
>>1627714 Меняй число --spec-draft-n-max 2 У меня 2 лучше чем 3, кто то вобще 4-5 ставит но это для фулл врам как понимаю, можешь 1 поставить И посмотри куда загружается драфт модель, укажи ей руками фулл врам
>>1627526 На pi есть такое расширение https://pi.dev/packages/pi-defender которое автовыполнение баш команд блочит, чтобы ты их сам проверял на вшивость. Отход от автономии конечно, но зато сейфти побольше. На винде правда надо вручную расширение ставить, потому что в пост инсталле линуксовые пути сунуты. Еще есть такой инструмент, раскидывать пермишены на определенные инструменты и файлы, чтобы лишнего не задевал особо.
>>1627526 Чел, там можно выбирать какие тулы активны - просто не давай ему доступ к баш полноценный, там создатель продумал все и вывел отдельные тулы когда хочешь рид онли - лс\греп. Сможет ориентироваться в папках, брать текст но не сможет вызвать никакие другие баш команды.
Смысл в васянстве с экстеншенами или шизоебической тряской в песочницах?
Ллм продолжает твои ответы из контекста, если в самом контексте нет упоминания о "рм *" оно НИКОГДА его не сделает но как только ты в правилах записал "никогда не используй РМ" оно теперь постоянно, в каждом ответе будет думать о РМ.
>>1627654 >Ну да, но в чем разница между моэ как пишут? Наверное сколько не отвечай на эту хуету, все равно каждый раз будут вопросы, которые сразу отпадают у любого кто знаком с архитектурами трансформеров. 1. Трансформер может обработать хоть сколько токенов параллельно, загружая модель из памяти ровно 1 раз, множатся только вычисления. 2. Мое загружает условно рандомный набор параметров для обработки одного токена, для другого это будет в основном другой набор. Допустим 1 из 10 параметров. Если тебе нужно обработать 2 токена, мое загрузит почти 2 параметров чисто статистически. Если скорость работы упирается в память, проверять 2 токена в мое в 2 раза дольше чем 1. При увеличении количества проверяемых токенов скорость работы мое стремится к скорости плотной модели того же размера.
Касательно выгрузки в рам, то что выгружается, считается на цпу. На 2 токена в 2 раза больше вычислений на говнопроце. Да и данных по шине гпу еще тоже в 2 раза больше надо гонять. Хотя я бы сказал, все проблемы кроме физики мое - от говнокода.
>>1627792 >Хотя я бы сказал, все проблемы кроме физики мое - от говнокода. Непризнанный гений изобрёл сидя на двачах трансформерс2 и не рассказал гуглу
>>1627792 Ты описываешь промптпроцессинг? А под "загрузкой" имелось ввиду обращение к весам модели в видеопамяти для загрузки их в регистры чипа? Тогда все так и есть. > скорость работы мое стремится к скорости плотной модели того же размера В общем, так и есть, за исключением что из-за меньшей размерности эмбеддинга компьюта на атеншн нужно гораздо меньше компьюта, что определяет. Для промптпроцессинга задействуются все веса, что не позволяет активной читерить с выгрузкой как для генерации. Но это совпадает с тем что выше, все равно не медленнее чем денс модель, и довольно косвенно коррелирует с тем, что они написали. > Хотя я бы сказал, все проблемы кроме физики мое - от говнокода. В чем говнокод?
У меня gemma 26b подтупливает в opencode. Видимо теряется в большом промпте и обилии инструментов. Но нормально работает в cherry studio. Там я выбрал нужного ассистента с заранее прописанным промптом. Дал те инструменты, которые я сам написал и которые мне нужны в конкретной задаче. Скормил файлы, с которыми мне надо работать. По итогу gemma мне переписала css как мне нужно. Все работает, тупняков нет.
>>1627816 >Ты описываешь промптпроцессинг? Нет, но промтпроцессинг, мтп, генерация, это одно и то же, разница только в количестве токенов обрабатываемых за 1 проход. >В общем, так и есть, за исключением что из-за меньшей размерности эмбеддинга компьюта на атеншн нужно гораздо меньше компьюта, что определяет. Имелось ввиду скорость только по памяти от размера модели. По компьюту там разница с мое, хз, грубо можно оценить по тому же промтпроцессингу, он в идеале упирается только в чистый компьют. Моегемма вроде чет типа в два раза меньше слоев имеет и в два раза уже по эмбедингу, емнип, лень искать. То есть она скорее лоботомит с навешенными экспертами а не плотная в которой "ненужные веса не грузятся". >В чем говнокод? В том что на плотной с выгрузкой и мтп должно сосать только по причине слабого проца. Данных там гоняется хоть и больше, но в целом не оч много. А ну и еще в том что промтпроцессинг с выгрузкой все свое говно на цпу сто лет считает, вместо того чтобы по бырику подгружать слои в видюху. Есть некий размер (нового) контекста когда так делать становится выгоднее, но так не делают. Вон даже корпы весь контекст на отдельных нодах считают, в локалках подобное делать математика не запрещает, было бы только грамотно налажено взаимодействие устройств. И собирать шизориги на стаке обычных мамок с ддр4 + по одной-две 3080ti...
Плотнячок с выгрузкой (53/64 слоев во врам, 32к контекст): Qwen 27b Q4_K_S ~ 8.6 т/c Qwen 27b MTP Q4_K_S ~ 12.2 т/с при --spec-draft-n-max 2
Моэ с выгрузкой (4/48 слоев во врам, 32к контекст): Qwen 122b IQ4_XS ~ 9.2 т/c Qwen 122b MTP IQ4_XS ~ 8.7 т/с при --spec-draft-n-max 2 (КЕК!)
Короч чуда не случилось: самый ебанутый прирост x2 произошел на фуллврам. Потестить Q3 в рп чтоль..? 43 т/с на плотной 27b при 16 врам так-то не хуй собачий. Но даже с выгрузкой в MTP есть смысл: плюс халявные 3.6 т/с. Но мне кажется что чем больше слоёв сгружено в оперативу, тем меньше будет профита (вплоть до отрицательного на жирном моэ), поэтому надо юзать самый нищий 4 квант плотняши из доступных. У анслопа Q4_K_S квант 27 квена весит почти на гиг меньше чем то же самое у батрухи.
Хочу на работке летом залупы попинать, и сделать для команды системы агентов/чатов.
Бюджет, к сожалению --- консумерские карты. Пока затестил гемму4 12Б, норм для общих задач и суммарайзов. Гранит 4.1 8Б и 30Б для рагов и скана текстов на поиск всякой инфы по ключевым словам заплнение чеклиста. Пока эти двое (трое, на 30Б скорее всего не купят карту) смотрятся хорошо. Какие еще есть годные модели на 8-12Б? Интересует а) модели с виженом, б) модели которые неплохи для базового кода. Желательно, чтобы контекст хотя бы 100к, хотя сейчас вроде все такие.
>>1627878 >Qwen 122b MTP IQ4_XS ~ 8.7 т/с при --spec-draft-n-max 2 (КЕК!) Ну вот все так и должно быть чисто по математике и никак это лучше не сделать. Если только не натренить модель так чтобы активировались одни и те же эксперты на окно из нескольких токенов.
>>1627770 >Отход от автономии конечно, но зато сейфти побольше. На винде правда надо вручную расширение ставить, потому что в пост инсталле линуксовые пути сунуты. Вот как раз винда - последнее что меня интересует, ибо давно не на ней сижу. :) Но автономию терять - сильно портит всю малину.
>>1627791 >просто не давай ему доступ к баш полноценный Нах он тогда нужен вообще как агент широкого профиля? :) Я ж не только кодом там занимаюсь.
>>1627791 >Ллм продолжает твои ответы из контекста, если в самом контексте нет упоминания о "рм *" Я там уже писал в сообщении раньше - я не только чистый квен гоняю в агентах, но и тюны разные. А там затуп может случится - и оно просто не туда сунется, хотя и не собиралось вредить вроде бы. А что до правил - уж на то как "не думай о белой обезьяне" LLM реагируют я прекрасно знаю. :)
В общем - просто IMHO. Я не доверю Pi основную систему без нормального сендбокса вокруг него. Особенно с чем-то вроде Геммы 26B-A4B под капотом. :) Я когда ее в opencode гонял - оный минимум три раза уже заблокировал очень неприятные по возможным последствиям вызовы от нее. Квен и его тюны такого себе не позволяли, но и квен пару раз совался наружу из рабочего каталога - правда с безопасной мелочью вроде поиска файла.
>>1627878 Сел проверять Гемму и чот не выкупил прикола. Ругается на драфтер "unknown model architecture: 'gemma4_assistant'". Ллама последняя, b9565. Качал под обычную Гемму, не QAT, вот отсюда в F16 https://huggingface.co/AtomicChat/gemma-4-31B-it-assistant-GGUF Там блять вмерджили только под QAT чтоль?
>>1627891 Квен 3.5 9B скорее всёго разъебёт что угодно в этой весовой категории для упомянутых задач. Ничто даже близко не стоит. Мелкие геммы к сожалению не оче
>>1627876 > это одно и то же Ну не, слишком грубое заявление, особенно с мтп. > скорость только по памяти от размера модели Типа если предположить что упор чисто в память и разницу подгрузки - да, наверно разумно. Хотя в мелкомоэ такой кейс не частый, скорости ниже теоретических. Но в этом случае > не плотная в которой "ненужные веса не грузятся" для плотной тоже придется грузить все веса. Тут нужно объяснять тем что (при упоре в один поток и память) моэ сильно быстрее делает декодинг чем денс за счет разреженности, но в энкодинге, на который завязано мтп, уже такого преимущества не имеет. Иначе описание дезориентирует. > В том что на плотной с выгрузкой и мтп должно сосать только по причине слабого проца. А код тут причем? Проблема в производительности проца и памяти там, где нужна йоба числодробика матриц. > Есть некий размер (нового) контекста когда так делать становится выгоднее, но так не делают. Именно так и делают, в некоторых интерфейсах можно настроить порог новых токенов для обработки процом без стриминга. В лламе это тоже есть, только жестко прибито. Иначе при спекулятивной работе с частичной выгрузкой больших моделей обработка каждого блока токенов занимала бы секунды. > Вон даже корпы весь контекст на отдельных нодах считают Потому что параллельная работа с генерацией вызывает просадки в ней, так выгоднее. > в локалках подобное делать математика не запрещает, было бы только грамотно налажено взаимодействие устройств Вроде так и делается с самых первых версий. Расскажи подробнее что имел ввиду, как "стаки обычных мамок" могут тут помочь? >>1627878 > --spec-draft-n-max 2 При повышении лучше не становится?
>>1627900 Об управлении системой у меня речи не идет. Но мне нужно чтобы в рабочем каталоге у агента была возможность свободно работать не дергая меня за каждую команду. Т.к. вот пример задачи: слить ему туда архив из ~40000 файлов usenet (кто помнит что это такое :) ) и сказать: "Распакуй, и найди мне там истории с вот такой тематикой и сюжетом, эти истории скопируй в такой-то подкаталог". Так вот - квен 3.5 - 3.6 27B вполне с этим справляется, но bash использует крайне активно - фактически он только им, и другими консольными инструментами и вывозит такое.
>>1627930 Чел, я же просто пример привел. А так - там и сортировка файлопомойки может быть, чистка дубликатов, и всякая другая хрень, где mv, rm, и т.д. - нужны явно, для основной задачи. Причем с большим числом вызовов, которые если ручную разрешать - весь смысл поручать эту работу сетке пропадает.
>>1627935 Мне раз в год такое нужно дабы учитывать хоть как-то в воркфлоу.
Если же нужно, даю данные на анализ и прошу по ним написать скрипт который сделает нужную мне задачу, потом начинаю сессию заново без контекста и прошу объяснить скрипт че он сделает и дать критику, если все нормально запускаю сам ручками видя все команды и последовательность.
Gemma 4 31b QAT уже можно с MTP запускать в лмстудио без ебли? Speculative decoding вкладка не показывает модели-ассистенты, даже те, которые специально для QAT. У кого-то получилось это в лмстудио запустить?
>>1627976 Ваш тред читать это пиздец каждый раз. Вы про каких-то канничек на 250 постов расплываетесь, потом на 125 срачи про квен против геммы, 100 реквестов на пресет для эйра+ехидные ответы на эти реквесты, и 25 дайбох полезных постов.
Так получается что МТП как раз больше всего помогает врам-нищукам? Судя по тому, что я прочитал, эта хуйня использует айдл компьют, чтобы компенсировать недостаток пропускной способности памяти.
>>1628006 Нет, MTP больше всего помогает фулл-врам боярам. Но если совсем немного не влезает, то тоже смысл юзать есть. Выше в треде есть сравнения на Гемме и Квене.
>>1627947 Ну а я начинаю привыкать использовать сетки для рутины более активно. Обрабатывать данные - это как раз то, что они хорошо могут.
>и прошу по ним написать скрипт который сделает нужную мне задачу Я, скажем, уже регулярно использовал сетки для сортировки картинок по содержимому. Для отбора и составления датасетов с расстановкой тегов (для тренинга лор). Скрипт это сможет? :)
>>1628006 Наоборот врамовладельцы пользуются на и так быстром инфиренсе уже давно, а выгружающие наоборот получают отрицательный рост. Увы. >>1628010 > если совсем немного не влезает, то тоже смысл юзать есть Там есть нюанс с тем, что мтп голова, особенно на крупных моделях, вместе с буферами и прочим неплохо так кушает память. А еще попытки запустить на жоре в режиме тп выдают ошибку, опять, что нивелирует пользу. Но в некоторых случаях действительно может помочь.
Я пробовал таг теги расставлять и с закладками работать получается неинтуитивная хуйня, я быстрее по названию ссылки нахожу или тупо по превью картинки чем с теми ебаными тегами что она ставит
Большие лоры я не тренировал ни разу хз как там, но когда делал по гайду конкретного персонажа там много картиночек не надо было и даже вроде как вредно - я руками отбирал штук 20-30
Закончил первую сессию в Marinara Engine. Получилось 65к токенов. Использовал Gemma-4-31B-Q4_0-QAT. Скорость от 60 в начале до 50 в конце токенов в секунду. Выводы: 1. Медленно. Маринара много думает, поэтому приходится ждать от 30 секунд до 1,5 минут. 2. Местами туповато. То тулзы не дергает (никто и не обещал=), то понимает где-то не так, то где-то своевольничает чуть-чуть. То залупается на все токены, приходится рероллить. 3. Хорошо. Ведет лорбуки, накидывает «загадочных персонажей» без очевидных привязок к известным личностями (но одного угадать смог), придумывает неожиданные ходы, развивает персонажей (четыре сопартийца в пати —вероятно ей сложно), следит за их взаимоотношениями, в конце сессии (по кнопке) делает суммарайз, подводит итог и открывает новую главу.
Понравилось ли? Да, определенно! Буду продолжать. Хватает ли геммы 31б? Даю 40%, все же хочется агента качественного и без прокосов в контексте. Но пишет — точно хорошо. Хватает ли скорости? Точно нет. Для небольшого приключения хватит и 30 токенов в секунду в модели без ризонинга, для эпического хочется хотя бы 200-250, чтобы она делала паузы секунд по 10-20, не более. В среднем ответ выходит тысяч на 3-4 токенов, сами можете прикинуть. Из минусов Маринары отмечу не самый удобный редакт, странное слежение за рюкзаком, рассинхрон уровней и статов персонажей, и не всегда уместные РПГ-шные битвы. Хотя реализовано неплохо, в общем. Я думаю, это дотянут все.
Как итог: где мой опус 4.8 фаст на церебрасе?
На сессию потратил часов 7, думаю. Конечно, иногда отлучался, долго писал свои ответы и т.д.
Завтра попробую маленькую и простенькую сессию на 26б-а4б без ризонинга, чисто на скорость.
>>1628024 А у меня такая же хуйня. На ризонинг модель тратит 1к токенов. Благо в контекст это не уходит. Но ждать пиздец.. Хочу чтобы гемма писала по 200-300 токенов только в ризонинге
>>1628020 >То тулзы не дергает Это мелкомодель тупит. Хорошо знакомо по использованию во внешних играх. >придумывает неожиданные ходы Потому что всё делает по агентской схеме. Для каждой задачи свой запрос, а не комбайн "на васянокарточку и универсальный пресет сделай ЗАЕБИСЬ" в условиях и так тупой модели. >Из минусов Маринары отмечу не самый удобный редакт Плюсую >рассинхрон уровней и статов персонажей, и не всегда уместные РПГ-шные битвы. Проблема мелкомодели
Модно и ролеплей с агентами делать, в целом имеет всё то же самое только без карты и динамических фонов/музыки.
Не хватает так же имиджгена как в таверне для полного счастья. И не нашёл как задавать агента из отдельного подключения чтобы крутить сразу две модели, для инструментов и рп.
>>1628024 Конечно на ризонинг. Точнее не ризонинг а агентское использование инстракта.
>>1628020 Welcome to the club, buddy♂ Гм или ролплей? Каких агентов юзаешь? Там можно выставить более простую и быструю модель для побочных агентов, но если используются те что на сюжет, то лучше не стоит. И еще неплохо бы выделить на сопутствующую картинкогенерацию. А что там с редактом? Вроде обычный, хуже когда что-то в трекеры насрет, или хочешь сменить направление, и потом замучаешься это все править в нескольких местах. >>1628023 Наверно да. Но флеш на удивление иногда неплохо срабатывает и пишет необычно, или не ссыт продвигаться вперед там где остальные вязнут.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Неофициальный гайд для новичков: https://rentry.org/2ch-llama-inference
Инструменты для запуска на десктопах:
• llamacpp - отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• koboldcpp - самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• TextGen (в девичестве text-generation-webui) - если необходимы другие форматы и больше контроля: https://github.com/oobabooga/textgen
• TabbyAPI - заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
Универсальные десктопные фронтенды:
• SillyTavern - всеядное, сопрягается почти со всем, имеет большую коллекцию расширений: https://github.com/SillyTavern/SillyTavern
• Marinara Engine - вариация на тему таверны, больше возможностей из коробки: https://github.com/Pasta-Devs/Marinara-Engine
• Risuai - еще одна вариация, на этот раз в профиль, излишеств по минимуму: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Maid - интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• ChatterUI - альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://web.archive.org/web/20241201232031/https://rentry.co/STAI-Termux
Поставщики локальных моделей:
• Hugging Face - платформа куда загружается всё и во всех форматах: https://huggingface.co/models
• Проверенные квантоделы: https://huggingface.co/bartowski, https://huggingface.co/mradermacher, https://huggingface.co/unsloth
Рейтинги и списки локальных моделей:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Готовые карточки для таверны:
• Botbooru - текущая мета (регистрируйтесь для отображения всего спектра, и/или меняйте страну): https://botbooru.com
• Прошлая мета, откуда массово удалили карточки сомнительного содержания: https://www.characterhub.org, https://www.chub.ai
Официальные документации к инструментам:
• llamacpp: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
• koboldcpp: https://github.com/LostRuins/koboldcpp/wiki
• SillyTavern: https://docs.sillytavern.app/usage/quick-start
Дополнительные ссылки:
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50, тесты производительности и прочее: https://arkprojects.space/wiki/AMD_GFX906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: