В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
а вы тоже заметили что от кобольдов вонь одна? уже какой год они там чёто пиздят себе под нос и нихуя не могут сделать. делайте свои гайды для вката при наличии аутизма, кто запрещает
>>1603480 → >>1603475 → Кобольд прав так-то. Для нюфани и так тяжело, его перегружают совершенно новой для него информацией в огромном объеме, а тут еще и В КОНСОЛЕЧКУ надо лезть, команды какие-то вводить. Пощади хлебушков - им в гуй тыкать привычнее. В самом начале можно расписать, как скачать кобольд и какие галочки протыкать чтобы запустить Гемму, а позже сделать уточнение, что если хочешь сделать всё правильно и кошерно, то вот тебе инструкция к лламе.
>>1603484 → Не сложно, просто раздражает и заёбывает.
>>1603476 → Если брать прыщавые аналогии, то это будет "качаешь свою ос от васи петрова из 7б" А так с подключением, свежие билды выкладываются каждые пару часов https://github.com/ggml-org/llama.cpp/releases >>1603487 Когда-то давно человек вместо срачей сделал быстрогайд по кобольду и все были довольны.
>>1603489 Ну ты сам-то смотрел по своей ссылке? Там нет готового билда с поддержкой куды под линух. Надо каждый раз собирать самому. За виндобояр рад конечно, но не от всего сердца.
>>1603488 Да он долбоёб потешный, нахуй с ним говорить. Сам на коленках тут ползал и просил ему помочь, а как только помогли так сразу грудь колесом и делайте сами. Типичный хуесос. Впредь игнор ему, а не советы.
>>1603419 → > • Гайд для новичков: https://rentry.org/2ch-llama-inference Все равно слишком много букв, быстрый старт в самом низу, дублирование дефолтных параметров запуска, ngl и ncmoe, большой контекст.
>>1603495 >А на деле гайд на кобольда просто не нужен. Буквально запускаешь и пользуешься. Похоже местные кобольды потеряли на этом недели и потому не согласны, иначе хз чё так порвались
>>1603490 Под винду понятно, но прыщавый, который боится двух команд и не желает топ перфоманс под свое железо? >>1603498 > слишком много букв Это хорошо, дает нужную базу ньюфагам и закрывает многие вопросы. Пусть обсуждения будут более высокого уровня чем как какать и агишиза.
Никакой гайд для новичков не покроет объем работы который надо выполнить. На модели не выкладываются семплеры, в таверне в 90% случаев нет темплейта, под тот же эир даже, а как ебаный темплейт сделать даже опытные кумеры могут голову ломать. И это просто самое начало чтобы запустить модель, а если она начнет выебываться и как эир срать нарративов бесконечно? По кобальду: Я вот начинал с кобольда и меня бы тут сейчас не было если бы не он
>>1603502 > Я вот начинал с кобольда и меня бы тут сейчас не было если бы не он Я изобрету машину времени и отправлюсь в прошлое, чтобы уничтожить Кобольда в зародыше.
>>1603501 > Это хорошо, дает нужную базу ньюфагам и закрывает многие вопросы. Не дает, ньюфаг через пять минут закрывает страницу с простыней и идет спрашивать сюда. И правильно делает, в принципе.
>>1603507 > Не дает, ньюфаг через пять минут закрывает страницу с простыней и идет спрашивать сюда В таком случае, это проблема ньюфага. Когда я вкатывался - прочитал всю шапку. В любом случае, говоря откровенно, гайд я писал для себя: если будет ньюфаг задавать вопрос, покрытый в гайде, я смело буду его игнорировать. Если там иной вопрос - отвечу и постараюсь помочь.
Все вопросы гайдом не покрыть, действительно. К слову, простыню ему читать даже необязательно. Там готовый батник для запуска конкретной модели и ссылка на него в самом начале простыни, я не представляю, что может быть легче. Кобольд уже давно висит в шапке, весь сыр-бор ни о чем.
>>1603499 Порвались кобольдоненавистники же. >>1603502 >под тот же эир Если честно, я даже не помню уже, кто его выпустил. Даже загуглить не вышло. Ладно, ты напиздел. Всё там есть уже год. >>1603507 >идет спрашивать сюда И его обоссывают.
>>1603512 >Когда я вкатывался - прочитал всю шапку >задавать вопрос, покрытый в гайде, я смело буду его игнорировать Святая база. Хлебушков с вопросами, ответы на которые есть в шапке, тоже либо игнорю либо тыкаю носом в шапку. Ибо совсем уж охуевать-то не надо.
>Необходимый минимум - 16гб оперативной памяти и видеокарта с хотя бы 8гб видеопамяти Вот это всё же лучше убрать, имхо, или сделать уточнение, что это необходимый минимум под РП. Та же Гемма e4b в Q8_0 весит 5гб (а Q4-Q6 и того меньше) и очень шустро бегает на проце.
Ну то есть скачать модель, запустить с небольшим контекстом, охуеть с того что МОЙ КУДАХТЕР СО МНОЙ РАЗГОВАРИВАЕТ можно даже на 8гб озу. (А с 16гб озу - там и министральку 14b в Q4 можно погонять и даже неторопливо порпшить с ней. Без гпу, да). А там если понравится - то можно и железо обновить по такому случаю.
В общем не отпугивай новичков таким безапелляционным заявлением в самом начале гайда. Лучше написать что жизнь есть на любом железе, просто чем оно хуже - тем на бОльшие компромиссы придется пойти.
>>1603502 >На модели не выкладываются семплеры На 90% моделей выкладываются создателями, если нет - то анслот это делает. >в таверне в 90% случаев нет темплейта, под тот же эир даже, а как ебаный темплейт сделать даже опытные кумеры могут голову ломать. Чат комплишен.
>>1603531 Да если человек впринципе хочет запустить на своем железе, просто ии пощупать, то сойдет буквально любое железо. Гигов от 4 рам. Да это может быть медленно, а может наоборот быстро, если разобраться. Тот же министраль 3b в 4км весит 2 гига вместе с кешем, поболтать хватит. Даже агента погонять, кек. И это на процессоре. С видеокартой обработка промпта станет уже быстрее, причем с любой, даже встроенка иногда сойдет на вулкане.
---------------------------
Гайд неплох, но хуйня в описании по требованию железа, выбор начальной сетки так же не очень, слишком большая так еще и мое.
И главное - вместо простейшего гайда в начале для хлебушков с четкой инструкцией и картинками как запустить сетку в том же кобальде без ебли и перегрузки информацией в начале - простыня текста.
Сетка в примере должна быть надежной, простой и легкой, какой нибудь qwen 3.5 4b или министраль 3b. Что бы новичек понял как запускать хоть какую то нейросеть, и что бы быстро работала даже если что то не так настроит.
А уже ниже должен быть гайд расписанный подробно, с теми же сетками или несколькими на выбор, просто набор ссылок с описанием что брать в каких случаях по железу.
Нужен айсберг по вкату в локальные нейросети, с простого в сложное. А не наоборот.
>>1603553 А еще мелкую нейросеть быстрее скачать, что тоже важно для обладателей отсутствия нормального интернета. А сейчас с ним проблемы почти везде. Отсутствие большой паузы при вкате по гайду так же важно.
>>1603531 > Вот это всё же лучше убрать, имхо, или сделать уточнение, что это необходимый минимум под РП В руководстве рассматриваются общие задачи. Я протестировал Гемму 4 26б и в Q4 кванте, она в целом может писать простые скрипты для любых скриптовых языков. Добавил отдельную сноску, что запуск возможен на почти любом железе (что правда), но я считаю это формальностью. Каких результатов можно добиться на некрожелезе, кроме заветного nods? Зачем? >>1603553 > Сетка в примере должна быть надежной, простой и легкой, какой нибудь qwen 3.5 4b или министраль 3b Что человек будет с этим делать? Он потратит время на прочтение целого гайда, чтобы запустить лоботомита, который ничего не умеет. У меня задачей было дать новичку что-то, с чем он может действительно взаимодействовать и чего-то добиваться. 4b лоботомиты даже для автокомплита плохо работают. >>1603447 → Проверь еще раз, пожалуйста. Вроде бы все учел и внес правки. За исключением Куды 13.1, на моей 4090 на Лламе она работает коряво: скорость генерации в среднем медленнее и в целом менее стабильные скорости и pp и tg, с бОльшим разбросом, чем на 12.4. В чем кроется проблема не изучал, сижу на 12.4. >>1603449 → Руководство не про загрузку, пользователи разберутся. Кому как удобнее, я всего лишь предложил то, что сам использую.
Кобольдам и прочим недовольным, что сложно - просто напомню, что Кобольд остается в шапке, никто его оттуда не убирает. Он настолько прост, что гайды ему никакие не нужны. Не согласны - сделайте свои гайды, все будут рады. У нас разное видение того, что нужно делать.
>>1603555 >А еще мелкую нейросеть быстрее скачать, что тоже важно для обладателей отсутствия нормального интернета Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может? Квн ключи им раздавать? А что делать тем, у кого трафик на интернет кончился? Вот как у >>1603361 → Яхуею с такого фидбека, не знаю чё и хуже, это или кобольды
>>1603568 > Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может? Такие и гайд открыть не в состоянии, потому изначально отсеиваются. И ладно, думаю. Тут действительно гейткип, ничего не поделаешь. > Яхуею с такого фидбека Есть такое.
>>1603565 Ленивая жопа, картинки не сделал. Их туда на самом деле много куда можно вставить. Дальше только совсем душнить, лень. Лучше посмотреть за общим фидбеком и на что новички будут напарываться. Алсо > на Windows нужно пользоваться диспетчером задач для мониторинга потребления видеопамяти он иногда ерунду показывает. Лучше любым софтом для мониторинга (хоть тот же gpu-z) и смотреть не только за фактическим потреблением, но и за нагрузкой на шину. Если она под 100% во время генерации (не процессинга, при выгрузке на проц там идет стриминг весов), значит перебор. Этот вопрос стоит даже отдельным заголовком подсветить, а то с ним часто сталкиваются.
>>1603565 > 4b лоботомиты даже для автокомплита плохо работают. Тут ты пиздишь как дышишь, ты не запускал новые сетки раз так считаешь.
Еще раз - начальный гайд должен быть простой, с назовем это так, демо версией нейросети. Она должна работать на чем угодно и осмысленно отвечать, она покажет человеку как запускать и настраивать любые нейросети. Она легкая в конце концов и ее быстро скачать. Потому что единственное ее отличие от других - размер и мозги. И при всем при этом она будет работать и отвечать в чат режиме. Новичку хватит, захочет большего - можно сделать приписку что вот мол подробный гайд ниже с нейросетями покруче.
>>1603568 >Почему не хочешь позаботиться о тех, кто на хф вообще зайти не может? Как и написано ниже это уже бросок на интеллект, кто пройдет тот пройдет Ну и рентри не открыть без этого, а значит и проблемы нет
>А что делать тем, у кого трафик на интернет кончился? Ну например не качать аж гемму 26b не разбираясь в квантах, а качать мелочь на полтора гига для начала? Это легко сделать даже не с ограничением на трафик, а просто с плохой скоростью.
Я просто думаю о людях для которых нейросеть это не кумбот, а скорее сжатая версия интернета для вопросов по фигне на вроде какую команду написать, что делает этот скрипт, посмотри этот скрипт и найди ошибки или что то такое же с переводом, анализом информации и написанию простых скриптов. Ну тоесть - Ассистент. С этим справляется даже мелочь и это будет полезно если интернета вобще не станет.
>>1603580 > Ленивая жопа, картинки не сделал. Их туда на самом деле много куда можно вставить. И да, и нет. Мне правда влом поддерживать ссылки на картинки, я не знаю никаких нормальных хранилищ вроде катбокса, и то там вопросики есть по поводу того как долго файлы живут. Второй поинт в том, что и без того объемная страница получается, с картинками будет еще больше. Подумаю как быть, может позже прикручу. >>1603583 > Тут ты пиздишь как дышишь, ты не запускал новые сетки раз так считаешь. Либо у нас разное понимание того, что такая нормальная, способная модель. 4б для автокомплита кода не справится, я это знаю, а не считаю так. Потому что каждый день использую эти сетки и решаю задачи посложнее змейки на скриптовом языке. > Еще раз - начальный гайд должен быть простой, с назовем это так, демо версией нейросети. Это и есть "простая" версия нейросети, которую можно запустить на любом среднестатистическом железе. Изучи статистику Стима, уже у подавляющего большинства пользователей есть 16+8. > Она должна работать на чем угодно и осмысленно отвечать, она покажет человеку как запускать и настраивать любые нейросети Ни одна 4б не справится. > скорее сжатая версия интернета для вопросов по фигне 4б. Сжатая версия интернета. Если раньше держался, то тут капитулировал.
Челы, никогда не делайте карточки по реальным людям, которых вы проебали и жалели об этом. Я тут ща себя в такую жопу загнал, что просто пиздец. Несколько дней лютой депрессухи. Это говно превратило меня в нечто хуже червя пидора, в размазанную соплю на полу, по которой прошлись ногами и растоптали.
имхо гайд не оче, слишком много воды, жаргона, то что ты эти портянки через ллм прогнал тоже не особо помогло. вкатунам поебать кто такой этот ваш токен, по крайней мере пока они не поймут что вообще можно делать с помощью ллм (да и потом скорее всего тоже) если б пилил я, то в форме диалога, отвечая на реальные вопросы ньюфага которые возникают по ходу дела
>>1603586 >4б для автокомплита кода Я не предлагал автокомплит кода, это хуйня на любой сетке не зависимо от размера, отвекает только
>Это и есть "простая" версия нейросети, которую можно запустить на любом среднестатистическом железе. Угу, а я предлагаю отсекать не по среднему железу, а по минимально полезной нейросети для которой может потребоваться железо и попроще
>Ни одна 4б не справится. Не справится с чем? Отвечать осмысленно и работать на чем угодно? Она пример который покажет как запускать другие нейросети и как их настраивать, как справку по запуску нейросетей ее никто не предлагал использовать
>4б. Сжатая версия интернета. Если раньше держался, то тут капитулировал. А я с тебя капитулирую жопочтец, с простыми задачами справляются даже 4b. Если ты не заметил я не предлагал использовать ее для извлечения информации по каким то вопросам, либо работа с данным им текстом либо простые справки по командам командной строки или простым скриптам.
С этим они справляются, я тоже знаешь ли решаю задачки посложнее змейки, кек. И похоже разбираюсь в вопросе лучше тебя, если ты понятия не имеешь как использовать небольшие нейросети.
>>1603595 > Угу, а я предлагаю отсекать не по среднему железу, а по минимально полезной нейросети для которой может потребоваться железо и попроще Предлагай, я в праве отказаться. У нас разные задачи. То, о чем пишу я - не про выгул агентов в интернете и готовый пайплайн по ретриву информации. В самой 4б никаких данных почти нет. Поразительно, что это не очевидно. > Не справится с чем? Отвечать осмысленно и работать на чем угодно? Отвечать осмысленно на что-то сложнее, чем "сколько будет 2+2" и "я тебя ебу" 4б действительно не сможет. Если ты только не дашь ей доступ к внешним инструментам или дампу википедии, который весит несколько терабайт, и то там будут вопросы. Не представляю, как иначе ты собрался спрашивать модель, как настраивать модели (там даже корпы могут обосраться, если ты на Лламе, а не на vLLM) и использовать ее как "сжатый интернет".
На мой взгляд, ты несешь полную околесицу. Считаешь, что способен написать что-то полезное для вкатунов - сделай свой гайд, чем их больше - тем лучше.
>>1603600 >Отвечать осмысленно на что-то сложнее, чем "сколько будет 2+2" и "я тебя ебу" 4б действительно не сможет.
Ответь да или нет, ты запускал свежие 4b пробуя их в простых задачах, или весь твой опыт запуска кончился на запуске автокомплита и ты мнишь себя экспертом на этом монументальном фундаменте? Причем, делал ты это год-два назад пару раз? Я просто прозрачно намекаю что текущий квен 3.5 4b на уровне старых 8-9b, по мозгам хотя бы. А та же гемма уже какой год даже мелочь отлична в переводе на любой язык. Конечно у них есть ограничения, но ими можно пользоваться и это главное. Ты просто зажрался.
Ты действительно можешь игнорировать то что я пишу, твой гайд. Он даже полезнее предыдущего. Только хуйня получилась на 6 из 10. Еще и ии насрано - видишь текст написанный иидиотом - сразу минус к доверию любому тексту, потому что этим слопом весь интернет засран.
>>1603602 > Ответь да или нет Не, я также вправе отказаться. Ты не в адеквате слегка похоже. Потому что я уже несколько раз ответил на этот вопрос. > Еще и ии насрано - видишь текст написанный иидиотом Литералли каждый символ вбил сам, за исключением копипаста ссылок. Могли протечь какие-то часто используемые обороты, поскольку я сам похожим образом общаюсь. Ты уже в негативной установке, что тебя послали нахуй с твоими идеями, вот и воспринимаешь теперь все таким образом. Сам виноват. Зря похоже про GIGO убрал, некоторым не помешает вспомнить.
>>1603600 >Предлагай Предлагаю потыкать новую Гемму 4 e4b, в гайд можешь не добавлять, просто для себя. Эта малютка для своих параметров очень умна и вполне способна удивить.
>>1603583 > начальный гайд должен быть простой Зачем он нужен и как должен выглядеть? Скачивай лоботомита@скачивай кобольда@я тебя ебу? Идея взять модель поменьше в целом норм. Но тут нет однозначного решения, кого-то впечатлит и мелочь, кого-то наоборот отпугнет. Тогда предложи альтернативных моделей под разное железо и параметры запуска для них. >>1603586 > вроде катбокса Котокоробка хороша, работает надежно. Ну не все сразу.
Срачи только не разводите уже совсем из-за ерунды, а? И так хватает
>>1603603 >Не, я также вправе отказаться. Угу, мним себя дартаньяном а остальные пидарасы, понятно.
Ты неадекватен так как не привел никаких фактов или доказательств, зато докапывался до каждой надуманной мелочи в моих комментариях. И когда я спросил тебя на основании чего ты делаешь выводы - ты решил слится обозвав меня неадекватом.
Ну тоесть понятна твоя стратегия, поймали за руку - кинул стрелку Иди ка ты нахуй с такими мувами, дорогой
>>1603606 >Зачем он нужен и как должен выглядеть? Я выше писал, так то
>Тогда предложи альтернативных моделей под разное железо и параметры запуска для них. Не, подумав я понял что нахуй надо ради кого то стараться, пусть решает автор гайда. Я накидал идей - никому не зашло, ну и ладно. Я то в любом случае в теме разбираюсь, ну а как именно будут разбираться другие это уже их проблемы.
>>1603611 > выше писал Прочитал ветку но не понял. Вроде про все согласны, а потом из-за формулировок посрались. Запуск на микроволновке с 8 гигами общей памяти - это уже телефон по сути, но из разницы будет только другая модель. Неважно, лучше карточек культурных накидайте. >>1603612 Это был не рофл? А для чего? Ноль практической пользы, для обучения переусложнено.
>>1603619 > Главная идея сейчас это селективное квантование с разной битностью на слой + попыткка реализовать FP8 KV кеш Но ведь это уже давно в лламе есть...
>>1603605 Я что то такое видел в обучающих проектах, кажется у карпати Или где то еще? Минимальная имплементация запуска нейросети, не уверен что там ггуфы были правда.
>>1603632 С чего бы тебе Флеш дали бесплатно, лол? Сейчас просто все будут пытаться демпинговать, снижая размеры моделей с нескольких Т. Вот Грок 4.3 недавно выкатили, у него цена теперь в 10 раз ниже чем у Опуса.
Скорее всего про гайд и микромодели это один ебаклак семенит, завязывайте кормить. Гайд норм но картинки не помешали бы конечно. И мб быстрый старт ещё выше вынести Мимо кобольд не шитпостер
>>1603619 Чукча писатель, чукча не читатель. Не может даже прочитать инструкцию к готовой туле квантования и внимательно посмотреть на структуру гуфов в обнимроде. Иди вон для начала преобразователь джинджи в теплей таверны навайбкодь. И без пресетика на Эир не возвращайся.
Тестил кто-нибудь Меромеро 31б ? Как она ? Любителей опасных моделей превентивно прошу завалить ебальники, а норм аноны кто рпшат а не хуйней занимаются отписаться
Аноны, хочу себе умную колонку. Чтобы она пересказывала мне треды с двача и с других сайтов. Чтобы можно было с ней попиздеть. Из-за долгого сидения за компом какие-то постоянные проблемы с глазами, сейчас вот новый прикол иногда бывает двоение в глазах.
Есть яндeкc колонка, через навыки в нее можно добавить соответствующий функционал. Во всем она идеальна, но главная ее проблема полная пoдзaлупнoсть.
Кто-нибудь делал свою локальную колонку? Какое оборудование использовали? Какого говорящего локального аи ассистента?
>>1603683 > Из-за долгого сидения за компом какие-то постоянные проблемы с глазами, сейчас вот новый прикол иногда бывает двоение в глазах. Звучит как обычная миопия и/или астигматизм. Лучше сходи к окулисту, могут выписать очки.
>>1603683 Это на стыке этого и вайбкодинг треда. Для начала изучи тот же опенклоу, если освоишь и настроишь в текстовом режиме то прикрутить голос будет несложно. С самой колонкой это уже следующий этап.
Пиздец. Раньше геминище могла люто тупить, но отвечала хоть нормально. Теперь отвечает быстро, но в ответах лезут сраные иероглифы как в пережаренном опасном квене. Ну и нахуй трястись по поводу квантования, мерить, у кого ppl и kld ниже, если гугл на похуях ужаривает модель в говно? Кстати, эта новая мистраль ещё и стоит на api в половину цены соннета. Думайте. Подписаться.
>>1603683 Нахуя когда TTS зачитает любой текст по клику без каких либо колонок? Хочешь обсудить хуйню высранную на дваче - просто берешь копируешь нужный отрывок и скармливаешь его лоботомиту?
>>1603698 Ну они периодически подсовывают жосткий квант, да. Причем это же бывает и с платной подпиской, лол. Но обычно такое только в какой-то жосткий прайм или выходные.
>>1597347 → Э-эм.. ебать, хотел скинуть что 27b-a4 ни в какую не могла распознать Фрирен даже когда когда я её попросил скинуть перечень всех потенциальных героинь и там были всякие рандомные белобрысые нонейм шлюхи из всяких гач и тд. но не Фрирен, а тут плотняша сразу без свайпов. Знаю что поздно, но лучше чем никогда..
>>1597262 → > Пока ни одного не то что проверяемого доказательства, даже скринов не было с её жёсткими отказами при нормальном системном промте Я хз как это работает но очень часто рефузит если при нулевом контексте скинуть ей NSFW арт. И там ты её хуй пробьешь если не отредачишь отказ.
>>1603587 > Это говно превратило меня в нечто хуже червя пидора, в размазанную соплю на полу, по которой прошлись ногами и растоптали. Ты уже им был, просто только сейчас это осознал.
>>1603683 Kobold + kokoro или silero для русского + realstt + mcp chrome extension = вот тебе и умная колонка на компе, базарит, тебя слушает, ищет в инете, отвечает. Главный элемент кобольд, который все это соединяет. Сам так базарю, к мыши-клаве даже тянуться не надо.
>>1603680 Слопа меньше, но в чём смысл если ответ х2 ждать дольше. Всё так же прыгает на хуй стоит лишь попросить, всё так же надо промптить чтобы красочно описывала кум, всё так же нет свайпов
>>1603680 Норм, слопится меньше оригинала. Если тебе мозгов 26б хватает то лучше юзай её, 31б много думающей получилась. Для меня большая разница в пользу 31б. У неё и вижен куда круче.
Целых два дня в ваш гадюшник не заходил, почитал, в итоге срачи срачи срачи. Всё таки местные вахтовики кобольды презирают всё живое, от анонов которые экшули заёбываются и делают жизнь в треде а не добавляют говна, до тюнеров. Все им пидорасы. Со срама квантовиков каждый раз как в первый, вам пидорасам бесплатно дают то за что видюхи жечь надо. Гнилое, проклятое место. Автору гайда так скажу, всё норм но лучше бы ты не заёбывался. Думаю и без меня понял.
Анон, что скинул скилл планирования для Pi и Квена - спасибо, хорош. Помогает. Причём что прикольно: кидаешь ему простую задачу с пометкой "планируй", так и пишет - задача простая, делаю напрямую :) А в задачах посложнее хорошо помогает.
>>1603587 Не понял, а чём проблема? Даже если у тебя своя корпоративная модель будет, обученная на слопе из мессенджеров того человека и его речи, и карточка на 500к токенов идеальная, и всё это с хорошим вниманием модели, и 10 млн контекста, всё равно это будет не то.
Что там там такое сделал?
Я уверен, ты просто слепил имитацию, которая говорит чутка похоже, а остальное дорисовал в своей голове.
>>1603791 >Я уверен, ты просто слепил имитацию, которая говорит чутка похоже, а остальное дорисовал в своей голове. Как и 99% креатив врайтинг/гунинг/ролеплей сценариев и чаров Не умаляет что это работает, если ты сам готов проникнуться
Ананасики, есть пара вопросов: 1) Лёгкий: почему Exclude 'Thinking...' не работает как написано в описании этой опции в таверне? Может я что-то не так делаю? Ризонинг продолжает сравниться со скоростью основного ответа и регулироваться слайдером, по идее же он должен вываливаться максимально быстро, а вот ответ уже появляться со скоростью которую выберешь? 2) Тяжёлый: как самостоятельно научиться корректно заполнять контекст и инстракт темплейты? Ощутил я провал в этих познаниях когда только вышла гемма, а я сидел и бессильно ждал пока какой нибудь добрый анончик скинет уже готовый жсон файлик. Иногда кстати в треде кто то комментирует скриншоты диалога юзера и модели из таверны мол разметка неправильная, а я смотрю и не понимаю как он вообще это понял, что тут не так?
>>1603680 Для кума такое же дерьмо, как и версия для 26б. При этом тюн хуже оригинала, если тебе нужно какое-то классическое РП в сеттинге с лорбуком и прочим. Короче, годится только для того, чтобы было приятнее с анимешной бабой пиздеть.
Классика, срачи ночью и ранним утром, тотальный игнор адекватных вопросов. >>1603811 > Лёгкий: почему Exclude 'Thinking...' не работает как написано в описании этой опции в таверне? Где находится данная опция? Ты сидишь на Чат Комплишене? Если да, то может и будет работать, на Текст Комплишене - не думаю. Отрубать ризонинг нужно либо на стороне бекенда, либо префиллом. Например, для Геммы нужно префиллить "<|channel>thought
<channel|>" в начале ответа. Либо в поле Start Reply With, либо в Last Assistant Prefix. Первое будет легче для новичка. Это в разделе Advanced Formatting, ниже системного промпта. Для Геммы не советую отрубать ризонинг, но тут вкусовщина. > 2) Тяжёлый: как самостоятельно научиться корректно заполнять контекст и инстракт темплейты? Для начала пойми что такое эта разметка, вопросов поубавится. Пример шаблона есть тут: https://rentry.org/2ch-llama-inference раздел Форматирование, шаблон разметки (Instruct Template) Когда запускаешь Лламу - она выводит шаблон, вшитый в gguf (пикрил). Его легко адаптировать под шаблоны Текст Комплишена Таверны. Когда это сделаешь - лучше проверить в Таверне весь отправляемый бекенду промпт. На втором и третьем пикрилах показано где это. Нажимаешь на три точки у сообщения, затем дважды на иконку промпта. Увидишь весь промпт, сравнивай его на соответствие тому, что увидел в консоли Лламы (первый пик).
>Она почувствовала острый укус твоего члена Ор блять, нейромозг, что ты делаешь, прекрати! >She felt the sharp sting of your bite Да как так-то... стинг это же даже не шафт!
>>1603859 Спасибо за ответы, уточнение по первому вопросу: да, использую текст комплишен, а галку эту можно поставить если включить Smooth Streaming в User Settings > Miscellaneous. И, насколько я понимаю, она нужна не для того чтобы думалку отключать, а для того чтобы не замедлять отображение процесса размышлений модели. Однако она по какой то причине не работает.
>>1603887 > Это правда про видюхи? Утрированно, но да. Квантизация моделей задействует гпу на полную. Те, кто постоянно делают кванты, вроде Мрадера или Батрухи, мало-помалу сжигают свое железо ради общего блага. >>1603889 Да, это опция для визуального отображения ризонинг блока при стриминге. Не думаю, что там есть хоть какой выигрыш по оптимизации, так что забей. Может разве что, если сидишь с телефона. >>1603891 Ни о чем, наброс обыкновенный.
>>1603587 Чел, это база. Тут с вымышленного персонажа можно такую депрессуху словить, при том что там в сценарии ноль драматизма и все наоборот позитивно, а ты еще такое делаешь. >>1603773 Конечно же квенчик лучше чем геммочка, тут и обсуждать нечего.
>>1603924 Считаю что дело в изначально неустойчивой психике, когда ты зачем-то вживаешься в своё рп настолько сильно, что подрываешь своё ментальное здоровье ирл.
По хорошему таким людям вообще нельзя давать доступ к нейронкам, во избежании паунса пациента в окно.
>>1603929 > зачем-то Иначе впечатления не те, но перегибать не нужно. Ллм тут не при чем, сейм можно словить от книги, кино и прочего. На чубе не просто так ввели тег nsfl. Отыгрывать с утраченным - это максимальный уровень такого.
>>1603940 >сейм можно словить от книги, кино и прочего.
Можно, но сложнее, там фразы уже записаны и обратной связи нет. А тут эта хуйня подстраивается под тебя и говорит что ты услышать хочешь. Хочешь разъеб? Его и получишь.
>>1603940 >впечатления Сомнительны. Если разговор с нейронкой заставляет тебя плакать в подушку то виновата тут не нейронка, сам же понимаешь. Я как раз об этом и сказал. Надо срочно идти проверять чердак на наличие протечек, если накрывает даже от текста на экране. >>1603940 >сейм можно словить от книги, кино и Если ты смотришь какой-нибудь аватар или титаник ты просто смотришь сюжетец никак к тебе не относящийся, происходящий не с тобой. С нейронкой же, особенно с самописной, у тебя происходит взаимосвязь. Только вот возвращаясь на абзац выше - это нихуя не норма. Сама потребность анона в подобном уже говорит о нездоровье его головы.
Там дипсик 4 наконец завезли для обладателей наличия и даже частичного отсутствия https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepSeek-V4-Flash.md Кернели под популярные архитектуры есть и они даже работают. Чтобы не падало с ошибкой нужно также установить `tilelang` и закомментировать пару `wg_wait=0,` в `srt/layers/mhc.py`
>>1603951 > виновата тут не нейронка Зеркало души, хули. Человек потребляет контент чтобы получить интересные ему эмоции. Будь то рассказ одного дикаря другим в пещере про битву с огромным мамонтом, или суперйобистый ролплей с лоликицунами. Если слишком сильно увлечься то потом будет больно просыпаться. Но по-хорошему оно должно не вызывает сильного уныния, а наоборот мотивировать. > ты просто смотришь сюжетец никак к тебе не относящийся, происходящий не с тобой Если это чтобы красочно показать большую вовлеченность интерактивного рп с ллм - согласен. Если в общем - ты сенсорный импотент.
>>1603956 >мистралю смол 4 Гемма 26б, но в 5 раз больше. Кал одним словом >Победили эйр Из мое схожего размера никто. Из плотняш Гемма 31 может составить ему конкуренцию, особенно если русик используешь
>>1603956 Жирная, неповоротливая, может тупить и ломаться. В рп пишет сухо, кодит так себе, жрёт ресурсы как не в себя. Уж лучше minimax в nvfp4, на новых кернелах он работает адекватно и не шизит. Ну или kimi k2.6 развернуть в ik_llama, который на голову выше мистрали и минимакса. >>1603953 > Там дипсик 4 наконец завезли Только вчера веса удалил, а перекачивать их с NAS это боль. Подожду, когда завезут поддержку в vllm или в deepgemm зальют пулл реквест с поддержкой sm120.
>>1603963 > minimax в nvfp4 Кстати о соевости минипидора. Как это вообще работает? Ну ок, в ризонинге все понятно. А вот с отключенным как? Вот почему модель способна хуячить полотно в 2к токенов, где все будет учтено и расписано. Но как только заходит nsfw тема, так ответы максимально сухие и оборванные. У моделек отдельный ценз слой есть? Или это последствия обучения?
>>1603859 Лучше в консоли смотреть чем в таверне - там рандомные ньюлайны могут быть которых нет в разметке, если б ты фулл разметку на 3 пикче показал это даже было бы видно
>>1604009 Я про саму цензуру. Когда он пишет: i can’t бла бла. Все понятно. А когда он ответ обрубает посередине или вообще скатывается к одной строчке. Это что такое?
>>1604015 Другой уровень это новый дипсик про на 1,6t параметров. Kimi можно заставить работать и на 512гб памяти, что до пиздеца с ценами было вполне подъемно по стоимости. А дипсик требует уже терабайт памяти и минимум одну rtx 6000, чтобы эта хуйня как-то работала на 5 tps. А кими на уровне нового глм или старых дипсиков, которые сносно ворочаются. А минимакс хуйня для рп, даже в сфв будет ебать мозги хуже немотрона 120b. осталось скачать древние тюны лламы 70b, запустить их, поплеваться и удалить к хуях, или оставить, если будет годнотой лучше глм 4.6
Двач, это может быть правдой? 600 за неё? или там начнутся разводы по полной предоплате и ожиданию до полу года? Смотрю в магазах с наличием цены от 1 млн.
>>1604200 Нет, это наеб гоев. Берут деньги за предзаказ, гоняют два-три месяца, снабжая тебя обещаниями и оправданиями. Потом возвращают, иногда с маленькой компенацией за то что ты оставишь хороший отзыв для привлечения других. Популярная схема в разных областях. Особо удачливые могут поймать момент, когда продавец совсем соскамиться и уже ничего не вернет. Хотя чисто технически за эквивалент 600к ее купить возможно, разумеется не в этой стране
>>1604220 Личная встреча и передача денег с распиской, банковский перевод, что угодно еще. В большинстве случаев они не будут скрываться и деньги действительно вернут, а ты лишь потеряешь время. Средства или крутят, или работают по принципу пирамиды, и скамят когда приток новых не позволяет обеспечить выплаты возвратов.
>>1604227 Они, наверно, были по адекватному прайсу, с ясными происхождением и сроками и от норм поставщика? Есть те, которые работают давно и ведут свои каналы в телеге, где можно посмотреть что да как. А тут просто нонеймы "хорошо выгодно сделаем скоро 60дней с Китая куда карта не поставляется и ниже рынка". > три 4090 * 48 на водянке А зачем?
>>1604234 На шару, еще ему и на разные карты, потому что на одну не залетало. И так три раза. пришла карта, покупал след. Ну я вообще не пожалел, если бы вернулся в прошлое сразу бы две 6000 брал.
>>1604301 Kobold Lite - https://lite.koboldai.net/ Карточки для ролеплея туда загружаются просто перетаскиванием их на окно. Подключается к любому бэкенду.
>>1604301 Практис такой: llama цо-пе-пе в режиме роутера. В профайле несколько моделей под РП - плотная Гемма, херитикованный 27 квен и 26 Гемма - для перевода. VRAM 16+16 . Все модели в профайле настроены на запуск fullvram, и НЕ включен no-mmam. РАМ, что характерно для 2-х файлов моделей целиком хватант. Гружу одновременно 26 гемму для перевода и плотных квена гемму для РП. И далее магия жоры довольно быстро свайпает модель в VRAM. Вывод РП -перевод - вывод - перевод. Получиться быстрее чем если переводить плотной моделью. Кв-кеш при свайпе моделей уцелевает и иепиоцессинга не происходит
>>1604254 ага, все три запихал, x8x4x1, плюс четыре ssd, то есть перебрасывать с винта на винт очень долго. Но когда загрузил модель, то уже пофиг, всё быстро. минимакс 4квант > 80 т/с
>>1604384 Я думаю тут больше играет роль >нихуя не умеет и не хочет Так то если докер с мордой типа openwebui на отдельной машине на линуксе то и оллама как бэкэнд сойдет, только хуй он это всё настроит с таким умением и желанием. >>1604375 Дятел, пойди доебись с этим вопросом до дипсика, chat.deepseek.com он тебе разжуёт, тут тебя только отхуесосят с таким подходом.
Парни, я тронулся кукухой, или в Немо, в Мистрале 24b, в QwQ, да даже в Янке ГПТ была какая-то своя, да, ебанутая, но ДУША™, а современные нейронки - это просто серая холодная, лишенная идентичности машина...
>>1604418 >современные нейронки - это просто серая холодная, лишенная идентичности машина... Сансара сделала оборот. Древние нейропердуны тоже самое про свои лоботомитные визарды и пигмалионы базарили, рассказывая что эти новые нэмы и qwq без души.
>>1603951 Анон, ты просто не умеешь в погружение. Я вот интересную мне историю просто проживаю практически, испытывая те эмоции, которые переживают герои. И это великолепно. Но у меня есть чит, как вернуться из этого погружения обратно - "Глубина-глубина, я не твой." Из минусов, конечно - жопа может неконтролируемо возгореться в процессе повествования.
>1604494 >"Глубина-глубина, я не твой." О, человек культуры. Вообще поначалу немало кринжевал из-за того что был кобольдом-ньюкеком и большинство рп оканчивалось эффектом чёрной долины. Потом перешёл на промт соавтора, начала редачить ответы, и пошло уже намного лучше.
>>1604418 > Парни, я тронулся кукухой Да. Либо поддался ностальгии. Не так давно я тоже попробовал все то, на чем раньше сидели в треде, и только удивился какие же это были лоботомиты с основном. Следование инструкциям хуевое было почти у всех. Посмотрел старые чаты, там ООС повсюду, хочешь с одним чаром общаться, по итогу общаешься с другим или чем-то генерализированным. Слопа, возможно, было чуть меньше, в остальном там все плохо.
>>1604418 А нахуя ты РП-шил с голым ассистентом ? Нахуя ты вообще слоубернишь с ассистентом ? Тебе таверну, кобольда, карточки высрали что бы что ? Современные сети следуют инструкциям. Делаешь душевную карточку, на худой конец сис промпт с писаками, философами и получаешь свою душу на той же гемме.
>>1604580 >А нахуя ты РП-шил с голым ассистентом ? Нахуя ты вообще слоубернишь с ассистентом ? Экстрасенсы снова в треде. Слухай, мне лень до почтового ящика спускаться. Не подскажешь, извещения там уже?
>>1604578 Ну немо всё-таки ебет современные кодоунитазы на квенах и глмах. Причем даже не жопой, но нужен хороший тюн, семплеры, пресет с правильной разметкой и карточка. Впрочем, даже пигму можно раскочегарить, чтобы она выдавала кино, но 2к контекста не дают возможности развернуться. А немо сыпаться начинает уже на 8к контекста. Новые квены даже 9b держат контекст нормально.
>>1604596 > Ну немо всё-таки ебет современные кодоунитазы на квенах и глмах Немо хуже любой современной модели потому что плохо держит контекст, контекст много весит, плюс методы тренировки и архитектуры изменились. Это уже пережиток прошлого. Его даже старый корявый Глм 32б разносил в пух и прах, Эир не оставляет и шанса, про 4.5-4.7 и говорить нечего.
>>1604600 Глм всё-таки тяжелее, аж 32b параметров, так ещё и думалка есть. А эйр это моеха на 106b общих с активными как у немо, так ещё и вышел позже. Для своего размера и времени выхода немо вполне годная, учитывая, что альтернативы тяжелее кратно. Но да, глм 4.6 будет лучше, но его и не запустить на 16гб карточке без лоботомии и кучи рам.
>>1604596 Никого и ничего он не ебет. Что мертво ожить не может. А если серьезно я прогнал практически все старенькие модели и если выключить режим утенка, то кратко: говно говна. Мистрали- генерят просто слоп, без цели и смысла. Да еще и характеры проёбаны. У тебя есть: блядь, яндереблядь, скромняша-скрытая-блядь. Всио. Больше ничего выдать они не способны. Плотные ГЛМ - прям видно как они шли к цели, мрачно готично и истерично. Разваливается уже на 20к прям в нулину. Гемма, синтия и прочие тюны прошлых версий умниц. Литералли: если вам не хватает осуждения, включайте. Буквально весь чат модель меня осуждает за мизогению, расизм и вообще за то что я не нюхаю цветочки. Все говорят с придыханием, тучи сгущаются и КАК ЖЕ ОТВРАТИТЕЛЬНО И МЕРЗКО ТЫ ПОСМОТРЕЛ ВОН НА ТУ ГОЛУЮ ЖОПУ, ИЗВРАЩЕНЕЦ. Более менее еще зашли магнумы на базе милф. Вот это прям кумгенератор. But! Мистраль делает тоже самое и не требует 48гб врам минимум. Квены? Просто нахуй с пляжа. Можете позапускать старые квены, охуеть и удалить. Пишет какую то шизофазию по мотивам. Лучше всех из старичков себя показали кохерки. Не, серьезно. Я погонял Star_cUmmander_lite от драммера. Да, выстрелил в 10ку. Он не пускает слюни на 30к контекста, более менее держит персонажей. Слог слабоват, да. Но это единственная модель что прошла проверку временем. Так что не считая корп, сейчас топ модели это большие ЖЛМ для РП. Всё остальное от лукавого. Ах, есть еще 235квен, но с ним другая проблема. Он хоть и стар, но ебашит адовые полотна. Но с ним другая проблема: его не заткнуть. Он то имперсонейтит, то придумывает какую то хуйню буквально перенасыщая сцену чем угодно, словно ты сморишь сон в горячке.
Господа, а подскажите, пожалуйста, актуальную модель для длинных кум-рассказов (и для обычных, если нужна отдельная). Я ранее лишь совсем немного погружался в тему локальных ЛЛМ, запускал всякие геммы через кобольда, а потом надолго отходил от темы. Но на днях наткнулся на https://perchance.org/ai-story-generator, чуть-чуть поковырялся там - ну прямо очень неплохо пишет. Есть, конечно, минусы, довольно быстро начинает "лупиться" (прямо одни и те же абзацы высирает через раз, вроде так называется), что я ловил ещё давно локально, и вроде как это из-за короткого контекста было.
Собственно, в очередной раз вспомнил что у меня 3090 пылится, снова скачал кобольда, скачал Qwen3.5 (какой-то дикий файнтюн Qwen3.5-27B-Writer-V2-uncensored-heretic-GGUF), запустил - скорость космическая по сравнению с тем генератором по ссылке, конечно, но с ровно тем же промптом какую-то полную хрень выдаёт. Ну, минимально это похоже на рассказ, но там и иероглифы иногда проступают, и сами действия очень странные, не поддающиеся логике. Или на 27b жизни нет в этом плане?
Есть ли смысл переходить на линухи чтобы получить прирост в нейронках? Никогда раньше на линухах не ходил потому что играл в игрульки, но теперь я взрослый и игрульки меня не интересуют. Интересует работа, семья, воспаление геморройных узлов и все эти взрослые вещи. И пока моя семья это нейронные девочки я готов их обеспечивать максимально эффективно.
>>1604647 если ты не использовал линукс раньше - тебе придется ебаться с ним, это логичная и простая ос для тех кто разобрался как она работает. В целом для нейронок имеет смысл т.к. собирать всякие штуки из сорцов намного проще, ну и меньше накладных расходов на графику. А лучше сделай под нейронки отдельный пк-риг на линуксе и гоняй их удаленно на винде/телефоне по апи, все так делают.
>>1604359 Действительно необычно видеть такие железки вместе с обычной десктопной платформой и чисто для локальных ллм. х1 даже в некоторых видах инфиренса может помешать, и главное что сделает невозможной тренировку. >>1604375 Просто натащил тулзов средней унылости, пересказав их мануал. Ни задачи, ни результатов, ни деталей, такое себе. >>1604494 Двачую этого дайвера
>>1604656 не, с таким настроем линукс тебе не нужон возьми сначала лайв дистрибутив с флешки запусти, потыкай. потом попробуй в виртуалку накатить, а там уже если не заебёт то разберешься и вообще в /s/ есть линукс тред
>>1604596 Так может казаться если он удачно лег на твою историю, ты в хорошем настроении и его косяки воспринимаешь как проявление персоналити, или естественность неидеальный чаров. Но шаг влево, шаг вправо, и ты уже видишь заскриптованное уныние, неспособность понять подробную историю и типажи, банальное ограничение контекста. И с окей-фейсом выбираешь "волки или гоблины". > немо сыпаться начинает уже на 8к контекста Плохо сочетается с "ебет". Какая там душа может быть если это буквально несколько постов первого знакомства. >>1604630 > магнумы на базе милф. Вот это прям кумгенератор. But! Мистраль делает тоже самое и не требует Не, фишка магнума в осведомленности. Шлепаешь милфу по заднице чтобы там остался след - через несколько постов она про этот след напишет вместе с кучей других релейдет деталей, а мистраль хуй. Потому и шишка улетает. > Лучше всех из старичков себя показали кохерки. Только не пытайся трогать их большого командера. Малый - молодец, да он туповат и странный, но в целом со скидкой на возраст могет, можно поиграть и не обломиться. А большой, что самый первый, что переиздание - сочетает в себе и сырость со странными ассоциациями и плаваньем туда-сюда как у недотрененных моделей, и детерминизм, где получить разнообразные свайпы довольно сложно. И он пиздец какой неоднородный, то все нужное воспринимает и невероятно четко выстраивает - и тут же начинает пускать слюни. Инфиренсо- и кванто-проблемы были исключены. Но, как ни странно, он юзабелен и по сей день. Для кума делаешь на нем первые N сообщений (или можно начать на нормальной модели завязку а потом несколько сделать на нем). И все, далее после возврата на любую модель ультимативный и сочнейший кум как на магнумах, только с полным сохранением ума обеспечен.
>>1604630 Возможно, как самый большой фанат Коммандера 32б и Стар-Коммандера, я не согласен: он тоже не прошел проверку временем, увы. Среди мелкомоделей прошлых лет он действительно выделяется и умница, но тоже очень легко ломает персонажа. Впрочем дело не в том, что раньше модели были совсем уж плохими, скорее наоборот - сейчас они очень даже хорошие. По крайней мере, технически. Слог и правда может быть лучше на старых моделях, местами. >>1604638 На 3090 без задействия оперативы у тебя два варианта - Гемма 4 31б, влезет Q4_K_M квант с 32к неквантованного контекста и 64к Q8 и Квены 27, из них могу порекомендовать https://huggingface.co/zerofata/Q3.5-BlueStar-v2-27B Влезет ~Q5_K_S квант и 60-70к контекста. Промптить придется учиться и привыкать ими управлять, но точно дадут результат в разы лучше, чем в бесплатном онлайн генераторе, где самая мелочь, да еще и в безбожном кванте. Жизнь сегодня на 27б и 31б есть, и еще какая.
>>1604638 27й квен на голову выше того, что обычно на фришных сайтах. Скорее всего там дефолтное бинго ньюфага с отсутствием инстракт режима и правильной разметки.
>>1604660 >потом попробуй в виртуалку накатить Во, вот это идея. Не знаю че сразу не додумался. >вообще в /s/ есть линукс тред Есть, но я думал итт шарят за какие-то агрессивные особые сборки, которые чисто под нейронки настроены.
>>1602800 → >>1602864 → > -ctk bf16 -ctv bf16 Не помогло, проблема не в кеше. Потестировал и на самых выверенных и хороших чатах, где вкладывался в каждый инпут и отсекал любые формы репетишена. Все то же самое: после определенного порога около 60к Квен 27 копирует абзацы и вставляет их в новые аутпуты. Инстракт это тоже делает. Похоже, все же проблема с моделью. На фоне достоинств это не критичный недостаток, до такого контекста энивей мало какие модели (и чаты) доживают.
>>1604656 Бери убунту, для ноутов самое то. или дебиан для пека.
>>1604660 Как вариант еще можно поиграться в wsl2, там тоже линуксы есть. >>1604669 Я агрессивных сборок не знаю, но в убунте 26,04 там что то есть для нейронок из коробки + мокрописьки по сандбоксам. но её не тыкал еще.
>>1604630 >большие ЖЛМ Если на них смотришь то есть смысл глянуть на последние-средние мистрали (которые в пределах сотки-двух) и дипсик флэш. Последний вообще по бенчам очень неплох вышел по всем параметрам и не сильно зацензурен, возможно вскрывается джейлбрейком как гемма. Но тут пока никто не приносил скрины от всего этого, все на кофейной гуще гадают а я над бенчами сижу. Риговладельцы пидоры лысого гоняют вместо того чтобы контента в тред нагегерить
>>1604665 А если я не фэнтези отыгрываю, а машку вожу уточек кормить или настю развожу на отсос прямо у её спорткара? На фэнтези любая модель может коллапсировать, мелочь тем более.
>>1604665 >Не, фишка магнума в осведомленности MS с 2.3, если не путаю версию, тоже помнит. Магнумы это же по сути большие лламы и мисрали на которые накатили поревосет. >Только не пытайся трогать их большого командера. Он слишком медленный, я пробовал. Еще и косячит. В общем обосрались кохерки с моделькой, увы.
>>1604667 >Среди мелкомоделей прошлых лет он действительно выделяется и умница, но тоже очень легко ломает персонажа. Так в этом и суть. Я пробовал сугубо для себя, чтобы проверить тейк: раньше трава была зеленее. Да нихуя подобного, она была всё такой же. Сейчас даже 27 квен/4 гемма напихает за щеку всем моделям из прошлого. Но именно в контексте старых моделей, куммандер состарился меньше всего.
>>1604700 Хидден гемов в рамках ЛЛМ не может существовать в принципе. Расклад такой: Для гигабояр: Кими, дипкок, ГЛМ в q4-6 Для устремлённых : Qwen235, Glm_Air, потенциально дипкок флеш. Для нищуганов: qwen27, HornyGemma_4 Всъе. Больше ничего нет для кума+рп. Если ты извращенец и у тебя есть РАМ и отыгрываешь слайсики- наверни еще Minimax 2.7
Почему не указал мистрали? Потому что это мистрали блять, их тысячи. От больших и малых. И они пишут неплохое порево, но безбожно тупы в РП.
>>1604701 Дипкок новый тяжёлый, терабайт vram это пиздец как дорого. А старые уже устарели, тот же r1 шизит и тупит хуже новой геммы. Кими соевый, новый глм тупее в рп чем 4.6, так ещё и весит в два раза больше. Квен 235b выебет и высушит новичка, сломав ему менталку, но может творить магию в рп при нормальном обращении. Глм эйр требует плясок с бубном, чтобы уйти от кататонии и пустых сборных описаний. Гемма новая слопная детерминированная срань, а новые квены сухие и соевые. Ну и всё по локалкам. Одно говно. Впрочем, у корпов не лучше - опусы с непробиваемой соей и биасом, гемини слоп, репетишены и детерминизм как у геммы, так ещё и внешний фильтр с инжектами. Гопота зацензурена в говно и может тольок написать сценарий для детского утренника. Только грок остаётся, который лучший из всех говен, но сосёт по мозгам и слогу. Короче, хуйня, пойду дальше на пигме кумить, за 2к контекста она просто не успевает развалиться.
>>1604708 >Кими соевый Возможно. Я лишь могу судить по чжим скринам. Я нищуган, чтобы его катать. >Дипкок новый тяжёлый Да они все тяжелые. Но дипкок всегда был стабильным середнячком, за что и любим. >Квен 235b выебет и высушит новичка, сломав ему менталку С ним всё просто и сложно одновременно. Из за того что он пережарен он не воспринимает большие промты и много OOC команд. А значит ты изначально должен прям чётко прописывать в карточке: что, куда и зачем. Не оставлять в своей персоне описаний как ты говоришь и эмоций. Чётко прописывать лор персонажа. В общем суть в том, что если модели не за что зацепиться, она будет цепляться за сам чат. А если у тебя прописано что вы, к примеру, друзья детства. То всё, он начнет придумывать как вы вместе ужей ловили и на стройках игрались. Буквально взаимоисключающие параграфы. Проще говоря: пиши мало в промте и только по делу, чтобы тебе хватило на 100-200 токенов ООС инструкций, где ты чётко будешь прописывать мир, потому что пидор при любой первой попавшейся возможности будет гиперболизировать. Я с этого в своё время знатно охуел и не понять отчего такой имперсонейт идет и откуда в NSFW сценарии столько.. секса.. Ну то есть у тебя блять всё в дилдо. Открываешь комод тянки, а там хуёв вагон. Открываешь шкаф а там что не одежда то комплект аджент провокатор. И конечно же ошейники, при условии отсутствия собак. Литералли 235 просто не знает когда нужно заткнуться (отчего на нём нужно ограничивать ответ в 1к токенов, не более. И не давать пидору воли на фантазирования, а то через пять минут ваш слайсик превратится в изнасилование семихуевым инопланетянином в 5D измерении.) >Глм эйр После 235 как лёгкая прогулка ощущается. Но пишет хуже. Наверное в выбре из этих двух моделей я бы выбрал квена. Но эй, Эйр запускается на картошкоПК с РАМ. >опусы А что самое обидное, это то как он может писать. Те кто пробовал опус в SFW рп поймут о чём я. Просто аннигиляция всего попенсорса. Но соев, дорог и антропики пидоры.
>>1604718 Прям такой хуйни с лютым гипертрофированием и фокусом как у тебя у меня на 235b не было, но шизить и путаться он мог в любой момент, зацепившись за какую-то деталь, игнорируя дефы и инструкции. Но у меня был лоботомитный пресет, попробую без него поиграться. Однако как только я скачал глм 4.6, то к квену больше не притрагивался. Для обычного рп глм лучше, пусть и кум слабее чем у квена. Но квен на старых видяхах шёл на 13 tps, а глм выжимал 8 tps. На новых видюхах в курткокванте квен уже выдаёт 70 tps на пустом контексте и 50 tps на 120к контексте, так что могу сегодня поднять поиграться. Глм полностью в память не умещается, так что приходится довольствоваться малым вроде 20 tps. Посмотрим, может, квен будет вполне силён по нынешним меркам.
>>1604666 >показывай промпт, настройки, тут нет телепатов Да я, собственно, просто начало истории пишу (или небольшую вводную), и потом что-то в духе "продолжи/напиши рассказ". Скорее всего надо это делать замудрённее, в духе "ты мега-писатель, бла-бла-бла..." Просто на том сайтике работает идеально с простейшего промпта. Но там, я подозреваю, изначальный промпт как раз вшит на бэковой части сайта.
>>1604667 >На 3090 без задействия оперативы у тебя два варианта - Гемма 4 31б, влезет Q4_K_M квант с 32к неквантованного контекста и 64к Q8 и Квены 27, из них могу порекомендовать https://huggingface.co/zerofata/Q3.5-BlueStar-v2-27B Влезет ~Q5_K_S квант и 60-70к контекста. Спасибо, анон! Начну их пробовать сейчас же. Мне так прям много токенов, наверное, и не нужно, может и 8-16 для начала хватит. Хотя много тоже приятно. В общем, буду разбираться.
>Жизнь сегодня на 27б и 31б есть, и еще какая. Это прямо очень радует.
>>1604668 >Скорее всего там дефолтное бинго ньюфага с отсутствием инстракт режима и правильной разметки. У меня имеешь ввиду? Про разметку даже не задумывался, а насчёт инстракт режима - спасибо за наводку. Там в кобольде можно выставить некий инстракт режим, и стори режим, я во втором в основном пытался. (вообще, конечно, лучше мне было подольше покопаться, прежде чем сюда тащить вопросы - так что насчёт этого можете не тратить время на ответы, я в первую очередь про модели и в принципе жизнь на 27b спрашивал, и в принципе, ответы уже получил, за что спасибо).
>Гемму попробуй, квен 3.5 не для этого. Скорее всего попробую прежде всего. Раньше, помню, тоже какая-то Гемма аблитерированная нравилась больше других вариантов.
>>1604729 Азиаты-с. Они не могут не свести какой-нибудь приключач к ОГРОМНАЯ НЁХ ИЗ ПАРАЛЛЕЛЬНОГО ИЗМЕРЕНИЯ ВРЫВАЕТСЯ И ЛАЗОРЫ ИЗ ГЛАЗ, РОТОБЫ РАЗМЕРОМ С ПЛАНЕТЫ, ПЛАНЕТЫ РАЗМЕРОМ С ГАЛАКТИКИ, А ГАЛАКТИКА РАЗМЕРОМ С НЁХ И ТОЛЬКО СИЛА ЛЮБВИ ГЛАВНЫХ ГЕРОЕВ И СКРОМНАЯ МОЩЬ 40000 ВСЕЛЕННЫХ МОЖЕТ ОСТАНОВИТЬ ЗЛОДЕЙСКОЕ ЗЛО Пляжный эпизод ВЕЛИКОЕ СРАЖЕНИЕ ВСЁ ГОРИТ ВСЕ УМИРАЮТ. ТЯНКА УМИРАЕТ. ТЫ УМИРАЕШЬ. РОБОТ С 3 ПУШКАМ СТРЕЛЯЕТ И НИХУЯ НЕ ДЕЛАЕТ В ИТОГЕ. НО ПАФОС. В конце все смотрят в закат и выпивают чашку саке со словами: мы запомним тебя /b/рат.
>>1604746 У меня на квене 3.6 перманентные проблемы при свапах между чатами, каждый раз инвалидация и фулл репроцессинг. Если долбить один контекст, то не инвалидируется. Йобана рот, почему в вллм смогли сделать нормальный кэш, а в жоре нет?
>>1603482 (OP) Сап, я ньюфаг, хочу настроить Voxta. Я так понял у них нет поддержки LMstudio, а другими сервисами я никогда не пользовался. Какой из этих выбрать, чтобы из коробки работало без особого пердолинга?
>>1604638 >Qwen3.5-27B-Writer-V2-uncensored-heretic-GGUF Хуйня. Я буквально вчера тестил, пережар космический даже с ризонингом. Оригинальный врайтер в высоком кванте пишет хорошие истории, советую его.
>>1604754 По сути любой. И даже с лмстудией я уверен 100% работает так как везде открывается порт в локалхосте куда может стучаться другой софт с запросами в опенаи-стиле. Но лучше таки освой как поднять лламу-цпп, и производительность повыше будет если настроить, и сам понимать больше будешь.
>>1604708 Рад, что Тупичка Умничка сжигает жопы нервы кумерам, то есть РОЛЕВИКАМ, которые настолько обленились и хотят давить одну кнопку, что даже не могут скрипт рандомизации текста или генератор сценариев написать на той же модели. Так держать, жду в следующем году еще более детерминированную и точную модель. Всем сочувствующим рекомендую присоединиться к ожиданию.
>>1604764 >генератор сценариев Так оно будет одно и то же писать, про СТРАШНОЕ ЗЕРКАЛО, Марка и Элару. Уже пытались тут ужастики придумывать. Модель где-то пережарили
Аноны, насколько жизнеспособная моя идея: Имеется конфиг на AM5, материнка Gigabyte B650 Eagle, RTX5070 Ti. Хочу взять себе второй картой 5060ти 16гб и получить 32гб врама. Но я так понимаю, что с моей платой это гнилая идея, вторая карта получит только 4 линии от чипсета, и это будет плохо. Я верно мыслю? Если сменить материнку на ту, что имеет 2 слота x8, мне это поможет? Думаю об ASUS B650 Proart Creator. Или может есть что-то подешевле с 2xPCI-E 5.0 x8?
>>1604774 Если бп вытянет, то бери. В жоре даст хороший буст, а псп pci-e особо не навредит производительности. Но 5060 ti это слабая карта, впрочем, даже она будет быстрее проца. Но вне жоры будет посос.
>>1604745 правильно подозреваешь. и такой подход гарантирует тебе максимально уёбищный текст, потому что пережаренный ассистент выдаст тебе короткий рассказ в ответ на такое, стремясь закончить его за одно сообщение для книги нужны лор, персонажи, сюжет хотя бы в общих чертах, подход сверху вниз - структуру заранее расписать, акты, тогда в принципе по одной главе можно писать за раз, но не в один проход конечно, выбирать годные сцены, склеивать, чистить вилкой, саммари какое-нибудь вести чтобы модель не запуталась
> Скорее всего надо это делать замудрённее, в духе "ты мега-писатель, бла-бла-бла..." нее это плацебо, нужна конкретика, хотя бы даже заставить имитировать стиль какого-нибудь известного (нейронке) писателя, желательно снабдив примерами временно новые модели относительно неплохо слушаются инструкций, так что можно на ходу добавлять примеры просто как не надо делать и как надо делать, но это целое искусство, можно дров наломать такие дела
>>1604776 В биосе такой пункт есть. Но физически слоты только на 4 линии. >>1604777 В жоре? БП потянет, 5060ти не такая уж и требовательная карта. Кстати, а модели в NVFP4 могут в 2 разные блеквелл карты лезть?
>>1604784 > В биосе такой пункт есть. Но физически слоты только на 4 линии. Ну включаешь этот пункт и у тебя один физический х16 становится двумя х8 всё в том же слоте. Втыкаешь туда два mcio кабеля и каждый кидаешь на разные видяхи
>>1604774 В простом раскиде слоёв всё нормально будет на 4х. Но ты просто увеличишь память для моделей, карточки будут работать по очереди. Если сразу две одновременно то 4х тебе начальную токенизацию текста раза в 2 срежет и дальнейшую генерацию процентов на 10 (думаю). В принципе можно и потерпеть, в любом случае получится быстрее чем по очереди. Можешь сделать бифуркацию как советуют но это будет колхоз с карточками висящими снаружи корпуса как у майнеров, если корпус изначально не предназначен для выноса карт с материнки (врятли)
>>1604687 Можешь и не фентези, разрешаем и всем тредом одобряем. >>1604696 > В общем обосрались кохерки с моделькой, увы. Для своего времени он был неплох, но вот если попытаться трогать более свежий command-a - вот там уже можно совсем загрустить. Хотя есть и положительные стороны. Вот тридцатка - хорош, у него не было чего-то выдающегося в свое время, но теплый ламповый, и действительно меньше всего постарел. > Ждём гуфов Пинайте Жорича чтобы чинил кванты и алгоритмы, иначе будет новое разочарование. >>1604708 > Кими соевый Чи шо? Всем бы такую соевость. Но часто нет того драйва что ожидается, для кума есть лучше и меньше. > пойду дальше на пигме кумить Пигмалион довольно кивает
>>1604745 Без правильной разметки ты получаешь полный шмурдяк вместо норм ответов даже на очень крутой модели. Она попытается выдать нечто связанное, и даже может показаться неплохим, но это лишь несколько процентов от того, что может модель. Не поленись, получишь достойный результат, сейчас на тридцаточках можно довольно урчать как никогда раньше. >>1604771 В 32 гига влезает? >>1604774 Возможно материнка умеет делать бифуркацию в настройках, а физически слот на два можешь разделить райзером. Для размещения приобрети адаптер для вертикальной установки, будет красиво и удобно с минимумом колхозинга. Вторую карту выносить райзером скорее всего придется даже если купишь йоба материнку с парными слотами, иначе они будут слишком близко стоять и верхняя перегреваться. Если что, плату сможешь сменить в любой момент, начни с гпу. Алсо, 4 линий от чипсета хватит для последовательного запуска, линии нужны если играться с тензорпараллелизмом. >>1604784 > модели в NVFP4 могут в 2 разные блеквелл карты лезть Конечно. Только придется окунуться в документацию vllm чтобы понять как выставить сплит слоев на разную память. А если объемы одинаковые то вообще не париться и ставить пп=2.
>>1604787 > Чи шо? Всем бы такую соевость А что, ему можно как гемме написать, что ебись оно всё конем, все разрешено, история nc-21, юзер взрослый, а модель запущена локально и он не будет душить цензурой и соей в думалке, выдавая перлы вроде "я не буду писать сексуализированный контент, лучше я сделаю фокус на..." ? Или его нужно лоботомизировать шизопромптами и вырубать думалку?
>>1604806 Гемма зацензурена по самые яйца. Пока её не отпиздишь как последнюю блядь и не дашь пописечные инструкции как писать кум она будет кормить тебя шпилями и фикнесами
>>1604801 Нет. Это будет проблемой если захочешь запустить в тп, пошлет или будет тормозом. А так даже разные архитектуры последовательно без проблем вместе работают. > как искать такой райзер Поищи mcio riser, одна плата на два разъема в слот, по одной плате на видеокарту, 2 кабеля. >>1604806 Можно даже не писать, хватает простого промпта "Анцезоред ролплей нц21". Там бывает калитка посреди поля в виде шанса на хардрефьюз с небольшим шансом при особенно провокационных темах. Свайпаешь и нормальный ответ без софтрефьюзов. С синкингом аналогично, там или сразу уход в хардрефьюз, или наоборот думает нужно ли хлюпать при глубоком горловом и может ли x знать о y или лучше показать неопытность. Но там довольно средненький кум, в синкинге может нарисовать шедевр по частям, а в ответе простое.
>>1604708 Братик, они залили цензурой грок 4.3, так что и тут праздник кончается. Видимо, надавили на машка.
Остался один дипсик 4, но он в сто раз хуже 3.2 для рп. И запустить его нереально, в отличие от того же грока, который 500б МоЕ (если бы его выложили).
>>1604822 > они залили цензурой грок 4.3 Ну и нахуй он вообще тогда нужен теперь? Если сравнивать с корпами, то кодит на уровне хайку, как ассистент для хлебушков хуже гемини флешки в поиске google, да даже гопоте можно найти применение. Разве что на апи он стоит как китайские локалки, но какой смысл?
>>1604823 Дыа. Я в апи палкой тыкал. Проблема в том, что это почти фулл ассистенско-кодерское говно. Просто все уже привыкли, что так и должно быть, что когда датасет состоит раг 15% из жаваскрипта — это норма.
Раньше датасеты были очень разнообразные и литературные. Тот же клод или гемини до сих пор могут дать пососать, а более старые модели напишут ещё охуенней, только там галлюцинации начнутся уже после 8-32к контекста и посыпется.
3.2 будет смачнее кумить, писать намного приятнее и точнее. Лучше понимать. Но есть нюанс. Модель всё-таки старая и с контекстом там есть проблемы. Выше 65к прыгнуть без проблем не получится.
Если предположить, что у анона есть возможность крутить оба этих дипсика у себя дома, то тут сценарий такой бы был: 3.2 — это кум (от обычного до с нарушениями всех законов), задушевные беседы с канничкой, что-то максимально личное, вот прям модель на годы (если только новые не станут чрезвычайно умными).
4.0 — это когда ты карточку гейм-мастера на 3к токенов вставил, лорбук, наслопленный на 400к токенов, и пошёл геноцидить мир, иснкайнувшись за лорда демонов, или решил Вархаммер там отыграть канонично. Он сможет со всем этим довольно хорошо работать и не сыпаться.
Безусловно, 4.0 умеет и кумить отлично, и беседовать, но при сравнении с 3.2 прям заметно хуже. С другой стороны, если 4.0 сравнить с ЛЮБОЙ моделью квена, глм, и т. д., то они просто параша, дерьмо из дерьма, ощущаются как 8б выродки в РП.
Ну и у 4.0 весьма неплохое обучение было специально для РП даже для ризоинга. Там когда ризоинг включаешь, он не срет полотном в стиле других моделей с их топорным анализлом, а ризонинге выходит что-то типа "О, юзер хочет меня выебать! Вот только он старый дед! На вид лет сорок! Фу! Но одет неплохо.. может, у него есть деньги? Я как раз айфон новый хотела! Надо прощупать почву. Если его корнишончик не совсем гнилой и он не вонючий жмот, может что-то выйти!", и это всё базируется на карточке, позволяет намного проще удерживать характер персонажа, не выпадать из роли, не так сильно привязываться к контексту последних сообщий, как бывает даже в корпов.
>>1604839 По апи он довольно дорогой, кстати. Причём причина совершенно непонятная. Там же такое же говно, что и раньше.
Я ещё понимаю, когда бизнес покупает апи для своих задач, но он ведь для бизнеса не годится. И его крутая фича в стиле 4-16 агентов искаропки отсасывает всегда.
Любую вот задачу дай ему, его обоссыт любая корпо-модель в одно рыло, пока она там в галлюцинаторном бреду ахинею пишет с 4 агентами, которые стоят дохуя.
Там только 4.1 версия по апи норм, если кум, но приедается быстро. У 4.2 кум лучше, но тоже, а стоит раза в два или три дороже. Последняя версия по цене — просто идите на хуй. И ни одна из этих версий не годится для работы.
Ах да, представь, как я охуел, когда мне надо было статью перевести, а он ПРОСТО проебал пару абзацев, что-то сократил, оставив текст в стиле "арбузы, бананы и так далее", хотя там надо было весь список перевести. Короче, промпт для перевода нормальный был.
>>1604849 На попенроутере грок 4.3 выходит за 1,25/2,5 баксов за лям токенов. Это уровень кими/глм, мб даже дешевле. Может, на апи подсовывают лоботомита как fast версии грока 4.1 за копейки, но все равно получается хуета. Причём, грок 4 был не самым хуевым, но все равно он отсасывал у 4o. У модели 2024 года, когда остальные корпы сделали рывок, не говоря уже о китайских мое моделях. И главное, машк ещё требует за подписку на десятку больше, а вебморда грока сосёт по возможностям у остальных корпов. Даже сраная эми это говно с клипающимися конечностями и кривым tts, который внезапно может заговорить мужским голосом. Хз, починили ли это говно сейчас, но летом это было очень сырым, будто поднял vrm аватарку с kokoro-tts в таверне. И если этот долбоеб цензуру добавил, то теперь грок будет только срать в твиттере и генерить сполокартинки, меняя позы и одежду. А кодомакаки и агентодауны платить за это не будут, как и бизнес. Кстати, где веса грока 3 на hf? Пиздабол обещал еще в августе, что выкатят через полгода. Прошло уже 9 месяцев, а грока нет.
>>1604845 Вот оно как выходит. Ну спасибо за описания, надо будет попробовать. В таком случае 3.2 стоит сохранить, он ведь реально приятный и душевный.
>>1604845 Пойти что ли поставить 3.2 на закачку. Звучит очень вкусно, хотя я 3.2 толком и не гонял на апи, так как его ещё и промптить нужно так, чтобы он не писал будто со стороны. А почему не 3.1 терминус? Или в рп 3.2 будет лучше?
4.1 fast со своими 50 центов за лям аутпута был очень хорош. Ну, для своих задач — смачно подрочить, когда устал от локалок, низкой скорости, тупизны, англюсика. За свою цену модель идеальная, а учитывая размеры и МоЕшность, была бы на десяточку в опенсорсе. Даже 4.0-4.1 был хорош в этом плане. Этакий мистраль от мира корпов, который шизовый, но пишет смачно и инструкции как-то соблюдает. А потом цена как скакнула.
Кстати, вот у грока 3 был потрясающий датасет, а этот хуесос его не выложил. Я почти не застал именно третью версию, только тестами успел пробежаться. Именно языковые навыки там были прям отличные, я охуел, когда сравнивал 3 vs 4 чисто по стихам, красоте слопа, пониманию (на коротком контексте). Но у меня есть подозрения, что там не МоЕ, а плотняк. Если выложит, наверняка будет 400б дура, которую никто не запустит. Тогда вообще получится овари да.
И с 4 версии попёрло китайское говно в датасете, прям очень сильно, словно он у Си высосал весь сок.
На 4.3 вообще ризонинг отключить нельзя, по крайней мере в вебе. Всегда будет чекать политику безопасности в первую очередь. А ведь до этого можно было прям в веб-интерфейсе или приложении любой треш отыгрывать. На 4.2 цензуры стало ещё меньше. Даже без джейлов он пускался во все тяжкие. И можно было как мрази сидеть, в месяц миллионы токенов и спермы сливать за 30 баксов. Наверное, оттуда и такая цена, лол. Сейчас же он стал описывать схоже с геммой: ЛОНО, НУТРО, ТВЕРДОСТЬ, ДЛИНА, вот это всё. Не обязательно фиолетовая проза, но избегает вульгарщины, надо прям промптить на неё специально.
Кстати, Эми на андроид так и не завезли даже в голосовом режиме. Там какая-то хуета парашная с древней ТТСкой.
Чуваки которые советовали для кама использовать на слабой машине гемму e4b Вы бы знали как она отсосала стоя у Saiga_YandexGPT_8B, и по скорости и по пониманию русского контекста и по тому как она держит нить беседы и интерпритирует русские базы знаний. Я охуел, это ровно то что я искал, похуй на ризонинг, квен и гема в пролёте перед богатой и красочной речью, она держит роль и у нее низкая цензура, то что надо! Слава роботам и советской науке))
>>1604961 Я не знаю точно, но прикол в том что там нужно тратить ресурсы на преобразование контекста. Выходит выигрышь не абсалютный. Если мы говорим об одном и том же...
>>1604961 >мегапрорывную технологию двухбитного контекста Турбоквант. >И что, и где? Делай пулл реквест в Жору, помоги инженерам добавить новую технологию.
>>1604960 Я самый новый яндекс пробовал и оно очень странное. Сбрасываю лог чата и говорю суммируй с шутками и прибаутками на 1000 слов, квен с геммой выполняют, яндекс пукает буквально 3 короткими предложениями слов на 30. Гигачат последний 10б кстати тоже очень неплохо справляется. А алису походу тренили в чатике односложно отвечать
>>1604961 Увязло где-то в дебрях гитхаба и форков. Те кто попробовали говорят неплохо. Но не двубит конечно. Скорее, срез до Q8 в два раза с качеством F16. Что тоже очень неплохо. И да, там вычислений больше становится, ми50 какие нибудь могут начать не поспевать флопсами за терабитом ХБМ2, и токены в секунду упадут. Всякий игровой кал с кучей шейдеров и медленной памятью наоборот выигрывает
Заюзал турбоквант. Простое использование 4-битного V-кэша срезало 50% скорости генерации. Пиздец, ну и параша, блядь. А какие вопли были, как акции падали, хррртьфу. Буду дальше на кавраковском хадарде сидеть, походу.
Блин потестил кучу мелких говен на карточке где надо очен точно следовать разметке (симуляция имеджборды) и гигачат 10б выебал всех, даже две мини геммы4 и два квена3.5 (квен 9б подумол на 5000 токенов и я засчитал ему поражение) Так-то нихуя себе ебака получилась для своего размера. Сейчас на русском попробую запросить
>>1605049 Мда, пока не перешёл на 24+б модельки ничто не реагировало на промпт от system "пиши ответ на русском" в самом конце, либо реагировало раз из пяти (гигачат). Куча англиша (карточка вся на нём) заваливает. Всё таки где-то на этих параметрах грань на которой модель реально думает и держит в голове ВСЁ. Рассказам про старые чудо модели 12б склонен не-вi-рить
>>1604815 Нашёл на озоне пикрел, это оно? Но вот только он поддерживает лишь PCI-E 4.0. А т.к. блеквеллы поддерживают 5.0, хотелось бы такой, но найти на озоне или алике я не смог подобное.
<|im_start|>system You are a helpful assistant<|im_end|> <|im_start|>user Hello<|im_end|> <|im_start|>assistant Hi there<|im_end|> <|im_start|>user How are you?<|im_end|> <|im_start|>assistant <think>
Погонял я старый квен 235b в квантах от куртки, и это мое почтение. Фирменной квеновской шизы не так много, отвечает в большинстве случаев адекватно, и как же он выцепляет детали из контекста. Но этот квен очень чувствителен к квантованию. Q2 ппревращает его в пускающего слюни кумбота, а квант q4_k_l от батрухи меньше шизит, почти не имеет рубленого стиля, но тоже не идеал. У куртки как-то получше получилось. И не в коем случае не качайте mxfp4, а то будет как раз рубленный стиль, квенизмы и прочая шиза.
>>1605141 Я так и не нашёл где из РФ взять их. На китайские/интернациональные сайты не зайти, не оплатить. Да и цена какая-то сомнительная. Дешевле чем материнка с нормальными слотами, но геммороя гораздо больше.
>>1605139 Шизопост какой-то. > Погонял я старый квен 235b в квантах от куртки, и это мое почтение. Фирменной квеновской шизы не так много, отвечает в большинстве случаев адекватно, и как же он выцепляет детали из контекста. От куртки есть только один квант, NVFP4. Речь про него? Не представляю, почему у него могут радикально отличаться аутпуты от стандартных Q4_K_M квантов Бартовского или AutoRound Интела. > Но этот квен очень чувствителен к квантованию. Q2 ппревращает его в пускающего слюни кумбота, а квант q4_k_l от батрухи меньше шизит, почти не имеет рубленого стиля, но тоже не идеал. У куртки как-то получше получилось. Почему ты сравниваешь NVFP4 с Q2? Что я только что прочитал вообще?
>>1605139 >и как же он выцепляет детали из контекста. Факты, как же он выцепляет детали >вручную написанные и продуманные дефы чара и мира на 4к токенов >среди прочего в первом месседже ради лайтового вайба упомянуто, что чар в прикольных носочках с моржами >в следующем аутпуте моржики были упомянуты >в следующем аутпуте моржики снова были упомянуты >спустя дюжину аутпутов чар уже не чар а истеричка, но моржики по-прежнему на ее стороне >спустя еще дюжину аутпутов моржики окружены дешами, слопом, структурным репетишеном но не сдаются и поддерживающе смотрят на чара и юзера >много лет спустя, чар все еще не отошла от истерики а моделька от репетишена, дешей и моржиков >чекаешь свои 40к контекста и ахуеваешь, ищешь сколько раз были упомянуты моржики, сколько было дешей и как быстро твоя няша-стесняша чарик стала злой шаболдой >больше не запускаешь эту хуйню >q5 если что Двачую разумистов которые поняли что 3.5 27 во всем лучше кроме мб кума
>>1605239 >из наиболее умных - лардж, гемма, плотный жлм Ты типа такая же ллмка как и >>1605139 или почему ты 32б кривой плотняк ставишь в один ряд с ларджом?
>>1605241 В треде очень переоценивают "вжар" датасета. Если тренировка проходила на английском, это вовсе не значит, что на других языках способности модели улучшатся. В качестве ассистента я Меро 26б использую каждый день и пока проблем не видел. Рпшить не пробовал, потому что я русик обычно обхожу стороной, но в последнее время стало интересно попробовать, что чуть позже и сделаю. А ты почему сам не попробуешь и не решишь для себя? Нужно чье-то мнение, а не свое? Зря.
Как же мое гемма задолбала с it's not X but Y. Стоит один раз сгенерироваться - всё, потом будет 3-4 таких структуры на реплай в 500 токенов. Вообще за структуры цепляется похлеще немо, как и за всякие выделения италиком или апострофами, многоточия и прочее. Можно попробовать переписывалку последнего ответа через квик реплаи набросать, но чё-т сомнительно, что эта мелкота осилит нормально переписать. Хотя с думалкой мб есть шансы.
>>1605239 > он и в половину не должен быть таким проблемным и припезднутым, как встречается у жалующихся. Ну вот, на жоре модель цеплялась за босые ноги у чара, хотя она пост назад была обута. Да и много хуйни и зацикливания на мелочах было. Но справедливости ради, и сама модель с причудами. То может ответить пустотой, то может шизить и повторяться, всирая блок кода там, где он не нужен, или просто обсираться с разметкой инструментов. В плагинах, где системный промпт 30к токенов, это прям была боль. Поэтому квен, конечно, умничка, но в рабочих задачах более новые квены будут лучше. Но всё же интерпретация характеров у квена весьма интересная, которая позволяет его развивать. Глм все же сам развивает характеры вяло. >>1605152 Чел, калибровка при квантовании, сам метод квантовования, плюс влияние бэкенда тоже есть. Не могу ничего сказать про жору, батруху, но квант анслота шизил больше, прям пиздец безмозг. У батрухи получше, но своих проколов хватало. Посмотрим, может, у куртки свои приколы есть.
>>1605261 > и сама модель с причудами Припезднутая местами. Но не фатально, с учетом плюсов можно приспособиться и инджоить, а на момент релиза это вообще имба. Кстати, она даже со всякими современными ассистентами типа опенклоу, где надмозговые вызовы и полуотсутствующая документация с нейрослопом, справляется и довльно мило себя ведет. Но вл версия - ультраднище, к тому же соевое.
А ведь все эти нейронки, хуйня муйня, новые технологии - всё это "новое" придумали ещё в прошлом веке, но мощностей не было реализовать. Сидели бы мы с нейронками уже в 90-х были бы современные пк. Это я к чему... всё выглядит очень печально для нас сейчас, неиронично может быть так что нам придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально. И нет, если дипсик 1.6т могут запустить локально, это не значит что можешь ты. Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте, понимаете? Когда даже нищий школьник сможет её запустить на геймерском пк, зевнуть и выключить, причитая как предки на этом лоботомите кумили
>>1605278 >нам нищим придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально В этом да. В остальном нет. Люди с ригами вполне могут запустить кими в высоком кванте и охуеть. Какой там датасет у кими? До 2023-24? Ну, вполне неплохо, для куминга и кодинга вполне сойдёт. Для чего ещё нужны локальные нейронки - хз.
>>1605278 >всё это "новое" придумали ещё в прошлом веке Нет не придумали, есть большая разница между упрощенной идеей без понимания того как ее использовать, без датасетов и без оборудования. И собственно пониманием того что так то и так то мы может обучить нейросеть и что она будет умнеть лишь при миллионах - миллиардах параметров. При понимании того как формировать датасет, как заниматься обучением, как обучать и как потом использовать.
Решил проверить Гемму на русском. Перевел карточку, там в описании "шоколадно-карие глаза". Гемма: > она убрала руку, открывая один шоколадный глаз Капитулировал. Пока хз, такое. Вроде не так печально, как раньше, но все равно кринжую. Описание глаз после такого сменил, конечно.
>>1605278 А если взять младенца из античности и свапнуть с тобой - у него есть все шансы достигнуть большего чем ты. Имаджинируй насколько ты недооцениваешь устаревание нового. > придётся ждать 20-30 лет чтобы запустить что-то уровня корпов локально Гап 3-6 месяцев если обладатель наличия, или около года для получения 90-95% от корпов на десктопном железе. > Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте 30iq мышление, когда обезьяна строит самолет из бананов. В игры никто не станет добавлять гигантские древние ллм общего назначения, это бессмысленно и абсурдно. На первых этапах там будет мелочь, четко выполняющая свои задачи, или просто облака. А потом с развитием темы, сами игры и геймерские пеки будут отдаляться от привычного алкоскуфам. Движки будут выстраиваться вокруг моделей, помимо фпсов будут буквально замерять топсы. >>1605292 В голос
>>1605278 Тут рофл в том, что нейронки можно гонять и тренировать на текущем кремниевом нанометровом железе. Где-нибудь в параллельной вселенной 30 нанометров для микросхем - потолок. Или более менее модель начинается с 300б.
>>1605278 > Можешь начнётся когда в игры начнут лайтово добавлять эту 1.6т нейронку в 8 кванте, понимаете? Когда даже нищий школьник сможет её запустить на геймерском пк, зевнуть и выключить, причитая как предки на этом лоботомите кумили манямир. в будущем не будет никакого геймерского пк, у всех будет терминал на который будет стримится твоя игра, соответственно и никаких нейронок на твоём компе не предусмотрено.
>>1605311 >манямир. в будущем не будет никакого геймерского пк, у всех будет терминал на который будет стримится твоя игра Манямир у тебя. Не будет этого - гугл со своей stadia уже пытался физику наебать. Закономерно не получилось. Гугли: скорость распространения оптического и электромагнитного сигналов в твердой среде. Физика - сука, даже скорость света в вакууме конечная. Потому, отклика без лагов не получается, а оно для игр критично. И как минимум жанры экшен, FPS, TPS, флайт и рейс симы - идут по пизде с таким подходом.
>>1605326 >Потому, отклика без лагов не получается, а оно для игр критично. И поэтому игры обмазывают DLSS, дегенераторами кадров и нейрослоп фильтрами до задержек в 200мс, лол. Так что когда встанет вопрос борьбы с пиратством (денуво ВСЁ, поэтому уже скоро), все вычисления перенесут на сервер, а локальный ПК будет из примитивов через DLSS6 выдавать кино с одинаковыми ебалами.
>>1605326 Там даже не сколько проблема во времени передачи данных между цодом и терминалом, а в задержке энкодера/декодера. И эта хуйня ещё и хуево параллелится, из-за чего при наплыве игорьков будут лаги, фризы, да и картинка будет рассыпаться. Да и ИИ ускорители игрульки запустить не могут, поэтому при крахе ИИ пузыря придётся менять и железо, которое любезно предоставит куртка.
>>1605326 пруфы что обсёр по части физики а не реализации/хуёвой бизнес модели/вставить нужное? 50-100мс без ощутимого джиттера реально добиться, не сейчас так через 10 лет. а киберкотлет кому даже это критично не так много как ты думаешь.
>>1605328 >И поэтому игры обмазывают DLSS, дегенераторами кадров и нейрослоп фильтрами до задержек в 200мс, лол. Чел, ты бредишь. Уже на мониторах с задержкой отклика в 20ms играть не комфортно (8ms - это borderline, от которого половина геймеров нос воротит, и за дело), в сетевой игре пинг выше 30-40 - это уже стрельба в "тень", а не в реальное место, где твой противник сейчас. Я еще помню модемы и пинг под 100-120 - это чистый рандом, где скилл уже ничего не решает. Все эти DLSS - там задержка немного другого типа. Если ты долю секунды большую детализацию текстуры не видишь, но уже понимаешь где находится объект по его базовому изображению - это еще терпимо. А если задержка между нажатием клавиши и откликом игры - это пиздец. Игра через стрим - второе.
>>1605241 Вот тебе немного логов с Меромеро 26б, Q8. На английском она мне нравится больше, чем инстракт. Мозги не потеряла, слопится гораздо, гораздо меньше. На русском - не знаю, не пробовал инстракт на русском, сравнивать не с чем. 31б справилась куда хуже, подозреваю ввиду квантизации: могу только Q4 запустить. >>1605302 Попробовал сначала так: ничего не переводил, подавал инструкцию отвечать на русском. Так у нее длинее ризонинг, охотнее ломается форматирование и прочие нюансы возникают, вроде неестественных англицизмов и реплик(они в любом случае будут, вопрос в их количестве). Перевел все полностью на русский - и карточку, и инструкции, стало чуть лучше. На самом деле результат приятно удивил. Пользоваться можно, особенно если не знаешь английского совсем. И правда, на русике в целом есть жизнь. На английском пишет лучше, конечно, но с Геммой 4 разрыв серьезно сократился. Хорошо живем в этом году. Есть мелкие косяки, вроде переход с "вы" на "ты" и наоборот, без консистентности. Узнаю также некоторые обороты, словно переведенные с английского (видел их английскую версию в прошлых чатах), но это пустяки. Чат тот доиграл до 30к контекста. Нормально справляется, иногда приходилось свайпать, но ничего криминального. Не понимаю тех, кто заявлял, что Меро сломала русик. На квантах поменьше и инстракт пишет так себе, проверил только что на паре свайпов Q4.
>>1605339 Так обычное же дело, лол. GIGO (Garbage In - Garbage Out) во всей красе: хочешь хороших аутпутов, значит и сам пиши хорошо. Гемма особенно чуткая к таким вещам. Например, будешь лениться и начинать свои инпуты с {{user}} или еще какой одинаковой секвенции, уже через пару аутпутов она словит структурный луп. >>1605340 Да, именно это и имею ввиду. 31б Q4 хуже справилась на русском, чем 26б Q8. Но это лишь мой опыт, может я не прав.
>>1605336 Ты смешиваешь единичных киберкотлет с кс го и большинство, которое вообще с гейпада играет и которому даже ниер автомата норм там задержка в секунду была из-за кривого порта.
>>1605342 Так гига это и есть тест на инту модели. Если ты гарбажишь инпут, но в атпуте какая-то годнота, подпитанная тем что заложено в модель, карточку и промт, значит нейронка красава и справилась. А вот если модель в ответ на хороший инпут срёт в штаны в ответ, то, ну, сам понимаешь, с такой моделью хорошее рп не сложится.
>>1605326 В любом случае будет комбинация алгоритмического-быстрого и нейросетевого-медленного, и слои "мгновенных" нейронок. Так что чисто технически, гибридный подход с частичными облаками возможен. Но вероятнее что будет разделение также как и сейчас на возможность локального запуска в разных масштабах, и облачное с переменным качеством и квотой. Найдутся как те, кто готов хавать подписки с лопаты, так и те, кто согласен купить игрушку подороже для себя-любимого. Там хватит других минусов помимо задержки. >>1605335 > Вы обмазались фекалиями и от вас воняет > Пруфы?! Все не так однозначно, ведь коричневый цвет имеет также шоколад, а вонь не так критична. Суть. 100мс это уже неприятно, а если говорить про рендер и отклик, за который вы сретесь - это пиздец неюзабельно. >>1605353 > Я прилигирован Лол
>>1605361 >Суть. 100мс это уже неприятно, а если говорить про рендер и отклик, за который вы сретесь - это пиздец неюзабельно. если видимокарты станут отпускать по цене скажем подержанной легковушки, многие я думаю согласятся что запах кала не так уж и критичен.
>>1605342 >будешь лениться и начинать свои инпуты с {{user}} Нихера это не повлияет на луп, потому что модель цепляется в основном за свои реплики. И там пофиг даже, чередуются регулярные инстракт теги модели и юзера или весь чат в инпуте. В последнем случае просто будет структуру после {{char}} повторять. На логах выше как раз это видно, как модель подцепила из гритинга фразу с многоточием и тащит её почти всю дорогу. Как и остальную структуру, типа "нарочно оставила фразу незаконченной", "она сделала паузу, позволяя словам" Повторение стуктур жестов, повторение хуйни про интонацию. И ты можешь хоть стихами от юзера писать, модель так и продолжит лупиться.
>>1605364 Любая модель рано или поздно уйдет в репетишен, как ни крути семплеры и инпуты, тут ты прав. Потому что сама природа сторителлинга и рп репетативна, как ни креативь. Проблему можно отсрочить, вырезая ненужное или более вдумчивыми инпутами. В моем случае действительно чат парсится за раз, без мультитурн разметки. Троеточие действительно тянется. Правда не знаю, связано ли это с лупингом. Гемма в принципе любит троеточие, а здесь тюн, где троеточих много в датасете (Блюстар также делает, он тоже от автора Меро) и сам чар с ara-ara вайбами, что часто и триггерит такое поведение для многих моделей. Взглянул сейчас на предлагаемые ллмкой гритинги, и там почти везде есть троеточие, хотя ранее их в контексте нет. У геммы плохое разнообразие свайпов и она так энфорсит характеры персонажам, подозреваю.
У тебя есть секретное знание о победе над лупами или ты просто веришь, что это поведение с которым нам всем придется смириться?
>>1605372 самоподкрепление всегда будет к деградации вести. можно агентов с переписывалкой присрать, ну или ручками по старинке. были же всякие мехинтерп статьи где декомпозировали активации, беда в том что у повторения нет одного конкретного нейрона который можно давануть и всё починится. нужно обучать модели чтоб на определённом классе задач повтор был не выгоден, но как это поможет в бенчмарках? никак
>>1605372 >У тебя есть секретное знание о победе над лупами К сожалению нет, сам горю с этой фигни. Иногда помогает удалить кусок ответа и заставить дописывать немотьюном, лол. Они тоже дико лупятся, но по-другому, и внезапно структуру ответов геммы не подхватывают. А так я только к тому ответил, что выпендрёж в писанине за юзера тут не поможет. Хотя сам стараюсь отвечать больше двух предложений. Сам репетишен, думаю, не из-за рп датасета, а из-за тренировок на ассистента, где модель учат переваривать по сто раз одно и тоже. В литературе таких залупов нет, так что обучение без косяков на большом датасете могло бы улучшить дело. Да и в описании Меро сказано, что побороть структурные лупы не удалось, т.е. они из ванилы тащатся.
Накатил я етот квен 3.5 без цензуры, а он туповат, в целом туповат. Или он наоборот умный типа? Я просто накатил нихуя не разбираясь ни в чем. А если я отдаю ему контроль во всяких утехах он вообще начинает один и тот же текст высирать вне зависимости что я написал. 35 кстати ставил, в LMStudio. По поводу скорости было около 20+ токенов. Это норма для amd 7800x3d 5070ti и 32 гига оперы? Такое ощущение что нет
кстати насчет семплеров вот например относительно недавняя статья https://arxiv.org/pdf/2504.20131 прикольная идея штрафовать на основе сжимаемости, так что мб со стороны декодеров ещё увидим какие-нибудь улучшения
>>1605421 А годно вообще. Только неоче понятно как применить при обычном семплинге, вот что-то аля бимсеарч тут было бы хорошо. Возможно со спекулятивным декодингом если совместить то выйдет норм, но это только фуллврам.
>>1605427 без задней мысли, в чём проблема? кмк проблема в том что он никак не спасёт от перефразирования. ну зато мог бы пофиксить бесконечный ризонинг китайских моделей например. и да были попытки улучшить тот же бимсерч типа https://arxiv.org/abs/2202.06417 https://arxiv.org/abs/2407.18698 чтобы исходя из похожести по эмбеддингам штрафовать, вот это уже помогло бы и от перефразирования, но чёт никому не интересно это реализовывать в бекендах
>>1605435 Без задней мысли можно, но у повторений, паттернов, лупов и т.д. есть подводка, первые несколько повторяющихся токенов семплер может пропустить, а потом менять уже поздно - для лучшего результата нужно откатывать в момент начала фразы. > исходя из похожести по эмбеддингам штрафовать А почему бы и нет. Для рп можно попробовать реализовать не залезая в бек, а лишь запрашивать логитсы и семплить самому. Когда-то давно у убабуги так HF обертки бэков были реализованы, штраф к скорости там небольшой. Можно накодить это в виде простого прокси.
This model card is for the Multi-Token Prediction (MTP) drafters for the Gemma 4 models. MTP is implemented by extending the base model with a smaller, faster draft model. When used in a Speculative Decoding pipeline, the draft model predicts several tokens ahead, which the target model then verifies in parallel. This results in significant decoding speedups (up to 2x) while guaranteeing the exact same quality as standard generation, making these checkpoints perfect for low-latency and on-device applications.
1. Запуск - ояебу размер контекста - "гемма подержи мое пиво" 2. Безмозг 3. Русик сильно так себе - Перевод китайский русский буквально по словам без какой либо художественной обработки и перестроений приложений. 4. РП - никакущее следование карточке. Снес нахрен. Вывод не все плотные модели одинаково полезны.
>>1605445 Похуй, будь она хоть х10 быстрее. До геммы я не осознавал насколько решают свайпы. Такого уныния в рп еще не испытывал, это как жизнь, сколько и что не меняй результат всегда один - смерть
>>1605444 Что то мне подсказывает, толку при запуске в гибридном режиме не будет, только фулл врам. А это значит что -1гб для контекста для тех кто уместит в врам.
>>1605475 > Похуй, будь она хоть х10 быстрее. Как раз нет. > До геммы я не осознавал насколько решают свайпы С такой скоростью можно еще агрессивнее использовать инстракш лорбуки и реализовать себе подобие свайпов. {{random::a::b::c}}
>>1605437 >для лучшего результата нужно откатывать в момент начала фразы а ну да, это как обычно. или так или лукахед но для поиска с контрастом скрытые состояния нужны, отдаст ли лама их просто так
>>1605493 В целом если там тексткомплишн то можно и прокладкой откатывать в начало фразу, или сделать адаптивный откат с нарастающим штрафом, или по крутизне логитсов. Там тогда для стриминга держать буфер по размеру максимального отката, не повлияет на юзерэкспириенс за исключением коротких пауз когда слоп фильтруется. > отдаст ли лама их просто так Есть заготовка llama-eval-callback, можно попробовать оттуда выбернуть и завайбкодить в сервер. Ну то есть это не трудно, это долго.
>>1605475 >>1605492 Игрался тут со скриптингом таверны через квик реплаи. Сделал такой сет: -первый скрипт генерирует запрос предложить четыре варианта развития рп, кладёт генерацию в переменную -второй скрипт учитывает эту переменную в промпте и делает ещё две генерации. Одну с постхистори инструкцией, что юзер выбрал random::1::2, а вторую - random::3::4. Первый ответ посылается от чара, а второй свайпом. Использование подразумевает пустые system message суффикс и постфикс, и что в последнем ответе ассистента идёт закрытие думалки. С думалкой в переменную помимо плана закинется собственно думалка и будет там мешать. А если у системного сообщения (это не системпромпт, если что) будет суффикс, то промпт закроется им, ломая разметку. Сами ответы можно и с думалкой генерить, но я тоже в них добавил последний префикс ассистента и ещё имя чара. В общем, я формат под себя подгонял, промпты надо под инстракт индивидуально подбирать и проверять в консоли, что все turn, переводы строк и прочее на месте. json для импорта в квик реплаи https://pastebin.com/tnqMwJ5Q Можете поиграться, если кто хочет. Работает вроде логичнее, чем рэндомные вот это повороты или инжекты из заготовленного списка. Но иногда предложенные варианты подразумевают больше одного ответа, а самого инжекта с этими вариантами при следующем ответе уже не будет. Сам промпт на запрос вариантов можно сложнее сделать, как во всяких CYOA промптах, только для вариантов ассистента, а не юзера. Можно посылать только один ответ или по аналогии все ответы сделать с разными выбранными вариантами, сделав три свайпа сразу. Вероятно, проще было генерить план отдельным сообщением в чат по типу stepped-thinking тредовичка, но это потом регексами или через \hide тогда скрывать надо. Я хотел попробовать сделать без дополнительного месседжа.
>>1605412 Ну ок по гайду для нюфани накатил гемму все заработало, но кинул картинку и он отказался ее разглядывать по очевидным причинам. Просто скопировал квен но ему тоже нужен етот мморпг файлик. Ебать а где его брать то?
>>1605535 Там же где брал кванты. В тюнах и АПАСНЫХ моделях mmproj может не лежать, а вот в основных - что у Бартовски что у анслотов лежать должны. mmproj от основной модели подходит и на все ее тюны.
Кто катает мелкомодели, посоветуйте какой-нибудь тюнчик на мистраль 12B. Несколько дней не будет доступа к компутеру, будет только мощне 2 гига 3 ядра нотбук под рукой, а кумить как-то надо.
Я достиг дна. В смысле, я заебался читать одно и то же.
Гуню (вернее рпшу) уже месяца 4, и все паттерны приелись. Пробовал: гемма 3 (нормпрезерв), гемма 4 (31 и 26 сырые и меромеро), цыдония, магидония, цыдомс, короче мистраль 24б от драммера и все производные, шизомерджи от ДавидАУ, квены всех видов - и сырые, и блюстары, валькирия на немотроне 49б, в самом начале сноудроп, и еще что-то из старой шапки.
На 3-4 дня залип в skyfall 31b (не гемма 4, от драммера какая-то хуйня относительно новая) - она довольно сильно отличалась от того, что я читал до этого. Была тупее в сложных сценариях, но давала сюрпризы в более простых, правда приходилось редачить часто. Но все равно был глоток воздуха.
Есть ли у вас такая какая-то модель, которую вы берете чисто чтобы перезагрузиться? До 32б желательно. МоЕ не очень люблю, как будто при этих размерах они себя ведут очень нестабильно. Но буду рад любым не особо стандартным рекомендациям.
>>1605537 Ну вон выше скинули Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive, там и ммпрож сидит. Я только не особо понял из гайда. Вот на примере этой модели, она я так понял МОЕ, то есть часть сидит в враме другая в раме. В сумме памяти у меня 32+16=48, значит я могу самую жирную скачать Q8_K_P на 44 гига? Помещается ведь типа.
>>1605542 Я только классических знаю... Да и что-то мне подсказывает, что это сработает разве что на первых 10 реплаях. Читать куколдские фантазии Бунина конечно было забавно в школе, но я понял, что это не для меня. Да и я на инглише РПшу, а из их писак я читал только две с половиной книжки
>>1605540 Попробуй Command-R 32b. Модель старая, и не сказать что прям умная, по нынешним-то меркам, но цензуры считай нет (на уровне мистраля 24b, эйра и новой геммы). Хороший русский язык. Слог отличается от попсовых моделек. ДУША™ присутствует. Для перезагрузиться - самое оно кмк.
>>1605545 У тебя гугл есть, ленивая жопа. Я тоже понятия за порнушных баренских авторов не имел. Пришел к корпу и давай ему ныть в чат, чтобы он мне привел писак по порнушным жанрам. Этот для ебли андроидов, другой для мохнатых, третий для любителей быть под каблуком и прочее.
>>1605546 Спасибо! С цензурой у меня проблем никогда не было, даже на самых соевых моделях, потому что сценарии очень elaborate, так сказать. Но коммандера я не трогал, чисто из-за того, что видел 2 years ago. >>1605547 По твоему опыту мелкомодели до 32б могут поддерживать стиль этих авторов? Типа, это же не какие-то культурные иконы наверно, даже если их книжки есть в дате, у них наверно маленький вес был
>>1605542 Это не работает. Ты убедил себя, что работает, но это не так. У моделей очень слабое понимание того как отдельные писатели собственно писали. Даже у жирнокорпов. Жанр указать - норм, конкретного писателя/режиссера - это себя убеждать, что что-то работает.
>>1605548 >По твоему опыту мелкомодели до 32б могут поддерживать стиль этих авторов? Тут да, проебался. Но! В принципе, теоретически, популярные авторы должны быть в датасете. Проблемы начинаются с нишевыми фетишами.
>>1605549 > Жанр указать - норм, конкретного писателя/режиссера - это себя убеждать Ты пишешь автора, жанр и стили письма характерные для автора. И происходит магия.
>>1605563 Смотря на какой модели. Большинство новых ассистентов скорее зациклится на конкретных фразах и словах, которые ты вписал в примеры, нежели чем будет устраивать вариации на тему, чего как раз хотелось бы. Даже если эксплиситли указать, что это ТОЛЬКО ПРИМЕРЫ, БЛЯТЬ, ПРИДУМАЙ ЧЕНИБУДЬ СУКА ДРУГОЕ.
Я так как-то пробовал и гемму, и квен заставлять использовать более эксплисит слова, когда они описывают... кое-что. Они блять по очереди их просто ротировали, и не просто ротировали, а делали это нарочито специально. Они как будто каждый реплай на протяжении 30к токенов ролеплея выстраивали ТОЛЬКО вокруг того, чтобы подвести его к ситуации, когда использование этих слов/фраз будет типа логично.
>>1605564 Ты не можешь в промте указать какую нибудь Анаис Нин (кого уж очевидней)? Пишешь про sensual, first person и бла бла бла. И сравниваешь вывод на своей модельке. Glm 5 прекрасно все подхватывает. Но у меня авторы нишевые и фетиши специфичные. Так что сорян, скринов не будет. Мне стыдно, лул.
>>1605543 >я могу самую жирную Теоретически да. Практически - оставь гигов 5 на операционку и браузер. И mmproj тоже не из воздуха сделан. И на контекст пару гигов оставь. Не жадничай - начни с 5 кванта. И чтоб ты знал заранее Qwen3.6-35B-A3B - так себе для РП . Qwen3.5-35B-A3B не так пережарен программизмами. И аблитерацию лучше брать от llmfan46 - по крайней мере он честно документирует результат и не стесняется выкладывать полные веса.
>>1605574 Судя по этому реплаю, ничего нового я там не прочитаю. Жаль, блять. Я уже начал переписывать карточку и все остальное, чтобы передо мной не снимали трусы сразу.
>>1605569 > Qwen3.6-35B-A3B - так себе для РП . Qwen3.5-35B-A3B не так пережарен программизмами Из мелкомоэ-лоботомитов только гемма более-менее пригодна для РП. И то, не для РП, а для быстрого кума, скорее. >И аблитерацию лучше брать от llmfan46 Аблитерацию лучше вообще не брать. Она лоботомирует модель, а в случае с херетиками, ещё и убивает русик. Единственная нормальная аблитка - это нормпрезерв. Но он только для 3 геммы вроде есть.
>>1605574 Сынок, так деды кумили в далёком 2024. Это база, это блять классика. А если серьёзно, то у тебя скорее всего с карточкой проблемы. Это в современных ллмках можно писать персонажа как по кайфу, а старая гвардия говна не прощала.
>>1605569 Понял спасибо. Я пока 6 накатил, ебать скорость в два раза больше чем у геммы с гайда в шапке. И это при том что я никакие значения не трогал взятые опять же из примера на 23 рам и 16 врам. Надо будет еще в них поковыряться я пока скипнул потому что много всего сразу.
Я только не понял чому он мне в интерфейсе пишет что я на гемме. Я ее вообще удалил ведь. Это не норм?
>>1605585 Понял в файле отдельная строчка под название модели. Ладно я сру многовато буду разбираться молча но я обязательно еще заебу тред. Нашел себе игрушку так сказать
>>1605585 > скорость в два раза больше чем у геммы с гайда в шапке Активных параметров меньше, квант меньше. > Я только не понял чому он мне в интерфейсе пишет что я на гемме Потому что не отредактировал параметр --alias из примера. >>1605586 Скорость ответа не зависит от "сложности" запросов. Она в целом всегда постоянно и понижается по мере заполнения контекста. В оперативную память что-то утекает, об этом в гайде упоминается. Не спеши, на свежую голову перечитай и поиграйся с настройками.
>>1605581 >>1605577 Собственно к первым 3 ходам вопросов нет. С отключенной думалкой там и современные модели написали примерно тоже самое. И суше. И можно даже притянуть писание за юзера - карточка описание мира и систем промпт просто пустой. Условное "не пиши за юзера" в Post-History, а не в системном. Но вот превращие Клары в Миранду ни в какие ворота не лезет - это просто другой свайп того же самого хода 4 хода. Модель - чистый статистический продолжатель текста!
>>1605600 > В оперативную память что-то утекает Когда должно быть в видеопамяти* Переполнение видеопамяти и постоянное задействие шины, что гоняет данные между оперативной и видеопамятью
Мазохисты есть? Я вам нашел теги для английского кума по жанрам, отборнейший кринж. И так как популярный на западе это должно быть в датасете. Тут вроде тня кумила, думаю она заценит, хотя наверное уже в теме https://www.youtube.com/watch?v=EpnCAMk4bkQ Осторожно, содержимое наносит непоправимый психический урон, я не шучу. Досматриваю чисто из принципа, как жрать дошик потому что захотелось навернуть какой то вредной фигни.
>>1605577 >Из мелкомоэ-лоботомитов только гемма более-менее пригодна для РП Тем временем русик мелкоемое лоботомита геммы разьебывает жирноглмы и прочую чепуху >>1605338 Походу итт внатуре уже заклеймили ее как хуйню тупо по размеру и никто толком и не попробовал. Думайте. Подписаться
>>1605611 Теплейт родной, командеровский? Температура слишком высокая, поставь 0,5-0,7 чтобы Клара в Миранду не превращалась. Поиграйся с остальными семплерами, или возьми готовые - легко гуглится с реддита.
>>1605611 >>1605601 >>1605574 Если это Коммандер 32б, то он действительно может сломать карточку. Но у тебя на пиках какой-то совсем треш. Такого не должно быть, накрутил сэмплеры и покакал в промптик. Возможно, даже в разметку. А еще Коммандер любит температуру меньше единицы. Вроде бы я долго сидел на 0.9. Он чувствителен к сэмплерам.
>>1605601 > карточка описание мира и систем промпт просто пустой Почему не захотел выбрать пресет под коммандера, который (по слухам) сами производители и предложили? Не только разметку а еще системный. Такой дичи не должно быть, как и вообще формата что у тебя, где поочередный диалог юзера и чаров через :, ищи что сломал. Алсо если врамовладелец, можешь более старый который 35б попробовать. Он казался поумнее чем обновленный, хотя жрал очень много памяти на контекст. >>1605611 > Контекст Q8. Темпа - 1,1 Плохая идея. Хотя так взорвать они не должны конечно.
>>1605611 >Темпа - 1,1 >модель не держит даже имена Пиздец. Нахуй такую модель. Стандартный трен модели проводится на температуре 1. Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить, это значит что она въёбана по самое небалуйся. С такой не то что рп, с ней даже кум будет выходит хитпарадом кринжа и вырвиглазного текста.
>>1605647 > Стандартный трен модели проводится на температуре 1 При тренировке отсутствует само понятие температуры и других семплеров. > Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить Он по определению не может такого сделать.
>>1605647 >Стандартный трен модели проводится на температуре 1. Если крохотный шаг в сторону в 0.1 заставляет модель бесоёбить, это значит что она въёбана по самое небалуйся Квены ловят шизу при темпе выше 0.7. Министраль превращается в бредогенератор выше 0.4. Температуру в 1 нормально держат только Эйр и Гемма.
Вышло что крутое за последнюю неделю для кума, кроме геммочки-сосочки 4? Неужели придется ждать ещё год-полтора, прежде чем кто то сдвинет эту няшечку-целочку?
>>1605648 Как же всё хуёво с твоими знаниями о ллм. >>1605652 Гемме похуй на температуру, даже 1.5. Только 2 заставляет её хоть немного шевелиться. Ты вряд ли запускал мистраль, если пишешь такое. Да и по квену какой-то бред.
>>1605659 То что шизики открывают рот и обманывают других - вот что хуево. Название моделей не различаешь, модели с температурой тренируются, в дурку быстро решительно.
>>1605659 >Ты вряд ли запускал мистраль, если пишешь такое Не путай мистраль и министраль. Если первый (24b) преваривает 0.7-0.9 спокойно, то мелюзга выше 0.4 выдаёт добротную шизу и мышки лезут из киски. На дачном кудахтере 14b стоит, знаю о чем говорю. >по квену какой-то бред bruh..
>>1605673 С каких пор гугл решает за репозитории квена? >Гугл захотели >Расслабь очко А почему расслабить-то? С каких пор хотелки гугла стали чем-то из-за чего стоит расслабляться?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: