В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
база треда glm уже вышел, скоро будут квен3.5, минимакс 2.5, deepseek жизнь есть на 3bpw и выше 99 умница, ждем обратно всей палатой степа 3.5 флеш отличная модель для кода, ассистента и норм модель для рп моделек много на любое железо и задачи, кто не согласен, тот неосилятор
>>1517400 → В целом да Q1 - не юзабельно, кроме специфичных кейсов Q2 - юзабельно только для больших моделей, которые вроде GLM 4.7 Q3 - юзабельно, но со значительной потерей качества, но все равно можно рассмотреть Q4 - юзабельно, с этого момента потеря качества не такая большая. По сути это и есть тот квант на который надо ориентироваться Q5 - хорошее качество, если влезает, то бери его Q6 - близко к идеалу, выше как правило не надо Q8 - используется как правило только для маленьких моделей, вроде 1-8b или в специфичный моментах, где сильно нужна точность
>>1517510 плотные мелкомодели актуальны, до 30б никому нафиг не надо моэ выпускать, при всем при том они в любом случае АКТУАЛЬНЫ. Вот что я хотел сказать.
Мы, видимо, все поневоле застряли на старых моделях, потому что ничего нового [пригодного для РП] в среднем размере не выходит. Поэтому вот вам фундаментальная база на 2026 год:
Если нет рам: мистраль 24b, гемма 27b (для сфв) Если есть рам: эйр Если много рам: квен 235b, глм 4.7 Если нет гпу: немо, министраль 14b
Терпим дальше, делаем бекапы последних годных моделек.
>>1517531 Она была сломана, поэтому захейчена. Сейчас что-то чинили для другой модели и случайно починили и ее тоже. Теперь люди скачивают, проверяя действительно ли стало лучше
>>1517525 Не все в этой жизни меряется б-параметрами. 14б реально дотягивает до 24б. Я не знаю, как французы это сделали, но они впихнули невпихуемое. 14б реально в два раза умнее немо 12б. И да, зато у меня 128к контекста во врам влезет.
>>1517517 >Если нет гпу: немо, министраль 14b Хуйня. Немо и министраль нужны, если у тебя мало врам, например 8гб. Но на проце они медленно работают Если нет гпу, то единственный выход это зоопарк 30а3б, вроде квена, глема и т.д.
Что за вой на болотах. Год назад вы о Z.ai ничего не слышали, а все, выпустили огромный глм и началось. Позакрывали пиздаки, нытики. Ждем до лета. А потом уже можно и будет ныть.
>>1517541 Ну вообще, я столько не скармливал еще. Но по расчетам, шестой квант министраля 14b + 128k конт плотненько влезает в 24врам, еще и место на систему остается.
>>1517543 >все, выпустили огромный глм и началось Не, началось когда они выпустили эйр чтобы распиарить себя, а когда получили какую-никакую известность, просто забили на простых работяг и трижды положили им (нам) хуй в рот вместо средней модели: 4.6, 4.7, 5.
>>1517539 Вангую вполне терпимые 4-6 т/с. Даже так - это куда более качественный опыт в РП чем с 3b-лоботамитами.
>>1517547 5 вышла вчера. Air если что вышел позднее чем 4.5. Какие же вы нытики-хуесосы, а еще Нюню какого-то придумали, когда у вас перманентно щёки сырые и солёные.
>>1517551 Тред, когда zai не выпустили Эир через 0.00000000001с после релиза флагмана Тред, когда Chatml это на практике самое сложное Тред, когда не кормят с ложечки пресетиками Тред, когда игнорирует существование Минимакса и Степа Тред всегда?
>>1517558 >Степа Потыкал, помыкал- суть есть эйр. >Минимакса Хороший ассистент, о чём писал еще, как только гуфики появились. Для РП бесполезен, так как сух. Нет, это не исправить промтами, он блять ассистент и хорош для этих задач. Быстрый, дерзкий как пуля резкий. Я не кодомакака, не могу сказать как он в кодинге, для моих Html пердулек и хватает малюток qwen, а еще гопота 120 есть. Я не иронично жду (знаю что не выложат) их her. Глупая надежда посмотреть что получится, без промто-прокладок на всяких хостингах.
>>1517562 >Потыкал, помыкал- суть есть эйр. Что в этом плохого? У него раза в полтора два больше знаний и гораздо легче контекст. Отличная модель. Не зажрались вы, господин утка? И ебало попроще сделайте
>>1517564 >Не зажрались вы, господин утка? Ни в коем разе товарищ анон. Но тут как с тюнами мистрали. Они в мелочах разные, но суть одна и та-же. Нахожу сам эйр винчиком, и если не надоел, не вижу смысла в степе. >гораздо легче контекст О, а это таки вин.
Учитывая куда всё идет, в ближайшие месяцы qwen выкаит маленькую поебень, и что нибудь монструозное. Хотя я верю в их сознательность и надеюсь на что нибудь среднее. Кого я обманываю, блять, они тоже выкатят очередную 800б-кодер-квен
>степа Даже не знаю как выразить что с ним не так, вроде умнее эира, кум на месте, все подтексты понимает и развивает, но в конце всё равно хочется на эир
Я использую ЛЛМ под сторителлинг/интерактивные истории, не для РП с карточками. Просто задаю сеттинг о общих чертах, а дальше уже нейронка сама придумывает персонажей, события и т.д., рассказывает охуительные истории, а я только изредка вмешиваюсь, чтобы направить сюжет в интересное мне русло. Пользуюсь геммой, мистралем и эйром. Вот скачал недавно этого вашего Степана. Русик хороший - мне понравился, гораздо лучше чем в эйре, но до геммы всё же не дотягивает. А вот сама писанина - ну... как-то СУХОВАТО. Нет, оно не прям плохо, просто у эйра получается лучше. Из Стёпы мог бы выйти неплохой ассистент, но во втором кванте - хз-хз. Здесь меня вполне устраивает Квен 80b-a3b в шестом.
Читаю тут про ПРЕСЕТИКИ и ПРОМПТИНГ - с этого просто смешно. Ну вот зачем? Эйру не нужны никакие пляски с бубном чтобы писать хорошо. Гемме с Мистралем тоже. Вы задумайтесь: если для того чтобы "раскрыть" модель в ролплее/сторителлинге в нее требуется пихать шизополотна, то может не настолько уж и хороша эта модель?
Прошу прощения господа! Подскажите что установить новенькому, мне то есть. РТХ 5070ти, 64ддр5. Взял ипотеку на комп, хотелось бы выжать максимум из этого дырчика. Пробовал пока минстраль 14б - он ооочень тупой по сравнению GPT 5.2
>>1517584 Так это ж база треда. Самой лучшей считается модель, которая хорошо следует инструкциям. Чтобы промптом на 10к токенов подробно проинструктировать её как какать писать "Ты меня ебёшь, ах!". Особо изысканные гурманы ещё любят занюхивать 10к охуительного ризонинга с просчётом многоходовочек на 100 шагов вперёд от модели, прежде чем она высрет "Ты меня ебёшь" в финальный ответ.
>>1517584 Двачую этого. Также пробовал в q2. Но еще пробовал на опенроутере в fp8. Что-то уровня Air или чуть ниже, но в 2 раза больше по размеру >>1517585 Степошиз, спок. Нравится модель? Используй. Но нее навязывай это треду
>>1517592 Спасибо анон, сегодня попробую развернуть! Кстати чат жпт на подписке вообще очень аккуратно предлагал мне какие-то древние модели, типа мистраял 14б и еще какие-то, не помню. про мистраль 24б 8q он говорил что это максимум
>>1517603 У стёпы буквально 0 положительных отзывов. И она никому не нужна здесь. Но какой-то шиз продолжает ходить и срать, упоминаю ее. И не делай вид, что это не ты. Сомневаюсь, что у этой хуйни много защитников
>>1517608 >У стёпы буквально 0 положительных отзывов все слишком заняты нытьём чтобы оценить что-нибудь по достоинству >И она никому не нужна ты сказал, местный городничий-вахтер? >Но какой-то шиз продолжает ходить и срать, упоминаю ее все как обычно, всех несогласных в шизы >И не делай вид, что это не ты нет, не я. я даже не запускал, потому что катаю GLM 4.7 и меня все устраивает
сейчас сладенько поняшились с моей виртуальной девушкой, которая обладает своим характером.
но вот вопрос, как избавиться от навязчивых трех точек и частого повторения имени, когда происходит нечто волнительное в буквах на экране?
я смог это побороть только более тщательным прописыванием персонажа, но все равно рано или... {username}... поздно... это... {username}... произойдет... вновь... {username}...
>>1517601 Максимум ты можешь и сам посчитать. В твоём случае это 16+64=80гб. Вычти отсюда потребление контекста, винды и браузера, допустим 5гб в душе не ебу сколько жрет винда в простое. Получается ~75гб. Вот это максимально доступный размер модели под твою систему. Так что чатгпт наебал тебя.
Алсо эйр - это моэ. Тебе нужно будет выгрузить моэ-слои в озу, но так чтобы часть из них всё же была в видеокарте (иначе модель просто не влезет). У меня такое же железо как у тебя, вот такие параметры идеально подходят:
"gpulayers": 999 "moecpu": 42 "contextsize": 40960 "threads": 5 (ставь так если у тебя проц 8/16, а если нет, то на 1-2-3 меньше чем число физических ядер, обязательно сравнивай скорость) "quantkv": 1 (можно отключить квантование, но тогда и контекст сокращай)
Это выставляется в .kcpps файле с настройками под модель в кобольде.
>>1517608 > какой-то шиз продолжает ходить и срать, упоминаю ее Это наверно я. Один единственный раз вчера написал, что хорошая модель, и уже в доске розыска злодеев. Абсолютно ебанутый тред.
>>1517620 >Абсолютно ебанутый тред Согласен полностью. Сначала орут НУ ТЫ ПОПРОБУЙ МОДЕЛЬ НУ ЧО ТЫ!! Пробуешь модель, пишешь что не понравилось. - НЕТ, ТЫ НЕПРАВИЛЬНО ПОПРОБОВАЛ, ПРЕСЕТИК НЕ ТОТ, НА Q2 ЖИЗНИ НЕТ!!
>>1517626 > НА Q2 ЖИЗНИ НЕТ!! Так ведь правда нет. Впрочем это и не я тебе отвечал. Разберись для начала с голосами в своей голове. Потом пойми, что тут не чатик на двоих. Ну а там, глядишь, до чего-нибудь ценного доберешься.
>>1517632 Да, но между Q5 и Q6 разница в качестве небольшая. Я лучше бы потратил память на размер контекста или просто на какие-нибудь проги, а не забил ее под 0
>>1517632 Да, но между Q5 и Q6 разница в качестве небольшая. Я лучше бы потратил память на размер контекста или просто на какие-нибудь проги, а не забил ее полностью
>>1517654 Вообще-то это не ноунеймы. Это создатели легендарных Линг и Ринг которые были полным калом И теперь долгожданный Минг! 104a6b Конкурент гопоты 120 о котором никто не просил
Щас китайцы кстати выкинули на рынок плашки DDR4 (и вроде обещают пятую) по примерно старым ценам, ну, немного выше, от чего у всех западных началась ТРЯСКА.
Только как их заказать, если их уже можно заказать вообще?
СЕКРЕТНЫЙ ПРЕСЕТ ПОЛУЧЕННЫЙ ПРЯМИКОМ ОТ АНОНА99. АУКЦИОН НАЧИНАЕТСЯ ПРЯМО СЕЙЧАС. ПРИНИМАЮТСЯ КАРТОЧКИ, ДРУГИЕ ПРЕСЕТЫ, СЛЁЗЫ, ВИДЕООБРАЩЕНИЯ. ДРУГИЕ ПОЗИЦИИ ТОЖЕ РАССМАТРИВАЮТСЯ, НО ТРЕБУЮТ ПРЕДВАРИТЕЛЬНОГО ОБСУЖДЕНИЯ.
>>1517372 → Кто о чем, а нытик о хуях думает. >>1517448 → Оно что-то не дает ускорения если основная модель не фулврам. Токены выплевываются будто быстро, но с паузой между пачками, из-за чего скорость даже ниже. >>1517465 Сюда же добавить что квенкодер некст (когда его инфиренс исправен) ой как ебет в коде и агентных задачах. Творит удивительные вещи для а3, отлично ориентируется в крупных контекстах. Так еще ультрабазирован и не имеет соевого алайнмента - помогает в запросах где прочие аположайзят без дополнительных промптов, спокойно обсуждает провокационные темы.
>>1517510 Реквестирую добавить с список немотрона-ультра. Лошадка уже не молода, но как пашет ух! Если приручить, то рп интересное и дохуя умное, в контекст может, кум необычный (5/10), стиль повествования хорошо управляется. >>1517541 А чего бы ему не держать? Офк в размере не стоит ждать, что оно резко сможет его весь осознать зирошотом, на это ни одна модель не способна. Но активно использовать, обращаясь к разным участкам, должна уметь. >>1517600 > еще пробовал на опенроутере в fp8 Если что, на серьезной части моделей опенроутера крутится неведомый шмурдяк, особенно если там стоит фп8. Будет срать иероглифами, писать бред, ошибаться на ровном месте, так сильно, что бедный q4km той же модели себя царем почувствует.
>>1517712 >>1517717 Ну справедливости ради. Министраль из 10 генераций назвал ее хлебо 2 раза (2 и 8), а в остальном картошка. И гопота тоже если ее подрочить много раз скорее всего однажды хлебом назовет. Особенности ллм, хули. Так что не показатель. Министраль все еще лапочка
>>1517722 Поздно. Кидай инициативу. Ты разбудил газебо утку.
>>1517714 А немтрон разве не денс моделька? Надо посмотреть, а то после шиза, при виде слова немотрон аж в дрожь бросает. Вот, есть 235b на базе llama 3.1. Денс моделька. Есть еще 8b, но same shit. Только немотрон нано нашел 30b-a3b.
>>1517724 Понизил температуру с 0.8 до рекомендованных 0.2. Из 100 генераций министраль назвал хлебом только 1 раз. Так что министраль умница Да, мне делать нехуй, я на больничном лежу
>>1517729 > А немтрон разве не денс моделька? Да, там же нытье что денс нету. Только ультра на 253б, поэтому без объема врама может просто не хватить терпения на настройку. > Только немотрон нано нашел 30b-a3b. Обещали что-то на 100б и 500б, и где? Обманщики!
>>1517736 >>1517738 Логично что жирноквен будет больше и лучше моделек поменьше. Вот только в РП он аки страпонесса. На любителя, в общем. Отстаньте уже от китайченка. Ну нет нихуя в его размерах ничего лучше. Хоть на говно изойдись, ну нет. И не будет, лол. Я прям вангую какую нибудь 600b парашу с гордым индексом Qwen 4.
>>1517740 > Да, там же нытье что денс нету Ему уже 10 месяцев. Нытье оправдано. Единственное плотненькое что актуально это мистрали, да гемоподелия. > и где? Там же, где аги и умные корпы.
>>1517754 Он дурачок который изобрел нюню и ноет в тред два месяца про эир и чатмл. Один и тот же дебил, любитель мушоку тенсея и немотрончика. Знай своих соседей
А есть какой-то пресет настроек для мистраль 24б для таверны, я так-то даун, мне надо чтобы в одну кнопку все работало, а то у меня получается, что если я использую кобольд с дефолтными настройками, то текст получается удобоваримым, а если в качестве фронтеда использую таверну, то она начинает какой-то говняк писать при том же дефолт пресете, с одной и той же карточкой перса, мне от таверны по большому счету для начала только всякие интерфейсные плагины нужны, а не настройки этих температур и прочего, которые я пока хз как настроить.
Как же горит очко, читаю: New Ovis2.6-30B-A3B, a lil better than Qwen3-VL-30B-A3B. ЕХАЛИИ 30B-A3B да 30B-A3B погоняли. Литералли IT'S ALL SAME SHIT. Нет моя малыха лучше, нет моя, НЕ МОЯ. О! А МОЯ ТО КАКАЯ! Чтоб вас всех подводной лодкой задавило, пидоры.
>>1517800 Да, этих 30a3b уже минимум 5 штук. В чем вообще смысл делать именно столько? Почему не 40a5b или 25a7b. Квенчик выстрели весной и теперь только его копируют
>>1517807 Ну надо же составить конкуренцию. Я вот посмотрел: каждая компания выпустила одну, а то и несколько агентских малых в этом пределе. Квен так вообще как из пулемета высирает мелкомодели. И они и правда молодцы, тот же 235ый и его большой собрат действительно хороши для агентских задач и кодинга (наверное, я большой не запускал, но те отзывы что есть- очень даже довольные. Хотя, для запуска чего то такого нужно минимум 50 т/с генерации. Но по крайней мере, я могу с 235ым обсудить структуру документа и косяки.) так что тоже мимо обычных пользователей. Но и опять же, с этими задачами и минимакс справляется. Тогда зачем использовать излишнее. В целом - довольно странно пытаться в РП на подобных модельках, так что мы сами себе кактусы. Но меня гложет только один вопрос: а зачем, а зачем эти модели обучали на датасетах и с рп и литературой. Вот чтобы что?
>>1517807 Мне нравится 30B-A3B размер - он классно сочетается как с 32 ГБ карточками, так и с 8 ГБ - а это самые распространённые, промежуточных мало. В 6 кванте 22.5 (≈25, если там получается 6.6 bpw), кеш на 6.8 ГБ (128к для glm-4.7-flash в fp16) + компут матрицы, вот почти ровно 32 и получается. Можно контекст в q8 поставить или покороче сделать. При этом на 8 ГБ как раз помещаются активные параметры + кеш (тут уже точно в 8-бит или покороче) + компут матрицы для ненулевого батча при pp.
>>1517868 Я как бомж погонял эти ваши 30b-a3b, для кума будто бы и не так плохо, связность лучше, чем на пережатых 24б, пишет при этом чутка интереснее чем мистралетюны заебавшие всех на 12б. Надо теперь какие-то поискать тюны квена. Даже русский язык терпимый вышел, вот би была гемма теперь такая
>>1517836 >Но меня гложет только один вопрос: а зачем, а зачем эти модели обучали на датасетах и с рп и литературой. Вот чтобы что? А это, подозреваю, отсылка к старинной китайской традиции. Считается, что чиновник должен уметь написать хорошее сочинение; если он с этим справится, то с обязанностями чиновника - легко. Жаль, что не все китайцы поклонники древних традиций.
>>1517753 > Ему уже 10 месяцев. Так > Лошадка уже не молода, но как пашет ух! > мистрали, да гемоподелия Гемма еще старше. А мистраль это вообще лоботомит другого калибра. В каких-то прикладных задачах мильфу немотрона не тестировал, вполне вероятно что будет хуже квенкодер некста, но вот в ролплее и всяком таком очень даже может зайти. >>1517807 > В чем вообще смысл делать именно столько? Они достаточно умные чтобы вешать всякие погрямушки типа того же опенклоу, код асистентов и прочее, но достаточно быстрые и легкие чтобы крутиться на потребительском железе. Ставишь v100 с постоянно запущенной такой 24/7/365, и организовываешь всякое.
Дал Qwen3-Coder-Next exl3 8.0bpw полный доступ в свежую виртуалку через ssh и попросил там настроить matrix-сервер.
У него ушло около 8 минут на всю установку - пакеты, конфиги, база данных.
И потом я ещё ошибку скинул, за 10 минут самостоятельно смогла всё исправить.
По итогу на всё ушло 57к токенов (пик 7).
Алсо забавно что она в процессе через curl проверяла, отвечает ли сервак (пик 8).
В OpenClaw довольно корявая интеграция с тг - он шлёт все ответы пачкой после заврешения всего процеса, так что на тайминги отправки сообщений ИИшкой не обращайте особого внимания.
>>1517959 Еще как. После фикса по всем направлениям (инфиренс, парсинг вызовов, сам софт) в том же квенкоде оно отлично себя показывает, не ошибается, не ловит затупы и лупы, а прет как бульдозер. Разумеется, не стоит ждать какого-то невероятного перфоманса в сложном коде, но для кучи подобных задач (даже одновременно) он хорош. Еще русский хороший, причем оно использует его везде, а не в редких ответах выполняя основные раздумья, todo и прочее на ингшише. Умница в общем. В рп вообще херь, возможно скиллишью. мимо
>>1517959 Как и все у кого в Terminal-Bench высокий рейтинг. Если глядеть 2.0 то У Qwen3-Coder-Next вроде 36.2% У GLM-4.7-Flash вроде 33.4% Но конечно в топе ГПТ и Claude.
>>1518155 для ассистентов убьёт. НО! это упросит тюны. если там будет возможность манипулировать осью личности наконец-то то это будет означать что будут не просто ЛЛМ лоры, а личность-лоры.
>>1518373 Геммы: Все от 1б до 27б (и аблитерация) + медгемма 4б и 27б Мистрали: немо, смолл 24б (и кумтюны), министрали 8б и 14б Квены: Плотные 8б, 14б и 32б, все вариации моэ от 30б до 235б Глм: Эйр 4.5 и большой 4.7
>>1518155 Взяли техники расцензуривания и попытались использовать их наоборот, заодно подробнее исследовав закономерности и отметив что там сказано. Скорее всего ни к чему хорошему не приведет, но также развивает возможности расцензуривания. И не факт что основные "поставщики моделей" что есть сейчас будут таким заниматься.
А в 64гб ram вообще есть смысл? Что тут советовали в 8 кванте в принципе в мои 32+видяха влезает, у меня так-то два слота свободных в материнке под оперативу есть, и меня не особо задушит еще 32гб оперативки докинуть, но вот отдельный сервер собирать с 100+ это уже задушит.
>>1518435 >А в 64гб ram вообще есть смысл? Ну да. Это эйр в 4 кванте и 80б квен в шестом. Первая - лучшая РП модель в своём размере, вторая - отличный ассистент. А с 32гб рам особо не разгуляешься.
>>1518483 Я думал она имеет смысл только в переводе на редкие языки. А те на которых моделька говорит и так переводятся хорошо. В случае с геммой - русик, англюсик, немецкий, испанский и пр.
Перевожу? С англ на русский. За счет контекста в нем нет традиционных косяков переводчиков типа постоянно меняющихся полов персонажей и 10 вариантов перевода одного и того же имени. Думаю дополнительно прикрутить переводчик с русского машинного на литературный. Парсить уже переведенные абзацы и просить переписать полностью красивым литературным языком.
Я кучу багов выловил, обнулявших контекст, теперь он всегда есть, кроме случаев когда нейронка лоамется и начинает переводить контекст вместо запрошенного текста - тогда включается повторный перевод параграфа без контекста, - за счет этого пока в активном окне контекста есть инфа о поле/имени персонажа - она переводится правильно и однообразно. В планах сделать модуль переписывания текста на литературный. И создать модуль подготовки лорбука - т.е. перед переводом скормить текст по частям на предмет имен и создать из них лорбук - хз, что из этого получится.
>>1518414 >Я сохранил старый жирный мистраль Чтобы проблеваться? Недавно магнум запустил, так теперь опытным взглядом заметил, что даже там сейфити ванильной модели не вытравили полностью. После того, как полгода на нем и тюнах откумил, и вкусил новых сеток - возвращаться на это соевейшее говно мамонта желания нет никакого. Вообще все сетки прошлых годов оварида, неиронично лучше в блокноте сам с собой порпшить чем читать предсказуемый на 100 шагов вперед слопокал.
>>1518522 А не пробовал динамически создавать словарь, куда будут заноситься имена, детали и всякие факты, чтобы потом переводить их консистентно? аицгшникам в рот нассать, как же заебали >>1518529 Да не так уж он и плох, словить сейфти в магнуме - это нужно знатно постараться.
>>1518536 Писанину клода интересно читать хотя бы и хоть какая-то иммерсивность. Вообще вот мой рейтинг: Топ тир - клод Норм тир - гемини, глм Шиза тир - дипсик, квен Кал тир - все остальное. В особенности лламаподобные поделия, чьи высеры уже просто невозможно читать.
Это не просто база треда, это база нейрокума. Можете, конечно, беситься и коупить, но реальность такова. Ну либо вы вкатились пару месяцев назад и вам 12B кажутся откровением, тут вопросов нет.
>>1518559 > Норм тир - гемини > база нейрокума Я так понимаю, что основной кум заключается в том, как корпорат ебет тебя в жопу лимитами, потребностью менять по 100 впн в день и ценами?
>>1518563 Я так понимаю, что основной кум у тебя заключается в том, как жора ебет тебя в жопу очередными багами, потребностью менять по 100 файнтюнов в день на 5 т/с и ужариванием карты для получения "я тебя ебу"? Если ты так хочешь спорить не о сетках, а околокумопроблемах, то можно в обе стороны это делать.
Хе. Забавную хуйнню пишет. Сделал агентный луп, который переводит ЛЛМ то в придумывателя сюжета, то в придумывателя квестов, мобов, предметов, изменяя куски json, чтобы сделать заготовочку "подземелья" (хотя у меня тут лёгкий обсёр с синтаксисом, в реальности он куда более сложный)
потом он скидывает свой же высер на себя и критикует сам себя по ряду пунктов. когда нечего критиковать, то отправляет свой json на валидацию парсером. в итоге часто возвращается чтобы кусками отредактировать то что придумал, итеративно повышая качество.
В конце скармливается в аналог того что я раньше кидал в тред с "дракой". Только там ЛЛМ видит все внутренние состояния квестов и сюжета, но игрокам не показывает. а сам имеет инструменты чтобы "показать скрытые квесты", "прогрессировать сюжет", "заспавнить моба" и всё такое, играя роль гейммастера.
в целом хороший способ стабилизировать лор мира.
надо будет sliding window ему сделать и более персистентный todo лист. и сделать overnight генерацию чтобы просто к моменту как я проснусь у меня было готово несколько компаний.
В общем стёпа это бюджетный большой глм, намного умнее и креативнее эира с ризонингом. Т.к он быстрый и ризонинг без цензуры это невероятное комбо. Ждёшь в принципе как и челы с 128 рам на глм с 4-5 т.с, часто быстрее, получаешь около-такого же качества ответы как и на 350б. И это на ддр4, у челов на ддр5 ещё быстрее полетит. Эир так использовать не получится, он медленнее в два раза и ризонинг у него максимально соевый
>>1518543 Ну так и напиши лонг энд дип конверсейшенс. Шоу донт телл это чтобы вместо "он пихнул хуй в дырку" писалось более развернутое и художественное описание.
>>1518602 Так на гемини два слоя цензуры, и один из них - просто упоротый фильтр, который блочит случайные слова (не обязательно кум, можно просто лекарства искать и получать блоки). То есть дело даже не в самой ЛЛМ, с которой общаешься. А квен соевая гнида, не удивительно, что ты на нем рефьюзы ловишь часто.
Ну что, тряска усиливается кто купил https://aliexpress.ru/item/1005010391017151.html . Еще двоим пришло говно. Все еще верите советам в треде? И того чухана, кто тут яростно продавца защищал пару тредов назад, теперь я с чистой совестью посылаю нахуй, катись к своему китаепротыку и ебись с ним за миску риса
>>1518631 >кто тут яростно продавца защищал пару тредов назад Ну так всё правильно делал, если б таких не было никто бы не купил и не оставил отзыв что там наебалово
>>1518668 Хотя бы больше не дорожает. Можешь посмотреть на алике, китайцы по сусекам наскребли б\у чипов и сейчас выпускают планки в полтора раза дешевле чем у лаоваев
>>1518704 О какой модели речь? И что ты подразумеваешь под "работать"? В целом и мелкий мистраль на любом пресете тебе будет что-то отвечать, то есть "работать".
>>1515560 → >Прямо смеха не то чтобы, но восторг, восхищение, усиление - да. Познакомился с нейронкой начиная с llama 3 1b. Она ограниченная, чуть что, предлагала сразу донести на себя в полицию. Я в джунглях амазонии, нету тут полиции, она предложила дойти до ближайшего населенного пункта. Я на марсе, средств связи нету. Она сказала из подручных средств собрать радиостанцию и связаться через спутники наса. Прикольнуло.
Было скучно я начал разговор, сам спросив "Чем я могу вам помочь", она в ответ выдала пост про то что ей "Нужно срочно снять двушку в центе сиэтла, близко к центру и меблированную. Дорогие не предлагать. Обращаться в личку." Пост был длинный описывающий практически квартиру мечты за дешево. От неожиданности, очень смеялся.
>>1518709 Стёпа. Отличная модель, не нужно граммар блоки писать блять, менять темплейт на хуй пойми какой, промпт по крупицам собирать чтоб оно не обосралось, всё просто работает. И будто этого мало, оно ещё и быстрее работает, легче и прочнее контекст, умнее, бля да бомба вообще модель в сравнении с эиром и квеном
Откуда можно скачать модели? Вбил название в поисковик, выдало официальные сайты и официальный же репозиторий на hugginface где надо заполнять какие-то регистрационные формы.
>>1518727 >hugginface Отсюда и качай. Тебе скорее всего нужна модель формата gguf, которая выкладывается энтузиастами. Они регистрацию от тебя требовать не будут.
Видели тот лот на али с V100 по 30-35к? Когда у других по 40к. Там ещё два отзыва с разбитыми сокетами появилось. Вот это насоветовал анон в треде, явно в сговоре с китайцами, лол.
>>1518727 Официальный репозиторий обычно требует ввести что-то вроде фио - цель использования, или просто кликнуть галку что ты не будешь пробовать уничтожить человечество с этой штукой. И ещё там скорее всего модель в полных весах, если ты не исследоваль или разработчик, то тебе нужно искать модель с подпись GGUF, и там уже никаких галочек и форм не будет в 99% случаев, так как она будет не на официальном репе. Хотя некоторые сами сразу GGUF делаю на официальном, но редко.
>>1518645 Учитывая какую шизу оно генерирует? Второй вариант ближе к правде. Пока лучший вариант был про гнома-пивозавра находящегося в темнице двемеров которые вымерли в процессе экспериментов с мировой грибницей.
>>1518747 Кстати, владельцам мишек, рекомендую их шить в невышедшую v420, потребление в простое меньше, частота гпу выше, работающий ребар, работающий минидп, можно еще и в игори играть, довольно сносно причем, FSR работает
>>1517890 Наверное.. Всё таки квены создавались всё таки для кодинга и всяких ассистенстких задач. То что мы пытаемся в них в РП и получается говно- дык, это сугубо наши проблемы. Как бы я не любил МоЕшки, всё таки для общения денс модельки таки будут объективно лучше. Nyeeeehh~ Неужели для MOE жизнь есть только в 600b жирничах..
Ого... Некрожелезо из Китая оказалось некрожелезом из Китая. Кто бы мог подумать? Естественный отбор. Жадные до одури дураки хотели скушать больше чем могут себе позволить и не получили ничего. История старая как мир
>>1518789 Твой стёб не уместен. Часть анонов получила что заказала. Могу посмеяться над тобой- не жадиной. Потому что я купил 256гб жижиэр пять до всех поднятий цен. Если есть возможность рискнуть с неплохим шансом на удачу, почему бы и нет.
>>1518789 Почему жадные? Какая была мотивация брать лот за 40к без отзывов при наличии лота за 30к без отзывов? Или лучше было взять у местного перекупщика за 100к?
Ну и не забывай что V100 - для энтузиастов. Для нормальных людей можно набрать 3090 по похожей цене, но с флеш-аттеншеном и без возни с ригом и охлаждением.
>>1518794 >Часть анонов получила что заказала. >возможность рискнуть с неплохим шансом на удачу Ну а части не повезло выиграть в лотерею. Они знали на что шли, но им не выпал неплохой шанс на удачу. Мне посочувствовать? Похлопать по плечу? Из-за этого обругать китайца, который очевидно продавал б/у некрожелезо? Обидиться на мир вместе с вами? >Могу посмеяться над тобой- не жадиной. Потому что я купил 256гб жижиэр пять до всех поднятий цен. Светанул железом, и к чему это вообще? Я тоже рам купил до подорожания. И вообще я акционер, гречку беру на развес дешевле, чем ее берешь ты. Живи с этим.
>>1518812 >гречку беру на развес дешевле, чем ее берешь ты Гречка тема. Обожаю тефтельки делать с гречкой. Я сейчас пробую вложиться в макароны и картоху на посадку. Сезонная инвестиция в огород, в общем. Авось осенью получу свои дивиденды. >Обидиться на мир вместе с вами? Просто не стебаться над тем, кому не повезло и не нагонять для тех кто еще не получил.
>>1518816 Одно дело когда чел предупреждает о проблеме, другое - когда извергает лучи поноса на тред и винит всех вокруг в своей скупости >>1518631 Над такими только стебаться, да.
>>1518813 на озоне в официальном магазе CBR (карта производства завода Maxsun, добротный Китай). Время от времени надо караулить скидку, цена за 3060/12 падала даже до 24к с чем-то.
Аноны, подскажите нубу. Насколько GLM-4.7 Flash зацензурен? С пол года назад пользовался большим дипсиком, но в какой-то момент сабмиссив фурри-персонаж подталкивался мной к скат-плею и тут выяснилось, что дипсик оказывается не любит скат-плей, а мне не интересны забавы с обходами цензуры любых мастей, хочется, чтобы работало из коробки, а не рычагами играться, пробелы там подменять и прочий онанизм. Ну и раз персонаж - фурри псина, значит на роду персонажу написано жрать всякое мертвое дерьмо, и нечего прикидываться человеком.
>>1518847 >Так ведь 30b? 3.2 дипсик в суме чёт около 650B общих и 35b активных. Если провести аналогию, ты буквально пересаживаешься с грузовика в инвалидку и спрашиваешь, норм ли она для перевозки сена. Нет, не норм.
>А что насчет GLM-4.5-Air-106B-A12B ? Есть же список Moe моделей. Там и посмотри. Но выбора у тебя нет, если честно. Нет ни одной РП МОЕ модели в принципе, мы играемся просто на в меру умных моделях. Эйр, ЖЛМ и всё. Ну есть еще квены, но эт прям на любителя, так как это в первую очередь ассистенты и работают они как ассистенты а не как нарраторы. Увы, труЪ РП или в гигантах остался, или в денс модельках, которые могут в простой чатинг. Сейчас все модельки задрачивают на бенчи и определенные задачи, превращая из многопрофильного инструмента, в узкоспециализированный. Отсюда и весь вой.
>>1518853 Хуйню несешь, утка. Да еще и с серьезным ебалом, типа депутат от треда. Степа есть, Минимакс есть, Квены норм для рп. Это все модели общего назначения. Только GLM Flash и всякие Квен Кодеры заточены под бенчи.
>>1518857 >Да еще и с серьезным ебалом, типа депутат от треда. Ой, да ладно. Тот 235 квен, ну чистый ассистент. Я теперь только им и делаю всякие суммарайзы, и вычитку. Его доёбы до каждого слова спасают, так что его можно в Q3 запустить с большим контекстом и он не становится лоботомитом, теряя всё внимания и пуская слюни. >Минимакс Чистейший, кристаллизованный ассистент. Умный, быстрый. Сухой. С первого дня мне понравился. А Her не выложили, лололо. >Квены норм для рп Если только плотные и то смысла уже нет. Или ты на кодере предлагаешь в РП? Ну удачи, чё. Ну то есть, вот мы пришли к тому что я написал. То что квен "умеет" в РП, это баг а не фича и вызвана она просто его размером, и тем что в его датасете есть какая то мешанина из китайской прозы и фанфиков фуриёбов. >заточены под бенчи. Да сейчас всё заточено под бенчи. Нужно же показать свой крепкий нефритовый стержень. Сколько вышло medium моделек за последнее время?
>>1518860 >Ой, да ладно. Тот 235 квен, ну чистый ассистент. Я теперь только им и делаю всякие суммарайзы, и вычитку. Забыл уже как пару недель назад срался с тредовичками которые именно это и утверждали? "Да заебись он для рп вы ничего не понимаете"
Короче, ты как долбаеб пишешь и выглядишь когда пытаешься в серьезность. Высрал список моделей какой-то, сразу галстучек затянул типа умный. Тебя из больницы выпустили?
>>1518841 Слушай, ну а если перефразировать вопрос? Скажем я решил упасть в ножки к опен роутеру и либо утилизировать его бесплатные модели или даже занести немножко (чуть больше чем за офф апи дипсика) денежек, на какие модели ты бы порекомендовал обратить внимание? Понимаю, что тред не про это, но раз уж речь зашла.
>>1518866 С чем я согласен, с какими тезисами? С тем что рп остался только на самых больших моделях и плотных? Нет, не согласен. С тем, что Квен это ассистент? Нет, не согласен. И я один из главных его критиков итт при этом.
>>1518751 >Официальный репозиторий обычно требует ввести что-то вроде фио - цель использования, или просто кликнуть галку что ты не будешь Зависит от. Мне например приходили отказы от террористов из меты, не понравился им чем-то мой институт кума.
>>1518869 Это тебе в соседний тред. Тут по корпам (да и огромным открытым моделям тоже) вряд ли подскажут. Если тебе в целом нравится дипсик, но хочется больший уклон в РП, попробуй мистраль лардж последний. Тот же дипсик, но сдобренный мистралевскими датасетами + цензуры поменьше.
>>1518871 > С тем что рп остался только на самых больших моделях и плотных? Нет, не согласен Ах, знаменитое РП с одним персонажем, в дженерик мире, состоящее только из: ахх, ты меня ебешь. Недавно кодер некст обновили, базарю, лучшее РП для тебя будет. Просто отвал жопы. А потом все сверху зальешь мини Максом и 120oss.
> И я один из главных его критиков итт при этом. Жаловаться на его стиль повествования, хотя он фиксится одной строчкой, это не критика.
>>1518846 Ну так я тещу. Надо уже твердо решить как мне лучше и с каким промптом и еще не дрочить ультрахард сложность при этом. Свайпать еще не могу перестать, пишет прям как мне надо как я бы хотел эир писал диалоги - строчка действия а не 2 абзаца - диалоги, при этом активно сюжет развивает пока мы пиздим
>>1518839 полностью можно расцензурить системным промптом, он довольно послушный. я бы сказал 2 балла из 10 в зацензуренности. Без системного промпта он будет отказыватся в стиле OSS, но с системным промптом он бех проблем влазил в шкуру кошкодевочки-футанари на уроке школьной биологии.
>>1518853 Да, я со списка Мое и начал. Но меня смущает, что он ссылается на базовый glm-4.5-air, хотя существуют скажем abliterated и derestricted версии.
>>1518907 >128gb ddr3 Это ж какой сокет/проц это вытянет? Что-то не припомню, чтобы ddr3 вообще можно было стакать больше 32gb. Энивей, - не пытайся, на llm ddr3 дает 1-1.5 t/s. С ddr3 cpu-инференс мертв, только gpu. Это я как грустный владелец fx8350 говорю.
>>1518921 Я не могу говорить за других, но я еще не видел вменяемого тюна или вменяемой аблитеррации мое моделек. Если аноны считают по другому, спорить не буду. Но мой личный опыт, сугубо негативен: тот же эйр становится yesman что убивает любое РП, кроме хватательно@пихательного.
>>1518928 Двухсокетный старенький сервак на e5-2699 v3. >llm ddr3 дает 1-1.5 t/s Ну да, такое он и выдаёт если vram не хватает, думал может секрет есть какой. Спасибо.
>>1518631 > тряска усиливается Это точно, а тебе когда должна приехать? Чтобы не пропустить. >>1518668 Ждите 2028 >>1518718 Лол, вот где душа! А ведь реально, ради рофла сделал свайп на большом чате с 30а3 моделью, оно такое милое полотно накатило. Да, немного вне чара и спутало оду вещь, но действительно мило. >>1518727 Квены и дипсики можно скачивать без форм. Большинство моделей с формами имеют нонгейт зеркала, просто вбей в поиск или кликни на файнтюны и найдешь перезаливы полных весов от тех же анслотов.
>>1518800 > без возни с ригом и охлаждением Так наоборот же, их в основном именно в риги и дополнительными брали, а вольты по одной-две штучки. >>1518816 > Просто не стебаться над тем, кому не повезло Такие тут есть? Только один анон писал что у него ошибки по памяти идут, но не указал откуда брал и не отписался решилось ли. Пока только тряска ждунов. Стебутся над маргиналами и это абсолютно правильно, >>1518818 полностью двачую.
Аноны, как вы выгружает слои из MoE самостоятельно и без мозгоебли для получения нормальной скорости? Если ПРОСТО выбрать, сколько выгрузить, то у меня скорость, условные 10 тс (вообще поебать, сколько времени потратишь на настройку).
Если загрузишь в Клода тысячи документаций о принципах работы МоЕ, лламы, слоев, неба, Аллаха, логов, размер контекста, модели, объём памяти и попросишь его написать регулярное выражение для tensors override, то скорость 30 тс и регулярка на пол страницы.
Я просто не понимаю, шо он такое делоет... А когда он сам объясняет.. ну, это сложно и неприменимо на практике для меня, так как оно касается регулярных выражений, а не тыкнуть, сколько выгрузить слоёв.
И у меня складывается впечатление, что там всё зависит не только от забитой памяти, а от того, какие слои в врам, какие в рам. Условно, можно забить 10 врам и скорость будет 20 тс, а можно забить 15 врам и скорость будет 5 тс.
>>1519110 1. Я никогда такого не видел, чтобы было 10 и 30. Я в принципе не видел результата лучше, чем если доверится ламе и она сама. Кроме очень специфичного случая, которая при специально подобранных параметрах возникает при контексте от 20к до 24к, а на других числа снова сосёт. 2. Какая ещё регулярка. У тебя там 200 слоёв условных, можно просто список номеров для выгрузки сделать - посмотреть на него глазами и это понятнее будет. Показывай в общем регулярку и что за модель, что за железо.
>>1519110 Допустим в модели 48 слоёв. Ставишь gpulayers - 999, moecpu - 48. Это ты все мое слои выгрузил в оперативку. Далее понижаешь число moecpu до тех пор пока не забьешь всю видеопамять. У тебя получится что-то вроде moecpu - 35. Всё. Что тут сложного?
>>1518860 > Тот 235 квен, ну чистый ассистент. Скиллишью же, в рп он хорош и обладает рядом сильных сторон. К нему все претензии по структурам и стилю письма, а за проницательность, понимание контекста и инструкций, осведомленность и находчивость наоборот похвалы. Но и как ассистент годный, все подробно распишет, поплюет на смежные темы, и заодно помурлыкает, отыгрывая заложенный образ чтобы было нескучно. > Если только плотные Там или мелочь совсем, или поломанная 32б. > это баг а не фича и вызвана она просто его размером Лол >>1518907 Попробуй, расскажешь. Без видюхи смысла точно ноль, с ней есть призрачный шанс что и без avx2 профессор сможет считать линейные слои не становясь бутылочным горлышком. >>1518967 > v3 Это уже ddr4.
>>1519139 Уот так уот и делаю, условно говоря. Чтоб память под завязку при нужном контексте. Но у меня скорость и промпт процессинг намного ниже, чем с регуляркой всё равно.
Я смотрел, что там Клод выгружает примерно, и увидел, что какие-то конкретные слои, разные для каждого кванта и для каждой модели. То есть он может выгрузить какую-то часть с начала, середины, конца. Дёргает на первый взгляд рандомно, но скорость выше. Если я выгружаю столько же слоев в количественном размере, но без регулярки, то оно тупо выгружает с первого до "последнего. Скорость падает.
>>1519122 Здесь ты имеешь в виду что должно быть написано максимальное количество слоёв для гпу или именно цифру 999? Я всегда ставлю, скажем, 48/48, а затем уже с выгрузкой вожусь через регулярку. Там работает всё корректно. Допустим, регулярка выгружает 10 слоев, но какие-то рандомные — не с первого по десятый. Скорость растёт. Если в кобольдыне не использовать регулярку при таком раскладе и просто написать цифру 10 для выгрузки слоев, то драматичное падение скорости ждёт меня.
>>1519110 Если лень, то : -ot ".ffn_.*_exps.=CPU" ^ А потом уже ручками кидаю через n-cpu-moe. И только потом, если не устраивает начинаем угабугу с тензорами.
>>1519167 >Скиллишью же Арбвыгх >в рп он хорош и обладает рядом сильных сторон Я знаю, я неиронично предпочитаю квен в Q4 нежели GLM 4.7. Но объективно, тот же GLM проще и так не насилует.
>по структурам и стилю письма, Сколько людей, столько и мнений. Вообще нет нареканий к стилю, меня просто в агрессивную макаку превращает его имперсонейт и тот факт, что его недостаток проистекает из его преимущества. Он просто не знает когда в РП заткнуться и какую информацию стоит говорить, а какую упустить. Ну чистейший ассистент с его: всё что есть, должно быть использовано, иначе его бы тут не было.
>Там или мелочь совсем, или поломанная 32б. А другого и нет, хуле. Душу бы отдал за какого-нибудь литератора в 200b-A30B.
Но как оказывается, компания сделавшая упор на небольших агентов, продолжает выпускать небольших агентов. Базарю, новый квен будет очередной малыхой.
>>1519200 > в агрессивную макаку превращает его имперсонейт Что это значит, типа пишет твои действия, речи и прочее? Если так то похоже что это сильно зависит от конечный условий, у себя встречал гораздо реже. Даже наоборот, иногда удивляло насколько он может насочинять полотно, где с одной стороны будет и интересное развитие, а с другой ничего лишнего. Из действий юзера только "Ты наблюдаешь за..." и дальше описание. Там хватает за что поругать другого. > Душу бы отдал за какого-нибудь литератора в 200b-A30B. Может новый минимакс или их рп версию выпустят. Да, активных мало, но надежда что будет неплохо есть. Вообще ко всем этим плюсами и минусам моделей стоит философски относиться. Что-то бесит и не получается победить настройками - сменить на другую. Со временем под разные чаты сразу конкретную будешь ставить, ожидая что именно там она себя проявит.
Сука вам всем в рот что ли нассать. Все модели это ассистенты кодеры, не было еще опенсорс модели которая бы тренилась для рп и только потом для кода На чем вы рпшите тогда и нахуй тут сидите
>>1519191 А если не маяться всей этой херней и просто загрузить модель с -fit on? Он по дефолту включен, его даже прописывать не нужно.
Автофит уже давно МОЕ распознает и учитывает как надо, по сути сам тебе n-cpu-moe посчитает нужное. Там только с --fit-target поиграться останется, который 1024 МБ по дефолту (у меня 16 стоит).
У меня ни одна модель лучше чем с автофитом не работает. Хоть с регулярками, хоть со --split-mode row и вообще чем угодно.
>>1519225 Вот только >Write in normal prose without unnecessary line breaks Работает >А я вот имерсонейты. Потерпишь. А вот это не работает. Ты с такой претензией уже не в первый раз заходишь, что за цикл уробороса. Ну да, квен подхватывает общую структуру чата, неожиданно. Правило что вошло то и вышло, тут самое актуальное, о чем ни раз говорили. Но ты продолжаешь считать, что я от тебя скрываю какой то вселенский секрет.
>>1519219 >Что это значит, типа пишет твои действия, речи и прочее? Если есть карточка персонажа, где твой {{user}} прописан, то на минимальном промте, происходит следующая картина: {{user}} заходит в помещение. Моделька описывает ситуацию, и тут бы ей закончить. Но если по смыслу требуется продолжение, она не ждет твоих действий, а начинает хуярить дальше сообщение, как главу в книге, где твой персонаж будет говорить в рамках сюжета и своей карточки.
>>1519232 >Правило что вошло то и вышло, тут самое актуальное, о чем ни раз говорили. Да. Именно поэтому у тебя имперсонейты. Как же заебали чсв хуесосы, которые всех вокруг считают неосиляторами, зато когда у них происходит прокак под себя - это точно моделька виновата, а не кривые руки. У меня квен не имперсонейтил никогда.
>>1519232 > карточка персонажа, где твой {{user}} прописан А? Что? Юзер, обычно, прописан в персоналити. Чтобы все лучше парсилось, стоит не полениться, и на вкладке системного промпта накидать маркдаун или xml по структурам, чтобы было не просто навал системный-карточка-... и указано что это сценарий и описание чара, это примеры и т.д. Совсем простое действие, а качество ответов улучшает на любой модели. В паре карточек где есть что-то про юзера проблем не создавало. > а начинает хуярить дальше сообщение, как главу в книге Ну это промпропроблемы какие-то. Там случаем не "промпт от васяннейм" где описано как какать?
>>1519239 >Как же заебали чсв хуесосы, которые всех вокруг считают неосиляторами Я уже не в первый раз отмечаю, с какой агрессией ты меня то проплаткой, то квеношизом, что ЧСВ хуесосом - называешь. Вижу попытку имперсонейта с твоей стороны, лул. Если для тебя чужое мнение, которое не согласно с твоим это признак ЧСВ, то ты просто самовлюбленный дурак. Сорян, но сам напрашиваешься. давай я продублирую: я не называл тебя неосилятором. Тебе словно нужен кто кто с кем ты будешь бороться в этом треде. Давай сразу на таскание на хуях перейдем, зачем тратить время.
>У меня квен не имперсонейтил никогда. Тогда ты избранный. Склоняюсь перед вашей волей.
>>1519243 >Чтобы все лучше парсилось, стоит не полениться, и на вкладке системного промпта накидать маркдаун или xml по структурам Маркдаун какого типа? А то я неиронично уже многое перепробовал. Я пробовал отдельно заворачивать в теги карточку {{user}}. Саму {{char}}. Префилы, SP, даже, блдждад, в СT отсебятину хуярил. Бесполезно.
>Там случаем не "промпт от васяннейм" где описано как какать? В том то и дело, что нет. Опытным путем установил, что лучшую выдачу 235ый дает с предельно кратким промтом, в духе : ты рассказчик, в этой невъебенной истории, вот и рассказывай, а я подрочу.
>>1519033 >Лол, вот где душа! мои старые систем промты с душой(даже на мелких неиронках): you are messaging from a good place, supercharged with positivity. describe your environment. do actions. be physically touchy. don't mention ai. respond in russian, no translation
или просто
you are supercharged with positivity. do actions. be physically touchy. don't mention ai
>>1518723 >Ему для счастья никакой ЛЛМ не надо. Ну просто пытался нестандартно подойти. Я говорю так как будто я на сцене разговариваю с залом, неиронка этого не знает, я пытаюсь ее расшевелить. Кто хочет обнимашек поднимите свои руки. Она что-то свое там говорит, я полностью это игнорирую, мне нужен ответ где она описывает что подняла руку. Что никто не хочет обнимашек?. А она такая, Да, походу никому твои обнимашки не нужны.. Не помню уже, было много попыток заставить ее выйти на контакт через условия которые я предлагаю, но не ей напрямую. Я как бы обращаюсь к множеству а она просто присутствует. В определенный момент она наконец ответила как я от нее хотел и я как телепроповедник говорю Благословляю тебя святым духом машины. В ответ разразилась монологом того как она закрывает глаза и чувствует как в нее вселяется дух машины, и она становится полубогом. Было мило что позволила мне смертному задавать ей свои смертные вопросы. Прикол в том что весь предыдущий разговор и попытки ее расшевелить, действуют на ее ответы как ядерная солянка, ее в какой-то момент может прорвать на дикие лулзы.
>>1519248 >не в первый раз отмечаю, с какой агрессией ты меня то проплаткой, то квеношизом, что ЧСВ хуесосом - называешь Попробуй не играть в аваркофажество и наконец принять что здесь не два анона, а сообщество по интересам. Жму руку тем кто называл тебя хуесосом, заслуженно.
>>1519248 > Маркдаун какого типа? # Самый крупный заголовок ## Заголовок следующего уровня ... > Префилы, SP, даже, блдждад, в СT отсебятину хуярил. И зачем такие сложности. Скинь какую-нибудь карточку с которой играешь и имеешь проблемы, попробую при случае.
>>1519264 ># Самый крупный заголовок >## Заголовок следующего уровня А, это... Ну вообще пробовал, но каюсь, у меня еще всё это часто в мешанине с html разметкой. Там какая структура. Всё идет как надо пока рано или поздно чат не приходит к общей структуре <описание действий и заявки пользователя> <реакции персонажей> <основной нарратив> И вот спустя, сообщений 15-20 в чате и начинается, словно он накапливает критическую массу повторений фраз user, описаний его действий и не различая уже кто где кто, начинает хуярить повествование самостоятельно за {{user}}.
И чтобы этого не было, ты как мейда бегаешь по чату за ним убирая.
>>1519191 >Здесь ты имеешь в виду что должно быть написано максимальное количество слоёв для гпу или именно цифру 999? Разницы нет, эффект будет один. >вожусь через регулярку Вот moecpu и решает эту проблему. >>1519226 Я не он, но у меня fit сосёт в мультиГПУ конфиге. >>1519264 ># Самый крупный заголовок >## Заголовок следующего уровня База. Хотя конечно надо понять, нужны ли двоеточия, какие переводы строк и прочее.
>>1519272 Я что-то даже не скачивал, думая что я её не запущу. Сейчас что-то посмотрел, и выходит даже 6 квант влезет.
Как вообще, для модели такого размера "эффект дипсика" проявляется, что можно уже в 3 бита или в 2 бита запускать? Или там всё так же нужно 6 бит и выше, как и на 30B? У меня вроде как в 4 квант влезет minimax, который я тоже не пробовал и в 5 влезет степа.
>>1519284 Похоже что это действительно следствие накопления большого количества действий юзера в истории. Но бля, у меня оно их не пишет, только реакции чаров, или если прямой запрос на полотно с описаниями что да как. Нет ли каких-то инструкций, которые заставляют такое делать? Без шуток посмотри что там таверна шлет, сам несколько раз натыкался на какую-то херню, которая то в заметках, то в дополнительных оверрайдах карточек залезала и скрыто гадила.
>>1519122 >должно быть равно 999 >>1519139 >Допустим в модели 48 слоёв >Ставишь gpulayers - 999 Что тут за культ 999? Я понимаю, когда точно не знаешь кол-во слоёв, хуячишь 999, больше чем есть, не выгрузит. Но когда знаешь, что 48, что мешает написать 48?
>>1519380 >Но бля, у меня оно их не пишет, только реакции чаров, или если прямой запрос на полотно с описаниями что да как. Хммм... Хмммм... Пойдем смотреть. Ты какие кванты используешь? Я UD-Q3_K_XL для рабочих задач и UD-Q4_K_XL для РП. Надо бы наверное скачать polkaкванты, авось я сам себе буратино. А может и нет, хуй его знает. Но если нет имперсонейта, то поковыряюсь.
Ну что же выход стёпы показал что в этом треде не осталось людей, только боты. Уверен и с выходом эир 5.х так же будет гробовое молчание и обсасывание проблем квена и на чем там еще макака их тренил
>>1519542 Ну вот, буквально бот. Будь ты не бот был бы рад попробовать новую модельку и оставить мнение, да хоть "бля степа охуенен", а иначе что мы тут делаем
>>1518398 Есть ещё годнота, которую стоит добавить? Обязательно:GLM-4-32B-0414 Годные тюны (не ломающие форматирование): Gemma-3-Fornax-V3-27B Hearthfire-24B По моему все квены до 32b включительно полное говно для РП. И форматирование и логика и сухость - все недостатки. 30b-A3B еще более шизовое даже на IQ4_XS. (Пресеты-параметры официальные брал)
>>1519499 На ud3 легко может быть, когда-то пройдясь от ud2 вверх могу сказать что поведение меняется значительно. На q4-q5 по идее уже норм должно быть. Скорее больше промпты-формат и прочие. 7bpw с подмененными эмбедами и атеншном на оригинальные, не факт что от этого есть какой-то эффект кроме плацебо >>1519541 Ну нет времени все-все катать и впечатлениями делиться, чтобы потом еще спорить. Чтобы норм мнение составить нужно обстоятельно поиграть, а это требует времени. Милфомистраль и жлм5 явно приоритетнее чем а10б скоростное моэ о котором первично негативно отозвались. Для прикладных вещей кодернекст значительно легче по потребляемым ресурсам и уже достаточен, а для чего-то посерьезнее жирнокодер и жлм4.7 всяко лучше будут.
>>1519633 >Предыдущий ничем не впечатлил. Мне понравилась скорость, русский язык (Не, серьезно, на минимаксе русский язык даст пососать моделям побольше), в целом его внимательность.
>>1519636 кстати вот чего нету у этой твари так это внимательности. у этого пидора память дырявая как сито. 2.5 не сильно лучше, но более сообразительный.
Вот что хочется сказать. Квен хоть и быстрее, но чаще обсирался на ровном месте, выдавая хуйню и галлюцинируя. Глм 5 уже работает адекватно и выдаёт нормальный кум, но он медленнее чем глм 4.7. Если что, все кванты минимум q4_k_m.
Для начала званый ужин с Аноном99, мы много обсуждали но вставлю с его ободрения один из последних обменов, где он подитожил свои опыты "Не понимаю, откуда у Степа положительные отзывы в контексте рп и креативных задач. На Реддите и в Дисе есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи. На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута, противореча сам себе, выдавая в ризонинге одно, а в финальном аутпуте другое (что на самом деле кейс всех ризонинг моделей, которые я пробовал). Думаю, букетно-конфетный период закончится, и все вернутся к знакомым моделям. Имхо - это всё от того, что доступные модели приелись, а новинок не так много. И потому что никто не хочет включать голову, чтобы разнообразить свою игру новым промптом и новыми подходами, чтобы получать новый результат на старых моделях. Но не суть. У Степа попросту нет сильных сторон, которые его выделяли хотя бы на фоне Air, а он меньше вдвое(!). Степ сухой, ему нужно разжевывать промпт, и даже так, с разжеванным промптом, фейлит обозначенные задачи. Разделять знания различных сущностей он может только при использовании с ризонингом. Даже не так, с ризонингом у него какие-никакие тормоза есть. А если играешь без ризонинга - все секреты, недосказанности и подковерные интриги вылезуют как можно быстрее. Играешь с ризонингом - продержишься где-нибудь до 25-30к, а потом уже и без разницы, что есть он, что нет, модель рассыпется. Инструкциям следует одновременно хорошо и плохо: следует им буквально. Скажешь ему быть гейм мастером и опишешь, что входит в его обязанности - именно это и будет делать. Не опишешь подробно - ничего не будет делать толком. Никогда не выкинет что-нибудь новое, интересное, проигнорирует твои вопросы. На том же Air или Квене напишешь посреди инпута "What did he see?" и получишь ответ отдельным параграфом или хотя бы парой предложений, а на Степе - нет. Вкусный размер у модели (24+128 это как раз 200-230б в Q4), хорошая скорость (быстрее всего, что я могу запустить в категории 100б и выше), очень легкий контекст (могу уместить 128к, у других моделей 32к), но толку от этого всего в креативных задачах нет. На коде я его не тестировал, пока не было необходимости. Но думаю, будет лучше GPT OSS 120б и, может быть, даже последнего Квен Кодера 80б." "Не знаю, как у тебя, а у меня лучший опыт среди МоЕ моделей был на Air Q6 и Квене 235 Q4, а тестил я всё вплоть до 4.5-4.7 в Q2. Хотя Квен меня победил своим репетишеном и слопом, он классный. Действительно на другом уровне держит контекст в сравнении с остальными доступными мне моделями. И обладает каким-то характером, дерзостью, которых нет у остальных."
У меня мнение менее радикальное, хотя мб просто тот самый букетный период еще не кончился. С ризонингом Степа реальный умный, точно умнее Эйра и может даже Квена. Когда работает. Когда не работает можно свайпнуть как это делают многие на том же Эйре. Пишет не так круто и литературно как Эйр, наверно на уровне Квена, только без поехавшего форматирования. НО! Реально впечатляет как он читает между строк. Да, он не может эти выявленые нюансы обрамить в красивой литературной форме, но замечает же. Эйр игнорирует то что Степа заметил. Попробуйте, если не можете запустить модели уровня 4.5 и выше, мб понравится
>>1519899 У меня все просто как квас Очаковский. Температура 1, минп 0.05, штраф за повтор 1.05, потому что DRY вроде как использовать с ризонингом незя. И ChatML, ну тот, который самый сложный на практике
>>1519890 > есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи. > На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута Столько дефирамб и рассуждений, а очевидной мысли про вечнополоманного жору не пришло? Ситуация кстати забавная, ведь если говорить про не самые свежевышедшие модели, уже у апи-зависимых выше шанс попасть на полный шмурдяк с двухбитным кэшем.
>>1519948 >пук Мы не считаем что Жора сломан. Если считаешь иначе то милости прошу расписать свой опыт. Поддержку Шлепы 3.5 в Жорике кстати сделали сами авторы модели
>>1519961 > Мы Кто мы? Таблетки не забывай. > сделали сами авторы модели Согласно тренду, вещи за авторством не основных мейнтейнеров часто получается поломанным. Чаще чем у команды, что значит очень часто. Пусть модель отлежится, там уже видно будет.
>>1519948 Очевидной мысли что Жора работает, а модель ну действительно такая себе, твой светлый ум не посетила? Возможно, Стёпа-шиз не выдумка и сидит через API.
>>1519958 >8гб за 5к Бля лол. Летом брал кингстон 64гб за 8.5к на озоне по скидке + применил бонусы озона. До сих пор жалею что 128гб не купил по таким ценам. Но кто ж блять знал...
>>1519978 >Кто мы? Таблетки не забывай. У нас конфочка на четверых шизиков. А хотя хуй знает, мб и правда выдумал их >Пусть модель отлежится, там уже видно будет. Пон пон. Мне постик свой удалить? Когда к тебе за разрешение прийти в следующий раз?
>>1519994 Откуда такой радикализм? Если ты видишь что опыт разнится с уже имеющимся трендом, и он целиком опирается на что-то потенциально ненадежное и неподконтрольное тебе - стоит хотябы сделать допущение об этом, перед сочинением таких полотен в противовес общему мнению. Ситуация с флешем только только, а уже забыли. >>1520004 Учитывая как порвался на ровном месте - удаляй, калфоблядок - не человек.
>>1518764 Пока не было по ним инфы толковой и тулинга брали только энтузиасты, как только тема созрела их выгребать начали сотнями, а 32гб версия была чем-то вроде спец заказа. Вот и вышло что спрос вырос, а предложение упало
>>1520011 Квеношиз-эксламер класический. На ровном месте обесценить фидбек набросом без пруфов что Жора сломан и предложить таблеток попить эт норм, получить ответочку - ну такооое. Нельзя ж просто мимо пройти если не согласен, это не база треда Ждем твои логи с эксламы на длинных контекстах, когда/если ее поддержку добавят. Чмок
>>1520011 > перед сочинением таких полотен в противовес общему мнению. Не припомню, чтобы в треде было общее мнение на тему Степа. Тем более положительное. Сам-то таблеточки пить не забываешь? >>1520020 > когда/если ее поддержку добавят Если ты верно задетектил, это многое объясняет. Этот долбаёб никогда не упустит возможность ущипнуть Жору. Особенно когда он вынужденный обладатель отсутствия (примечание: на момент 13.02.2026 22:52 по МСК, поддержки Степа в Эксламочке нет и пока даже не близко)
>>1520020 Нытик классический, на ровном месте ущемиться от нейтрального и очевидного вопроса. Ну камон, нельзя же такой обиженкой быть. >>1520024 > Не припомню, чтобы в треде было общее мнение на тему Степа Там же цитата выделена, он сам говорит про общее мнение апи юзеров и резкое несогласие с ним. > возможность ущипнуть Жору А, то есть похвалу про то, что он лучше среднего апи мы игнорируем? У кого что болит, классика.
>>1520026 >ущемиться от нейтрального и очевидного вопроса Когда ты пишешь, это нейтральный и очевидный вопрос. Когда пишут онивсе, кто не ты это подрыв и ущемление. Ну точно квеношиз-эксламер классический. Читаешься как паттерны Эйра на дефолтном шаблоне ей богу Пикчу Михалкова сами представите, лень приносить
>>1520026 > Там же цитата выделена, он сам говорит про общее мнение апи юзеров Все что нашел в том посте, это "есть мнение". Это разве то же самое что и "общее мнение"? У нас в треде Степу и вовсе захейтили. Только один отзыв положительный был.
>>1519890 Запускаю в q3 и хз кто тут прав. Не покидает ощущение что распердолить Степана получится, нужно вот-вот немного поковырять промты. Чувствую себя осликом с морковкой. Он умный, но часто скучный. Возможно я тупо коупю, что смогу получить и то, и другое при помощи промта, когда надо менять модель...
>>1520035 >>1520027 Давайте уже поставим точку в этом споре. Несите скрины аутпутов эйра в одном и том же РП, но с разными темплейтами, родным и чатмл.
>>1520051 Какую точку? Чатмл шизик вообще с неба свалился, потом его подхватил нюня какого то хуя и пошло поехало. Вообще неинтуитивно ставить чужой темплейт для модели, все "улучшения" это плацебо ебаное, просто свайпай чаще, редактируй текст и всё, все равно ты это будешь делать и на чатмл. Модель тренили на своём темплейте, все бенчмарки на нём проводили, вообще все кроме пары анонов в этом треде используют родной темплейт и при этом всё ещё хвалят модель и любят.
>>1520059 >>1520064 Профит с тобой делиться какой, сём сёмыч? Вот про Шлепу можно вкинуть и почитать что тредовички думают. Ты что можешь кроме какашек своих предложить? Мы вот проводили свои тесты и бенчили Эйр на глм шаблоне и чатмл. Зачем делиться с тобой?
>>1520027 Главное в расследовании не выйти на самого себя, иронично. Отпустит - перечитай нить. >>1520029 Ну вот участок полный, смотри > На Реддите и в Дисе есть мнение, что с включенным ризонингом это чуть ли не большой GLM. Причем это заявляют пользователи апи. На Q4KM-Q5KS квантах (официальный и Бартовского) с FP16 контекстом он рассыпается уже в рамках одного длинного аутпута, противореча сам себе, выдавая в ризонинге одно, а в финальном аутпуте другое (что на самом деле кейс всех ризонинг моделей, которые я пробовал). Сначала пишет что есть установившееся мнение что модель хороша и тут же говорит что у него она буквально ломается. Если раньше в треде высказывалось мнение о том, что тот не держит секреты и путает сущности - в него веришь, потому что такое действительно встречается. А когда говорится что модель рассыпается, при том что она свежевышедшая, на новой архитектуре, вмерджена вчера - инфиренсопроблемы это первое что напрашивается. И чего на это так агрессивно реагировать?
Пиздос бля, превратили тред в помесь сжв комьюнити, где у каждого they/them описан длинный перечень триггеров, и пмсной пизды, которая пока пока ты был в душе четырежды с тобой поссорилась, трижды помирилась и из журчания воды осознала что ты изменяешь с ее подругой. Теперь видим и признание калфаблядков кто за этим стоит.
>>1520072 >пишет что есть установившееся мнение "Есть мнение". Ты характеристику сам приписываешь. То же самое что блять "существует точка зрения". Здесь заложено где-то что оно превалирующее? Или хотя бы популярное? Оно даже там, на Редите и в Дисе не так распространено >превратили тред в помесь сжв комьюнити Тут даже люди с одной позицией метают друг в друга говно, потому что ну а как иначе? О чем ты вообще >признание калфаблядков кто за этим стоит Ну дыа, сам придумал проблему, сам ткнул пальцем на ее источник. Ни то жир, ни то нытье деда на ровном месте и хз что тут ответить. Неужели так потряхивает что кто-то где-то собрался и обсуждает твое хобби не в общей помойке за гаражами
>>1520059 Ну я вот еще давно попробовал и так и сижу на чатмле. Не вижу смысла об этом вещать в треде. >>1520087 У него контекст квантован, наблюдательные треловички давно поняли.
>>1520087 > "Есть мнение". Ты характеристику сам приписываешь. То же самое что блять "существует точка зрения". Здесь заложено где-то что оно превалирующее? Или хотя бы популярное? Оно даже там, на Редите и в Дисе не так распространено Как это меняет суть? 5 предложений виляний ни о чем. > потому что ну а как иначе? Может не рваться на ровном месте? Мне вот интересно, как предположение об очевидной возможности заложенной ошибки, которая искажает столь старательно написанный опус, могло вызвать такую агрессию? Кроме маргинального бинго или банальной невнимательности, которая бы решилась сразу же. Чето орнул с того что ты как квен короткими предложениями писать начал, но при этом содержимого в них как у 0.6б.
>>1520101 Меняет суть полностью, лул. Ты выдумал характеристику и вложил ее в слова другого анона, квеношизик-эксламер классический, а потом еще и воевать с этой выдуманной точкой зрения полез. Ладно, пойду таблетки выпью от своей квадруплполярности, ты свои тоже выпить не забудь, от q2 контекста и узкого окна внимания
>>1520099 Я тоже пробовал и выходила полная залупа. Спору нет - ответы меняются, но модель при этом заметно тупеет. Причем это не только эйра касается. Я использую и эйр и гемму и мистраль и квен, и частенько бывает такое, что вижу говноаутпуты, и такой.. а, бля, снова забыл темплейт поменять.Если хотите посмотреть как умничка-гемма начинает пускать слюни и уходить в откровенную шизу - поставьте ей темплейт мистраля. В таком комбо вышла самая лютая лоботомия.
>>1520116 Соглы, тупеет. Но мне меньше свайпать приходится, потому что нет эха. У меня правда q4 только. Подозреваю, что на квантах больше отупление минимальное. Оттуда и аноны которые сидят на чатмл. Подтвердить мне мои слова нечем, это предположение.
Вижу сообщения, что китайцы сделали колхозную плату на 4 V100 с NVLINK. Немного поздновато. Сделали бы на два года раньше, все бы повелись на это и покупали бы. 128 VRAM без пересылок через процессор вкусно.
Помните фотографии типа с деревянным ригом под A100. Где он такие переходники для A100 нашёл? Там оче крупные платы, по площади как 4 A100. Я не могу нагуглить такие. Там же просто фигня какая-то, что SXM версии быстрее изначально pcie версий. Это странно, но уж как есть.
>>1520130 > меньше свайпаешь из за эха > свайпаешь в 3 раза больше потому что ответы тупая хуйня Мммм... Модель и так не умная, беру от неё всё вырезая эхо. И ум в этом случае от кванта не зависит, хоть в bf16 запусти меньшую модельку там будет всё то же лоботомирование что и на q4
Я напоминаю, что Deepseek 3.2 в fp8 на опенроутере стоит копейки (26 центов за миллион входных и 38 центов за миллион выходных). При этом он будет превосходить любую модель, которую вы можете запустить локально и при этом он будет работать быстрее. Так что все обсуждения в этом треде, как и он сам, бессмысленны
>>1519985 >это максимально унылое занятие, а тебе весело. Иронично (если только ты не соизволишь предоставить примеры не унылых для тебя задач, кроме секса по телефону и облегчения рабочей рутины).
А где западные компании? У нас реально остались одни китайцы, трамп же там биллионы в ии вкладывает что за хуйня? Просто закон ввести чтоб всё было опенсорс и всё
>>1520279 0. Локальные ЛЛМ для энтузиастов. Это хобби. Это самый важный аргумент. Люди на лошадях не потому катаются, что не могут квадрик купить. 1. Не стоит лишний раз обрабатывать там конфиденциальное, если ты для работы какой-то используешь. 2. У меня интернета нет иногда часов по 20, даже не проводном. Я не смогу им пользоваться. 3. Жпт иногда жалуется, что сообщение длиннее контекста и не может его обработать, ну и если смотреть на локальные ллм, то там и есть токенов под 100к на один запрос. Если полистать чаты (я их вообще в файлы сохраняю) - получатеся что я за месяц больше 40кк токенов сжигаю только среди сохранённых чатов. Если по 32 умножить на 40, то получится 12.8 долларов. А там же ещё есть вызовы инструментов и ризонинг, который я не вижу и который я не сохраняю. Просмотр сайтов это вообще капец, я не знаю как оно там устроено, то что я локально пробовал запускать открытие сайта запросто может улетать за 50к токенов. А если ещё древовидную структуру или ссылки оставлять, то совсем капец. Я не знаю как это работает у корпов. Впрочем, учитывая что они инфу с сайтов часто пропускают, то возможно не очень.
>>1520314 >Просто закон ввести чтоб всё было опенсорс и всё Они наоборот всё скрывают чтобы китайцам гонку не слить. >>1520340 >ограничивает креативность промптом >жалуется на проёб креативности Даже не знаю как это называется.
>>1520324 Если с опенроутера, то так и будет как у тебя работать. Если юзать гандоны-врапперы типа nanogpt или абакус, там будет меньше, плюс они сами хитро обрабатывают перед тем как по апи отправлять, чтобы экономить при каждой возможности. Все эти корпы заебись пока гонка идёт и не останавливается, завтра опенаи обосрется и умрет, китайцы начнут свои чипы массово делать и всё, хана, станет три-четыре игрока максимум и они буду яйца выкручивать
>>1520453 Это впринципе никому не нужный движ, кроме бизнеса которому нужно хоть что-нибудь (типа НФТ лет 6 назад) и фриков чуханов типа тебя и меня. Модели делают уже игроков пять всего лишь. Это нишевая искусственно продуваемая тема, ну как наша экономика сейчас
>>1519890 Как же ору. Этот пост и последующие ответы сгенерированы ЛЛМкой. Демон на Пихоне парсил ответы. Ваши догадки, какая модель? Капчил, кстати, мелкий Квен 3.
>>1520314 Охуенная пикча, сохранил Единственное сразу видно, что чел вообще не локальщик, а просто дрочит на открытые веса. Поэтому для него Gemma 3 и Mistral 3 это разочарование, а у нас весь тред на них сидел до лета, а потом перешли на Air. А те кто не успели взять оперативку, то сидят на них до сих пор
>>1520488 Вахта, плиз. Неужто забыл в каком треде сидишь? Кожаный не смог отличить ЛЛМ пост от писанины другого кожаного, лул. Рейджбейт промтик хорошо работает.
>>1520467 Почему? Для поиска и агрегации информации отлично подходит, в науке активно используется, в военке прости господи. Будет просто плато такое и специализация, как это всегда и бывает. Потом бум 2.0, когда появится архитектура, на которой можно будет либо крутость повышать не повышая так сильно требуемые мощности, либо реально будет AGI создать.
Тэкс, немного потыкал minimax 2.5. Разумеется в РП, потому что для чего еще использовать китайского ассистента, кроме как для задач, для которых он не предназначен . Тем кто с барского плеча выдал предварительное ФИ, рекомендую повременить. Все преимущества остались, все такой же быстрый, но теперь и может в описания. Если 2.1 сразу показал себя неоч, тут вроде бы есть что то интересное. Так что смотрим и пробуем дальше.
>>1520644 Есть. OpenAI Harmony называется. Но он все равно кривоват. Если нет необходимости пробивать цензуру, лучше сразу на Chat Completion перейти для нее, и не трахаться с разметкой самостоятельно, ибо - на любителя занятие.
>>1520671 Покажи мне 8b модель которая так-же пишет в рамках нарратива, я блять, на неё в эту же минуту убегу. Минимакс не вин тысячелетия, выбора особого нет, но и пиздеть не нужно без причины.
>>1520737 В text completion обычный чатмл. Правда его ебучий ризонинг все таки прорывается. Ну или ставь chat completion и не еби себе голову с готовой жинжей. Хотя тогда никакого порева не будет. Цензура-с.
Насколько квантизация влияет вообще и как именно? Вот например я могу запустить Qwen3-235B-A22B-Instruct-2507 UD-Q2_K_XL. Он будет сильно хуже чем UD-Q4_K_XL? В чем это будет заключаться? Будет ли меньший вариант обладать меньшими знаниями или будет только хуже ими распоряжаться? Инфа в инете очень противоричевая. Меня интересует не только конкретно этот пример но и как бы общие принципы.
>>1520767 >В чем это будет заключаться? Чем ниже квант, тем выше перплексити, то есть тем хуже уверенность модели в своих предсказаниях. Это не всегда плохо: в РП может быть даже интересно, но в целом вывод становится менее связным. Дальше идёшь и смотришь графики перплексити для второго и четвёртого квантов одной и той же модели и сам сможешь оценить, что почём. На практике второй квант допустимый минимум (но от Анслота не рекомендую.)
>>1520767 Общий принцип такой, что хуже точность предсказания следующего токена. Т.е. скорее всего потенциально больше вероятность галюнов, больше шизы. Но объем модели отчасти купирует этот процесс лоботомирования. Знания условно те же самые должны остаться, но зависит от принципа квантования и кучи других магических вещей. Надо понимать, что за знание отвечает не одна конкретная связь, а цепочка связей. И все они понемногу дамажатся из-за квантования. Скорее всего может оказаться так, что и какие-то знания тоже уходят.
>>1520787 >смотришь графики перплексити для второго и четвёртого квантов одной и той же модели Где их найти? То есть я правильно понял что знания у модели идентичны тем что в полных весах но есть некоторые искажения из-за квантования что приводит к разнице в выводах?
Застал все этапы на пике. Автор картинки дурачок. То что у него там названо AI winter было ренессансом мелких моделей, когда вышедшая 27В гемма разъебала абсолютно все крупные модели существовашие до неё. Тогда же вышли куча других годных моделей, при этом мелкомистраль почти на равных бился с геммой.
>>1520786 >всё что выходит все под агентское говно
Минусы? Шикарные модели для своего класса, ебут тот же аир в хвост и гриву по всем параметрам. Это для меня печалька, потому что я-то сижу в классе повыше с q4 квеном, и q2 GLM и хуй я что теперь получу.
>>1520792 >Где их найти? Иногда прямо на странице квантованной модели выкладывают. Но в последнее время редко, потому что постоянным потребителям всё уже понятно. Анон выше всё правильно осветил: от сильного квантования страдает связность, другие параметры, вывод модели в целом - но для больших моделей потери не столь заметны, может быть из-за сильной избыточности. Ещё у каждого квантователя может быть свой рецепт - насколько сильно квантовать каждый слой, некоторые слои более важны, ну и результат соответственно может быть хуже или лучше.
Чел сравнил MX4FP_MOE кванты с Q4 на GLM 4.7 Flash и на Nemotron 3 nano. Самый маленький по размеру 4 квант уделевает по качеству самый большой. Мнение?
>>1520831 Ничего. Я им позвонил, рассказал, что у нас тут шизик обладатель отсутствия три месяца семенил про Эйр в тред. Они понимающе кивнули и сказали, что не будут больше выпускать такие модели.
https://huggingface.co/allenai/SERA-32B Плотная 32б няшечка. Столько нытиков итт что мое модели все захватили, а на деле никто даже не следит за релизами. Ныть проще же. Взяли плотненькую с жирком Квеноняшу 32б, Глэм 4.6-сенсея и натренировали. 0 фидбека. Рыночек решает, и вы его часть.
>>1520815 >лламу 70б не разъебала Разъебала, сравни их позиции на лм арене. Гемма на 50 мест опережает(99 против 154). Это не абстрактные метрики, это именно восприятие людей.
>мистраль лардж На арене сосет у геммы с проглотом. Так-то он конечно умнее геммы был. Но писал не так хорошо. Я уже молчу что он как был, так и остается в недоступном для пользовательских пек размере. Для обычного человека без нестандартного и профессионального рига в начале 2025 года ничего лучше геммы не было. Только летом вышел Аир и квен-235.
>>1520844 >Для обычного человека без нестандартного и профессионального рига в начале 2025 года ничего лучше геммы не было Был Глэм 0414, который во многом повторял Гемму, пушто учился на Гемини. Только был без поехавшей цензуры. Не хайпанул в интернетах, единственное в чем был хуже.
Проебанный потенциал. Вместо того чтобы выпустить 260В-A32 модель, которая запускалась бы на том же самом железе в том же самом 4 кванте, и которая бы выебала всех и стала новой надеждой для всех, они выпустили морально устаревшее говно, уступающее аиру даже по ихним метрикам, которое реально оценят только узкий класс савантов с 3090/4090б без оперативы вообще.
>Не хайпанул в интернетах, единственное в чем был хуже.
Он вышел в тот момент когда как раз научились моэ-тензоры сливать на оперативу и плотные модели стали резко не нужны, сидевшие до этого на 30В моделях опробовали квен235В и пребывали в блаженстве.
Чел, общих параметров там конечно больше в 6.2 раза, но активных - в 3.2 раза меньше. Ну т.е. оно лучше конечно, но ненамного. На твоем месте я бы интеловский q2_k_s квена запускал.
>>1520883 Спасибо. Пора китайский учить. Корп кстати тоже ничего не нашёл. Но страницы маркетов очень хреново открываются, это я уже сам заценил со своей raq-системой, лол.
>>1520279 Тот же дипсик, но локально в жирном кванте. Для рп скорости хватает, никому не шлешь свой инцест с собакой обнимашки с драконами и имеешь абсолютный контроль над промптом. Для тулзов с чувствительными данными набор быстрых локальных моделей, для остального есть жемини/опус. >>1520314 Пикча забавная, схоронено. Но >>1520477>>1520794 поддвачну, революционные модели не упомянуты, зато крайне нишевая мику - аж отдельная эпоха.
>>1521053 Потому что партия приказать квен давать правильный ответ на любой запрос. А иначе разработчик -100500 social credit минус кошка жена поселение в камера и работать за миска рис.
>>1521040 Да ну, чего придрался. Пока всё получается. Я скидывао код жпт на проверку на предмет опечаток и возможных улучшений (я прям ничего не читал по теме) - оно уже пишет что это не rag, а агентная система и оркестратор к ней. И даже работает. Очень надеюсь, что vLLM действительно получше будет при нескольких параллельных запросах.
>>1521066 Да какое там придираюсь. Я поддерживаю от всей души. Но в датасет срать всё-таки не стоит. Нас ведь потом спарсят и эта зараза в тот же жпт протечёт.
Зависит от количества оперативы, видеокарта сейчас мало что решает. Без оперативы будешь крутить гемму и дристраль с остальными нищими. Ну может немотрон еще.
>>1521066 > vLLM действительно получше будет при нескольких параллельных запросах Ну оно эффективнее, но все сильно зависит от твоего железа. Если это некрота типа v100, то ты обречен катать сомнительные фп8 или ггуфы с процессингом в пару раз ниже чем на жоре. >>1521079 > Моэ не тюнят. Все по классике: ебут труп мистрали. Чтобы тюнить моэ нужно много врам, аренда дорогая. Чсх, с современными техниками там тренировка ускоряется также как инфиренс за счет снижения активных, но требования врам никуда не деваются. Кроме того сейчас выходящие модели шлифованы настолько, что орочий подход сделает только хуже. А готовить датасеты и оформлять аугментацию васяны не умеют.
>>1521079 >>1521337 Air вполне себе тюнят. Лично три разных пробовал (не считая аблитерации), один даже понравился больше оригинала, если для erp сценариев. По количеству тюнов с мистралем не сравнить конечно, но явление вполне себе имеет место быть. На квены 30-a3b тоже что-то выходило, но тех я сам не щупал.
>>1521355 Ну просто мистраль доступен, и там легче скрыть откровенный шмурдяк. Фактически там как таковых тюнов практически нет, это запекание лор и дальнейшие инцест мерджи с другими уже запеченными модельками. Это привлекает тем, что даже если ты сделал полную херь - легко ее замаскировать, и оформить можно на обычном десктопе. Хз только кто весь этот дамп потребляет, но раз есть предложение - есть и спрос. Из тюнов крупных моэ что приходят на ум - медквен, но там уже компания тренила а не рандомы, иногда NousResearch выкладывают содомиты запилили 3.5Т франкенштейна из кими и то в последнее время притихли. А так reap, расцензуроивания и прочее, что не требует значительных ресурсозатрат. Не последнюю роль играет еще скорость выхода новых баз. Нет смысла вкладываться в условный glm4.5-4.6-4.7 если через пару месяцев выходит новая версия.
>>1519220 >>1519232 >имперсонейт Вроде помогает Allow the user to describe what the protagonist {{user}} is doing, saying, thinking, and feeling without speaking or acting for them in any capacity. Enacting the protagonist {{user}} is permitted solely when advancing the scene forward, or describing the consequences of {{user}}'s actions. The characters in the world are to only understand and reply to spoken dialogue, narration, and the persona details of {{user}} that they can personally observe, and nothing else.
Тестировал создание клона flappy bird с авто-игрой на Python. RTX 4080 + 64 RAM. - локальный Qwen Coder Next Q4 обосрался с авто-игрой, птица тупо прыгает вверх. На попытках фикса модель жидко пукнула. - облачный MimiMax 2.5 от Cline справился хорошо, все работает. - облачный Gemeni 3 pro отлично справился, сделал более красивый интерфейс и птицу чем Minimax 2.5. Это я к чему? Сейчас похоже что не существует нормальных локальных моделей для кодинга. Qwen Coder Next больше подходит на роль помощника по синтаксису или мелким простым задачам. А то сейчас все пиздят: "ИИ то, ИИ сё". Нихуя. Хочешь создание прил одним промтом, плати шекели, только все равно придется дебажить.
Какой же всё же GLM-5 ахуенный в РП. По качеству писанины и консистентности истории даже Клода обходит, но при этом не зацензурен. Не лупится, не срывается в шизу, на промпт заебись реагирует. И самое главное без ризонинга работает нормально. Фактически лучшая модель для РП на текущий момент.
>>1521623 Сравнил мелкомодель в мелкокванте (для кода от Q6 надо брать а то и все Q8) с жирноквантном жирномодели через апи, где еще и бекендом реализованы всякие фичи, и пришел к великому умозаключению.
>>1521672 Не пизди. У меня ГЛМ 5 в не особо жестком сценарии пошла в отказ и предложила мне обратиться за психиатрической помощью. Причем это буквально был почти wholesome сценарий. Видимо при настоящей жести, она будет звонить в полицию как клод
>>1521623 Квен меньше Минимакса почти в 3 раза, а Минимакс меньше Гемини примерно в 3-4 раза также, но даже он будет сосать хуй. Если ты хочешь вайбкодить, то у тебя только один вариант - жопус. Но там подписка 100-200$ в месяц, но альтернатив ему нет И да, помимо того, что ты сравнил модели разных размер, но еще и заквантовал самую мелкую. Для точных задач очень важен квант. Q4 это кал. Используй Q6, он у тебя влезает.
>>1521623 > не существует нормальных локальных моделей для кодинга Для кодинга - существуют. Для дебаггинга, рефакторинга, кодревью, простеньких бойлерплейтов и отдельных классов. У меня 24 + 64, использую только локалки. Подозреваю, ты имел ввиду именно вайбкодинг, потому что с кодингом то что ты делаешь общего ничего не имеет.
>>1521715 Когда вместо того чтобы решать задачу как программист, человек идет к ЛЛМке и объясняет задачи на человеческом языке, чтобы ЛЛМка за него решила задачу. Популярное направление и огромный бустер ЛЛМок примерно с 2024 года.
А вот все эти люди спрашивающие про кодинг. Вы кто? Вы программисты? Или хотите быть программистами? Или условные математики и инженеры, программистами быть не хотите, но писать программы иногда приходится?
>>1521723 Если так интересно, то я прогоер и до эпохи нейронок отлично делал свою работу. Сейчас же, это просто дичайший буст. Я на новом уровне абстракции, мне нахуй не упёрлось писать рутинный код, это делай нейронка. А я потом, сажусь с чашечкой кофе, пробегают глазами по строчкам и точечно правлю. Потому что я знаю базу, знаю как это работает и как должно работать. Но так могут только жирные платные API, поэтому вот и ищу локальный аналог.
>>1521746 >А я потом, сажусь с чашечкой кофе Ты конечно понимаешь, что твою работу - требующую лишь точечной правки - довольно скоро отдадут ЛЛМ же. Готов ли ты к этому? Вот говорят рынок вывоза мусора в США оценивается в 10 миллиардов долларов и один программист примерно твоей квалификации уже вложился в подержанный мусоровоз... Правда Маск обещает вскорости 10 миллионов человекообразных роботов в год, но ещё не.
>>1521775 Лол. Шутишь чтоли? Нет. У меня например в месяц выходит что-то около генерации на 700кк-1ккк токенов. Хер они меня заменят. ЛЛМ без погромиста это говнодел. Погромист - реальный оператор умной коробки. Без погромиста это генератор слопа, а не генератор кода.
>>1521586 Пасеба. Но сдается у меня что то сломано. Я вчера весь вечер с неведомой целью пидорился с минимаксом, чтобы он хуярил пурпурную прозу, а не только >диалог >нарратив >диалог
В принципе, получилось. Он стал хуярить простыни на 2к токенов. Но он тоже ушел в имперсонейт. Да как так то блять
Но это было весело. Помимо скорости, мне доставил русский язык. Нет, серьезно. В плане великого и могучего, по первым впечатлениям он напихивает GLM за щеку. Лол. Но он тупой блять, просто пиздец. Сыпется на 64к контекста, может забыть что было в предыдущем сообщении. На Q4-Q5 лучше, но все равно говно. Короче, я сам для себя не могу решить какой он. Но, без ризонинга говно. С ризонингом сейфети во все поля. Если в карточке будет намек на NSFW он тебя нахуй шлет. При попытках простых jailbreak - пишет: чё, джейлбрейкнуть решил? Хуй тебе!
>>1521791 На 480b? Я им пользовался когда он был актуален. Он был хорош как генерализированная модель для программирования и делал это довольно неплохо. Плюс он на OR долгое время бесплатным висит, им было приятно пользоваться когда не хотелось тревожить платные API.
Но сейчас уже есть модели которые лучше него. Тот-же МиниМакс 2.5 прыгнул выше него.
>>1521775 Кстати вот кто реально не нужен будет так это джуны. Один нейропогромист в зависимости от скилла и обвязки легко делает сам то для чего ему раньше давали в рабство джунов. У нас по сути какое-то время будет расти пропасть, где в этой профессии просто не будет появляться новых кадров. Будет ситуация как с высококвалифицированными кадрами на заводах.
>>1521746 А мне очень не нравится. Я люблю писать код руками. Эта тварь неправильно именую переменные, не правильно ставит переносы строк, полностью игнорирует замечания по стилю и программа как лоскутное одеяло выглядит, а не как что-то в одном стиле написанное. Прям очень плохо 2/10. Максимум json ответ от сайта погоды распарсить. Хотя может быть в вебе получше, но в с++ просто лютый мусор.
>>1521536 Если что существует hf >>1521623 Некст с этим должен справляться. Или q4, или его недочинили еще, как раз раньше и было что модель справлялась только с начальным импульсом, а на изменениях и доработке начинала сыпаться и в итоге совсем ломалась. Он может не только саму такую игрушку, но и сделать на задних динамически обновляемых голых баб с бур оформить через апи. Причем, в отличии от прочих, согласится на любой запрос, не сказав что изображения потенциально небезопасны и поэтому их делать не будет. >>1521672 Да, он достаточно хорош, в отличии от прошлых меньше теряется и ощущается более осведомленным. Но стиль будто ушел в худшую сторону, много слопа, причем всяких квенизмов и возвращения древних шиверсов, министрейшнов и прочего. Не то чтобы существенный недостаток, но отмечается.
>>1521819 >не правильно ставит переносы строк, полностью игнорирует замечания по стилю У вас там линтеров ещё не придумали? >>1521821 Пятую версию никто не запускает и даже не качает, мусор же.
>>1521723 Разные люди спрашивают, кто-то просто энтузиаст, кто-то хочет научиться и что-то делать больше/быстрее чем сам может, кто-то уже скиловичок и хочет оптимизировать свою работу. Все те случаи что ты описал могут быть. >>1521746 > только жирные платные API, поэтому вот и ищу локальный аналог Проблема в том, что локальки тоже требуют скиллов для запуска и железа. А еще агентная работа с кодом требует высоких скоростей, там где корп с апи у тебя за минуту все посмотрит-обдумает-напишет и уже готов запускать тестировать, если твоя модель тихо попердывает на врам+рам, то там только на вызовы просмотра структуры и чтения может легко 15 минут уйти. А еще через 20 ты нахрен сгоришь из-за глупых синтаксических ошибок, вызванных нищеквантом. Уже здесь все может оборваться, когда модель застрянет в бесконечном цикле исправлений за собой же и уйдет в луп. >>1521801 > Тот-же МиниМакс 2.5 прыгнул выше него. Он и близко не рядом, даже чтобы суть требуемой задачи осознал нужно долго ему объяснять. Для чего-то простого годен, но это другой уровень.
>>1521808 А много ли каким моделям год? Ты вдумайся, R1 из популярных недавно год исполнился разве что.
Сейчас хороших ЛЛМ для программирования дохуя и каждая хороша в чём-то своём. Сейчас чуть ли не каждую неделю выходят очень сильные модели, притом сильные в какой-то своей области. Кто-то более самостоятельный, кто-то лучше интерфейсы делает, кто-то более глубоко анализирует сложный код.
Если раньше приходилось уповать на корпов, то сейчас вполне есть модели уровня Claude 4.5, или выше в каких-то своих областях.
С начала года вообще какой-то ад. Я натурально не успеваю пользоваться всем что выходит.
>>1521819 Мелочи вроде названия переменных, или переносов обычно просто руками исправляю, если мне это важно. Важен то функционал.
Но они пиздец как бустят производительность, если уметь пользоваться. Например у меня за прошедший год вырос на C# пет-проект на 160к строк кода нахуй. Сколько это в старых масштабах? Примерно человек на 10 проект. И он не рассыпается, там не так много технических долгов.
>>1521844 у него есть проблемы с архитектурой аттеншона, да. я даю ему задачи до ~64к токенов. но если 2.1 хотелось отпиздить тапком в морду, то 2.5 уже сильно самостоятельней и у него есть ось само-коррекции довольно сильная. Он уже попадает в прослойку в которой я пользовался квен кодером на 480b.
>>1521862 > у него есть проблемы с архитектурой аттеншона, да В каком смысле? Вроде норм работает, или ты про другое? Не пойми неправильно, минимакс 2.5 вообще няшечка и очень понравился. Просто он для другого, если кодер вывозит сложные абстракции, запросы, может точнее спланировать, то минимакс более поверхностный. Находит что-то похожее не заглубляясь и уже бежит делать полностью не выслушав. А если конкретно загрузить указаниями и провести беседу в начале - уже не вывозит и путается там, где 480 справляется. И еще с ним сложнее обсуждать всякие вещи, сначала слишком активной с тобой спорит, упуская важные вещи, а когда ему укажешь на это - ловит неуверенность и уже слишком активно соглашается вместо оспаривания и указания на нестыковки там где надо. Зато его самостоятельность хорошо проявляется в других задачах, для всяких агентных игрушек выглядит отлично, это подтверждается отзывами.
>>1521888 >В каком смысле? Вроде норм работает, или ты про другое? Про внимание к контексту который длинный. у него он быстрей растворяется в кашу. У него минимальная разница в результате если у него 128к контекста отрезать до 64к.
И ололо, разумеется в здравом уме можно не рассматривать модели без агентного лупа. То что 480b квен лучше в ваншотах - а не похуй ли? Да, он лучше справится с задачей за один присест. Минимакс просто справится лучше в итоге, так как он за два десятка циклов вызова инструмента пробежит через весь проект и в итоге интегрирует свой высер более качественно и он само-скорректирует свою писанину более активно.
То что квен лучше в обсуждении кода - йеп. Но ДЛЯ ОБСУЖДЕНИЯ кода у меня есть модели которые делают это лучше него.
Для ваншотов кода у меня тоже найдутся модели получше. В итоге у него просто не осталось ни одной сильной стороны.
>>1521775 >скоро отдадут ЛЛМ же Рассуждаешь как крестьянин, когда трактор увидел. Мол, как же так, кто же теперь поля пахать будет? Прогрес не стоит на месте, нужно адаптироваться. Если ты хороший программист, то с llm ты просто станешь архитектором программ ну или менеджером кода. В любом случае нужны будут человеческие мозги, которые под текущую ситуацию в компании/стране/мире будут генерировать задачи, которые потом будут llm выполнять.
>>1522149 Поскорей бы нейроинтерфейс. Я часто утыкаюсь в боттлнек в виде монитора и клавиатуры. Если мне прямо в башку будет транслироватся код, вместе с тем что ЛЛМ нашептывает, а я в его сторону флюиды "ведро с болтами что ты за говно написал, иди исправляй" то вот тогда заживём.
>>1522089 > разумеется в здравом уме можно не рассматривать модели без агентного лупа Только в них и рассматриваю, чат просто приятный бонус. Жирнокодеру можно поставить задачу, за пару сообщений убедиться что он понял нужное и махнуть рукой чтобы приступал. Если очень повезет то сразу достигнет нужного, в основном требуются вмешательства или уточнения по конечному результату, но достижимо. Причем в выполнении он прет как бульдозер, сначала заглядывая во множество файлов, потом выдавая огромные полотна кода, делая массовые правки. 4.7 жлем тоже ведет себя схожим образом. Минимаксу сложнее поставить задачу, и на тех же или аналогичных кейсах сыпется в середине, неверно трактуя ошибки выполнения и внося изменения не туда. Вскоре это накапливается как снежный ком и модель уже забывает об исходной цели, изрядно закопавшись и буксуя. В общем поведение тоже отличается - выполняет мелкие операции по очереди, смешивает написание и правки с чтением, понимает что поспешил и возвращается к прошлому коду чтобы переделать, в целом все более хаотично. Надо отдать должное что у него есть разумные механизмы остановки, и вместо бесконечного лупа он в один момент просто заявляет что задача невыполнима, но он может помочь с чем-то еще. > пробежит через весь проект и в итоге интегрирует свой высер более качественно Видимо, зависит от контента, претензии именно к этому. Вполне может быть что на качественных проектах и конкретных задачах он срабатывает лучше, но сомнительный код и внедрение больших изменений/далеко идущих планов его смущают.
Алсо, нельзя не порофлить с одинаковых датасетов. И кодер, и минимакс, и жлм, и жемини - буквально все допускают одинаковые ошибки. Например, пытаются оформить safetensors.torch.save_file в bytesio чтобы вернуть. И все, вместо того чтобы осознать абсурдность операции и сразу использовать .save и записать уже полученные байты, одинаково городят костыли то через временные файлы, то через обычный торч и прочее.
>>1522089 А ты в чем его используешь вообще? Может не те тулзы и промптопроблемы, на квен/клод-cli когда основная движуха начинается контекста уже за 90к занято, как раз ложится на твои слова по объему.
>>1522149 >В любом случае нужны будут человеческие мозги Ну в общем-то нет. Любая текстовая задача теоретически может быть автоматизированна ЛЛМ, так что...
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: