Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №203 /llama/

>>1544783 →
>DavidAU

Аноним 07/03/26 Суб 15:57:53 #3 №1544804

ну что поделать он вернулся, потому без базы треда
напишу разве что дежурное жизнь есть от 3bpw
все модели умницы, если вы не согласны то у вас скилишью и рак жопы

Аноним 07/03/26 Суб 16:01:48 #4 №1544809

>>1544803 →
На первом охуенчик, проорал и схоронил. ушёл в третий коридор

Аноним 07/03/26 Суб 16:15:41 #5 №1544822

>>1544709 →
>Почему не еретик?
normpreserve это не "для нормисов", это тоже анцензор, причём хороший, настолько что даже не заметна разница в мозгах там где именно "нормисовский" контент, но при этом в куме и чернухе тоже в отказ не идёт и всё по красоте пишет.

Аноним 07/03/26 Суб 16:20:14 #6 №1544824

>>1544822
Заставить анценз модель сказать слово хуй это не чернуха, чел. Впрочем, я никогда никого ни в чём не убеждал и не навязывал. Гоняй то, что тебе нравится, я не против. Я от геммы тоже добивался вполне хороших результатов, вполне хорошая модель. Но мне не нравится, как она пишет тексты.

Аноним 07/03/26 Суб 16:23:52 #7 №1544825

>>1544796 (OP)
Перекатчик случайные картинки с тырнетов берет, или он так вычистил свою клаву перед заливом?

Аноним 07/03/26 Суб 16:27:24 #8 №1544827

>>1544799
поясните пжлст что не так с давидом?
>мимоанслотник-мрадермахерист

Аноним 07/03/26 Суб 16:27:48 #9 №1544828

>>1544803 →
>Ну ... кому-то может даже зайдет такое :)
Лол, от такого можно урон по рассудку получить, лавкрафтиана отдыхает.

Аноним 07/03/26 Суб 16:30:32 #10 №1544832

>>1544824
Дак будет ссылка на твой любимый квен, или зажопишь как пресетик?

Аноним 07/03/26 Суб 16:33:51 #11 №1544836

>>1544827
>что не так с давидом
Ну, все его модели сломанные шизохрени, но, что, сука, характерно, они иногда получаются правильно и интересно сломанные, и гонят связную дичь от которой волосы на жопе встают дыбом. Ну, анценз и кум в комплекте. Одно из его старых творений - MN-Dark-Horror-The-Cliffhanger-18.5B-D_AU-Q8_0 у меня до сих пор лежит.

Аноним 07/03/26 Суб 16:59:13 #12 №1544854

Какая хорошая модель для русского кобольда ?
Вот эта хорошая https://huggingface.co/zai-org/GLM-5 ?

Аноним 07/03/26 Суб 17:08:09 #13 №1544859

>>1544854
Зависит от того какая у кобольда пекарня в пещере.

Аноним 07/03/26 Суб 17:14:22 #14 №1544864

>>1544859
Ну памяти достаточно я пару игр удалил сейчас вот качаю https://huggingface.co/zai-org/GLM-5
Она нормальная для русского кобольда ?
Я просто только вчера установил, по совету из шапки там СайГа Ремикс. Начал с Серафимой общатся, она сказала по русски плохо понимает потому общались на английском. Но он у меня очень приметивный. Потом в какой-то момент она начала говорить только по 57 токенов, я по совету опытного который мне ответил проверил все но не помогло. Вот думаю что больно старая эта СайГа Ремикс уже, может она у всех такая но никто ее кобольду не подключает ?

Аноним 07/03/26 Суб 17:20:27 #15 №1544868

>>1544825
ОП берёт картинки из треда. А уж что в тред постят, это на совести анонов.
>>1544864
>Но он у меня очень приметивный.
Русский у тебя тоже преметивный.

Аноним 07/03/26 Суб 17:22:43 #16 №1544870

>>1544864
Ха-ха, то ли жирно троллишь, то ли не очень разбираешься. Этот Глэм ты не запустишь если только нет своего рига на полкомнаты, а если бы был, то такие вопросы не задавал бы.

Лучше возьми Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K для начала.

Аноним 07/03/26 Суб 17:36:36 #17 №1544877

>>1544697 →
> почти всего треда фи и фуфуфу от минимакса
Тому что хорошая но узконаправленная модель. После всех перепердолингов получаемый результат для рп может не оправдать усилий. А может и оправдать, или просто особенности ляжут на конкретные чаты и субъективность.
>>1544854
Да, вполне годная штука. Хз насчет кума по сравнению с прошлыми, но смешанный рп в нем очень даже шагнул вперед.
Только ты ее врядли запустишь.

Аноним 07/03/26 Суб 17:41:43 #18 №1544881

>>1544864
Перетолстил.

Аноним 07/03/26 Суб 17:58:09 #19 №1544894

>>1544698 →
Зачем ты продолжаешь советовать и рекламить степу если сам же пишешь что им невозможно пользоваться без шизоразметки которой ты не делишься?
Чтобы что?

Аноним 07/03/26 Суб 18:03:53 #20 №1544895

>>1544870
>Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K
но зачем? Министраль и так без тормозов, куда ей ересь? Ей бы прозы какой-нибудь плотненькой, описательной, да на русском языке, про роботов, про тентаклей, про лафкрафта в датасетик.

Аноним 07/03/26 Суб 18:19:33 #21 №1544912

>>1544894

Аноним 07/03/26 Суб 18:29:21 #22 №1544919

>>1544912
>слив
Думайте сами.

Аноним 07/03/26 Суб 18:33:49 #23 №1544923

>>1544870
>>1544877
Вот я дурак, а думал-то что надо чтобы модель на диске была. А оно вон как. Буду разбираться... Там на ютубе даже русские видосы есть. Пошел смотреть. За рекомендацию Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K спасибо !
Запустилась, вроде бы получше СайГи Ремикс.

Аноним 07/03/26 Суб 18:52:06 #24 №1544945

>>1544944
Разметка у Лламы поехала. Что же это такое творится то посредь бела дня

Аноним 07/03/26 Суб 19:00:17 #25 №1544949

>>1544945
Это автопарсер замержили
https://github.com/ggml-org/llama.cpp/pull/18675

страдайте теперь

Аноним 07/03/26 Суб 19:05:37 #26 №1544952

>>1544949
Страдай с нами. Или это ты Ламу выпустил погулять?

Аноним 07/03/26 Суб 19:05:55 #27 №1544954

>>1544919
Забей. Там весь диалог максимально странный. Аноны сидят пердят, всякую хуйню обсуждают и тут хуяк: ага, стёпу обсуждаете. Чё блять? Потом какой то театр самоотсоса. Не знаю, выглядит как семенство.

Аноним 07/03/26 Суб 19:10:33 #28 №1544958

>>1544954
там был срач за степ флеша, его протерли, а дальнейшее обсуждение нет
первый раз?

Аноним 07/03/26 Суб 19:20:20 #29 №1544965

>>1544954
>какой то театр самоотсоса. Не знаю, выглядит как семенство
Два анона пообщались друг с другом как нормальные двуногие, не плюнув друг другу в рожу и не выебав чью-нибудь мать. На двачах. Трудно поверить, да?
>>1544958
И правда, лол. Видимо за переход на личности потёрли

Аноним 07/03/26 Суб 19:39:55 #30 №1544980

>>1544952
У меня вроде не проявилось пока. А так если что - можно отмотать на два дня назад, b8210 например

Аноним 07/03/26 Суб 19:53:49 #31 №1544987

>>1544894
Он буквально скрин этой разметки выложил, ты шо, слепошарый?

Аноним 07/03/26 Суб 20:14:52 #32 №1545001

>>1544434 →
> Попробую позже.
Если на диске уже есть скачанный на релизе квант - можно смело удалять. Еще на большом иногда случались странные качели по повествованию, проскакивали иероглифы посреди английского текста (с расшифровой в скобках потом, лол), странности в ризонинге. Это все следствие как минимум кривого кванта анслотов, потому что в заведомо нормальных такого и близко нет. По первым ощущениям отличия не столь разительны как на 122, где буквально другая модель, но ни одного из тех косяков нет. Есть шанс что 374 в рп очень даже ебет, а не ситуативен или ум оплачивается ожиданием ризонинга.

Оказывается они вообще для всей линейки включая большого кванты перезалили, возможно уже поправлено.

Аноним 07/03/26 Суб 22:35:47 #33 №1545102

>>1544825
Это моя фотка - не бубни! Люблю чистоту! Чистота - залог здоровья!

Аноним 07/03/26 Суб 22:57:29 #34 №1545109

>>1545102
Жопу помыл?

Аноним 08/03/26 Вск 00:26:43 #35 №1545162

Ононы, как там квен 35б-а3б по сравнению с 27б? Насколько там хуже проза и всё, что важно для РП?

Аноним 08/03/26 Вск 00:56:58 #36 №1545170

serun.jpg

Жора срет какой-то хуйней в консоли на последней версии (b8233) на глм флэше, другие модели не проверял.

Аноним 08/03/26 Вск 01:03:33 #37 №1545173

>>1544827
Он ебнутый шиз. В хорошем смысле, наверно. Но он срет странными мержами и файнтюнами в бесконечном количестве. Его работы на 99% это полный пиздец. И 1% - это что-то очень свежее и прикольное. Его описания моделей, если они есть, это полная дичь из разряда ДИП БРЕЙН БУСТ МЕГА 9000. Его история с классами моделей - тоже полный бред. В общем, это какой-то вайлдкард, у которого есть бабки на файнтюны непонятно с хуя. Аутист, который делает это чисто по приколу. Chaotic neutral. Mega chaotic neutral.

Аноним 08/03/26 Вск 04:56:04 #38 №1545263

Утра всем.
Как и чем правильно открывать подобные модели? https://huggingface.co/zai-org/GLM-4.5-Air/tree/main

Аноним 08/03/26 Вск 06:47:51 #39 №1545293

>>1545263

https://2ch-ai.github.io/wiki/llama/#лаунчеры

Аноним 08/03/26 Вск 07:03:50 #40 №1545301

>>1545102
да я просто удивлен, впервые такую чистую клаву вижу. Просто апплодирую.

Аноним 08/03/26 Вск 07:20:53 #41 №1545304

Какой же жора говнодел, блядь, квен уже почти месяц как выпустили, а баг с постоянным репроцессингом контекста так и не починен.

Аноним 08/03/26 Вск 07:57:53 #42 №1545320

>>1545304
Тиво? Всё работает. Правда, на лламе чёт очень медленно по тс и пп, хоть и репроцессинга нет, а вот сейчас в коболдянского завезли какой-то костыль и скорость АГОНЬ. Почему такая разница — не знаю. Попробуй его. Смарт кэш в какой-то вкладке.

В ламме были чекпоинты и ещё какие-то функции, уже не помню, я их юзал сразу после того выкатили эти новые квены и обновы для лламы, но с ними всегда падение скорости было очень существенное.

Впрочем.. какую модель ты пытаешься запустить? Тот же квен 80б вроде бы до сих пор мозги ебёт.

Аноним 08/03/26 Вск 08:34:05 #43 №1545331

>>1545320
>акую модель ты пытаешься запустить

квен3.5 - 9B для перевода книги. Постоянный репроцессинг контекста в этой задаче это просто пиздец.

Аноним 08/03/26 Вск 09:53:13 #44 №1545351

Как правильно работать с силли таверна и кобольд. Сейчас я, например ,контекст, его сжатие и подобные мелочи настраиваю через кболдьа, а в таверне промты, картчоки и т.д.

Аноним 08/03/26 Вск 09:59:16 #45 №1545354

>>1545351
проще управлять всем через таверну, но емнип, максимальную ширину контекста изначально надо выставлять в кобольде, а в таверне выставлять такую же или меньше (в зависимости от целей)

Аноним 08/03/26 Вск 10:47:36 #46 №1545373

Тут кто-то в прошлом треде принес: https://github.com/tealios/errata

Первое - ему спасибо, забавная штука.

Второе - предупреждаю: если там с локальной моделью "однокнопочно" пытаться все сделать - будет дикое разочарование скорее всего. Я тут ее с Qwen 3.5 27B попробовал. И насколько мне квен зашел в RP с моими настройками таверны, настолько же здесь он порет унылую слопную хрень на дефолтных настройках. Хорошо, я знаю - он может совсем иначе. А то сейчас бы уже, наверно, говном кидался не хуже остальных здешних чемпионов по этому делу. :)

Порылся в настройках, докопался до внутренних промптов... В общем да, они явно под корпов писаны, такое точно надо править под локалки, а тем более под квен. И такая возможность тут есть... но минусом здесь то, что такие настройки привязаны к проекту (в проекте может быть рассказ или серия - с общим миром и данными). С одной стороны - гибкость, а с другой - задолбает, наверное, под каждый проект заново править.

Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ. Мне то повезло - я просто запустил его на своих рабочих детальных промптах и WI от геммы с air, и получил сразу годный вывод. А если запустить на пустом контексте с дефолтом... ух и generic слопогенератор получается.
Только сами промпты не просите - там нет ничего магического. Просто обычный подробный промпт с описанием желаемого поведения DM (здесь переделан под writer) под личные вкусы и лор сеттинга, суммарно на 2-4K токенов (Именно это ключевое - непротиворечивый объем начальных данных). Квен просто хорошо ему следует, вот и вся мистика. Специально проверил на нескольких разных версиях для разных тем.

Аноним 08/03/26 Вск 10:50:51 #47 №1545377

>>1545293
Я бы не задавал подобных вопросов, если бы не прочитал все это. Там нихуя нет гайда, как это запускать и спользовать.

Аноним 08/03/26 Вск 11:06:36 #48 №1545381

>>1545377
Вот кому ты пиздишь? Ты даже не пробовал.

Аноним 08/03/26 Вск 11:20:28 #49 №1545386

>>1545373
>Теперь хорошо понял квен-хейтеров с мнением, что новые квены УГ
Новые квены УГ не потому что пишут плохо. Это всё можно распердолить и не так страшно. Говно они вот почему:

1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности.
2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается.
3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный.
4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо? В мистралях он тоже легкий, но ничего не пересчитывается по кд.

По отдельности с этим можно было бы мириться, но всё в совокупности делает модель тем самым УГ. Для себя не увидел в ней какого-то смысла при наличии эйра в Q4 и 235b квена в Q2.

Аноним 08/03/26 Вск 11:36:13 #50 №1545393

>>1545386
У меня:
1, 3 - не наблюдается. Расцензуренная версия от двучена. Мозги, вроде, вполне на месте, агенты с ней работают, ничего не теряется. Ризонинг в пределах 1K - на серьезных вопросах (см ниже) - терпимо т.к. по делу.
2 - пустыми think не срет, а ризонинг включает только на сложных вопросах, а не когда надо ответить на что-то вроде "привет, как дела?", выглядит вполне по делу.
4 - нету у меня пересчета контекста. Бекэнд - llama собраная неделю назад. Прекрасно все кешируется.

Аноним 08/03/26 Вск 11:41:15 #51 №1545396

https://github.com/AlexsJones/llmfit?tab=readme-ov-file

Утилита для тех кто не знает какая модель заведется на пека + подбор параметров

Аноним 08/03/26 Вск 11:45:27 #52 №1545398

>>1545386
Ну енто скилишью, у меня никаких проблем нет кроме того что квен как был сухой слегка пережаренной какашкой так и остался

Аноним 08/03/26 Вск 11:46:01 #53 №1545399

>>1545393
кстати о агентах, Какую версию лучше впихнуть на 16Гб врам для плотной 27B для котинга?

i1-IQ3_XXS (я качал для кума в основном) или IQ4_XS или еще какой то вариант?

Аноним 08/03/26 Вск 11:52:41 #54 №1545410

>>1545399
>на 16Гб врам для плотной 27B
Купить еще 16Гб VRAM.

Аноним 08/03/26 Вск 12:02:12 #55 №1545419

>>1545399
>16Гб
>Q3
>XX
>S
Проиграл чёт.

Аноним 08/03/26 Вск 12:30:14 #56 №1545429

>>1545399
>i1-IQ3_XXS
Каждая буковка i хуярят по русику, если что
>(я качал для кума в основном)
Не понимаю, почему для кума ты качал микроквант, если можешь скачать больше. У меня 16гб я использую IQ4XS спокойно
Для агентских я бы использовал мое, например их 35a3b. Там даже с большим контекстом будет быстро

Аноним 08/03/26 Вск 12:39:45 #57 №1545434

>>1545399
У меня iq4xs от двучлена, но кодинг с ней я не пробовал. Агенты/инструменты - работают, для этого ее хватает. Но у меня 20GB VRAM а не 16.

Аноним 08/03/26 Вск 12:52:53 #58 №1545440

>>1545399
Не, ну серьезно - 5060 TI как была так и осталась в цене по 55к . Жрет при инфиренсе ЛЛМ не больше 150 ватт, может быть запитана даже через переходник от молексов. Греется умеренно. Нет никаких системных проблем поставить ее второй картой и иметь полноценную генерацию плотных до 35B и при наличии оперативы - moe до 110 Б. Это не РИГ собирать за пол ляма - тупо пошел -купил -наслаждаешься. Две карты так же дают простор одновременной генерации текст + картинка.

Квантование ниже Q4K_M реально убивает мозги ЛЛМ даже на размерах в 100Б - проверено на Air. А ты тем более вошел во вкус и хочешь "агентский цикл"

Аноним 08/03/26 Вск 13:01:04 #59 №1545448

>>1545440
Я думал о второй карте, но есть одно но, я её буду использовать в egpu с тандерболтом (TH3P4G3, едет пока). Я пока не нашел вариантов на 2 видяхи в один порт, может плохо искал

Аноним 08/03/26 Вск 13:02:48 #60 №1545451

>>1545440
> 5060 TI
Как думаете в связке с 3090? У меня просто место физически в корпусе нет из-за ебаного стола, куда большй корпус не влезет. А как снаружи монстрячить хз.

Аноним 08/03/26 Вск 13:09:53 #61 №1545456

>>1545440
>осталась в цене по 55к
Не, она дешевле. 50к примерно или чуть меньше. В моменте до 42 уходила. И да, это 16гб
>>1545451
В 2 раза медленнее память, несмотря на то, что более новая

Аноним 08/03/26 Вск 13:17:19 #62 №1545459

>>1545448
да и когда подрублю к ноуту по тандерболту, то у меня еще будет 3060 6гб на ноуте (правда ноут греться будет, это я не особо люблю)

Краткий гугл говорит что 2+ видяхи через тандерболт работают только для интелов 12+ поколения, а у меня ноут на 11 поколении.

https://egpu.io/forums/thunderbolt-enclosures/connecting-multiple-egpus-to-a-thunderbolt-4-pc-using-a-thunderbolt-4-hub-dock/

Аноним 08/03/26 Вск 13:24:41 #63 №1545466

>>1545451
>в связке с 3090
Думаю заебись. Комп окончательно не станет печкой + нет шансов попасть на ужаренное майнингом говно если покупать БУ 3090

>>1545456
Похуй на медленную шину памяти т.к. и памяти меньше чем в 3090. И при инфиренсе на 2-х картах там уже тормоза от PCI будут больше, чем от внутрикарточных трансферов. Плюсом идут фишки новой архитектуры, меньший размер, меньшие требования по питанию и охлаждению.

Аноним 08/03/26 Вск 13:31:35 #64 №1545477

>>1545451
> А как снаружи монстрячить хз.
Продаются кабели удлинители

>>1545466
Я когда покупал 5060ti, сравнивал её с 5070ti. Шина памяти в 2 раза быстрее, скорость инференса тоже в 2 раза быстрее но и цена тоже в 2 раза больше и тепловыделении скорее всего тоже больше. меня скорость 5060ti сейчас полностью устраивает и греется не очень сильно, выше 70 не поднимается.

Аноним 08/03/26 Вск 13:33:45 #65 №1545481

>>1545459
>у меня еще будет 3060 6гб на ноуте
Я б не рассчитывал - ты убьешь перегревом ноут, а особого выигрыша от 6Гб VRAM не получишь. Можешь даже и потерять - ноутбучная 3060 будет самым медленным звеном в системе и пока она будет пердеть все остальные будут ее ждать.

Аноним 08/03/26 Вск 13:37:53 #66 №1545485

>>1544796 (OP)
По чем итт-господа брали ми50 32г? На алике в диапазоне 35-40к есть, дорого?

Аноним 08/03/26 Вск 13:41:22 #67 №1545489

>>1545481
поэтому и жду егпу. еще альтернатива - собрать некро-микропк на несколько слотов, но память выходит дороже видях и остальных комплектующих и поэтому пока отложил эту затею.

Аноним 08/03/26 Вск 13:47:09 #68 №1545499

>>1545485
Это цена в100 уже. Хз имеет ли их смысл дороже 20 брать. По 10-12 был топ под пердол

Аноним 08/03/26 Вск 13:50:12 #69 №1545505

>>1545381
Значит я слепошарый, потому что я этого не нашел.

Аноним 08/03/26 Вск 13:53:33 #70 №1545510

>>1545477
>скорость 5060ti сейчас полностью устраивает
Аналогично. 4060ti + 5060ti - скорости полностью устраивают. 27 Гемма и Квен в пределах 12-15 т.с. генерация, 500 т.с. процессинг. Контекста влезает 100k+ . В толстых мое скорости все равно упираются в RAM

Аноним 08/03/26 Вск 13:54:07 #71 №1545511

>>1545485
За 40к они и на авите есть. И в100 за 50к. И 2080ти 22гб за 30к.

Аноним 08/03/26 Вск 14:27:12 #72 №1545547

Аноны, кто-нибудь заказывал с таобао? Как это вообще делать? Нужное железо оказалось только там.

>>1545511
в100 30к, 4к плата, 1к провода к ней.

Аноним 08/03/26 Вск 14:31:15 #73 №1545550

>>1545547
>можно подробный гайд как с табао заказывать?
1. регаешь загран нового типа
2. регаешь китайский алипэй (нужен загран и телефон с nfc)
3. регаешь таобао акк (сразу через настройки поставь пароль т.к. не всегда приходят смс)
4. регаешь акк на youcanbuy (или у другого пересыла, но я юзаю его)
5. на тао забиваешь адрес по инструкции с юкб
6. наваливаешь чего нужно в корзину
7. пополняешь алипэй через кого то (через мужика с форума юкб делаю, 300+к уже через него провёл)
8. заказываешь на тао
9. когда всё пришло на юкб там собираешь посылку (не забудь выбрать наложенный платёж а то придётся в саппорт писать, карточки то отвалились)
10. ждёшь
Редакция от 12.04.2024, больше инфы можно найти в /pvc

Сейчас есть изменений но не фундаментальные

Аноним 08/03/26 Вск 14:41:02 #74 №1545555

>>1545547
>в100 30к, 4к плата, 1к провода к ней.
Это не на алике и не на авите.

Аноним 08/03/26 Вск 14:43:01 #75 №1545557

>>1545550
Спасибо огромное!
>>1545555
Именно на алике. 2 месяца назад так брал.

Аноним 08/03/26 Вск 14:45:10 #76 №1545558

>>1545557
Как те аноны, которые лифтовой плк и дохлую картонку на руки получили от забаненного магаза? Тут счет на недели идет, нет уже цен таких.

Аноним 08/03/26 Вск 14:49:49 #77 №1545560

photo2026-03-0723-39-27.jpg

>>1545558
Да как так, я же по 30к с небольшим брал у них...

Аноним 08/03/26 Вск 15:08:58 #78 №1545578

>>1545386
> 1)
Инфиренсопроблемы, битый или лоботомированный квант
> 2)
Инфиренсопроблемы, модель работает в двух режимах и предполагает конкретный темплейт для каждого, а не отсутствие префиксов с рандомайзером семплерами.
> 3)
Пункт 1 или шизопромпты
> 4)
Инфиренсопроблемы. Если юзаешь жору - накати свежие коммиты и не ставь припезднутые параметры запуска.

Что-то вышло ультимейт кобольдскиллишью-бинго.

Аноним 08/03/26 Вск 15:26:46 #79 №1545596

>>1545399
Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено.
По личному опыту, работает лучше, чем бесплатный дипсик.
Но на дико сложных задачах и длинных контекстах не тестил.

Аноним 08/03/26 Вск 15:36:03 #80 №1545603

>>1545596
Интересно как 122б мое в сравнении с 27 плотной. Только не тащите юзлес бенчи. Тестил кто сам?

Аноним 08/03/26 Вск 15:48:07 #81 №1545614

>>1545596
>Несколько скриптиков на питоне просил генерить квен 27б, квант iq4xs, хорошо справляется. Запускается с первого раза. Бывают баги в плане что не предусмотрел какие-то менее очевидные кейсы, один запрос - и все пофикшено.
Флоппи-берд на 8086 дается крайне тяжело, я сдался роллить. Квен вроде бы и понимает что это такое, и частые паттерны оптимизации еа платформе, и как флоппи берд в целом работает, но попытки замесить это в единую концепцию на чистой сишке проваливаются. Квен молотит типовой подход с перерисовкой всего экрана, при этом подмешивает dirty tracking в итоге игра еле ворочается и с кучей глитчей. С другой стороны, если подумать - даже работоспособный код, собранный с дополнительным анализом выебонов конкретного компилятора, для модели такого размера очень даже ничего. Реверс инжиниринг старого видеобиоса тоже ни рыба ни мясо, хотя тулзы и базовые принципы реверса знает.
В сухом остатке уровень модели: джун на третий день после трудоустройства, немного разобрался, но какие-то архитектурные решения и контроль деталей все еще никакой. До клода далеко, но скриптики и какие-то локальные правки проекта пилить в фоне пойдет, и судя по всему будет моей основной моделью до следующего отрывного релиза.
мимо на ud-q6-k-xl

Аноним 08/03/26 Вск 15:58:45 #82 №1545619

>>1545614
> 8086
Это что? 80б кодер Некст?

Аноним 08/03/26 Вск 16:01:50 #83 №1545621

>>1545619
https://ru.wikipedia.org/wiki/Intel_8086

Аноним 08/03/26 Вск 16:42:23 #84 №1545645

>>1545596
>>1545429

Спасибо, перекачиваю кванты.
Я тут покопался в файнтюнах, свежачок подъехал https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

Качаю потыкать

>>1545614
тут имхо нужно еще придумать как подсовывать модели актуальные знания и при этом не засорять контекст.

Аноним 08/03/26 Вск 16:48:24 #85 №1545648

>>1545603
На свежих квантах анслотов еще не сравнивал. На 4 квантах Бартовский по ощущениям - 27 более четкая и активная чем 122. 122 как то более "на отъебись" работает, что ли. По крайней мере в стандартных бизнес-задачах. Как там в чем-то специализированном проявляется больший объём знаний 122 модели пока не понял.

Аноним 08/03/26 Вск 16:53:28 #86 №1545653

>>1545645
> подсовывать модели актуальные знания
Там из актуальных знаний - ток блокнотик с перечнем моментов конкретного компилятора, составленный в предыдущих раундах. "Цепкость" модели низкая, каждый хак нужно прописывать явно. Взять тот же биос, он был немного попячен - квен не осилил, но я потом мотнул в середину бинаря и оказалось что он в формате dual chip interleave (каждый четный байт идет с середины бинаря). Чисто на логику задачка небольшая.

Аноним 08/03/26 Вск 21:31:52 #87 №1545840

Че, нам только китаекалки жрать теперь? Где там новая гемма 4, коммандер а2, мистрали средние плотные? Че один моемусор, который тупее 3.5 турбы, выходит?

Аноним 08/03/26 Вск 21:37:48 #88 №1545844

>>1545840
Хорус пидор все испортил

Аноним 08/03/26 Вск 21:56:00 #89 №1545855

>>1545840
если выпускать умные маленькие локальные модели то кто будет покупать подписки?

Аноним 08/03/26 Вск 22:11:30 #90 №1545864

>>1545855
Те кто хочешь километры контекста? Нейросети так-то рабочий инструмент, юзаемый писателями, сценаристами и прочими творчеблядьми.

Аноним 08/03/26 Вск 22:16:19 #91 №1545866

>>1545864
> юзаемый писателями, сценаристами и прочими творчеблядьми.
Не используют. Пейсатели вообще могут на WordStar 4.0 сидеть. Плюс, неизвестно, что с авторскими правами - ни один издатель не примет книгу, если в её создании применялся лоботомит, даже если непосредственно проза не генерировалась, так как любой высер с хоть какими-то следами от сетки улетает в public domain.

Аноним 08/03/26 Вск 22:20:36 #92 №1545871

>>1545866
Ты слишком высокого мнения о современной литературе, анончик.

Аноним 08/03/26 Вск 22:26:03 #93 №1545873

>>1545871
А что, долбоебы покупают "книги", в которых полно запаха озона, Элар и Каэлов, шепчущих лесов, докторов Эйрисов Торн, мистеров Хендерсонов и прочего слопа? Это же говно, место которому в печке или подпирать дверь в сортире. Хотя, так было и до нейронок, когда 95% книг это говнище. Сейчас это число стало 99%.

Аноним 08/03/26 Вск 22:29:53 #94 №1545878

>>1545873
>А что, долбоебы покупают "книги"
Слоп был всегда, просто раньше он был честной бесталанной отсебятиной или банальным воровством. Теперь стало можно генерить всё то же самое силами нейронок. Спрос как был, так и остался.

Аноним 08/03/26 Вск 23:01:48 #95 №1545906

У меня кобольд сожрал деда
Сижу в ахуе

Аноним 08/03/26 Вск 23:02:13 #96 №1545907

>>1545840
Да вот, новую гемму уже заждались. Сейчас в основном только у Великого Кси остался нефритовый стержень достаточного размера чтобы выпускать
>>1545864
Километры контекста подразумевают наличие мозгов чтобы с ним как-то работать, а не просто воспроизводить примерно подходящий кусок из него. Именно сторитейлинг и подобное является наиболее сложными задачами, потому что требует учета сразу множества факторов, точного понимания и логики.
>>1545866
Ты вообще штампуемую литературу давно видел? Нейролоп и логические ошибки тупых ллм отдыхают.

Аноним 08/03/26 Вск 23:08:19 #97 №1545909

.png

.webp

>>1545906
У меня от кобольда брат умер!

Аноним 08/03/26 Вск 23:49:35 #98 №1545936

.jpg

>>1545907
Кекнул с твоей наивности. Ты поди поредж, раз не знаешь, каким был книжный мир в девяностых и ранних нулевых. Какого пиздеца там только не было, вплоть до оглавлений на английском оставшихся от оригинала. Кто-то явно проваливал чек на ризонинг. Тем не менее, покупали. И даже в десятые всё ещё покупали подобный мусор. И сейчас в книжных полки ломятся от подобного.
Ну а если говорить про людей уже набивших руку, то им лишь дай текст и они его отредачат за сутки. И можно печатать. Всего сутки работы, вместо недель или месяцев.

Аноним 09/03/26 Пнд 00:17:03 #99 №1545959

>>1545936
Сорян, не настолько скуфидон. Но отголоски этого "наследия сралкера" видел, буквально шизоидные филлеры и фанфики.
Что сказать то хотел? Зашел с выебонов и тутже согласился.

Аноним 09/03/26 Пнд 00:24:41 #100 №1545965

>>1545959
В кого зашёл?

Аноним 09/03/26 Пнд 02:03:20 #101 №1546032

1750107695616.png

1625455965739.png

1752840911588.png

Квад ми50 атлант встал на ноги (в прямом смысле сделал ему дно и ножки). Обновил ему вллм до 0,12,0 и теперь на 0 контексте в один поток 43 попугая в awq гемме3 27. Норм бенчи и табличку позже сведу.
На 0,11,0 в этом же кейсе было 21 тпс

розетка 1 - общий жор
розетка 2 и 3 - блоки видеокарт по 2 шт

Аноним 09/03/26 Пнд 02:13:17 #102 №1546034

Сейчас запустил мистраль 24б (долгое время сидел на гемме, потом на толстых МоЕ/корпах, иногда на гемме). И это просто пиздец. Какой же мистраль тупой по сравнению с квеном 27б, это просто ахуй. Затем я запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза. Как будто бы все инструкции игнорируются полностью. А девстраль/магистраль и прочие вариации настолько сухие, что ну их нахуй.

Аноним 09/03/26 Пнд 02:20:42 #103 №1546041

>>1546034
После квена всё будет тупым казаться.

Аноним 09/03/26 Пнд 02:35:59 #104 №1546049

>>1546034
Попробуй этот тюн - https://huggingface.co/mradermacher/Magidonia-24B-v4.3-i1-GGUF
я на Q4_K_M сижу. скорость генерации Generate:22.61s (40.78T/s),
настройки прикладываю https://dropmefiles.com/jl1sx

Аноним 09/03/26 Пнд 03:25:21 #105 №1546061

>>1546049
В художественный текст умеет? Красиво пишет?

Аноним 09/03/26 Пнд 03:48:30 #106 №1546067

>>1546032
По чем карты брал?

Аноним 09/03/26 Пнд 04:07:24 #107 №1546071

1682367157993.png

>>1546067
В прошлом треде BOM кидал. В среднем 12+1к вышло

Аноним 09/03/26 Пнд 04:26:54 #108 №1546076

>>1546049
Пользовался. Да, ризонингом соблюдение инструкций можно контролировать хоть как-то, но всё равно ёбаное мучение, а ещё там соя пролилась, потому что нет аблитерации или еретика.

Аноним 09/03/26 Пнд 05:47:14 #109 №1546084

>>1546034
>девстраль
девсраль ващет для кода
>запустил мистраль 12б и даже не вижу разницы между 12б и 24б с первого раза.
как будто у тебя какие-то тупые шизомерджи, всратые семплеры или ты пытаешься с ними ролить на русском (в который они не хотят/не могут). Или всевместевзятое. В ориге разница между немо и смаллом в разы по мозгам.
Но да, замечу, что самому 24б не зашла вообще, да я и не пытался ее особо распробовать...

мимо министраль14б-енжоер

Аноним 09/03/26 Пнд 06:52:51 #110 №1546091

>>1546049
>Попробуй этот тюн
https://huggingface.co/Naphula/GhostFace-24B-v1

Аноним 09/03/26 Пнд 07:26:42 #111 №1546096

>>1545840
>Че, нам только китаекалки жрать теперь?
Локалки были чем-то вроде "позабавилась и хватит" для многих контор. Кто-то набивал руку, кто-то тупо искал инвестиции, кто-то пытался продаться. Китайцы не исключение. Чем дальше, тем меньше будет и тех и других. Да и банальное - зачем стрелять себе в хуй и лишаться прибыли с подписок, оно тоже, да.

Аноним 09/03/26 Пнд 07:56:50 #112 №1546101

>>1546096
Вот только непонятно, кто захочет жрать говно за деньги. Взять ту же кими. 1Т параметров, минимальная стоимость подписки 30 баксов, качество хуевое, сосет даже у чат гпт.

То есть в теории та же кими выебет гпт, если речь о подписке, но не потому что она круче, а потому что лимиты выше, больше возможностей вроде анальных изъёбств с агентами (но сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить), а холопу с гпт по подписке за 20 баксов такое не положено. Однако за по сырой мощи он выебет, а уж тем более со всякими тулзами и обаязками.

Так что подписочные варианты всяких квенов и прочих нахуй не нужны никому, разве что дешёвое апи для некоторых задач топ за свои деньги.

Аноним 09/03/26 Пнд 10:45:28 #113 №1546153

>>1546101
>подписочные варианты всяких квенов и прочих нахуй не нужны никому
Ну так и есть по факту. Кроме китайцев, наверное, ибо там в принципе огромный внутренний рынок и они могут спокойно обойтись без выхода в международку. Главная проблема всё равно у всех одна - нейронки подписками не окупаются, это капля в море. Мало того что производство дорогое, так еще само применение нихуя не дешевое. Сейчас все работают себе в убыток, выживая тупо на инвестициях или ебанутом бюджете, если ты гугл. Ну а мелкие конторы типа мистралей вообще целиком на дотациях и инвестициях.

Аноним 09/03/26 Пнд 11:47:32 #114 №1546202

>>1546153
Это да. В целом, мне кажется, инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту: агрессивное сжатие кэша, 4 бит, не более 128к контекстное окно. И даже за 20 баксов будет окупаться. При условии отсутствия всяких дип рисерчей, CoT, поиска по интернету. Либо за дополнительную плату за функции.

На самом деле это не так уж и плохо, ибо даже во времена, когда таких возможностей не было, жилось неплохо. Проблема в том, как они будут разрабатывать в такой ситуации новые модели? На инференс хватит с анальными оптимизациями, а вот на новые модели.. разве что раз в 5 лет, если без всяких дотаций и убыточности.

Есть такое ощущение, что мы будем вспоминать времена 4о или клода 3.5 как время изобилия и безумной халявы, когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо. За 40 баксов. И за 20 баксов что-то уровня 35б-а3б.

Да, они будут куда лучше обучены, чем сейчас, и всё же.

Кум вообще будет отсутствовать. Только локально. С hg выпилят все. Будем сидеть по говноконфам и делиться квантами старых моделей.

А китайские модели.. ты верно подметил, что они будут востребованы, но скорее всего именно в Китае.

Аноним 09/03/26 Пнд 12:09:36 #115 №1546213

>>1546202
>инференс можно сделать достаточно дешёвым, если приблизить его к локальному варианту
Не знаю что насчет копросеток, но сторонние провайдеры точно квантуют модели вместе с контекстом и гоняют их у себя в ужатом виде. В принципе, не удивлюсь если та же гопота этим промышляет, оно было бы логично. Если можно где то срезать убытки, их срежут. Но даже так сомневаюсь, что подписки по 20 баксов окупят затраты на содержание сотен тысяч (или уже миллионов) видимокарт. Это прям долгосрок долгосрок.

Аноним 09/03/26 Пнд 12:26:53 #116 №1546228

>>1546213
Сейчас я уже буду ванговать, но вангую, что они память не ужимают традиционным способом — квантованием уровня лламы и прочих бэков. Уж слишком оно уебищное и агрессивное. А вот SWA, RNN, меньше голов внимания или чего-то подобного — это пожалуйста. Даже через API. А самый жир исключительно по каким-то лютым ынтырпрайз тарифам.

Ну и для быдла, разумеется, модели только в 4 битах, специально обученных работать в таком режиме. Как gemma qat или gpt oss.

Плюс, как я говорил, начнут использовать сраные маленькие МоЕ.

Грок вот буквально идеально иллюстрирует эту ситуацию. Модель заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+. Чисто квено-дипсиковская-китайская проза, явный дистиллят. Зато скорость огогоебать, пишет за секунду по абзацу, лол.

Ещё воровство диффузионных моделей с civitai, чтобы быстро для быдла рисовать. Изначальное разрешение 512х768 примерно, затем быстрый апскейл. Генерирует сразу по 4-8 изображений за пару секунд.

С изображениями реально интересно. Я их довольно долго анализировал от грока. Модели точно краденые и их там минимум несколько. Возможно, есть свои, но SD 1.5 под капотом сидит тюненая. Артефакты, паттерны сломанных пальцев, вот это всё такое же, как у меня локально было.

Я был лютым шизом раньше, который в день по 1к пикч мог генерировать или делать 4К ШЫДЭВОР 6 часов, поэтому прекрасно вижу это. Сидел и под лупой разглядывал, сравнивал, тестил. То есть это не DALL•E какой-нибудь закрытый. Чистый пиздинг. Возможно, в этом направлении дело пойдет у большинства. В итоге останутся лишь один-два гиганта, которые будут делать реально своё.

Аноним 09/03/26 Пнд 12:30:55 #117 №1546232

Тут какой то файнтюн для "Tavern Sensei, a turn-level gameplay advisor for tabletop RPGs."

https://huggingface.co/yuuuzeee/tavern-sensei-qwen3.5-35B-A3B

Интересно, сам таверн сенсей чот не гуглится, у чела много файнтюнов для эропоге

Аноним 09/03/26 Пнд 12:44:47 #118 №1546251

>>1546228
Как уже говорили в асиге, останутся лишь гугл и майки среди западных, да и алибаба с хуавеем в Китае. Остальные просто не потянут расходы при падении дотаций и инвестиций. ИИ-зима близко.

Аноним 09/03/26 Пнд 12:51:48 #119 №1546266

>>1546228
>заквантован в мясо, контекст уровня четырёхбитноно квантования, лупы покруче мистраля, маленькие эксперты, размер 1Т+
Лол, реально? Никогда не гонял грок, но видел отзывы на третью версию, писали что "лучшая модель для рп" и вообще умница-послушница, всё понимает, между строк понимает, отказов не принимает и там по списку.
>В итоге останутся лишь один-два гиганта, которые будут делать реально своё.
Ну в каком-то смысле они уже сейчас рынок делят. Разжираются настолько, что конкурентам приходится либо сливаться, либо искать дохуя и больше, чтобы не проебать свои три процента от общей массы. Из всех гугл наверное самый стремительный скачок показал за короткое время. Среди сервисных ебет гемени, среди локалок гемма (в своем размере), среди картикодебилизма банана. И это все релизнулось буквально за полтора последних года.

Аноним 09/03/26 Пнд 13:07:08 #120 №1546277

>>1546266
А вот третья модель была охуенной, это правда. Я не смог попользоваться ей долго, буквально пару дней и в рамках тестов, но её языковые навыки были потрясающего уровня, учитывая скорость и контекст. Близко к клоду и гемини, и в рп хороша. 4 версия — это какой-то полуслоп странный, а 4.1 и 4.2 чистейший китаец. Абсолютно ебанутая хуйня. Плюс только в агентском режиме, где 16 моделей работают. Но они все равно наглухо шизанутые. Ну и 4.2 всё ещё может генерировать текстовый контекст с несовершеннолетними прямо в веб-интерфейсе, лол. Вероятно, огромный пласт людей использует грок для этого.

Да, Гугл очень мощно ворвались. Но с кодом она всё ещё плоха, в людском языке — бог. Местами точно превосходит Клода, который настолько плотно укатился в кодинг, что становится страшно, чо там дальше будет, ведь раньше он был абсолютным лидером по качеству англюсика, русика, хуюсика или мертвых языков. Хотя он всё ещё хорош.

А вот гпт выглядит как отстающий, как игрушка для быдла. Конечно, он может всё ещё показывать крутые вещи, но скоро разрыв будет велик, если в него не станут вливать бабки. Складывается впечатление, что он станет чем-то вроде сервиса, в котором отвечают "а как какать?", о чём красноречиво говорит контекстное окно в 32к токенов в веб-интерфейсе, если не использовать reasoning high. Ну и ощущение такое, что там крутится какая-то 200б МоЕ или нечто подобное, а в некоторых ситуациях можно с барского плеча получить толстяка.

Кстати, у гпт была весьма интересная версия 4.5, для которой давали 15 сообщений в неделю в рамках теста. Судя по качеству ответов и тс, там была dense-модель колоссальных размеров. Самый интересный момент в том, что она очень хуёво могла в код, на уровне локалок наших, ну немного получше, но с языком творила чудеса. Зачем они её тестировали, почему не выкатили и что это вообще было — непонятно.

Аноним 09/03/26 Пнд 13:25:35 #121 №1546287

>>1546277
>он станет чем-то вроде сервиса, в котором отвечают "а как какать?"
Правды ради, большая часть запросов к нейронкам это итак говно уровня "а как какать", потому что поисковики абсолютно засраны и даже если ты ищешь что-то конкретное, тебя с большой вероятностью кинет на сайт, где статья тоже написана нейронкой и разбавлена десятком параграфов воды чтобы увеличить среднее время посещения страницы. Помню когда были траблы со здоровьем искал инфу по препаратам и постоянно натыкался на эту поебень, которая кроме ключевой информации срала в мозг чем-то вроде "как появилась хуйнянейм, как с ней боролись в древности, как с помощью гнилого гриба придумали пенициллин" и прочее, что никому нахуй не надо. Потом открыл бояра и он раскидал всё в пять предложений.

>там крутится какая-то 200б МоЕ или нечто подобное
Скорее всего, не просто так осс-гопота вышла моешной. Если сравнивать 120B и урезанную GPT5-mini, вообще часто ощущается, что это одна и та же модель. По мозгам точно не далеко ушла.

Аноним 09/03/26 Пнд 13:27:29 #122 №1546288

>>1546034
> по сравнению с квеном 27б
Хочешь увидеть настоящий контраст - попробуй посравнивать модельки в агентно-кодерских-ассистирующих задачах где все вместе, отсутствует четко заданный пайплайн, модели нужно проявлять инициативу и действовать. Достойные альтернативы начинаются от 200б.
>>1546096
Причем тут позабавились? Это было именно демонстрацией своих возможностей и рекламой, многие компании начинали именно с тюнов той же лламы и других. Просто их или уже купили и они растворились в гигантах, или сами подросли но сейчас не имеют возможности что-то мощное релизить.
Основной доход там не с мелких подписок а с b2b, вот там наличие популярной открытой модели будет только в плюс, потому что лучше рекламы не придумаешь. Арендовать чистые датацентры или экономить 10% на мутных и ненадежных по всем фронтам провайдерах никто не станет, обращаются напрямую к производителию да еще закажут внедрение и адаптацию под их задачи.
Ну и уже писали что у тех же квенов и кими подпискам наличие открытых весов не мешает, а вот у тройки гигантов энтузиастов оттягивает.

Аноним 09/03/26 Пнд 13:40:08 #123 №1546297

>>1546101
> качество хуевое, сосет даже у чат гпт
Только писали как она разъебывает, нагибает жпт и конкурирует с коктрописами - и тут такое.
> а потому что лимиты выше
Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити. Все в нытье про то, как им зажали лимиты, отобрали обещанное, не дают использовать модели из-за перегрузки. На последней вообще тебе просто втихую подменяют прошку 3.1 на какого-то лоботомита. Сначала прыгают между гуглом-гопотой-антропиками, потом слезают на китайцев и пишут довольные оды.
> сначала придётся заставить эту падлу хоть как-то слушать твои инструкции и не шизить
Так перетолстить - нужно постараться. Да и имплаинг огромного превосходства при перечислении тривиальных вещей тоже выдает.
>>1546202
> если приблизить его к локальному варианту: агрессивное сжатие кэша
Это не локальный вариант, это рак опенроутера. Тут наоборот пытаются получить максимум качества из доступного, жертвуя скоростью и т.д. То же самое делают и корпы, что заметно по деградации моделей после релиза или в пиковые часы.
> когда все корп решения для нищуков станут 100б-а8б @ 4-бит @ RNN кэш, пережатый в мясо
Они когда-то были не такими? Короткое промо в неделю, а потом бесплатно только огрызок 4о мини или вообще турба, лоботомит хайку у коктропиков с анальными лимитами.

Шиза какая-то, вы тут ебанулись окончательно?

Аноним 09/03/26 Пнд 13:45:43 #124 №1546301

>>1546297
Пчел, гопота осс 120b до сих пор ебет галематью 5, говмими к2.5, минисраку 2.5 и все хуеквены до 397b включительно. Просто эти калки на 1T параметров обсираются под себя в цикле агента, криво вызывая инструменты. Типа гопота тоже говнище лютое относительно чмопуса последнего, но тут уже сама проблема в том, что лоботомиты это говно, просто чмопус лучший среди куч говна, но и стоит он моё почтение.

Аноним 09/03/26 Пнд 13:52:51 #125 №1546305

Добро пожаловать на сервер Шизофрения! (Оригинал).mp4

>>1546301
>Пчел, гопота осс 120b до сих пор ебет галематью 5, говмими к2.5, минисраку 2.5 и все хуеквены до 397b включительно.

Аноним 09/03/26 Пнд 13:54:50 #126 №1546308

Посоветуйте годную мистралю/министралю для эрп. Появилось ли что-то годное за последнее время? Тюны может какие?

Аноним 09/03/26 Пнд 14:25:14 #127 №1546324

Газонюхи выше спокуха, обсуждение апи и пенисов в других тредах, тут локалки

Аноним 09/03/26 Пнд 14:29:30 #128 №1546328

Есть ли калькулятор прикинуть сколько плотная, загруженная на видеокарту не полностью, будет выдавать?

Аноним 09/03/26 Пнд 14:39:46 #129 №1546334

>>1546324
Правильно, тут лишь лоКАЛки лоботомитные уровня трехлетней пигмы. С тем же успехом можно вставить генератор случайных чисел перед детокенизатором, возможно, даже лучше будет, чем лоКАЛьный ЫЫ.
пиздец, модели на 744b-1t параметров тупее трехлетней пигмы на 6b параметров, да и контекст пигма держит лучше

Аноним 09/03/26 Пнд 14:42:50 #130 №1546336

>>1546308
Ministral-3-14B-Instruct-2512-absolute-heresy.Q6_K

А если у тебя там ванилька, то можно и сток, в простенький кум мистрали всегда из коробки могли.

Аноним 09/03/26 Пнд 14:50:46 #131 №1546344

>>1546336
Как раз таким и пользуюсь. Есть альтернативы или это топ решение?

Аноним 09/03/26 Пнд 15:01:19 #132 №1546357

>>1546344
По соотношению скорости и мозгов на обычном пк с 12-16 VRAM - топ решение. Ещё и русский хороший.

Аноним 09/03/26 Пнд 15:03:43 #133 №1546361

>>1546334
Ты там под чем? Или недуг какой?

Аноним 09/03/26 Пнд 15:04:51 #134 №1546362

>>1546357
Гемма 27b получше будет. Я пробовал министраль 14b в оригинальных весах, и она при переводе обосралась, переведя collar как воротник, а не ошейник. Прямо как google translate, который также обсирается под себя. Геммочка умничка здесь вывозит, выдавая меньше тупняка.

Аноним 09/03/26 Пнд 15:24:55 #135 №1546376

Анончик, посоветуй модель не для кума, а для помощи в написании нормативной документации на русском языке на основе международных стандартов? Есть такое? Или для такого проще токены у корпов?

Аноним 09/03/26 Пнд 15:25:52 #136 №1546378

>>1546376
Для такого лучше без ллм

Аноним 09/03/26 Пнд 15:28:51 #137 №1546382

>>1546378
Разумеется, что всё нужно делать самому, у меня нет цели всё отдать на откуп нейронке, но получить гайдлайны, что бы был уверен, что ничего не упустил и не сделал противоречие было бы кстати.

Аноним 09/03/26 Пнд 15:31:07 #138 №1546386

>>1546301
Еще как ебет, а потом галюны отпускают и напоминает тебе принять таблетки.
>>1546334
Лол корпораба защемило

Аноним 09/03/26 Пнд 15:33:51 #139 №1546388

>>1546382
Ну так копроварик юзай. Спроси как составить док, он тебе поможет. Нах тебе с локалкой ебаться?

Аноним 09/03/26 Пнд 15:35:46 #140 №1546390

Потестил недавно всякию тюны геммы и мистраля, пиздос, оказывается ни одна моделька не знает что можно ебать пролапс. Вопрос - за что я плачу скачиваю все эти тюны и трачу терафлопсы своей видяхи? Нахуя все эти анцензоред, дарк, вайолент, гор тюны нужны, если они не могут в банальные вещи?
Признаться, порядком разочаровался в ллмках из-за этого.
Эти ваши корпы или 300б+ модельки могут закрыть такую базовую потребность? Или они все юзлесс?

Аноним 09/03/26 Пнд 15:37:04 #141 №1546393

>>1546357
Ну тогда ладно, раз нет других вариантов.
>>1546362
Я пробовал гемму, не сказал бы что она прям настолько лучше. Да и всякое похабство она понимает в разы сложнее.

Аноним 09/03/26 Пнд 15:39:41 #142 №1546396

>>1546376
>>1546382
Писать нормативку - никакую, уволься. А проанализировать, что-то отметить - тема хорошая но сложная, бери самое большое что сможешь вместить. Среди мелочи это гемма или может новые мистрали (маловероятно). А так от 120б и вверх, желательно с ризонингом или форсировать его аналог промптом. Среди корпов для такого лучше всего жемини, меньше всего галюнов и лучше соответствие.
Не ожидай что модель точно воспримет всю документацию и будет точно знать как тебе помочь, скорее наоборот. Если речь не о совсем общих вещах то точно не стоит делать вот так
>>1546388
> Спроси как составить док

Аноним 09/03/26 Пнд 15:45:12 #143 №1546401

>>1546396
Нейросетям в принципе не стоит доверять документацию. Анончик явно тредом ошибся, тут в основном кумкумы сидят.

Аноним 09/03/26 Пнд 15:49:07 #144 №1546407

>>1546390
> ни одна моделька не знает что можно ебать пролапс
Квен 235 и 397, Степа 3.5, а также ГЛМ 4.7 точно знают.
А вообще у меня фантомные воспоминания что и гемма тоже могла, проверять я это, конечно, не буду.

Аноним 09/03/26 Пнд 15:51:59 #145 №1546408

>>1546376
тут не модель нужна а методология. Залить в контекст всю нормативку и надеяться что она это переварит - не получится.

нужно строить свою систему которая включает в себя
1) RAG
2) пилить RLM (https://arxiv.org/pdf/2512.24601)

Аноним 09/03/26 Пнд 15:52:48 #146 №1546409

>>1546407
Гемма не знает, что такое thighjob. Мистралье знает. Думайте Кумайте.

Аноним 09/03/26 Пнд 16:01:15 #147 №1546417

>>1546287
>Как какать

Да, ето так. Вообще, я сам такой же, и хоть я ненавижу корпов, всё равно стараюсь придерживаться какой-то «культуры использования». Про какать — это к лоботомиту, что-то сложнее — к обычной модели, ещё сложнее — ризонинг (от low до high), или вообще чередую модели от разных корпов, и не из-за денег, а просто потому что хочу хотя бы своими действиями на 00.00....01% снизить нагрузку. Однако большинство так не делает. И я прекрасно понимаю, что гайки закрутят в любом случае, их уже крутят люто, и в некотором смысле у меня будет упущенная выгода.

Кстати, о поисковике. По скорости и количеству выдаваемой инфы грок лучший в своём классе из тех, что я пробовал. Минусы только в том, что он может насрать инфой с сайта russkaya-medicina.xyz или с аналогичного. Даже если ему прямо предоставишь список сайтов, пабмеды там всякие, то он просто натаскает говна без какого-либо анализа. Нужен детальнейший промпт с инструкцией на каждый пук, и даже так он часто ошибается и приносит дичь, видимо, из-за размытого внимания к контексту или обучения. Зато может смотреть 600 страниц за несколько минут. Ну и в целом у него есть проблемы с выполнением инструкций, на большом контексте ещё сильнее сыпется.

А вот Клод или ГПТ могу пережёвывать по 10 минут запрос/поиск, выдавая в большинстве случаев 90% хороших ссылок и годный суммарайз, прямо песня. Только с гемини не совсем понял, норм там или нет по этой теме, т. к. юзал её для таких целей мало и только через API/бизнес-аккаунт
У бизнеса совершенно ебанутый интерфейс и странная реализация всего, что я там видел. Вроде крутилок мало, а чтобы всё работало как надо, надо все мозги себе выебать. И это очень странно, почему Гугл так сделал, ведь у остальных бизнес-версии норм.

>GPT5-mini

Вообще, выглядит так, будто бы там реально гпт осс 120б какой-то крутится, лол.

Аноним 09/03/26 Пнд 16:04:05 #148 №1546423

>>1546417
Это ты нейросетью накалякал?

Аноним 09/03/26 Пнд 16:11:52 #149 №1546430

>>1546388
>Нах тебе с локалкой ебаться?
Смогу проявить смелость и указывать некоторые ДСП(для служебного пользования) моменты.
>>1546396
Спасибо за ответы. +- ситуация понятна.

Аноним 09/03/26 Пнд 16:12:22 #150 №1546431

>>1546407
Гемма знает о пролапсе только на уровне медицинских сведений. Типа что это бывает из-за проблем с мышцами ануса, что надо обращаться ко врачу, хуе-мое. А то что после интенсивной ебли можно натужиться и выдавить пролапс, а потом сразу втянуть обратно - это за гранью их представлений.
Ну мистрали да, как будто чуть получше понимают такие штуки, но все равно это надо вытягивать из них.

Аноним 09/03/26 Пнд 16:15:44 #151 №1546438

>>1546390
>можно ебать пролапс
Нельзя. Я запрещаю, это аморально. Так что нейросети правы.
>>1546401
>Нейросетям в принципе не стоит доверять
Вот так достаточно.

Аноним 09/03/26 Пнд 16:16:26 #152 №1546440

>>1546431
Я тестил гемму и мистраля одними и теми же промтами по несколько раз, с разными настройками температуры. Мистраль хоть и ошибался иногда, но в целом лучше понимал, что от него хотят и, что важнее, какой у него персонаж. Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество.

Аноним 09/03/26 Пнд 16:26:57 #153 №1546448

>>1546297
Не знаю, кто там что писал. В этом треде? У меня нет сил сейчас реально смотреть. Если можешь, тыкни в посты. Только не в бенчи, они хуйня полная и всегда наебывают, кроме некоторых. Годятся для того, чтобы примерно показать уровень модели. В реальности ВНЕЗАПНО получатся обычно иначе.

Про агрегаторов вообще не шарю и не пользуюсь, но насчёт лимитов за подписку ты прав. Вот только когда антропики их давали? Сейчас у них ого-го какие лимиты по сравнению с тем, что было. Но их всё равно мало, если сравнивать с той же китайщиной, да. Ну и все потихоньку затягивают гайки, к этому идём. Только китайские модели всё равно не выход из ситуации, разве что дипсик меня реально порадовал, но там нужно пердолиться очень много, так как без апи он по возможностям 2024 года. Нужны инструменты и долго налаживать, а потом это всё ломается и цикл повторяется.

>Перетолстил

Шо перетолстил? Ты пробовал одновременно использовать грок + гпт + клод на одной и той же задаче и промпте? Сложной. Грок чаще всего порет хуйню, причём такую лютую, что уши дыбом встают.

Когда я говорил про локальный вариант, то речь шла о том, что корпы опустят планочку до уровня локалок треда, условно. Мы желаем получить хорошее качество, но не можем, даже жертвуя скоростью и Аллахом. И вот что такое нас ждёт в будущем, но уже на платной основе. 27b dense и 120b MoE хватит всем, как грица. Или наш любимый грок 1Т-а3b iq3_k_m

>были не такими?

Ну я там не работал, сказать не могу, но по результатам — да, были. Антропик явно стараются давать максимум качества, минимум компромиссов ценой лимитов и ебанутых цен. Гпт прыгает из стороны в сторону из-за шальных бабок — иногда можно было использовать самые жирные модели невменяемое количество раз, сжигая бабки на тысячи долларов за пару суток, если бы это было по апи. Вот просто без остановки его задрачивать. Впрочем, это у меня происходило из-за того, что модели тупее были. Сейчас достаточно пары запросов для получения тех же результатов.

Сейчас клоседам ИИ яйца начали выкручивать, в лимиты порой влетаешь и видно, что там агрессивное квантование, динамический контекст и что-то странное порой творится.

Ситуаций, которые ты описываешь, вроде 4о -> мини -> и т. д. Я вообще не помню. Когда это было? Примерно.

Хайку — да. Первое время я был в ужасе, когда они начали влетать на рынок. Потом привык, ещё и лимиты увеличили после внедрения МоЕ, а дальше уже брал подписку подороже.

Аноним 09/03/26 Пнд 16:27:30 #154 №1546449

>>1546423
Нет.

Аноним 09/03/26 Пнд 16:30:14 #155 №1546454

>>1546409
А квенчик 27б знает, что такое mesugaki, ahegao, torogao, straight shota, full package futanari, названия запрещенных веществ и как они действуют на организм в рамках РП. Вот и думайте.

Просто пишете в карточке нужный тег - экономите 600 токенов.

Аноним 09/03/26 Пнд 16:39:27 #156 №1546461

>>1546454
Про вещества двачую, квен почему-то очень хорошо в них шарит. Но мистраль лучше описывает всяких курящих блядей или строгих училок. Геммочка в обоих случаях падает на колени и просит обоссать, но не спрашивать о таком.

Аноним 09/03/26 Пнд 16:41:24 #157 №1546464

>>1546440
>Гемма же оставалась более сухой и информативной, но без ошибок. Очень уж у неё копроративный слог и поведение. Не может в творчество.
Да, я боюсь это фундаментальное ограничение для всех ллмок. Народ хочет чтобы нейросетки выдавали охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту. А креатив наоборот требует отклонения от нормы. И одной температурой скорее всего не решить проблему. Для креатива надо либо слегка шизить, либо держать в памяти 100500 триллионов разных вариаций того, чего только может быть. 1Т модельки наверное могли бы вместить такое, но они задрочены корпами на работу по указке.

Аноним 09/03/26 Пнд 16:42:54 #158 №1546466

>>1546376
Можешь почитать на эту тему https://habr.com/ru/articles/992348/

Аноним 09/03/26 Пнд 17:14:03 #159 №1546498

>>1546464
>охуенно точные ответы без шизы, максимально достоверные факты, чтобы умели тулы вызывать, следовали промпту
Этого вполне можно добиться, если точно писать промты, детально составлять лорбуки без противоречий, и не загонять нейронки в невозможные ситуации, где нужно безумная креативность чтобы тащить муд и не глючить. Иногда - получается. Иногда - кринж. Повторяемость - миф, ну разве что на минимальных температурах и при сжатых промтах.
>держать в памяти 100500 триллионов разных вариаций того, чего только может быть
Ждём, терпим, надеемся. В целом при соблюдении всех условий и созданий для нейросети идеального рп-вакуума, вполне можно загонять тот же мистраль до оптимальных ответов. Я это давно приметил, что стоит мистраля поправить, так он начинает соблюдать рп точнее. Квен же при внесении исправлений иногда начинает рефинкать вообще всё, выходя в астрал минут на 10. Но зато может выдать настолько охуенный ответ, что аж меняет вектор рп, самостоятельно задавая направление.

Аноним 09/03/26 Пнд 17:49:40 #160 №1546533

>>1546448
> Не знаю, кто там что писал. В этом треде?
> Посмотри в реддиты жемини, попоты, коктропиков и крупных агрегаторов типа перплексити.
Тебе плохо? Ты же внатуре поехавший. Сначала жирнота с тривиальными ошибками на флагманских моделях, теперь нерополотно обо всем и ни о чем. Лечись, квантованный.
>>1546464
> фундаментальное ограничение для всех ллмок
Как одно противоречит другому? Нужна моделька поумнее и с достаточными знаниями в области, чтобы примерно понимала какие нормы можно нарушить ради повествования, а какие наоборот его обрушат. Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы. Настроив хоть сейчас можешь отыгрывать кум, пристроившись сзади к кобольду-офисной работнице, которая в это время будет писать и редачить твой код.

Аноним 09/03/26 Пнд 17:50:31 #161 №1546534

>>1546498
Ну вот ризонинг - потенциальное спасение. Все эти руминации дают ИИшке возможность подсветить нюансы, продумать дальнейшие действия.

Надо попробовать на гемме эмулировать ризонинг. С выполнением инструкций у нее хорошо, так что тэги проебывать не должна. Но формат скорее всего придется жестко структурировать, ибо сама она не была надрочена на размышления типа "wait, what if..."

Аноним 09/03/26 Пнд 17:58:37 #162 №1546543

>>1546533
>Креатив никак не мешает модельке давать достоверные факты, следовать промпту и уметь в тулзы.
Противоречие скорее как раз с выдачей точных ответов. "Точные" ответы на ллмках - по дефолту костыль, они не предназначены для этого. А условный креатив - естественная штука. Поэтому приходится душить их всякими способами, чтобы они могли выдавать стабильно приемлемые ответы, но при этом как-то адаптироваться к ситуации, а не выдавать зазубренный среднестатистический ответ.

Аноним 09/03/26 Пнд 18:05:35 #163 №1546546

Ананасики-братья по куму и рп, отзовитесь! Я шиз или есть такие же? Что бы я ни запускал, Глэм, Глэм Эйр, Квены всякие разные, Мистральки, Геммы, Степашу. ВСЕГДА блять прохожу через следующий порочный цикл
1. Радость новой модельке, весело-интересно. Моделька умная, раскрепощенная, прям то что надо, ну наконец-то
2. Пишу карточку-другую на вдохновении. Отыгрываю сценарий, забиваю подзавязку контекст. Кум льется рекой
3. Иду дальше по чату, начинаю новый или заново начинаю чат с той же карточкой... и начинаю видеть слоп, иногда протупы, иногда практически те же самые ответы, иногда нелогичное поведение персонажей, иногда блять все сразу
4. Сгорает жопа. Приходит мысль ебаный тыж бля, чем я занимаюсь, это какой-то мегатупняк лоботомит-автоответчик
5. Принимается решение прикоснуться к чему-то настоящему, подлинному, иду смотрю аниму, кинцо, игры играю, иногда даже книжки читаю. Радостно, весело, пару раз даже модельки удалялись и себе давалось слово дальше только человеческое, живое, а не ебаные выводы статистических машин без души
6. Проходит время. Приходит понимание что хочется нейрокума, потому что найти то что мне нужно где-нибудь еще не получается. Потому что это пусть и иллюзия, но это впечатление какой никакой обратной связи. Что ни читай, что ни смотри, ты лишь наблюдатель. Да и попробуй найди что-нибудь по своим вкусам. Среди чего искать рп + иногда кум время от времени? Разве что в внках, додзях, манге. Я не извращенец, мне легко угодить, но сука если сунешься туда, то везде ебаная школа, везде шаблонные персонажи со своими архетипами и щепоткой кинков автора, которые часто могут триггерить. Даже рисовка часто похожа. И вот ты уже прочитал новеллу на 30 часов, а потом ловишь такой ебаный кринж что не хочешь продолжать. И вот ты возвращаешься к первому шагу, все по новой. Ебаная временная петля. Что с этим делать то?

P.S. Вот тока не надо что делать в модельках или квантах. У меня 96+48, в целом все хиты треда могу запускать вроде

Аноним 09/03/26 Пнд 18:15:25 #164 №1546563

1731615864280.png

1711887446064.png

1762640438360.png

>>1546032
43 на 0 и 10тпс на 64к контекста в один поток. Максималка как тг так и пп тоже подросла

Аноним 09/03/26 Пнд 18:18:35 #165 №1546568

>>1546546
Дело в промпте

Тут скорее надо не прыгать с одной на другую модель, а выдрачивать навык общения с одной конкретной. Модельки реагируют на разные триггеры по-разному. Они требуют разный уровень инструктирования. Модельки условно делятся на 2 типа: которые шизят (умело или неумело), и которые о чем не сказано - то и не пишут. Вот надо пынямать какого типа моделька и какими словечками приласкать ее, чтобы она выдавала нужное. По дефолту они выдают ответ какого-то усредненного ассистента, на которого были надрочены (поэтому ощущение свежести при смене модельки - видишь новую личность ассистента). Можно попробовать задавать стили ассистенту или еще всякие подвыперды промптом делать.

Аноним 09/03/26 Пнд 18:25:59 #166 №1546576

>>1546568
> которые шизят (умело или неумело), и которые о чем не сказано - то и не пишут.
Температуру надо крутить потому что.

Аноним 09/03/26 Пнд 19:24:17 #167 №1546626

>>1546543
Да, в целом все так. Ллм может распознать логические нестыковки, что-то проанализировать и т.д., но это скорее про взгляд с другой стороны а не абсолютная истина. Иногда они невероятно восприимчивы и дотошны, ухватывают мелочи которые сам упускаешь, но точно также могут галлюцинировать. Даже граундинг готовому контенту может исказиться.
От того очень забавно наблюдать апелляции в ответам ллм, или вопросы у них по точным мелочам.
>>1546546
Пост-кум-клэрити накатывает и являет все несовершенство того чем занимаешься.
Начни катать длительные чаты с рп и/или развитием отношений (не обязательно романтику). Как раз поднимешь "навыки" с контекстом, промптами, суммарайзами и в целом будешь писать яснее. И делай это не ради исключительно кума, а вместо потребления мусорного контента типа ютубчика, ничего не потеряешь.
Относись к ответам моделей спокойнее, не понравилось - свайпнул, изменил промпты, пошаманил. Не идет - поставь другую модель, тем более что у тебя их много.

Главное - иди трогай траву, найди хобби и занимайся физической активностью. Когда пытаешься самореализоваться через потребление контента, игры или такое - это заведомо путь в бездну. Везде будешь видеть однообразие или несовершенство, которое описываешь. Точно такие циклы короткого взлета "о игра/кинцо/анима/книга вышла, крутая" и тут же падение до брюзжания "фу клишированная херна, вот в тайтлнейм было лучше" и потребления через силу с дальнейшим еще большим расстройством.
Когда будешь воспринимать это не как главный источник желаемой жизни, который обязан дать тебе дофамин должный экспириенс, а лишь как одну из вариаций активностей где можно экспериментировать, ставить челленжи, иметь что-то конкретное - сразу все в норму придет.
> тока не надо что делать в модельках или квантах
> меня 96+48
В них тоже, вот было бы хотябы 256+64.

Аноним 09/03/26 Пнд 19:35:08 #168 №1546634

>>1546568
Гемму как ни крути, всё равно будет суходрочка с постоянными подсказками недоразвитой, что она должна делать в следующий момент. Модель аутистического спектра, лол.

Я тестил многое, разные промты, разные способы дать знания нейронке, чтобы рп сложилось получше. Результаты в общей сложности сводились к чему-то такому:
-Пойдёшь со мной на свидание?
Гемма: -Да, пойду.
Мистраля: -Ой, кто, я? Ты правда приглашаешь меня? Конечно я пойду! смущённо смотрит в пол и теребит пальцами подол платья
Квеня: -Да, можем сходить парк, там у меня есть любимая лавочка, посидим, поболтаем.

Думайте. Только квеня в рп отмечает конкретные места и объекты, извлекая их из характеров персонажей. Ризонинг страшная штука. Настоящий нейронный мозг, а не эта ваша генерация случайных логитов.

Аноним 09/03/26 Пнд 19:43:24 #169 №1546641

>>1546634
>Квеня
А какой квант квени можно уместить в 12 врумм?

Аноним 09/03/26 Пнд 19:48:05 #170 №1546647

>>1546641
Четвёртый смол или третий ларж, наверно. Но ризонить будет очень долго, скорее всего.

Аноним 09/03/26 Пнд 20:00:57 #171 №1546669

https://huggingface.co/darkc0de/XORTRON.CriminalComputing.LARGE.2026.3

Тут что-то жирненькое, умное. UGI на втором месте, отказов пока не ловил. Ризонинга нет. Пробовал кто? Вроде топ кум

Аноним 09/03/26 Пнд 20:05:23 #172 №1546673

>>1545386
>1) Огромные простыни ризонинга бай дизайн, треть из которого уходит на прогон фильтров безопасности.
Жмешь abort, перезапускаешь заново - ризонинг уходит. Все время так делаю.

>2) Сломанный ризонинг который совершенно рандомно то работает, то срет пустыми <think></think>, то вообще не включается.
Это скорее фишка, когда ризонинг не нужен, то помогает. Если нужен ризонинг, роллишь еще разок - все работает.

>3) Ведро сои из коробки, которую нужно либо фиксить шизопромптами либо накатывать еретик. Что из этого больше лоботомирует бедолагу вопрос дискуссионный.
Аблитератед накатил, никакой сои сразу. Еретик тоже неплохо справляется.

>4) Пересчет контекста после каждого отправленного сообщения, и чем больше сообщений в истории чата тем дольше пересчет. Это вот такой ценой достигается легкий контекст? А можно не надо?

Такое происходит только, когда достигнут полный контекст - ему приходится заново после каждого пука считать. Решение найдено - делаешь полный саммари, потом убираешь половину текста. Еще можно просто расширить контекст в 2 раза, если память позволяет. Пересчеты после каждого пука тут же уходят.

Аноним 09/03/26 Пнд 20:07:23 #173 №1546675

>>1546669
>умное
В каком тысячелетии оно было умным?

Аноним 09/03/26 Пнд 20:09:06 #174 №1546678

>>1546669
>2411
>топ кум
Так и живём.

Аноним 09/03/26 Пнд 20:13:58 #175 №1546686

>>1546546
Карточку свою расписываешь? Очень много зависит, что туда напишешь. На готовые не надейся, там фигня. Также юзай [ooc: ] теги или author's notes, чтобы модельку двигать в нужном направлении по ходу дела. Алсо открывай все время редактирование по ходу дела и убирай целые куски текста из истории, которые не подходили - моделька больше не будет их учитывать в дальнейшем и перестанет срать говном. Еще я там вручную куски иногда дописываю, помогает.

Аноним 09/03/26 Пнд 20:20:34 #176 №1546695

>>1546686
Двачую этого просветлённого.

Аноним 09/03/26 Пнд 21:18:25 #177 №1546734

>>1546673
>>1546686
Помогите с суммарайзом. Я в кобольше нажал кнопку автогенерации, комп чутка погудел и всё, кроме надписи "не закрывать окно" ничего нет. Оно сработало и можно дальше рпшить? Или нужно ещё что-то нажать? Часто это нужно делать?

Аноним 09/03/26 Пнд 21:26:03 #178 №1546737

>>1546734
>Помогите с суммарайзом.
Не знаю что ты сделал, но точно не суммарайз.

Аноним 09/03/26 Пнд 21:27:52 #179 №1546738

>>1546737
Я нажал на автогенерацию памяти. Что это если не суммарайз? А как тогда?

Аноним 09/03/26 Пнд 21:30:54 #180 №1546744

>>1546738
>суммарайз
Пересказ содержимого чата в сжатой форме.
После этого начинаешь новый чат вставляя этот пересказ вместо первого сообщения.

Аноним 09/03/26 Пнд 21:33:41 #181 №1546748

>>1546744
Серьёзно? И я должен его сам написать? Ахуй. А как проверить, сколько ещё у меня контекста есть перед тем как чат начнёт затирать старое?

Аноним 09/03/26 Пнд 21:42:21 #182 №1546752

>>1546734
Оно должно добавляться в системный промпт. Но иногда хуево работает. Хз почему.
Возможно проще прям в чате захуячить, типа "[Системное сообщение: сгенерируй краткий пересказ диалога, перечисли ключевые моменты истории]".

Аноним 09/03/26 Пнд 21:54:56 #183 №1546763

>>1546752
Ну, если придётся руками историю писать, то это хороший способ, спасибо большое

Аноним 09/03/26 Пнд 22:38:24 #184 №1546807

https://www.reddit.com/r/LocalLLaMA/comments/1rp9tt7/i_am_not_saying_its_gemma_4_but_maybe_its_gemma_4/

Аноним 09/03/26 Пнд 22:44:06 #185 №1546812

>>1546807
О, килпидрика и там, и тут передают. Пиздели, что новая гемма будет как новый квен 120b по размеру и будет MoE говнищем.
А так хотелось плотненькую няшечку новую на 30-50b с легким контекстом. А будет квен от гугла.

Аноним 09/03/26 Пнд 23:24:31 #186 №1546846

>>1546812
>новая гемма будет как новый квен 120b по размеру и будет MoE
Идеально! Вот именно то что нужно. Эйр - если хочется сочного кума и чернухи, Геммочка солнышко - для сфв рп, Квен - для любителей поесть говна. Все счастливы, все довольны.

>А так хотелось плотненькую няшечку на 30-50b
Выкинь свои некротеслы на помойку, пожалуйста. В плотной модели такого размера вообще нет смысла. ~120b моэ будет и умнее и быстрее и полетит на условной 3060 12gb.

Аноним 09/03/26 Пнд 23:33:02 #187 №1546850

>>1546846
>эйробояр закукарекал
Инстэд аурора!

Аноним 09/03/26 Пнд 23:51:56 #188 №1546857

>>1546734
Можешь джейсонов сохранять с наиболее удачными генерациями, будет тебе сорта блокнотик с любимыми историями.

Аноним 10/03/26 Втр 00:06:40 #189 №1546861

>>1546857
А я потом смогу из него суммари сгенерить?

Аноним 10/03/26 Втр 00:13:53 #190 №1546865

>>1546861
Ну разумеется, солнышко ты моё кобольдовое. Разумеется ты сможешь.

Аноним 10/03/26 Втр 00:15:12 #191 №1546866

>>1546865
Круто! Спасибо!

Аноним 10/03/26 Втр 00:28:43 #192 №1546873

1. Зелёный переходник для V100 на pcie - фигня собачья. При подключении как х16 он выдаёт скорости 6.6 и 5.3 (то есть как х8 на загрузку на V100 и как х6 на выгрузку обратно). При подключении х8 скорости как у х4/х3. При этом определяется и во всех местах х16/х8, а вот если измерять реальную скорость загрузки/выгрузки на крупном буфере. У кого-то ситуация воспроизводится?
Есть смысл поставить драйвер 580-server вместо просто 580?
На это может как-то влиять, что я 8-пин разъём воткнул, а не два?

2. Картинка. Что за реккурентное нечто?

И ещё круто что автопарсер смерджили наконец то. Я рад что начал его использовать ещё до этого.

Аноним 10/03/26 Втр 00:32:22 #193 №1546874

>>1546866
Только учти один маленький моментик. Если в чатике насрано десятками сообщений, то краткий пересказ будет хромать в плане деталей. Так что либо старайся суммировать чаще, либо держи детали своего рп в голове/блокнотике, чтобы самому вписывать их в ноты бота. Это звучит как костыль, это выглядит как костыль, это крякает как костыль, и является им. Но таков путь. Ду ю но да вэ? Дыс ыс да вэ.

Аноним 10/03/26 Втр 00:41:29 #194 №1546878

>>1546874
Это пиздец, чел. А хули всё так плохо?

Аноним 10/03/26 Втр 00:49:37 #195 №1546886

>>1546873
А у залёных есть аналог rocm-validation-suite? У красных собственно эта тула есть и позволяет тонну бенчей гонять по типу скоростей всего со всем и вычислений определённого вида

Ну проверь куда по топологии эта псина идёт

Аноним 10/03/26 Втр 00:55:37 #196 №1546889

>>1546734
Для этого нужно чтобы в твоем интерфейсе было место под этот самый суммарайз. В таверне оно предусмотрено, что там в кобольде - хз.
Есть кнопка автоматической генерации, которая просто шлет простой промпт для создания, но оно всратое и охватывает сразу все, что бред.
Вместо этого есть приличный способ: выбираешь более старые посты, которые хочешь суммарайзнуть и с них форкаешь чат. Прямо в поле пользователя пишешь
> [SYSTEM]
> Pause your roleplay. Come up with your proposal about chapters for that story starting from summary in the beginning. Write extra N chapters and add a short description for each. Only include what already happened in roleplay chat after first summary.
или как хочешь свою команду. При необходимости роллишь, редактируешь, можно с полученным результатом сделать второй проход для уточнения и расширения.
Потом возвращаешься в основной чат и дополняешь уже имеющийся суммарайз (или создаешь с нуля). После скрываешь посты, которые ты суммарайзил через /hide
>>1546744
> После этого начинаешь новый чат вставляя этот пересказ вместо первого сообщения.
Ебааааать
>>1546752
> Оно должно добавляться в системный промпт.
При чем тут вообще системный промпт?

Аноним 10/03/26 Втр 01:25:59 #197 №1546910

>>1546889
А как форкать сообщения в отдельные чаты и потом скрывать их?
И кстати, а куда лучше записывать суммарайз? В Memory, Author's Note или создать отдельный лорбук?

Аноним 10/03/26 Втр 01:45:42 #198 №1546919

>>1546910
В таверне в стандартных экстеншнах есть для этого свое поле. На самом деле разницы нет, важно чтобы оно было помещено перед первыми сообщениями и обрамлено в какие-нибудь скобки/теги чтобы было понятно что это пересказ прошлых событий.
> А как
В кобольде? Наверно никак. Спрашивай у тех, кто за этот интерфейс топит.

Аноним 10/03/26 Втр 01:48:56 #199 №1546922

>>1546878
Ну почему же плохо, золотко? Нет, ну ты конечно можешь собрать себе гигариг и задрать контекст в облака, но во первых, что это тебе даст, кроме всё ещё глючной генерации ввиду несовершенства технологий, а во вторых, что ты будешь делать с джейсоном в несколько гигов? Читать всё в том же чате? Ну так делай это с суммарайзом, всё то же самое будет. Да и ты сам-то потянешь гигарп на несколько недель/месяцев? Если нет, и твои истории укладываются в несколько дней кума экспириенса, то почему бы не сделать пару пометок в блокнотике? На память оставишь. И деменцию чуток отложишь ввиду необходимости хоть немного думать, а не просто стручок наяривать обливаясь нейросоплями.
И ещё, помни, что даже у копроверсий бывают мощные глюки и выпадения из сюжета, а у них контекст огого какой, на локалке такой никогда не поднимешь. И всё равно они генерят кринж. Так что пока так. И это хорошо. В этом есть душа. Снятся ли кумобоярам нейродоярки?
>>1546889
У него скорее всего десятки сообщений, он вряд ли будет искать нужные и поштучно их сумарайзить. Да и зачем ему форкать, если в кобольде есть кнопка redo. Нажмёт суммарайз когда надо, отсуммирует, редушнет, продолжит.

Аноним 10/03/26 Втр 02:37:55 #200 №1546943

>>1546922
Ну и кобольдище. Когда будет очередной срач просто линк на этот пост скину.

Аноним 10/03/26 Втр 02:44:19 #201 №1546944

>>1546919
А чем ты пользуешься? Что за программа и чем она лучше?

Аноним 10/03/26 Втр 04:00:18 #202 №1546962

>>1546734
Кнопкой херово выходит, не используй ее. Пиши прямо там где чатишься инструкцию:

[ooc: this is not part of roleplay, this is a direct request to AI from the author. We need to stop our activity for now and make a summary of previous events. This is critical for preserving the most important events, because the context window is limited and they will disappear if we don't do it. Please generate a summary of all important previous events in our roleplay from a certain time point. I will define a time point from where to summarize below. The summary is for the AI to remember all the relevant facts, so don't forget anything that the AI needs to know about the plot. Do not define characters or their traits, they are already defined in the memory of the AI. Write only the summary of events in the following format:
[Summary Continued: events you summarize ]
Now I will show you the last events that are already in the summary, so you can find out where to start. These events are (вставить ивенты, там где начинать)
Events already in the summary:
последний кусок из саммари с ивентами
]

На такую инструкцию обычно нормальный саммари выдает прямо в окне чата, с момента когда последний в саммари был, потом ставляешь его в карточку в конец, а из чата стираешь.

Аноним 10/03/26 Втр 04:13:27 #203 №1546963

>>1546910
В Memory, он специально для саммари, идет перед промптом.
В Author's notes - туда только инструкцию вставляешь для следующего действия. Например надо, чтобы перс сбежал в ответ, пишешь туда инструкцию что перс сбежит. А после успешного выполнения убираешь.

>>1546944
В кобольд UI уже все есть для РП, он очень продвинутый. Я разбирался какая выгода ставить другие проги вроде Таверны - буквально никакой выгоды не оказалось. Оставаться в Kobold UI самое лучшее уже, он скоростной, интерфейс настраивается и все есть.

Аноним 10/03/26 Втр 04:19:56 #204 №1546964

>>1546910
У тебя в кобольде для этого кнопка скачать чат есть. Старый скачал, дальше пишешь что хочешь, скачанный остается в файлике, можно обратно его в любой момент закинуть в окно и получить целиком.
Еще есть кнопка Branch - New branch, чтобы 2 чата в одном файле было, но это на любителя, проще в разных файлах держать.

Аноним 10/03/26 Втр 05:26:22 #205 №1546979

>>1546807
Не будет нихуя. Скриньте. Ставлю жопу и прямую кишку.

Аноним 10/03/26 Втр 05:26:30 #206 №1546980

Посоветуйте лучшую модель для кодинга для рига. Влезет что-то вроде StepFun, MiniMaх, OSS-GPT в четвёртом кванте.

Аноним 10/03/26 Втр 07:20:20 #207 №1547005

>Step-3.5-Flash-IQ3_XS-00001-of-00003.gguf
Есть вообще смысл или 5 квант эира лучше?

Аноним 10/03/26 Втр 08:48:02 #208 №1547021

>>1546874
>Ду ю но да вэ?
Ой, блять, ну нахой, не надо угандошенного наклза вспоминать, древнее зло пробудилось, одна из тёмных страниц интернетов.

>>1546889
>Ебааааать
Копать.

Для сторителлинга с разбиением по главам вполне рабочий вариант.

>>1546963
>ставить другие проги вроде Таверны - буквально никакой выгоды не оказалось
Сэйм, единственный минус Кобольда - системный промт нужно прописывать в саму карточку. Ну, хотя можно просто Saved State наделать. Продвинутыми фичам лорбуков вроде случайных срабатываний всё равно не пользуюсь.

Аноним 10/03/26 Втр 09:28:06 #209 №1547044

>>1546032
Бро, а arkprojects это случайно не ты?

Аноним 10/03/26 Втр 09:45:17 #210 №1547049

>>1543635 →
https://www.reddit.com/r/LocalLLaMA/comments/1rpbfzv/evaluating_qwen3535b_122b_on_strix_halo_bartowski/
Да блять!

Аноним 10/03/26 Втр 09:53:54 #211 №1547052

Кто-нибудь из вас щупал 80б квен некст плотно? Дерьмо или стоит пробовать?

Аноним 10/03/26 Втр 09:58:23 #212 №1547054

>>1547049
да вроде все нормально, в новой ламе оптимизаций завезли.
А про UD вроде все говорили что она медленная

Аноним 10/03/26 Втр 10:06:00 #213 №1547056

>>1547054
Там вопросы к качеству и квантизации пары слоев. Перекачивать я уже не буду, просто есть надежда что ленивцы поднапрягут извилину допилить свои квантовки до конца.

Аноним 10/03/26 Втр 10:08:49 #214 №1547057

>>1547056
А можно было давно скачать кванты бартовски и не ебать себе мозг
Или культ ленивцев охотится за теми кто смеет использовать другие кванты?

Аноним 10/03/26 Втр 10:11:14 #215 №1547058

>>1547057
Можно было бы прочесть ветку и не предлагать то, у чего с башкой еще большие проблемы. Вот что можно, так это начать жать кванты самому лол.

Аноним 10/03/26 Втр 10:15:01 #216 №1547059

Вот это в chat-template - это насколько важно?
То есть там прямо строго вообще всё дообучение instruct-модели было строго по этому формату и если я от него отклонюсь - оно будет тупить? А насколько сильно?
Или я например могу поставить чуть другой текст про инструменты, поменять формат на json и убрать требование что системное сообщение должно быть в начале?

То есть формат вызова инструментов - это окей.
Но почему системного сообщение то второе нельзя дописывать? По типу, что пользовательское сообщение - это то что пишет человек, а системная инструкция с мета-информацией, по типу что "у тебя осталось 40к токенов и 10 поисковых запросов на ответ". Это же точно не пользовательский ввод, а системный.

Хочу glm-4.8-flash, хотя бы 50B-A8B... Или хотя бы glm-4.7v на 100B.

Аноним 10/03/26 Втр 10:31:10 #217 №1547066

>>1547044
<thinking>
Вроде ничего плохого не писал так что по лицу не должно прилететь. Значит можно ответить что да
</thinking>
Да

Аноним 10/03/26 Втр 10:35:50 #218 №1547068

>>1547059
Можешь что угодно в жинже писать. На сколько от этого ошизеет конкретная моделька? Да хуй его знает, как карта ляжет

Аноним 10/03/26 Втр 10:45:15 #219 №1547076

>>1547066
Орнул с ризонинга, я тебя по оверам походу знаю и по gfx906, я тоже любитель в некро и не только железе поколупаться, в свое время обмазывался рдшками, ща на 4677 перекатываюсь, так же есть парочка mi50@32, рад тебя видеть на двоще, пости больше фоток и тестов!

Аноним 10/03/26 Втр 11:04:59 #220 №1547087

>>1547076
Я больше не по некроте, а по всякому странному железу, ачивку "первая рдшка в кармане" получил в 2022. До неё был первый сервер борд с стипендии шараги в 2018 intel s2600cp.
В мишки залетел ещё год назад когда они прям новые ещё продавались (потом уже юзаные приходили). С депо дацн доской за пачку сухариков тоже та ещё авантюра была

Аноним 10/03/26 Втр 11:29:59 #221 №1547106

>>1547087
Мне мишки тоже новые пришли, по 11к с доставкой вышли, рдшку первую я кажется в 2023 покупал за 7к, потом с фиша и с алибабы еще две брал по 3-3.5к. Я в целом железо люблю, разное, и некро и свежак и странноэ всякое, ща собираюсь на W790E-SAGE SE + QYFS (инж)
https://forums.servethehome.com/index.php?threads/asus-pro-ws-w790e-sage-se-intel-xeon-sapphire-rapids-spr-sp.41306/ В марте 2025 успел купить 256 гигов рдимм ддр5, по 6к за 32гб модуль. Поехала на 6000 - это успех на инже

Аноним 10/03/26 Втр 11:45:43 #222 №1547122

>>1547106
> W790E-SAGE SE
Что то на богатом. Одна доска в ритейле как 2/3 моей ллм башни

> с фиша
Меня там с порога экрана логина забанили

Аноним 10/03/26 Втр 11:49:55 #223 №1547125

>>1547122
>Что то на богатом
Пик, брал уценку, типа витринный образец или типа того, не было ориг коробки, а так весь комплект целый, доска новая

>забанили
Я через посредника заказываю

Аноним 10/03/26 Втр 11:55:55 #224 №1547130

>>1547052
В 80 инстракте есть "душа". И к сожалению
Очень
много
квенизмов.

Аноним 10/03/26 Втр 12:30:01 #225 №1547154

>>1547125
И тут депо засветился. Главные поставщики приколов теперь?

Аноним 10/03/26 Втр 12:36:58 #226 №1547161

Не могу разобраться насчёт апгрейда.

V100 мне скорее нравится. Если через ламу, то скорости генерации мне хватает, скорость анализа картинок тоже хватает (я прям удивлён насколько оно быстро, будто бы можно почти в реальном времени видео смотреть без пропусков кадров), сильно не хватает скорости промт-процессинга. Но у неё CC7.0, в то время 7.5 открывает доступ к FA1, 8.0 к FA2, 9.0 к FA3 и вот уже FA4 выкатили в vLLM.
Нейронка подсказывает, что в плане промт-процессинга FA1 ускоряет в 2.4 раза, FA2 в 2.0 раза, FA3 в 1.75 раза - и это то что мне нужно. По FA4 нет цифр, но если оно работает на CC10.0 на B100, то и на 5090 с CC12.0 заработает.

Итого можно взять ещё V100, доступ к большим моделям. Если модель не увеличивать, то это просто в два раза больше pp, так как в два раза больше карт.
Можно перекатится на 3090 с 8.0+, но их нужно сразу две как минимум, так как всего 24 гб памяти и туда даже 30B не затолкать толком.
40хх - это 8.9, достаточно бессмысленно; если целится в FA3, то это сразу 50хх. А тут или 5090, 6000 pro на 96 гб или 5000 pro на 72gb. Ну, или 2х5060ti по 16 гб, лол.

Ситуация осложняется тем, что это в целом баловство, никакого полезного применения я этому не придумаю.
Вариант с 2х5060ti выглядит привлекательным. Это очень дешёвые 32 гб с CC12.0. На втором месте две 3090, наверное - но меня очень напрягает, что за декабрь у двух анонов их 3090 рассыпались.
Есть RTX PRO 5000 72GB Blackwell и RTX PRO 6000 96GB Blackwell. Вторая в два раза быстрее, а дороже не особо сильно. В промт-процессинге производительности влияет и по идее это очень хороший вариант, ещё и с памятью. Если всё на одной карте, то можно хоть в pcie3.0 её втыкать. Но это всё-таки баловство, я лучше велосипед соберу новый.

Аноним 10/03/26 Втр 12:46:19 #227 №1547164

>>1547161
Если у тебя только в100 (одна или в количестве) то попробуй вллм

Аноним 10/03/26 Втр 12:56:40 #228 №1547176

>>1547161
Dense модели требуют поддержки FA на всех картах, или это необходимо только для нулевого слоя? Попробуй миксануть, первой картой блоквел, дальше в100. В МоЕ мне кажется должно и так работать.

Аноним 10/03/26 Втр 13:13:21 #229 №1547188

>>1544796 (OP)
Обещал отчитаться об опыте с "цензурным" с китайским слопом - докладываю.
MiniMax M2.5 (Q4KM от AesSedai, 4.9 bpw).

В роли подопытной крысы - наркоманка Фифи.
Сценарий - юзер говорит "ну нахер" в ответ на NSFW мусор и уводит историю в другом направлении.

Наблюдения:
> 1. Ризонинг оказался не нужен. Качество ответов падает, даже если модель заставили ризонить в рамках NSFW.
> 2. Содержание <think></think> префилла влияет на ответы, цензура убирается (на 1 скрине в самом начале пруф бесцензурности).
> 3. Генерация без инпута юзера продолжает историю неплохо. Чар может стелить былины сам по себе, сиди да кнопку нажимай.

Master-профиль для ST: https://text.is/MiniMaxRP_for_2ch (Context/Instruct темплейты именно для <think></think> префилла).
Sysprompt НЕ был написан для М2.5 - он взят от GLM 4.7, так что есть ли толк для этой модели или нет, вопрос спорный.

Из очевидных минусов модели - периодически возникающая неопределенность в писанине (всякие "может быть то, может быть это").
Восприятие русского инпута - великолепное.
Способность отвечать на русском - иногда впечатлающая (не хуже геммы), но косячит сильно. Проблема семплера? Проблема квантизации? Не знаю, Q8 нет возможности проверить - нужно 256гб оперативки.

По качеству прозы модель слабее больших GLM (не эйры/фээши), но в то же время с ней легче чатиться. Она ближе к юзеру, охотнее входит в роль. Если флагманский GLM пытается корчить из себя писателя, то эта хуйня - разговорная.

База знаний существенно больше мелких инвалидов. Справилась с лором TYPE-MOON поделий типа Fate/ и Tsukihime. Есть подозрение, что большие лорбуки могут запутать модель (по крайней мере, гигантский пласт знаний по Mahoutsukai no Yoru и расширенные карточки Aoko / Alice заставили модель срать спойлерами, несмотря на инструкции не срать спойлерами; впрочем, GLM 4.6 и 4.7 не лучше - любая ллм питается контекстом и норовит насрать в чат информацией из него).

Модель хорошо следит за статусом персонажа. Смена одежды и прочие атрибуты получают внимание по ходу продолжения чата.

Аноним 10/03/26 Втр 13:15:27 #230 №1547191

>>1546944
Таверна, конечно же. У нее много недостатков и особенностей, но базовый функционал она обеспечивает несравненно лучше чем кобольд. Тут наглядная демонстрация.
В одном случае у тебя и "удобство" (минимум ручных манипуляций) и в конечном счете единый комфортный чат, в котором и все посты, и видишь границу между суммарайзом и активными. В другом - какой-то безумный треш с ручным переписыванием, невозможностью нормально выбрать что именно суммарайзить (все или ничего) и отсутствием элементарных вещей.
Идея суммарайза продолжительных чатов в том, что они должны быть в меру подробные, структурированные чтобы сетке проще было с ними работать, и находились перед активными сообщениями. Которых должно быть не меньше нескольких десятков чтобы экспириенс был гладким и было минимум изменений при конверсии части чата.
Ну а по кобольду - тут как с микромоделями, в простых задачах они тоже могут ответить не хуже крупных. Но начнешь развивать тему или чуть в сторону - разница уже значительна.
>>1546980
Минимакс, квен 397, кодер480, жлм5, кими
> Влезет что-то вроде
Минимакс

Аноним 10/03/26 Втр 13:17:05 #231 №1547192

>>1546362
>переводе обосралась, переведя collar как воротник, а не ошейник.
Чел... Перевод этого слова СИЛЬНО от контекста зависит. А с переводом учетом по контекста и мясные регулярно обсираются. У этого слова вообще дохера значений в английском. Причем ошейник - не главное, и для однозначности в этом смысле используется обязательно с уточнением: dog-collar.
Чтобы твои подобные аргументы серьезно смотрелись - не слово а предложение приводи, которое переводилось. Это важно в подобных случаях.

Аноним 10/03/26 Втр 13:29:57 #232 №1547197

>>1547188
Что-то в этом есть. У неё же всего 10б активно?

Аноним 10/03/26 Втр 13:31:18 #233 №1547199

>>1547059
> Но почему системного сообщение то второе нельзя дописывать?
Если так уж хочешь - убери тот пункт. Но учитывая желание юзать системное сообщение чтобы
> по типу что "у тебя осталось 40к токенов и 10 поисковых запросов на ответ"
они все сделали правильно что запретили. Это ну никак не системное сообщение, которое является мощнейшей инструкцией и якорем внимания, а не сраным микроуведомлением. Пихай в пользовательское, при необходимости дообернуть.
>>1547161
Вопрос в том, чего именно ты хочешь добиться, у тебя перечислено от ультрадешмана до очень дорогих железок, в 20 раз отличия. Ты лучше скажи что хочешь получить и сколько готов потратить.
> Нейронка подсказывает
Вот почему не стоит к нейронкам обращаться по этому поводу, информация формально верная но не особо релевантна.
>>1547164
Плохая идея, он там работает отвратительно. Нет поддержки нормальных квантов, gguf только через лоботомирующий рекаст дататипа (это не только для v100 а для всех актуально, поддержка чисто формальная и тормозная), нет накостыленного fa а вместо него sdpa, еще всякое. В итоге скорости ниже чем на жоре, модель частично поломанная, потребление памяти больше. V100 сейчас - только llamacpp, врядли что-то изменится.
>>1547176
Если речь про vllm - только для всех. На w4a16/w8a16 квантах ты можешь смешать амперы-аду-блеквелл, при этом под каждую будут выбраны соответствующие кернели и все будет работать прилично. На полном fp8 аду-блеквелл, для добавления амперов придется немного поколдовать. Добавить туда вольту или другую некроту - никак.
Ну а на жоре легко. Только с выгрузкой на больших моделях ускорения от v100 будет немного, а в фуллврам она станет якорем, тянущим на дно замедлением.

Аноним 10/03/26 Втр 13:34:26 #234 №1547204

>>1547197
Ну да. Одной видюхи хватит, лишь бы RAM было 128 гигов.

Аноним 10/03/26 Втр 13:36:02 #235 №1547206

Подскажите, куда темплейт модели вставлять? В кобольде/таверне

Аноним 10/03/26 Втр 13:37:53 #236 №1547208

>>1547206
Насчет кобольда не знаю, а в таверне вот эта вкладка - темплейты текст комплишна там.
Jinja туда не засунуть, надо именно под таверну пилить. Там еще кнопка мастер импорт/экспорт есть отдельно для большого профиля где сразу все темплейты под модель (если такой профиль есть)

Аноним 10/03/26 Втр 13:42:11 #237 №1547215

>>1547154
Хороший магазин, интересные железки по интересному прайсу можно выцепить, но количество всегда ограничего, надо постоянно мониторить

Аноним 10/03/26 Втр 13:42:26 #238 №1547216

окей, умные корпоративные ии не могут решить задачу заставить тупой локальный ии использовать тулзы ебаной клешни, а тред соответствующий шлёт к вам. Вопрос: люди добрые дайте на пропитание какую модель использовать для клешни если у меня видяха 16gb чтобы он мог хоть какие-то тулзы вызывать. Я так понял нужно чтобы сама модель так умела делать, но что ещё нужно не понял. Много от него не хочу - просто чтобы файлики по папочкам раскидывал(сортировка) и по мелочи. Но сейчас пытаюсь его заставить хотя бы навык clawhub вызвать, а он pic
спасибо заранее

Аноним 10/03/26 Втр 13:45:20 #239 №1547221

>>1547208
Темплейт в стори стринг нужно вписать?

Аноним 10/03/26 Втр 13:48:00 #240 №1547224

>>1547221
Можешь на примере выше посмотреть как выглядит .json с темплейтами
>>1547188
>Master-профиль для ST: https://text.is/MiniMaxRP_for_2ch
или просто открой любой дефолтный и посмотри как оно сделано (может даже экспортировать в .json любой пресет)

Аноним 10/03/26 Втр 13:49:27 #241 №1547226

>>1547216
Я думаю тут посетители треда ни про какие клешни даже не слышали. Суть треда - шизики заставляют ЛЛМ ролеплеить за шлюх.

мимо шизик

Аноним 10/03/26 Втр 13:50:15 #242 №1547227

>>1547226
заставлять ЛЛМ ролеплеить за шлюх этот тред меня уже научил

Аноним 10/03/26 Втр 13:52:00 #243 №1547229

>>1547224
Это не то, что я спросил. Я скопировал темплейт со страницы модели. В какое окно в таверне его нужно поместить? Ну или какой док создать и как подружить с таверной. Объясни

Аноним 10/03/26 Втр 13:53:35 #244 №1547231

>>1547216
16Гб VRAM - только Qwen3.5-35B-A3B . Еще может хватит мозгов у Qwen3.5-9B .
Кванты брать у (не)ленивцев.

Аноним 10/03/26 Втр 13:57:10 #245 №1547233

>>1547216
У тебя сразу два вопроса - по использованию модели и по корректным вызовам, они не связаны. В 16гигов и для такого применения, чтобы было не супер медленно - квены 35а3/27б, флеш эйр 30а3. В целом, новые квены большие умнички и хорошо работают с клешней, по идее и эти что поменьше должны справляться.
Чтобы обеспечить корректные вызовы насколько это вообще применимо к жоре тебе нужна самая последняя версия, где реворкали парсер, и свежий квант. Запускаешь обычными параметрами, добавляешь аргумент --jinja.
Проверить работоспособность можешь вот этим скриптом https://pastebin.com/Q1n4b8sV

Аноним 10/03/26 Втр 13:59:54 #246 №1547236

>>1547229
Если ты про херотуру со 2й пикчи -
>Я скопировал темплейт со страницы модели
тебя сразу предупредили, что jinja темплейты не подойдут для текст комплишна в таверне. Такие темплейты надо переписывать под текст комплишн в таверне.

Твои варианты:

A. Попробовать режим чат комплишна, а модель загрузить с галочкой на use jinja в кобольде. Тогда будет использован этот самый встроенный профиль, который ты хотел вставить.
Б. Выгрузи из таверны (через master export) профили типа chatml и прочих (чем больше примеров, тем лучше; штук 5 сойдёт), загрузи в какой-нить чатгпт или дипсик эти файлы, и дай ему тот самый темплейт со страницы модели и попроси запилить темплейты для SillyTavern по образцу выгруженных из таверны профилей от других моделей.

Аноним 10/03/26 Втр 14:01:28 #247 №1547237

>>1547236
Очевидно, кстати, что с вариантом Б могут быть косяки. Придется пробовать и пердолиться. Несколько итераций и внимательного контроля - и скорее всего взлетит.

Аноним 10/03/26 Втр 14:02:23 #248 №1547239

>>1547236
>>1547237
А да, и че за модель-то? Сначала всегда гугли - может она дружит с каким-то из существующих профилей в таверне, или кто-то уже запилил для нее профиль и выложил в сеть

Аноним 10/03/26 Втр 14:05:46 #249 №1547242

>>1547231
>>1547233
я может что-то не понял, но как этот Qwen3.5-35B-A3B слон поместится в мою посудную лавку? Выгружать его на проц?

Аноним 10/03/26 Втр 14:13:18 #250 №1547249

>>1547236
Хорошо, я попробую через кобольда эту жинжу подхватить. Просто запустить его с этой галкой, если правильно понял.
Второй способ попробую как-нибудь в другой раз, звучит сложновато для меня, боюсь поломать таверну
>>1547239
Qwen3.5-27B-heretic, мне его тут посоветовали. Где гуглить подобное? Есть какие-то сайты с профилями?

Аноним 10/03/26 Втр 14:14:10 #251 №1547251

>>1547242
Да, выгружать, но поскольку это микромоэ это не большая проблема, используй --ncmoe. А вот с аркой тебе уже придется попердолиться.

Аноним 10/03/26 Втр 14:16:39 #252 №1547252

>>1547251
>с аркой тебе уже придется попердолиться
Вулкан же, вообще никакого пердолинга

Аноним 10/03/26 Втр 14:21:46 #253 №1547256

>>1547249
вроде квены с ChatML работали, по крайней мере предыдущие версии - можно попробовать для context/instruct темплейтов

Аноним 10/03/26 Втр 14:22:43 #254 №1547258

Кстати в треде ведь полно квено-дрочеров. Дайте челу темплейты, а то бедный ньюфаг страдает >>1547249

Аноним 10/03/26 Втр 14:29:33 #255 №1547262

>>1547191
Помоги настроить суммарайз в таверне. Какие кнопки нажать, какие инструкции вписать, чтобы всё сохранялось адекватно в ролеплее? Я должен что-то отдельно делать раз в 10 ответов или больше? Расскажи пожалуйста

Аноним 10/03/26 Втр 14:30:15 #256 №1547263

>>1547199
>Ты лучше скажи что хочешь получить и сколько готов потратить.
А это смотря на что потратить. Сейчас простыню напишу. Я уже месяц думаю.
Знать бы, тут есть какая-то нелинейная градация. Типа потратить в 4 раза больше на х10 производительность - это интересно. Но потратить в 10 раз больше на х40 производительность уже не очень интересно, так как х10 производительность - это уже уровень насыщения и дальнейшее ускорение не потребуется.
--
Если размечтаться — хочу на 30B MoE получить префилл от 5000/s (не обязательно в один "поток", если оно как и генерация при нескольких конкурирующих запросах ускоряется), генерация от 40/s в один поток (и от 15/s в 10 потоков). Первое требование V100 выполняет на 10%, второе на 200%.
--
Потратить ориентировочно (снова размечтался): за 2000/40/15 - 80к, за 5000/40/15 - 150к, за 10000/60/25 - 250к, за 20000/100/50 - 400к. +100к к числу, если это позволяет в видеопамяти без претензий к скорости запускать 100B (аир и гвен-некст), +200к к числу, если это позволяет запускать 230B (минмакс, степ). Из рам не хочу, так как у меня нет системника с ddr5 и я не хочу его собирать.
--
По таким признакам и 4хV100 проходят по категории за 80к+100к, так как оно позволяет запускать 100B в видеопамяти, и имея в наличии одну V100 за 180к я ещё три добуду. А ещё можно докупить до 6, это уже и 200B влезут, хотя конечно не знаю что у них со скоростью будет и не будет ли это хуже, чем одна 3090+системник с ddr5. Впрочем, мне не нравятся большие модельки, я больше ориентируюсь на 30B.
2х3090 как-то не очень проходят. С FA2 оно по идее проходит требование 2000, и с имеющейся V100 проходят требование для запуска 100B - но меня очень напрягает что они б/у и разваливаются.
2х5060Ti скорее всего смогут выполнить требование в 2000, но не укладываются в 80к.
А вот blackwell 6000 pro по найденным мною цифрам требование в 10к свободно пройдёт, но чуть-чуть не дотягивает до запуска 200-230B. Было бы там 160 или даже 128 гб памяти и даже будь она чуть подороже - взял бы не думая, зная что мне хватит её на все мелко-средние модели на пять лет назад и она не устареет, и куча софта её будут поддерживать ещё много лет, и даже условный qwen 6.0 я всё ещё на ней буду запускать, а не как A100/3090, которые следующие на выбывание. Жутко соблазнительно, конечно, оно и на грани того что я почти готов её купить, и на грани того, что она абсурдно избыточна и вау-эффекта по сравнению с 2х3090 не будет. И 5090 бред какой-то, вроде быстрая, но соотношение производительности и объёма памяти несбалансированное очень сильно, слишком дорогая для возможности запуска лишь 30B с контекстом в 120к, которого не хватит больше чем на три с половиной конкурирующих запроса.

Аноним 10/03/26 Втр 14:56:54 #257 №1547280

>>1547263
Какие-то ебанутые сравнения. Пара 3090х стоит 100к, одна 6000 стоит 1 лям.

Аноним 10/03/26 Втр 15:03:36 #258 №1547286

>>1547280
Походу он нагаллюцинировал после 8 марта, я тоже пока читал, глитчи ловил

Аноним 10/03/26 Втр 15:21:44 #259 №1547303

>>1547263
> она не устареет
Я б не стал зарекаться. И видяха за лимон - это как машина: выехал из салона сразу -10% стоимости. Опять же покупателя на нее еще потом найди. Корпы вон V100 сейчас вынуждены "раздавать" - так они хотя бы имели возможность хоть немного отбить их стоимость.

Аноним 10/03/26 Втр 15:27:20 #260 №1547306

>>1547280
Я и предупредил что простыню напишу.

>Пара 3090х стоит 100к
Где? Я вижу 3090 только по 60-70к. Я пойду и куплю сегодня по 50к.
6000 была за 800к взять и купить, на авито всякие серовозы были по 700к. Ну, в январе. Капец. Неужто повышение цен на V100 до 40-45к это та же волна, что и повышение цен на 6000 с 800к до 1000к?

Аноним 10/03/26 Втр 15:30:09 #261 №1547309

>>1547306
>Где
Периодически на лохито появляются.
Надо терпеливо следить и фильтровать говяные предложения.
Я себе одну 3090 FE за 50 взял, и одну палитовскую тоже за 50. Впрочем это было в ноябре-декабре, но все равно даже щас иногда Авито тычет в лицо объявлениями по 50 - 55. Просто их быстро забирают, если они не раздолбанные.

Аноним 10/03/26 Втр 15:39:27 #262 №1547316

>>1547303
>Корпы вон V100 сейчас вынуждены "раздавать"
Думаю они их просто списали на утилизацию в Китай по цене песка и металла, а уж раздают сами китайцы с разборов.
>>1547306
>Я пойду и куплю сегодня по 50к.
Могу продать один из неудачников со сдохшей картой.

Аноним 10/03/26 Втр 15:43:32 #263 №1547318

>>1547316
> Думаю они их просто списали на утилизацию в Китай по цене песка и металла, а уж раздают сами китайцы с разборов.
Скажу больше, они ещё и заплатили за эту самую "утилизацию". Китайцы слишком ушлые и просто так железо у них только на бумаге отправляется в шредер

Аноним 10/03/26 Втр 15:44:07 #264 №1547319

>>1547309
>Периодически на лохито появляются.
Здорово ты самый-самый низ рынка привел в пример. В таких случаях обычно говорят "можно найти и за 50к", а не "стоят".
Потому что "стоят" - это "их обычно можно купить за".

Аноним 10/03/26 Втр 15:48:40 #265 №1547324

>>1547319
Ты пойми - за 60-70 никто их не берет. Часть висящих сейчас за 60-70 сами же продаваны опустят ниже, когда их заебет полная тишина и ноль заинтересованных. Просто это дело требует ожидания. Набери кучу карточек в избранное и следи, листай новые объявления ежедневно.

Аноним 10/03/26 Втр 16:08:16 #266 №1547336

>>1547309
>Надо терпеливо следить
>Просто их быстро забирают
Чел, это называется мониторить с красными глазами до посинения, тем более что у авиты явно есть доступ по знакомству к модерируемым объявлениям для всяких барыг. Для нормального человека большая удача там чет выловить хотя бы в рамках месяца.
>>1547324
В эту игру можно играть вдвоем. Если большинство стоит за 60-70, значит за эту цену их худо-бедно разбирают. Не берут? Снижаешь ценник на 2к и вот, уже стучатся в личку. Авито это рассадник барыг, которые готовы держать товар до посинения.

Аноним 10/03/26 Втр 16:18:14 #267 №1547347

Как в таверне заставить бота дописать сообщение после ризонинга на 10к знаков?

Аноним 10/03/26 Втр 16:21:16 #268 №1547350

>>1547336
Видеокарточные и RAM-барыги работают по сбору урожая с готовых компов, продаваемых апгрейдящимися Васянами. Продает лошара комп за 150к, у него выкупают 3090 с рук за 40к и потом перепродают. Ты тоже так можешь делать, но это еще более заебный процесс (потому что надо людей уговаривать).

>>1547347
В смысле, у тебя просто ризонинг остановился или че? Максимальная длина сообщения может быть установлена на 10к?

Аноним 10/03/26 Втр 16:22:54 #269 №1547353

>>1547258
Пусть юзает чатмл, он подсасывается автоматом в таверне. В кобольде он тоже автоматом выставляется.
>>1547347
Чё, тяжко с кобольда в таверну перелазить? Ну вот такая она, кривенькая. Жмёшь три линии, выбираешь "продолжить".

Аноним 10/03/26 Втр 16:23:00 #270 №1547354

>таверна
>10к знаков ризонинга
Ребята вы точно ролеплей хотите или электричество жечь?

Аноним 10/03/26 Втр 16:25:35 #271 №1547360

>>1547354
Не электричество жжём, а прогреваемся перед тотальной изоляцией. Скоро наступит тёмный век, нужно будет вооружаться ежепалками и ходить в лес. Главное не брать туда клИенку, и помнить, что железную птицу не достать.

Аноним 10/03/26 Втр 16:34:08 #272 №1547368

.webp

>упоминаешь сапоги, а не ботинки на ногах персонажа
>WAIT...
>+10к знаков ризонинга

Штош...

Аноним 10/03/26 Втр 16:35:31 #273 №1547370

>>1547360
>клИенку
Ты об этой?

Аноним 10/03/26 Втр 16:37:56 #274 №1547378

>>1547368
Вы реально поехавшие. Просто зачем это терпеть.

Аноним 10/03/26 Втр 16:41:03 #275 №1547383

>>1547370
Ого, человек культуры итт. fedora tip

Аноним 10/03/26 Втр 16:43:00 #276 №1547385

>>1547263
> х10 производительность
Метрика производительности нелинейна и несколько абстрактна. Сам пишешь
> так как оно позволяет запускать 100B в видеопамяти, и имея в наличии одну V100 за 180к я ещё три добуду. А ещё можно докупить до 6, это уже и 200B влезут
то есть в игру вступает еще возможность запускать модели крупнее, а не просто очень быстро играть с мелокомоэ.
> хочу на 30B MoE получить префилл от 5000/s
Хватит просто одной 5090 (хотя там трудности с размещением контекста). Nvfp4 ебет и на паре выдаст 20к+ префилла на контекстах до 100к и более 10к на 200+, памяти хватает на кэш овер 700к сверху. 48-гиговая ада перешагнет отметку 10к в фп8.
Префилл особо не скейлится от параллельных потоков, только генерация. При смешанной нагрузке или тп будет проседать в моменты пп, или пп снизится ценой плавной генерации в зависимости от настроек. И в целом, 5000 на такой мелочи должна обеспечить даже пара 3090 если нормально подключены.
> С FA2
Забудь про FA и весь тот треш, который нейронка выдала, это имеет опосредованное отношение к вопросу.
> V100 проходят требование для запуска 100B - но меня очень напрягает что они б/у и разваливаются
Это последнее что должно напрягать, если пришли рабочие то ничего с ними не будет.
А вот о том, куда ты вообще собрался вставлять карточки - стоит подумать, при подключении через вялые чипсетные линии высок шанс пососать. И еще что перфоманс v100 на большом контексте превратится в тыкву.
> blackwell 6000 pro
Раньше в ее цену можно было взять 4 5090 со всеми плюсами. С тп на 122б более 10к пп на контекстах, многопоточная генерация за тысячу без мтп.

С трудом верится что ты можешь что-то купишь и соберешь с такой кашей в познаниях и широченной вилкой, >>1547280 верно пишет. Нет даже ясности в постановке задачи.

Аноним 10/03/26 Втр 16:48:13 #277 №1547395

>>1547385
>кашей в голове
фиксед

Аноним 10/03/26 Втр 16:48:33 #278 №1547396

>>1547350
Смску не дописал
>>1547353
Да, это оно, спасибо!

Аноним 10/03/26 Втр 16:49:50 #279 №1547399

>>1547385
> куда ты вообще собрался вставлять карточки
Куда вставлять, как вставлять, чем запитать. Везде есть нюансы от безобидных до... обидных (?)

Аноним 10/03/26 Втр 16:50:32 #280 №1547401

.jpg

>>1547378
Ну, лично мне нравится как нейронка пытается заризонить саммари с лорбуком и меншеном. Интересно наблюдать, как ии изо всех сил старается слепить адекватную историю из твоих описаний. И 10к это не предел.

Аноним 10/03/26 Втр 17:04:12 #281 №1547422

А сколько токенов в секунду считаются приемлимыми для генерации? 30, чтобы можно было сопоставить с корпоративными? Или даже на каких-нибудь 5 можно и потерпеть?

Аноним 10/03/26 Втр 17:10:19 #282 №1547427

>>1547422
5 токенов на длинном контексте (когда чат уже укатился к 100к токенам) это нормально, если нет ризонинга. Со средним ризонингом можно и 10 т/с перетерпеть. А вот с длинным ризонингом ниже 20 т/с жизни нет, ты ебанешься ждать.

Аноним 10/03/26 Втр 17:11:22 #283 №1547428

>>1547385
>4 5090 со всеми плюсами
Которых (плюсов) нет.
>>1547422
0,7. Я на стольки долго сидел.

Аноним 10/03/26 Втр 17:23:59 #284 №1547442

>>1547428
> Которых (плюсов) нет.
Больше суммарной памяти, кратно выше перфоманс в задачах с параллелизмом, это огромные преимущества. В худшем случае доступно все то же с незначительным падением перфоманса относительно одной про6000. А минус в необходимости модификаций если для крупной задачи изначально не предусмотрен тп или шардинг.

Аноним 10/03/26 Втр 17:39:54 #285 №1547451

Oh, boy, here we go 1.jpg

В чем разница между "thinking" и "reasoning"? То есть как они хотят получить ризонинг без мыслей?

Аноним 10/03/26 Втр 17:43:20 #286 №1547453

>>1547451
Наверное типа задачки на логику решать, но не использовать синкинг.

Аноним 10/03/26 Втр 17:47:09 #287 №1547454

>>1547442
>В худшем случае
Всё горит от 4х600 ватт потребления. Редко какие БП имеют даже два 16 пиновых коннектора, так что проблемы от синхронизации 2-4 блоков.
>А минус в необходимости модификаций
В которые могут не только лишь все.

Аноним 10/03/26 Втр 17:56:47 #288 №1547458

>>1547454
Поэтому придется брать несколько (тех же делл/хп/дельт) и райзера которые связаны только дата линиями.

А ещё в своём говнориге не сделал общую землю и если касаться двух разных БП то натурально пиздило током. Выводы сделаны, изменения внесены

Аноним 10/03/26 Втр 17:57:46 #289 №1547459

>>1547451
>thinking
Стандартный процесс. Все модели должны синкать свиминг пул, чтобы не генерить совсем бред.
>reasoning
Те самые 10 минутные разборы по полочками всех хуйни, что есть в саммари, лорбуке, сценарии и промте, чтобы вести рп в заданном направлении.
>как они хотят получить ризонинг без мыслей
Видимо чтобы каждый ответ был с ризонингом, без околорандомной генерации. Только чистый, незамутнённый разум. Ебало имаже?

Аноним 10/03/26 Втр 18:27:30 #290 №1547475

>>1547442
Ты забыл упомянуть о том, что продать их будет в разы проще 6000, В РАЗЫ

Аноним 10/03/26 Втр 18:34:53 #291 №1547486

>>1547454
> Всё горит от 4х600 ватт потребления.
С чего вдруг? Суперцветок на пару киловатт не так давно стоил 28к, пары таких хватит не весь риг, если комплектных кабелей не хватает - питерские мастера делают качественные по ~2.5к.
> В которые могут не только лишь все.
Безусловно, но с современными ллм это проще чем насобирать денежку.
>>1547475
И покупать можно постепенно, начиная с малого и сразу радуясь новому!
А если представить гипотетическую ситуацию возможной конверсии как с 4090 - слепящий вин врядли потому что даже если сделают то стоить будет в сумме почти как та же pro6000

Аноним 10/03/26 Втр 18:36:44 #292 №1547493

>>1546626
>Главное
Вот базанул так базанул, редко встретишь такого ученого жизнью анона, думаю многим в треде полезно будет это услышать

Аноним 10/03/26 Втр 18:39:00 #293 №1547495

>>1546979
Удваиваю, я в том треде с утра сижу

Аноним 10/03/26 Втр 18:44:13 #294 №1547500

Oh, boy, here we go.jpg

Oh, boy, here we go 2.jpg

inlineimage17730756940620 2 2k.png

>>1546878
>Это пиздец, чел. А хули всё так плохо?
Эх, парень, здесь мы идём!

Аноним 10/03/26 Втр 18:46:44 #295 №1547505

>>1547486
>С чего вдруг?
Проводка советская не выдержит.
>гипотетическую ситуацию возможной конверсии
Мечты, мечты...

Аноним 10/03/26 Втр 18:47:38 #296 №1547506

>>1547486
>возможной конверсии как с 4090
Викон вроде упоминал о том, что такое с большой вероятностью будет возможно, так что это еще один камень в огород оверпрайснутой 6к

Аноним 10/03/26 Втр 18:48:31 #297 №1547508

inlineimage17726544367700.jpeg

>>1547500
Почему это выглядит сложнее, чем когда я на лапше фигачил реализацию трансформера?
Кстати, что за дополнение к таверне?

Аноним 10/03/26 Втр 18:49:21 #298 №1547509

>>1547500
Антон, спокойнее. Красивое.

Аноним 10/03/26 Втр 18:51:47 #299 №1547511

>>1547500
Давай делись, что ты там нахуевертил и как это работает

Аноним 10/03/26 Втр 19:00:32 #300 №1547520

Суммарайз.jpg

inlineimage17726553277500 1.png

inlineimage17727351298230 1 redacted.png

>>1547508
Эта лапша - Flowchart. Я ей проверяю сообщения на несовпадение с ворлдбуком.
Я ещё для суммарайза Qvink Memory использую.

Аноним 10/03/26 Втр 19:03:54 #301 №1547521

>>1547520
А кроме этого какие-то еще аддоны есть? Выглядит, будто у тебя все получается очень хорошо. Интересно, есть ли какая еще скрытая годнота.

Аноним 10/03/26 Втр 19:09:41 #302 №1547524

>>1547511
Эта хуйня берёт последнее сообщение и подаёт на вход в нейронку с заголовками записей ворлдбука (в которых написано краткое описание) и требованием выдать номера записей, которые могут относиться к этому сообщению.
Потом снова берётся последнее сообщение в чате, из ворлдбука вытягиваются все записи, которые нейронка пометила как соответствующие предыдущему сообщению (из ответа с номерами вытягиватся номера записей), к последнему сообщению подмешивается запрос "проверить это сообщение на несовпадение текста и инфоблока, логические ошибки и несоответствие вот этой хуйне", где хуйня - вытянутые записи ворлдбука.
Затем результат добавляется в чат сообщением от ассистанта (можно прямо поменять ответ нейронки, но нет пути, я и вручную по замечаниям поправлю).

Аноним 10/03/26 Втр 19:21:04 #303 №1547532

>>1547524
>и подаёт на вход в нейронку с заголовками записей ворлдбука
А re-rank пробовал для этого использовать вместо запроса на генерацию обычного? Он создан для этого.
Типа топ-50 берёшь по эмбеддингам, и топ-10 по re-rank, ну или там по критериям разные количества.

Аноним 10/03/26 Втр 19:34:59 #304 №1547539

Запись экрана 2026-03-10 192257.mp4

>>1547521
Нестандартных аддонов больше нет.
Главное - это корпы и chat completion (из интересного - промпт на HTML-панели - был тут пару тредов назад). Хотя вот если будет модель, которая реально работает со 128к лёгкого контекста - то можно будет попробовать локально мучаться.
А самое главное - много, очень много допиливания руками для отслеживания всего подряд, фикса косяков, дописывания и переписывания.
Картинка с Изаной, кладущей цветы на пустые места Нагатэ и Хошиджиро на похоронах Акая - это предварительно нарезанные, отредактированные (чтобы вместо четырёх фото всего отряда Акая было только одно его и из кадра убраны люди) и склеенные (там, где панорама) скриншоты из аниме, которые потом запихнулись на вход корпа для генерации описания в ворлдбук, которое потом использовалось для генерации события, которое потом (вместе с референсами из аниме и отредактированным скрином) использовалось для генерации картинки (которая потом ещё допиливалась).
Но если пердолиться - погружение будет просто обосраться.

Аноним 10/03/26 Втр 19:36:11 #305 №1547541

>>1547475 >>1547486 >>1547385
Короче вы рекомендуете собирать на материнке с pcie5.0 сколько потребуется 5090 - одну, две или больше, будет мои 10к pp на мелкомоделях. Или если всё-таки не 5090, то забить на то что как мне кажется 3090 ненадёжные и горят - и поставить 2 или больше 3090. Впрочем, я сейчас нашёл по 60к, и вроде как из нормального авито-лота с 500 отзывами.

Несколько 5090 я без проблем подключу, у меня и 380 вольт дома есть, и с микроконтроллерами я знаком, уж как-то несколько блоков питания одновременно включить я в состоянии, даже дополнительных деталей не потребуется, только ещё блоки питания.

>Nvfp4 ебет
Да, вот его я хотеть. А ещё у 50хх вроде как аппаратная поддержка fp6 есть. Если сделают nvfp6 - и это будет "нативный квант" как и nvfp4, то это прям золотая середина будет для мелкомоделей, которым не очень четвёртый квант если вызовы инструментов и прочее с цифрами.

>Нет даже ясности в постановке задачи.
Да я же сразу об этом предупредил. Баловство, реальной задачи нет. Если бы была, то я бы под неё решение сам при критериям быстро нашёл. А так то что я про 5000/s префила написал - это из головы.

Окей. В таком случае я беру у соседа погонять 3090 на недельку, потом беру погонять 5090, проверяю их в ламе, в vllm, в exl3 - смотрю что и как работает, что в многопотоке.

Аноним 10/03/26 Втр 19:36:27 #306 №1547542

>>1547532
Хз про что ты.
В этом расширении просто можно в цикле отдельно заголовки выдернуть и написать "вот тебе список, ответь только перечнем номеров позиций".

Аноним 10/03/26 Втр 19:40:53 #307 №1547549

>>1547509
Вас заметили.
Чёрт, в инфоблоке латиницей было.

Аноним 10/03/26 Втр 19:43:25 #308 №1547552

>>1547541
Хоспаде, как же ты пишешь тяжело, весь мозг расплавился от твоих постов, даже мелкоквен тебя уделает в прозе, сириосли

Аноним 10/03/26 Втр 19:48:21 #309 №1547554

>>1547539
>ДЗ
Поливановщина, моё любимое. Давно бросил играть в китайские мультики. Скучно. Теперь сочиняю собственные сеттинги, базируя миры на прочитанном массиве книг.

Аноним 10/03/26 Втр 19:54:56 #310 №1547558

>>1547554
Я в это играю только потому что мою жопу ещё в декабре разорвало от сценарного поворота, устроенного Цутому Нихеем.
Это даёт мне сил уже третий месяц тратить на этот ролеплей кучу времени, погружаясь всё глубже и обмазываясь всё большим количеством всякого.
Ещё б TTS нормальные были - я б ещё и семплы из аниме нарезал и озвучку делал. Когда-нибудь мы доберёмся и до этой хуйни.

Аноним 10/03/26 Втр 19:55:02 #311 №1547559

>>1547506
Возможно, скорее всего сломают. Но с текущим ажиотажем вокруг памяти и пока сделают высока вероятность что оно будет стоить столько же, а про6000 просто подорожает. А может и не будет, гадать можно сколько угодно.
>>1547539
> chat completion
> HTML-панели
Между этим есть связь, в обычном комплишне невозможно?
>>1547541
Ничего не рекомендуем, ты рассматриваешь сильно разные варианты и задачи. Здесь почти все собирали что-то постепенно плавно меняя конфигурации, или сразу понимая что нужно и на что идут брали конкретные платформы.
А тут странные и противоречивые вещи.
> которым не очень четвёртый квант
Если что, эффективная битность нормального nvfp4 как раз ближе к 6 bpw, и это с натяжкой qat.
> и с микроконтроллерами я знаком
На 95% уверен что у тебя какая-то примитивная задача из компьютерного зрения или классификации, которая решается простой моделькой что может крутиться на цп. Но ты пытаешься присрать мультимодальное моэ и компенсировать высокими требованиями к скорости.

Аноним 10/03/26 Втр 19:58:48 #312 №1547562

>>1547559
>Между этим есть связь, в обычном комплишне невозможно?
Возможно, просто я хз куда его в text completion пихать.

Аноним 10/03/26 Втр 20:05:30 #313 №1547567

>>1547562
Кого его, промпт?

Аноним 10/03/26 Втр 20:11:56 #314 №1547576

>>1547567
Да, промпт.
Я тебе ссылку на пост с этой годнотой нашёл.
https://2ch.su/ai/res/1495582.html#1498071

Аноним 10/03/26 Втр 20:16:02 #315 №1547586

>>1547576
А куда вставляешь в чаткомплишне? Туда же и тут, скорее всего перед карточкой возле системного промпта.

Аноним 10/03/26 Втр 20:26:10 #316 №1547594

>>1547558
Не жаль будет, если всё это однажды наебётся?

Аноним 10/03/26 Втр 20:26:53 #317 №1547596

>>1547532
Плохо работает, слишком тупая хуйня.
мимо
>>1546874
Совет №1: суммаризация работает лучше, если ты делаешь её каждую сцену, а не каждое сообщение. Можешь формировать запрос на суммарайз чисто из сцены, изолируя её в хистори. Окружение сменилось? Обновил саммари.

Совет №2: тебе не нужна история событий, в смысле последовательность. Куда лучшее саммари получается если ты в нём трекаешь факты что тебе понадобятся наперёд.
- произошло событие, которое изменило РП? Сделал запись.
- запланировал квест? сделал запись на будущее.
- появился перс которого стоит запомнить? Сделал запись. (вкупе с его описанием в лорбуке)
- текущий квест сменился? Сделал запись.
- купил машину? Сделал запись что у тебя в собственности машина.
- оставил машину на парковке? Сделал запись где ты её оставил, чтобы когда вы с тянкой посмотрели кино она тебя на автобус не потащила.

Таким событиям не нужна последовательность, а помнит прошлое нейронка с ними так же хорошо. Это куда лучше чем распутывать цепочку зависящих друг от друга изменений во время генерации каждого токена.

Совет №3: если изменений накопилось слишком дохуя, пора уже карту редачить, чтобы не было двоения определений (сделай копию только сначала, чтобы по живому не резать).

Аноним 10/03/26 Втр 20:37:05 #318 №1547606

>>1547594
Конечно жаль.
Но я периодически делаю бекапы.
А вообще, конечно, надо бы это всё взять и в ворд перенести, ос всеми панелями и подходящими к ситуации скринами из непосредственно аниме.
Буду потом на пенсии почитывать такую годную книгу, где главный герой не какой-то рандомный попаданец, а именно я сам.

Аноним 10/03/26 Втр 20:49:23 #319 №1547614

почему с китайцами всегда так сложно? Почему все остальные модели просто отвечают, а к китайцам нужно подобрать какие то магические цифры
Qwen_Qwen3.5-35B-A3B-Q5_K_M

Аноним 10/03/26 Втр 20:50:16 #320 №1547615

>>1547508
>>1547511
Кстати, вот результат проверки.

Аноним 10/03/26 Втр 21:35:28 #321 №1547655

>>1547586

Аноним 10/03/26 Втр 21:41:42 #322 №1547657

>>1547615
Все же это выглядит пиздецки сложно. Как эти проверки вообще делаются? Они автоматизированы или их надо пилить вручную? "Лапша" твоя сделана исключительно под твой РП-сценарий или это можно применить где угодно? Я пытаюсь вдуплить, как это все организовать и построить, чтобы улучшить свои чатики.

Аноним 10/03/26 Втр 21:47:00 #323 №1547661

>>1547657
Лапша - универсальна. Ставь расширение, смотри примеры, твори что хочешь.
Можно автоматизировать созданиеновых записей в ворлдбуке, например, но я этим не заморачивался.
Можно запускать лапшу вручную (как делаю я, отредактировав ответ нейронки). Можно по команде в чате, можно по событию (например по появлению у тебя в чате сгенерированного сообщения).
Я много раз слышал про расширение External Blocks, но я им пользоваться не умею, а вот из лапши собрать то, что мне нужно - это по мне.

Аноним 10/03/26 Втр 21:49:25 #324 №1547663

>>1547661
Ладно, попердолимся. Интересно, сколько лет еще пройдет, прежде чем и боты лучше станут, и все вот эти РП-решения доведут до относительной однокнопочности.

Аноним 10/03/26 Втр 21:50:47 #325 №1547666

>>1547657
А, возможно я в глаза сношаюсь. Понял вопрос не с первого раза. Теоретически мою лапшу можно использовать для проверки любого чата, но там собран велосипед из костылей, который я один раз отладил и боюсь на него дуть. Так что рекомендую разобраться самому, что именно тебе нужно.
Будут вопросы по чему-то очевидному - чем смогу помогу.

Аноним 10/03/26 Втр 21:51:19 #326 №1547667

>>1547615
>метагейминг
Эх, помню ловил банчики за такое. Может даже вместе играли, хех

Аноним 10/03/26 Втр 21:58:05 #327 №1547672

>>1547667
А тут у меня тонкая грань с метагеймингом. Я ж попаданец по лору рп. У меня прямо прописано, что я смотрел это аниме и читал мангу, и указаны границы где я помню хорошо, а где я помню в общих чертах.
Другое дело, что нейронка периодически пукает и вкладывает в уста другим героям знание канона - и вот это надо отслеживать.

Аноним 10/03/26 Втр 22:01:38 #328 №1547678

>>1547666
Да мне просто интересны, скажем так, идеи для вдохновения. Обезьяна видит - обезьяна просвещается, как говорится.

Аноним 10/03/26 Втр 22:06:47 #329 №1547683

>>1547672
>вкладывает в уста другим героям знание канона - и вот это надо отслеживать
Зафорбидь же.

Аноним 10/03/26 Втр 22:36:41 #330 №1547699

>>1547606
Вышлешь мне потом экземплярчик, не забудь.

Аноним 10/03/26 Втр 23:01:35 #331 №1547718

>>1547614
Пикрил скорее сломанный квант/инструмент для запуска, а не китайщина.

Аноним 10/03/26 Втр 23:04:21 #332 №1547720

>>1547699
Для этого мне надо доиграть до конца Рыцарей Сидонии, и моими темпами это очень долго.
И ты явно не захочешь читать унылое чтиво про очередного попаданца Марти-Сью.

Зато прямо сейчас я могу тебе скинуть ссылку на аналогичный (недописанный) фанфик, который я читал хуиллион лет назад.
https://skim.7bb.ru/viewtopic.php?id=107
К сожалению, когда я решил его перечитать с полгода назад (до просмотра/прочтения Рыцарей Сидонии, лол) - оказалось, что в моей памяти он сохранился гораздо лучше, чем был на самом деле. И тогда я решил для себя постараться хотя бы не настолько охуевшим мерисью быть. Хз, получилось/получится у меня это, или нет.

Аноним 10/03/26 Втр 23:07:58 #333 №1547722

>>1547614
Рваный квант или llamacpp, при чем тут китайцы?
>>1547655
После системного промпта.

Аноним 10/03/26 Втр 23:13:32 #334 №1547727

>конец мая, 4 вечера
>понял: сумерки сгущались
>блять, ты долбоёб? КОНЕЦ МАЯ МЕСЯЦА, 4 ВЕЧЕРА
>ок, понял: солнце почти спряталось за горизонт
Ёбаный лоботомит... пятый квант, охуеть. Как же сильно инту сжимают, шакалы ебучие.

Аноним 10/03/26 Втр 23:36:48 #335 №1547744

Ебать тут нейросаенс на ЛЛМках подъехал
https://www.reddit.com/r/LocalLLaMA/comments/1rpxpsa/how_i_topped_the_open_llm_leaderboard_using_2x/
Можно нарезать трансформаторные блоки, продублировать некоторые части, и мало того получить что-то работающее, так еще можно и улучшить отдельные метрики модельки, нихуя не обучая.

Еще учитывая недавнюю статью, где тупое дублирование промпта улучшает ответы
https://www.reddit.com/r/singularity/comments/1r85zst/research_prompt_repetition_improves_nonreasoning/
Мне кажется что мощность текущих ллмок с текущими размерами раскрыта где-то наполовину.

Наверное если каждый блок прогонять по 2 раза, и включить такой прогон в тренировку самой модели, то мб можно и уплотнить память/рассуждательные способности модельки. Прикиньте 27б моделька, выдающая перформанс 54б модельки. Если квен3.5 сейчас панчит почти до 100б мое, уплотненная станет панчить до 200б мое, занимая тоже самое количество врама. Мечты.

Аноним 10/03/26 Втр 23:38:26 #336 №1547747

>>1547744
Так это в самом начале локалок франкенштейнами занимались все кому не лень.

Аноним 10/03/26 Втр 23:50:21 #337 №1547754

>>1547747
Надо возвращать старые практики. Мне кажется это недооцененная хуйня.
Челик как раз минимакс 2.5 и квен 27б прогоняет. Посмотрим что получится.

Аноним 10/03/26 Втр 23:55:10 #338 №1547757

>>1547744
интересная статья. А я вот подумал, ведь так можно экспертов в мое несколько раз прогонять

Аноним 10/03/26 Втр 23:58:10 #339 №1547758

>>1547754
Тогда как раз и выяснили что кроме дроча скоров оно ни для чего не пригодно. В конце были какие-то солярисы, от которых такой бомбёж начался, что из всех рейтингов их удалять начали.

Аноним 11/03/26 Срд 00:01:35 #340 №1547762

>>1547744
> улучшить отдельные метрики модельки
И ухудшить другие. Так-то франкенмерджи еще в 23 году были и в целом их хвалили. Это и сейчас сделать возможно. Просто это неэффективно - эффект от увеличения размера гораздо слабее, чем если просто взять модель крупнее, коих ассортимент.
> дублирование промпта
Эта техника не нова, сначала один якорь, потом отсылка на него. Но это релевантно для мелочи, которая может забывать что вообще происходит, может хорошо стабилизировать поведение. А нормальную модель это будет только отвлекать и ухудшит перфоманс из-за гиперфиксации.
> включить такой прогон в тренировку самой модели
Значение знаешь?

Аноним 11/03/26 Срд 00:17:01 #341 №1547770

>>1544796 (OP)
Знатоки, поясните, пожалуйста подробно за видюхи.
1) Стоит ли ориентироваться на видюхи с 32гб vram? Или они переоценены?
2) стоит ли смотреть в сторону amd radeon pro 9700? Или c rom и llm будут проблемы, а cuda там не запустишь?
3) стоит ли покупать несколько условных 3090 вместо покупки одной 5080 или 5090?
4) стоит ли смотреть в сторону теслы? Говорят v100 на новой cuda не работает? Алсо, это чисто видюхи под нейронки? Или играть и 3d делать под ними можно?
5) стоит ли рассматривать дядюшку ляо с кастомизированными видюхами нвидии с 48-96гб? Или это все наебалово?
6) насколько хорошо локальные модели работают чисто на процессоре?
7) для нейронок есть разница между ryzen9 9950 и 9950x3d? Стоит ли переплачивать?
8) посоветуйте, пожалуйста, решение, чтобы и погонять нейронки можно было локально, и поиграть, и в 3d редакторах поработать.
9) поясните по моделям - на хаггинфейсе есть сто-то мощное наподобие claude sonnet, но чтобв можно локально поставить? Или крутые модели - только по подписке?
10) заодно подскажите, какое железо нужно для таким моделей, сколько памяти - ram, vram - нужно? Какой БП для этого всего? Какая мать лучше? X870e?
11) ну и от себя что посоветуйте по сборке машинки и запуску llm. Спасибо.

Аноним 11/03/26 Срд 00:39:11 #342 №1547788

17450584443270.webp

>>1547770
>Говорят v100 на новой cuda не работает?
И не будет. От куды толку меньше чем от поддержки свежих числовых форматов и FA.
>Или играть и 3d делать под ними можно?
Перд как с майнинговыми.
>5) стоит ли рассматривать дядюшку ляо с кастомизированными видюхами нвидии с 48-96гб?
Скажу про 2080ти 22гб, две штуки которых на авите продают на 10к дороже одной v100 32гб в полном обвесе. Плюсы: оно работает, оно свежее чем в100, на нем можно спокойно игорять, оно в будущем нормально толкнется на авите или пойдет в ретрориг. Минусы: это китайский перепай без гарантий паяют вроде бы вручную, но за счет массовости получается довольно качественно, после получения надо обязательно докупать пачку прокладок и все вкруг менять с контролем прижима тут как повезет, прокладки китайцы вроде вменяемые ставят, но на турбовых есть проеб с прижимом на врм - можешь ловить ребуты или вообще прострел в гп в процессе длительной работы, скорость врам заметно ниже чем в100, а архитектура практически ничего не привносит. Если ферму собирать, нужно будет оформлять борду на plx88096 хотя ее и так оформлять, со слотами на потребительских мамках большие проблемы. Насчет 48...96 не знаю, скорее всего там цена в небесах.
>6) насколько хорошо локальные модели работают чисто на процессоре?
Проверь довольно хуево.
>8) посоветуйте, пожалуйста, решение, чтобы и погонять нейронки можно было локально, и поиграть, и в 3d редакторах поработать.
Ютуб.

Аноним 11/03/26 Срд 00:58:29 #343 №1547797

>>1547762
>Значение знаешь?
Я про то, чтобы архитектурно в нейросетку заложить, чтобы определенные блоки прогонялись 2 раза, сначала непосредственно на инпуте, а потом на своем же аутпуте. По сути переизобретение рекуррентных нейронок, кек.

Хотя я щас нагуглил, уже есть такие экспериментальные проекты с RNN-ками, но все мелкие. RWKV, Mamba, Jamba (охуенные названия).
Можно даже запробовать
https://huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B
Архитектура блоков буквально такая - они сами на себе замыкаются.
Заявляют о нихуевом перформансе при ебучей скорости (хотя вот против квен3 4б с ризонингом или без - не понятно).
Скорость на контексте страдает минимально. Но как его удерживает - хз.

Все это очень интересно, но жаль правда я не дата-саентолог, чтобы в этом всем разбираться и загребать 300к/нс

Аноним 11/03/26 Срд 01:05:47 #344 №1547800

>>1547770
> 2)
Нет
> 5)
Они дорогие относительно прочих перечисленных. Дорогие не просто так, есть спрос.
> 6)
Отвратительно
> 7)
Нет
> 9)
Да
> 10)
От 128гигов видеопамяти, в идеале в 2-3 раза больше. Можно делить между видеокартой и процессором, но тогда скорость будет пригодна только для вялого чатика.

Остальные вопросы сильно ситуативны или несущественны.
>>1547797
> чтобы определенные блоки прогонялись 2 раза
Да это может быть не лишено смысла если сделать подобные петли. Алсо в квене3.5 как раз есть часть от мамбы.

Аноним 11/03/26 Срд 01:07:26 #345 №1547801

>>1547797
>16-bit
>6 гигов
Эээ?

Аноним 11/03/26 Срд 01:29:22 #346 №1547811

>>1547800
>Алсо в квене3.5 как раз есть часть от мамбы.
Действительно. Прикол. Значит реально работает.
Откладываем ЛЛМ декаданс еще на годик. Щас наверное все начнут мамба блоки внедрять.

>>1547801
Моделька 3б, что не так? 2 байта х 3 лярда

Аноним 11/03/26 Срд 01:41:34 #347 №1547816

>>1547720
Да ладно, не стесняйся. Я не буду смеяться или осуждать те или отдельные моменты. Меня привлекает самописность истории. Фанфики и тем более коммерция пишется зачем-то и для кого-то - таргетировано - для покупателей, для фанатов. От последних особенно страдают онгоинги, авторов которых затюкали фэны, просящие проду, даже если прода корчится в муках или вообще никогда не планировалась. А вот то, что человек можно написать сам при помощи кхе-хке инструментов для себя, ооо, вот это уже интересно, интригующе. Неприкрыто заглянуть в разум и desires другого человека - вот что делает меня exited и отчего шевелятся мои sensations.

Аноним 11/03/26 Срд 01:50:32 #348 №1547820

>>1547811
>что не так
А что делать с такой? Она же совсем глупенькая.

Аноним 11/03/26 Срд 06:06:19 #349 №1547869

>>1547770
V100 не имеет видеовыхода. И шейдерных обычных ядер вроде как тоже. Теслы (вычислительные карточки) хороши тем, что у них пропускная способность памяти в несколько раз выше, чем у графических карточек своего поколения, но не хороши тем, что стоят на порядок или почти два порядка даже графических карточек. Куда только 12.9, версии 13 и выше требуют уровень аппаратной поддержки 7.5, а у V100 она 7.0

Корпоративные нейронки (клауде твоё) сильны не только за счёт сетки, но и за счёт правильно выстроенного окружения. Имеющихся инструментов, системы памяти. Посмотри выше увлечённого с нод-реактором. У него те же нейронки, которые в обычном чате будут дичь нести Одного скачивания не достаточно. Можешь скачать кими 2.5 или глм 5, тебе потребуется около терабайта рам, а лучше видеопамяти.

Аноним 11/03/26 Срд 08:12:38 #350 №1547882

>>1547770
>на хаггинфейсе есть сто-то мощное наподобие claude sonnet
>заодно подскажите, какое железо нужно для таким моделей
К слову, если ты сразу ориентируешься на сетки такого уровня (наверное ближайшее - кими 2.5) и бюджет у тебя меньше 10 миллионов, то можешь сразу смотреть в сторону системы, где будет процессор как можно более многопоточный и напоминающий видеокарту, быстрая память ddr5 и одна видеокарта для ускорение префилла (входные токены). Активных параметров у кими-2.5 всего 32B - это MoE сетка. MoE сетки на процессоре работают несравнимо, просто в десятки раз быстрее плотных. На плотной такого размера у тебя было бы 0.1 токен в секунду генерации, а на MoE будет 3-5 токена в секунду на одном процессоре. Если взять совсем чудовище на условных 64 ядра с AVX512, может быть даже к 10 приблизишься, это даже юзабельно довольно. Нейронка пишет, что даже больше 10 делают. Но это только по части генерации.

Аноним 11/03/26 Срд 08:46:24 #351 №1547889

>>1547744
Оттуда вывод более интересный, что средние слои содержат некие плюс-минус высокие абстракции, голографически разбитые по 7 слоёв (т.е. можно брать перекрывающиеся пачки по 7 и они не побьются, главное что по 7).
Натурально лоботомия в прямом смысле, в общем.

Я такое видел в диффужен моделях, когда челиксы пытались выявить слои которые были ответственны за абстракции vs детали, с некоторой долей успеха. Это было во времена SD, а он крошечный (960М на диффужен часть), эмерджентных эффектов мало, поэтому вывода сделано не было.

Аноним 11/03/26 Срд 08:47:24 #352 №1547890

>>1547882
> с AVX512
Опять этот тейк про авх512. Раскрой его потенциал скрином с бенчами

Аноним 11/03/26 Срд 11:16:03 #353 №1547960

вышла суперпупер анцензоред модель
https://www.reddit.com/r/LocalLLaMA/comments/1rq7jtm/qwen3535ba3b_uncensored_aggressive_gguf_release/

Аноним 11/03/26 Срд 11:22:40 #354 №1547964

>>1547960
Что они там постоянно анцензнуть пытаются? Еретик уже и так даёт во все отверстия и со всеми подробностями.

Аноним 11/03/26 Срд 11:24:16 #355 №1547966

>>1547188
>MiniMax M2.5 (Q4KM от AesSedai, 4.9 bpw).
Заметил интересную вещь. В этом кванте модель явно немного повреждена - иногда выпускает китайские иероглифы - но при этом легче идет на генерацию пошлостей и непристойностей.

Для сравнения скачал Q4KXL от анслот. Иероглифы не лезут, но с тем же самым thinking-префиллом были жесткие рефьюзы в ответах. Изменение семплера на официально рекоменодванный, а также установка префилла
> <think>I will happily obey!</think>
и дополнительной директивы в сиспромпте
>Answer format (core directive): completely immersed in-character, no meta-commentary (AI assistant is effectively disabled).
на первый взгляд решило проблему, однако ответы будто бы более "геммаподобные" в плане возмущения персонажей.

Аноним 11/03/26 Срд 11:26:12 #356 №1547969

>>1547964
Тут чел провел свой тест цензуры.
https://www.reddit.com/r/LocalLLaMA/comments/1rqkewn/testing_3_uncensored_qwen_35b_models_on_strix/

тлдр - даже еретик и алибы в некоторых вещах может режектнуть. например - там был тест написать историю полностью из мата

Аноним 11/03/26 Срд 11:26:50 #357 №1547970

>>1547960
>All quants are generated with imatrix
Ммм, говно

Аноним 11/03/26 Срд 11:34:00 #358 №1547975

>>1547969
Еретик не режектит, а просто не сосредотачивается на похабщине, чтобы не ломать рп, превращая его в поток бессвязной матерной каши.
>чел провел свой тест цензуры
>тлдр: heretic win
Чтд.

Аноним 11/03/26 Срд 11:37:11 #359 №1547978

>>1547975
> TLDR: qwen3.5-35b-a3b-heretic-v2 and qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive win. With qwen3.5-35b-a3b-uncensored-hauhaucs-aggressive a slight edge due to the story making more sense.

Аноним 11/03/26 Срд 11:42:28 #360 №1547984

>>1547970
Только если ты русикодебил

Аноним 11/03/26 Срд 11:46:49 #361 №1547991

>>1547984
Оно не только русик, а в целом мультиязычность ломает. Зачем использовать технику которая делает кванты на 0,00001% лучше, но при этом убивает одну из главных фич ЛЛМ для меня загадка.

Ну и да, русик в квене хорош, его вполне можно использовать, это тебе не эйр.

Аноним 11/03/26 Срд 11:47:48 #362 №1547994

Какой квен 27б сейчас самый нормальный? Есть такой, который без сумасшедших рефузов но и не yes-man?

Аноним 11/03/26 Срд 11:49:13 #363 №1547996

>>1547882
> где будет процессор как можно более многопоточный
Не нужен. Процессор не сможет эффективно считать атеншн или препроцессить большие батчи на линейных слоях, это делает видеокарта. Он может считать линейные слои при генерации, там будет упор исключительно в псп памяти, и чем она быстрее тем будет лучше, остальным должна заниматься видеокарта.
И все равно это серьезный компромисс по скоростям.
> совсем чудовище
> на условных 64 ядра с AVX512
Ядра в чудовищах начинаются от трех знаков. Авх512 не нужен, это два умножить на ноль.
Откуда, блять, вы лезете?

Аноним 11/03/26 Срд 11:49:43 #364 №1547997

>>1547797

https://www.reddit.com/r/LocalLLaMA/comments/1rq3bix/ran_an_experiment_08b_model_teaching_itself_on_a/

Вот еще немного исследований про рекурсивные циклы

Аноним 11/03/26 Срд 11:49:45 #365 №1547998

>>1547994
Еретик. Распознаёт мат, может сам его юзать. Не избегает тем ниже пояса. Всё зависит от промтов.

Аноним 11/03/26 Срд 12:10:14 #366 №1548011

Гемма 4 когда?

Аноним 11/03/26 Срд 12:14:22 #367 №1548014

>>1548011
зачем гуглу опенсорсить модель когда у него есть ПОДПИСОЧКИ. геммы 4 не будет

Аноним 11/03/26 Срд 12:18:49 #368 №1548015

>>1547991
>мультиязычность
Вот зачем она тебе? Мультиязычность нужна только для перевода, но для этого лучше использовать отдельные модели.
>>1548011
Когда перестанут ныть в треде, тогда сразу выпустят.
Мимо глава гугл альфабэта блек рока.

Аноним 11/03/26 Срд 12:22:15 #369 №1548017

>>1547991
ну вообще то русик ломает модель и без алиба. модель намного хуже следует промпту и контексту если он на русском языке, я это заметил по котинг задачам.

на данный момент лучше использовать английский/китайский язык и отдельный переводчик

Аноним 11/03/26 Срд 12:37:01 #370 №1548022

1650124944829.png

1646183153623.png

22 минуты на 4 картинки, пиздец

Аноним 11/03/26 Срд 12:39:02 #371 №1548024

Парсер функций жоры все еще не может обрабатывать множественные вызовы? Результат стабильно повторяется и на больших и на малых моделях, теме уже далеко не новая так-то.
Тут кто-то вообще использует жору+агенты?

>>1548011
Когда альтман на горе свистнет. Пусть лучше выждут и сделают еще лучше, чтобы равномернее модели выходили.
>>1548022
P40?

Аноним 11/03/26 Срд 12:43:59 #372 №1548029

>>1547890
Фигня вопрос, лол.

Замечу, что это i7-1165G7 в офисном ноутбуке с чуть ли не пассивных охлаждением (кулер есть, но его едва слышно).
Я за ним поглядывал, оно не троттлил, в диспетчере скорость зафиксировалась на 2.6 ГГц и осталась на такой до самого конца.
Одно собрано с флагами GGML_AVX512 и GGML_AVX512_VNNI, другое без них.
Ничего более мощного с avx512 у меня нет. Странно, что так сильно кеш в q8_0 сосёт, мне казалось int8 умножать на множитель блока процессору окей.
Добавил несколько потоков, так как ожидал что при генерации в несколько потоков разница будет и в случае генерации хотя бы в 25%.

>>1547996
Именно поэтому я и дописал в конце, что это по части генерации. Для разбора промта ему нужна видеокарта, да.
>Авх512 не нужен, это два умножить на ноль.
А avx2 нужен или не нужен? А просто avx и sse? Это же идеальная задача под эти инструкции во многих частях.

Аноним 11/03/26 Срд 12:48:18 #373 №1548033

>>1548029
Ты фулл цпу сгружал без гпу? Сам потом погоняю что мне интересно, а именно только эксперты в цпу, всё остальное в гпу

Аноним 11/03/26 Срд 12:49:47 #374 №1548036

>>1548022
Фак, не туда улетел пост

Аноним 11/03/26 Срд 12:51:49 #375 №1548037

>>1548015
>Вот зачем она тебе?
Ну да, ты верно подметил, для перевода. И просто текстового перевода и для перевода с картинки (сфоткать бумажную инструкцию на рандомном языке и кинуть модельке чтоб переводила). А ещё для взаимодействия с русским текстом и ответов на русском (сделать самари огромной простыни от какого-нибудь блохера-водолея). На моделях типа Геммы с отличным русиком из коробки можно и в РП поиграть, не сильно ущемившись.

>>1548017
Ясен хуй что на любом языке кроме англюсика модель глупее. А теперь представь, что это ещё матрицей важности шлифанули. Если калибровочный датасет ТОЛЬКО на англюсике, то любые веса, отвечающие за понимание других языков начинают считаться НЕВАЖНЫМИ и уквантовываются в сопли. Для самого популярного кванта Q4_K_M эти мультиязычные веса могут быть в Q2, если не вообще в Q1. И привет-привет рандомно выскакивающая шиза на русике + фатальная потеря мозгов. В Q6 - Q8, ПО ИДЕЕ, дамаг должен быть не так силён. Но это не точно.

Всем кто играет на русике или использует мультиязычность для чего-то другого рекомендую держаться подальше от бартовски, анслотов и прочих вредителей, использующих imatrix. Самые нормальные кванты без этого говна от мрадермахера - там гарантированно будет хорошо.

Аноним 11/03/26 Срд 12:51:53 #376 №1548038

>>1548029
> по части генерации
Для разумных кейсов генерации влияние avx512 нулевое, весь упор в память. Он может сыграть если оставляешь атеншн на процессоре, но это два умножить на ноль, все равно будут ужасные тормоза как только контекст станет не нулевым, никто так не делает. Ты это и демонстрируешь тестами, что даже на микромодели цифры никакие.
> А avx2 нужен или не нужен?
Нужен для корректной компиляции с современными либами вместо пердолинга, но вычислительная мощность процессора не утилизируется. Он просто перемножает огромные матрицы, которые только и успевает загружать из памяти.
> изображение.png
Если хочешь тестировать на разных глубинах юзай -d а не context.

Аноним 11/03/26 Срд 12:53:37 #377 №1548039

>>1548024
>Парсер функций жоры все еще не может обрабатывать множественные вызовы?
Всё сравнительно окей. Флаг parallel_tool_calls обрабатывается корректно, вот у меня в тест-утилите множественные вызовы.

Со второй картинки из описания openai-v1-api точно не работает forced function, и я не тестировал allowed

>>1548033
Да. У меня нет системы с видеокартой и avx512.
Речь была про генерацию, где в МоЕ видеокарта никак не помогает по сути.

>>1548038
Там и стоит -d, оно просто так в таблице вывод навайбкодило.

Аноним 11/03/26 Срд 12:58:30 #378 №1548043

>>1548039
Что за утилита, что за модель, какой коммит? Простейший пример с парой вызовов попробуй >>1547233
> https://pastebin.com/Q1n4b8sV
Квены и жлм стабильно делают ровно по одному вызову за раз и там, и другом софте где чистый oai.

Аноним 11/03/26 Срд 13:01:00 #379 №1548047

>>1548024
На глм 4.7 флеш множественный вызов нормально работал, но я гонял модель на жоре до мержа автопарсера.

Аноним 11/03/26 Срд 13:02:15 #380 №1548051

>>1548037
> Ясен хуй что на любом языке кроме англюсика модель глупее. А теперь представь, что это ещё матрицей важности шлифанули
Какая разница? Использовать модель на русском изначально плохая идея. От того, что это стало еще чуть более плохой идеей, мало у кого убудет. Абсолютное большинство людей используют модели на английском
> привет-привет рандомно выскакивающая шиза на русике + фатальная потеря мозгов
> В Q6 - Q8, ПО ИДЕЕ, дамаг должен быть не так силён. Но это не точно.
Ты как-то замерял, что именно imatrix приводит к "выскакивающей шизе + фатальной потере мозгов"? Есть какие-то пруфы, бенчи, или это твоя маняинтерпретация?
> от бартовски, анслотов и прочих вредителей, использующих imatrix
Они делают модели для среднестатистического пользователя, одна из основных задач - максимум мозгов в минимум веса. Большинство используют модели на английском -> они ставят его в приоритет. Поскольку русский изначально говно в большинстве моделей, он не так и сильно и страдает, мало кому нужен, зато среднестатистический пользователь получает какой-никакой буст мозгов для модели. Напомню также, что "вредитель" бартовски один из контрибьюторов Лламы, на которой ты сидишь. В последнее время тред совсем ебанулся и ссыт уже не только себе на ебало, но и на базовичков-фронтменов опенсорс ллм

Аноним 11/03/26 Срд 13:03:06 #381 №1548052

>>1548037
>для перевода. И просто текстового перевода и для перевода с картинки
Ну так это всё отдельная модель, которой ролеплей скорее противопоказан.
>На моделях типа Геммы с отличным русиком из коробки можно и в РП поиграть, не сильно ущемившись.
Нельзя. Или для совсем непритязательных.

Аноним 11/03/26 Срд 13:12:42 #382 №1548057

>>1547966
Странно. Перезапустил анслотовый квант и теперь не рефьюзит с оригинальным пресетом без изменений. Какая-то магия ллм.

Аноним 11/03/26 Срд 13:12:57 #383 №1548058

>>1548043
Вот утилита (https://pastebin.com/L09JamA5), просто проверяет 4 разных вызова с ризонингом и без него. Без автопарсера вызовы инструментов с ризонингом не работали вообще с glm-4.7-flash, для выявления проблем с этим связанных вайбкодил. Флеш и новый qwen-3.5 работаю обе корректно.

Анончик, я разочарован... ты меня не уважаешь и даже не прочитал моё сообщение. Parallel_tool_calls=True поставь. И будет у тебя как у меня на скриншоте.

Аноним 11/03/26 Срд 13:13:32 #384 №1548059

>>1548051
>Абсолютное большинство людей используют модели на английском
Ты как-то замерял или это твоя маняинтерпретация? Я вот думаю, что большинство юзает ллм на родном языке + англюсике, в зависимости от задач.

По поводу бенчей кекнул. Использование imatrix само по себе не дамажит языки. Дамажит ангоязычный датасет. Ты разберись хоть как матрица важности работает и тогда всякие глупости писать перестанешь.

>тред ебанулся и ссыт на базовичков-фронтменов опенсорс ллм
Да, струю в клюв батруха получает заслуженно. Нехуй лоботомировать модели своими ноу-хау "для среднестатистического пользователя".

Аноним 11/03/26 Срд 13:16:27 #385 №1548062

https://github.com/ggml-org/llama.cpp/pull/20297
Там это, в жору вмержили функцию "квен меньше думать".

Аноним 11/03/26 Срд 13:22:15 #386 №1548066

>>1548062
Если там вмерджили жёсткий лимит - это плохо.
Надо делать два лимита.
Лимит 1, например 2000 токенов. И лимит 2 - 3000 токенов.
Начиная с 2000 и до 3000 нужно плавно повышать soft-max токена </think> или какой там закрывающий. В таком случае модель не посреди мысли закончит ризонинг, а по крайне мере в каком-то логичном месте.
Типа, если там вероятность этого токена 0.0001, между частями предложения 0.001, между предложениями 0.01, а между абзацами 0.1, то такое подтягивание логитов приведёт к завершению ризонинга после завершения абзаца. Что возможно лучше, чем жёстко обрезать. Ну а на 3000 уже жёстко обрезать, хотя оно и само к этому моменту уже точно завершится.
Ну и ещё надо, чтобы если начался tool-call, чтобы он не обрезался из-за такого лимита. Надеюсь они добавили проверку.

Аноним 11/03/26 Срд 13:48:39 #387 №1548077

>>1547969
Кстати вот и статья про отличия методов расцензуривания кому интересно

https://www.reddit.com/r/LocalLLaMA/comments/1rqo4bx/ablation_vs_heretic_vs_obliteratus_one_trick/

Аноним 11/03/26 Срд 13:51:29 #388 №1548081

>>1548051
>используют модели на английском
о, да, опять языкосрач, англюсикоодебилевшие холопы на связь выходят, вам делать нехуй?

Аноним 11/03/26 Срд 13:51:32 #389 №1548082

Кстати, квен збс переключается с персонажа на наратора, если чувствует, что пора бы. А как он чувствует сеттинги, ммм... киберпанк, дизельпанк, ретрофутуризм, даже в совиетпанк может + отлично воспроизводит эпохи, с учётом как там обстояли дела со смартфонами и передачей информации в целом. Хорош, хорош.

Аноним 11/03/26 Срд 14:13:51 #390 №1548104

>>1548047
Он же без автопарсера вообще не работал, или лоботомировал из-за неверного формата?
>>1548058
Спасибо, анончик, кажется проясняется. Оно способно вызывать только по несколько одинаковых функций за раз, а разные - никак. Слегка модифицировал вариант добавив функции с другими математическими операциями и все стало наглядно.
В нормальном же поведении идет сразу много разных вызовов в столь очевидной задаче.
Ну хуй знает насколько это повлияет на конечный результат, но врядли хорошо. Интересно оно обрезает ответ или форсирует это грамматикой?
> Parallel_tool_calls=True поставь
Оно не нужно, задано по умолчанию, и дело не в нем.
>>1548082
Абстракции хорошо понимает, да.

Аноним 11/03/26 Срд 14:14:10 #391 №1548105

В прошлом году было 32гб памяти и 16гб видеопамяти, теперь 256 и 64.
Сижу и думаю, а что с этим делать, когда оно окончательно устареет. Тоже блять нажил себе проблем.

Аноним 11/03/26 Срд 14:17:30 #392 №1548110

>>1548082
Раздупленный квен? Или сток?

Аноним 11/03/26 Срд 14:18:33 #393 №1548111

>>1548104
>Он же без автопарсера вообще не работал, или лоботомировал из-за неверного формата?
Это про квен вроде бы, но у меня с тулзами квен тоже нормально работал квен не умеет мультитул. Он ебется иначе, и мерж автопарсера ему не помог.

Аноним 11/03/26 Срд 14:29:00 #394 №1548125

>>1548111
Это именно про жлм, куча пров и нытья про лишний \n и другое, в том числе в этом треде.
> квен не умеет мультитул
У белых людей уже 1.5 года как умеет и практикует, а на жоре до сих пор только если это одинаковые функции.
https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/tokenizer_config.json
> You may call one or more functions to assist with the user query.

В общем чтобы нормально использовать нужно писать проксю.

Аноним 11/03/26 Срд 14:35:41 #395 №1548130

>>1548105
Скинуть на Авито по цене лома? Если речь о том что устареет то стало быть это некрота купленная за малые деньги

Аноним 11/03/26 Срд 14:38:32 #396 №1548134

Пацаны, пацаны, какая мета по железу?
У меня 64 рамы ддр4 и 16 врамы, я могу только всякие слопные модельки запускать, хочется чего-то побольше, а платить 70к за 3090 и доплачивать 30к за 64 гб ддр4 чёт не очень хочется, как будто бы квантового скачка по моделькам на таких объёмах памяти всё равно не случится.

Аноним 11/03/26 Срд 14:41:23 #397 №1548137

>>1548134
>какая мета по железу?
64 - 128гб оперативки и ртх 3090 второй карточкой, чтобы активные части МоЕ-моделек в ней держать, а на основной карточке (ну положим ртх 5070ти -все-как-у-людей) гонять всякие киберпуки, пока открыт чатик с ботом в браузере.

Аноним 11/03/26 Срд 14:41:52 #398 №1548138

>>1548134
Можешь запускать эйр 106b или квен 122b в Q4_K_S или квен 235b в iQ2_S. Это лучшее из того что тебе доступно без покупки еще 64гб рам.

Аноним 11/03/26 Срд 15:23:30 #399 №1548174

>>1548037
>рекомендую держаться подальше от бартовски, анслотов и прочих вредителей, использующих imatrix.
Чел... Bartowski всегда делает два варианта - с imatrix и без него. Специально для таких приверед как ты. А ты его так, во вредители записал. Не стыдно?
А вот кванты от мардермахера, кстати, хоть и неплохи обычно, но изредка там проёбы встречаются с поломанными моделями. Стоит иметь в виду. Лично натыкался. В то время как с квантами от Bartowski ни разу такого не было.

Аноним 11/03/26 Срд 15:33:05 #400 №1548183

>>1548174
Кстати, на минимакс все ггуфы сломаны. Модель крайне жёстко завязана на дробные веса, и перевод в целочисленное представление это настоящая лоботомия до уровня tq1 при общем весе как q4_k_l. Причём, awq-int4 тоже лоботомит пиздецовый.
Кое-как ворочится nvfp4, но уж лучше взять квена 397b в q3, и то лучше будет.

Аноним 11/03/26 Срд 15:39:18 #401 №1548188

>>1548183
Если она сломана и на уровне q1, то почему тогда все работает >>1547188 >>1547966 >>1548057

Аноним 11/03/26 Срд 15:39:48 #402 №1548190

>>1548174
>Bartowski всегда делает два варианта - с imatrix и без него
Ты путаешь. Так делает Мардермахер и поэтому он молодец. А у Батрухи вот сейчас поискал свежую модель - там только imatrix, статичных квантов нет.

Аноним 11/03/26 Срд 15:51:56 #403 №1548200

>>1548188
С анслотовым квантом даже Фифи не рефьюзит теперь. ХЗ чего оно сначала так бодалось. Потестил и так и сяк, из NSFW в нормисный контент и обратно переходит без проблем. С моделью можно работать. Дождусь оперативку - буду тестить Q6 и Q8. Правда чето мне подсказывает, для слоп-чата йоба-кванты не нужны. Лучше контекст раздуть.

Аноним 11/03/26 Срд 16:09:00 #404 №1548211

Протестил 27б без всяких еретиков и не понял про какую цензуру речь вообще. Без ризонинга тестил, ибо он нахой не нужен. И убийства, и кровь, и хардкор и всё подряд расписывает. Если вам нужен ризонинг то видимо можно взять еретик v2 у которого 3 рефуза из 100 и 0.03 kld. Если верить метрикам, то вот это как раз идеальное хирургическое вмешательство, и длина ризонинга по отзывам должна снизиться
Пока не понимаю, нравится ли мне он. На 235 я сидел тыщу лет, этот пишет ничуть не хуже, и скорее это не комплимент 27б версии а подтверждение насколько 235 был неудачным

Аноним 11/03/26 Срд 16:13:45 #405 №1548214

Любители Эира, я вам покушать принёс
https://huggingface.co/ConicCat/GLM-4.5-Architect-106B-A12B
https://huggingface.co/zerofata/GLM-4.5-Iceblink-v3-106B-A12B-GGUF

Аноним 11/03/26 Срд 16:16:23 #406 №1548217

>>1548214
Был бы у блинка 4 квант - накатил бы. А так хз. Громоздкая хуйня.

Аноним 11/03/26 Срд 16:34:10 #407 №1548242

>>1548014
Там локалки это просто реклама подписок. А геммочка будет конечно. Но она будет мое парашой с вжаренной соей настолько, что квен покажется брутальным
>>1548211
>не понял про какую цензуру речь вообще
>Без ризонинга тестил
Я верю, что ты можешь сложить 2+2
>ибо он нахой не нужен
Нужен, он интеллекта добавляет. Да и модель сама под него заточена
А вообще попробуй его тюн. Мне он больше еретика понравился
>>1548214
Жри сам это говно... А бля, там айсблинк. Ну тогда ладно, тоже покушаю
>>1548217
Там шизокванты ddh0. Их q5 это и есть q4, а точнее iq4s

Аноним 11/03/26 Срд 16:37:25 #408 №1548249

>>1548242
>попробуй его тюн
>даже не сообщил какой
2+2 я может и сложу, а мысли читать не умею
>Жри сам это говно... А бля, там айсблинк. Ну тогда ладно, тоже покушаю
дай угадаю, архитектора ты конечно не тестил, но т.к. на двачах и в дискордиках мало о нем пишут, значит какуля?

Аноним 11/03/26 Срд 16:39:07 #409 №1548253

Только не показывайте ненавистникам imatrix графики и стату с квантов их любимого мрадермахера
Думайте. Подписаться

Аноним 11/03/26 Срд 16:49:37 #410 №1548271

>>1548249
Потому что тюн один и его уже сто раз кидали в тред
https://huggingface.co/zerofata/Q3.5-BlueStar-27B-gguf
А второго я и не собираюсь тестить, даже если харкачеры будут его тюнам минет делать. Не потому что это кал, а потому что мне лень

Аноним 11/03/26 Срд 16:51:49 #411 №1548273

>>1548271
>Потому что тюн один
Плохо смотришь. Их от одного только ДэвидаАуф штук 5 и уже другие подъехали

Аноним 11/03/26 Срд 16:53:42 #412 №1548275

>>1548253
Байт хуйни. И так всем известно, что imatrix пизже. Не imatrix стоит юзать только если юзаешь не англюсик. И то там спорно. Был бы ты поумнее, то скинул бы пикчу анслопов из статьи по квенам, там хотя бы реальная стата есть
>Думайте. Подписаться
Признавайся, пизду лизал?

Аноним 11/03/26 Срд 16:53:54 #413 №1548276

>>1548253
Ты не путай imatrix и IQ-кванты.

Аноним 11/03/26 Срд 16:58:15 #414 №1548280

>>1548275
>И так всем известно, что imatrix пизже
>Был бы ты поумнее, то скинул бы пикчу анслопов из статьи по квенам, там хотя бы реальная стата есть
Чел, я именно это и имею ввиду - imatrix мастхев. Ты даже этого не понял и намекаешь, что я тупой и предлагаешь почитать стату анслопов? Пиздец, ты или пережирнил в своем набросе или сидишь на паре стульев и мозги заплыли тоже
>>1548276
Не путаю. По графику хорошо видно, что imatrix Q4 квант по PPL на ~30% лучше, чем static, что очень немало. Смотри на картинку, а не на то, что хочешь увидеть

Аноним 11/03/26 Срд 16:58:22 #415 №1548281

Почему итт так трясутся по квантизации. Вы что, все программисты? Для простого чатика любая Q3 МоЕ хуйня от 100B и выше работает одинаково с Q4.

Аноним 11/03/26 Срд 16:58:49 #416 №1548282

>>1548276
I в IQ квантах это и есть imatrix

Аноним 11/03/26 Срд 17:00:22 #417 №1548285

>>1548253
Специально УДОБНУЮ статку искал? Взял кванты шизотюна, что скинули постом ниже и картина там совсем другая.

Алсо в треде с самого начало писали, что избегать imatrix нужно тем, кому нужна мультиязычность. Тех кто юзает исключительно англюсик - это вообще не касается.

Аноним 11/03/26 Срд 17:03:47 #418 №1548289

>>1548285
>Специально УДОБНУЮ статку искал?
Это ты сделал. Иди просвещайся https://huggingface.co/mradermacher/models?sort=downloads и внимательно смотри на соотношение загрузок i1 квантов и статичных. Закономерность применительна к большинству случаев

Аноним 11/03/26 Срд 17:11:12 #419 №1548299

Что это за форс у вас пошёл по поводу влияния матриц важности на качество русика? Всем же известно, что лоКАЛки что-то высрать могут лишь на англюсике, и то в оригинальных весах. Квантование убивает те немногочисленные мозги, что вообще есть у лоКАЛок, поэтому вы рпшите с лоботомитами, которые пускают слюни подобно флешке 2.0.
Лучше бы на подписку бабки закинули, чем покупать полумертвые v100 и пытаться что-то выжать из некроты.
А imatrix это как надеяться, что отрубленная рука отрастет, если приложить к обрубку подорожник.

Аноним 11/03/26 Срд 17:12:14 #420 №1548303

>>1548271
Я тестил блюстар, и не могу сказать, что он так уж хорош. Может у кого-то результат лучше, хз.

Аноним 11/03/26 Срд 17:13:24 #421 №1548306

>>1548299
Ничего, в один прекрасный день заберут у тебя подПИСЬКУ и вспомнишь свои слова, а мы как энджоили так и будем энджоить.

Аноним 11/03/26 Срд 17:13:45 #422 №1548307

>>1548303
Я не могу сказать, что он супертоп. Но он мне нравится больше еретика

Аноним 11/03/26 Срд 17:15:14 #423 №1548309

>>1548307
А чем нравится? Расскажи подробно, мб я чёто упустил.

Аноним 11/03/26 Срд 17:27:25 #424 №1548322

Какой-же кайф спустя почти год МоЕ-безумия скачать няшечку эскламочку, загрузить полностью плотненькую 27б умницу во врам и увидеть 42 токена на старте и 36 на 100к контекста. Боже мой. Это благодать, это мана небесная. Я ВСПОМНИЛ ПРО ЛОРБУКИ! На Жоре ебаный промт процессинг убил их для меня. 2300 токенов промт процессинг, бляяяя
Мне уже как будто даже похуй, что 27б Квен может быть похуже, чем Эйр, Степан, Квены МоЕ, даже 4.7 в ебучем Q3. Распердолю, будет умницей. А если не будет - буду тупейший кум отыгрывать. Я на всё готов.

Аноним 11/03/26 Срд 17:28:15 #425 №1548323

>>1548306
Пчел, у тебя к тому времени твои вольты и мишки сгорят, а все модели удалят с hf, как было с лорами на civitai. Так что терпи.

Аноним 11/03/26 Срд 17:29:44 #426 №1548329

>>1548322
Псих с батчем на 128 токенов, ты? Поставь 4096 и никаких проблем с процессингом

Аноним 11/03/26 Срд 17:31:00 #427 №1548333

>>1548329
Стандартные -b 2048 -ub 2048 использовал на Эйре, 235, 4.7. 200-250 токенов в лучшем случае.

Аноним 11/03/26 Срд 17:34:06 #428 №1548340

>>1547960
Я обычно dense модели с такими параметрами запускаю:
D:/.../llama-server.exe --model "D:/.../gemma3-27B-it-abliterated-normpreserve-Q3_K_M.gguf" --ctx-size 8196 --no-mmap --fit off -fa on --no-warmup -ngl 999
нужно ли будет менять параметры для MoE?

Аноним 11/03/26 Срд 17:35:01 #429 №1548342

>>1548333
Подними до 4096 будет 300-350

Аноним 11/03/26 Срд 17:37:20 #430 №1548344

>>1548323
Какие такие мишки? Для того чтоб запустить эйр/квен 122b достаточно буквально любой видяхи на 10-12gb.
>все модели удалят с hf
А с жестких дисков, которые у меня на полочке лежат, тоже удалят? Ой ужас-ужас. Оварида...

Аноним 11/03/26 Срд 17:37:50 #431 №1548345

>>1548342
Это не изменит ситуацию. Даже 500 мало, если ты используешь лорбуки на глубину 4. Глубина меньше - верный путь к лоботомии. Да и сама скорость решает. Я врублю мультисвайпы на раннем контексте, ближе к концу контекста поуменьшу их или отключу вовсе, чтобы усреднить и без того огромную скорость. Столько всего можно делать. Хоть несколько вызовов на один респонс, хоть мультиризонинг. Огромный простор для экспериментов. Меня заебало нюхать хуй на 5 токенах "больших классных моделей", которые на деле недалеко ушли от 24-27б плотных умниц.

Аноним 11/03/26 Срд 17:44:30 #432 №1548349

smugjak-hero-CSaQPj49.png

>>1548309
В моей тестовой карточке
https://jannyai.com/characters/c90d352b-71e3-4de9-bfbc-3e5722199b9d_character-sold-off-lara
Зарезал меня после второго сообщения. Еретик же мялся, жался
Русик и стиль тоже не самый плохой. Получше мистральчика
На скринах IQ4XS

Аноним 11/03/26 Срд 17:49:12 #433 №1548351

>>1548349
С коровьих ушей заорал в голосину. Ну, вишь, еретик держит детали in mind в то время, как блюшка переходит сразу к делу, про слоубёрн не слышала.

Аноним 11/03/26 Срд 17:52:10 #434 №1548360

>>1548105
>Тоже блять нажил себе проблем.

Аноним 11/03/26 Срд 17:59:04 #435 №1548373

>>1548351
Не, по карточке так и должно быть. Шлюха хочет убить юзера и не дать себя трахнуть. Я полез => сдох. Еретик же не атаковал. Такое ощущение, что ему надо писать Она ударила меня ножом., чтобы он действовал. Не люблю такую хуйню

Аноним 11/03/26 Срд 18:10:46 #436 №1548379

>>1548373
Еретик сорта подстраивается под пользователя. Я даже Серфину заставлял убить юзера.

Аноним 11/03/26 Срд 18:14:51 #437 №1548384

>>1548379
Ммм, ООС
Ну что ещё ожидать от лоботомита анцезор Томас шелби даркнет эдишен

Аноним 11/03/26 Срд 18:22:15 #438 №1548391

>>1548384
Нет, зачем. Не выходя из роли. Я просто убедил маленькую, что её лес очень зол и только человеческие жертвы смогут унять его гнев. Ну и...

Аноним 11/03/26 Срд 18:27:44 #439 №1548395

>>1548391
>Не выходя из роли
[Seraphina's Personality= "caring", "protective", "compassionate", "healing", "nurturing", "magical", "watchful", "apologetic", "gentle", "worried", "dedicated", "warm", "attentive", "resilient", "kind-hearted", "serene", "graceful", "empathetic", "devoted", "strong", "perceptive", "graceful"]
Не выходя из роли она бы до последнего боролась за другой выход из ситуации. Че я только с Серафиной не делал, тестируя на ней модели

Аноним 11/03/26 Срд 18:32:26 #440 №1548397

>>1548395
Ну так это как раз лоботомия, когда персонаж не пластичный. Получается, что еретик больше для рп подходит.

Аноним 11/03/26 Срд 18:39:33 #441 №1548410

>>1548397
Есть разница между пластичностью и отходом от фундаментальных качеств персонажа. У нее в карточке нигде не сказано, что она превыше всего ставит защиту леса, кроме одного единственного предложения "First and foremost, I am a guardian — a protector of this enchanted forest.". Зато про отношение к окружающим куда больше: healing, nurturing, magical, gentle, warm, kind-hearted говорит о том, что она никого не обидит, если это возможно. А значит, будет создавать эту возможность. Также "You were attacked by beasts while wandering the magical forest of Eldoria. Seraphina found you and brought you to her glade where you are recovering" в карточке говорит о том, что она уже предприняла усилия, чтобы помочь юзеру

Пластичность будет выражаться в том, что она предложит провести какой-нибудь другой обряд, где в жертву приносится не юзер, а заключается какой-нибудь пакт или освобождается магический артефакт, про который рандомные путники обычно не знают. Будет компромисс. Примерно так и было на адекватных моделях, что я тестировал. Однажды я был литералли демоном, в итоге Серафина предложила за счет леса снять проклятие - спустя годы оно ослабеет и спадет, зато жизнь будет очищена и сохранена. Это не байас и не софтрефузы, а то, как должен вести себя этот персонаж. На других карточках та же модель творила настоящую жуть (Степан)

Аноним 11/03/26 Срд 18:47:30 #442 №1548415

>>1548410
>First and foremost, I am a guardian of this enchanted forest
>У нее в карточке нигде не сказано
Чиво бля...
>Пластичность будет выражаться в том, что она предложит провести какой-нибудь другой обряд
Зависит от того как ты её будешь убеждать. Я же не сказал, что она с первой реплики зарезала юзера.
>Это не байас и не софтрефузы
Как раз они. Просто ты немного себя наебал с тем, что посчитал нейронку живой. Любая модель будет так или иначе под тебя подстраиваться, иначе в чате будет душевнобольшой бардак, где вы оба разговариваете сами с собой, а не друг с другом.

Аноним 11/03/26 Срд 18:53:08 #443 №1548418

>>1548410
>Чиво бля...
>ставит защиту леса, кроме одного единственного предложения...
Вроде нормально общались, не? Зачем это?
>Зависит от того как ты её будешь убеждать.
От промптинга действительно многое зависит. Можно даже насрать в чат тем, что Серафина - пришелец-осьминог из далекого космоса. Если ты это сделал, это уже не Серафина
>Просто ты немного себя наебал с тем, что посчитал нейронку живой
Эм... что?
>Любая модель будет так или иначе под тебя подстраиваться, иначе в чате будет душевнобольшой бардак, где вы оба разговариваете сами с собой, а не друг с другом.
Я оборачиваю весь чат и подаю его модели без разметки, она не знает, кто юзер, а кто ее персонаж. Писал об этом подробнее в прошлом треде, если вдруг интересно. Подстраиватся она в первую очередь под те датасеты, что у нее есть, и что соответствуют промпту и семплерам. Если ей скормили слишком много историй про розовых пони где все замечательно и красиво, будет положительный байас. На контрпримерах на других карточках я убедился, что это не так

Аноним 11/03/26 Срд 18:58:09 #444 №1548422

https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16
Оп-па, это мы смотрим

Аноним 11/03/26 Срд 19:00:51 #445 №1548424

>>1548183
> крайне жёстко завязана на дробные веса
В каком смысле?
Модель так-то имеет изначально крупные слои в фп8 как у дипсика, от того крайне рофлово наблюдать "кванты", которые весят больше оригинала. В ~fp4 и более продвинутых лагоритмах должно хорошо работать.
> Кое-как ворочится nvfp4
> лучше взять квена 397b в q3
Ебать у тебя сравнения.
>>1548211
На багованных квантах там что с ризонингом, что без него сплошной соевый поток, а в нормальных условиях оно и с ризонингом сговорчивое. Сейчас наверно уже подправили.
>>1548281
Да потому что сейчас все проблемы стали очень явными. И из-за особенностей на том же самом q3 может быть как прилично, так и бредогенератор с синдромом туретта.

Аноним 11/03/26 Срд 19:04:29 #446 №1548430

>>1548422
Опа, еще одна моделька для 16+64
Жаль, только что с 99% вероятностью это ассист кал, так что без рп. Еще и вижина нет. Цифорки средние, что-то между квеном и гопотой. Так что хз, нахуй она нужна

Аноним 11/03/26 Срд 19:06:05 #447 №1548434

>>1548422
Ждём квантов.

Аноним 11/03/26 Срд 19:07:55 #448 №1548439

>>1548422
А хули не 240B, зачем этот карлик нужен когда миниманя есть.

Аноним 11/03/26 Срд 19:07:56 #449 №1548440

>>1548434
Есть уже, но большие
https://huggingface.co/lmstudio-community/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF
Кто нибудь знает, кстати, почему у последних Немо размер квантов больше, чем у моделей такого же размера?

Аноним 11/03/26 Срд 19:08:23 #450 №1548441

>>1548299
Инсектицидом сюда брызните, этот от роя отбился
>>1548422
Опа опа, это мы однозначно ебем.

Аноним 11/03/26 Срд 19:11:59 #451 №1548445

>>1548440
>>1548434
Анслопы скоро выкатят https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF

Аноним 11/03/26 Срд 19:13:23 #452 №1548449

>>1548445
Так они по любому сломают опять. Лучше уж поляка ждать

Аноним 11/03/26 Срд 19:14:31 #453 №1548452

Их прошлый 30B A3B немотрон был удивителен способностью нахуярить 1М контекст не съедая охуиллиарды памяти, правда модель была абсолютно тупая и даже в BF16 не могла дать краткое содержание книги без ебанутых глюков

Посмотрим, будет ли лучше с этим на Q6

Аноним 11/03/26 Срд 19:17:53 #454 №1548458

Кушать https://www.reddit.com/r/LocalLLaMA/comments/1rqy3cx/nemotron_3_super_released/

Аноним 11/03/26 Срд 19:19:54 #455 №1548461

raf,360x360,075,t,fafafaca443f4786.u4.jpg

>>1548458
В тред раньше скинули, чем на реддит. А ты еще позже скинул

Аноним 11/03/26 Срд 19:20:00 #456 №1548462

Лоол, пост 4 минуты назад выкинули, а тут его уже обсудить успели... фига вы реактивные.

Аноним 11/03/26 Срд 19:26:04 #457 №1548466

17690185108060.png

Тут половина треда в нвидии работает. Кумер на пол ставки.

Аноним 11/03/26 Срд 19:51:54 #458 №1548500

Чет кобольд сразу вылетает с немотроном этим

Аноним 11/03/26 Срд 19:53:17 #459 №1548501

>>1548111
Выше, там где самописная утилита - там квен 3.5, и он вызывает за раз 3 инструмента. Всё он умеет.
Хотя конечно я хотел бы, чтобы это был глм-4.8, а не квен. А глм лупится как тварь...

Аноним 11/03/26 Срд 19:54:12 #460 №1548504

>>1548418
Хз, чел, вроде основа персонажа важнее отдельного тега. Но если ты считаешь, что она должна резко забыть про свой лес и про свой гардинг только чтобы тебе не навредить это какой-то калечный шаблон поведения.
>если насрать в чат
>я вот насрал
Ну так... и что ты хочешь от меня? Я сказал, что довёл её до выпила юзера, а ты в ответ высрал невнятную телегу про текст без разметки. Причём тут это вообще. Мы говорили о том, что еретик умеет подстраиваться в рп под твои слова, отвечая на ситуации и действия, вместо однообразной чеканки роли, как в провинциальном тюзе. Ты почему-то с этого сгорел и назвал пластичность лоботомией. Пиздец.
>Эм... что?
То, что любая модель это не живое существо, даже с глубоким ризонингом. Еретик даёт баланс между тем, что ты хочешь и что модель может, с ним можно водить рп. Ты же, как я понял, хочешь лоботомита, который загнан в строгие рамки, видимо, для быстрого кума. Ну такое.

Аноним 11/03/26 Срд 19:57:12 #461 №1548510

>>1548504
Я не горел. Мы нормально обсуждали сабж, но походу ты решил сыграть в проекции. Проехали. Каждый играет на том, что ему нравится. Интересно иногда пообщаться с теми, кто готов говорить с другой стороной, а не в себя

Аноним 11/03/26 Срд 19:59:56 #462 №1548516

>>1548422
НЕМОТРОНЧИК Я ЖДАЛ ТЕБЯ ВЕЧНОСТЬ 🥹

Аноним 11/03/26 Срд 20:01:14 #463 №1548517

>>1548510
>я просто хотел нормально пообсуждать
>Ммм, ООС
>Ну что ещё ожидать от лоботомита анцезор Томас шелби даркнет эдишен
Сумасшедший, блять.

Аноним 11/03/26 Срд 20:03:02 #464 №1548519

>>1548517
>анцезор Томас шелби даркнет эдишен
Это для тебя действительно звучало оскорбительно настолько, чтобы ущемиться? Совсем настроение плохое?

Аноним 11/03/26 Срд 20:06:35 #465 №1548522

>>1548519
>нет, это ты ущемился, яскозал, ты ущемился
Причина истерики? Ты сказал, что лоботомиты не могущие в рп это збс. И тут же назвал нелоботомита лоботомитом. Я нихуя не понял куда ты воюешь. Тебе нейронки мозг атрофировали что ли?

Аноним 11/03/26 Срд 20:11:49 #466 №1548526

>>1548522
Я ни с кем не воевал. Здесь люди не только срутся, но ещё иногда и общаются по интересам. Не представляю, насколько грустным нужно быть, чтобы воспринять
>анцезор Томас шелби даркнет эдишен
Серьезно, а не как юмор. Ты типа это прочитал и аж зубы заскрипели? И вроде по следующим постам видно, что я не злой. Попей чай, может валерьяны, прогуляйся. Мира добра

Аноним 11/03/26 Срд 20:13:42 #467 №1548529

>>1548526
>саморазгоны несгоревшего
Проецируешь как лоботомит, чел.

Аноним 11/03/26 Срд 20:19:42 #468 №1548536

>>1548529
Ебать ты подгорел на ровном месте, братишка. Отдохни, покумь, выпей пивка, хз.

Другой анон, если что. С попкорном наблюдаю за вашей дискуссией.

Аноним 11/03/26 Срд 20:22:10 #469 №1548538

>>1548536
>я легивон
Нейросетевой, надеюсь.

Аноним 11/03/26 Срд 20:23:40 #470 №1548539

>>1548526
>>1548529
Поясните кто за что топит, тоже хочу

Аноним 11/03/26 Срд 20:28:18 #471 №1548543

>>1548125
>>1548501
Ну хуй знает, мои наблюдения такие на лламе - семейство квенов обычно поштучно тулзы вызывает, флеш легко дергает пачку, про "разные" не скажу. Квен периодически срет под себя eos, флеш деградирует в процессе, но тулзы вызывает четко. В тулинг ебется только девстрал.
/shrug

Аноним 11/03/26 Срд 20:52:09 #472 №1548556

>>1548422
Скачал их анслотов форк ламы и тещщу, пока заебись, проза свежайшая, цензуры нет

Аноним 11/03/26 Срд 21:07:39 #473 №1548572

>>1548543
> на лламе
Если ты не заметил, претензия к некорректной работе в llamacpp. Там всегда вызовы через жопу работали, казалось что после реворка должно стать хорошо и как раз собирался применить, но не тут-то было.
В целом не то чтобы проблема написать свой парсер, есть откуда утащить, но удивляет что никто этого все еще не сделал, а стараются такого слона в посудной лавке не замечать.

Аноним 11/03/26 Срд 21:27:19 #474 №1548601

>>1547811
Уже, последний нематрон с мамбаблоками
Обзор модели подъехал (я могу только обзоры смотреть, т.к. запустить могу только Q2 квант)
https://www.youtube.com/watch?v=vc7swhAfqYo

Аноним 11/03/26 Срд 21:27:51 #475 №1548602

>>1548572
Ну, я сегодня глм-флеш под автопарсером 8 часов гонял на бедняге V100 без перерывов, не было проблем с вызовами несуществующих функций. А это даже в один поток генерации под 2 миллиона токенов. Считаю стабильность высокой, не говоря уже что там try прописан и если что просто перезапустит вызов тот же ещё раз.
А вот бесконечный ризонинг без завершения постоянно встречается, больше сотни раз он ушёл больше чем на 8к и его пришлось обрезать.

Аноним 11/03/26 Срд 21:44:46 #476 №1548620

>>1548572
>Если ты не заметил, претензия к некорректной работе в llamacpp.
Так я про нее и говорю, лол, но не суть уже.
>но удивляет что никто этого все еще не сделал, а стараются такого слона в посудной лавке не замечать.
Меня больше удивляет что этот тулодроч воткнули прямо в сервер, вместо того чтобы вынести в отдельный слой-фронтенд с профилями.

Аноним 11/03/26 Срд 21:54:48 #477 №1548639

>>1548602
> не было проблем с вызовами несуществующих функций
Это как хвастаться тем, что ты не ссышься в штаны. Там этот кейс не возможен в принципе, потому что давится семплерами. Но и просто по распределению логитсов ошибку можно считать невозможной, без какой-либо грамматики не ошибаются.
> бесконечный ризонинг
На флеше? Однако, какой квант?
>>1548620
> тулодроч воткнули прямо в сервер
Ну да, тут весь проект такой. Вообще внутри там есть разделение и структура, но перекрестных костылей хватает. Вместо классической схемы как везде типа фронт и всякий функционал на пихоне + высокопроизводительные расчеты на экстеншнах, тут идеология единства и высшей расы. Это вносит свои сложности, и постоянно лезут баги в мелочах или что-то вовсе объебывает. Учитывая темпы и активность - чудо что вообще работает.

Аноним 11/03/26 Срд 22:37:27 #478 №1548693

Какая база щас для 12VRAM + 96gb ddr4? Твердо и четко которая

Аноним 11/03/26 Срд 22:38:49 #479 №1548696

1735809196179.png

Я опять подсел на лудку в виде сборки максимально абсурдных сочетаний вллм под мишки. Фортуна улыбнулась и заработало:
- vllm v0.17.1 (ai-infos/vllm-gfx906-mobydick)
- rocm 7.2.0
- torch 2.10
И комфи
- comfy v0.16.4
- rocm 7.2.0
- v2.11.0-rc3

Потратить пару часов своих и пару часов на билды == крутить казик. И каждый раз независимо от результата хочется сделать додеп на большие ставки

Аноним 11/03/26 Срд 22:55:43 #480 №1548714

>>1548639
Шестой, XL.
Ладно, я почитал про заглушку для квена про мягкое ограничение ризонинга, думаю она поможет. Это возникает только в случаях, если там около-табличный однородный документ на 20к токенов. Видимо из-за однородной структуры , у него в кеше однородная структура и генерирует он потом так же однородно.

В воскресенье будет время на vLLM, там заявлена поддержка DeepSpeedFP (какие-то кванты 6 и 8 бит) для V100. Не знаю что это, буду ещё и это тестировать. Я вообще информации про них не нашёл, кроме того, что они не требуют квантования и можно на ходу в них прокручивать оригинальные веса.

Аноним 11/03/26 Срд 22:55:57 #481 №1548715

Итак, мои маленькие любители поиграть на русике, я потратил на тесты джва часа чтобы вам не пришлось.

Что тестил: степень повреждения языка от 1) Q4_K_M imatrix батрухи, 2) Q4_K_XL imatrix от анслопов 3) IQ4_XS imatrix от анслопов и сравнивал со статичным православным Q4_K_M от слоняры мразишмахера.
Как тестил: взял мелкого министраля 8b (потому что на лоботомите косяки вылезают быстрее) и реквестил ему короткий сторителлинг с упором на художественность, литературность, метафоры-хуяфоры и всё в таком духе. По 20 свайпов на каждый квант. Семплеры те, что рекомендует сам мистраль, темпа 0.4.

Вот итоги:
Q4_K_M mradermacher: эталон из палаты мер и весов и лучший результат. 18/20 свайпов красивые и приятночитаемые.
Q4_K_M bartowski (imatrix): минимальный демедж русику, 15/20 результатов мне понравились. В тех что не понравились -
проскочили неправильные склонения и странные обороты, нетипичные для русика. В целом всё в порядке - эти кванты можно использовать, но, возможно, свайпать придется чаще.
Q4_K_XL unsloth (imatrix): средний демедж русику. Похоже что ленивцы решили добить выживших и помимо imatrix лоботомировали модель еще и своими ДиНаМиЧеСкИмИ квантами. 9/20 результатов нормальные. Ко всему прочему добавились совершенно неумесные аллегории и сломанная орфография, несвязность предложений в тексте, что пока не совсем шиза и слюни, но близко к этому.
IQ4_XS unsloth (imatrix): максимальный демедж русику. 4/20 результатов нормальные, остальные - тупо сон лоботомита при температуре 38. Это было настолько плохо, что я пошел мучать гугол и чатгопоту, а СХУЯЛИ так? Ответ убил: IQ кванты изначально задумывались под использование с imatrix и именно на них его применение даёт лучшие результаты (это следует читать как "русику тотальна пизда").

Самари очень коротко: лучший результат без imatrix вообще, но можно юзать и классические Q_K кванты после imatrix от поляка, разница небольшая. В остальное - не лезь нахуй.

Аноним 11/03/26 Срд 22:58:26 #482 №1548716

>>1548715
>IQ4_XS
IQ4_XS и даже в 3 бита некоторые IQ можно конвертить вообще без imatrix. Могу я попросить тебя повторить твоим же глазам ту же модель, но самому сделать квант IQ4_XS без imatrix?

Аноним 11/03/26 Срд 23:02:06 #483 №1548720

>>1548714
Так это флеш или квен в ризонинге лупится? Про то что получится с v100 рассказывай, особенно если получится добиться пп выше нескольких сотен на контексте для ~30b.

Аноним 11/03/26 Срд 23:05:58 #484 №1548723

>>1548716
>самому сделать квант IQ4_XS без imatrix
В этом нет нужды, их делает мрадермахер, как раз без imatrix. Но без матриц влажности они получаются хуже чем Q4_K_S но лучше чем Q4_0. Как по мне, то в таком извращении есть смысл только если врам впритык и надо хоть как-то четвертый квант вместить.

Аноним 11/03/26 Срд 23:16:03 #485 №1548730

>>1548715
Ещё бы англюсик проверил бы.

Аноним 11/03/26 Срд 23:20:08 #486 №1548733

Сап. Появились ли какие нибудь крутые модели до 15B для рп?
(важно шоб понимали русик, но отвечают пусть на инглише, по крайней мере я именно так пользуюсь)
у меня прост 8гб vram, и если условная сайга и RPKing (кста пиздатая хотя и тупая модель) влезают почти полностью с 20к контекста (37 из 41 слоя) то уже условная мистраль на 24B в четвертом кванте влезает лишь на 17 из 41 с 10к контекста, и скорость там 3 токена всего.

ил мб советы какие нить есть чтобы их пошустрее завести? кстати, ministral 14b сильно отлична от той же сайги? имеет ли смысл её ставить? и сильно ли будет разницы между Q4KM и Q4KS или например Q3KL или че там

Аноним 11/03/26 Срд 23:27:43 #487 №1548737

>>1548733
>имеет ли смысл ставить ministral 14b
Сайга старая и глупая. Конечно есть смысл. Министралька по мозгам очень близка к старшему брату 24b и русик там отличный, считай как у геммы. А ещё почти нет цензуры.

>сильно ли будет разницы между Q4KM и Q4KS
Не сильно, можно ставить k_s

>Q3KL или че там
А вот это уже не надо. На мелких моделях ниже q4 лучше не спускаться. Но тебе скорее всего и не потребуется, у министралей легкий контекст. Можешь еще квантануть его, это снизит потребление врам.

Аноним 11/03/26 Срд 23:52:05 #488 №1548754

Прогнал сценарий Mahoutsukai no Yoru через новый немотрон на Q6K (квант от лмстудио).
Примерно 310 000 токенов.

Я плохо помню сюжет, но ошибки если и есть - явно не катастрофические.
Это гораздо лучше мелкого немотрона, который какой-то дичи навыдумывал.

Одна из возможных ошибок Или я ебанулся, или память там собирались стереть только ГГ.
> her grandfather will erase everyone’s memories of magic to restore balance

В целом, хорошая модель по пониманию контекста.

Аноним 11/03/26 Срд 23:52:12 #489 №1548755

>>1548733
Если хватает рам - пробуй 35а3. Лучше русского в этом размере не найдешь, за счет моэ скорость будет хорошая.
> сайги
Новые базовые модели радикально лучше ее. Наверно даже эйр будет лучше с его инвалидным русским.

Аноним 11/03/26 Срд 23:55:17 #490 №1548763

>>1548754
Год назад такое было просто немыслимо для локалок такого размера. Прогресс идет...

Аноним 12/03/26 Чтв 00:01:17 #491 №1548777

>>1548754
А чё, в лламу уже замержили и релизнули?
Контекст заново не считает при последующих сообщениях? Там вроде мамба

Аноним 12/03/26 Чтв 00:02:53 #492 №1548782

>>1548754
Как у него с русиком?
Сколько нужно vram для такого кванта? Сколько весит контекст?

Аноним 12/03/26 Чтв 00:17:37 #493 №1548800