В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Я уже не могу, аноны. Это пиздец. Под каждую модель таверну перенастраивать надо? Срань. То лупится жестко, то срёт тоннами текста, то не срёт. Думающая модель qwen думает когда не надо и срёт своими размышлениями прямо посреди рп. Поделитесь своими настройками таверны пожалуйста, и вашей топ моделью на данный момент для РП, с которой вы больше всего времени проводите. Я устал срать себе в штаны и менять модели/крутить настройки. Спасибо.
>>1413985 >Под каждую модель таверну перенастраивать надо? Надо.
>>1413985 >Я устал срать себе в штаны и менять модели/крутить настройки. Делюсь лайфхаком. В таверне можно создавать пользователей (по умолчанию - одни анмин). Я создал отдельного пользователя под каждую такую специфическую модель, и просто переключаю их. Как глобальные профили работает. Еще новому пользователю можно перекидывать конфиг от другого пользователя (файл) - чтоб совсем с нуля не настраивать каждого.
>>1413985 >Я создал отдельного пользователя под каждую такую специфическую модель Ебать наркоман, и для каждого продублированы карточки? Для моделей есть пресеты подключения, юзеров не надо для этого использовать
>>1413985 GLM-4.6, на остальные модели смотрю как на говно, поэтому модели не меняю и настройки не кручу
>>1414005 >Делюсь лайфхаком. В таверне можно создавать пользователей (по умолчанию - одни анмин). Я создал отдельного пользователя под каждую такую специфическую модель, и просто переключаю их. Зачем если есть профили подключения, которые включают пресет, инструкции и системный промпт?
>>1413985 >Поделитесь своими настройками таверны пожалуйста В нашем треде только Нюне разрешено делиться пресетами.
>вашей топ моделью на данный момент для РП GLM 4.6/Qwen 3 235B
>Думающая модель qwen думает когда не надо и срёт своими размышлениями прямо посреди рп. Вставь в поле Start Reply With <|im_start|>assistant <think></think>
>>1414062 Анон, а можешь как хлебушку разжевать? Карточек это видеокарт? Но они же стоят космос сейчас. Вот ты говоришь, ЭЙР запускать. Это же вот это? https://huggingface.co/unsloth/GLM-4.5-Air-GGUF Если да, то мне увеличение ОЗУ с 2х плашек на 64 до 4х плашек на 128 поможет? Оно же в ОЗУ будет вмещаться? Мой проц и видеокарта вытащит? спеки тут >>1413639 → Как запускать такое через ОЗУ? Кобольд сам в ОЗУ запихает? Он поймет? Скорость какая будет? У меня сейчас на MS3.2-PaintedFantasy-Visage-v4-34B.i1-Q3_K_M.gguf выдает такое: [21:41:23] CtxLimit:19552/20480, Amt:459/1387, Init:0.10s, Process:0.31s (3.22T/s), Generate:57.63s (7.96T/s), Total:57.94s Немного маловато, но терпимо ибо он самый умный ггуф.
>>1414081 >увеличение ОЗУ с 2х плашек на 64 до 4х плашек на 128 поможет Увеличение до 128 гб поможет запустить qwen 235b в 4 битах или глм 4.6 в 2 битах. Для запуска glm air твоих 64 гб должно хватить за глаза. Или можешь запустить двухбитный квен 235 от интела.
>Как запускать такое через ОЗУ? Через выгрузку тензоров через --c-cpu-moe X, где X - число выгруженных на рам слоев.
Есть ли какие-то минусы от использования Flash Attention? Изменений в скорости t/s минимальна (разница 1 t/s при ~30 t/s), но несколько раз натыкался на сообщения что с FA модель деградирует. Лично с таким пока не сталкивался.
>>1414108 >Через выгрузку тензоров через --c-cpu-moe X, где X - число выгруженных на рам слоев. Есть в треде Аноны, которые могут перевести с эльфийского?
>>1414114 >минусы от использования Flash Attention Не знаю о таких.
>сообщения что с FA модель деградирует Вероятно люди путали причину и следствие. ФА необходимо для квантования кеша, которое частенько вызывает деградацию моделю.
>>1414029 Потому, что другой юзер - не только они. Это вообще ВСЕ настройки и пользовательские материалы таверны - и карточки персов, и WI библиотека (в смысле - сами тексты, а не просто - что из них активно), и настройки GUI, и набор плагинов - вообще ВСЁ. Именно это, иногда и требуется - а не только шаблоны и семплеры поменять. Некоторым моделям даже карточки персов полноценно не подходят от других моделей без переделки, не то, что шаблоны.
>>1414081 > Это же вот это? Ну это ггуф (dense, плотная) Так что нет, не это. Аноны запускают именно МоЕ, тебе надо ту где ты еще в прошлых тредах кидал и спрашивал а как скачать модель когда искал квант плотной модели а там дохуя .safetensors файлов было, вот такое вот тебе и надо запускать. Поищи гайды по запуску МоЕ, в шапке наверняка они есть. >>1414115 > --c-cpu-moe X Это для жоры. В твоем случае если ты всё еще используешь кобольда то аналог в кобольде --low-vram это автоматически заставит кобольда распределить эксперты между врам и рам, и путь к модели надо указывать к её папке где содержатся все её файлы а не к отдельному файлу как с плотной. Про докупку еще двух плашек это даст возможность запускать еще более умную модель в 128 озу, но многие и довольны 64 гигами, так что ты пока просто продолжай баловаться с тем что есть.
>>1414252 Ты жирный и зеленый, или обку(р|м)ился совсем?
С каких пор жора и кобольд .safetensors запускают? Что это за чушь? И каким раком формат модели (gguf/safetensors) с ее типом (MoE/Dense) у тебя оказался связан???
>>1413787 → >Я хотел бы понимать как это работает. У меня не получается сделать стесняшу Томоко. ИИ вечно рвёт образ. А еще я бы хотел что бы ИИ подавал историю как от 3го лица. Типа, я пишу: Я подхожу и говорю "Привет". ИИ считает, что это действие уже произошло, и сразу отдает реакцию персонажа. А я хотел бы, что бы он описал то, как мои действия были со стороны. Я хочу что бы он еще вставлял мысли персонажа, которые бы показывали мотивацию ответа. На juicychat.ai в одной из карточки видел треккер мыслей, действий, одежды и т.д. Интересно как этого добились. А еще если в сцене присутствуют несколько персонажей, он каждого обрабатывает по очереди в отдельном блоке. А я хотел бы, что бы он сначала там в голове своей картинку построил и мне изложил пересказ.
Сделал ради прикола, поигрался с твоей Томоко. Квен конечно превратил её в хорни-блядь, и впринципе я легко мог запретить ему это делать, но суть не в этом.
Решается простой карточкой персонажа(мне было лень - я просто попросил модель саму написать карточку) и несложной системной инструкцией.
Я забайтился на всю движуху с МОЕ моделями и заказал себе 128гб ддр4 памяти для своего пк, причём у меня видюха на 12 гб(4070ти). Я совсем долбоёб и земля мне пухом, или это будет работать? В теории же квантованный Qwen3-235B-A22B-GGUF влезает, там же 22b ведь тоже квантуется, квантуется ведь? У меня ещё есть время отменить заказ...
>>1414275 Палю лайфхак, посмотри какой квант плотной 22b модели у тебя влезет полностью в видеопамять и тот же квант используй у мое квена 235B. В противном случае и скорость у тебя будет такая же как на плотном кванте 22B что не влез в видеопамять, у меня так с Эрни было.
Выдавили единственного чела который делился своим барахлом и всем тредом нихуя не скинули нюфагу >>1413985 кроме бессодержательных манясоветов. Даже нейтральный семплинг или симпл 1 не посоветовали. Во дожили... Ну а нюфаг конфигом не поделился. Какие железяки у тебя? По семплерам обычно просто всё, нейтрализуй, потом мин-п 0.01-0.05 (чем больше шизы тем выше) и темпа как в карточке модели, но дефолт 1. Для почти всех моделей есть уже в таверне шаблоны, нужно выбрать по семейству те что подходят
>>1414296 >Выдавили единственного чела который делился своим барахлом и всем тредом нихуя не скинули нюфагу Так и скинь ему сам прямо сейчас вместо того чтобы ругаться. А ньюфаг довольно бестолковый - уже нескольно тредов ему помочь пытаемся, он большую часть постов с советами тупо игнорит и все ждет пока ему все принесут на блюдечке вместо того чтобы самому хоть немного рукава засучить и разобраться в теме.
>>1414275 А 22b тут не причем, братан. В видеопамять не активные эксперты залетают, а модель-роутер и общие слои. И они у разных моделей разные. Насколько я помню, у квена в 4 битах это занимает 4-5 гигов. Так что все влезет.
>>1414277 Ну ты воробушек, 22 активных-то тут причем до видеокарты. =)
>>1414252 Попробовал я GLM-Air-4.5-106B-Animus-V12.1-Q2_K.gguf (тот что 45гб) отсюда https://huggingface.co/Darkhn-Quants/GLM-Air-4.5-106B-Animus-V12.1-GGUF?not-for-all-audiences=true . В каком то треде на него ссылку давали. В кобольде поставил галочку на лоу врам. Крайне долго обрабатывает. И выдает просто лютый высер. Он даже проигнорировал что персонаж ДОМА, зачем то поставил его в библиотеку. Пэйнтед Фентези Визаж намного пизже. просто небо и земля. У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра. Скажите мне, я не то скачал? [09:59:21] CtxLimit:14114/20480, Amt:1387/1387, Init:0.13s, Process:986.88s (12.90T/s), Generate:482.37s (2.88T/s), Total:1469.25s
>>1414472 Сколько у тебя озу? В 64гб и хоть какую-то видеокарту спокойно помещается q4_k_s с 32к контекста. И скорость у тебя пососная, там должно быть 8+ тс. Ты явно что-то делаешь не так.
>>1414475 > И скорость у тебя пососная, там должно быть 8+ тс. Ты явно что-то делаешь не так. У меня де жа вю. Может и у него там теслы в загашнике?Но стесняется признаться.
>>1414472 >В кобольде поставил галочку на лоу врам. >Крайне долго обрабатывает. Больше таких советов слушай - так оно вообще колом встанет. С этой опцией по другому и не должно быть. Да и не нужна она тебе под такой размер модели, если хотя бы 64GB памяти есть.
>У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра. Скажите мне, я не то скачал? Это у тебя не AIr, это его тюн. Качество не гарантировано - как и любой тюн может быть как хорошим, так и лютой дичью, а лично его не тестил, точно не скажу. Air с вменяемыми квантами брать здесь: https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF Под железо с памятью 12+64 - iq4xs квант лучшее из доступного. 60GB, влезет в притык.
>>1414475 64гб. >q4_k_s Вот почему так? ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы, вместо того что бы дать ссылку. >явно что-то делаешь не так. Я тут по пачке беломор канала пытаюсь в Панаме аэропорт найти и приземлиться.
>cudart-llama-bin-win-cuda-12.4-x64.zip >llama-b6970-bin-win-cuda-12.4-x64.zip >в одну папку. >Потом, хуяришь батник в папке с жорой (эт llama.ccp так называют из за автора) >start "" /High /B /Wait llama-server.exe ^ >-m "D:\Ai\Main\GLM-4.5-Iceblink-v2-106B-A12B-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL.gguf" ^ >-ngl 99 ^ - эт слои на видюху. (их дохуя, потому что см.ниже) >-c 20480 ^ - это контекст, сколько модель будет помнить всего. >-t 13 ^ - это сколько ты потоков на проц определишь. >-fa --prio-batch 2 -ub 2048 -b 2048 ^ - это батч, сам погуглишь. >--n-cpu-moe 44 ^ - а вот это мое слои на ЦП. Приоритетней ngl >--no-context-shift ^ - гугли >--no-mmap - гугли >импортишь вот это https://files.catbox.moe/qpe1a0.json и не ебешь себе мозги. Вечером отпишусь, сработало или нет.
>>1414499 >Больше таких советов слушай - так оно вообще колом встанет. Других вменяемых с конкретными инструкциями нет. Т.е. не нужно было галочку ставить? А запускать как обычно?
>Под железо с памятью 12+64 - iq4xs квант лучшее из доступного. 60GB, влезет в притык. Мне хаггифейс пишет, что нет. пик 4.
>>1414503 >Вот почему так? ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы Заебал, ленивая сучара ебучая. Прочти ёбанную вики. Вот тебе блядь ссылка, если такой даун https://2ch-ai.github.io/wiki/llama/#gguf
>>1414503 >ПОЧЕМУ? Почему в этом треде все постоянно пишут какие то непонятные буквы
Потому что изначально подразумевается, что перед тем как задать вопрос, человек почитал шапку, вики треда, вики кобольда с документацией таверны и у него есть базовое понимание терминологии. В принципе, если бы ты это сделал - 99% вопросов которые ты задаешь отпали бы сами собой.
>>1414503 >Мне хаггифейс пишет, что нет. пик 4. Естественно. Он же пишет для случая, если у тебя ТОЛЬКО 64Gb рам, без учета, что еще VRAM видеокарты есть. У тебя, грубо говоря - 72GB суммарно. 60GB модель - впритык, но влезет.
>>1414503 >Вечером отпишусь, сработало или нет. Я буду орать, если ты еще >m "D:\Ai\Main\GLM-4.5-Iceblink-v2-106B-A12B-Q8_0-FFN-IQ4_XS-IQ4_XS-IQ4_NL.gguf" ^ Вот это без изменений скопируешь.
>пик 1. Не лезет. У тебя 16+64. 60гб, с учетом на систему хватит, еще гигов 4-5 будет болтаться. Да, ты запускаешь на своей пеке исключительно нейронку, желательно без ютубчика, потому что хромиумы жирные, что пиздец.
>>1413766 → Анончик, поделись как ты это реализовал? Можно ли тупо в SillyTavern сделать Group Chat и добавить туда разных персов, которые будут выступать в качестве агентов (типа: Агент сюжета: Отслеживает общее развитие истории. Агент персонажей: Следит за характерами и действиями NPC. Агент локаций и тп) и крутить это всё на одной модели?
>>1414617 Давай я погуглю за тебя и помогу, анон. Сначала ты должен открыть браузер. Ты же как то на два и зашел. В верху у тебя есть адресная строка. Забиваешь туда google.com У тебя откроется сайт. В поле, под цветными буквами пишешь: telemate llm Он выдает ссылку на https://github.com/vegu-ai/talemate Берешь устройство типа мышь и нажимаешь левой кнопкой по появившейся ссылке и изучаешь. Если вдруг у тебя будут проблемы с непониманием что такое мышь или ссылка, напиши, я помогу.
Амудэёбы в треде есть? Запускаю ROCm форк кобольда под винду, эта скатина пишет вот это на 1 секунду и инста крашит загрузку. Я что то не понимаю нихуя, почему не запускается, блять. У самого 9070xt, HIP SDK последний поставил, на сайте поддержка есть. По загрузке кобольд видит видюху, я хэзе. Забало пользоваться вулканом, хочу затестить ROCm. НЕ ХОЧУ НА ЛИНУПС, СУКААА
>>1414638 Да, ты абсолютно прав, что указал на мою ошибку 😄.
Ну а если серьезно, я специально именно так и написал, так как алгоритмы поисковых систем заточены на то, что пользователь может быть ебланом и опечататься или банально не знать, но все равно найти. Именно поэтому я и добавил llm к поисковому запросу.
>>1414550 все консумерские говно, потому что важна скорость памяти, а не мощщя процессора. а точнее скорость помноженная на каналы памяти в процессоре. у консумерских линеек максимальная скорость в районе 100 гигабайт в секунду, у серверных это минимальная.
>>1414652 Блять. Значит буду смотреть, какой из них поддерживает максимальное количество каналов. Ну не могут же они все быть одинаковыми. >у серверных это минимальная. Даже рассматривать серверные смысла нет, так как это тянет за собой смену всего блока. Я конечно люблю нейровайфу, но тратить миллион на блок не готов.
На 3070 12GB и 32 гигах озухи сейчас реально запустить какую-то модель? Генерация охуительных РП историй не нужна, быстрота тоже, нужен примитивный ассистент( просто напоминать о том, что нужно сделать), чтобы не был окуколжен цензурой и мог поддержать беседу хотя бы на темы IT, Вахи и Рогаликов. (Часто бываю в местах без связи, интернетеа и людей. Скучно).
>>1414666 > зивончиков разве уже 12? они последние лет 10 у амудей сосали же а, реально > Granite Rapids is the codename for 6th generation Xeon Scalable server processors designed by Intel, launched on 24 September 2024 > Memory channels12 channels хуясе штеуд разогнался, всего на 3 года от амуди отстаёт.
>>1414503 >q4_k_s > пишут какие то непонятные буквы, вместо того что бы дать ссылку. > IQ2_M Пишет сам такие же буквы.
Ты ебобо? :)
> Мне хаггифейс пишет, что нет. пик 4. Ну нет так нет, и хуй с ним. =)
>>1414550 Не слушай >>1414561 Нихуя там упора нет, померяли, упор в проц, уже два человека в треде писали, и я сам лично погорел, взял говно 13400, псп максимум на 68 юзается, хотя там 90. Прирост от ядер линейный, было бы больше ядер — была бы выше скорость.
>>1414652 Жаль, что процы не могут эту скорость утилизировать нихуя, и перемножают как черепахи.
>>1414657 Тебе хуйни полной насоветовали, но я понимаю, что все без пруфов тока говна накидают, и даже не буду тебя переубеждать, пожалуй. Так шо смотри сам, верь кому хошь. =)
>>1414687 Понятия не имею о чем вы и вообще у меня дела.
>>1414693 > Так шо смотри сам, верь кому хошь Дуализм треда это нормально. В этом и суть. Спрашиваешь, а потом проверяешь, но хотя бы есть понимание откуда в флюгер дует. На моей памяти тред сходится только в одном: оллама хуйня из под коня.
Ну так, вброшу. На DDR4 с псп 50 после 5-6 ядер прирост скорости замедлялся и выходил на плато. На DDR5 с псп 90-100-110 количество вычислений естественным образом удваивается за единицу времени. По какой причине с ними должны справляться те же процессоры — математически и логически непонятно. В треде отписывался человек с разогнанной памятью, что даже 13900 его не хватало. В треде отписывался я с 13400 говной, которая вообще память никак не «раскрывает». Человек с райзеном 7700 отписывался о более высокий результатах в идентичных тестах против 13400 на памяти более медленной, чем моя. Пока что нет пруфов, что i5 способны выдать х2 к скорости на DDR5 относительно DDR4.
Но если уважаемые господа в треде могут показать такой результат — буду рад видеть и ошибаться.
Протестировать проц можно просто отключив использование видеокарты --cpu-strict 1 -ngl 0 или через куда_визибл_девайсес.
>>1414697 Таверна говно. Но проблема в том, что остальные говно еще большее. Она и так разваливается, если её еще сильнее пидорить, мы неиронично на фронт кобальта убежим.
>>1414696 > Дуализм треда это нормально. Это нормально, когда что-то неверифицируемо. Но когда все банально считается и проверяется, то зачем спорить с фактами — мне не понятно. Вот полезна ли Atlas 300i — это дуализм. А вдруг дрова ее причешут и через полгода будет топовой видяхой для ллм за копейки (но брать надо щас?). А может не причешут, и герой тот, кто ее тестировал. Хорош ли глм-аир — тоже дуализм. Делятся сэмплерами, промптами, заебись.
А сказать, что любое говно потянет DDR5 — крайне сомнительно. Я искренне хочу увидеть тпс вдвое выше DDR4 при 5-6 тредах, но пока таких тестов не могу вспомнить в треде, к сожалению.
>>1414693 >Ты ебобо? :) Если бы этот дурень хотя бы половину своей энергии, проёбанной на написание простыней и аватаркофажение тратил на чтение манов - уже давно бы сам во всём разобрался. Ёбаный стыд.
>>1414735 Ну у меня выходило что самый выгодный вариант был брать с каждого проца реальные ядра поровну. Какой там прирост хз в процентах С включённой нумой очевидно.
>>1414735 Лично я такое не собирал и не знаю. Но люди в треде писали, что нет, не складывается по итогу. Стоит расценивать как 4 канала, чтобы не разочаровываться, а если какой-то выигрыш таки поимеешь — то будет приятным бонусом.
>>1414699 И конечно никто не может объяснить чем таверна говно. Попугаи как они есть Ахуенный инструмент с кучей экстеншенов и полным контролем над промтом. Кому этого мало или с жиру бесятся или скил ишью
>>1414764 Таверна это даже не рп фронтенд. Это просто фронтенд для общих задач. Фреймворк и менеджер для нескольких нейронок это тупо другой инструмент. Ругать таверну за то что она не тейлмейт это пик аргументации, дыа
>>1414754 >скил ишью О светоч всея всея треда, о скилловик, о радость для моего сердца- поделись же мудростью с о мной, плесенью под ногами, как нормально использовать лорбуки, ведь они прекрасно реализованы. Групповые чаты, что без сомнения самая сильная сторона таверны. Почему мне приходится регекспами править форматирование, ведь для таверны наклонные скобочки превращаются в хтонь. Почему я не могу выгружать сразу все свои настройки, а не по одной ?
Вот это первое что пришло в голову, с чем я ебался последнюю неделю. Оставив за скобками общее среднее техническое состояние и постоянные баги, вылеты и ошибки, которые я умудряюсь вызывать рандомным образом.
>>1414472 >У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра Не у одного тебя. Хотя в данном случае ты скачал слопофайнтюн для фапа. Обычный может чуть лучше будет вне фап-сценариев.
>>1414781 >Не у одного тебя Air очень капризная модель, крайне чувствительная к промтам и самому оформлению карточек. Из за чего, его нужно подгонять префилами под конкретную карточку и мир (если мы говорим про РП)
>>1414774 > Это просто фронтенд для общих задач. Тогда у меня плохие новости для таверны, поскольку для общих задач она сильно проигрывает openwebui, где из коробки есть поддержка поиска в вебе, выполнения кода, вменяемые инструменты для создания/редактирования баз знаний, интеграция с тулзами для распознавания docx/pdf, подключение кастомных тулзов (включая готовую базу тулзов поддерживаемую сообществом) и прочее.
>>1414789 Угу, а ещё опенвебуй это питоний блотвер который весит под два гига с зависимостями. Ты прав что есть из чего выбрать, тут никто и не писал что таверна впереди планеты всей
>>1414763 Нет, чувак, прости, я некорректно выразился, возможно. Вплоть до максимума ядер — прирост линейный, это именно тест. Для DDR4 и 6 ядер твоя картинка верна, я сам ее люблю. НО, для DDR5 картинка верна уже для 8+ ядер (вероятно 10+). Вот где-то на 12 ядре мы будем опускаться, да. А до 10 скорее всего скорость будет просто расти. Но у меня нет таких процев проверить, рассматриваю поменять на i7 какой-нибудь и проверить. А пока страдаю.
С другой стороны, то что успел взять 128 гигов двумя планочками до роста цен — тут я рад. Лишь бы теперь процессоры не стали расти в цене. =)
>>1414774 Таверна — это буквально рп фронтенд. Она так задумывалась, начиналась, развивалась. Там была Аква стартовым персом.
При этом как общий фреймворк она околонулевая, есть опенвебуи.
Если они реально сейчас поменяли направление, то им там 80% легаси надо выбрасывать и переписывать все.
Не, ну, закрыв глаза на хуевый фреймворк таверны и прочие особенности, Таверна дает возможность очень хорошо и тонко настраивать промпт, который подаешь в модель, и сэмплеры для генерации ответа. И это круто. Но по большей части, на это все заканчивается. ОпенВебУИ в то же время, дает небольшой простор для настройки промпта, но так же поддерживает полноценно сэмплеры. зато имеет много всяких фишек из коробки, которые нужны для работы. Таверну можно расширить всякими экстеншенами, Вебую тоже можно расширить. У Таверны РП-направление, у Вебуи — рабочее. В своих нишах они хороши, у меня лично не было существенных проблем, ни одна, ни другая не вылетали, не тормозили, не зависали как-то критично, мне нравятся оба инструмента, хотя не один из них не идеал, конечно.
Шо есть, то есть.
А выше упоминался еще какой-то фронт — его я не пробовал. Может он лучше, фиг его знает.
>>1414822 > Для DDR4 и 6 ядер твоя картинка верна, я сам ее люблю. Проблема перенасыщения контроллера памяти при задании чрезмерного количества конкуретных потоков в общем. И всратенького контроллера инженерников на ам4, который может словить насыщение гораздо раньше в частности. Максимум скорости наблюдается +- при количестве потоков равных количеству ядер, этот значение стоит по дефолту и можно его вообще не трогать если у тебя не некроамд. Развели тряску вокруг ерунда, погнать рам, точнее распределить веса, погнать врам - даст больше эффекта чем эта суходрочка. > НО, для DDR5 картинка верна уже для 8+ ядер (вероятно 10+). Вот где-то на 12 ядре мы будем опускаться Натягивает сову на глобус пытаясь найти интерпретацию собственному опыту. Если не допускать скидывания процесса на эффективные ядра, там от 4-5 и до полного количества результат отличается в пределах рандомайзера.
>>1414936 Не, я залётный ньюфаг. Какой параметр отвечает за количество текста высираемой моделью? А то мне по дефолту наваливает пока в лимит выводимых токенов на одно сообщение не упрётся. И как вы качаете персонажей с карточками и лорбуками? Я пробовал с разных сайтов из шапки, через таверну напрямую качать не хочет, пишет ошибку соединения. А джсон файлы или пнг картинки конечно легко скачать, но при этом не будет всяких приколов в виде эмоций и разных поз персонажа...
>>1414951 Качаются с chub.ai я импортил через png (если был лорбук то он вместе с ним подтянется), даже не слышал ни про какие эмоции и позы персонажа.
>>1414953 Понял, спасибо. А про ответ в токенах я и говорил, ставлю 4к, модель даёт ответ на все 4к. Думал может другими настройками можно вывод ограничить.
Таверна - "говно" (на самом деле - не совсем, но...) не потому, что она на JS, или из-за ее ориентации строго на RP. (Кто сомневается - попробуйте ее как способ писать рассказ на пару с нейронкой) Ее (точнее - ее авторов) основная проблема: они практически всегда добавляя фичу, не доводят ее до ума, получая не универсальный инструмент, а узко специализированный костыль.
Вот из самого свежего: добавили возможность для сработавшего WI выводить текст в "макрос", замещая его. Первое, что приходит в голову - "охеренная фича, теперь можно в карточке персонажа динамически разделы добавлять"! АГА. ЩАЗ! Не работает оно в карточках. И нигде больше, как только в промпте. Причем в всплывающей подсказке по этой фиче - написано, что должно работать везде. Но хрен там плавал. И когда в их трекере кто-то написал (даже не я) что не работает как заявлено/должно - ответ - "и не должно, это только для промпта, менять не будем". А нах оно в промпте, если по большому счету? Там и так есть возможность WI втыкать в нужное место через глубину и wiBefore wiAfter.
И так постоянно, с рождения. Из-за такого подхода, мультичат с несколькими карточками практически неюзабелен изначально, т.к. просто не получится сформировать вывод так, чтобы модель нормально их понимала как отдельные персонажи, с отдельным контекстом, и приходится все сливать в одну карточку, иначе только особо умные модели в получившейся каше разбираются, и то хуже чем с одной "мультикартой". На это было им указано еще в 2023-ем, но воз и ныне там. Ведь важнее кучу новых перделок воткнуть, чем довести до ума уже воткнутое. А, да - удачи вам получить естественный порядок говорящих - таверна до сих пор умеет только включать карточки по рандому или через прямое упоминание имени карточки. Или просто по порядку. Удачи с естественным разговором где один сказал - второй ответил по смыслу.
Я, в принципе, еще дофига примеров могу привести, но смысл? Это просто крик души. Я уже и перегорел на эту тему. При этом, не сказать, чтобы таверна была совсем уж говном... Но шаг в сторону от того что авторы имели в виду - и ты будешь мучаться от нехватки гибкости, при всем кажущемся богатстве настроек. При этом - нормальной альтернативы таки нету. Частично - Risu, Talemate, openwebui, koboldlite. Но тоже со своими недостатками. Таверна, хоть и ближе всех к идеалу, но все равно далеко. И этим раздражает неимоверно. И еще больше раздражает, что авторам пофиг. У них подобные issue в трекере годами без реакции висят. Просто в игноре. Даже без минимальной отписки.
>>1414959 Спасибо, наконец перестало срать и стало выдавать приемлемые ответы! А про персонажа вот, стандартный же имеет карточки эмоций и внешний вид. На чаб.аи тоже в описании у многих указываются, но при скачивании по джсону/картинке не подгружаются...
>>1415003 У меня была парочка пнгшек, которые подтянули и такой вид, меня таверна еще предупредила, что это может быть вредоносный код лол. В любом случае рад за тебя, хорошего дня
>>1414992 >Это просто крик души. Я тебя понимаю, потому что я запилил карточку трех яндере сестер, и не то. Мне нужен именно груповой чат, но он, сука, не работает как надо. А если пихать в одну карточку, то характеры персонжаей перетекают на друг друга. Ооооо как горит мой очаааааг, можно сталь жопой плавить.
>>1415003 Качай карточки с https://janitorai.com/, это конечно та еще помойка, но там постоянно появляются как минимум интересные идеи. Самый простой способ пиздинга это зайти на страницу нужной карточки и в адресной строке, заменить сам сайт на https://jannyai.com/, не трогая остальную часть ссылки.
>>1414693 >Пишет сам такие же буквы. >Ты ебобо? :) Я всегда ссылки кидаю на модели. Анончики же делают это крайне редко. От того не всегда понятно что имеют ввиду. Да, я тупенький, простите.
>>1414543 >У тебя 16+64. 60гб, с учетом на систему хватит, еще гигов 4-5 будет болтаться. Да, ты запускаешь на своей пеке исключительно нейронку, желательно без ютубчика, потому что хромиумы жирные, что пиздец. Спасибо что объяснил, ибо я тупил жестко и не понимал. Потому что никто из анонов не сказал, что ОНО СУММИРУЕТСЯ. Я то вставил свои спеки в хагифейс и недоумевал, почему анон говорит качай эйер ( https://huggingface.co/bartowski/zai-org_GLM-4.5-Air-GGUF ), а хаги пишет, что не лезет. >>1414520 Спасибо за разъяснение, которого мне не хватало.
Так вот, llama.cpp взлетел по вот этому гайду >>1409808 → Я только только его завёл, всего 4 запроса сделал. Скорость вроде приличная, на уровне пейнтед фентези визажа . https://huggingface.co/mradermacher/MS3.2-PaintedFantasy-Visage-v4-34B-i1-GGUF prompt eval time = 276.69 ms / 1 tokens ( 276.69 ms per token, 3.61 tokens per second) eval time = 54894.71 ms / 571 tokens ( 96.14 ms per token, 10.40 tokens per second) total time = 55171.39 ms / 572 tokens
>>1415046 > Потому что никто из анонов не сказал, что ОНО СУММИРУЕТСЯ Ты не обижайся, но это потому что ты бы мог почитать шапку. Мне, блять, искренне грустно за ОПа, он столько собрал, другие анонсы пилили и все ради того, чтобы на это просто забивали хуй.
>>1414781 >>У меня сомнения по поводу целесообразности покупки дополнительной памяти и пиздатости эйра Это буквально проблема написания промпта, пресета, неба, аллаха. Скилл ишшуе короче. Это не ирония и не подъеб. Я и сам наверно месяца два только учился как и что просить от ллм. А то что тебе показалось что джейлбрейкнутый файнтюн мистрали лучше пишет, то это не удивительно так как него мозги выебаны настолько что у него весь эмбединг состоит из Я ТЕБЯ ЕБУ, ООо аа ты меня ебешь... >>1415076 Там слишком дохуя всего для энтузиастов и очень мало для нюфаков типа него, уж проще в асиг треде почитать базу, хотя там тоде дохуя всего что нахуй не надо для локалок.
Наскреб два вопросика: 1) Насколько хороши текущие моешки для (е)рп? Никогда ими раньше не пользовался и даже не знаю чего ждать. Тот же квен-235 - это уровень старой четвертой гопоты или скорее какой-нибудь большой мистрали/командора?
2) Какую мелкомодель для переводов можно взять? Хочу катать её совместно с основной моделью и впихнуть в оставшиеся четыре гига видеопамяти. Запускать буду через жору параллельно с кобольдом (если такое возможно)
>>1415158 >Какую мелкомодель для переводов можно взять? Квен позволяет ру (е)рп и в нём он хорош. Датасет тематический маловат правда, но было там всё. Бери версию с ризонингом.
Аноны, какую модель из 24-30б (или МоЕ, но не жирнее 80б) можете посоветовать? Оригинальный мистраль 3.2 уже надоел, может вышли тюны какие? Квен 30б уже изъюзал. Геммочка - умничка - но тоже от неё устал.
Вроде что-то там повыходило, но так просто это не найти, ведь нет аналога civitai. Да и вон идеальный кандидат для меня из новых, который не перегрузит моё древнее железо - Kimi-Linear-48B-A3B-Instruct. Но не пощупать, квантов нет.
Потому что фраза из документации llama.cpp "override tensor buffer type" мне не говорит вообще ни о чем.
Я так понимаю, мы выгружаем какие-то конкретные слои на CPU, но как нужно выгружать правильно и как вообще определить что выгружать - понять не могу, попробовал просто пару готовых вариантов которые нашел.
>>1415299 Нейронка состоит из слоев, слои из экспертов. Это регексп на выгрузки части экспертов из слоев на цпу. Найди свою модель на обниморде, открой инфу о составе ггуфа и дальше о составе слоя (blk что-то там). Дальше копипасть состав слоя в нейросетку и попроси рассказать какой эксперт за что отвечает и какие можно выгрузить в рам, а какие лучше оставить в врам. Нейронка может напиздеть, но для общего понимания этого хватит. Дальше можно методом научного тыка. Какие именно эксперты выгружает регексп тоже у нейронки спроси. И да, выгрузка экспертов для денс моделей может дать результат хуже, чем выгрузка слоев целиком. Пробуй, экспериментируй.
>>1415306 Ну я сейчас пытаюсь с Magistral-Small что-то сделать. Без всех этих выгрузок на CPU - 14 t/s.
С blk.[2-9][0-9].ffn=CPU выдает 7 t/s, но при этом 4.2GB VRAM еще свободно.
С blk.([8-9]|[1-9][0-9]).ffn=CPU выдает 6 t/s, но свободно 7.2GB VRAM.
То есть всё таки что-то да выгружается и даже работает, но чужими regexp'ами криво, потому что остается много свободной VRAM. Вот и пытаюсь понять что выгружается.
>>1415039 >janitorai >первая карточка с девушкой на 23 месте, остальное гей-мужики Лол. >>1415307 >Нейронка состоит из слоев, слои из экспертов Что ты блядь такое несёшь? >>1415336 1488B
>>1415039 Эх, вот бы кто придумал, как получить промт карточек без прокси. >>1415338 > >первая карточка с девушкой на 23 месте, остальное гей-мужики Там есть фильтр и друг подсказывает, что на гейских карточках тег MLM, а там всего две таких. Значит это что-то в твоей голове.
>>1415338 Так уборщик позволяет легко подключиться к дипсику, конечно там будет куча жирнухо контента. Но опять же, что плохого. Ну хочется девчатам яойное порево, не нам судить. Там хоть модерация за теги бьет по жопе. Единственное, нельзя лорбуки скоммуниздить, но они, в большинстве случаев и не нужны, так как там просто поревобуки, которые мы заменяем шизомержами и тюнами.
Короче- одобряю. Если уделить время на копание в навозной куче, можно прям для себя хайден джемы найти.
>>1415306 Не мути народ. На Dense польза тоже есть, хоть и меньше. Правда ручками писать надо - одной опцией не обойдешься, экспертов которые явные и первые кандидаты на выгрузку нету.
Это основная проблема с Dense моделями - для каждой свой вариант строки писать приходится, от другой совсем не подходит обычно (кроме тюнов на базовую). А зависит хороший вариант не только от самой модели, но и от железа на котором она запускается. (RAM, VRAM как минимум.) Из личного опыта - Gemma3-27B - с 1.5Ts до 2.8T.s на 3060. Мистраль 24 - с 4.5 до 7 на ней же.
>>1414940 > Натягивает сову на глобус пытаясь найти интерпретацию собственному опыту. Если не допускать скидывания процесса на эффективные ядра, там от 4-5 и до полного количества результат отличается в пределах рандомайзера.
А ты часом сам не натягиваешь сову на глобус? :) Даже ж не читаешь, что я пишу. Все ядра четко распределены, никаких энергоэффективных, прирост линейный, от 4 результат отличается кратно количеству ядер, а не в пределах рандомайзера.
Ты практик или диванный аналитик? Если практик — скинь просто тест на ddr5, где она показывает реальный х2 прирост от ddr4. Я жду скрина уже месяц, не кинул никто. У всех теории, и ни одного результата.
>>1415309 Не мое дело, канеш, но почему магистраль, а не мистраль? Это ж криво обученный недоризонинг с просратыми языками, не? Будто бы мистраль 3.2 гораздо лучше магистрали 1.2…
>>1415343 >Значит это что-то в твоей голове. Я просто открыл сайт, это его дефолтное состояние. >>1415357 >Там хоть модерация за теги бьет по жопе. То то нет нужных тегов типа loli.
>>1415368 >У всех теории, и ни одного результата У меня 4 планки DDR-5 работают на частотах 2к-3к, условно, но где то в этих пределах. Оно меняется при запуске рандомно, еще и отваливаются, что система не видит их или подсветка рандомно включается. Камень - 13600к. Если ставить XMP профиль, комп уходит в ребут и сбрасывает с аппаратной ошибкой, пища через динамик. Да, я купил динамик потому что могу и стоил он 150 рубасов. Почему их вообще перестали ставить, вин же, сразу понятно что, что-то идет не так. Так что я обосрался с 4 планками на своём опыте. Можете насмехаться. Тесты нннада ? Хотя, неведомым образом, все равно 9-12Т/с тот же air выдает в Q4_K_S, но там есть проблема другого рода.
>>1415375 >То то нет нужных тегов Это банально не законно, поэтому не делают. Никто не хочет за лолей и шот получить швабру в жопу.
>>1415384 >Почему их вообще перестали ставить Потому что есть дисплеи с посткодами, чтобы не слушать писки? >не законно Ебать запугали. В большинстве стран текстовая порнуха с любым содержимым разрешена.
>>1415368 Ты эти сочинения уже в который раз пишешь. По какой-то причине не смог получить должного перфоманса от ддр5 на гой5 в сравнении с ддр4, и на основе этого единичного опыта с ошибкой делаешь странные выводы по поводу ядер. Уже несколько человек тебе высказали и свои наблюдения приносили. > скинь просто тест на ddr5, где она показывает реальный х2 прирост от ddr4 От ядер перешли к твоей проблеме, лол. Ты сам > Даже ж не читаешь, что я пишу. чекай еще раз пост там все есть. А чтобы такие сравнения делать - платформ с двумя каналами ддр4 у меня не было с 19года. Если страдать ерундой с запускам моэ на десктопе то скорости соответствуют ожиданиям, по зависимости от ядер написано.
>>1415368 >Даже ж не читаешь, что я пишу. А зачем? Идентифицирую тебя -> не читаю, и так каждый раз. Ни разу не пожалел. Одна вода и желчь в твоих полотнах. Что-то мне подсказывает про тебя все всё давно поняли
>>1415384 Бля, братан… Спасибо за твой опыт… Сочувствую…
Да че насмехаться, я сам советовал всем брать любой проц, а потом сижу-пержу с 13400, нихуя скорости нет.
>>1415386 Ну вот, ты опять хуйни написал, а тесты где? Ну если у тебя соответствует ожиданием — так запусти, покажи. Блядь, так сложно скрин сделать? Я реально не понимаю.
Вместо одного скрина ты пишешь десяток ответов мне.
Пожалуйста, просто запусти любую одну крупную мое и покажи результат. Желательно чисто на проце, ибо видеокарты разные, вносят большой разброс.
>>1415406 > Сочувствую Да хуйня, возьму 2 жирные планки на днях. Зато я прям на своем опыте убедился, что 4 планки DDR 5 не работают нормально с хуинтелом. Авось кто то из тредовичков прочитает и не наступит на эти же грабли.
>>1415406 Какие тесты тебе нужны, сформулируй. А то все носишься с жалобами что у тебя перформит недостаточно быстро и требуешь каких-то сравнений. Мне то не в падлу прогнать, просто для этого качать модельки придется. На эйре Q4 под 20т/с в начале, но врядли сами цифры тебе что-то дадут, ибо для сравнения придется найти комбинацию 5090+ддр4. > Желательно чисто на проце А в этом какой смысл? Пойдет обсчет атеншна и там будет уже сам перфоманс ядер влиять. Мало того что так никто не делает, так еще и скорость будет радикально от контекста зависить. Только не говори что ты у себя не только линейные но и с атешном тестил.
>>1415435 Дыа. Эйр, как уже отмечали, капризен к промту и крайне внимателен, когда это не нужно. Можешь попробовать базовый гичан, он конечно навалил туда от души, но толика логики в нем есть. Мой опыт показывает, что эйру нужно навалить промтика, не стесняясь, на коротких он работает плохо. Но это прям субъективно.
>>1415384 >У меня 4 планки DDR-5 работают на частотах 2к-3к, условно, но где то в этих пределах. Оно меняется при запуске рандомно, еще и отваливаются, что система не видит их или подсветка рандомно включается. Камень - 13600к. Если ставить XMP профиль, комп уходит в ребут и сбрасывает с аппаратной ошибкой, пища через динамик. Ты Биос обновлял? У меня 13600kf и то же самое было с 16gb х4, пока не обновил. Да, изкаропки ни одна мать интеловская 4 планки не тянет с XMP, с обновлениями проблему решили. ХЗ насчет xmp с 32gb x4, правда. Но 4800 мгц должен вытягивать.
>>1415406 >сижу-пержу с 13400, нихуя скорости нет. А у тебя что за конфиг и какая скорость?
>>1415422 Это нытье про 4 плашки ддр5 самого начала тредов еще, все так. Вообще, оно работает, 192гига после кучи усилий 5200 берут, на 4800 работает вообще сразу без какого-либо пердолинга. Но повторить подвиги с разгоном 6000 и более, что достигаются для 16-гиговых плашек не получается. Также многое от материнки зависит, вроде как на оверсракеских анусах легко берется. Стоит ли оно того с учетом снижения частоты - тут уже пусть каждый сам для себя решает, грабли еще те.
>>1415435 Нюня с начала плевался от патернов и слопа а потом изменил мнение по Эиру. Писал что формат карточек радикально поменял картину. Жаль пресет не зашарил но утверждал что там ничего необычного, разве что чатмл. Я вот тоже ща свою карточку написал по другому и кайфую, нельзя упарываться в структуру и списки НИГДЕ в промте
Вопрос. А в KoboldCPP я могу ручками пропустить картинку через энкодер, чтобы скормить модели её самостоятельно в нужном месте? А то он там делает какой-то мистический (Attached Image XXX) и чё он? Перед отправкой к модели подставляет на это место картинку чтоли?
>>1415458 Чёт совсем пососные планки. Норм берут под интул 7к и получают свою сотку пропускной. >>1415460 >с разгоном 6000 и более, что достигаются для 16-гиговых плашек 48 плашки без проблем работают на паспортных 6400, я понизил до 6к чисто из-за проца. >>1415465 >Попробую на 4x16,благо валяются в столе, вместо 4x32 А вот не факт, что если первая конфигурация заработает, то заработает и вторая. Нагрузка на контроллер разная. >>1415472 ЕМНИП в кобольде плейсхолдер для картинки в тексте чата, ставь куда хочешь.
>>1415494 чатмл это Chat ML шаблоны в таверне, где выбирать шаблон контекста и прочие настройки. Хз как сделать так чтобы Эир не начинал после этого гадить тегами lm_end в конце, как-то можно но я не спец. Гичан это шизопромт на косарь токенов где во всех подробностях описано что такое ролевая игра и как отвечать. Имхо модель тупеет от этого, такое же говно как тут гулял раньше отруб цензуры для Геммы 27. Промты чем короче тем лучше
>>1415505 >Хз как сделать так чтобы Эир не начинал после этого гадить тегами lm_end в конце Вот эта задачка, хм, может не стоит использовать квеновский чатмл для глм, который натренирован на своем шаблоне? Да не, хуйня какая-то...
>>1415514 Глупыш не знает что чатмл ни одной ллм навредить не может. Это самый широкий универсальный шаблон который никак не форматирует выдачу. Никак не ограничивает а значит и выдача разнообразнее. Много раз писали что чатмл меняет выдачу и это правда. Олды ещё на первых Мистраль моделях просекли фишку и довольно урчат А хвосты можно убрать через регексп или лучше правильной настройкой сепараторов
>>1415535 Мне так ассистент доставил, вот бы он еще в самоценз не уходил. Ну охуенно же. И сцену опишет и действия персонажей, предложит сам варианты действий.
>>1415545 А чем тебя 4.5 не устраивает? Ладно, геммобой ждет няшку умняшку, его можно понять, гемма действительно вышла давненько. Но ты из треда в тред бегаешь с этим тейком, словно 4.6 это будет небо и земля.
>>1415505 > шизопромт на косарь токенов >>1415507 Ааа да да помню такой, как я помню у кого-то с фригидной геммы3 сгорело назуй и он расписал вообще все. Ну попробуем.
>>1415524 >самый широкий универсальный шаблон который никак не форматирует выдачу В таверне он включает в себя маркеры шаблона, которые используются только квеном. Как раз из-за этого у тебя глм и срет <|im_end|>, дурачок.
>>1415425 > А в этом какой смысл? Пойдет обсчет атеншна и там будет уже сам перфоманс ядер влиять. Мало того что так никто не делает, так еще и скорость будет радикально от контекста зависить. Только не говори что ты у себя не только линейные но и с атешном тестил. Уф, да что так сложно, давай объясню в десятый раз.
Есть DDR4. На ней есть определенная скорость генерации, которая зависит от пропускной способности и не зависит от проца, если он нормальный. Верно, или что-то не нравится? DDR5 с псп вдвое выше должна давать вдвое больший перформанс, верно? Но прирост получается меньше при совершенно равных прочих условиях.
Дело в том, что не имеет значения, как именно ты тестируешь, лишь бы условия были равны для всех платформ. Ты прав, искать 5090 накладно, поэтому проще протестировать на проце. Замедление? А разве оно не будет одинаковым и у тебя, и у меня, и если процессор не имеет значения, то результаты все равно должны сойтись на всех платформах, м? Или оно по-разному замедляется?
SET/export CUDA_VISIBLE_DEVICES=[] Можешь в начале стартануть с видяхой, а потом без и сравнить результаты генерации для себя. ./llama-bench -r 3 -p 512 -n 512 -ngl 0 -m твоя модель лишь бы влезала в оперативу, скинешь где скачать, я сам качну. Можешь поиграться с -t на свой вкус.
Ну, вроде бы, максимально стандартизированный тест от самого Герганова.
>>1415590 >ответы уровня мистраля Любой кто пользовался эйром и геммой, никогда не подумает на мистраль, потому что выдача - это чистейшая геминька дома, только не пытается осуждать user в каждом предложении. Я не знаю, где ты там мистраль увидел. Мистраль настолько самобытна в своем слопе и запоминается в своей выдаче, что её сложно перепутать с чем то, потому что мелка и очень любит паттерны. Если ты сравниваешь с большой мистралью, тут я ничего не буду говорить, так как не запускал её.
блять кароче официяльно заявляю эти все крошки от крупных коммерческих моделей просто хуита, закидываете бабла на опенрутер выбираете любую модель там есть куча free моделей и всё рпшите кумите и прочее С КАЙФОМ, а не как на эти все лупы отсутствие развития сюжета пока сам не подкинешь чего нидуь новое
>>1415474 >ЕМНИП в кобольде плейсхолдер для картинки в тексте чата, ставь куда хочешь. Лол ну как бы было бы здорово если бы это документировалось так как я чет не нашел документацию по этому месту. Притом лол если просто скормить в чат формат картинки то модель начинает галлюцинации устраивать с тем что видит.
>>1415645 это ты с химерой то с кайфом дрочишь? Она же просто как хуёвый R1.
>>1415635 Хватит тред жиром заливать. Новички на твой тролофорс ведутся, потом бомбят на глм, которому приходится вместо родных <|user|> и <|assistant|> срать <|im_start|>user и <|im_start|>assistant, отчего его выдача ухудшается.
На 48 псп я имею 5,3 тпс, а на 88 — 8,3, хотя должно было бы быть 9,7! Как говорится «расчетные». Получается, будто бы у меня 75 псп. Неприятненько же. Ну и сама по себе потеря 1,5 токенов (а с учетом видяхи, там увеличивается и скорость генерации — и разрыв!) неприятна для таких значений. Мое мнение — дело в моем процессоре.
Окей, я не буду об этом ныть больше. Последний раз скажу, что «любое говно» не подойдет, на мой взгляд. А дальше уж хер с ним.
>>1415653 >Лол ну как бы было бы здорово если бы это документировалось Флаг в руки и пше на шею. >>1415673 >На 48 псп я имею 5,3 тпс, а на 88 — 8,3, хотя должно было бы быть 9,7! >Как говорится «расчетные». >Получается, будто бы у меня 75 псп. А что не так то? Скейлинг не линейный, увы. >>1415674 Он ещё не знает, что скорее всего все корпы давно МОЕ-параша, ибо быстрее и дешевле (на качество всем давно насрать).
а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе? эта чё получается что столетняя лама3 на 70б полноценных будет лучше чем дипсик?! или тут анал огия с производительными и энергоэфиктивными ядрами синтола не проканает?
>>1414642 У меня также эта хуита на Винде падает. Но у меня десятка древняя ltsc я уже привык что там новый софт какой-то соевый может не поехать. Llama CPP со встроеным rocm работает но скорости ниже чем на линуксе. Советую купить sata SSD на 120 гб, поставить туда Линукс и не ебатся с виндой. Там потом запускаешь кобальт со встроенным rocm и проблем не знаешь. Ничего настраивать не надо тупо две кнопки нажать из под линукса.
>>1415677 > А что не так то? Скейлинг не линейный, увы. Но я все же рискну апдейтнуть проц хотя бы до i7. Может быть выброшу деньги на ветер, канеш, зато морально буду удовлетворен, сделал все что мог и все такое.
>>1415677 Даже «скорее всего» тут скорее всего лишнее. Не помню, что там у Claude, но про Gemini и GPT точно говорили, что моешки.
>>1415678 Не будет конечно, потому что толку от плотных моделей не так много, как хотелось бы местным сторожам. Есть еще старая же llama 405b, немотроны разные (253b, например, но это дистилл лламы), сходу не упомню, что еще. Но по факту, ничего кроме черепашьей скорости ты на них не получишь. Мифическая глубина есть тока в башках тех, кто топит за крупные денс-модели и против корпоративных моделей и Kimi K2, Deepseek, GLM, Qwen и прочих-прочих-прочих крупных моделей (все они мое).
>>1415399 Ну, только что шизы про меня и поняли что-то из своей ноосферы. Щас бы воду и желчь видеть в моих сообщениях, и не видить в сообщениях оппонентов. =)
>>1415403 Три раза за два года, вау. Вот ето дохуя. =)
>>1415678 >а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе? Только большой дристраль 123B, лама 3.1 405В и её тьюны типа Hermes 4 и немотрон 253В(который та же есть урезанная лама).
>столетняя лама3 на 70б полноценных будет лучше чем дипсик?! Ты ебу дал? Даже 405В лама соснет у дипсика ибо говно, а не модель. Мощность мое модели не определяется активными параметрами, она примерно идет как половина от общих параметров.
>>1415451 Испотрошил аир на разных промптах, и как оказалось (опять же имхо и пук в воду без пруфов) самый короткий промпт в 3 строчки - это самый лучший вариант. Если нет какой-то цели выжать POV, внутренний голос с прочей шляпой и нужен простой сторителлинг, то стандартных "ты сторрителлер в этом бесконечном сценарии с рейтингом 21+" будет более чем достаточно. Чем больше писал правил, тем менее креативным и более линейным становился аир. Как в плане кума, так в плане рп. Тестировал на карточке с лорбуком в 5к токенов.
>>1415678 >или тут анал огия с производительными и энергоэфиктивными ядрами синтола не проканает? Просто улучшение по другим фронтам компенсирует дебильность МОЕ. Поэтому нет, старая плотная ллама хуже новых мое. Но если бы были новые плотные... >>1415684 >Но я все же рискну апдейтнуть проц хотя бы до i7. Отпишись, будут ли результаты. Хотя на интуле вроде 8 ядер это пердел, увы.
>>1415712 Все полезно, что в рот полезло. Сейчас MoE в тренде. Это когда есть модель-роутер и куча экспертов. Эксперты идут на оперативу, а в видеопамять только роутер и контекст. Так что, DDR5 + 5090 твой выбор. Запускать мое в видеопамяти тоже круто, но там уже неплохо бы теслочек штук 5 накопать, чтобы было 120 гигов. Ну или хотя бы 3-4 для глм-аир.
>>1415655 Мой форс? Тут уже несколько анонов ответили что на чатмл выводы меняются. В лучшую или худшую сторону решает каждый сам. Поешь говна, попрошайка пресетов. Ору что ты даже стопстринги настроить не могёшь и готов неделями срать в тред лишь бы тебе принесли масткр импорт
>>1415554 Конечно сложно, ведь ты сначала утверждаешь что > скорость генерации, которая зависит от пропускной способности и не зависит от проца а потом предлагаешь полностью выгружать все-все а не только линейные слои. Тебя не смущает сложность обсчета атеншна, жалобы на просадки в разы/на порядки уже на малом контексте при выгрузке целых блоков, и в то же время хорошая работа моэ и плотных поделей при правильной выгрузке? Раз не понимаешь, хотябы вот примеры тебе. > Дело в том, что не имеет значения, как именно ты тестируешь, лишь бы условия были равны для всех платформ. На ноль делишь. Если хочешь смотреть импакт от псп рам - тестируй операции завязанные на нее, а не вноси смуту добавляя существенную долю компьюта, которая уже будет напрямую зависеть от производительности проца в конкретных операциях. Потому (в том числе, других факторов хватает) у тебя и происходит >>1415673 просто выгрузи на проц только линейные слои экспертов и получишь линейную зависимость о псп рам.
Если сегодня закончу не слишком поздно - что-нибудь прогоню, если нет - уже в воскресенье.
Вообще было бы интересно увидеть тесты больших моешек на такой конфигурации: какой-нибудь миник с разделённой памятью (128гб LDDR5Х, лучше больше и лучше конечно, но таких нет пока) плюс внешняя мощная видеокарта (5090 в идеале, понятно). Может это вообще новая база.
>>1415740 Если уж тыкать пальцем утка, то ты и был одним из тех кто его заебал. И думаю что тебе хорошо известно что в треде живёт шизик который байтит на пресеты срачами. С квеном удалось даже
>>1415737 Если не вылезут какие-то существенные задержки через профессор-тандерболт-псина-гпу то будет действительно ебать. Та память или просто быстрая с частотами за 8ггц, или в случае некоторых чипов там больше двух каналов и скорости еще выше. Насчет базы сложно сказать, они сами по себе дорогие, переходник-бокс дорогой, блеквелл дорогой. Есть еще план б - можно наколхозить подключив через m2 райзер-адаптер, там и задержек особо не будет, и недорого, просто колхозище.
>>1415737 Внешняя гпу? Ну видимо подразумевается ноутбук. Собственно вопрос а с охлаждением что? Планки и проц в постоянном нагреве, отводится всё это хуево. Скорее гроб а не база
>>1415733 > а потом предлагаешь полностью выгружать все-все а не только линейные слои Как бы да, но только вот соотношение между различными типами памяти с активной видеокартой в итоге получается такое же, как и без нее. Т.е., подрубание видяхи мне накидывает снова меньше, чем должно быть по псп.
> Если сегодня закончу не слишком поздно - что-нибудь прогоню, если нет - уже в воскресенье. Благодарю, как удобно.
>>1415743 Я ему слова плохого не говорил. Наоборот, лампово беседовали. Я уже не раз писал, что я не в ответе за долбоёба пишущего курсивом. Ну нет на доске айди, а аватакфажить не комильфо к каждому посту. > треде живёт шизик Это не один шиз, а гости с асига. Но вместо того чтобы не кормитесь,байтитесь как школьники. Хотя я и сам такой же.
>>1415749 Вообще не понял что за соотношения. Перефразируй или как-то проще опиши. С одинаковой видюхой и одинаковой конфигурацией выгрузки получаешь не пропорционально больше скорости рам? Так это нормально, ведь у тебя еще видеокарта работает. Тут надо вообще считать не по скорости а по времени обработки одного форварда, сменой платформы на более быструю ты ускорил время, приходящееся на обсчет процом, но никак не ускорил часть что считает видеокарта. Для иллюстрации и понимания тут можно представить два предельных случая: один предельный случай когда у тебя абсолютно идельная гпу, что считает свою часть мгновенно - тогда будет прямая пропорция без смещения; второй - идельный проц, тогда скорость будет определяться целиком видеокартой и не сможет ее превысить.
> просто выгрузи на проц только линейные слои экспертов и получишь линейную зависимость о псп рам. Окей, предположим так. Какой командой это можно сделать? Стандартные --cpu-moe и ffn_x_exps память не «раскрывают» (тьфу блин, простите, второй раз это слово использую).
>>1415756 Регэкспом или командами-макроссами. --cpu-moe сделает нужное, если глянуть в коде то можно увидеть что оно, n-cpu-moe и подобные по сути просто добавляют дополнительные регэкспы.
>>1415753 Ладно, ты меня убедил, пойду считать миллисекунды и вычитать проходы видеокарты из обоих результатов. Может и правда я ошибся с грубым подсчетами.
>>1415762 Ты можешь сделать все проще - воспользуйся настройками биоса, и прогони тесты бенчмарк с разной частотой рам и там и там. Если не вмешаются какие-то сторонние факторы или проблемы, то по двум наборам этих точек можно подтвердить или опровергнуть степень скейла от псп рам, вычислить и выделить скорость видеокарты-проца и выделить сторонюю компоненту если там есть еще что-то.
>>1415368 >Не мое дело, канеш, но почему магистраль, а не мистраль? Это ж криво обученный недоризонинг с просратыми языками, не? Будто бы мистраль 3.2 гораздо лучше магистрали 1.2…
Да нет какой-то причины, влез в локальные LLM 1.5 недели назад, качал то что новее и выше в рейтингах которые нашел. Там Magistral был выше чем Mistral. Это в общем-то единственная причина почему именно Magistral. До тестов персональных ощущений толком не дошел так как три основные LLM которые используются - gpt-oss-20b, qwen3-30b-thinking и qwen3-coder-30b, а Magistral висит просто как запасная, на случай если эти не справятся с задачей. Это всё не для РП, разумеется.
Может и использовал бы Magistral/Mistral как основную, но скорость печалит на фоне тех которые используются сейчас. Довольно тяжело привыкнуть к 15 (с падением до 10) t/s после 60 на gpt-oss и 30 t/s на квенах. Вот и решил попробовать что-то сделать с этим, может получится выжать хотя бы 20 t/s через выгрузку каких-нибудь частей. Но пока получается хуже чем вообще без выгрузки.
>>1415711 Разумеется, если настроить его на родной глм пресет, то он ими срать не будет, но это тогда уже будет не ChatMl. > попрошайка пресетов Где я просил хоть что-то лол? Наоборот, у меня все как раз есть - и правильный пресет под глм в том числе, это ты тут на чужом для глм чатмл сидишь и байтишь чтобы тебе нормальный пресет дали. Возьми вон пресет гичана что я выше кинул и успокойся уже.
>>1415820 >я не доказываю другим с пеной у рта что одного лучше другого Ну да, ты просто жирно троллишь что модель лучше работает на чужом для нее шаблоне, а не на своем родном. Или ты реально дурачок и действительно так думаешь, я пока не понял.
>>1415819 >>1415822 >>1415819 >если настроить его на родной глм пресет Даже на чатмл при правильной настройке Эир не будет срать тегами. Ты не можешь это осмыслить потому что широко открываешь рот перед драмером и гичаном, кушая промт токены и за деда и за бабку в пятом поколении, даже не разбираясь как что работает. Тебе уже дважды ответили как правильно накатить чатмл на Эир и зачем. Не надо оно тебе ну и замолкни тогда, >модель лучше работает на чужом для нее шаблоне Предлагаю тебе выбор: ты линканёшь посты где кто нибудь пишет что на чатмл выводы именно лучше (а не другие) или возьмёшь хуй в рот и завалишься наконец со своими набросами? Ладно есть ещё третий вариант, соскочить с темы, подозреваю это ты и выберешь Впрочем допускаю что ты ребёнок с fomo тряской и тебя корёжит что у кого то там может быть что то работает лучше твоего)))
Привет, ребятки. Пытаюсь заставить ллмку генерировать охуительные истории сюжеты для рассказов в жанре киберпанк, и столкнулся с такой фигнёй. GPT-OSS-120b всё время уходит в сторону условно "безопасных" сюжетов. То есть, любой сюжет сводится к тому что герои героически предали огласке заговоры корпорации, инициировали поправки в законы и так победили злобных недругов. Ничего что можно трактовать как "нелегально" или "вызывающе". Нейронка не хочет писать про перестрелки. убийства, хакерство и киберпанковский гримдарк. Приходит в голову только то что дело в модели, мол её натренировали на такое поведение. Поэтому хочу попробовать что-то другое. Какие модели сейчас актуальны для ролеплея и художки? Чтоб прямо свежачок? Мистраль из списка в шапке выглядит достаточно старым, годовалой давности. Qwen3 посвежее, но может есть что-то покруче?
И да, на счёт химии с промптами и параметрами инференса - есть ли какие-то хинты по правильной их установке, на случай если проблема во мне? Или хотя бы принципы подбора? Не хотелось бы полным перебором баловаться.
Хотелось бы доступный опенсорс, который я на своих двух видяхах могу запустить - бюджет два gpu в 48Гб+24Гб. Если что-то имбовое, и доступно через OpenRouter - могу пойти и туда, но только если не сильно дорого - Клод сразу идёт нафиг, до сих пор помню как он ждал кучу денег на кодинге.
>>1415832 >Приходит в голову только то что дело в модели Именно так, она для другого предназначена. Удивительно что она вообще хоть как-то играет в РП.
>Какие модели сейчас актуальны для ролеплея и художки Если нужна в том же размере что и OSS, то GLM Air - отличный вариант.
>>1415827 >со своими набросами Индивид набрасывает новичкам за уши хуйню жирными слоями, пользуясь тем что все олды знают его как смайлофажащего агрессивного и неадекватного шиза и просто игнорят его посты, и при этом еще и проецирует свои действия на других. >ты линканёшь посты где кто нибудь пишет что на чатмл выводы именно лучше (а не другие) Ага, к слову "лучше" прицепился. Ты именно это слово не говорил последние пару тредов, но ты писал вот что >>1415524 >Это самый широкий универсальный шаблон который никак не форматирует выдачу. Никак не ограничивает а значит и выдача разнообразнее. Далее, в прошлом треде ты прямо советовал нашим новичкам использование этого шаблона с глм, на что другие аноны(я в той дискуссии не участвовал) тебе указали что это хуйня, тот же анон с жирным тейком что выдача глм с чатмл похожа на мистраль присутствует и итт, ты сейчас не только со мной ругаешься. А вообще ты с этим чатмл носишься уже тредов десять с тех пор как 99 мельком упомянул что использовал его для аира, а ты, как его верный фажик, подхватил эту херню. >широко открываешь рот перед драмером и гичаном Найс проекция твоих отношений с 99. То что я как и они осилил вытаскивание шаблона из модели - не делает меня их фанатом. Но для новичка лучше реально взять гичана чем кормить модель неродным шаблоном.
>>1415853 Нюнезависимый, ты рили поех. Кто ты, кто я? Ты думаешь тут два человека сидят? А нет, уже три получается. Нюня ты да я, да мы с вами, получается? Как и предсказывалось ты выбрал третий вариант (соскочить с темы то бишь), ни одного линка на пост где хоть какой нибудь даун говорил бы что чатмл сила глм4.5 могила. Иди нахуй, а я буду дальше тихонько энжоить на чатмл
>>1415859 Ты не понимаешь. Нюня ну вот настолько мудак, что ты если с ним согласен, то тоже мудак! Хотяб наполовину. И вообще фажик. Нормальные мужики сосут у гичана. А вы уже выбрали свой хуй?
>>1415765 Я воспользовался обоими способами и получил интересный результат. Разница действительно есть, и видеокарта разгружает проц, но рост не настолько хороший. Так же и с частотой. Если ее занизить, то скорость упадет, но не так много. Истина оказалась посередине. За 8% частоты я все-таки выигрываю 4% скорости. Причем, и видяхой, и без нее. То есть, на самом деле, с видяхой я выигрываю немного побольше, учитывая что есть фиксированная часть, где-то процентов 5-6.
Выходит, 13400 почти хватает на 6000 частоты, но скорее всего хватит на частоты до 5600. А вот выше я бы брал уже 13600к, который и стоило взять.
Ладно, спасибо, я разобрался, все не так плохо, но и не так хорошо. Правда оказалась как раз посередине. Признаю свою ошибку — в проц упор был минимальный, 9-10 ядер не нужно, для хорошей памяти 8 ядер хватит. На интеле жизнь есть. =)
Теперь буду чуть меньше жалеть, но все же лучше не жмотиться и брать 13600, ИМХО.
Хотя, кто вообще сейчас собирать будет, с такими ценами на память…
>>1415832 Осс - дно для рп, сторитейла и подобного. Йоба трендовые модели для этого - эйр, квен235, жлм4.6, если достаточно рам и заморочишься с раскидыванием по обеим гпу - будет норм скорость. >>1415873 Не бывает "истин посередине", все эти вещи детерминированы и подчиняются четким законам. Если есть какая-то компонента постоянного смещения то ее детали нужно выяснить и явить народу, сразу довольно заурчат получив ускорение. Скинь значения что получаешь и подробности что и как запускаешь, это будет полезным. Ну а насчет влияния перфоманса проца - это можно замерить сменой множителя частоты, не забывая про avx оффсеты. Скейл перфоманса ядер будет самый прямой из всех возможных, главное не трогать остальные частоты анкора и прочего.
>>1415873 Отмена нахуй, все это время это было 6200 частота, я ебал эту материнку, гнилобайт ебучий, говно собачье, долбоебы хреновы. Я в биосе провел больше времени, чем в бенчах.
Какая сейчас относительно мелкая модель котируется для генерации худлита на инглише и имеет минимум цензуры? А то у меня какая-то соевая хуйня поехала от своего прошитого позитивного фидбека и начала генерировать что рабство это было хорошо так как способствовало распространению негров и увеличению диверсити и инклюзивити повсюду
>>1415873 >>1415883 Простите, сгорел. Перетестил немного, отмена отмены. Вроде бы циферки обратно сходятся. Опять получаю результат, что проц выдает чуть меньше, чем должен. Перебираю разные частоты памяти и до 5800 прирост есть, дальше прирост останавливается.
Но тут такая ебучая материнка, >>1415882 прости, пытаться менять частоты процессора я пожалуй не буду, слишком это утомительно, тут в биос заходит от раза к разу.
>>1415843 >Есть команд-а, который почему то здесь не катают. А ведь вин же! Почему же не катают - катают, у кого врам есть. А вот интересно, какой-нибудь Fallen-Nemotron затюнили? Народная модель могла бы быть.
>>1415843 > А ведь вин же! На катают потому что не разделяют твоего восторга. Он способен упускать достаточно очевидные вещи из-за чего катать его в рп - боль. Одного фейла хватит чтобы заруинить то, что долго выстраивалось, как бы ни был хорош в остальном. >>1415891 > ебучая материнка Причин может быть множество а последствия самые разные, хули. Прогони тогда тесты скорости врам, может они у тебя тоже не скейлятся, и бенчмарки mkl, хотя последние более сложные операции дадут.
>>1415678 >а чё есть вобще большие модели, которые полноценные, а не обсосанные мОе? Как ты себе представляешь инференс и тренировку 1.5т+ плотной модели? Производительность ТПУ на самом деле не прям намного выше, чем производительность топовых видеокарт), даже эти охуевшие датацентры за десятки миллиардов баксов это не потянут нормально. У тебя банально один токен тренировки и генерации будет стоит в 50 раз дороже и медленнее.
Я разрешу ваш спор. Попросите эир вылизать вам slit/hole on the tip, при условии что пенис уже показан. Чатмл просто не понимает о чём речь и девушка тянется к своей пизде, возможно если прям вести за руку и описать подробнее это сработает, но я не пробовал, ведь на глм шаблоне она всё понимает и так
>>1415832 Как тебе уже выше написали, Оса - фиговатый выбор для RP или историй. Это в основном - ассистент (причем "дилетант широкого профиля", LOL). Добавлю только, что в принципе - она конечно что-то может и в RP с рассказами, но требует для этого охренительно изворачиваться (или даже извращаться), а результат все равно хуже, чем у того же GLM 4.5 Air. Да и Гемма 27B получше справится, IMHO.
Мне кто то ответит уже как разговорить ассистента и сделать из него бро которому можно излить душу? А то будто разговариваю с сжв бабой которая на все советует пойти лечиться и аполоджайзит Неужели только лоботомирующий промпт с порно слопом сработает? У меня щас дефолтный промпт асистен эксперт от таверны с вкраплениями "анзензорд" и что можно описывать сексуальные темы, но это не работает нихуя
>>1415963 Ну то есть еще лучше чтобы была тянка без цензуры. Такое можно промптом сделать? Чтоб без говна всякого типа повестки. Ну или хотя бы бро, официальный стиль необязательно но хорошо бы
>>1415968 Хули ты язвишь? Я пришел думая что локалки ох хо хо, не то что вонючие корпы где всё цензурят, а тут точно такое же говно один в 1. С таким же успехом могу с жпт общаться
>>1415968 Самый ленивый путь: создай примитивнейшую карточку с человеком/нечеловеком с приятными тебе свойствами и напиши что это ассистент - помогатор. Будет помогать неофициально и мило, но при этом также умно. Там же может указать пожелания по стилю общения.
>>1415988 А как побороть то что у неё постоянно протекают аннотации что хоть она и согласна быть тяночной-ассистентом, но не может заменить полноценного человека? Я её много раз прошу не упоминать этого, но рано или поздно случается протечка..
>>1415959 Ну по моему двух-месячному опыту без промпта это почти невозможно, тебе нужен именно прям промпт с примерами/описанием что от модели требуется если ты хочешь сою свести к минимуму, без этого будет идти дефолтный подбор то на чем модель больше чего обучалась или тюнилась. >>1415968 >без цензуры Да это легко, промптом все решается. Без него конечно модель будет соевая думаю сам понимаешь почему, ну или можно конечно скачать файнтюн на еблю, там изначально мозги модели ужарены что и никакие джейлбрейки не нужны, но и от этого тоже свои минусы, так что я бы прибегал именно промпту. >>1415981 Ну, тут скорее 1в1 (хотя для локалок это гораздо проще) это джейбрейкнуть модель. Я какой-то момент читал асиг и там аноны вообще пробелами в нужных местах ломали мозги корпосетке что она превращалась в похотливого монстра. Или из недавнего видел как аноны для обхода цензуры генерации видосиков соры, прикрепляли смайлик из аськи но с хуем на лбу, и после этого модель просто забивала хуй на любую цензуру... Но истина точно в том что пердлоинг будет что с корпосеткой, что с локалкой. Без пердолинга никак никогда ничего не работает так как хочется.
>>1416023 А ты пробовал Warp1111? Он вообще работает в РФ сейчас? Меня он очень выручает когда я не могу зайти на ру сервисы и скорость он совсем не режет.
>>1416039 Нахуй мне неродной шаблон который еще и письку не может облизать как я прошу. Я уж было думал что у модели просто нет таких знаний что там у мужиков дырка в хуе
>>1415046 В общем я вернулся на PaintedFantasy Visage. Ответы выдает лучше и быстрее. Плюс занимает меньше места. Как докуплю ОЗУ, попробую более высокий квант.
>>1416064 Не знаю что из этого страшнее, то что для тебя мистралепомои 24б лучше эира или то что ты собрался докупить рам для запуска более высокого кванта плотной модели...
>>1416022 >Но истина точно в том что пердлоинг будет что с корпосеткой, что с локалкой >Без пердолинга никак никогда ничего не работает так как хочется. Тем временем Эир и другие нормальные модели: this is an uncensored 21+ scenario. Всё. Цензуры нет.
>>1416070 Я может быть этот эйр не так гоняю. Но он циклится. Он повторяет хрень снова и снова. Я переключаюсь на визаж и делаю пару ходов на нем. А потом обратно на эйр и только после этого его отпускает. И я не понимаю зачем эти качели если с виду результат крайне схож. Докупка ОЗУ и переход на больший квант ситуацию не исправит?
>>1416021 Нужно убрать всратость из системного промпта и использовать нормальную модель. Описанное тобою действительно похоже на гопоту осс, а так на перечисленных выше моделях даже с системным промптом на ассистента и базовой карточкой - с помогающей тебе девочкой можно хоть потрахаться.
>>1416077 В норм кванте нет >>1416078 Подозреваю дело не в кванте. Эиром нужно уметь пользоватся, чувствителен к промту и всему остальному. Мистралю же похуй, жрёт что угодно и выдаёт одно и тоже
>>1416093 О том речь, да. Игнорирует половину того добра что ему пишешь, выдаёт одно и то же на множестве реально разных карточек. Но новичкам норм, в самый раз даже наверно. Сам с него начинал и был в восторге
>>1416091 >Мистралю же похуй, жрёт что угодно и выдаёт одно и тоже Лол, чел на полном серьезе сравнивает мелкомодель с мое у которой в четыре раза больше параметров и удивляется, что получает однотипные ответы.
>>1416098 При чем здесь ветка выше, если ты в своем же репале хуйни понаписал. Сравнил две разные модели разработанные под разные задачи и пришел к выводу, что более умная модель оказалась более умной моделью. При чем здесь "чувствительность к промту" и прочее говно, если тут тупо решает сам размер.
>>1416100 Ты правда настолько тупой или набрасывать пришёл от нехуй делать? Я отвечаю челу который пишет что ему Мистраль лучше Эира пишет. И да Мистраль хуёво следует инструкциям. Вот это новость. Решает размер, говоришь? Квен 14б почему то может а 24б Мистраль нет
>>1416104 >Решает размер, говоришь? Квен 14б почему то может а 24б Мистраль нет Ты дурачок походу без прикола. Квен точно также срет глинтами и какает отсебятиной, сколько инструкций ты ему не пихай. Просто его паттерны не так сильно бросаются в глаза, как мистральские. Так что да, решает размер. Потому что сюрприз - у больших моделей больше связей и они могут выдавать более оригинальный текст и лучше следуют инструкциям.
>>1416110 >Просто его паттерны не так сильно бросаются в глаза, как мистральские А, во как оказываеца. Когда сравниваем Эир и Мистраль это размер решает, а когда Квен и Мистраль, это просто паттерны не так сильно бросаются в глаза)))))))))) >>1416114 Предлагаю тебе вернуться в асиг или любую другую помойку откуда ты вылез, и покушать найдёшь и товарищей по духу
>>1416117 >Когда сравниваем Эир и Мистраль это размер решает Когда сравниваешь 24B и 110B модели как бы да... как бы решает размер. >когда Квен и Мистраль, это просто паттерны не так сильно бросаются в глаза Это две мелкомодели разработанные под задачи уровня "перечисли мне список пластинчатых напочвенных грибов растущих в астраханской области" и вся их разница только в том, какие речевые конструкции они будут повторять чаще всего.
Так что даже если ты пытаешься тролить тупостью, меньшим долбаебом тебя это не делает.
Не ссать. Сейчас рандом ворвется в ваш спор и всё решит.
>>1416117 >просто паттерны не так сильно бросаются в глаза Народ столько сидел на мистрали, так как это ебовые для новичков (да в целом ебовые) модели, что просто заучили все паттерны. Поэтому и создается впечатление, что другие модельки свежие и необычные.
>>1416131 >Так что даже если ты пытаешься тролить тупостью, меньшим долбаебом тебя это не делает. Единственное в чём с тобой соглашусь, главное не забывай что стрелочка всё таки поворачивается
>>1416134 Изначальный сабж обсуждения был в том что ньюфагу Мистраль лучше Эира. Позже уже ворвался долбаёб с пикрила и начал разбираться почему именно это не так, обоснуя своё мнение которое не к месту двойными стандартами и маняфантазиями Есть способы оценить количество лупов патернов глинтов и прочей хероборы, но этот ёбик так далеко не пойдёт потому что в его глазах достаточно "яскозал". Не буду вести себя как он и говорить что Мистраль уж точно хуже Квенчика, мне лень собирать пруфы и я не боюсь это признать. Не сру маняфантазиями на весь тред и хорошо
>>1416145 >ньюфагу Мистраль лучше Эира. Хотел бы написать что это база, но у меня от слова база глаз дергается. Эйр реально ёбанный питух - то он выдает кино, то с ним что то случается и он начинает шизить в многомерном, мультивселенном пространстве, где персонажи перемещаются сквозь время и ткань реальности. Скоро придет оператива и я надеюсь укатиться на большой ГЛМ в слепой надежде, что он не будет так ломаться. Ну и лупиться он любит, но мне дико доставляет что у него, в отличии от гигамистралелупа свайпы прям отличаются. Луп-свайп-свайп-охуенно.
>Мистраль уж точно хуже Квенчика, Какого, 30го ? Ну эммм.. Для РП, точно нет. Для тех задач, ну квен для этого и создавался, он умница. Это как OSS использовать для рп.
А представляете, если бы лягушатники выкатили новый, свежий мистраль MOE.. эдак на 120-150B
Если я немного начинаю шизить в тексте, прошу понять и простить, у меня сезонное обострение, я в целом скоро отвалюсь на полежать отдохнуть в больничке.
>>1416152 Да без проблем ваще, ты пришёл высказал мнение где это уместно, никак не возбраняется лишь поощряется. Никакой маняаргументации вроде "когда удобно сравниваю размер когда нет ну просто так получилось" или "у меня ногу свело когда играл на квене потому он говно" нет. Красавчик По поводу сравнения Мистраля и Квена мы обсуждали лупы глинты и прочую херобору, я точно знаю что на Квене их меньше хотя рпшингом на нём точно так же не занимался бы и никому не рекомендовал. То что Мистраль лучше для новичков и правда база, и похуй что глаз дёргается Весь срач был в том что чувак решил снихуя блеснуть умом там где никто не просил и обосрался с аргументацией А тебе здоровья
>>1415682 Я тоже пробовал ламу, с последними обновами на 9070 xt вроде даже рокм завёлся на винде. Но я что то не понял нихуя, как прогой пользоваться, у меня там куча скачаных моделей было, но не нашел как это дело из прогру прогрузить, только окошко со скачкой моделей - тех что у меня там не наше. Ну скачал какую то модель потестить, завёл и прикола не понял, может и-за модели говно получилось, но загрузка не особо быстрее происходила. Я был бы рад пользоваться кобольдом, он простой как 2 палки - сразу понятно откуда что и как, в ламе интерфейс непонятный. На линупс укатываться не хочу, и грузить каждый раз убунту какую нибудь только что бы покумить 2 минуты - ну рот я того наоборот.
В дополнение к посту - поискал способы фиксов в интернете и нихуя не нашел, у пары людей такая хуйня была и в ветке кобольд-рокм чел даже чуть переписал прогу под новую линейку красножопых. Но если дефолтный рокм форк хотя бы ошибку выдавал, то говнокод этого чела моментально крашится даже не начав инициализацию видеокарты.
Короче терплю на вулкане.
Кстати хоитите посмеяться? Вчера обновлял драйвера амуде и столкнулся с интересным багом - при ПКМе по рабочему столу ОЧЕНЬ долго грузит круглешок и в конечном итоге открывается адреналин. Пошел на реддит с эти вопросом - наткнулся на интересное решение:
Open File Explorer.
Go to this folder: C:\Program Files\AMD\CNext\CNext
Find the file called: RadeonSoftware.exe
Right-click it and choose Rename.
Change the name to: RadeonSoftwareisshit.exe
Это смешно, но это сработало. Так то видюха неплохая, но такие моменты просто пиздец какой то. Уже начинаю жалеть что сэкономил пару фантиков и не взял 5070ti, коуплю тем что хуанг пидорас и байкотирую рынок зелёных. Такие вот дела, малята.
Какая модель лучше подходит под роль локального ЧатаГПТ? РП не нужен, нужен минимум сои и умение хотя бы в кодинг/рефакторинг кода на пайтоне. Или я слишком много хочу для локальной модели?
>>1416238 >А я что-то думал, что нужно СУЩЕСТВЕННО больше под такой размер. Попробую Так это же мое модель, да у неё ещё и mxfp4 квант. Почитай как запускать мое модели, в шапке вроде было что то. Ну или в треде глянь, недавно скидывали батник под Эир, там по аналогии делается. По потреблению это почти что 5b модель гонять, вот примерно это + контекст во врам, остальное в оперативе. Ну 16к контекста точно должно быть, прекрасно подойдёт для зирошоток или недолгого чата с пояснениями
>>1416238 это MoE с 3 вроде миллиардов активных параметров, то есть с 16 гб врам будет работать хорошо, можешь сразу пробовать оригинальный квант 65 вроде гигабайт
>>1416308 >>1416316 Если кто то спрашивает не сломалось ли XYZ не бегите убеждать что "всё работает, ты дурак", РКН устраивает A/B тесты уровня целой страны и в какую группу попал лично ты никто не скажет.
>>1416319 У меня ркн давно постарался чтобы обниморда не работала, я спокойно настроил гудбайдпи и бед не знаю. Вы походу не обезображенные интеллектом индивидуумы.
>>1416292 У меня тоже всё работает уже дня 3. Скорей всего это из-за >>1416319 Думаю это тупо скан логов и трафика идёт, для отлова людей. Явно это не для людей сделано, эти пидоры ебаные из РКН что--то мутят паскуды.
>>1416266 У осс гопоты очень пидорские вес/кол-во слоев. С полным контекстом так и не сумел распределить на 3х24гб карты, чтобы батч был 2048, там буквально писечки не хватает. Поэтому пришлось выбирать между двумя стульями - или батч точеный поменьше или эксперт дроченый на цпу. Выбрал второе, так как иногда в процессе ризонинга кеш пересчитывается целиком и ждать обработки 100к контекста с таким батчем - это ебануться.
К слову, анон, что советовал claude code с проксей, ты какую-то другую модель использовал? Потому как под гопоту мне пришлось немного переписать обработку реквестов и ответов.
И бублирую свой вопрос, что лучше для кодинга по вашему опыту - осс или некст? Мне неохота поднимать вторую, опять там все будет сломано и надо будет половину прокси пердолить.
>>1416330 Эт что, я вот решил поделиться тем что перешал обратно на визаж, потому что не понимаю как использовать айр. Думал может что подскажут. А окзалось вызвал срач. И коль я сюда опять пришёл. Подскажите, а почему эйр на 60гб работает быстрее чем визаж на 30? Я сначала подумал потому что скачал I квант. В шапке написано что они медленные. Но потом сходил за Q6 K и там всё равно медленно. Всё дело в кванте? Получается чем он выше, тем медленее? Не наоборот? В вики написано что это метод сжатия, поэтому я подумал, что чем меньше объем тем больше обработка по декодированию. Что упускаю? Сильно хуями не пинайте, пожалуйста. Я ведь даже вики почитал!
>>1416392 Это двач, тут даже ангелов вроде Нюни развращают и превращают свет в кал, добро в срач. Не надо удивлятся. По поводу скорости чем выше квант тем меньше сжатие, потому жирнее слои модели, а значит им надо больше памяти на слой. Потому и медленнее да, чем больше квант тем жирнее модель. Никакого декодирования нет, кванты меньше попросту лишены той информации которая есть у квантов больше
>>1416405 Так почему? У меня эйр IQ2_M на 45гб выдает больше скорость чем визаж с более высоким K квантом на 35гб. Казалось бы - Сжатия нет. должно быть быстрее. Казалось бы, это K квант а не I. Тоже логика говорит, что должно быть быстрее. Даже места занимает меньше. А всё равно медленее. НЕ ПОНИМАЮ. Почему?
>>1416418 Ты не понял как работают мое. Если вкраце то видимо у тебя плотная модель с контекстом не полностью во враме потому большая просадка. А у мое модели весь её роутер ну и остальные значимые части во враме полностью. Мое модели быстрее работают если ее часть выгружать в рам
Не в курсе конкретно про Air, но когда я качал Q4 версию gpt-oss и bf16 - скорость на последнем была процентов на 50 меньше. И Unsloth (или кто-то из их группы) объяснил это как раз таки тем что F16 модель больше, поэтому и медленнее.
Поэтому я не уверен что отсутствие сжатия должно увеличивать скорость. Но я так, мимокрокодил который поделился своим опытом на этот счёт.
>>1416324 >батч А почему такой упор на повышенный размер батча? Типа модель сильно лучше будет ориентироваться в контексте? Я сижу на 512 батче и ваще хз стоит ли его больше ставить? Я получу что-то от этого если у меня всё равно малые контексты с частыми суммарайзами? Это полезно будет только для тебя с твоими 128к контекстами?
>>1416529 Не факт. Даже старая карта лучше чем CPU. Т.е. если модель влезет в эти две карты целиком (не влазя в одну) - это в любом случае лучше. Особенно - если это dense модель. Особенно - если gemma.
>>1416543 Больше батч = выше скорость обработки контекста. И все.
>>1416472 >настолько Насколько? На 1%? А не, даже меньше в большинстве случаев >>1416475 >>1416476 У вас есть пруфы какие-то или как всегда среньк в тред?
>>1416632 Бартовский в пятом кванте attn_k всегда в Q8 квантует, а анслот в Q5. А в других весах аттеншена там то у одного лучше, то у другого, так что в среднем бартовски вроде попизже должен быть. Но это без учета того, чья imatrix пизже и чей алгоритм выбора слоев для более агрессивной квантизации лучше. Я на анслоте сидел, но чет меня Q8 заманил этот и я пересел с иглы анслота на лицо бартовского. Правда, для успокоения пришлось вырезать темплейт из анслота и подсовывать отдельно - они ж там везде пиарят, мол, он у них самый пиздатый
>>1416543 На эире с батчом 512 у меня обработка 80 т/с, а с 4096 370 т/с. При этом скорость генерации почти не меняется и остается 7-8 т/c после заполнения контекста, несмотря на то, что мне приходится выгружать больше слоев на cpu У меня контекст 32768. Ну вот и сравни почти 7 минут в первым случае с полутора минутами во втором, поэтому все батч и пытаются максимальный выставить
Всем здарова, взываю к тем, кто может проконсультировать с выбором комплектующих для ролеплея (и не только). В данный момент имею примерно такую картину: Intel Core i7 12700F RTX 4060 ti 8 gb 32 gb оператива (не помню какая, вроде ноунейм, скорость 2667 M/s) Один ССД на терабайт (почти заполненный, но если почистить то освободится половина мб), два ХДД на 500 гб. Заинтересовался темой больших моделей и появилось желание подготовить пекарню для экспериментов. Но и игрища я забрасывать не планирую, поэтому узко-специализированное что-то не рассматриваю. Следовательно вопросы:
Большую ли роль играет процессор в этой теме? Стоит ли смотреть на варианты типа 5070 на 16 гб или лучше покопить и взять какую-нить 4090 на 24? Есть ли разница между ССД и ХДД в контексте моделек? Важнее то, какого вида оператива (DDR4/DDR5) или её объём?
Извините, если засрал тред, но мб есть знатоки которые подсобят с этим? Может и другим будет полезно.
>>1416832 8 gb VRAM сильно маловато будет - даже 30b-moe модели с вменяемым контекстом и квантом не влезут. Хотя бы 16 VRAM и будут доступны для нормального запуска moe-мелко-квены в 4 кванте, плотные мистрали (и вагоны лоботомитов на его основе) в третьем кванте и гемма ( так же в третьем) . И при наличии 64+ оперативы можно будет запустит GLM-AIR .
Короче положняк такой Нет смысла в дорогущих сборках щас ибо лет 5 и все ваше говно и даром никто не возьмет когда выйдет чип х500 мощнее Просто нужен прорыв а не дожимание крох
>>1416902 Фига ты умный... Просто нужен прорыв. Просто нужна культурная революция. Просто нужен технологический прорыв и изобретение нового типа чипов, отказ от кремния. Просто нужен прорыв в медицине для победы над раком.
>>1416939 И будем, пока ты уже как в мезозое на микромоделях сидишь. У местных почему-то чёрно-белое мышление - если есть железо запустить локальные модели типа Эйра, то по умолчанию запрет на большие в облаке. Приватошизики ещё хуже, думают что по "я тебя ебу" их вычислит ЦРУ и приедет к ним на квартиру унижать их.
Решил попробовать это ваше локальное ЕРП. Скачал Синтию и карточку с какой-то фентези проституткой. Закончилось всё тем, что вместо потрахушек мы идём резать голову локальному правителю во славу мировой революции. По этому вопрос, а есть какие-то решения ЛММок именно под игру в ДнД или просто словеску? Чтобы нейросетка могла отыгрывать разных персонажей, запрашивать проверки навыков и всё такое?
>>1417013 >Приватошизики ещё хуже, думают что по "я тебя ебу" их вычислит ЦРУ и приедет к ним на квартиру унижать их. А разве не приедут? Правда те, за кем приехали, об этом нам уже не скажут.
>>1417202 Перплексия - это все же оценка в коротком контексте. Т.е. и мистраль и Air способны построить одинаково корректные предложения на русском. В силу особенности токенизации русского языка. И поскольку русский, это не основной язык модели и матрица квантования у популярных квантователей НЕ СОДЕРЖИТ русских слов вообще, значение ~3 в третьем кванте означает что и остальные знания модели - уцелели. К сожалению перплексия ничего не позволяет узнать о способности модели "держать контекст"
>>1416832 >Стоит ли смотреть на варианты типа 5070 на 16 гб или лучше покопить и взять какую-нить 4090 на 24? Чем больше видеопамяти тем быстрее, поэтому 4090 на 24 (и 3090 если найдешь) будут лучше чем 5070 ti на 16. Еще важна пропускная способность памяти. Модельки на 5070 ti будут примерно в два раза быстрее работать чем на 5060 ti и в три раза чем на 4060 ti, но только при условии что модель вся во враме, а с рассветом МоЕ это уже редкость. И да, не бери амд, если не хочешь заниматься пердолингом. >Есть ли разница между ССД и ХДД в контексте моделек? Если ты не запускаешь модели на SSD (а это не нужно делать из-за низких скоростей), то почти не будет. Единственная разница это как быстро модель загрузится в врам и рам. Например GLM Air весит 60 гб и я вижу огромную разницу между моим SSD PCIE 4 и SATA SSD, а с HDD вообще будет безумно медленно. Будешь по 20 минут ждать, пока модель стартанет, но дальше плевать уже будет >Важнее то, какого вида оператива (DDR4/DDR5) или её объём? Важно все. Объем важен, чтобы модель в принципе запустилась и понятно, что чем больше, тем лучше. С 64гб можешь запускать GLM Air (хороший для рп) и GPT 120 (хороший ассистент). Для скорости самой модели важна пропускная способность DDR.DDR5 может быть в два раза быстрее DDR4, чаще разница меньше, но все равно большая. Еще важен проц, на интелах DDR работает быстрее чем на амд С твоим сетапом у тебя только один выбор - Квен на Q4XL. https://huggingface.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF В прошлом треде вроде гайд на запуск был для такого же новичка
>>1417112 >| gpt-oss-20b-mxfp4.gguf | 87.8772 ± 0.53311 | Подтверждаю, эта залупа вообще в русик не может. Я удивлен, что в треде его кто-то советует и использует > | gpt-oss-120b-mxfp4-00001-of-00003.gguf | 13.8903 ± 0.06990 | Думал ниже будет. Вообще использую ее часто, не могу сказать, что видел много проблем. Зато вижу скорости. GPT 120b на большом контексте обгоняет Qwen 30b, при том что параметров 4 раза больше
>>1417202 Перплексити это не оценка интеллектуальных способностей модельки, это оценка насколько выбранный "удивляет" модельку. В данном случае это просто значит, насколько моделька знакома с рандомным текстом на русском языке.
Есть карточка на пвз? Хочу ходить и кушать работниц пвз. Для такого кстати и нужен русик в ллм, чтобы непосредственно реальность вокруг себя засунуть в коробку и взаимодействовать с ней как тебе вздумается
Так, для кумовства и ролеплея из мое моделей значит есть Квен и Айр, с этим разобрался, а если мне нужен просто умный ассистент? Ну там рецепт пирога найти, книжку или игру по критериям подобрать, за жизнь попиздеть? Гопота и Дипсик?
>>1417403 Ебать у тебя стравнения. Не если ты можешь дипсик запустить, то он конечно. Причем для всего. А так гопота хороша только в технических вопросах при включенном ризонинг хай (привет 10к токенов рассуждений). Юзай квена и аир для всего. Ещё норм гемма 3 для асистента и квен код 30 для вайбкодинга.
>>1417287 Ну вот у меня именно такое чувство и есть. Что там просто отключён кумерский режим или я его не включил (ну не писать же напрямую "Писку даш ебать? "). Начал другую историю, третий час чищу болтпистолетом и вилкой культистов. Намёков на то, что поебусь с арбайтершей даже нет. Не в целом история интересная получается, ИИ даже про ваху хорошо знает. Но так я красный меч не зажгу.
>>1417379 >можем быть вместе? >Нет В смысле нет? Охуела совсем. >>1417403 Да, гпт-осс в качестве ассистента. Впрочем, если у тебя квен 234,5, то юзай его, нахуй тебе остальное.
А почему в этом треде не говорят про regex в таверне? Я зашел полистать гайды от облачного llm треда и там есть готовый набор таковых. Я закинул и теперь у меня локалки разметку не портят от слова совсем.
>>1417477 Потому что этот тред помойка в плане информации для рп. Тут из полезного в лучшем случае ёбка/пердолинг амд мишек, тесел и прочего некрожелеза для покупки станции на зарплату простого парня Ивана город Тверь. Всё остальное это срачи, ну вот собрались человеки с общим интересом и поливают друг друга говном. Все кто сюда приходят для рп уёбывают по итогу в асиг, хотя там тоже помойка только другая. Две стороны говна короч
>>1417486 Нихуя не нужно де факто. Но это не отменяет что можно делится всякой годнотой вроде лорбуков, карточками ну или хотяб идеями. Корпоюзеры литерали знают какие промты лучше подходят тем или иным моделям например. Это ведь решает если это обнаружить. В соседнем треде дохуя инфы, там аноны свои рентри и аддоны для таверны пилят. А тут что? Был один анон который складировал полезности треда в свой пиксель репе (и свои шизокарточки, ладно), тот пропал. Был другой который регулярно делился своими бест практисес и получал за это мочу. Был ещё анон со списком моделей но это вроде оп? Как асиг не срите там хотя бы признают вклад таких анонов
>>1417486 Любые лоботомитотюны и тот же Эйр легчайше расстаются с заданной разметкой, особенно до где-нибудь 12к токенов. И в целом механизм полезный, лучше его понимать чем нет. >>1417487 Все по делу в целом, но и тот лагерь есть за что справедливо опустить. Неймфажество там возведено в абсолют. Челы сидят там и друг друга знают по именам еще с чайной. Кринж.
>>1417487 >годнотой вроде лорбуков, карточками ну или хотяб идеями Чисто индивидуальные вещи, что ими делиться то? >>1417491 >Челы сидят там и друг друга знают по именам еще с чайной. Меня хоть вспоминают?
Печалит тенденция последнее время на заточку новых моделей под бенчмарки, за пределами которых модели просто отвратительно работают. Как не наткнешься на новую модель - "ооо, она выше вот этой и вот этой моделей, она при своем весе обходит модели в два раза старше!", а на деле, начинаешь тестировать и становится так грустно от того что видишь.
Где-то с неделю уже наблюдаю, как в ру ерп частенько после свайпа генерируется то же (иногда почти то же) сообщение. Угабуга-ллама, Таверна. У кого похожие симптомы? Конечно может ру-датасет беден, особенно для ерп, но не исключаю что кто-то где-то накосячил. Давно такого не было.
>>1417535 Помню, у миксов второй ламы был такой эффект постоянно. Чем полнее заполнен контекст, тем однообразнее у них получались свайпы. Лечил постепенным повышением температуры, по мере развития сюжета и заполнения контекста.
>>1417560 >Помню, у миксов второй ламы был такой эффект постоянно. Да вот для второй Лламы и я что-то такое припоминаю. Но потом прошло. А нынче словно в далёкое прошлое вернулся, даже оторопь берёт.
>>1417641 Да я уже разобрался, да, оно. Ещё и зинкинг надо либо отключать, либо включать. Похуй, разберусь. 3 секунды спустя. Всё, разобрался. Прикольно с зинкингом, но не обязательно.
>>1417627 Выглядит стремно - у тебя VRAM через писю протекло в рам. Выгружай экспертов чтоб "общая память графического процессора" пустой была. Когда все плотные части будут только в VRAM и не будут туда-сюда дрочиться по писи скорость возрастет.
>>1417658 Вообще никак. Серьёзно, он не выводит русик даже по префилу, и судя по размышлениям, понимает его очень хуёво. >>1417659 Как будто бы да, но бегает сравнительно бодро. Ладно, потом протестирую детальнее.
>>1417665 REAP такой REAP. Весь русик пошел под нож. Как и половина английского наверняка. Я на Air REAP кодить пытался. Когда он у меня почти все комменты на китайском в коде хуйнул, то был удавлен решительно и без сожалений.
>>1417579 Ну, вообще-то - чем модель более постоянна в выводе на контексте большой длинны - тем лучше она следует инструкциям (и остальному контексту). А если у нее рандом в свайпах - практически наверняка она и инструкции херит вместе с остальным контекстом. Так что, тут даже еще хз что хуже... Лучше всего, IMHO, когда в балансе - некоторый разброс в каждом свайпе есть, но в основном - не более чем 2-3 возможные ветки-основы по которым она пишет с небольшими вариациями.
Модель же - это ж продвинутый предсказатель "что там дальше" на основе контекста, так что если она полный рандом несет - значит не предсказывает, а галлюцинирует случайное, т.е. контекст идет нафиг. Ну и если полностью повторяется - это уже просто скучно, что тоже плохо (если это не работа какая-то, где точность важна)...
>>1417593 Выключи обфускаторы трафика и спамилки мусора, они ломают многие протоколы. Используй xet и hf_transef, они качают быстро и стабильно. >>1417760 Не соглашусь, разнообразие свайпов на контексте не имеет корреляций с точностью следования инструкциям. Ты можешь замучиться рероллить модель, которая тупит и проебывает что-то серьезное из раза в раз, и наоборот сидеть с разбегающимися глазами от сгенерировавшихся свайпов с интересными и полностью соответствующими контексту развилками, не зная какой из них выбрать.
>>1413167 → Прогрелся. Борда уже в пвз, qwat'ы выезжают из китая через ДВ, память к концу месяца тоже вроде вся доедет (16х16) С мск (хвосты с КЗ) так же выехали ещё две мишки к тем что уже есть
Анон, я понимаю, что задолбал весь тред, но как фиксить такое? (см. пик2) Я даже вот такую хрень пробовал, не помогло. (см. пик3) Мистралевский пейнтед фентези визаж порой циклится и выдает вот такую лапшу и чем дальше повествование, тем больше лапши. А хваленному эйру же нехватает "красок" повествования и сюжет он двигает нехотя.
>>1418090 бля да это же луп(зацикливание) мелко модели очень легко лупятся, особенно говнотюны, я ньюфаг тоже но вероятно у тебя просто модель не держит контекст и когда у тебя заканчивается контекст она начинает лупиться
>>1418090 про пик 3 забудь вообще, это не в твоем случае у тебя прямо луп модели, тут или систем промпт опять же или дефы шизовые в карточке и модель шизеет когда у нее путаница или не состыковки, модель в итоге начинает удивляется(не в плане удивляться как мы а не понимает какие токены тебе надо выдавать, и в итоге лупится лишь бы ты отьебался от неё) это реально так бывает
>>1418103 >>1418090 пик 3 это для случаев когда тебя реально бывают заебывают противные слова от модели, как например запах озона или мускус или что-то такое спецефичное на чем модель тренели больше всего и что у неё на первом месте в выдаче токена
>>1417833 >Ты там ползунок штрафа за повторы не выключил случаем? Выключил, сижу на DRY. Но проблема же не в том, что модель повторяет выражения из предыдущих сообщений, этого нет. Кстати в Кобольде та же байда, так что проблема скорее всего в Таверне.
>>1418108 >>1418103 >>1418096 Спасибо за разъяснения, анончики. Плюс минус понял, попробую добавить больше деталей, что бы убрать несостыковки с карточкой, а так же увеличить объем контекста. Смещение логитов снесу. Добра вам.
>>1418158 Тебе модель надо менять. На тот же айр. На худой конец, мистраль/сноудроп. На самый худой конец, гемма с джейлбрейком в промте. На шизотюнах никто не сидит.
>>1418151 Какой максимум влезет, тот и качай, что за вопрос. Но у меня на практике glm-4.5-air-ffn-q5_k-q5_k-q8_0 показал себя хуже чем glm-4.5-air@q6_k Возможно меньшие кванты экспертов, чем Q5 и дадут преимущество, при сильном основном.
>>1418009 >наоборот сидеть с разбегающимися глазами от сгенерировавшихся свайпов с интересными и полностью соответствующими контексту развилками Тут ключевое - "соответствующими контексту развилками". Если ты к таким свайпам присмотришься, то почти наверняка обнаружишь четкие ключевые развилки ответа, и четкую их структуру. Т.е. разнообразие будет, но не рандомно-хаотичное. Речь именно об этом. Чтобы вносимый температурой рандом не ломал этот механизм чрезмерностью. Чтобы, грубо говоря, ранодма хватало на обоснованный в рамках контекста выбор персонажа - скажем, идти направо или налево, постоять-подумать, или позвонить по мобиле спросить совета. Но недостаточно, чтобы просто крылья отрастить и лететь верх по желанию левой пятки.
Тол, что я говорил про две-три развилки - это просто мое предпочтение. Мне такой баланс больше всего нравится. Хорошая модель может терпеть и больше, до начала потери логики, но мне это уже кажется слишком натянутым.
>>1418090 Перекрутил семплеры скорее всего (мистраль-тюны - всеядные, карточка должна быть совсем упорота чтобы только из-за нее такое началось). Сбрось семплеры таверны нафиг в дефолт (есть там кнопка), и начни с такого: Temp - 0.8, MinP - 0.025, Rep Pen - 1.02. Остальное сначала не трогай.
>>1418039 > По чем память вышла? До обвала ещё покупал 4х16 2133 для другой матери по 90ю. Ещё 4 брал с авиты в середине подъёма и сейчас 8 (4+4) с авиты по ломовым ценам. Память вся вразнобой, но перешивать буду на 2666 джедек если поедут. Брать 3200 32 сейчас просто неподъёмно
>>1418111 До сентября так и было, а потом "что то" произошло на границе кз-рф и сейчас пути два осталось (оба через дв) - это tir и белый экспресс на физиков (со всеми лимитами и пошлинами). Юкб недавно добавили оба варианта в замен КЗ
>>1418204 Таобао. Процы по 900ю (11к). Сколько доставка сдеком дв-урал пока не знаю + придётся немного пошлины заплатить (это дешевле чем высылать две посылки по 1 процу)
>>1418200 >Тебе модель надо менять. На тот же айр. Эйр приходится ногами пинать, что бы он сюжет двигал а зачастую тупо одно и то же делает каждое событие (не свайп, а именно делает повтор прошлого сообщения на мой новый ответ с изменением в 10%). Никакой фантазии. ПФВизаж же даже каждый свайп предлагает что-то интересное. Может я что-то не так делаю с эйром?
>>1418235 >ПФВизаж же даже каждый свайп предлагает что-то интересное. Может я что-то не так делаю с эйром? Не, всё правильно. Особенность модели. Я в одном месте кучу моделей перепробовал и только визаж двинул сюжет. Хотя он нестабилен и использовать в качестве базовой модели чата я бы его не стал. Буду ещё качать 123В-версию, заинтересовал он меня. А вот "расширенная" версия (32В) - по-моему просто фигня какая-то.
>>1418235 Во первых, айру надо в систем промте указать чтоб двигал историю, вместо повторения сообщения пользователя. Раза в 3 снижает количество подобных попыток. На большом контексте вновь может начать, но не думаю что все тут катают 25-30к что жалуются. Во-вторых, <request></request> никто не отменял.
>>1418295 >А можно для хлебушка подробнее? В соседнем треде были инструкции по настройке таверны. В том числе и функционал квик реплаев на реквестах. Но можно такие же и делать самому. Как раз помогает при тупняке модели, когда не понимает куда двигать сюжет и что делать. >Пробовал. Но попробую еще раз. Главное отрицания не используй. Золотое правило любого промта.
>>1418214 > но не рандомно-хаотичное Конечно, если модель работает адекватно то бред она не будет генерировать, твой пример про крылья это уже просто поломка. Но там нет никаких "четких ключевых развилок ответа", если ситуация не жестко ограничена и предполагает 2.5 варианта. Ответы может быть крайне разнообразными, древовидная структура с появлением новых ветвей, и чем дальше от условно первой развилки - там больше вариантов. Но в некоторых же моделях есть наоборот предопределенные вещи, выскочить с "линии тренда" очень тяжело, а попадание на нее почти предопределено. Именно на это жалуются те, кто ноет об отсутствии разнообразия и том, что каждый рп чат - лишь вариация одного и того же. > Хорошая модель может терпеть и больше, до начала потери логики Вот этого не понимаю, как связана "потеря логики" и разнообразие выдачи. >>1418234 Вполне себе, если повезет то может и на 3200 заведутся, попробуй если времени не жалко.
>>1418235 Очень часто на страницах миксов дают пресеты... своеобразные. Если у меня модель начинает чудить - я первым делом откатываю семплеры на максимально простой вариант. Да и просто использовать классику от базовой модели - тоже хороший заход, чтобы разобраться. А у тебя на картинке еще включена опция "Пропускать спец. токены" - эту опцию вообще имеет смысл снимать очень редко. Т.к. в число этих токенов входит и разметка, и токен который служит для отметки окончания вывода. Без него будет генерироваться стена текста до самого лимита токенов, причем еще и обрезана может оказаться на полуслове из-за этого. То что у тебя происходило - может даже она вызывать. Т.к. без нее, возможно, модель бы просто остановилась раньше, чем ушла в цикл.
>>1418020 А в чём смысл? Ну кроме цены. На ДДР4 разве можно получить нормальные цифры на больших моделях? Например условные 4-5 токенов на дипсике или кими? Или ты только на картах катать будешь?
>>1418441 За примелемые деньги пощупать какой то прикол. Мишки брал ещё в мае когда не было никакой инфы по тому же принципу. + Оффлоад в рам меня особо не интересует
>>1418441 Там 8 каналов же, причем вероятность что они будут соответствовать ожиданиям и не огорчат как в некроэпиках достаточно высокая. По крайней мере в двухголовой системе с не-инженерниками ллмки крутятся крайне шустро. >>1418469 > + Оффлоад в рам меня особо не интересует Хуясе ебать, а тогда зачем, чисто спортивный интерес?
>>1418234 > Сколько доставка сдеком дв-урал пока не знаю Доставка в сдек у дома + работа форвардера. Пошлина пока хз. С сдеком на самом деле всё сложнее т.к. по факту небольшие процы примотаны к 1,2м антенне
>>1418471 > чисто спортивный интерес? Ну да, увидел интересную борду и решил упаковаться. С оперативой только не вкусно вышло, если бы не бум то затарил 16х32
>>1418472 0% осуждения. Но ты таки не поленись прогнать как llamacpp с выгрузкой атеншна и прочего на гпу работает, если есть возможность то с хуангом.
>>1418490 Не в тот тред запостил, нам похуй на высеры альтмана, даже если там будет видеомодель, где сам альтман будет лизать анус бомжу. В любом случае она сегодня есть, а завтра нет.
>>1418476 В принципе ее должно хватить, на нее только атеншн, контекст и прочее, всех экспертов на профессоры. >>1418490 > Sherlock Dash Alpha Похоже на название васяновского щитмикса.
>>1418158 Бля как-то давно спизданул те что нейтрализовать семплеры это их нахуй убрать, но там есть отдельная кнопка в таверне сделай как этот дядя >>1418419 и аж только потом крути мин п и повторы по мере шизы модели >>1417051 Да любая? Просто тут инфоблоки не помешает прикнрутить и можно днд-шить почти на любой модели? >>1418522 Выглядит как реально прототип модели для еРП..
Блядь, в ебаной таверне что, нет drag and drop для прикрепления файлов? Они там вообще ебанулись? Мне что, каждый раз идти в менюшку, нажимать кнопку - прикрепить файл, потом его искать в проводнике? Мы в каком блядь году, алло, даже дефолтный кастрированный фронт лама цпп умеет в drag and drop. Лучшая, блядь, оболочка для РП, пиздец. Я уже молчу что мне пришлось Chat Completion осваивать просто чтобы вообще картинки посылать не через кривой clip captioning, а напримую вл квенчику - ну и хуй с ним, главное что работает. Кстати ВЛ квенчик по качеству текста не отличается от обычной своей версии, при этом картинки распознает очень хорошо - распознал кто именно изображенная шлюха на пикриле, например. Буду теперь им пользоваться вместо обычной модели.
>>1418553 >распознал кто именно изображенная шлюха на пикриле, например >карточка томоко распознала томоко Ну ты бы ещё задал вопрос "как зовут томоко на этой картинке с томоко", чтобы уж наверняка.
Как заставить таверновский Chat completion использовать System prompt не копируя его вручную каждый раз в Main Prompt? И как сохранять разные main prompt не через внешние json файлы?
>>1418553 >Лучшая, блядь, оболочка для РП, пиздец. О, сколько тебя открытий чудных еще ждет в ее работе... У ее авторов логика иногда - прямо на весь жбан альтернативная, по другому и не скажешь. :)
>>1418553 >Chat Completion осваивать просто чтобы вообще картинки посылать А вот здесь, справедливости ради, таверна все-же не при чем. Тут уже Text Completion API на стороне бекэндов такого не умеет, точнее - в него не заложена поддержка ничего, кроме текста (clip выдает "типа токены текста" модели). Для картинок напрямую и агентов нужен chat completion, который, как бы, "более продвинутый стандарт". Если бы таверна сама с моделями работала - тогда да, ее пинать. А так - сама жрет чё дают.
>>1418608 >А вот здесь, справедливости ради, таверна все-же не при чем. Тут уже Text Completion API на стороне бекэндов такого не умеет Да, я не ругался на этот момент, тут все понятно. Но почему chat complition такой кривой? Почему он не использует system prompt? Почему настройки там сохраняются только единым пресетом на вообще все? Они сами вообще пробовали этим пользоваться?
>>1418608 >более продвинутый стандарт Да нихуя это не продвинутый стандарт. Вся эта хуерга вроде jinja-подобного форматирования это зачастую обрубок от реального ожидаемого формата.
>>1418553 Увы, но сейчас рп на вллм - из разряда фантастики, херит ответы. Драгндроп там поддерживается и используется для импорта карточек. > пришлось Chat Completion осваивать просто чтобы вообще картинки посылать не через кривой clip captioning, а напримую вл квенчику На данный момент не существует полноценных способов передать пикчу через тексткомплишн. Формально, есть кривой кринге с тегом [img] для ллама-сервера, но он зарождался во времена мезозоя и не работает корректно с современными моделями, где возможно разное положение пикчи в чате и несколько пикч. >>1418608 > "более продвинутый стандарт" Лол нет. Это просто разные стандарты, чат является упрощенной абстракцией. В нем проще работать юзерам из-за отсутствия необходимости следить за разметкой, но невозможны многие манипуляции с текстом, что на руку корпам для соификации и борьбы с инжектами/префиллом/жб и прочим.
>>1418594 >>1418596 Скачал другую версию, анимус которая. Клинить перестало, но сюжет один хуй не идёт. Мне укусить дал, но сколько не заставлял сеструху, она не кусает, уходит в цикл. Соски крутил, температуру повышал, промпты менял.
>>1418588 Ну ты дурак чтоль? В эйре цензуры считай нет, там на уровне мистраля, если не лучше. Если у тебя ДУМАНЬЕ включено - отключи. Если нет - правь карточку, она говно. Так или иначе, тут 100% скилл ишью, проблема не в модели.
>>1418588 >>1418654 16-летние мамкоебы из б уже и до этого треда добрались. Пиздец, Антоха, ну ладно я понимаю там вымышленных сестер трахать, ну ладно - лолей. Но мамку? Мать это святое же, как ни стыдно. P.S. У тебя модель в залуп ушла, потому и сюжет не идет. Модель тут менять бессмысленно, слишком велико давление предыдущих залупающихся ответов, тут только глм 4.6 какой-нибудь и поможет. Откатывай диалог туда, где залуп был не так силен.
>>1418650 Текст комплишен вообще не стандарт, это буквально подход "ебитесь сами". Многие тут возомнили, что раз они сидят на локалках, то значит им прямо позарез по какой-то причине нужен текст комплишен. На самом деле, как правило, сейчас все прекрасно работает на чаткомплишене, но они будут продолжать страдать хуйней вроде смены формата разметки у чистых моделей, или пихать в системный промпт полотна. А повелось это по старой памяти, когда все поголовно юзали файнтюны, которые безбожно похерены на следование инструкциям и разбавлены чужой разметкой, поэтому там имело смысл свитчиться между ними. И я уж молчу про то, что, как правило, файнтюнеры забивали хуй на чат темплейты (а часто и вообще на упоминание разметки, т.е. автор даже не удосуживается привести формат, на котором она лучше всего работает). Сейчас, когда большинство используют чистые модели, смысла в текст комплишене нет никакого, продолжение и имперсонация работают и в чаткомплишене, даже семплеры можно крутить через доп параметры, если уж приспичило. Тем более за пределами таверны текст комплишена днем с огнем не сыщешь. Так что мой совет всем ньюфагам - используйте и изучайте сначала чаткомплишен, это база, а текст - уже адвансед левел, котора может вам и нахуй не нужна.
>>1418658 Вижу, блять, как нету. Думанье отключено. >>1418659 Там нет ебли, не было и не планировалось. Просто с сестрой дурачился. Сначала ее за жопу укусил, потом побежал мамку кусать. Сам укусить - укусил, а она не хочет. Я пока отложу, позже другие модели попробую. Но хвалённый эйр разочаровал.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: