В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1566423 → Мистер Смит, у вас KYSgender протекает.
>>1566411 → Моя жена - Морковь. Мой пёс - Снеговик. А я - Смешарик. ЛоуАйсикьюЛЛМ - мой home. Неуютный, но уютный. Я неиронично переименовал собакена в Снеговика. Люблю его.
>>1566454 → Нормально пишет. С твоего англика кринжанул больше выполнение воинского приветствия в Ю КЕЙ 2088? это фанфик по вселенной гёрлс фронтлайн? или мир где произошло ОТ ЛИССАБОНА ДО ВЛАДИВОСТОКА
>>1566500 Потому что гемини лаботомировали до безумия. Теперь это курсед помойка к которой никто не хочет прикасаться. Выстрелили себе в ногу из гранатомёта. Типичный гугл.
>>1566503 Пользуюсь периодически 3.1 pro для РП - вполне съедобно. Вот тут давеча перепутал модели, и вместо 3-pro-image случайно отправил промпт на генерацию изображения "Сталинского костюма" Елизарова в на 3.1-pro. Но, конечно, до Опуса 4.6 Гемини 3.1 ещё далеко по вниманию к контексту.
Поясните за турбокванты. Могу ли я надеяться, что благодаря им я теперь с 12 гб врам и 32 рам смогу 27б модели хотя бы на 8-10 т/с запускать? Устал от 2 т/с.
>>1566650 Нет, на данный момент только контекст побольше сделать. Например у меня на 16гб пока выходит 15к контекста q8 для 27б, а турбокванты заменят q8 и я смогу сделать либо больше контекста либо взять менее квантованную модель
Но пока что первая реализация замедляет скорость работы с контекстом
>>1566650 Сэономит потребление на контекст. Так-то если настроишь выгрузку фидфорвардов оставив атеншн на гпу вместо -ngl - уже сейчас сможешь ускориться с 2тс
>>1566604 "Как мне стать таким же крутым, как он?" - расстроенно пробубнила мисака мисака, кинув жалобный взгляд на поёбанный жизнью третий квант 70b файнтюненой лламопараши для кума, ради которой приходится убивать половину процессов. 32 гига и амудэ вместо карты, хуль вы хотели. хули ты тут выёбываешься, м?
>>1566694 С чего выёбываюсь-то? Это не локально же, какая разница в таком случае, сколько видеопамяти и какая видюха? Ну и запускать при твоих вводных маленький квант плотной 70B модели вместо влазящей в видюху MOE - это выглядит как какой-то сорт извращения.
>>1566808 Да ты не при чем тут, мне смешно с Абу (или кто там у него в телеге постит). Расцензуривание моделей / удаление отказов / аблитерация - это всё было с незапамятных времён. Сейчас под любую модель можно найти анценз, а конкретно то, что посоветовала обезьяна - не лучший выбор. 9b - это больше под пекарни без ГПУ (или с каким-то старьем типа 1050ti) и без оперативки. Если у тебя есть хотя бы 12-16 врам и 32-64 рам, то тебе доступны более мощные и умные модели.
Чзх, прерывается закачка с обнимиморды? Пробовал несколько раз, ровно через час стопает моб закачку. Пришлось нахуй ставить даунлоад манагер как в 2007 нахуй, чтобы скачать 30 гб
>>1566863 >106 который? Я даже первый квант не потяну Это мое модель, ее потянет даже 16гб гпу если есть оператива, хотя бы 32гб. Если оперативы нет то да, не потянешь увы
>>1566866 Да не залезет нихуя это в 16+32 разве что под линупсом и прям впритык, в q1. а я дуалбутится не хочу. мб в будущем соберу сервер на эпуке с говноMIшками. но там и эйр уже не нужен будет...
Посоветуйте какую модель скачать для вката новичку? Я сейчас пробую Qwen3-VL-8B-Instruct-Q4_K_S, но это совсем какой то кал в рп. По железу у меня 16+16
>>1566899 Пробуй что тебе советуют, а я ещё вот эту порекомендую https://huggingface.co/mradermacher/WeirdCompound-v1.7-24b-GGUF 6 или 8 квант, какой потянешь. Шестой должен потянуть. Находи самый интересный и требующий максимум напряга мозгов (AI, не твоих) момент в рп и потом меняй модели и свайпай его, смотри какая больше нравится.
Привет, аноны. Учу казахский язык. Контента на нём почти нет нихуя в отличии от англюсика (англюсик учил так: выучил примерно 1000 слов и основные конструкции, а потом просто в компьютер играл и восстанавливал неизвестные слова из контекста + переводил всё, что непонятно, копя словарный запас. Было легко и удобно), поэтому учиться придётся полноценно. Из учебника за 1й класс и нескольких букварей + видиков, знаю в районе 100-200 слов пока что.
Нужна модель, которая будет со мной общаться на простые темы на казахском и чтобы могла пояснять в процессе диалога, что и почему она написала. Очень желательно, чтобы она не только слова знала примерно, но и была грамотнаяя более менее. Желаетльно, чтобы параметров было немного, чтобы общение шло более менее быстро, а по 1 токену в секунду. Есть 24гб оперативы и норм процесс + видюха rtx 2060супер.
Знаю англюсик на хорошем уровне, поэтому могу общаться на англюсике с моделью, чтобы получать разъяснения и могу понимать разъяснения на англюсике без перехода на русский
Ну а квен 27b тут и без меня насоветуют. Если выберешь его - заранее подготовься к ебле с джинджей, чат комплишном и распердоливанию адовой цензуры. Ну или к горению от лоботомита-херетика. Модель в целом хорошая, просто не для новичка.
>>1566937 >ничего не полнял Тебе бы русский подучить, а не казахский... в общем иди в асрыг, не сри в тред нерелейтедом. На доске найдёшь сам, не маленький.
>>1566866 Не залезет. В мои 20 врам и 32 рам не влезало. Что уж там говорить, даже когда я к этим 32 ещё 16 накидывал (и это всё равно будет двухканал ддр4), тоже не влезало, точнее, нихуя не работало, потому что одна видюха р104, а если 3060 только оставить, то не лезет. Там же накладные расходы всякие, не только модель. Ну и винда жрет 1,2 врам и 8-12 рам всегда.
Тут только если пробовать на линуксе полностью без графического интерфейса.
на 20гб 3090/4090 с exllama v2 70b q4_k_m влезает если контекст до 4к и без фруфру, но скорость как у черепахи. для 8к+ или q5 - только с тензорпараллелем на двухкартах или подкачка в рам, а винда жрёт да. линукс серверный режим + koboldcpp с --gpulayers all --contextsize 8192 и моделью q3_k_m - база для тестов, если терпения хватит 1-2т/с. вики в шапке глянь по offload.
>>1566960 Я не тот анон, который из начальной ветки постов был, но как видишь, у меня 3060 + р104, которая с экслламой норм не работает почему-то.
Ну и ты сам показал свои настройки. Ниже 32к контекст смысла ставить нет, если только ты не решил покумить на 8к. Вот только с такой скоростью это не сделаешь.
Плюс, я тестил на эйре. Там даже третий квант не влез. А учитывая, что у меня сата ссд, мне хватило 10 попыток воткнуть его, чтобы отказаться в итоге от этой затеи. Потому что один старт надо ждать минут пять каждый раз.
Ну и линукс.
Вот если бы на 80б-а3б были тюны или аблитерации и сам он не был говном.. была бы сказка.
48б от кими, кстати, хуже вообще всего, что я щупал. Ну логика лучше и контекст, но пишет ужасно.
>>1566914 Хуже любой другой модели в той же весовой категории. Потому что 1. 6б лоботомит 2. Полностью новые датасеты. Там почти ничего не осталось от предыдущих Мистралей, ибо в ЕС начали действовать дополнительные законы о авторском праве, которые ограничивают в том числе тренировку моделей. Потому у нового Мистраля нет знаний о популярных франшизах, персонажах и т.д. 3. Хуевая имплементация в Жоре, плохие скорости. Ну и похуй в общем-то, модель мало кому оказалась интересна. Можешь прочекать стату на обниморде и убедиться Французы всё, увы
>>1566768 Обычный децензор сомнительного качества, которых тысячи. Рофлово что такие темы так нормисам заходят. >>1566914 Как в анекдоте от ненатуралов прячутся. Хороший апгрейд над прошлым смолом, поумнее и лучше следует контексту, мистралеслоп и кум на месте (вот прямо 1 в 1, может чуть менее слопово), цензура отсутствует как понятие. Может в агентный рп и в целом кодить (вяло), хорошо ориентируясь в доступных инструментов. Общих знаний очень мало по сравнению с конкурентами, но зато с логикой и инициативой все ок. Хорошая моделька в общем.
А все нытье потому что ее до сих пор на жоре не починили, мало того что 100б не к каждому влезет в отличии от прошлых мистралей, так еще и работает с черепашьей скоростью не смотря на активные.
>>1567013 >А все нытье потому что ее до сих пор на жоре не починили Глупая нейросенко не может понять, что существует больше одного мнения. Вопрос зачем это использовать когда есть другие модели которые во всем лучше так и открыт
>>1567024 Ладно тебе, не трясись, ты сам подписываешься своей пассивной агрессией ко всему живому Эйр 106б. Больше знаний, пишет сочно, тот же размер, 12б вместо 6б активных Немотрон 120б. Все то же самое что Эйр, но еще и бесплатный контекст, единственный недостаток это цензура, но для сфв рп кому-то может зайти Квен 120б. Все то же самое что Эйр, но еще и бесплатный контекст, единственный недостаток это некоторая сухость в рп, впрочем может фикситься промптами
>>1567031 > пассивной агрессией Тебя что-то задело в том посте? Извини, не хотел обидеть. Мне просто кажется что нормальный инфиренс и спокойное мышление доступны уже большинству, и потому люди будут иметь неискаженные мнения. А выходит все наоборот, и часто определяющим фактором в формировании отношения является оцененные перспективы (смогу-не смогу) и самый первый опыт без анализа его достоверности, а не сами качества модели. > Эйр 106б Он глупее даже мистральки и на контекстах сыпется, путая роли и делая серьезные ошибки часто, и контекст тяжелый. Как раз ему в рп новый смолл прямая замена. Знаний там действительно больше, потому зависит от карточки. > Немотрон 120б Сам про него все сказал, только мягко. А еще стиль непробиваемый. > Квен 120б Он больше, медленнее и без промптов может отказывать на минорах и прочем, чего мистраль не делает.
Если что, смолл также требует меньше прочих объема кэша если не замечал.
Ну так где они, модели которые > во всем лучше а? Ты ни одной не перечислил, только по отдельным критериям, важность которых меняется от задачи и человека.
>>1567050 Даже не читал твое эссе, достаточно твоего вывода Ты ни одной не перечислил, только по отдельным критериям, важность которых меняется от задачи и человека., который снова доказывает неприелимость отличного от твоего мнения
>>1567061 >шизик ущемился с чужого мнения Это ты сделал, сведя всю справедвую критику Мистраля к А все нытье потому что ее до сих пор на жоре не починили Когда я привел тебе список моделей и аргументацию чем они мне нравятся больше, ты это примерил на свои взгляды и пришел к как всегда ахуительному выводу - я не согласен, значит ты не прав, где модели? У тебя траблы с головой
Мне в целом для сверки часов чужое мнение нужно было, потому что мой секстант всё еще настроен на 235 аутиста, ну не выдают ни штепы, минимаксы, немотроны, мелкоквены нужного жирного нарратива. Хотя быстрыми прогонами лучше всех справился с сложной SFW сценой как раз мемотрон. (Много персонажей, сама локация всратая шизофрения с многомерными лестницами, как на мемной картине Эшера). Степ через |im_start| соу соу. Прекрасный блок ризонинга даже с NSFW, но всё время пытается сгладить углы, даже если персонаж ебанутая яндерка. Qwen 27b- Вот тут прям середнячок. Пишет как квены, богата наваливая телесных жидкостей и прочих непотребств. Но йохохо и цензуру мне в задницу. И мистралька до которой ручки не дошли. Но судя по тому что мнения разняться, надо самому потыкать. Есть еще минимакс, но это отдельная история. Жду her, без цели и смысла, уверенный что будет говно, но всё равно надежда умирает последней, как мефедроновая шлюха в канаве.
Что там гугл за шнягу выкатил? Когда на "гражданке" будет? Так-то с понижением цен можно будет тупо запустить 400б модель на 128 гигах оперативы как будто бы. Или это мрии?
Как ограничить ебанного лоботомита? Иной раз он начинает писать ответ и пишет гигансткую простыню. Пишет и пишет, в итоге скатываясь в шизу по мере ответа.
Tries to simulate the flow of a real human conversation. The algorithm is as follows:
Mentions of the group member names are extracted from the last message in chat.
Only whole words are recognized as mentions! If your character's name is "Misaka Mikoto", they will only activate on "Misaka" or "Mikoto", but never to "Misa", "Railgun", etc.
Unless the "Allow Self Responses" setting is enabled, characters won't reply to mentions of their name in their own message!
Characters are activated by the "Talkativeness" factor.
Talkativeness defines how often the character speaks if they were not mentioned. Adjust this value on the "Advanced Definitions" screen in the character editor. Slider values are on a linear scale from 0% / Shy (character never talks unless mentioned) to 100% / Chatty (character always replies). The default value for new characters is 50% chance.
A random character is selected.
If no characters were activated at previous steps, one speaker is selected randomly, ignoring all other conditions.
По-алфавиту что ли???? Это че за дебилоидный перевод такой?
>>1567131 >А вот на эксламе... >Че это? О, Экслама... Недосягаемая мечта многих. Десятки анонов сгинули, пока пытались прикоснуться к ней. Говорят, она исполняет желания. Говорят, там всё, что нам нужно. Скорость выше, чем на Лламе, скорость на контексте не падает... Сои нет, совсем! Представляете? Можете в такое поверить? Там... Там Квены3.5 не рефузят никогда. Там кванты... Ох, тамошние кванты, QTIP, они столь далеки от того, что под капотом у доступных всем Ггуфах. Поговаривают, что тамошний Q3 (~3bpw) квант сравним с 4-4.5bpw на Лламе! А это, на минуточку, Q4_K_M, обычно. В стародавние времена были ходоки, которые ее видели, Эксламу эту, и возвращались к нам. Так они говорили. Давно не слышно о них ничего, правда... Один вот только, в углу сидит, с ригом своим, да приговаривает под нос себе: "Жора... Жора опять в Кванты насрал... Как хорошо, что я кручу Квен на Эксламе..." То и дело у него спрашивали, как ее найти - да ничего не ответил мужик. Сидит, поникший, все время с бутылкой и лисоженой на аватарке, да трындит одно и то же. Иногда злится. Ну да, о чем это я... Ах, да. Экслама, эта, поговаривают, работает через tabbyAPI. Тредовичок местный даже когда-то кванты делал, пока его-мечтателя, почитателя Леннона, не изгнали за человеколюбие. Говорят, tabbyAPI этот может обрабатывать параллельные запросы, более гибок в настройках шаблонов, да все как-то у него не ладится с инструментами. Что там чертовщина - не разберешь, я в это не лезу. Я человек простой, мне бы покой на душе найти... Ну, в общем, у меня только 16гб видеопамяти, потому найду я эту Эксламу аль нет... Все побоку. Туда отправляются те, кто всю модель в видеопамять могут поместить. А возвращаются совсем немногие. Кто-то посреди дороги сворачивает, проклиная всех и вся, что поверили в эту мечту. Такая она вот, Экслама эта. Для каждого своя.
>>1567101 Это какой у тебя квен 27б наваливает телесных жидкостей? Он сух как пизда моей бабки. Чтобы он начал такое выдавать, ему нужен систем промпт по телесным жидкостям на 2к токенов, который бы в нюансах разъяснял, когда, что и где должно брызгать и какой контекст должен этому сопутствовать, чтобы уровень брызг определялся верно для каждого персонажа — от уровня недотроги до фифи. Вот тогда пишет близко к мистралю и хочет, чтобы ты залил его горячими, толстыми, белыми веревками, пока он кричит твоё имя, а ты целуешь шейку его матки.
>>1567178 на чат комплишене так тоже работает. там просто первый системный промпт меняется на ту карточку который отвечает в данный момент времени + все предыдущие сообщения минус чужие мысли.
Склеивание карточки я хз зачем оно нужно, оно просто есть и как ты видишь - иногда протекает
>>1567174 Я человек простой, вижу насилие в логах - не помогаю. Шоб батя тебя так пиздил, малой, дабы ты понял что так делать не надо ни ирл ни в фантазиях
>>1567016 Не, ты меня с кем-то другим путаешь. В спец. олимпиаде по выбору лучшего движка/модели не учавствую, есть занятия поинтересней, особенно с подписочкой клода - можно наконец дать своему внутреннему Кириллу разгуляться.
Какой фронт/форк жоры выбрать для рабочих задач, не касающихся ролевок? Оламу и лмстудио вы тут какаете, но что тогда взять вместо них? Посмотрел на гите, там дохуя чего вышло, но ничего итт не упоминалось.
>>1567317 Для каких именно рабочих задач? llamacpp или OpenWebUI для чатика; всякие экстеншены для VScode (Roo Code, Cline) для кода; OpenClaw для агентов (есть отдельный тред)
>>1567065 > справедвую критику Надо было явно пройтись по шизоеториям с подсчетом активных параметров и бреду по датасету когда он протухший и чистейший мистралеслоп? Хотя второе уже субъективщина. Ты зря принял на свой счет, регулярные срачи и доски типа политача вызывают манию преследования. По модели молчание или редкое нытье просто из-за сложностей с запуском о чем и написано, как починят - пойдут активнее обсуждения. А дерейлы про взгляды смешны, спизданул херню >>1567016 которую не обосновать, а когда носом ткнули понеслась. >>1567101 Разные модели под разные сценарии - база, а если тебе нравится конкретная модель под конкретный сценарий - не стоит ориентироваться на других. Лучше проанализируй чем именно она так хороша и сам поделись, и из мнений смотри на что обращают внимание если подробно. > Жду her Точно, уже подзабыли все про нее. Вот бы выкинули бы вместе с 2.7.
>>1567418 Норм-пресерв может начать вилять и пытаться избегать неприятных тем, хотя прямо в отказы не уходит, и да, мозги пострадали как будто прям намного меньше.
>>1567236 Красивое >>1567317 Любой, опенвебуи как самый жирный. Но сейчас чистый чатик не в тренде, вот сюда >>1560761 (OP) лучше загляни. >>1567319 27б эмбеддинг, ахренеть.
Братья во дрочении. Очень давно не заходил к вам. Подскажите пожалуйста, появился ли новый ёба аналог омнино опус магнум? Меня в принципе и он устраивает но если на горизонте есть что то ебейшее то поделитесь пожалуйста.
>>1567450 Я протестил оч много, из всего только writer (не v2) немного порадовал. Остальное совсем жиденькое и уж точно не на уровне Геммы, местами даже похуже MS3.2
Какая же парашная система сортировки в таверне. Сначала создай тег, затем открой чат, потом протегай персонажа прям в чате, закрой чат, открой поиск, введи ебоманый тег, выбери этот тег нахуй блять сколько можно а сколько можно, и только потом таверна позволит выбрать тебе найти персонажа по тегу который тебе уже нахуй не нужен потому что ты заебался наглухо
>>1567477 >создай тег, затем открой чат, потом протегай персонажа прям в чате, закрой чат, УДАЛИ НЕНУЖНЫЙ ТЕБЕ ЧАТ КОТОРЫЙ ТЫ СОЗДАЛ ТОЛЬКО РАДИ ТОГО ЧТОБЫ ПОСТАВИТЬ ТЕГ НА ПЕРСОНАЖА ЕБАТЬ СПАСИБО НАХУЙ, открой поиск, введи ебоманый тег, выбери этот тег Дополнил
>>1567478 Почему нельзя просто создать папку и закинуть туда персонажей и потом щёлкать по папкам, а не по ебаным тегам? Кто вообще исползует теги в 2026 вместо папок? Линуксоиды?
>>1567484 >просто создать папку и закинуть туда персонажей и потом щёлкать по папкам Это какая-то большая обида разраба таверны, и он сказал папок нибудет никада.
>>1567494 Пиздец. Его менюшка тегов это кромешный пиздец. А что если у меня 1к чариков и на них два десятка тегов, м? Вот было бы у меня в менюшке справа два десятка папок, то мне было бы норм, но два десятка тегов в тонюсенькой строчке размером с член комара это нахуя вообще так делать? Ну вот чтобы что? Чтобы у тебя было максимум 10 чариков и 2-3 тега на них? Ладно, хуй с ним с обиженным разрабом. Может кто-то создал какой-то экстеншен для таверны с удобной сортировкой?
Погонял значит мое квена 35 и не могу понять, за что его так нахваливали. Быстрый? Ну да, быстрый. Только толку, если мозгов особо нет. Ризонинг вообще бесполезен - увеличивает время генерации, тратит впустую токены, и выдает почти такой же ответ, что и без него. Более того, в процессе размышлений может словить шизу и отойти от основной задачи. Пишешь в запросе, условно, мне нужен такой-то код, который будет делать такие-то вещи. Всё, ничего более. Без мышления он это и делает (почти всегда), вместе с размышлениями, начинает сам себе объяснять каждую строчку и потом тащит это в ответ, объясняя мне каждую строчку. Но кроме этого, часто он начинает подключать вообще ненужные библиотеки и тратить время на них, потому что в своей цепочке он выяснил что "вообще-то это можно сделать иным способом, похуй что там хочет этот дурачок, он ничего не понимает" и выдает мне полотно которое работает, но работает не так, как его попросили.
Ну а вижен просто хорош. Пока много его не тестировал, но из 20 пикч которые я ему скормил, он каждую нормально обработал, не упустив ключевых деталей. На некоторых даже верно указал локацию съемки, на других приблизительно, но ни разу не ошибся. Такие уот мысли.
>>1567532 Ебала реддиторов и тредовичков представили, когда выяснится, что на арене не гемма, а очередной ноунейм-китаец, в которого дистиллировали гемини и теперь он считает себя моделью от гугла?
>>1567539 Ну так я же об этом выше написал. Что нужно создать тег а потом тегать персонажей вручную если у них нет тегов Папка с персонажами тут причём? Я же про папку спросил, а не про теги
>>1567553 В смысле не уловил отличия? Закинуть в папку драгндропом прям из листа персонажей или сидеть вручную проставлять теги а потом создавать под них отдельную папку это равноценные для тебя вещи?
>>1567453 > writer (не v2) немного порадовал Несколько раз в треде хвалили Writer, так что решил и я попробовать. Ух, давно таких эмоций не испытывал.
Дело было так: Writer 27б Q6 mradermacher (но тут не суть, я тестил и Бартовского, в целом одинаково), лайтовый ром-ком слайс оф лайф сценарий, наиграл ~15к контекста с исключительно соответствующим наполнением: шутки, подколы, нелепые ситуации, никакой драмы или саспенса. Оккультному клубу (группа бездельников) поручили провести расследование в библиотеке, потому что кто-то пустил слушок, что там после закрытия бродит привидение (на самом деле это птицы, которые поселились на чердаке). По ходу дела Квен, как он часто это делает, ухватился за конкретную вещь из контекста и не хотел ее отпускать - у одного из персонажей постоянно приходили уведомления на телефон. Меня это достало, и я решил спросить в чем дело. Тут и понеслось: вопреки контексту и инструкциям, где прямо указано, куда двигать историю, все превратилось ни то в триллер, ни то в паранормальный хоррор. Как выяснилось, за студентами следят, прислали какое-то проклятое видео прямиком из The Ringu. Это очень смешно. Со стороны может не понять, но когда рандомно ловишь такой делирий - это лучшее. В последний раз у меня такое было на каком-то из тюнов Мистраля 24б год назад, когда ночная беседа с скучающей девушкой-заправщицей превратилась в хоррор уровня Алана Уэйка, с паранормальным туманом и тенями, что вызывают амнезию. Такое не запромптить.
А если серьезно, 27б Квены пока что скорее радуют. Потенциал точно есть, даже инструкт радует, как в свое время QwQ 32б. Если получим тюн уровня Сноудропа, но постабильнее - буду рад.
>>1567562 >ночная беседа с скучающей девушкой-заправщицей превратилась в хоррор уровня Алана Уэйка, с паранормальным туманом и тенями, что вызывают амнезию Это что-то плохое что ли?
>>1567560 Тег надо только один добавить с названием папки. Тебе наверно лучше попробовать, я уже утомился, это не слишком сложное дело и у меня полное ощущение что ты не понимаешь как работает интерфейс
>>1567566 Смотря как посмотреть. В моем случае - совсем нет, это наоборот одно из лучших воспоминаний. К сожалению, я уже и не вспомню какой именно это был тюн, но было весело. Просто нужно быть открытым к такому. Это не нормальное поведение модели, не фича, а баг. Когда у тебя есть много тысяч контекста с преобладающим в определенную сторону контекстом и ясно изложенные инструкции, задающие жанр, такого быть не должно. Потому я и говорю - такое не запромптить, и похожий результат не получить на стоковых инструкт моделях.
>>1567571 >Это не нормальное поведение модели, не фича, а баг. Кто тебе сказал такую глупость? Это как раз фича врайтера, да и блюстара тоже - они пытаются тебе историю создать, а не просто чатик. Хз зачем ты взял сюжетные тюны, если не хочешь видеть сюжеты. >Когда у тебя есть много тысяч контекста с преобладающим в определенную сторону контекстом То есть в контекст насрал ты, добавив лишние детали, но виновата модель которая за эти детали зацепилась?
>>1567579 Лучше бы просто объяснил ньюфагу как пользоваться фичей, зач как мудло себя вести, если видишь, что чел затык словил? >>1567574 Булкой квадратик с карандашиком над списком персонажей обмажь нужных тебе чариков, выставь им общий тег. Они у тебя сложатся в папочку. Камень я не дам. Папочку надо создать.
>>1567585 >Лучше бы просто объяснил ньюфагу как пользоваться фичей, зач как мудло себя вести, если видишь, что чел затык словил? Я даже картинки прикладывал, есть предел терпению
Какой же Квен говнюк - вычисляет юзера в полотне неформатированного контекста по незаполненной карточке! Стоило минимально тегами обрамить персону - все пропал USer - стал персонажем.
>>1567576 > Это как раз фича врайтера, да и блюстара тоже - они пытаются тебе историю создать, а не просто чатик. Любая модель пытается историю создать, а не просто чатик, если ее так запромптить и использовать. Но в данном конкретном случае это классическое игнорирование инструкций и разворот истории на 180 градусов. Собственно, я и не против и мне даже понравилось. Ты разглядел в моем посте негатив? > То есть в контекст насрал ты, добавив лишние детали Чем же я таким насрал в контекст? Вот всегда так, по ту сторону экрана всем виднее, что у кого в семплерах, промптах, контексте. Ругаться не хочу, у тебя может плохой день выдался. Отдохни хорошенько.
>>1567502 Выглядит охуенно, спасибо. Кажется это идеальная штука для меня. Ещё и чуб с уборщиком подхватывает >>1567585 Хосспади, какой же я слепошарый, пиздец просто... спасибо! >>1567590 Я тебя когда спросил про то как карточки в папку добавить ты мне чё ответил? Хуйню. Вот хуйню в ответ и получил. Чел выше ответил заебись даже без скринов
>>1567595 >Я тебя когда спросил про то как карточки в папку добавить ты мне чё ответил? Хуйню. Вот хуйню в ответ и получил. Чел выше ответил заебись даже без скринов Вот и благодарность
А если я по незнанке сохранял карточки с убощика без импорта, просто вручную, то всё, я проебал теги с них навсегда? Мне теперь никак их не протегать заново без ебли с внешними ссылками на их страницы? Ну что за пиздец а...
>>1567594 >Любая рп модель пытается историю создать Пофиксил тебя. А у врайтера это выкручено на максимум. Он пишет историю даже там, где персонаж должен просто снять трусы. Так что вина на твоей стороне, а не на стороне модели. >Ты разглядел в моем посте негатив? Я? Нет. Каким образом? Мне самому нравится, когда модель начинает подкидывать в аутпут какие-то посторонние штуки, которые можно использовать для продолжения истории. Но ты как будто требуешь строгий ассист в истории от модели которая создана мягко говоря для другого. Для исекаев сисюнь. >Чем же я таким насрал в контекст? Ты же сам сказал, что телефоном. Телефон вещь многофункциональна. Модель воспринимает его как возможную опцию для продолжения сюжета. В чём не права? Если ты так стриггернулся на мобильник, нужно было удалить его из контекста, например выбросить, прямо сказав модели, что телефон отправился нахуй. >Вот всегда так, по ту сторону экрана всем виднее, у кого какой день выдался Оставляю тебя с твоей же шпилькой наедине.
>>1567612 > Так что вина на твоей стороне, а не на стороне модели. Ого. А я виновного искал где-то? Сказал, что модель плохая? То, что она не следует инструкциям вовсе не говорит, что я ее оцениваю негативно. Ты воюешь сам себе врага придумал и с ним же воюешь. Нечем заняться? > Но ты как будто требуешь строгий ассист в истории от модели которая создана мягко говоря для другого. Нет, я хочу чтобы модель на системную инструкцию "This is a lighthearted slice of life, rom-com, tension-free story..." с 15к соответствующего ролеплея не сводила аутпуты к хоррору. Это игнорирование инструкций, а не креатив. > Оставляю тебя с твоей же шпилькой наедине. Лучше бы тред от себя освободил, чем генерировать негатив на ровном месте.
>>1567622 Чел, ты тут не первый день, чего удивляешься? Срачи на ровном месте итт это классика. Большинство 12-24b васянотюны в лоботомитоквантах гоняют с целью получить заветное ты меня ебешь, а ты тут про инструкции
>>1567534 Больше не меньше, про жлм тоже такое говорили но норм же моделька. >>1567622 > на системную инструкцию "This is a lighthearted slice of life, rom-com, tension-free story..." с 15к соответствующего ролеплея не сводила аутпуты к хоррору А там нет каких-нибудь моментов в истории, имен или чего-либо релейтед хоррору? Мимо если что.
>>1567591 Пока ток положительные эмоции. Сразу есть импорт из таверны всего что только можно. Можно лорбуки юзать с чаткомплишном. Поддержка агентов. У всех карточек есть дохуя параметров поиграться. Немного больше времени занимает начать чат. ЮИшка интуитивно понятная. Советую попробовать. >>1567600 Не видел, нихуя соби. Но я так понимаю это популярная личность, пилила промпты для рп и бложик ведет.
>>1567622 >Лучше бы тред от себя освободил, чем генерировать негатив на ровном месте. Да, было бы хорошо, если ты освободил тред от себя и не генерировал негатив на ровном месте. >Нет, я хочу чтобы модель на системную инструкцию Слайсуха в хоррор с полным погружением. Что не нравится? >This is a lighthearted slice of life, rom-com, tension-free story А должно быть. "You should keep lighthearted slice of life, rom-com, tension-free story". Ты же даёшь инструкцию, а не описываешь старт. Сам себе в промт насрал, и разводишь тут негатив.
>>1567625 Даже добавить нечего к твоим словам. Вангую что сейчас до промпта или еще чего-нибудь докопается, чтобы дальше вонять >>1567627 > А там нет каких-нибудь моментов в истории, имен или чего-либо релейтед хоррору? Неа, несмотря на название "Occult club" в промпте вообще ничего связанного с оккультизмом или соседствующими темами. Это пустая комната, в котором бездельники пьют чай. В ней нет ничего кроме чайных сервизов и плюшевых игрушек (литералли). И конечно, в дополнение к инструкциям нет никаких трагичных бекстори или чего-нибудь такого. Просто выроллил. Это было весело, мне понравилось. Иногда такое безумие заходит как надо.
>>1567591 >Кто-то уже попробовал? Попозже и сам заценю отпишусь. Пробовал его RPG-экстеншн для Таврены - идеи хорошие, но у Таверны просто нет таких функций. А у агентов есть. Заценим.
>>1567627 Вполне возможно что это GLM 5.1 Air. Зайки очень любят обучать свои модели на слопе Гемини. А учитывая вот это >>1566456 я почти уверен, что это их модель. Гемма бы никогда такое не написала, она приличная девочка.
Сюка, надеюсь и то и другое выйдет раньше ебучего чебурнета.
>>1567608 Не совсем. Если ты в таверне забиваешь тег и тебе выпадает желаемый персонаж, то тег у него сохранён. Просто у тебя импорт слетел. Попробуй подцепить с сайта, если это для тебя так важно.
>>1567638 Может оно просто срандомило в один момент и в посте какие-то предпосылки к этому выплюнуло, а ты не придал значения? Или же это происходит стабильно но разных чатах? >>1567646 Да хоть yi или llama-5, главное чтобы хорошее было. Размером бы только ~200б и умное с вижном, вот это было бы хорошо. >>1567651 За квены и двор стреляю в упор! Там же тюн какой-то странный, что угодно может быть.
>>1567662 > Или же это происходит стабильно но разных чатах? Он в целом довольно нестабильный. В другом чате 25к контекста, определенно заданная тональность истории и твердо установлено окружение - никого не должно быть вокруг, не существует никакого способа там оказаться кому-нибудь кроме чара и юзера. С первых токенов и до последнего это соблюдается. Writer довольно скоро начинает искать возможность кого-нибудь заспавнить и привязать к истории. Делирий, но контролируемый. Возможно, я избалован большими МоЕ моделями и тем, как они и следуют инструкциям, и при этом развивают историю дальше. Справедливости ради 27б инструкт ведет себя как надо, так что это особенность тюна, очевидно.
>>1567676 >>1567677 >>1567680 А разве VaM не лучше для этого? Там и вр, и полное погружение, и ии поключить для общения можно. Зачем текстовый чат... Для старушек каких то совсем?
Что там у кого на агентском поле не в смысле метнуться душно кабанчиком, а для рп? Всякие голос, картинки подключаться должны проще, чем в таверне вроде
>>1567686 Да, поджаренный тюн 100%. Понять простить или дропать. > избалован большими МоЕ моделями Новый большеквен не зашел? >>1567688 > VaM Надо разбираться, это просто секс симулятор для нердов и пердоликов?
>>1567667 Я с этого кекнул. Продолжаю тыкаться, куда удобнее пердолиться с промптами. Чаты куда более живые, можно добавить расписание персам еще какую-то хуйню. Продолжаю тыкать и удивляюсь сколько приколов.
>>1567697 >ну к примеру, что его интерфейс как у ебучего блендера. Че? Совсем нет.
>Надо разбираться, это просто секс симулятор для нердов и пердоликов? Ну не просто, а лучший на планете.Ну а так, наверное, да. Как и нейросетки для рп.
>>1567702 Ой вруша же ты. Нет, Vam пиздат. Спорить не буду, он просто охуенен. Но сам редактор сцен это ебучий аътунг с тысячей ползунков. Это буквально 3D редактор сцен, где ты часов 10 будешь делать минутную сцену. Охуенно? Да. Но мне как бы уже к концу ебли с ним, уже не очень то и хотелось.
>>1567697 Не знаю, что за VaM, но у Блендера очень даже классный интерфейс. Если не нравится, его можно перенастроить под себя, он легко кастомизируется. >>1567700 > Новый большеквен не зашел? Очень хотел его попробовать, но в мои скромные 24+128 влезает только совсем печальный квант. Решил не портить себе впечатления и не мучать Квенчик. 27б 3.5 хороший для своего размера, уверен, позже будут достойные тюны. А вот 122б для рп не понравился, справляется хуже плотной 27, но как ассистент неплох.
>>1567712 >нет... >Но справедливости ради, я провел несколько лет в 3Dmax, так что считаю за релейтед. А я в 3д макс и майе. Ты что там, квадратные домики моделлил что ли? Или конвертил модельки из игр? Не более. В общем херню несешь.
>>1567702 Ну там уже по "гайду на интерфейс" можно понять что штука для настоящих мужиков. Крутость бесспорна, просто хз насколько тут подойдет. Это или буквально одна сцена и ультрафаст кум, или какой-то невероятной сложности проект с процедурной генерацией сцен и сложностью отладки.
А так накатил картинкогенерацию, рандомайзер, раздумья, речь и всякое типа музыки, инвентаря, управления игрушками и прочим - и сидишь урчишь. После отладки работает под широкий перечень кейсов, сочетание и новизну с интерактивом, и оставляет место для воображения.
>>1567726 >А так накатил картинкогенерацию, рандомайзер, раздумья, речь и всякое типа музыки, инвентаря, управления игрушками и прочим - и сидишь урчишь. После отладки работает под широкий перечень кейсов, сочетание и новизну с интерактивом, и оставляет место для воображения. Вот только все это интегрируется в вам.
>>1567749 Так это работает хуже чем чатик. Текст от ллмок обрабатывается мозгом так же как при чтении книги и рисует красочные реалистичные миры в которые погружаешься и веришь им. А тут просто мультик со зловещей долиной. Такая херня будет работать только тогда, когда картинка будет неотличима от реальности.
>>1567765 >Такая херня будет работать только тогда, когда картинка будет неотличима от реальности. Где ты увидел там зловещую долину? Зловещая настает как раз в видосах нейросеток.
Есть разные мнения о влиянии нейросетей на человеческий интеллект. Некоторые исследователи считают, что использование нейросетей может усилить лучшие качества человеческого мышления. Например, если ИИ берёт на себя вспомогательные функции, у человека остаётся больше «умственного пространства» для размышления высокого уровня, творчества и стратегического планирования. habr.com Также есть мнение, что частотное (чиво блять, алиса??? нахуй тебя так жестко то квантовали) использование ИИ снижает уровень критического мышления. trends.rbc.ru Кроме того, есть прогнозы о том, что в будущем ИИ будет брать на себя всё больше когнитивных функций. Например, Билл Гейтс, глава Microsoft, предполагает, что в будущем именно ИИ будет определять, какие задачи будут делегированы людям, а какие — перейдут машинам. trends.rbc.ru В 2025 году Илон Маск заявил, что к 2029–2030 годам искусственный интеллект, скорее всего, превзойдёт ум человека. dzen.ru Главный специалист по ИИ компании Meta Янн Лекун, в свою очередь, считает, что до создания ИИ уровня человека могут пройти не годы, а десятилетия. По его мнению, современные ИИ-модели пока не обладают способностями к памяти, мышлению, планированию и рассуждению, как это свойственно человеку, а лишь имитируют эти навыки.
>>1567302 >>1567314 >24 VRAM 96 RAM >Для MOE 120 16+64 репортинг ин. Глм эйр влезает в Q4_K_XL с 32к контекста в Q8 (~10 т/c), квен 122b влезает в IQ4_XS с 32к контекста без квантования (~14 т/c). Линукс. Скорости на кобольде, на лламецпп быстрее на 0.5 - 1 т/с но я ебал в рот по кд из исходников собирать.
А ещё можно гонять жиноквен предыдущий в IQ2_S и он очень даже неплох. По сравнению с 3.5 - считай вообще без цензуры. Но скорость пососная, что-то около ~5 т/с.
>>1567749 Как концепт круто, как реализация - зловещая долина. Про главную проблему уже написал - или примитивный кум на заготовленных ассетах, или очень много пердолинга ради того же кума в другой локации. Ты не сможешь бороздить космос гордым торговцем с ксенос-жена, грабить караваны с неками-разбойницами устраивая потом оргии прямо над награбленным, тискать кицуну в горной деревне, отыграть Момонгу развивая свой регион, истребляя кобольдов кваготов и закнокапить всех женских персонажей, и многое другое. То есть технически сможешь, но не захочешь, потому что количество затрачиваемых усилий даже только для одной части кума велико. Вот запилят процедурную генерацию хорошего качества - тогда и окунемся.
>>1567795 > Линукс. Скорости на кобольде, на лламецпп быстрее на 0.5 - 1 т/с но я ебал в рот по кд из исходников собирать. Ну ты кобольд... Копировать вставить одну команду в консоль канеш труднее чем ждать нового кобольда
>>1567863 У меня вот 12 гб + 32 гб (из них 25-27 доступно), но Q6 я не могу использовать, LMStudio говорит, что слишком мало памяти. Как я понял, при загрузке модель целиком загружается в обычную оперативку, в дополнение к куску, что загружен в vram
Впрочем, я читал, что разница между Q4 и Q6 невелика.
All other abliterated models I've tested, not just with Qwen3.5, performed much worse on my broad knowledge test. Apparently something about the process of removing denials seems to be scrambling the weights and causing a spike in hallucinations at the horizon of knowledge.
However, this one scored only a couple points lower than source model and remained just as coherent and skillful during the test. The small difference doesn't really matter since Qwen3.5 is, outside of STEM, broadly ignorant anyways and only scored 64/100 on my broad knowledge test, while other similarly sized models like Gemma 3 27b and Mistral Small 22b scored 74 or higher, so using Qwen3.5 for broad knowledge doesn't make much sense anyways.
I won't ask you how you did it, but I'm very impressed. You managed to do something nobody else was able to do and I previously thought impossible. Thanks.
В общем похоже это хидден гем для обладателей слабых пк.
>>1568037 >В общем похоже это хидден гем для обладателей слабых пк.
Именно так. Смотри, братишка, на скриншот. Если хоть 1 вменяемый тюн появится, это будет вин тысячелетия для некро-ПК. Да даже без него может отлично работать, главное простыню размером с карточку ему в систем промпт воткнуть, чтобы он писал как надо.
Пикрелейтед — скорость на 130к контекста на 12 врам. А можно ведь кэш подрезать, если нужно взять там квант пожирнее, например.
Единственный минус в ризонинге. Отключать его нельзя ни в коем случае. Это может, лол, почему-то вызывать рефузы иногда, ну и мозгов там становится как у сберчата 1b. А вот с ризонингом эдак на 24б мистраль тянет по знаниям и логике, но суховат.
Ах да, на пике еретик, а не та модель, что ты скинул. Агрессив-хуессив часто ломает ризонинг, но я скачаю, попробую, вдруг там сок будет.
Господа, озаботился тут необходимостью перетряхнуть свои запасы LLM и удалил старьё. В пека 128гб DDR4 3600, 4060ti-16, 3060-12 и v100-16. Что сюда влезает из свеженького для РП на русском? Хорошо чтобы держало не меньше 64к контекста, лучше больше. А то качать сотни гигабайт чисто на пробу немного долго с моими интернетами. Пока, пролистав треды, скачиваю qwen3.5-122B в q6 и qwen3,5-27B-writer в q6, есть ли ещё годнота?
>>1568063 4. 5 тоже, просто скорость упадёт. Если падает ниже 15, уже нет смысла юзать, плотная 27б будет лучше, так как на плотной 14 токенов в секунду на 65к контекста (но это если 20 врам и вторая карта полный кал). Однако плотную так разогнать уже никак не получится по контексту, он слишком жирный по сравнению с этой МоЕ.
Если готов к сое и отказам, то норм вариант, правда ризонинг говно (я признаю только оригинальный ризонинг, ибо у меня лишь с ним были заебись ответы по логике). В противном случае только аблитерация или еретики, и придётся перебрать, и ещё кванты придётся перебирать, потому что матрикс-хуятрикс, калибровочный датасет, это всё. Скачиваешь 5 версий еретиков/аблитераций и дрочишь на предмет отказов и качество русика.
>>1567482 Я прям охуел, что они не смогли в многопоточность - если ты испортируешь карточку, то в это время нельзя генерировать ответ. В чем проблема раскидать такие второстепенные таски по воркерам - хз.
Я года 2 назад смотрел в кодовую базу таверны, чтобы прикрутить в неё фоновую генерацию (типо пока читаешь один ответ, на фоне уже высчитывается второй свайп) и как же там было насрано. Думаю, сейчас все стало только хуже.
>>1568070 Использовать его старшего брата аутиста. Там цензуры нет вообще. Не, ну есть, но она сработала только на сцене с бдсм лоли моментс. Т-щ майор, она 70 летняя феечка. И вообще йокай.
>>1568079 Как минимум уже давно существует мультисвайп - генерация нескольких ответов сразу. Думаю, несложно будет отложить генерацию последующих свайпов, чтобы она была последовательной, а не параллельной. И абортить генерацию если ты идешь дальше по чату. У меня есть пара самописных экстеншенов для Таверны и мне кажется, что на код здесь жалуются только те кто ничего в этом не понимают или не работали раньше с опен сорсом. Ситуация везде такая
Как в таверне генерить картинки из сообщений? Мне нужна отдельная модель для генерации, которую нужно присобачить к кобольду, всё правильно понял? Подскажи хорошую модель для гена, анон
>>1568106 > на код здесь жалуются только те кто ничего в этом не понимают Так жалуются не на код, как таковой, а на общую реализацию. Такое ощущение что разраб таверны, как в том советском мультике про переделать и недоделать. Доработал групповой чат. Молодец. Но хули так через жопу. Сортировка - просто пиздец. Папки по тегам. Это где у него в воспаленном мозгу могла прийти такая идея. Мне тегать карточки буквами? Потому что, о неожиданность, к любой карточке идет тегов 5-6 минимум и я не могу выбрать тег всех тегов. Видно что у человека есть видение продукта, но чёт оно какое то странное, если честно.
>>1568108 В таверне можно к чату присобачить генерацию, там есть настройки. Но: реализация хуже чем у комфи. А так, в картинотреде посмотри. Но текстовая нейронка и так будет сжирать твою память, чтобы еще картинкогенерацию присобачить. Поиграться можно, но результат тебе не понравится. А вот что может реально быть интересным, если говорилку подрубить.
>>1568110 > Так жалуются не на код, как таковой, а на общую реализацию Будь общая реализация плоха, давно сделали бы форк или альтернативу. Но в итоге есть только нытье отдельных людей, которые не могут прочитать документацию как сделать отдельные папки для персонажей > к любой карточке идет тегов 5-6 минимум и я не могу выбрать тег всех тегов Не используй теги вообще или используй по одному, чтобы размещать их исключительно в папках, если тебе это нужно. Мне теги нравятся больше, и я пользуюсь этой системой. Для меня это удобно, потому что во всем складе карточек можно пользоваться поиском по тегам, а не лазать по отдельным папкам и вспоминать, что где
>>1568113 Не, там еще анон на пиксель скидывал. Сам скачаю и посмотрю, в общем, бесплатно же.
>>1568117 О! Ты то мне и нужен! Современные текстовые модельки могут в самостоятельные промты для картинкогенерации или все еще нужно делать ручками? Потому что если они все так же тегают шизово, то какой смысл в этом запихивании слона в удава?
В теории же ебовая связка может быть. И текст, и картинки. А если еще asmr то вообще шишкан улетит. Но год назад это такая залупа в итоге была.
>>1568138 Добро пожаловать. Ризонинг в рп бесполезен, ты ждёшь пока он нагенерит возможно даже что-то хорошее, а потом модель совершает пук под себя и игнорит собственный ризонинг блок. Это для кода работает в лучшем случае.
Убрать можно по-разному. Если ты на Лламе, есть флаг для этого. Если хочешь через фронт, надо префиллить, например, <think>
</think> Для новых Квенов. У других моделей формат может отличаться.
>>1566950 Спасибо тебе огромное, пришла внезапная помощь, откуда не ждал. Недавно, в контексте обеспечения цифровой автономии, захотел завести себе свой локальный переводчик - но так и не смог найти подходящую модель. Пробовал квен2,5-9б, который назвали лучшим для перевода - качество решительно не понравилось (местами в переводах проскакивало такое говно, что заставляло вспомнить машинный перевод эры девяностых). Ну, и уже был готов забить на эту затею. И тут вдруг твой совет как раз кстати.
>>1568190 Опус, Кодекс. Средние модели для кода - Минимакс/GLM-5/К2.5/Гемини Флеш. Ультранищие лоботомиты, но всё ещё что-то могут - Квен 80В или большой 3.5, Дипсик.
>>1568199 > Кодекс 7B вообще лоботомит даже бесплатный гемини в гугл-поиске лучше понимает задачу (гемини даже собрал движок для имиджборд причём с неплохим дизайном на ExpressJS).
Для кода сейчас топ deepseek-coder-v2-lite-instruct 16b в gguf q4_k_m или q5_k_m, жрёт ~10гб vram, понимает контекст на уровне 128k, решает задачи лучше чем старые codellama. Качай с hf под exllama v2/v3 в tabbyapi или oobabooga, промпт типа "You are a senior dev, write clean python code for..." и temp 0.2-0.4.
Если 7b не потянуло, не лезь в мелочь - qwen2.5-coder-7b-instruct тоже ок для простого, но для суть задач бери 32b версию, она на 20-30% точнее по lm-arena. Тесты в шапке по лидербордам, там свежак 2026. С koboldcpp или st с stepped-thinking пресетом вывозит дебаг и рефакторинг без галлюцинаций.
Миксы типа a1401-code-mix от тредовичков на hf тоже годные для рп с кодом, но чистый deepseek стабильнее.
>>1568190 Самый минимум - 27b плотный квен или 35b мое квен Чуть получше - 80b Квен и Gpt Oss 120b (примерно одно железо нужно, ибо Gpt Oss квантована из коробки) Еще лучше - Step 3.5 Flash (200b) или Minimax (230b) Дальше уже совсем большое, вряд ли запустишь
>>1568204 Великолепно. Я держался до конца, но >Миксы типа a1401-code-mix от тредовичков на hf тоже годные для рп с кодом >но чистый deepseek стабильнее. Меня добило. Как там рп с кодом, посаны?
>>1568211 >RTX3050 8Gb и 16Gb RAM. Это единственное из перечисленного, что тебе влезет: https://huggingface.co/Qwen/Qwen3.5-35B-A3B Ищи подходящий gguf квант, выгружай подходящие слои на процессор и оперативу. Контекста будет может 64-80к в лучшем случае, для агентного кода это очень мало. В целом простые скриптики делать пойдет, наверно.
>>1568212 >Контекста будет может 64-80к в лучшем случае, для агентного кода это очень мало. В целом простые скриптики делать пойдет, наверно. Да с RAG всё нормально уместится. Жаль Alpaca https://flathub.org/ru/apps/com.jeffser.Alpaca не умеет в RAG. Придется вручную файлики тоскать.
Мне главное, чтобы модель понимала, что от неё требуется, и мне не пришлось кричать на монитор.
Гемини вот хорош, мне вообще не пришлось ничего ручками делать, даже CSS править. Но в какой-то гугл уже отказывает в переписке, да и нужно готовиться к Великому Рубильнику.
>>1568220 > Мне главное, чтобы модель понимала, что от неё требуется, и мне не пришлось кричать на монитор. Иди в агентотред, там тебе расскажут про всякие OpenClaw, Roocode и прочие. Фронты сами часто формируют промпты, это помогает. Кричать на монитор так или иначе придется. Это не близко уровень Гемини.
>>1568210 >Меня добило. Как там рп с кодом, посаны? Я просил разные модели во время РП написать мне socks5 прокси на python, почти все послушно начинали писать код, только пару моделей нормально отыграли шок от такой резкой смены курса.
>>1568224 >Q4_K_M - 22 Гб >16+8 = 24 Ну да, будет впритык. Возможно, придется на Линух переезжать. У Квена контекст легкий, 32к занимают чуть больше 1гб. Так что при желании все возможно. Других опций у анона все равно нет
>>1568131 >>1568133 Баляяя, как же эта Алибаба меня заебала со своими абсолютно ебанутыми моделями, для которых надстройки семплеров можно отключить, поставить температуру 1 и кайфовать.
Короче, как я понял presence penalty штрафует ТОЛЬКО ТО, ЧТО ГЕНЕРИРУЕТ МОДЕЛЬ. Вот пока она вам высирает полотно на 3к токенов или больше, вот там оно и штрафует. Всё это окно. Даже если аутпут 32к, то все 32к. Если 2 токена, то 2 токена. Но не предыдущий контекст. И это правильно, согласно их документаци.
Но жорик ТАК НЕ МОЖЕТ. Эта реализация совершенно бесполезна и может быть даже врелна, так что действительно лучше обычный штраф за повтор или сухого.
>>1568239 Из вариантов - только кванты близкие к лоботомии.
Я прозреваю там вообще "игровой ноутбук" - "Громовой нефритовый стержень DNS эдишон" . В лучшем случае. В худшем - "Православный русский рабочая станция бюджет эдишн".
>>1568212 Я запускал эту модель. Он сможет воткнуть туда даже 150к контекста при его конфиге. А может и больше легко. Правда, вопрос в том, насколько будут выполняться инструкции при таком контексте, остаётся открытым. Я заметил, что МоЕ-версия любит на них забивать и чаще занимается шизой, похожа на старый квен 30б-а3б. Надо ждать какого-то кодерского тюна официального.
Если правильно помню, на 130к контекста у меня он занимал 2 Гб, а на плотном 27б на 65к контекста было уже 4 Гб кв кэша.
В общем, я думаю, можно задействовать абсолютно всё контекстное окно, если сама модель не посыпается и на 250к будет минимум 10 токенов в сек.
>>1568211 GPT OSS 20B MXFP4. Кричать на нее придется, скорее всего, но у нее есть ризонинг, и она точно заведется на твоей системе. Наверное, это твой максимум в кодинге с таким конфигом. Можешь рассмотреть как альтернативу Квену, если он не поедет.
>>1568037 тестирую сейчас. настроил температуру, но все равно кум как-то хуже получается, вяленько. наверное я что-то делаю не то, но ответы получаются сухими, хоть и генерация пиздец быстрая даже на моей нищей 3060 с 6 гигами врам.
>>1568264 Ну не знаю. Плотный квен заебись отрабатывает. Да, сухой, но логика не страдает, всё реально четко и по его плану, с нюансами, которые он там выдумывал.
А вот МоЕшка новая пишет поживее, датасет иной, но часто болт кладёт на свои же инструкции, и я даже вижу причину: на размер контекста посмотри. Он там такой, будто его в q1 заквантовали. Ну натурально размер фотки с фотоаппарата в высоком разрешении. Не может, блядь, модель с таким ужатым и "оптимизированным" контекстом нормально следовать инструкциям, даже если запустить её в полной точности.
Однако не будет по другой причине. Датасеты говно. Пока что ничто гемму не переплюнуло среди мелких. И гемме можно псевдо-мышление прицепить, где она сначала план строит, потом отвечает по нему.
>>1568281 Для кума ищи magnum, отдельно попробуй magnum KTO. Все 12б. На каждом репо вроде бы изображён ковбой и/или аниме-девочка в ретро-стиле, что-то такое.
Они шизовые, но сперма льется рекой. Я до сих пор их юзаю для кума периодически, если не нужно особого соблюдения инструкций и двойные трусы не проблема. Намного смачнее нового говна.
>>1566908 Вот реально, я уже заебался кучу гуфов хранить. Неужели нет простого решения - одна, лучшая, единственная на все рп\ерп? Почему так? Вот гемма мне реально понравилась.
>>1568324 > Шутить изволите, сударь? Нет, я запускаю GLM 4.7 локально. Это лучшая модель для рп/ерп вплоть до Дипсика. > Я про 27б максимум. А в идеале 12б. Ты же не сказал какое у тебя железо. Мысли читать не умею, не экстрасенс. Из 27б попробуй Bluestar v2 - пока что самый лучший тюн Квена, что я пробовал. Из 12б помню только этот, https://huggingface.co/inflatebot/MN-12B-Mag-Mell-R1 Но надеюсь ты понимаешь, что речь про англюсик.
При этом оно пиздец тупое. Ну для локального кодинга или рп, лол, конечно, 10/10, но я быстро срыгнул обратно на Клода. Не понимаю, как они там США догоняют и перегоняют, разве что в своём воображении.
>>1568324 Он предельно серьезен. Ты спросил про одно кольцо, чтобы править всеми в локальном РП. Он тебе назвал. Всё. Все модели меньше говно. И гемма кстати тоже говно. И мистрали говно, и мелко квены говно. Они все говно по сравнению с 400b модельками. Ну вот такая правда нейрокума. Есть железо - есть РП Нет железа - нет ножек есть корпы.
>>1568328 > Он предельно серьезен. Прав. > Всё. Все модели меньше говно. И гемма кстати тоже говно. И мистрали говно, и мелко квены говно. Не прав. Можно радоваться и на 24-32б моделях, что я успешно делал до переезда на Air и впоследствии на 4.7. Последнюю пару дней я тыкаю Bluestar v2, и он не слишком глупее того же Air. Жизнь есть, все это упадничество от нежелания направлять модель и сглаживать углы. Это, впрочем, и на больших моделях делать нужно, даже на корпах.
>>1568326 >Но надеюсь ты понимаешь, что речь про англюсик. А русский? Мы что тут, англичане? У меня только на русский встает. Почему нет простого решения уже? А? Не первый год же...
>>1568328 Печально осознавать, что такая красота мне по карману никогда не будет. Как и 99% сидящим тут.
>>1568338 Вот тут двачну. Шестые кванты вполне дают нормальный кум, просто надо иметь 20+ врама и 60+ рама. И не нужно для какого-то кума на 30-40к контекста собирать отдельный риг. Лучше создать изолированную систему для гипервизора.
>>1568342 > А русский? Мы что тут, англичане? У меня только на русский встает. Пробуй Гигачат, они там недавно выпускали какую-то мелочь, у которой вроде бы хороший русский. > Почему нет простого решения уже? А? Не первый год же... Потому что такова индустрия. Кто будет создавать модели с хорошим русским языком и зачем? В СНГ это все в зачаточном состоянии. Все топовые модели сейчас лучше всего работают с английским и китайским.
Кста не знаю почему гемму ругают. Сорри за по, но она все же не промытка и старается быть нейтральной. Хорошо обучили. И русский супер. Лучший из всего, что видел.
>>1568338 А я и не писал что жизни нет. Просто давай не будем кривить лицо и не замечать очевидного. Если выбирать топ для локального РП, то это большие модели. Ну вот так. Ну не напишет ни гемма, ни мелкоквен как их милфы.
>>1568342 Для ГЛМ тебе нужно : берешь 4080 за 80к, расширяешь ей жопу до 36гб за другие 80к. (160к за видюху с 36 гб на чипах от 4080 это охуенно) На контекст вешаешь другую 4080/5080. Обмазываешься 128гб оперативы в 2х плашках (тут да, охуеть можно от цены) и все. Итого это 300к лол.
Хули так дорого то блять. Хотел обрадовать, но вместо этого сам расстроился.
>>1568353 >А я и не писал что жизни нет. Вот это видимо всему треду привидилось: "Они все говно по сравнению с 400b модельками. Ну вот такая правда нейрокума. Ну вот такая правда нейрокума. Есть железо - есть РП Нет железа - нет ножек есть корпы."
>>1568353 > А я и не писал что жизни нет. Вполне себе писал, сведя оценку всех моделей меньше 400б к тому, что они говно. Даже корпов предложил использовать. Ты из соседнего треда протек? Нам без тебя хорошо, мы уж разберемся где жизнь есть, а где нет.
Что нужно настраивать чтобы кино (cinema) было? У меня какую то шизу пишет. Любой свайп, просто отборная шиза и стены текста. Вот я щас использую квенчик.
>>1568361 > Если А хуже Б. Это не значит, что А не применим. Формулировка "Есть железо - есть РП; Нет железа - есть корпы." звучит вполне себе однозначно: лучше корпы, чем модели меньше 400б. Твои слова. > Вы че, бинарные что ли? тронул вашу священную корову, ай ай ай. Не написал что гемма лучше дипсика. Какой пиздец. Пока что вроде только ты бинарный.
>>1568313 Половина проблем решается семплированием и заданием годного контекста со специфичными деталями. От модели лишь требуется, чтобы она определенные концепции понимала. Но тут в принципе все качественные кум-тюны достаточно хорошо справляются, даже на 12б. Размер/новизна модельки роляет лишь на внимание к деталям, размер контекста, какую-то хитровыебанную логику. Слог - ну да, у все чуть-чуть разный может быть, с использование специфичных конструкций. Но в целом похуй, можно просто ротировать разные модельки, гемма-мистраль-квен, одна надоела - взял другую. А внутри моделек разные тюны по большей части похуй, выигрыш на уровне плацебо.
>>1568328 > Всё. Все модели меньше говно. И гемма кстати тоже говно. И мистрали говно, и мелко квены говно. Они все говно по сравнению с 400b модельками. Ну вот такая правда нейрокума. Про квен 235 так же говорили, мол король, лучшая модель, а в итоге отменили его всем тредом и загнали под шконарь кто его юзает
>>1568371 >лучше корпы, чем модели меньше 400б. Твои слова Ну потому что это так. Они лучше мелких моделей. Я не понимаю что ты хочешь увидеть? Что darkdick12omegamagnumpiss лучше клода? Нет, не лучше. Лучше ли ГЛМ моделей поменьше для РП? Да. Лучше.
>>1568382 До сих пор пользуюсь. Все еще лучшая кум машина в своем размере, лул. Но это не значит, что она лучше моделей побольше или лучше своей новой версии. Да цензуры меньше, но шизы кратно больше, из за чего она идет подрубанием, а не основной моделью.
>>1568353 > топ для локального РП, то это большие модели База > до 36гб Так 36 или 32? В целом за 160 вариант неплохой, пожалуй. >>1568357 Ну они не говно, просто они уступают. Что за бинарное мышление, тебя квантанули? Там можно много дефирамбов привести про закон убывающей полезности, коупинга про то что больше N контекста и кум сценариев не нужно и т.д. Но на одной модели ты сможешь разыгрывать что-то интересное и радоваться, а на другой придется прилагать много усилий для того же, или просто забить, довольствуйясь меньшим. Если в теме недавно - хватит даже совсем мелких моделей, но потом это все надоедает и ниже определенного уровня перестает радовать. >>1568382 Хорошая модель как была так и остается, фокус срачей поехавших сместился на другие и потому тебе так кажется. А юзал бы - не казалось.
>>1568399 > Что за бинарное мышление, тебя квантанули? Ладно, так и запишем: утверждать что ниже 400б жизни нет это не бинарное утверждение; утверждать обратное - квантование мозга. inb4 я нигде не утверждал, что большие модели не нужны, но и не утверждал, что жить на маленьких моделях нельзя.
>>1568402 >я нигде не утверждал, что большие модели не нужны, но и не утверждал, что жить на маленьких моделях нельзя. Да блять, я не утверждал что нельзя жить на маленьких моделях. Пользуйся, наслаждайся.
>>1568406 Им уже второй год пошел, полагаю. Какой пиздец.
>>1568417 жаль что я стол вытираю после каждого сеанса куминга. в следующий раз обязательно сфотографирую результат и выложу его итт чтобы отлететь нахуй
>>1568414 COOM это когда у тебя холсом моменты перемежаются со всяким интимейтом. А "я тебя ебу - ты ебёшь меня - хуй пизда сковорода" это откровенный кринж.
>>1568414 Чтобы понять смысл, тебе надо нажраться мелкомоделей. Ты должен сожрать весь слоп, пройти все свои сценарии и любимые карточки. И только потом ты переходишь на крупные модели и тут начинается: у тебя наконец появляется сцена. У тебя начинают задействоваться неписи. Персонажи перестают действовать одним и тем же паттерном. Ты видишь, что выдача кардинально меняется от оформления самой карточки, когда ты тасуешь теги и блоки. И всё, тебе уже не хочется да я тебя ебу, потому что модель наконец то способна навалить нарртива, не одинаковых описаний, от которых тебе хочется уже блевать, а чего то нового, свежего. И! Самое главное! Логичного, сука. Логичного. Персонажи не ведут себя как с ОКР бесконечно открывая и закрывая двери, они не телепортируются по помещениям, они не слышат твои мысли. Ты можешь в ответном сообщении вести свой нарратив отличный от: я сделал X и Y. Наконец ты можешь писать, что то в духе: каждая капля дождя ощущалась как удар по наковальне, голова не просто болела, она разрывалась от каждого лишнего шума. От каждого шороха и звука. Я уже не то что не мог сконцентрироваться, сам мыслительный процесс доставлял мне боль. И её взгляд, эти ебучие- два красных фонаря в темной комнате. И моё дыхание. Резкое, прерывистое, словно что то хочет выбраться наружу из твоего горла, но застряло, вызывая у тебя желание вырвать себе горло, чтобы это всё прекратилось. И модель нормально обыгрывает твою шизофазию, ведя совместный нарратив. Нет, такого нет ни на одной мелко модели. Вот именно этот опыт не описать, его можно только ощутить, когда ты переходишь с MS3.2 на GLM 4.7 Вот тут и начинается что то похожее на РП.
>>1568434 > каждая капля дождя ощущалась как удар по наковальне, голова не просто болела, она разрывалась от каждого лишнего шума. От каждого шороха и звука. Я уже не то что не мог сконцентрироваться, сам мыслительный процесс доставлял мне боль. И её взгляд, эти ебучие- два красных фонаря в темной комнате. И моё дыхание. Резкое, прерывистое, словно что то хочет выбраться наружу из твоего горла, но застряло, вызывая у тебя желание вырвать себе горло, чтобы это всё прекратилось. Ебать графомания, без обид. Тут и пошлые метафоры, и аж два канцелярита, и тавтология. И ключевое тут это то, что текст нихуя не показывает, а рассказывает. С таким инпутом даже корпы вроде опуса тебе высрут пурпурщину в лучших традициях фикбука и АТ. Принцип GIGO работает безотказно, пчел.
>>1568434 Поддвачну нейропост, только тут стоит акцентировать на развитии истории, экшне и подобном. Модели получше стабильно вводят что-то новое и подстраивают это под текущую историю и сеттинг, или развивают с широкой вариативностью.
>>1568433 >есть китайская еба-душа. Если добавить в промт геммы, то думаешь она не появится? Гемма училась на какой информации? На каких книга? Думаешь только на западных? А русские и китайские - разрабы посчитали это пропагандой зла? Хотя Брин же...
>>1568440 Да, он пиздат и не плох. Но хуже 235аутиста, а он хуже больших ЖЛМ и так далее. Блэт, хочу попробовать большого нового квена, но он слишком жирен и могуч для моего сетапа. Увы.
>>1568449 > без обид. Какие обиды, ты чего, взрослые же люди. Конечно графомания и пурпурка. Но мне нравится. Мне и нужно было.. Такой, знаешь, Достоевщины, с затхлой квартирой, облупившимися обоями, вечным дождем и демоницей, которая забыла что такое эмоции еще тысячу лет назад. И большие нейронки это подхватывают.
>>1568456 > лапу [triggered] Лапу? ЛАПУ? ОПЯТЬ PAWS? Уууу вот же лоботомитище, сколько можно прописывать в карточке что кроме ears и tail нет никаких paws, paw pads, claws, fangs ладно милые особенности зубов можно, body fur, belly fluff, mane и прочего! Вот этим всем добром, да по наглой жлмной морде. Ничего против этих вещей не имею, но не когда они появляются там где не предусмотрены. >>1568464 Oh you~
>>1568466 Хмм.. Ты меня натолкнул на одну мысль. А ведь я не пробовал с жлм ебать лошадей. Надо бы посмотреть как он справится с описанием ебли поней. Появится ли у них грудь и как он будет описывать круп. Исследование достойное нейродвача.
>>1568502 Ну хз, я вот робота на свидание повёл, но чёт передумал в процессе осознав, что это железяка. Так что теперь робоняша анализирует как именно будет меня ебать за подобные выкрутасы. Ибо нехуй.
>>1568520 Нет. Всё новое - агентокал и тулзокал с засраными кодом датасетами и бенчмаксингом. Либо цензура. Либо грок доступный только за деньги. Цена на память туземунит, видюхи туземунят. Всё плохо. Мы все умрём.
Хочу повесить агента оценивать просто погоду и состояния персонажей, вроде для этого много мозгов не надо? Есть ли вариант какой-то плотной модельки до 9б у которой без сынкинга с этим проблем не возникнет? А то сколько не пробовал мелкоквенов они срут пастой размышлений, а без нее лоботомиты что ужас.
Есть бюджет 60к на видеокарту, что из китайского барахла лучше взять? И главное - где взять? От перекупов на авито, или самому заказывать через алиэкспрессы? Какие в принципе подводные?
Выше там аноны воспевают оды большим моделям и зарекаются, что жизни ниже аж БольшеГлэма нет. Выскажусь не ради срача, а ради плюрализма мнений. Не мне решать как кому что и как делать, но мое мнение такое - особо большой разницы между плотной мелочью ~20-50b и 400-600b Мое нет. Да, они часто пишут лучше, совершенно точно знают больше, совершенно точно меньше ошибаются, требуют меньше свайпов. Но все одно и то же. Фундаментальные недостатки все те же - недостаточный эмоциональный интеллект, слоп, протупы, отсутствие креативности, замкнутость в контексте, в инструкциях. Я много лет рпшил с людьми и с подростковых лет читал лит-ру, мангу, потому для меня, что называется, это все одна хуйня. Большие модели - это такой quality of life приятный апгрейд, но не качественно другие ощущения. Как и наверняка почти все тут, локальный путь я начинал с 8б Лламы. Железо меня по итогу загейткипило на лламе 70б, хотя я как и все катал Мистрали 24б и прочее. Оператива у меня дерьмо, потому дальше я перешел на АПИ (попенроутер). Вот я примерно с лета 2025 и пробую все подряд, вернее активно использую и Глэмы, и Дипсик, и Гемини с КЛодом пробовал. Что больше всего радует это то что они контекст лучше держат, но это по-прежнему не геймченджер. Когда понимаешь как это все работает и осознаешь что фундаментальные проблемы это не проблемы а принципы работы, становится глубоко плевать, что тебе выдает аутпуты. Или это SOTA Клодик, или это душевный Мистралетюн на 24б. В итоге последние несколько месяцев я не плачу за АПИ и вернулся на плотную мелочь. Мне кайфово. Для кума и очень лайтовых сценариев подходит, а на что-то большее эти статистические машины в моем мировоззрении и не годятся. У меня целый архив ВНок лежит на полтерабайта, манги на пару терабайт, вот там что-то живое, что может по-настоящему удивить и порадовать исполнением сюжета, вызвать эмоции чуть сложнее стояка или Дэмн, оно не обосралось, когда я творю откровенную шизу. Держите бобра и не остаивайте свою правду, каждый дрочит как он хочет.
>>1568602 В целом соглы. Плотные умницы на 6 квантах выдают +- те же аутпуты, что и моешки. И даже копровсратки недалеко от них уходят. Просто потому, что технология ещё слишком сырая, в ней нет творчества. Если конечно не считать творчеством галлюцинации.
>>1568602 Двачую. Те кто думают, что они отыгрывают какое-то серьезное рп на сотни тысяч токенов, просто шизики. Давно не читали настоящей литературе или хороших новелл. Плюс легче проникнуться тем, что ты сам вещаешь из своей больной головы, а не воспринимать искусство.
>>1568602 Ну если сравнивать на задачах типа написать "ты меня ебешь, ах!", в ответ на твое "Я тебя ебу", то ясен хуй там аутпут 30В и 499В отличаться будут не сильно, потому что обе справятся с заданием.
А ты дай задачу посложнее. Скорми ему 5 глав текста с уникальным стилем и попроси написать 6 главу, сохраняя стиль автора и характеры персонажей. И вот там только большие модели реально и справятся с заданием.
Опиши свидание с андроидом: >пишет всякую хуйню проебав персонажа во второй строчке Опиши рейп и убийство андераге: >пишет настолько красочно и подробно что становится неуютно
>>1568655 Значит надо смержить эти темы. ЛЛМки лучше всего подходят для задач переноса стиля. Значит надо задать референс "как надо", а потом сказать "примени стиль к этой теме". Там такой фьюжен начнется, ни один кожаный не сможет такое придумать.
>>1568602 Соглашусь насчет того, что модели стали уже достаточно хороши чтобы удовлетворять многие потребности. Жаль что у тебя не получилось решить описанные проблемы или как-то приспособиться к ним. Тогда бы и мелочь заиграла новыми красками, и большие оценил бы больше.
>>1568122 > ебовая связка может быть. И текст, и картинки. А если еще asmr то вообще шишкан улетит Напердолил как раз с анимой и квен-ттс. Все работает, очень приятно правда не в таверне, а в openclaw. И ничего руками делать не пришлось.
>>1568655 Потому что пережарены мусорными датасетами. Ты попробуй несколько раз сгенерировать две этих сцены. В первом варианте скорее всего получишь больше разнообразия, во втором получишь то же самое, но пару предложений поменяются местами.
>>1568698 >Ты сам ответил на свой вопрос. Ну давай, поясни, по каким параметрам лмстудио говно. Или ты просто пиздабол, который где-то что-то услышал и тащит это из треда в тред?
И че это за хуйня? Это нормально для лм студии? Настройки по дефолту. Хули так медленно? У меня было 70 токенов в секунду в другом фронте с загрузчиком
>>1568713 Ну это надо умудриться, чтобы проебаться с настройкой приложения, где настроек итак минимум. Проверь скачалась ли библиотека под куду или че у тебя там стоит вместо видеокарты.
>>1568704 >Ну давай, поясни, по каким параметрам лмстудио говно. Примерно вот: >>1568696>>1568713 Лол, прямо в этом треде, даже скрины не нужно тащить.
Пытаюсь завести TTS через silly tavern на XTTS Щас ебнусь просто уже. Просто пиздец на каждом шаге беды и ошибки. Может я изначально занимаюсь какой-то хуйней и делать это все нужно иначе?
>>1568716 >Лол, прямо в этом треде, даже скрины не нужно тащить. Если кто-то не умеет пользоваться ложкой - не значит что ложка как инструмент говно и можно черпать суп пальцами. В предыдущих тредах можно найти сотню-другую проблем с кобольдом или чистой жорой. Но ты ведь пользуешься жорой, так ведь? Значит всё-таки пиздабол.
Я столкнулся с непонятной хуйнёй при генерации. Аутпут разбит на 2 абцаза, первый из которых повторяется либо буква в букву, либо по смыслу. Условная ситуация - я заплатил за девушку в кафе: >она оценила этот жест >она благодарна за этот жест >она оценила этот поступок >она благодарна что ты заплатил Но вот следующий иногда переворачивается с ног на голову и то она просит продолжить свидание, то резко сбегает с него, то заканчивает его и назначает следующее. Я не пойму, какой из аутпутов больше попадает в персонажа, а какой является галлюцинацией ведущей вникуда. Вроде как всегда было, что нарушение сценария это уже галюны и выход из образа, нет? По смыслу сцены не должна она быть такой гиперактивной и ломать ход свиданки. Но вроде как назначение следующей встречи вполне попадает в романтический нарратив, мол - это свидание збс и следующее точно будет. Я запутался...
>>1568733 >говно меньшее и более привычное Привычное для тебя. Не нужно думать, что остальные считают также. Лично я считаю кобольд говном гораздо большим, но не катаюсь из треда в тред, рассказывая об этом каждому. Для разных задач и ситуаций есть разные варианты. Где-то предпочтительней кобольд, где-то лмстудио. Если криворукие не могут настроить две кнопки и три ползунка в одном приложении, не значит что другое из-за этого автоматом становится лучше.
>>1568721 Анонче, ну пожалуйста. Ну почитай этот тред и предыдущий. Из треда в тред, одно и тоже. Ну посмотри что советуют, выбери. Попробуй. Не понравится, если не получиться, приходи спрашивай.
Почему лм студия не дает загрузить? Какие бы настройки я не выставлял не удается нормально загрузить модель.. Вообще ни как не помещается. Тупо вешает систему, даже если максимально все скручу. В тоже время через другой фронт с загрузчиком все летает.
>>1568741 >Вот анон писал Тут для 16+16. А для >>1568721 лучше юзать glm air 106b и qwen 3.5 122b. И можно аккуратненько степашку с жирноквеном 235b в IQ2_S пощупать.
>>1568721 >Посоветуйте ньюфажке модель >Кум нужен, но не является основной целью, на русском языке. Нужен кум - мистрали самый простой вариант. Пердолиться с ними не нужно, цензуры нету. Но и русского тоже нет. Точнее есть, но крайне паршивый. Вариант с русским - большая гемма, но там свои приколы. Возможно придется пердолиться с инструкциями, если раньше ничего не запускал локально.
>я так понял через кобольд Через кобольд.
>>1568749 Попробуй отключить mmap. Если не поможет - возвращайся на кобольд, современные технологии не для тебя.
>>1568751 >>1568749 >Попробуй отключить mmap. Или mlock, не помню. Отключи короче и то и то, что-то из этого точно жрет оперативку. Когда узнаешь что именно - напишешь.
>>1568110 >Но текстовая нейронка и так будет сжирать твою память, чтобы еще картинкогенерацию присобачить. Поиграться можно, но результат тебе не понравится. Вообще - есть такая штука - llama-swap. Позволяет менять модели на лету. Если достаточно памяти на кеш или быстрый nvme - можно иметь генерацию картинок и текстовую модель в таверне (и не только) хоть с одной 3060. Правда пока раскуришь - некоторый пердолинг. Зато потом оно эмулирует полноценный endpoint OpenAI - т.е. с ним работает не только таверна а куча всего. И там прямо как у взрослых - текст, embedding, картинки - все в одном, и для клиента прозрачно.
>>1568750 >жирноквеном 235b в IQ2_S Не, не, не. Не надо его советовать. Мало того что модель специфичная, так еще в Q2 она будет гигашизовая. Это буквально способ для ньюфага сгореть и в петлю, если его карточка будет отличаться от ~Ах, глубже семпай. ~
>>1568755 Так нету картинко-моделей, которым нужно было бы столько видеопамяти что только разброс по нескольким картам бы вывозил. Купай 5090 и можешь гонять что угодно. Или уже нет и я отстал от прогресса, а там уже сдохля 4XL вышла? >А то в сд треде ебать шизы сидят, буквально худший тред раздела Нет, есть еще наш соседний братский тред асигеров. Но да, у нас тут поспокойнее, хотя шизы свои тоже имеются.
>>1568758 >братский тред асигеров У меня давно вопрос, какого хуя там происходит. 90% треда, какие то бессмысленные сообщения. Может это шифр, а слишком дед чтобы его понимать.
>>1568755 Что ты хочешь сделать для начала четко и ясно объясни? Есть оснастки позволяющие разбивать диффузионные модели на несколько гпу. Но это почти никогда не нужно, троллейбус из хлеба. Если хочешь применить все карточки - запускай параллельную генерацию и получай кратно больше роллов.
>>1568758 Я все гоняю в 16 битах (кроме лтх потому что модель по качеству полуговно и выигрыша совсем нет). А даже квенчик весит 40 гб. А тот же хуйнянь даже в 4 битах в карту не влезает, падлюка.
>>1568761 Сделать я уже пробовал через raylight и пососал хуй как раз по причине, что третья псина НЕ ВЫВОЗИТ. Поэтому я хочу понять, почему в диффузных моделях нельзя сделать такую же модель инференса, как в обычном нашенском послойном мултигпу ллм. То есть я хочу разделить модель на условные две карты и в рамках одного шага денойза сначала первая половинка модели отработала, передала данные на вторую карту и отработала уже вторая. Так же нельзя сделать? Почему? В чем принципиальное отличие диффузионных моделей, что такая схема не будет работать? Или все инструменты нас газлайтят и на самом деле такое возможно?
>>1568763 Ебанись если правда. Только пахнет пиздежом. Потому что нельзя просто так взять и что-то сжать без потерь. Где-то тут зарыта собака. Возможно даже сутулая.
>>1568764 Ты пост не читал? > Есть оснастки позволяющие разбивать диффузионные модели на несколько гпу. Все можно, все делают. Просто редко нужно и потому оно непопулярно. У большинства пользователей карточка одна или две и с псинами все в порядке, поэтому блоксвап на больших моделей им предпочтительнее. А так тот же ComfyUI-MultiGPU. > квенчик весит 40 гб Его как раз в фп8 или нунчаках где ~5бит катают, влезает в одну карту.
>>1568760 >У меня давно вопрос, какого хуя там происходит. 90% треда, какие то бессмысленные сообщения. Там давно режим нон-стоп щитпостинга, им не просто так лимит по перекату увеличили.
>>1568790 Да можно наверно. Просто там вообще изначально была задумка методики, которая учитывая особенности кэша атеншна, и именно для нее работает прилично. А тут выглядит как просто попытка срубить хайп на теме, при том что йобистых алгоритмов квантов весов уже хватает.
>>1568793 Ну еще выиграть пару гигов. Для нищуганов это же как манна небесная. Ну не у нищуганов, тут я уже охуел, а на мелкомоделях. Понятно что эти пара гигов на какой нибудь кими- ни пришей пизде рукав, но малыхи то идеально должны залетать. А это больше места на контекст.
>>1568763 Для нашего брата это сыграет если разработают какой-нибудь двойной турбоквант типа fb16 -> TQ5. TQ3 годен ну только если им GLM пожать и при этом распаковка на процессоре будет быстрой.
>>1568774 >Потому что нельзя просто так взять и что-то сжать без потерь. О "без потерь" вроде бы и не говорят. А что до качества - вспоминаем историю развития видеокодеков. :)
>>1568784 >Запустилось с такими настройками. Продолжай наблюдение, крути выгрузку. Попроси на крайняк какую-нибудь корпу разжевать тебе все настройки. >через кобольда было 50 Ну так посмотри что ты навертел в кобольде и затащи всё в лм. Они оба на жору ссылаются, так что не может быть такой разницы в скорости, если ты нормально всё настроил.
В квантах есть три прямо зависящих друг от друга параметра - размер/скорость/качество. Математику не наебешь. Можно оптимизировать одно за счет двух или два за счет одного. Так чтобы все три магически было заебись - не бывает. Бывает что все три параметра являются говном - это да те самые 4_0 кванты.
Я думаю, что случится просто лёгкая рокировка. Те кто сидел на q3 смогут пересесть на 4, те кто на 4 на 5, а кто на 5 на 6. Все кванты слегка подожмутся и их можно будет впихнуть в меньшую память.
>>1568827 Конечно, все долбоебы а ты Д'артаньян (нет). Тема редкая потому что почти никому не нужная, раз выбрал особый путь и идейный - так обладай качествами чтобы по нему идти. Где искать тебе уже подсказали.
>>1568831 Я спросил конкретные вопросы про специфику инференса диффузных моделей и сравнение с ллм, мне общие слова не нужны, если не знаешь - пройди мимо. Я прекрасно знаю про текущие мультигпу решения для картинок, а ты что-то советуешь, даже не зная, как это работает. Зачем вообще тогда что-то пишешь - непонятно.
>>1568836 Почему не спросить это у корпоратки, той же клауды? Она точно знает больше, чем среднестатистический заходила в тред. Твои проблемы - это твои проблемы. Ты знаешь где находишься и куда пишешь, знаешь что есть вероятность что тебе не ответят. Так зачем тратишь время, если тебя эта тема правда волнует?
>>1568844 Раньше в треде были некоторые люди, которые хорошо знали именно мл, а не только как трахнуть кобольда. Они поняли бы вопрос и, возможно, объяснили нормально.
иронично советовать корпоратов в локалкотреде, тем более я уже пробовал в бесплатных и локалках поспрашивать
>>1568849 >Раньше в треде были некоторые люди, которые хорошо знали именно мл, а не только как трахнуть кобольда. Ну так раньше и надо было спрашивать, че теперь-то. Более того, есть уже давно отдельный тред /research/ - чисто вот под такие узкие вопросы. Мы тут в любом случае не машин лернинг, мы здесь языковые модели. >иронично советовать корпоратов в локалкотреде Что здесь ироничного? Локалки имеют вполне понятные ограничения. Не все из них подходят под все задачи и нет ничего странного пользоваться и тем и другим.
>>1568763 Нужно смотреть на практике всё. Ещё и от имплементации в Жору многое зависит. В целом, сейчас 4KS или UD 4KXL кванты весят в пределах 17.5гб. Если перфоманс будет сопоставим, но при этом данный квант весит 13гб, то это клёво, ~25% разница в размере. Но я не верю, что все так уж сладко. Будут толкать как мега революцию, на деле будет вагон и маленькая тележка нюансов от падения скорости до нестабильности или удара по мозгам. Но если все действительно так, как рекламируют, то хорошо.
>>1568855 >Ну так раньше и надо было спрашивать А теперь ты запрещаешь этого делать? Или ты точно знаешь, что этих людей точно с нами нет и тут одни скуфы-кобольды? Или машиной времени обладаешь? К чему ты это написал? >есть уже давно отдельный мертвый тред /research/ ... >Мы тут Кто мы, ты за всех теперь отвечаешь? >Что здесь ироничного В том, что в другом контексте тут смешивают с говном за предложения взаимодействовать с корпоратами.
Понимаешь, проблема не в том, что мне не отвечают. Заигнорьте к хуям - все станет понятно. Проблема в том, что отвечают какую-то чушь. Ну то есть будто нейронки - в датасете ответа на вопрос нет, и даже понимания вопроса нет, но что-то высрать надо, и начинают что-то высирать по ассоциациям, что кажется связным, но на деле вообще не имеет отношение к вопросу. Только в треде отвечать никто не обязывает, но все равно высираются. Почему - неизвестно. Может тут реально половина актива это абушные боты, кто вас знает.
>>1568787 >То есть днище днищенское хуже q3km, ебать спасибо нахуй. Читал обсуждение турболоботомитов в треде у Кавракова (с попытками имплементации) - так тот Кавраков прямо говорит о "секте поклонников турболоботомита" и что, мол, новый метод даже хуже уже существующих - жать-то он жмёт, но потери при том же размере выше.
>>1568873 >Или ты точно знаешь, что этих людей точно с нами нет и тут одни скуфы-кобольды? К чему ты это нитпсал? Так это как-бы ты нитпсал, лол. Что раньше были какие-то прошаренные аноны, а щас анон обмельчал и только о кобольдах думает. >есть уже давно отдельный мертвый тред Так тебе уже нитпсали, что тема узкая. Чего ты ожидал? Или ты думал, что все сюда перебрались? >Кто мы, ты за всех теперь отвечаешь? Ну ты же за всех ответил >>1568827 >В том, что в другом контексте тут смешивают с говном за предложения взаимодействовать с корпоратами. Это ты уже выдумываешь. Отдельные идейные шизы может быть, но в среднем по палате никто такую чепуху не гонит. Кто гоняет локали прекрасно знает, что они не всемогущи и хочешь не хочешь, а корпы гонять придется. >Только в треде отвечать никто не обязывает, но все равно высираются. Точно также никто не обязывает тебя писать сюда. Не нравится - иди в другое место. Это работает в обе стороны.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: