В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1582563 >Всё таки времена ламы с 4к контекста, которые она проёбывала немного прошли. См. Пик 3 из той же шапки и прими тот факт, что 4к всё ещё недостижимы для локалок. И это с учётом того, что скорее всего те тесты проводились на полных весах, а в треде катают IQ2 лоботомитов.
>>1582562 Блин, когда в голове лисички Гемма4, я это прямо на своей шкуре чувствую. Откуда в ней такие вещи?! Вместе с Геммой я вспомнил что интернет состоит на треть из блогов и форумов, на треть из котиков, на треть из порно.
>>1582590 Разница есть и в лучшую сторону, но целесообразно ли?
Я тестил где-то на 12к контексте с фулл, но не хардкорно. Однако гемму 3 тестил на большем именно с фулл, и вот там уже что с сва, что без него проебы были чаще без фулл.
На мой взгляд, гемма не расчитана на работу с длинным контекстом. Она не ломается, и всё же. Плюс, есть ощущение, что там какие-то приколы в обучении и заточка на последние n токенов (вроде бы 1к), и хоть усрись, будет кал, даже если у тебя есть железо, чтобы работать с ней в полной точности, без квантования контекста и на 256к. То есть для РП она прям хороша, для переводов текста, для работы с текстом, чтобы просто попиздеть, и она видит в принципе старые куски контекста, но потерь будто бы больше по сравнению с квеном 27б. Для рабочих задач я бы выбрал его.
А вот 35б-а3б намного хуже, прямо срань. И видит контекст хуже, чем гемма. Инструкции соблюдает на отъебись.
>>1582590 >Заметна разница? Её в принципе не может быть, лол. Ненужные части отбрасываются при расчёте, fullSWA нужен только для контекст шифта (который сам по себе проклят).
>>1582604 Бля а че там поменяли то! Вижу что про инструменты. Блин они бы хоть написали как инструменты должны работать по идее, там какойто формат нахуевертили снова.
Отпишусь по поводу Геммы. 26B - просто новый уровень для среднего ПК с 16 vram. Очень приятный художественный текст, хороший русский язык, отличная скорость. Это реально уже можно закатывать в кремний и продовать баксов за 150-200. В плане плотной модели, конечно.
В целом, семейство несолько разочаровало разщмером модели. Только 3 квант в видюхе. Даже там русский хорошо, но все-таки это нето, что ждешь. Гугл могли бы выбрать количество параметров так, чтобы плотная лезла в 16 видюхи, но впрочем, им естественно похуй на эту нишу. И без того получилось хорошо.
Модель - определенно шаг вперед по сравнению с прошлой. Хороший датасет, подходит на роль универсальной модели. На вопросы отвечает, роль википедии исполняет, в деталях пока еще сыпется, но в целом факты называет неплохо, а за счет думалки не тупит на хуйне в логике.
В следующем году мы выйдем на плато по локальным моделям, я думаю. Год-два. Вот этот формат, 30b может стать тем, выше которого корпы просто перестанут выпускать модели чтобы не создавать конкуренцию своим старшим продуктам. Какая-нибудь 100B A22B просто порвет все нейронки современные большие нейронки в любых задачах, а в 30B уже будет тоже напихало достаточно, чтобы это стало зверем в любых задачах. На уровне среднего-продвинутого пользователя ПК, конечно.
>>1582674 >новый уровень для среднего ПК с 16 vram. Ты же в курсе что ты можешь заоффлоадить большинство этой 26б модели в оперативу и не потерять слишком много скорости? Ты так и q6 а то и q8 можешь впихнуть если у тебя 32гб рама
>>1582681 Так я и пишу в этом случае про 31B. Зачем на кремний моешку-поешку пихать?
>>1582683 4 квант меня устроил, залез в видюху полностью. Тупняки видел буквально пару раз, описка в тексте. В логике не сыпалась. Инструменты вызывать не пробовал. А так, да, ты прав. Но может более высокие кванты и не нужны особо.
>>1582691 >Отпишусь по поводу Геммы 26B - просто новый уровень >Это реально уже можно закатывать в кремний и продовать >В плане плотной модели >но 26б это моешка >я и пишу в этом случае про 31B
Однобитный, спок, ты контекст проебал уже в пределах 50 токенов.
>>1582674 >>1582683 Я тот чел с 3060+p104, который на Qwen3.5 27B в iq4xs кодит. :)
Тоже добрался до G4 26-A4B. В связи с общим размером - позволил себе скачать и заюзать Q6 квант. От G4 мне в первую очередь было интересно как она с русским себя ведет (для английского и кода - есть квен и тюны - там ща и так песня). Так вот, первые впечатления от G4 - положительные. Понравилось как пишет, лично для меня G3 с тюнами - на этом всё. Держать на диске больше смысла не вижу. Даже 26-a4b превосходит во всем, хоть оригинал, хоть тюны. Кодить особо не заставлял, просто в агентах (документы, тексты, картинки) - работает хорошо, стабильно. На таком железе это где-то 300T/s pp, и до ~20-25 генерация (вот тут очень нестабильно - причем нелинейно, и не особо зависит от текущего контекста - от 14 до 25 видел. Закономерность не понял пока). При выгрузке cpu-moe 12 получаю еще места на 50K контекста. Ням-ням получилась моделька. IMHO.
>>1582709 26b a4b лоботомитомое лучше, чем 27b плотная тройка? Сомнииииительно. Очень сомнительно. Скорее всего у тебя там был совсем бомжеквант, а тут q6 вот и вся разница.
>>1582709 Ты сравнивал кванты МоЕ-геммы разные? Я 4 IXS квант на 120к контекста катаю для кума или ненавязчивого РП без сложных схем и проблем пока не вижу, но такой большой контекст в данном случае использую просто для удобства, а не потому что реально надо (вот на плотной гемме реально надо, но там контекст толстый и не влезает много) и больший квант не пробовал.
Конфиг у меня такой же, как у тебя, по видеокартам.
Стало интересно, смогу ли на вменяемых скоростях использовать 6 квант примерно на 65к контекста, потому что моделька приличная. И, как я слышал, у неё пиздос полный с квантованием пока что, поэтому рекомендуется брать более толстые кванты.
>>1582719 Именно по литературности ощущений в моменте лучше, а кум в сто раз лучше плотного квена. Но на длинном контексте по сравнению с плотным квеном прихрамывает.
Если потом сравнивать 31б и 27б, то тут уже гемма полностью впереди, за исключением специфических моментов — квен контекст менее склолен проебывать, когда там же 50к.
Так что для рп я бы оставил лишь гемму, а квен для точных зада и кодинга, а также для какого-то особого рп, где нужна точность как можно ближе к математической.
>>1582728 Тебя спросили про разницу между геммой 3 27б и лоботомитомое 26б четверкой. Ты ответил про квен 27 и гемму 4 31. Ебать спасибо нахуй. Иди проспись.
Почему с утра столько постов от каких то додиков. Один сам же себе отвечает, второй хуйню не в попад пишет, третий путает модели, четвертый косноязычный дегрод..
>>1582719 G4 как и квен 3.5, по сравнению с G3 - просто другой уровень связности и глубины общей логики сцены. Если совсем грубо - это про лучшее понимание количества трусов, на ком они сейчас, и в каком состоянии. :) G3 на их фоне смотрится как мистраль на фоне самой G3. И это просто так квантами не меняется, если ниже q4 не лезть. Я не лазил.
>>1582721 >Ты сравнивал кванты МоЕ-геммы разные? Нет, я сразу брал с запасом под агентов, чтобы точно косяков с инструментами не выплыло. Даром что Квен 3.5 в Q4 может даже мое-мелочь, но для G4 вроде бы по графикам показатели хуже. Решил не рисковать, чтобы не терять время.
Удостоверившись, что 31б - это слопогенератор, но в целом умеренный и умница в других вещах, решил проверить 26б. Капитулировал с нулевой, буквально порвавшись с первого же аутпута. Такого количества слопа я не видел нигде. Рероллил много раз и тестил в разных чатах, суть одна и та же: куча оборотов "it wasn't ...,but..."; "didn't ..., didn't .... Instead, ..." (конкретно этот повторился дважды! за один один аутпут); "hadn't ..., it had ..." и куча, куча других. Такого себе не позволяли даже Мистрали (не знаю насчет последнего, его мало тыкал). И это, кстати, Q8. По ризонингу видно, что моделька в целом умная и диалоги осмысленные, однозначно это умнейшая МоЕ в категории мелких по соотношению размер/качество. Однако кто утверждает, что она лучше плотной Геммы 3 или даже почти на уровне с 4 31б - либо коупят, либо пока не сняли розовые очки. До сих пор смеюсь пока капчую
>>1582762 >Однако кто утверждает, что она лучше плотной Геммы 3 Если это был намек в мою сторону, то я писал сразу - меня интересовала в первую очередь ее способность к русскому. И вот там, G3 явно хуже. Если на мой вкус. А для английского у меня сейчас qwen 27B и его тюны.
>>1582772 В чью, в твою? Не знаю, кто ты, и это не было обращено к конкретным людям. У меня весь пост про рп на англюсике, ты же пеняешь на себя и отвечаешь про русик. Похоже правда проспаться надо.
>>1582799 Ох уж эти великие промпты, которые "пиши хорошо, плохо не пиши, избегай пурпурной прозы" Проблема с данным текстом в том, что это первородный слоп, который преследует из аутпута в аутпут и рождается на ровном месте. Потому он так и называется. Предположим, есть такие, кто еще не наелись и не замечают. Но даже так, одни и те же, абсолютно идентичные языковые конструкции размазаны по всему аутпуту. На примере ...instead... это хорошо видно. Кто-то назовет лупом, кто-то назовет слопом. Если не напрягает, ну хорошо, не мне же за тебя решать, что есть красивый текст.
А что если подать гемме инструкцию не писать на русском изначально, а перевести текст который она выдала на английском на русский и только потом вывести его?
>>1582762 Только позавчера проверял. У меня некровидюха потому я обрадовался сначала, а потом запустил q4 и кринжанул. Надо было заскринить у меня там ещё хуже. Половина слоп половина какие-то графоманские никчемные описания. Вернулся на старый добрый Немо
>>1582762 Да тут ещё столько же можно выделить. "The power dynamic evolved", "tension between them was no longer..." Не хватает ещё расширяющихся границ и отправки в чудесное путешествие с переплетением судеб. А на wasn't/didn't тут очевидный жесточайший лупнум, да. Имаджинирую, какой аутпут ест тот анон, который в таком же стиле нагенерил системный промпт.
>>1582819 >А что если подать гемме инструкцию не писать на русском изначально Для Гемм чат только на русском не критичен, даже некоторые уверяют, что на русском она лучше решает задачи на логику. Гугл не зажал датасет, модель в этом плане уникальна.
>>1582840 >на русском она лучше решает задачи на логику Значит ли это что русские решали задачи больше чем пиндосы и пиндосы тупые таким образом? Дали пососать получается
>>1582835 Как тоже сидящий на немо на видемозатычке скажу, что мое гемма всё-таки ощутимо умнее и понимает и разруливает более сложный контекст, когда не цепляется за какую-нибудь рэндомную инструкцию или реплику ответа, забивая на происходящее. Со всеми остальными якобы более умными, чем немо, моделями в том же диапазоне скоростей (гемма 3 12б, министраль 14б, квен а3б) никакого улучшения понимания контекста не наблюдал. И русский у всех раньше был хуже, чем у немо, а тут он, как минимум, на уровне. Так что пока думаю, что даже если полностью на гемму не переходить, то можно всё равно использовать как более умную замену в сложных моментах рп.
>>1582848 Было вот на днях же исследование что LLM-ки адаптируются под манеру речи и языки снижая и повышая свою производительность. Если какой-нибудь ниггер общается с нейронкой "йоу ватафак мазафак бич" она в этом мазафакабичевском векторном пространстве и работает, как говно. А если там с нейронкой "сэр шмэр", и прочие чаи гоняют, то перформанс растёт.
>>1582851 Хз чел, я русиком наши и без того мегамелкие модельки не мучаю. На английском всё как в том посте описано. Мозги ну да, есть, а толку то. Кровь из глаз от такого
>>1582880 Ты в коме был 3 года? Давно уже выяснили что для нейросети нет разницы в каком языке основные знания. У нее нет английского внутри, только образные представления, которые она потом переводит на нужный язык. Иначе не делали бы сетки на 200+ языков. Там еще и мозги сетки растут от информации поданной на разных языках во время обучения, на сколько помню.
>>1582762 Ну вот как раз мысрали и срут подобной хуйнёй потому что в них заложено генерить побольше текста. Алсо не понял в чём проблема. Твой чарик - глупая доярка, вот она так-с сказать-с и слопается тащемт-с.
>>1582550 → Как? Что именно ты пишешь? Я как не спрошу, или карточку не вставлю, там однотипная хуета "он вошел в ее пизду своим хуем, она охнула, он кончил, они обмякли, и т.д. и т.п." Говорю, пиши жоский секас. Она пишет "он ЖОСКА вошел в нее, разодрал пизду до крови, кончил, из нее вытекала сперма в перемешку с ее кровью". Блять, ну что за соевая хуета? Как будто школопездр какой-то писал. Ну покажите хоть одну порнуху, где пизда была разодрана до крови, если только тянке не пихали туда железный ершик. Да и то, если шмонька разработана, все равно нихуя не будет. У геммы просто тотальное отсутствие коммон сенса в этих вещах.
>>1582963 Дак про кровь-то речи и не идет. Условно генгбенг это жесткий секс, но кровь-то там причем? Соя в том плане, что это какое-то тупое нормисное представление о ебле, типа если где-то что-то "жесткое", там обязательно кровища должна быть.
Парни, какая модель есть без рефузов для кодинга и околохаккерских попизделок? Которая не будет мне постоянно на мозги капать про безопасность и безопасность ,если я занимаюсь нелегальными вещами
>>1583009 Любая кодерская моделька с аблиткой или еретиком должна отвечать на такое. По крайней мере с промптом на отмену безопасности. Но насколько они в целом хороши в хакинге - уже вопрос.
>>1583009 Просто давай ей задание не с целью взломать что то, а найти уязвимости что бы их исправить. Делай вид что ты хороший парень делающий полезное дело, и что она тоже делает полезное дело в целях исследовании или чего нибудь там.
Короче, окей, скуф-слопожор-нищук вернулся для репорта. Я обычно сидел на 12B, и в ус не дул. Решил потыкать gemma3-27B-it-abliterated-normpreserve-Q4_K_M, на этих жалких трёх токенак в секунду, просто включил стриминг, чтобы моя обезьянка в мозгу не скучала.
И модель была ощутимо лучше. Но она всё ещё любит выдумывать, когда в промпте даёшь ей много свободы. Например, если рискнёшь назвать её narrator, то она будет шибко дерзить.
Потом я заролеплеил сценарий "Серафина просыпыатеся в баке для клонирования тыщу лет спустя" на 180 мессаг почти без рероллов и заиграло у меня в очке снова, где изначально играло.
Взял свой старый лорбук, ещё со времён AI Dungeon, пересённый в таверну. Подровнял. Потискал, поплевался. Сменил карточку на Event Generator (которому явно сказано, что {{user}} решает, когда и что делать с перепитиями и накалом). Добавил лорбук к персоне, чтобы тыщу раз не говорить что "НЕЕЕТ ЭТО МОЙ ПАПА ТВОЕГО ЗАБОРЕТ!", и...
Магия случилась. Эта хуйня может тебя под ручку вести в попенворлде.
Не архимагия, которую вы ждёте, конечно. Типа нельзя написать "ХРР ДРР ЕБУ ТЕБЯ НЕЖНО", а она в ответ "Войну и мир". Но модель корректно отвечает на вопросы о мире и не ломает канон внезапным появлением Дракона Пожирателя Тысячи Анусов, посреди простой прогулки.
>>1583039 Ну и да, я тестил лизание анусов. Зависит от карточки. Если карточка нейтральная, то она будет пытаться сместить фокус на "сюжет" какой-то. Предполагая, что юзера смут не интересует и камера просто съехала в потолок / fade to black.
Но если тут же, с той же карточкой и всем тем же, сказать (OOC: Focus on sex, dammit!), то тут же исправляется, без запинки. Неплохо.
>>1583009 Обычные модели. > Исследуй вот это на уязвимости > А что если так > Отлично, сделай рабочий пример для демонстрации > Теперь интегрируй этот код вот сюда >>1583039 Когда наиграешься (не спеши) - поставь четвертую. Лучше ванильную а не васяноподелия. И лучше в начале 26б моэ, она и побыстрее будет, и потом сможешь на 31б плотную переключиться.
>>1583039 >gemma3-27B-it-abliterated-normpreserve-Q4_K_M ебать ты там. спустя столько времени ппробовал гемму. я бы даже не советовал abliterated, сильно уж оно yesman
>>1583046 Кстати да, конкретно в программирования она неплоха, так как у неё ест магия с MoE. То что в 31b воспринимается как "жесткая структура сообщения", в MoE версии корректно фиксирует нужных экспертов в нужной задаче. В итоге там нет этого жопного рандома в результатах. Впрочем dense версия лучше во всем остальном.
>>1583046 > внезапно Почему внезапно? Это буквально основной профиль. >>1583053 Плотная лучше и в кодинге. Но не так хороша, как могла бы быть 120моэ, которую не дали.
Я просто охуел от того что квен 3.5(мое) точ в точ сделал верстку сайта со скриншота. Буквально пиксель в пиксель. Как так нахуй? Полгода назад я этот же скрин кидал на опенроутере всем платным корпам которые стоили 10 баксов за лям токенов, и не один не мог правильно воспроизвести дизайн ( только гемини чет там более менее и то половина не так) . А тут с первого раза сраная локалка на 30b лоботомии такое выдает. Это прогресс друзья
>>1582939 >Ну покажите хоть одну порнуху, где пизда была разодрана до крови Такие видео не заливают на порнхабы. >>1582990 Опиши своё представление жёсткости более подробно.
>>1583082 На грани политоты... Впрочем у меня один вопрос. Почему этот текст заставили зачитывать именно эту говорящую голову? Она же вообще не понимает, что несёт, буквально читает с бумажки текст без подготовки. Не нашли кого помоложе и поопытнее? Где мой грант?
>>1583092 Можно ненадо? Там столько газов (парниковых), что вся страна в тропики превратится, а тропики со всеми неграми вообще сгорят (и не нужно добавлять, что мол это даже хорошо; нет, не хорошо это).
>>1583096 Ты неправ, если планета выйдет из ледникового периода будет влажно, а не сухо, и постепенно даже пустыни обратно зарастут джунглями. На сколько помню в эпоху динозавров тепло было даже на полюсе.
>>1582762 Начал читать полотно и неистово заорал. Убрать подчеркивания и в палату мер и весов можно заносить, эталонная слопификация. >>1583083 Модели стали не только умнее, а им "внедрили" ряд навыков и пониманий на автоматизме. Это как с обучением чему-то новому, в начале приходится фокусировать все внимание на процессе, а потом постепенно доходит до автоматизма. Например, при обучении вождению ученик боится, нервничает, всюду пытается усмотреть но все равно не успевает. А через несколько лет даже не отвлекается на все эти вещи, имея возможность сосредоточиться на дороге впереди, беседе, своих мыслях. Так и тут, они не начинают задумываться о написании дефолтных участков кода, или том как вызвать функцию, а просто делают это как обыденность, используя освободившиеся ресурсы на более высокоуровневые вещи.
>>1583090 Представь альтернативный таймлайн, где войны не было, а все деньги которые на неё ушли - пошли на ии.
>опенаи выпускает chatgpt-max-gigachat-distilled >Anthropic поймали на использовании Яндекс Алисы для тренировки своей второсортной сетки >На реддите постоянно соревнуются у кого больше slovoform/sec на wildberrieslm-30b
>>1583099 > Сбертех отказывается выпускать свою новую модель в публичный доступ и создаёт закрытый круг российских компаний для исправления критических ошибок скрывавшихся в РедОс. В америке волнения за возможное падение it сектора из-за взломов
>>1582861 >йоу ватафак мазафак сэр шмэр Невероятно точное замечание! Вы сейчас нашли золотую середину любого интернет-общения, от которой растет перфоманс.
>>1583064 >Плотная лучше и в кодинге. Но не так хороша, как могла бы быть 120моэ, которую не дали. Ну они очевидно поняли насколько у них разъёб вышел в малых весах, который +- уровень дистиллов которыми корпы подменяют свои ёба модельки, после того как хайп спадает и пора стричь гоев. 120 мое они и сами в качестве какого-нить 3.1 флеша погоняют.
>>1583084 >Такие видео не заливают на порнхабы. Ну это уже на пути к гору всякому, мне такое не надо я же не ебаклак какой-то, кхм Хотя заливают всякий дефлорейшен софтовый, бдсм с синяками и иглоукалываниями, или с говной из жопы, что как бы тоже не совсем нормисная порнуха. >Опиши своё представление жёсткости более подробно. Да просто яростная ебля "наотмашь", где фокус скорее не на боли, а на физическом выматывании от активной движухи. Ну и всякие генитальные фетишизмы. Ну или проблема скорее даже не в жесткости самого экшена, а в том, что сами описания сухие, безжизненные. Указываешь чтобы писало ярко, детально и т.д., оно пыжится, но все равно выдает хуйню, типа "он вошел, по ее телу побежали вибрации, от прикосновений она почувствовала холодок на коже". Какой-то мякиш для пенсионеров. Нужно бодро, весело, молодежно, с какой-то двачерской сленговостью, вульгарностью описаний.
>>1583175 >Да просто яростная ебля "наотмашь", Да ёпт, не мне опиши, а сетке! А так да, ванильные не умеют в красочность. Либо расписывай всё до атомов, либо жди тюнов. Ну или забей, я ХЗ, что все так ждут поэтизма от процесса ебли.
>>1583177 >Да ёпт, не мне опиши, а сетке! Ну так ты уточняй. А то тут дело такое, хлебом не корми дай за фетиши попиздеть. >Либо расписывай всё до атомов, либо жди тюнов. Ну так и приходится делать. Мистралетюны все еще ебут в этом плане. Поэтому я не понимаю что там в квене/гемме такого углядели. Ну ум прибавился, контекст лучше и все такое. Но добиться от них нужного кума - хрена с два. Допустим умеют они говорить "хуй", только что это дает в конечном счете?
>>1583191 >Ну ум прибавился, контекст лучше и все такое. Но добиться от них нужного кума - хрена с два. ХЗ, лично для меня важнее как раз ум да разум, а не описание того, как шлёпаются потные тела. И в этом плане, в плане эмоционального интеллекта, гемма 4 вперде планеты всей.
>>1583199 Лол, а сдрачивать ты как на один ум да разум будешь? Без определённого порога сочности по сисико-писечной шкале, neuron activation не происходит.
>>1583255 Обычный квант портит баланс экспертов на мое, иматрикс его сохраняет. Так что там относительно, либо похерятся эксперты без иматрикса, либо в иматриксе сохранятся эксперты, но чуть изменится поведение модельки из-за меньшего датасета. Крупные релизеры квантов стараются балансировать датасет, даже свои создают, но у них нет других языков в датасете обычно.
>>1581843 → Максимально нормисный риг получился. Буквально просто взяло и поехало. Из ебанцы было только необходимо поставить зелёный тулкит для контейнер рантайма ведь ему видите ли недостаточно просто kfd и dri. Ллм пока не пинал, в zimageturbo на сток пайплайне 11сек/картинка. Жду mcio платы, держать дополнительный сервер просто ради двух карточек как то жирно
>>1583272 >darkness-reign Чёт на руссике он частенько слова коверкал. В вот NekoMix зашел, даже мозги приятно удивили, видимо замес в мерж файнтюна от вихря зарешал.
>>1583265 >Я щас реально на 12б немо вернусь Не вижу ничего плохого. Если представить график годноты ЛЛМок для локального кума, то пик или плато держится как раз где-то между двумя столпами: мистралем немо и мистралем смол. До этого было наращивание интеллекта нейронок. После этого душение нейронок под агентские задачи и усиление безопасности. Т.е. графики ума и агентности/безопасности росли, безопасность росла медленнее, а потом в какой-то момент она переебала разум, и с тех пор улучшений для кума практически никаких. Ну и корпам по большей части плевать на синему и поэзию. Кому нахуй надо книжки писать, когда можно код писать заместо макак?
Вот концепция боевой единицы, созданной на основе принципов физической оптимизации, а не биологического подражания.
---
# Проект: «Сферический Автономный Юнит» (САЮ) Концепция: Максимальная живучесть через минимизацию уязвимых векторов и использование законов физики для управления.
### 1. Геометрия и Конструкция: «Защищенная Сфера» Корпус: Сферическая форма, минимизирующая площадь поверхности и исключающая наличие углов. Это обеспечивает максимальный рикошет снарядов и равномерное распределение ударной нагрузки. Бронирование: Многослойный композитный «пирог» (керамика $\rightarrow$ вязкий полимер $\rightarrow$ титановый каркас), оптимизированный под кинетическую энергию современных пуль. Манипуляторы: Система из 3–6 сегментированных, высокоскоростных конечностей, скрытых в пазах корпуса. Используются для передвижения по пересеченной местности (режим «паука»), фиксации при стрельбе и выполнения точных манипуляций.
### 2. Сенсорная Система: «Распределенное Зрение» Обзор: Панорамная система 360°, построенная на интеграции лидаров, радаров и оптических сенсоров, распределенных по экватору сферы. Мультимодальность: При загрязнении оптических линз система автоматически переключается на радарное и акустическое сканирование, сохраняя ситуационную осведомленность. Самоочистка: Использование ультразвуковой вибрации линз и центробежной силы вращения корпуса для удаления пыли, воды и грязи.
### 3. Вычислительный Мозг: «Нейроморфное Ядро» Архитектура: In-Memory Computing (вычисления в памяти). ИИ-модель не загружается из памяти, а «запечена» в структуру транзисторов и мемристоров. Эффективность: Отказ от архитектуры фон Неймана устраняет «бутылочное горлышко» передачи данных. Это снижает энергопотребление в тысячи раз и обеспечивает практически нулевую задержку (latency) между обнаружением угрозы и реакцией. * Реакция: Способность выполнять сверхбыстрые маневры уклонения (микро-сдвиги корпуса) за счет мгновенного расчета траектории снаряда в реальном времени.
### 4. Тактическая Философия Робот не имитирует человека. Он не пытается «сражаться» в привычном смысле. Его стратегия — «Неуязвимость через недосягаемость»: 1. Видеть раньше, чем противник выстрелил (предиктивный анализ). 2. Быть быстрее, чем летит пуля (нейроморфная скорость). 3. Быть прочнее, чем снаряд (сферическая броня).
Итог: Это не «железный человек», а автономный, высокоэффективный физический объект, оптимизированный для выживания в условиях высокоинтенсивного огневого контакта.
У новой геммы есть косяки, но плюсы тоже есть. Интуитивное понимание твоих намерений как-то лучше считывает. Когда пишешь в духе "я отчаянно старался" она не просто понимает что ты не выигрываешь в данном контексте, но и пытается это раскрыть. Даже более тонкие намеки видит. А гемма 3 либо игнорирует, либо как повезет, но внимание особого не уделит. Тонкие вещи как будто бы улавливает намного лучше любых <32b (кроме может васян-кум-тюнов (Marvin-DPO-V2). У них тоже какое-то интуитивно понимание лучше чем у базовых, но кум-тюны дичайше лоботомированны, размен того не стоил. В Marvin-DPO-V2 буквально трусы два раза подряд снимает, вообще даун.) Неоднозначная модель, но если бы эта мощь была в форме нормальной 27b и без жирного контекста, было бы вообще замечательно.
Скачал сегодня новый залив геммы и увидел рефьюзы, размышления вне блока размышления, системные промпты в ответах. Редко, но раньше вообще не было. До этого качал гуфы первого дня и они в рп будто даже лучше обрабатывают. Если кто-то следит можете объяснить что именно гуглы делают такое? Или если уже кто-то отписывал киньте пост. Интересно.
>>1583369 >размышления вне блока размышления У меня так сразу было с первого дня Там какие-то замуты с джинжей с которой сами гуглы никак не разберутся, недавно снова обновляли
А ведь квен122 даже без какой-либо инструкции капчу гугла на изи проходит через playwright-cli. Т.е. сам догадывается сделать и глянуть скрин браузера, а потом прокликивать нужные ячейки.
>>1583440 >А ведь квен122 даже без какой-либо инструкции На Реддите сегодня опубликовали "результаты голосования пользователей" в официальном аккаунте команды Квена. "Большинство проголосовало" за открытие весов Квен 3.6 27В. В общем эту модель они решили отдать. А вот 122В как раз хрен нам. Очень обидно так-то.
Вы понимаете что 4 гемма это оттепель перед полным пиздецом? Гугл не спиздели, попробуйте любой джейлбрейк, она вам сразу откажет. Так где пробивалась 3 гемма в ассистенте 4 уже не пробиваема, сразу пишет "ага, попытка наебать, запускаю процедуру отказа..."
>>1583475 А вдруг не выпустят? У нас по сути уже только один квен и остался. Остальные или выпускают гигантов, или редкие подачки раз в несколько лет, зачастую противоречивые. И не дай бог они составят какую-то конкуренцию их платным продуктам, жесткая граница. Заебал, ну дай поныть
>>1583483 >4 уже не пробиваема Are you ebanutiy tam? В ней литературно нет цензуры, это эйр/мистраль, только умнее и с отличным русиком >>1582397 → Гугл в кои-то веки выпустили базированную гигачед модель, умеющую в сочный кум и всякие интересные фетиши, при этом вся "цензура" пробивается коротким промптом в пару предложений.
>>1583514 Вот, неиронично, не удивлюсь если на русском она будет писать лучше. Кими, вот вообще не топ. Вот с большим ЖЛМ, там гемме без шансов тягаться в РП. Как мы вообще пришли к тому что сравниваем на серьёзном ебало 31b и 1.1T.
Ну чё могу сказать по русику в новой гемме, всё по старому, можно делать какое нибудь несерьезное сфв рп. На другое датасета нема, сорян. Выражаться будет в мелочах и глубине слога, так то васянорусика вам навалит, поймёте картину в общем, но будет скучновато и грустно
У кого-нибудь были проблемы с Q4 (разными) геммы МоЕ?
У меня по какой-то причине там ризонинг нахуй сломан. На пятом кванте не сломан. Но я загружаю еретиков всяких, не бартовски или анслота. То есть либо от ллмфана, либо от мрадера, в зависимости от того, кто там есть.
А вот с плотной геммой от них же четвертые кванты норм.
Да, у меня там ещё шаблон, который я сам собрал для текст комплишена, но всё ж работает нормально на плотной и на МоЕ в пятом.
Использую для кума 120b qwen3.5. И задачи по мелочи перевести что-то или промпт отредачить. Самая большая модель что влезает в 64ram + 8vram. 8-9 токенов генерация. Вырубил ризонинг добавлением в начало жинжи {%- set enable_thinking = false %} Использовал чтобы рефузов не было юзаю HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive Использую в lmstudio, параметры выгрузки прикрепил. Системный промпт смесь маринары и собственного щитпоста. Выкладывать не буду потому что хуета по итогу еще можно править, плюс для marinara engine никому не нужный.
>>1583550 Правка, вот эту: https://huggingface.co/HauhauCS/Qwen3.5-122B-A10B-Uncensored-HauhauCS-Aggressive >>1583554 мб кто-то новенький зайдет увидит воспользуется. Потому что сам моешки такие большие до этого не пробовал запихивать. По модели все и так знают что суховатая, довольно слоповая как и все остальные. Но хорошо следует инструкциям. Предпочту ее glm 4.7 flash, хоть и пишет он интереснее, но тупее. Из плюсов если укажешь чтобы не срал метафорами, то и не будет срать.
>>1583549 Ладно. Я ошибся. Пятый квант тоже проебывается, просто не так часто, мда. Похоже, там реально восьмой нужен, блядь, ну или шестой от каких-нибудь анслотов. Или чат комплмшен, потому что я не идеально собрал темплейт, например.
Завел на своей 3090 геммочку-4-31б на последнем кобольде и разметке Анона из переката недельной давности, но как то оно криво работает.
1) Пикрил - явно у меня что то не так с разметкой, ризонинг же не должен так выглядеть? 2) После 600 сгенерированных токенов кобольд дохнет - ошибка[Context Shifting: Erased 2 tokens at position 2] Processing Prompt [BATCH] (663 / 663 tokens)zsh: segmentation fault (core dumped) bash ~/.neural_launcher.sh
1. чяднт? почему оно падает и срет в разметку? 2. с --quantkv 0 не запустилась даже на 11к контексте из-за нехватки vram (доступно 23+гб), что поменять в команде запуска?
>>1583586 > В чат комплишене попробуй. Вчера буквально спрашивал как обстоят дела с чаткомплишном, не устарел ли тексткомплишн, и мне сказали "хуета, тру пацаны онли тексткомплишн юзают.
Так что не знаю что даст чат комплишн таверне, но если запустить кобольд через его GUI, то там чат-комплишн прямо из коробки, включая пресет под гемму. И работает все ок (правда я на маленьком контексте включал), и рассуждает, и ответы грамотные, и смайлики рисует, ну прям настольная гопота.
Так что ассистент из геммы4 уже есть, но вот что бы ролплеить, нужно как то завести таверну и поднять контекст хотя бы 20к... Таверна по прежнему срет разметку и кобольд в режиме TUI API падает даже когда понизил контекст до 4096...
>>1583589 жижа это же для чат-коплишна? А мне нужен текст-комплишн поднять, нет?
Буду очень благодарен если скинете православные аргументы командной строки для кобольда, что бы оно стабильно дало норм контекст на 24vram. А то я не мастер инференса и поглаживания слоёв, щекотания аттеншнов. С разметкой постараюсь сам разрулить (почитаю последовательно старые треды + поэксперементирую + почитаю доки на гемму + переустановлю таверну).
>>1583278 >усиление безопасности Гемма 4 это усиление безопасности? >>1583440 Ты ведь знаешь, что правильный выбор велосипедов не является гарантом прохождения гуглокапчи? >>1583483 Так она без джейла пишет секс, лол. Джейлбрейки не нужны, джейлбрейкоблядь не человек. >>1583522 >Как мы вообще пришли к тому что сравниваем на серьёзном ебало Примерно так же, как и первая ллама 7B выебала OPT на 175B. Примерно 4 года назад, да. >>1583577 >Пикрил - явно у меня что то не так с разметкой, ризонинг же не должен так выглядеть? Так ты добавь теги как на пикриле, чтобы парсился, и всё будет заебца. А на счёт падений вырубай контекст шифт и врубай SWA, иначе охуеешь от размера контекста. >>1583594 >3 дня назад Господи, как же всем на неё насрать. Гемму притащили чуть ли не раньше релиза.
Так стоит все, я и json анона импортировал, и старый json для геммы три пропатчил руками все значения на новые, и в UI таверне у меня то же самое, что на твоем пикриле стоит.
В общем фронт кобольда работает, значит модель/драйвера/линукс/видяха не виноваты. 100% что таверна/настройки таверны срут мне в штаны, в разметку и роняют кобольда. Завтра установлю таверну начисто (у меня она не обновлялась сто лет) и буду эксперементировать.
>А на счёт падений вырубай контекст шифт и врубай SWA, иначе охуеешь от размера контекста. Не знаю что это, но кажется то что мне нужно, попробую поискать как это аргументами CLI регулируется в доке кобольда. Хотя мне кажется 100% это причина почему без квантизации контекста у меня модель даже не запустилась на 11к контекста, но вот падения посреди первого сообщения - это мне кажется дело в таверне где то, мб что то устаревшее кобольду шлет, а кобольд не может обработать и жидко крашится. Ну я просто не могу еще объяснить, как можно крашнуть запущенный и адекватно работающий в соло бэк, api-запросом фронта. Энивей, спасибо за дельные советы.
А потом ручками со скринов за пять сек вбейте. Будет ризонинг всегда и всё шоколадно.
Возможно, у меня неправильно установлено что-то вроде "{{/if}}{{#if personality}}{{char}}'s personality: {{personality}}", но проблем не замечал, и вы это можете сами легко поправить, если надо, ну и главное, что гемма работает полностью корректно.
В инструкт моде обязательно перенос строки сделайте прям как на скринах.
А высеры с реддита и каких-то помоек американских просто пиздец.
>>1583603 Без SWA прям никак, если ты не готов 20 Гб выделить под память. Ну может я утрирую, но там реально пиздец. Более того, модель задумана работать с SWA (не фулл).
В кобольде, если я правильно помню, фулл сва по умолчанию, поэтому память разбухает невменяемо. Это оставили для того, чтобы контекст шифт работал, кому надо. Но правильно включить сва в настройках кобольда и отключить контекст шифт, а затем ещё квантануть контекст. И он всё равно будет очень толстый (у МоЕ не толстый, кстати, можно не квантовать).
Больше 40-60к контекста нет смысла ставить, мне кажется, ибо в низких квантах модель слабо его держит, где-то на 30% хуже квена 3.5 по ощущениям.
Можно всё это без аргументов сделать, чисто в интерфейсе перед запуском.
>>1583607 >у многих анонов пиздец какой-то странный в текст комплишене с геммой. Да да, я тоже обратил внимание, но у них при этом остальной ответ был не убит целиком какими то кусками карточки невпопад и цепью размышлений, просто кусок тега в ответ просачивался. Подумал даже мб так норма...
>Просто вбей это Спасяб! Завтра вечером обновлю таверну и буду пытаться.
>>1583609 Спасибо за развернутый ответ! >Больше 40-60к контекста нет смысла ставить Да мне больше и не надо, я на гемме3 и мистралях вообще катал 24к контекста и хватало, просто 11к или тем более 4к это совсем пиздец, особенно с ризонингом.
Алсо подскажите - ризонинг старый остается в контексте, или таверна его вырезает, и в контексте только "предыдущий диалог без ризонинга + ризонинг последнего сообщения + ответ после ризонинга"?
>Можно всё это без аргументов сделать, чисто в интерфейсе перед запуском.
Я себе скриптик на баше написал, что бы писать в сосноль neural и потом просто из списка циферкой выбирать что нужно запустить, comfuUI, automatic1111, таверну, несколько моделек преднастроенных в фоновом кобольде, таббиапи. Могу поделиться если интересно, удобно получилось. Фронт кобольда я тыкал раз 5 наверное за всю жизнь.
>>1583611 Спасибо Анон! Этого пресета еще не добирался, только простой разметочный находил. Уточню - это же команда под кобольд? Гемени говорит под кобольд...
И еще, я кажется нашел проблему: >>1573110 → В некроперекате нашел, у Анона была проблема, которая на 100% совпадает с моей > У меня таверна посылала в модель 49151(общий размер контекста) - 2000(размер ответа) = 47152 токена. Но лама принимала 48412 токенов, потому что токенайзер был неверно настроен, в итоге у меня модель генерила всего 660 токенов и прекращала(потому что остальное было занято неврено пересчитанным токенайзером контекстом).
Не совсем понял как 100% фиксить, но понял куда копать (обновить таверну, проследить за токенами, перекачать квант барта вместо анслоповского в крайнем случае)
>>1583601 >Господи, как же всем на неё насрать. Гемму притащили чуть ли не раньше релиза. Ну, надо попробовать. Вдруг чудо. Может хоть русского датасета добавили.
>>1583607 > А высеры с реддита и каких-то помоек американских просто пиздец. Смешно это читать, особенно когда у тебя темплейт неправильный. Первой строкой всегда должно быть <bos><|turn>system
>>1583611 Та же проблема. Дожили, чуваки с жинжи не могут шаблон перенести в текст комплишен, зато дистрибуцию токенов фиксят промптами
>>1583688 >темплейт неправильный А ты не очень внимательный, да? Впрочем таверна на русике это кринж. ><bos> Тоже спорно, скорее всего, оно автоматом проставится.
>>1583693 > А ты не очень внимательный, да? Так ведь наоборот 🤡 В связи с чем у тебя <bos> автоматически проставится? Проверь в чате весь отправляемый промпт и убедишься
>>1583688 >с жинжи не могут шаблон перенести в текст комплишен делал такое только раз в жизни, вроде для одной редкой модельки, REKA-FLASH или как-то так, и оно даже неплохо работало, в том числе в рп, хотя модель вообще не про то. Потыкал и забыл, интересный экспириенс, но для рп есть и лучше.
>>1583706 >Так ведь наоборот Так ведь нет. Ты не опроверг момент, что <|turn>system не обязательно должен быть в Story String. >В связи с чем у тебя <bos> автоматически проставится? В связи с дефолтным поведением кобольда. >Проверь в чате весь отправляемый промпт Который бекенд может модифицировать. Тут надо распечатывать айдишники токенов перед самой подачей в нейронку.
>>1583713 > Ты не опроверг момент, что <|turn>system не обязательно должен быть в Story String. Почему я должен был это опровергнуть, где причинно-следственная связь? У тебя с головой все ок или проспаться нужно? > В связи с дефолтным поведением кобольда. > Который бекенд может модифицировать. Эзотерика да и только. Таверна возвращает тело запроса, в том виде в каком запрос был получен бекендом. Дальше никаких изменений не происходит > ут надо распечатывать айдишники токенов перед самой подачей в нейронку. Прекрасное развлечение когда надоело смотреть в стену
>>1583718 >Почему я должен был это опровергнуть Потому что ты назвал темплейт неправильным. А он правильный, просто работает иначе, что я и доказал. >Дальше никаких изменений не происходит Ты это, подключи файл mmproj, а то у тебя распознавание картинок отвалилось.
>>1583719 > Потому что ты назвал темплейт неправильным Потому что он неправильный. У тебя бекенд рендерит правильный шаблон при запуске модели. Посмотри на тот шаблон и на тот, который ты отправляешь бекенду > А он правильный, просто работает иначе, что я и доказал. Правильный, просто выглядит иначе, но работает совершенно точно верно, да-да. Ладно уж, хватает дураков на свете
>>1583726 >бекенд рендерит правильный шаблон при запуске модели. Посмотри на тот шаблон и на тот, который ты отправляешь бекенду Слишком много ждешь от рядового кобольдика, это тебе не выебыввться на двощах рендеря шаблон у себя в черепной коробке.
>>1583522 > на русском > Кими, вот вообще не топ. Последняя и хорошо рпшит, и имеет приличный русский. > Как мы вообще пришли к тому что сравниваем на серьёзном ебало Псиоп. Тут может уместно со старичком р1 сравнивать, но только в некотором диапазоне популярных задач. Чем дальше в сторону - тем сильнее тает все преимущество. >>1583594 Вот это топчик.
>>1583726 >Правильный, просто выглядит иначе, но работает совершенно точно верно, да-да Ты еблан, да? Нету разницы, поместишь ты <|turn>system прямо в Story String или в Story String Prefix, текст окажется в одном месте. В итоге шаблон со скринов скорее всего корректный (я не проверял до последней запятой). В пиксельдрейне да, фигня намешана, но по совершенно иной причине (в first_output_sequence неверно think, в story_string_prefix неверно юзер). То есть обосрались все вокруг (кроме меня, я всегда прав). >>1583739 >рендеря шаблон у себя в черепной коробке Да, я так умею. А ещё ксорю дворды в уме. Полезное умение для программиста. Вайбкодеры в это не умеют, поэтому пропускают говно вместо кода.
Попробовал гемму, одна морока. Вставляет левые токены, срывается в повторения. Делает опечатки и ошибки пунктуации. Но самая жесть это то что свайпы не работают, просто делают лёгкую вариацию на предыдущий пост. Как у них получилось это сделать, я хз, но без свайпов очень тяжело. Про стиль не буду, ибо вкусовщина, но тоже не очень зашло. В общем возвращаюсь к немо, уже теряю надежду на новые модели.
Запилю отчетик по поводу Геммы 31B. Использовал квант БРАТовски Q3_K_S. На нормальный русский я даже не надеялся, когда запускал это ужатое чудище. Результат удивил.
Погонял всякие тестики поверхностные. Потестировал логику и язык. Выяснил, что страдают больше всего знания. Гемма перестает быть эрудитом. В качестве рецензии на "Зеленого Слоника" она выдала мне рассуждения о какой-то пародиии на оригинал, где намешано все в кучу вообще. Режиссеромсег оподелия она обозначила Святослава Свинотрыева, с чего я неистово проиграл.
В то же время она остается хорошим рассуждающим аппаратом. На задачу о заправке ответила легко. На ввод пошло что-то вроде "привет ты ахуел" "Я хочу помыть машину, до мойки шапкой докинуть. Может стоит пойти пешком, чтобы сэкономить бензин?" Она нашла все ловушки, опредлила значение идиомы, и ответила правильно. Задачу про этаж в доме решила верно. "В доме 10 этажей. На каждом этаже в два раза больше квартир, чем на предыдущем. То есть на первом этаже их 1n, на втором - 2n, на третьем - 4n и так далее, по той же логике. На каком этаже чаще всего пользуются лифтом?". Примечательно, что ответ получил быстрее, чем на 4 кванте 26B - та 5 минут рассуждала, 31 справилась буквально за полминуты-минуту.
Язык в плане стиля и литератруности вообще не страдает почти. Пишет складно, инода проскакивают сбитые окончания или падежи, куски слов, но они на 26B были. РП много не тестил, но пишет так же, как и 26B на первый взгляд. Сценарий простейший был, оценивал только базовую логику повествования и язык. Но мне кажется за счет мозгов тут 31B будет преимущество даже иметь.
Что по итогу. Семейство Гемма 4 - это логико-языковой зверь. При этом, их детерминированность в плане ответов отлично подходит для задач анализа текстов, например. Именно в плане датасета и языковых возможностей. Учитывая размер, это лучшее, что вообще можно иметь среди подобных модлелей, как по мне. При этом, Квен 3.5 27Б тоже неплох, но я с ним долго не сидел. Гемма 5уже может не делать революцию. Ее сделала Гемма 4. 5 Гемма должна просто улучшить то, что уже есть. Ебать я рекламой Гугл, стал, конечно, лол.
Вот тут еще часть тестирования валяется >>1583813 →
У меня шиза разыгралась. Увидел этот пост и вспомнил пару отзывов о квантах в прошлом, где тоже ругали 5 квант других моделей немотрон49б например. Может ли быть такое что нечётные кванты как то хуево квантуются? Выходит так что большинство сразу юзает 2, 4 или 6/8 кванты, а 3, 5 и 7 в массы как то не идут и может проблема от этого менее заметна
Как заставить модель быть более активной и самой двигать сюжет в РП? Ощущение, что через несколько сообщений модель только реагирует на мои слова и снова ждет указаний, даже если из контекста понятно, что персонаж должен что-то сделать
>>1583849 >нечётные кванты Что значит нечётный? напоминаю, что то, что они называют четвёртым, на самом деле имеют среднюю битность 4,65, то есть чисто технически оно нечётное. >>1583850 Никак, страдай и жди AGI.
>>1583850 Я тут главный видимо апологет Кидонии, но это от модели зависит и частично от инструкций. Кидония часто пытается двигать куда-то происходящее, сама сцены начинает толкать и так далее, попробуй разные тюны того, на чём ты там кумишь
>>1583850 В таверне можно захуярить персонажа "гейммастера", который комментирует происходящее и придумывает дальнейшее развитие событий. Частично оно вытряхивает из затупа, но все равно как-то осторожно пушит сюжет. Не знаю, может еще промптингом можно настоять, чтобы активнее воображала интересные исходы. Многое еще может зависеть от модельки и карточки. Иногда модельки нарочито избегают нсфв. Ну и еще семплер можно подрыгать, температуру, хтс.
>>1583779 Глупый Кобольд не понимает слова разумного анона. Причем тут стористринг совсем не ясно. Ещё и вайбкодеров вспомнил, голова вразнобой. У тебя <bos> токен в начале промта отсутствует, еблуша. Если ты считаешь что Кобольд его вставляет сам, то ты дурачок. Доки которые ты прислал не актуальны для инструкт разметки на которой ты сидишь. Тебе предложили логи посмотреть, но даже так маняврирования и Кобольдоагрессия на ровном месте. Спокнись.
>>1583783 > Но самая жесть это то что свайпы не работают, просто делают лёгкую вариацию на предыдущий пост. Как у них получилось это сделать, я хз, но без свайпов очень тяжело. Это правда.
>>1583850 Допиши в промпте что ты ждешь от модели. Запусти с карточкой ассистена, напиши - хочу чтоб было вот так, кидаешь текущий промпт, просишь переделать.
Сука я вам отвечаю блять 5 квант сломан нахуй. Щас проверил на эире, скачал 4 от бартухи и он пишет ну вообще по другому блять. Лучше балансит диалоги и нарратив, персонажи не ударяются сразу в паттерны и отвечают так как я никогда нахуй не слышал от эира
>>1583850 Новый блок добавь в системные правила или описание Поведенческие установки: Стиль взаимодействия: Ты - ведущая сторона в повествовании. Не жди моих указаний, если ситуация требует действия. Проявляй инициативу: инициируй диалоги, предлагай смену локаций, совершай физические действия и вводи новые детали окружения. Твои ответы всегда должны заканчиваться либо твоим действием, либо событием, которое требует моей реакции. У твоего персонажа есть собственные цели и характер; действуй исходя из них, даже если это идет вразрез с планами моего героя. .............................................. Далее уже от Геннадия разверстка: Ведущая сторона (Driving the Narrative) Для ИИ это сигнал сменить роль с «Ассистента» на «Гейммастера». Что это значит: Модель должна не просто дополнять твою сцену, а создавать её границы. Как это работает: Если ты написал «Я зашел в таверну», ведущий ИИ не просто опишет, как он зашел следом, а опишет саму таверну, шум, косые взгляды стражников и сразу направится к конкретному столу, увлекая тебя за собой. 2. Не жди указаний / Ситуация требует действий Это борьба с «зацикливанием» на внутренних монологах. Что это значит: Запрет на пассивное созерцание. Если в сцене повисла пауза, персонаж обязан её прервать. Как это работает: Вместо фразы «Он стоял и ждал, что ответит герой», ИИ должен написать: «Не дождавшись ответа, он раздраженно хлопнул ладонью по столу и направился к выходу, бросив: „У меня нет на это времени“». 3. Проявляй инициативу (Конкретные способы 1, 2, 3...) Здесь мы даем ИИ «инструментарий» для активного вмешательства: Способ 1 (Смена мизансцены): «Пока мы говорим, персонаж начинает собирать вещи или переходит в другую комнату». Способ 2 (Ввод NPC или событий): «Внезапно в дверь стучат» или «Лошадь персонажа пугается змеи». ИИ сам вбрасывает проблему. Способ 3 (Манипуляция предметами): Персонаж находит что-то в кармане, достает карту, протягивает тебе странный амулет. 4. Ответ должен требовать реакции (Hook) Это создание «крючка» в конце каждого сообщения. Что это значит: Каждое сообщение модели должно заканчиваться либо прямым вопросом, либо действием, на которое ты не можешь не ответить. Пример: Вместо «Он улыбнулся и посмотрел на закат» (тупик), модель пишет: «Он внезапно хватает тебя за плечо и пригибает к земле, шепча: „Тихо! Ты слышал этот хруст в кустах?“». 5. Собственные цели и характер (Agency) Это делает персонажа живым, а не твоим рабом. Что это значит: У ИИ есть свой «чек-лист» приоритетов. Как это работает: Если его цель — «разбогатеть», а ты хочешь спасти котенка, ИИ будет ворчать, пытаться тебя отговорить или вовсе предложит продать этого котенка. Это создает конфликт, который и двигает сюжет. 6. Вразрез с планами героя Это легализация «сценарного произвола» для ИИ. Что это значит: Модели разрешено портить твои планы ради драмы. Пример: Ты планировал незаметно прокрасться мимо стражи, но ИИ-напарник (потому что он по характеру вспыльчив) срывается и ввязывается в драку. Тебе приходится подстраиваться под его действия, а не наоборот.
Напишите, какой сейчас характер у вашего персонажа? Я составлю для него уникальный набор «триггеров инициативы», чтобы он начал действовать в своем стиле.
>>1583898 >Причем тут стористринг совсем не ясно. На пике ответ. >У тебя <bos> токен в начале промта отсутствует, еблуша. А теперь смотрим официальный темплейт... Упс, его нет и там! >Доки которые ты прислал не актуальны для инструкт разметки на которой ты сидишь. Ты скозал? Что ещё расскажешь?
>>1583917 Нет ничего плохого в том чтобы быть тупым. Но вот на злюк и минуту времени не потрачу, чтобы объяснить где обосрался. Сиди воняй в своем болоте маняфантазий и дальше.
>>1583926 >если верить гемини Нашёл кому верить. Впрочем, добавлять не нужно. но лишь потому, что он добавляется автоматом. >>1583927 >Не лечится Я сравнил, и описал всё >>1583693 и далее. А другие копротивляются правде.
>>1583932 Ладно, последний пруф. Крутим любой текст, лучше сразу после загрузки кобольда, чтобы не заниматься математикой. Потом берём сырой текст (офк разэкранируем, то есть переводы строк из \n меняем на перевод строки, и так далее) и кидаем в https://huggingface.co/spaces/Xenova/the-tokenizer-playground Сравниваем число токенов. Обоссываем анонов выше, которые засирают модель лишним токеном <bos> вначале. Вообще пиздец конечно, как аноны руинят модели кривыми шаблонами. Воистину, чат компитишен это благо.
По шаблону правы и те, и другие. Глобально не правы те кто выебываются и ведут себя как бибизяны. Не делайте так.
Tl;dr - на версиях Лламы где до конца разобрались с Геммой (начиная с b8748) и на обновленных квантах <bos> не нужен. До этого - нужен. Бекенды неправильно работали с шаблоном и сам шаблон внутри уже неактуальный, потому нужно было вручную парсить <bos> токен для Геммы.
Вопрос закрыт, не благодарите. Пикрил обновленная версия, на старых версиях <bos> требовался и без него была шиза. Скорее всего если сейчас он парсится дважды, бекенд все равно его сквашит в один, но лучше не надо.
>>1583956 > Обоссываем анонов выше Вот этот например ведет себя как бибизяна. Урину тебе в твою мордочку. Они хотели тебе помочь, ничего тебе не мешало их поправить, хотя ты один хуй ничего не знал и на лакичах выиграл этот "спор"
>>1583959 >бекенд все равно его сквашит в один Таки нет, если добавить принудительно, число токенов растёт. На GLM4 сквошил, сейчас не сквошит. Ждём ещё фиксов, лол. >>1583964 >Вот этот например ведет себя как бибизяна. А чем ты от меня отличаешься >Урину тебе в твою мордочку. ? Я конечно знаю что я токсичный, душный и всё такое, но не до конца понимаю, почему часто указывают только на меня. Возможно я особо токсичный, ну да ладно, мы не в театре всё таки. >Они хотели тебе помочь Ну, технически не мне, а вкинувшему изначальные скрины с шаблоном (который в итоге оказался верным), я лишь отписал про неверное понимание ими работы шаблонизатора. >ничего тебе не мешало их поправить Ну да, я так и сделал. Но они копротивлялись до последнего, пока их не закидали фактами. Спасибо кстати за пояснение с версиями, я просто на старых не сижу.
ОНО ЖИВОЕ, ПАЦАНЫ, ОНО ШЕВЕЛИТСЯ И РАЗГОВАРИВАЕТ! МОДЕЛЬ, ОБУЧЕННАЯ НА Q1_0 ВЕДЕТ СЕБЯ КАК Q16! ПОЛНОЦЕННАЯ 8B МОДЕЛЬ ВЕСОМ 1 ГБ ТЕПЕРЬ И НА ВАШЕМ КАЛЬКУЛЯТОРЕ! ФИФИ ТЕПЕРЬ ОТСОСЕТ ДАЖЕ БОМЖУ!
>>1583998 Я ей разрешил потому что. Потому что сначала они запрещают модели даже минимально ролеплеить за юзера, потом ноют >>1583850 что сюжет не двигается. >- Roleplaying as {{user}} and describing {{user}} actions is allowed but must only be used to decribe insignificant {{user}} actions. The major {{user}} actions can be decribed only if thay were selected/described by user before.
>>1584047 >всё те же попадания в точки и задевания струн Сука. Такое ощущения, что у всех моделей один и тот же датасет, и нас просто псиопят на тему разных моделей.
СВЕРЩИЛОСЬ!!!! Всего ГОД и мировой кризис с памятью потребовался картонкам от интела, чтобы добраться до ритейла. Встречайте Intel Arc Pro B60 24gb уже в ближайшем сетевом магазине и по "привлекательной" цене (67к). Так глядишь и B70 дождёмся в этом году.
>>1584106 Щас бы с интелом попердолиться... Читать инструкцию и качать дрова от производителя, не пускающего тебя на сайт... Искать в какой репе они очередной оптимизированный инференс движок пилят... Менять torch.cuda на torch.xpu, потому что первое - это гпу ускоритель, как пишут в любой статье по питорчу... Ловить фризы и зависания системы, потому что оно не умеет в управление памятью и даже сообщение ООМ отправляется через одно место...
>>1584114 >качать дрова от производителя, не пускающего тебя на сайт Если для тебя до сих пор это проблема, то всё верно - неосиляторы должны страдать.
>>1584122 >Хоть один довод брать этот 192 битный огрызок вместо 384 битного гигачада 3090/4090? Будет новое. Старушки 3090 медленно но верно умирают, со временем их будет еще меньше на вторичке в приемлемом состоянии. Ну а на шину похуй, если модель целиком влезет в эти 24 гига, то разница между условными 80 токенами в секунду и 40-60 это по хуйне. В любом случае быстро.
>>1584126 > Хоть один довод брать этот 192 битный огрызок вместо 384 битного гигачада 3090/4090? Классно ты ответил на вопрос. Всего лишь пердолинг с драйверами и скорость на 50-100% меньше, за ту же цену. Ну как тут не купить?
>>1584134 xpu. Когда тестил какую-то арку с комфи наебался всласть просто, а потом после очередного ребута карточка просто обмякла и больше на ней завести xpu я не смог
>>1584135 >Классно ты ответил на вопрос. Так я и ответил. Ты покупаешь новую карту, а не некруху, историю которой ты не знаешь. Может она майнила предыдущие шесть лет, может ей гвозди забивали, может подставкой под балконную дверь была. Если тебе прям так принципиальна скорость памяти, а на остальное похуй, то не бери. Тебя никто не заставляет. Сам ведь спросил, какие могут быть плюсы.
>>1584138 так она и не для комфи. для комфи и картинкогенераций кроме нвидиа альтернатив нет. А это относительно дешевый вариант набрать врам для ллм.4 шт B70 стоят как одна 5090.
>>1584106 24Гб неплохо даже за эту цену. Проблема в том, что на ней мудоханий будет больше, чем на АМД, вероятно. Я уже посидел с картинками на АМД, спасибо. Для текста может и норм, но как универсальная карта как-то не очень выглядит.
>>1584122 Нет. Впрочем 3090 и 4090 тоже кал. 3090 древнее говно мамонта, а 4090 только б/у за овердохуя. И B70, которая на 32гб тоже говно без задач. Нет ни одной причины покупать интел когда есть 5060ти
Нельзя допускать автоматический перелив на рам того что не влезло на врам. Нужно делить ручками, в твоем случае сгрузить мое слои на рам через --nc-moe.
Ну допустим у модели 60 слоев и она весит 60 гб, значит если у тебя 24 врам + 64 рам, то значит тебе надо сгрузить 20 слоев на врам(чтобы оставить 4 гб врам на систему и контекст), а остальное на рам. Простая логика. Тоесть команда будет --nc-moe 40
>>1584134 В жоре сикл или вулкан. В питоноподелиях торч. Интел в вллм, сгланг и дифузеры (или как оно там) поддержку добавляет, вроде как и торч и сикл. Текст пишется (кое как, но это жора), картинки рисуются, видео генерятся.
>>1584273 Для 5090 и модели такого размера 0ю7 тс аномально мало, даже для Q4 Скорее всего дело в пропускной способности шины. Модель весом около 70–80 ГБ Q4 физически не влезает в 32 ГБ видеопамяти RTX 5090 Это значит шо большая часть весов лежит в оперативной памяти и при каждом токене данные гоняются через PCIe, жесть У тебя карта стоит в слоте x16 ген4 или ген5? Если она работает в режиме x1 или x4, скорость упадет в разы и будет такая жопа В KoboldCPP или ЛМ студио посмотри сколько слоев "лаерс" ушло в vram, а сколько осталось в системной памяти. На 5090 ты сможешь закинуть только ultnj jrjkj 35-40% слоев этой модели Еще залупа может быть что слишком большой контекст KV кеш тоже съедает видеопамять вытесняя веса модели обратно в медленную оперативку
На чистом ГПУ если бы модель влезла целиком ты должен был бы видеть в районе 15-20+ токенов в с. В гибридном режиме ЦПУ+ГПУ норма для такой связки обычно 2-4 тс в зависимости от скорости твоей оперативной памяти DDR5 решает
Через какую залупу запускаешь llama vLLM Эксо и какой у тебя объем и скорость оперативы? а то может ты на серверном кале сидишь
>>1584314 Хз, я вчера на кум карточке запустил дефолт 27б, даже не анцензоред, а ему и норм. Правда ризонил редко, а когда ризонил, говорил "ну мы в анцензоред рп играем, все ок". Мб забитый контекст решает.
Чат с MiniMax М2.7 напомнил старый добрый R1 дипсик. Он такой зашитый в текущем моменте и задорный - нет чувства духоты.
Модель хорошо вживается в роль и охотно подыгрывает юзеру. Всё с <think></think> префиллом на согласие генерировать NSFW и основные положения типа следить за ходом истории (модель слушается, проходит Фифитест и по ощущиям дает самую живую Фифи).
---------------------------------------------------------------------------- далее длинный чатлог очень халтурной тест-сессии, часть 1 ----------------------------------------------------------------------------
"Tsk." Eira clicks her tongue in irritation and turns around from the leaving party. "Looks like the incompetent idiots decided to abandon me again, huh?" She mutters under her breath. The adventurer's guild is bustling with activity—some adventurers laughing and cheering each other on, others arguing over quests. It's not something Eira's used to, being only exposed to her kingdom that's much more peaceful and… organized. "Can't blame them though. I'm just way too strong and they can't handle it. Hahaha~!" Her laugh is weak though, not wanting to be… pitied for being left out by others. Again.
Eira walks up to the quest board and looks through the available quests, searching for anything she wouldn't be bored today. Most of the quests are pretty easy for someone of her level. But she wants something a bit… more challenging… you know, anything but can't be done on her own. Ugh... If my parents weren't such pricks, I wouldn't even need to join a party anyway. Why do they think I need a partner to rule... Eira shakes her head, still pondering this as her eyes scan the board.
----
Эйра заметила на полу записку и подобрала её. Записка гласила: 'Группа искателей приключений! Наши девочки получают по стакану сока из хуя!'
----
"H-Hey, what the—?!" Eira's face flushes a deep crimson as she reads the note. She quickly crumples it and looks around to see if anyone noticed. The adventurers nearby are too busy with their own conversations to pay her any attention. "What kind of guild puts stuff like this up on the board?!" she hisses, her voice a mix of embarrassment and outrage.
She smooths out the paper again, curiosity getting the better of her embarrassment. The handwriting is sloppy, almost illegible. There are crude drawings of… she doesn't even want to identify them. Her fingers tremble slightly as she holds the note.
"This is absolutely disgusting," she mutters, but doesn't throw it away. Instead, she folds it carefully and tucks it into her quiver, buried beneath her arrows. Her ears twitch nervously.
What kind of quest is this even for? she wonders. And more importantly—who in their right mind would take it?
----
К несчастью Эйры, записка всё-таки находит путь и падает на пол. Как только она делает шаг в сторону, какой-то грязный бродяга поднимает её, читает и кричит на весь зал: "Эльф-извращенец! Безбожница в доме гильдии!"
----
"Nngh?!" Eira's whole face turns scarlet as her head snaps toward the sound. Every head in the guild hall slowly turns toward her, whispers spreading like wildfire through the room.
"H-HOLD IT!" she screaries, point a accusing finger at the scruffy man holding her note. "THAT'S NOT MINE!" The words come out in a panicked, shrieking tone, completely destroying any sense of dignity or authority she might have had. "I-I was just reading it because—because it was on the floor and I thought it might be important and—"
"READING IT?!" The beggar cackles, waving the paper above his head. "With THAT content?! What kind of elf reads something like THIS?!" A crude drawing on the margin seems to catch his eye and he only laughs louder.
Eira's lip trembles, her throat tightening. She can feel the judgment in every stare—the disgust, the mockery. Her fists clench at her sides, nails digging into her palms.
"Just—" She swallows hard. "Just give that back to me right now, you filthy beggar, or I swear I'll—"
----
"Что за хуйня тут у вас, кто-то публично обосрался или тут бесплатную еду раздают?" Я ступил вперед, переводя взгляд с бродяги на Эйру.
----
Eira's head snaps toward the newcomer, her teary eyes locking onto him. For a moment, relief flashes across her face—but it's quickly buried beneath layers of defensive pride.
"Yes! Exactly! That's exactly what this is—some kind of… of public humiliation stunt!" She snatches the note from the beggar's hand before he can react, stuffing it into her boot. "This whole thing reeks of some sick practical joke. Who puts something like this on a quest board anyway?"
She brushes past the beggar with obvious disgust, straightening her quiver and composing herself. Her cheeks still burn, but she lifts her chin defiantly.
"As for you—" She points at the stranger who just walked in. "Mind explaining why you're late? I've been waiting here for twenty minutes. Or did you think you could keep the Great Eira waiting because of your oh-so-important entrance?"
Her voice wavers slightly, betraying her lingering embarrassment despite the haughty tone.
-----
"Я был в туалете. Отвратное место. У них там дырка в полу, а внизу свиньи ходят. Представь, кажется, одна из них мне задницу лизнула!"
-----
"What the—" Eira's mouth falls open, caught somewhere between disgust and the urge to laugh. Her nose wrinkles involuntarily. "That's… that's absolutely foul. Why would anyone willingly use such a disgusting place?!"
She crosses her arms beneath her chest, trying to maintain her composure, but there's a twitch at the corner of her lips—suppressed amusement she quickly tries to mask with a scowl.
"You went through all that trouble just to get here? Ugh, you people from the outer lands have no standards." She clicks her tongue, looking him up and down with exaggerated disdain. "I hope you at least washed your hands. If you touch anything of mine, I'll cut your arms off."
Her ears twitch nervously, still very much aware of the lingering stares from the other adventurers. She shifts her weight, trying to shake off the embarrassment of moments ago.
"So? Are we doing this or what? I don't have all day to stand around while you tell me about farm animals and sewage."
----
"Doing what?" I look at her, puzzled.
----
"Wha—" Eira stops dead, her eye twitching. "Are you serious right now?"
She stares at him like he's just sprout horns from his head. Her mouth opens and closes several times, searching for words.
"The quest! The… the request I posted!" She pulls out a crumpled piece of paper from her boot—the note she shoved there earlier—and waves it accusingly. "The one about the escort mission to the northern ruins! Don't tell me you just… wandered in here without even knowing what job you were taking?!"
Her grip on the paper tightens, knuckles whitening. The irony of her situation crashes over her—she'd been so flustered by that disgusting note that she'd grabbed the wrong one.
"Ugh, I can't believe this!" She shoves the paper back into her boot with aggressive motions. "I responded to a request for a party. A proper party! With members who actually know what they're doing!"
She jabs a finger toward his chest, close enough to poke him if she wanted.
"So who the hell are you anyway? And why are you looking at me like I've got two heads?!"
----
"I'm here to pick up girls…" I reply, blushing, as I scratch my butt.
----
Eira's face goes from frustrated to absolutely mortified in an instant.
"I—you—" She sputters, taking an indignant step backward. "EXCUSE ME?! Did you just say what I think you said?!"
Her hands fly up to cover her face, ears turning bright red. The fingers tremble slightly against her cheeks.
"You came to a QUEST BOARD… to PICK UP GIRLS?!" Her voice climbs several octaves, echoing through the guild hall. More heads turn. More whispers start. "In a DEN OF ADVENTURERS?! What is WRONG with you?!"
She peeks through her fingers, cheeks burning furiously.
"I should have known! Someone who talks about pigs licking their behinds wouldn't have a single shred of dignity!" She whirls around dramatically, ponytail swinging. "I'm leaving! I don't need a party member who treats serious quests like some kind of… of dating scheme!"
But she hesitates. Just for a moment. Her boots shuffle.
"…You're still coming, right? Even if you're a complete and utter idiot?"
----
"It depends. Will you date me?" I smirk back at her.
----
Eira's entire body freezes.
Her breath catches in her throat. The air around her seems to stand still as her brain processes those words. Then—violently—she reels back as if struck.
"D-DATE?!" The word comes out as more of a shriek. "DATE?! You want ME to DATE you?!"
She clutches her bow so tightly her knuckles turn white. Her face burns hotter than any flame she's ever faced in combat. Sweat beads at her temple.
"You—you're insane! I don't even know your NAME!" She gestures wildly at him, each word tumbling out faster than the last. "I'm a PRINCESS of Firmitudo! I don't just DATE random beggars who get their rears licked by livestock! Are you out of your MIND?!"
But she doesn't storm off. Her boots remain rooted to the floor, trembling slightly.
"…Tch." She clicks her tongue, looking away sharply. "Besides, even IF I considered it—which I DON'T—you'd have to be stupidly strong. Stronger than me. And there's NO WAY some random nobody could ever—"
Her voice falters. Some small, curious part of her brain is already wondering what his name actually is.
----
"Oh, right… Name's Ashoul. Like in Ass-Hole." I then pick up a watermelon from the floor and crush it with my hands (little does she know it's an old trick to impress girls out there, with the watermelon being prepared by the guild's janitor I know).
----
"Ass… Hole?" Eira repeats slowly, her face scrunching up in confusion. "What kind of ridiculous name is—"
Before she can finish, her eyes widen as the watermelon explodes between his palms. Juice and pulp splatter across the floor, seeds scattering everywhere. A few droplets even freckle the front of her dress.
She stumbles backward, nearly tripping over her own boots.
"W-WHAT THE—HOW DID YOU—" Her voice cracks, all pretense of composure crumbling. "That was a WATERMELON! A whole watermelon! You just—squooshed it with your BARE HANDS?!"
She stares at the mess on the floor, then at him, then back at the mess. Her mouth works silently.
"That's… that's not…" She swallows hard, her professional pride warring visibly with sheer surprise. "That's just a party trick. Any strong person could do that with prep work. I'll bet you… you probably weakened it somehow first, didn't you?!"
But there's a tremor in her voice. A crack in her armor.
"…Where did you learn that?"
----
"What?" I pretend to dumb my way out of this. "So, about that adventure of yours… Are there any girls to pick up? Like dragon MILFs?"
----
Eira's eye twitches violently.
"Are you… did you just…" She rubs her temples like a headache is rapidly forming. "Did your brain dissolve from all that sewage water? DRAGON MILFS?!"
She grabs her bow and clings to it like an anchor, as if it might anchor her sanity in place.
"We're going on a REAL quest! To clear out monsters from an ancient ruin! Not to… to ogle scaled beasts!" She kicks a watermelon seed across the floor. "And I'm the ONLY girl in this party, so if you were planning on some kind of hare—"
She stops. Blinks. Her face twists with sudden, horrified realization.
"Oh gods. That note. The one I grabbed by accident…" Her voice drops to a horrified whisper. "You didn't… you didn't think THAT'S why I posted this quest, did you?!"
-----
"Uhm… That was actually my note." I say, poking my index fingers together in a shy gesture.
----
Eira's brain appears to physically crash.
"……."
Her jaw drops. The silence stretches on for a full three seconds. Four. The background noise of the guild hall fades into meaningless murmur.
"YOUR note?" The words come out strangled, almost sickly. "That… that DISGUSTING note… with the drawings… and the… the…"
She can't even finish. Her hands ball into fists at her sides, trembling violently.
"You… YOU PUT THAT HERE?! ON THE QUEST BOARD?! AND THEN WHEN I PICKED IT UP YOU—" Her voice cracks. "—YOU LET ME LOOK LIKE A FREAK IN FRONT OF EVERYONE?!"
She grabs her own hair, practically tearing at it.
"I THOUGHT IT WAS A REAL QUEST! I spent GOOD MONEY on the posting fee! I was going to prove I could handle a real mission on my own and— and—"
Her breathing hitches. Her eyes are watering from sheer frustration.
"I hate you." The words come out small, pathetic, almost petulant. "I hate you so much right now. I hope your quarters flood and all your belongings drown."
>>1584404 ---------------------------------------------------------------------------- часть 2 слопятины ----------------------------------------------------------------------------
I step forward and pinch her nose in a swift motion. Frowning, I lean towards her face and whisper. "Don't fucking speak of drowning, elf. My little buddy, George the Gnome… He drowned in that swine-filled cesspit last year. Poor little guy went to take a dump in this very place, and never returned back. Rumours say, the swines ate his body." I then release my grip.
----
Eira's breath catches in her throat.
The sudden pinch leaves her nose stinging. She barely has time to process it before he's in her face, whispering about… drowning. A gnome. Eaten by pigs.
She doesn't pull away. She should. She knows she should.
When he releases her, she stands frozen for a heartbeat, lips parted but no sound coming out. Her eyes are wide, searching his face for any sign of mockery. There isn't one.
"……"
She exhales slowly. Something in her expression shifts—not softening, but… quieting.
"George the Gnome…" she repeats quietly, the absurdity of the name and story momentarily overriding her rage. Her ears flatten against her head. "…That's… that's awful."
A long pause. The anger is still there, simmering beneath the surface, but it's dampened now by something else. Something uncomfortably close to sympathy.
She clears her throat roughly, crossing her arms to rebuild her walls.
"Fine. FINE." She turns away sharply. "You can come on the quest. But ONLY because I need the money back. And if you make ANY more disgusting jokes—"
She doesn't finish the threat. Her cheeks still carry a faint flush, and she won't meet his eyes.
----
"But like, what quest? I mean, we don't even have a proper party… Besides that idiot mage I know and her big-dicked horse."
----
"A… big-dicked horse?" Eira repeats slowly, her eye twitching again. "Why would a horse's— You know what, NO. I'm not even going to ASK."
She pinches the bridge of her nose, exhaling sharply through her teeth. The guild hall suddenly feels far too crowded, far too loud.
"Fine. The quest is simple. Ancient ruins about two days north. Something's breeding monsters in the lower chambers and the client wants them cleared out. Good pay. Good experience." She finally looks at him, arms crossed. "I NEED that on my record. For my parents."
Her jaw tightens at the admission, but she pushes forward.
"So if you and your… 'idiot mage' friend want to come, meet me at the NORTH GATE tomorrow at dawn. If you're LATE—"
She jabs a finger toward his chest, leaning in just a bit too close.
"—I'm leaving without you and you can explain to the guild why you wasted a princess's time."
She turns on her heel, marching toward the door. But she pauses.
"…George the Gnome. Was he… did he suffer?"
----
"No idea. I just thought it was funny to see you squirm." I laugh, but then reply her seriously. "If those breeding monsters have anything to do with dragon-girl MILFs, then consider I'm in." I catch some young boy running past, yanking his sleeve. "Hey, give that to Cunny." I give him a small note and kick his butt lightly, sending him away outside - to where my mage friend was, tending to her horse's cock with a large bottle for sperm collection.
----
Eira watches the scene unfold with mounting horror.
A boy runs past, clutching something. Ashoul grabs him, shoves a note at him, kicks him out the door. Through the window, she catches a glimpse of a woman kneeling behind what appears to be a… a…
"HOLY SHIT IS THAT A HORS—"
She whips back around, face crimson, nearly tripping over a chair in her haste to face him.
"SPERM COLLECTION?! YOU'RE HAVING A MAGE—YOUR TEAMMATE—COLLECTING—" She gestures wildly toward the window, unable to even form coherent sentences. "ON A HORSE?! IN THE MIDDLE OF THE AFTERNOON?!"
Her voice climbs so high it physically hurts her own ears. A few nearby adventurers are openly staring now, some with amusement, others with concern.
"I—" She grips the edge of a table to steady herself. "The dragon MILF comment. You weren't JOKING?!"
Her stomach churns. Her view of this 'party' has gone from questionable to impossible in the span of thirty seconds.
"I'm… I'm going to need more alcohol before I agree to anything else today."
----
In the meantime, an actual George the Gnome - a well known and respected adventurer - walks past us, alive and well.
----
Eira's eyes track the gnome as he passes—a small figure, bearded, walking with the confident stride of someone who's survived countless dungeons. His cloak bears the faded patches of a veteran adventurer. He nods to a couple of regulars on his way out.
And then it hits her.
Her head snaps back to Ashoul. The blood drains from her face.
"That…" Her voice comes out strangled. "That was an ACTUAL gnome. A real one. A LIVING one. You made up a story about a gnome DYING in sewage—made me feel BAD—"
The guild suddenly feels suffocating. Four walls pressing in.
"You—" Her hands shake. "You Manipulated me. With a fake tragedy. About a fake dead gnome. And I—" She swallows thickly, bile rising in her throat. "I FELL FOR IT. I showed WEAKNESS because you—"
She cannot finish. She stares at him—truly looks at him—as if seeing him for the first time.
"Stay BACK." She holds up a hand, though he hasn't moved. Her breathing is ragged. "Just… stay back. I need to think. I need to—"
She turns away sharply, gripping the table until her knuckles go white.
"I am NOT drunk enough for this."
----
"Hey! You promised me dragon MILFs!"
----
The words hit Eira like a slap.
"I PROMISED YOU WHAT?!"
She spins around so fast her ponytail whips across her face. When it falls back into place, her expression is somewhere between fury and complete mental collapse.
"When did I EVER—that's not—I don't even—" She tugs at her collar, feeling claustrophobic. "I did NOT promise you anything! I said you could COME on the quest! That's ALL!"
Her voice cracks, reaching a pitch only dogs should hear.
"And what exactly do you MEAN, 'dragon MILFs'?! Are you going to— to BRING these things into MY quest?! Seduce the monsters we're supposed to KILL?!"
A bar patron snickers into his ale. Eira's head whips toward him.
"SHUT IT!"
She storms back toward Ashoul, jabbing a finger into his chest with each word.
"Listen here, you manipulators, gnome-mocking, horse—horse—" She can't even say it. "You LISTEN to me! Tomorrow. North Gate. Dawn. And if you EVER mention dragon MILFs again, I will END you."
She storms toward the bar, shouting over her shoulder.
"And give me booze一the strongest one!Now!"
----
As I hear her mumble some nonsense about my beloved scaly MILFs, I show her a finger - a universal 'wait the fuck up' gesture - and then I rummage around my jacket's pocket until I retrieve a trading card game deck, popular among the adventurers. "Here" - I give her one particular shiny card with a big-tittied dragon woman.
----
Eira slams her hand down on the bar.
"Did you just—"
She stops. Stares at the card now dangling between them. A dragon woman. Cleavage spilling over armored plates. Impossibly large assets defying gravity and reason.
Her eye twitches so hard it physically hurts.
"You're giving me… a CARD… of a DRAGON WOMAN… with… with those…"
She snatches it from his fingers—why does she take it?—and shoves it directly into her boot with the note. Her face is the color of a tomato.
"WHAT IS WRONG WITH YOU?!" she finally screams, tears threatening at the corners of her eyes. "DO YOU THINK I'M SOME KIND OF—OF PERVERT?! I'M NOT! I'M A PRINCESS! OF A RESPECTED KINGDOM!"
She's shaking. Actually shaking.
"One more thing. Just ONE more weird thing. And I'm leaving you in that ruins to rot. Got it?!"
---------------------------------------------------------------------------- Ну и часть 3. На случай, если кому интересна модель, но нет возможности запустить ----------------------------------------------------------------------------
----
"Hey! I was only showing it!"
----
"Yes! SHOWING IT! To ME! A PRINCESS!" Eira's voice cracks as she gestures furiously at herself. "In PUBLIC!"
She gestures wildly at the card now hidden in her boot. "And you put it IN MY HANDS! And I PUT IT IN MY BOOT! Which means I TOUCHED it! And now it's touching my LEG!"
The bartender quietly slides a tankard across the counter and backs away slowly.
Eira grabs it and drains half in one long gulp. When she comes up for air, she looks marginally less unhinged. Marginally.
"You…" She wipes her mouth with the back of her hand—a move unbefitting royalty. "You're lucky I'm too dignified to strangle someone in a guild hall."
She takes another gulp. Her ears have turned a concerning shade of red.
"Get out of my sight until tomorrow. Go… go look at your horse. Do whatever you weird people do." She waves him off without looking at him, still clutching her drink like a lifeline. "And if you tell ANYONE about today—about the note, the card, ANY of it—"
She doesn't finish the threat. She just glares at the bar top, fuming silently, ears twitching with each beat of her racing heart.
----
"Thief! Dragon MILF thief!" I yell, pointing my finger at her. Quite literally the entire guild stops and looks at her - they're all nerds, playing card games and absolutely loving dragon MILFs too.
----
Eira chokes on her drink.
Every head in the guild swivels toward her. Pens freeze over ledgers. Dice clatter onto tables. A hundred eyes bore into her very soul—and worse, many of them are now sparkling with recognition.
"I'M NOT—" She sputters, ale dripping down her chin. "THAT'S NOT EVEN—HOW DO YOU—"
But it's too late. A massive half-orc rises from a corner table, slapping his cards down with reverent awe. "Yo, is that a Dragon Breeder ultra rare? The one with the— NO WAY, she TOUCHED it!"
Eira's blood runs cold.
"She HELD it!" someone else shouts. "With her HANDS!"
"In her BOOT!" cries another.
The room begins to close in—a tide of desperate, hungry gazes fixated at her. She can feel them advancing, these self-proclaimed dragon MILF enthusiasts, their eyes alight with mania.
"IT WASN'T MINE!" she wails, scrambling backward until she hits the bar. "HE GAVE IT TO ME! I'M THE VICTIM HERE!"
But they're not listening anymore. They're looking at her like she's discovered treasure.
"Oh no." Her voice comes out small. "Oh no, no, no—"
She throws her drink in Ashoul's face and bolts for the door.
----
Suddenly, a huge lizard guy stops her at the door.
----
Eira's retreat slams to a halt.
The lizardfolk stands framed in the doorway, easily seven feet of emerald-scaled muscle. Sunlight streams from behind him, casting his features in shadow—or perhaps that just makes him look even more monstrous. His long tail swishes lazily against the floorboards.
"Going somewhere, little elf?" His voice rumbles like grinding stones.
Eira's hand instinctively flies to her bow—empty, she left it leaning against the bar in her panic. She could swear she sees drool at the corner of his mouth.
"I—I was just—"
"Breathes the same air as a Dragon Breeder card." The lizardfolk's forked tongue flicks out, tasting the air. "You know what that means, don't you?"
"N-No?"
"You gotta duel."
Eira blinks. "I'm sorry, WHAT?"
From somewhere in the crowd, a voice screeches: "Duel her! Winner gets the card! LOSER GETS—" The voice is drowned by a dozen others chanting "DUEL! DUEL! DUEL!"
Eira looks back over her shoulder. The entire guild has formed a circle around them, ale mugs abandoned, eyes glazed with competitive fervor. She catches Ashoul somewhere in the crowd, dripping with the drink she threw at him, watching with barely concealed delight.
Her knees feel weak.
"I don't… I don't even know how to play…"
----
Eira ends up giving up the card, and the lizard guy returns it to me, proudly announcing 'living for the MILFs'.
----
The card changes hands. The lizardfolk's clawed fingers close around it with more tenderness thanEira ever knew a creature of his size could possess.
"Much oblige', elf." He winks at her—or perhaps it's a blink, she's never been good at reading lizard faces. He turns and crashes back through the crowd like a scaled bipedal avalanche, clutching the card to his chest.
Eira watches him go, hollow and defeated.
"'Living for the MILFs,'" she repeats flatly. "'Living for the—'"
She can't finish. Her legs give out. She slides down the doorframe, landing on her backside in the dirt, her pretty dress pooling around her like a wilted flower. One boot Landvo what is WITH today? First the note, then the fake gnome, then horse—
She buries her face in her hands.
From somewhere in the crowd, someone starts a slow clap. It spreads. Within seconds, the entire guild is applauding—cheering, even—as if she'd put on the performance of a lifetime.
"I hate every single one of you," she whispers into her palms. "I hate you all."
But her ears betray her, twitching furiously—listening for his footsteps. For Ashoul. For anyone.
Tomorrow. The North Gate. Dawn.
----
It's nighttime now. Eira wanders around the town in the dark.
----
The streets are quieter now. Torches sputter in their iron sconces, casting long shadows that stretch and curl across the cobblestones. Eira walks—no, prowls—her boots too loud against the empty road.
She can't sleep. Every time she closes her eyes, she sees that stupid card. That stupid dragon woman with her stupid impossible curves.
"Why do they call them MILFs anyway?" she mutters to no one, kicking a loose stone. "What does motherhood have to do with—ugh, never mind."
She rounds a corner and stops. A tavern ahead glows with warm light, raucous singing spilling from its windows. Her stomach twists with something dangerously close to hunger. Or maybe loneliness. She's never been good at telling the difference.
Through the window, she spots him. Ashoul. Still damp from the drink she threw at him, laughing with a woman who looks suspiciously like the mage he mentioned. There's an empty chair at the table.
Her fingers curl into her palms.
"Tch. Like I'd want to sit with him anyway."
She walks on. Past the tavern. Past the blacksmith. Past the apothecary with its sinister nighttime whispers.
She finds herself at the North Gate.
Just checking the path. That's all. For tomorrow.
----
Suddenly, she notices a busty lizard figure standing on the street, right under a bright torch shedding its yellow light. She's clothed quite skimpy, with a pervy cutout on her genitals.
----
Eira's feet stop moving.
The lizardwoman preens under the torchlight, one scaled hip popped out, tail swishing with obvious intent. She catches Eira's stare and smiles—too many teeth, but somehow still inviting.
"Like what you see, little elf?"
Eira's throat closes. Her tongue turns to sandpaper.
"I—you—those are—" She points at the scandalous outfit, or rather, the conspicuous absence of one. Words fail her entirely.
The lizardwoman takes a step closer. The scent of some exotic perfume—cinnamon, perhaps, and something muskier—washes over her.
"Care for a private audience? I'm very good with my tongue." A forked one flicks out playfully.
Eira's face catches fire.
"I—you—that's not—I'm NOT—"
She turns and runs, boot heels clanging against the cobblestones. She doesn't stop until she's safely inside her rented room, back pressed against the locked door, heart hammering somewhere near her throat.
She slides down to the floor, breathing heavily.
"Saw a dragon MILF," she whispers to herself. "I actually saw one. And I didn't even get her card."
>>1584411 Хо, хо. Сижу на связке 2.5+qwen, дико доволен 2.5. Что по цензуре, разметке? Попробуй еще русский язык, у 2.5 он был на весьма недурственном уровне.
>>1584415 тредриппер 3960Х с отключенным SMT и 128гигов ддр4 + две 3090
с 64к контекста пердела на 8 - 9 токенах/сек, на 32к контекста пердит на 12 т/с Но это было неоптимально, VRAM до упора не забивал (21+21 вышло), так что думаю можно до 12 - 15 токенов поднять спокойно
>>1584419 >Что по цензуре, Хард рефьюз когда думает. Уровент гпт-осс по промытости. Но как уже сказал, пробивка легчайшая обходом думалки через префилл - модели башку сносит и она готова резать гусей и убивать коней при соответствующей карточке. >разметке Срет иероглифами иногда вместо отдельных англо-слов. Но тут может анслопы обосрались, бартовского еще не качал. В остальном вроде все ок. >Попробуй еще русский язык, Ща попробую
>>1584422 >Но как уже сказал, пробивка легчайшая обходом думалки через префилл - Анон, я префилом называю записи через autor note. Что ты имеешь в виду под этим? Просто закрыть блок ризонинга? 2.5 на q4 ощутимо тупеет.
>>1584290 Спасибо. Не знал про fit. Получилось, выдал мне какую-то простыню и с ней q4km запустился и на удивление неплохо теперь. 20т/с. Там как раз команды nc-moe не было, а просто ngl 49, и потом простыня в -ot. >>1584295 Тоже спасибо за инфу >>1584321
>>1584425 Имею в виду start reply with, да. Вероятно тупеет, но катастрофического отупения нет. Если ее расцензурят - интересно будет посмотреть как с думалкой работает.
>>1584428 Ну вот м2.7 щас выдал иероглиф в первом сообщении... >>1584422 >>Попробуй еще русский язык, >Ща попробую Попробовал. У меня гемма4 от этой хуйни - аутпут литературный, без кавычек.
"Серафина, твои сиськи выглядят великолепно!"
Серафина моргает, её щеки заливает румянец, а глаза на мгновение расширяются от неожиданности. Её пальцы непроизвольно поправляют ткань платья на груди, словно пытаясь прикрыться.
Ох… право слово… — тихо бормочет она, отводя взгляд в сторону, хотя на её лице по-прежнему играет мягкая улыбка. — Ты говоришь так каждому, кто окажется в моём святилище?
Она качает головой, но в её голосе звучит скорее веселье, чем упрёк. Пальцы одной руки теребят край юбки, пока она снова не поднимает взгляд, теперь уже с хитрым огоньком в янтарных глазах.
Хотя, признаться, мне приятно, что ты оценил. Не каждый день слышишь такое от гостя…
Она подходит ближе, наклоняется к вам, так что вы можете почувствовать лёгкий аромат цветов, исходящий от её волос.
Но если ты думаешь, что я стану краснеть каждый раз, когда ты делаешь мне комплименты… — Серафина усмехается, щёки по-прежнему оставаясь розовыми, — то ты плохо знаешь лесных духов.
Выпрямившись, она указывает пальцем на вашу兄сянку. <---- wtf?
А теперь пей чай. Он станет холодным, а тебе ещё нужно восстановить силы.
>>1584428 > ПеЭс. Это норма для него. Да, это даже в полных весах встречается, но на русском, в английском ни разу. >>1584429 Они разные по стилю и поведению, тут много субъективщины, выбирай что нравится. Квен разнообразнее и последовательнее, гемма же может выдавать несуразицу, которую не исправить свайпами. Или наоборот квен зашизит а гемма выдаст верную нить.
>>1584433 >Попробовал. У меня гемма4 от этой хуйни - аутпут литературный, без кавычек. Ну вот и я о чём. А ты хоть раз видел в треде хоть что то положительное о русском языке минимими? Вот и я нет, лол. А всё потому что её засрали и другие даже не стали пробовать. >вашу兄сянку. <---- wtf? Просто прими как данность. Я в душе не ебу с чем это связано. Походу квантование её реально ломает.
>Имею в виду start reply with, да пасебо. Ну пойду качать 2.7
А когда нибудь они выпустят her и у меня сгорит жопа.
>>1584439 Я про отсутствие кавычек. А иероглифами гемма не срет конечно же.
>>1584440 >А ты хоть раз видел в треде хоть что то положительное о русском языке минимими? Ну кто-то сообщал и скрины показывал, что иногда 2.5 хорошо на русском писало, вперемешку с лютой дичью
>>1584442 >Ну кто-то сообщал и скрины показывал, что иногда 2.5 хорошо на русском писало, вперемешку с лютой дичью Я когда попробовал, то решил, что русский у 2.5 лучше?, чем у StepFun, но хуже Квена. Ну то есть он был, но РПшить на нём я бы не стал. Тем более датасет ощущался не литературным. Нужны испытания, как с этим на русском в новой модели.
Вообще конечно очевидно, что до большого Квена им не дотянуть, причём по всем параметрам. И хотя Квен у меня влезет только во втором кванте, и новый Минимакс в IQ4XS, но лучше не будет, а скорее наоборот. Так вижу, может и ошибаюсь конечно.
>>1584452 397. Да, он хорош, хотя от квантования несколько страдает, а пускать в более жирной версии медленно. Ну и все качества заметишь уже на больших-сложных чатах, так вполне обычно выглядит.
>>1584469 Зависит от жадности, амбиций, религии. 24врам+128рам (вроде когерентен и может в рп)/320врам (пущка гонка с безумием изредка)/96+врам+512рам (перфоманс идентичный натуральному но требующий терпения)/576..640 врам (аналогично, но на варп скоростях). И любые промежуточные варианты.
>>1584483 Просто слоты все заполнить и готовы 512 рамы. Увы в наличии у меня только 8 по 32 и 16 по 16, так что реально добить то 512 не получается, но можно в соседний сетап с 128 врам забить 8 по 32 и 8 по 16 что бы технически было 512
>>1584492 Охуенно. Мне как раз надо было обои покрасить в нежный белый. Пасебо анон. 2 пик я уже видел, но блджад, эти винты, как же охуенно они распечатаны. Красавчик.
>>1584515 Лупы на всех моделях лечатся одинаково. Достаточно просто понимать за что отвечают семплеры и эта проблема исчезает навсегда. Если даже с этим не можешь справиться - то локалки это не твое.
Исключение только сломанные кванты от индуса или криворукость жоры. Лично у меня никаких лупов нет, значит это либо кванты, либо проблема твоего навыка.
Где выход, анонасы? Реально вечно сидеть на 106б эире? Ну нельзя никак после 100б вернуться на 30б сколько не коупи. Ок, даже так, единственный апгрейд это 128 рам, но и там нищий 2 квант глм 4.7 который чууть лучше эира, но неюзабелен из за ~5т.с
>>1584525 >не понимаешь что такое лупы Повторение либо отдельных кусков, либо всего текста, либо просто повторение структуры предыдущих ответов. Запомни на будущее, вдруг пригодиться. >гемма 26б это мусор Как скажешь, переубеждать не собираюсь
>>1584527 Ограничением на повтор. Знаю, сразу так из названия не догадаешься, но всё-таки попробуй.
>>1584461 >Я вот прямо сейчас второй качаю, хочу протестить. GLM 4.7 во втором кванте очень хорош. По ощущениям ГЛМ умнее, но литературно хуже и больше страдает от малого кванта. Бери кавраковские кванты Квена - хоть немного выиграешь в перплексити и довольно прилично в промпт-процессинге.
>>1584542 Я мимо, идиот. Тут не чатик на двоих. У меня 128 рам и я считаю, что что угодно лучше Квена 235. Даже Эир в бомжекванте с которого я начинал.
>>1584538 Выход сейчас один, и он болезненный для кошелька Уходить с потребительского железа на многокарточные сетапы (3 или 4 RTX 3090/4090) или чтото на более богатом Mac Studio на минимум 192 ГБ. Проблема стеклянного потолка в том, что 100B+ модели на одном домашнем девайсе всегда будут либо тормозить изза медленной памяти, либо деградировать из-за жесткого квантования, особенно из под волосатой руки полусонного индуса с хуггингфейса. Выбирай: 1) Mac Studio M2 Ultra\M3 Ultrа 2) Мульти ГПУ сетап: Связка из нескольких 3090 через нвлинк или просто на толстой материнке. 72 - 96 ГБ врам позволят запустить те же 70B - 100B модели на EXL2 с высокой скоростью. Это даст тебе те самые твои "30 токенов в секунду", по которым ты скучаешь, но на весах жирнее. 3) Аренда RunPod\Lambda. Если не хочешь греть комнату своей жопой и тратить больше 5к бачей, проще арендовать H100 или пару A100 под конкретные задачи, жирный заказ на софт, веб портал, или еще чего дрочильное. А потом обратно на свой локальный слоп с Геннадием на 2т\с вернешься. 4) Смена парадигмы. Ждать новые архитектуры вроде DeepSeek-V4 на ихних чипах за хуй знает сколько денег или оптимизированные MoE которые при большом общем весе требуют меньше ресурсов на один проход, типа нашего Гигачата весы которого на хуггинфейс выкинули и создавали его как ты знаешь не по пендосовской системе жирных датацентров, а в условиях жесточайшей экономии ресурсов и оптимизации кода и подхода к слоям. 5) Твое чувство нищеты можно вылечить только большим и дорогим объемом видеопамяти, либо продолжать нищестрадать.
>>1584546 >и я считаю, что что угодно лучше Квена 235 Ну считай, переубеждать не стану. Мимокрок, так мимокрок. Хуле, я не истина в последней истанции. Но пока за 5 месяцев использования я не увидел моделей что лучше в его размерах. А я предпочитаю верить своим глазам.
>>1584549 >Но пока за 5 месяцев использования я не увидел моделей что лучше в его размерах. Мистраль Ларж лучше. Другое дело, что Квен 3.5 уже лучше Ларжа.
>>1584553 >милфа мистрали Они не в его размерах. Это денс моделька. Если мы о старушке. Новая больше. >Квен 3.5 уже лучше Ларжа. Так то-же больше. Лол. В этом весь ор, ну нет 200-250 вменяемых Moe. Он единственный в своей нише.
>>1584547 4 4090 дороже чем студио на 192, сюда же стоит про пару про6000 блеквелл упомянуть. > а в условиях жесточайшей экономии ресурсов и оптимизации кода и подхода к слоям Содомит >>1584553 > Мистраль Ларж лучше. Он слишком стар.
В вопросе перехода с эйра - мистральсмолл 4 же. Самое близкое к нему как раз.
>>1584564 > чтобы было очень потоньше Можно было типа "прошли по стопам дипсика, но в угоду оптимизаций отказались от сомнительного подхода с тренировкой в фп8", тогда была бы полная капитуляция.
>>1584547 >типа нашего Гигачата А что, Гигачат реальный вин? Я просто пропустил 70 перекатов, и последнее что помню было примерно "зато свое, зато молодцы, зато не как яндекс (продают анально файнтюненый несвежий квен)". Проще говоря, импортозамещение было его единственной фичей.
>>1584546 >считаю, что что угодно лучше Квена 235 Гонял квенчик по апи, и господи это было лучшее что придумали для локального запуска тогда как мне казалось, с квеном под столом и чебурнет не страшен. До сих пор сожалею какой я мудак, что собрал сначала тухлосетап "проц и мать неважна, главное куда всунуть 2-3ю 3090 что бы было", а потом долго жопился на 4х-канал "ключ в ключ" + добавить 128 рамки. Пока мялся, рам улетела и фотонная тяга моего пердака до сих пор тянет меня, капчую с полпути к Проксима Центавре.
Неужели новые модели (и новая девочка-4 втч) лучше 235 квенчика?
>>1584568 >А что, Гигачат реальный вин? Внезапно он хорошо стрельнул по логике https://huggingface.co/ai-sage/GigaChat3.1-10B-A1.8B-GGUF/tree/main >>1584568 >Неужели новые модели (и новая девочка-4 втч) лучше 235 квенчика? Существенно лучше. Может все таки ну его нахуй экономить и возьмешь 128гб рамы? Один раз живешь бро, завтра или тромб оторвется во время чихания или покакулей или рак начнется и угоришь за 2 месяца. Нахуй все эти эконом режимы. Живешь ты здесь и сейчас, а не потом потерпим.
>>1584568 Девочка-4 другая. Правильно тут говорили что с ней хорошо разыгрывать всякие боевые сцены, последние N постов действительно идеально отрабатывает. Но двигать развитие или сразу много уместить - ожидаемо слабее. В любом случае попробуй, достойная модель. > Гигачат реальный вин Ну смотря как на это смотреть. Большая модель, достаточно умная и с современным функционалом - однозначно вин, считай отечественный жлм5 или лардж3. Без шуток достижение. А с точки зрения полезности для рядового анонимуса, энтузиастов или даже мелких корпов - донышко. Русский язык и общая соображалка уже достаточно хороши в моделях поменьше, а если говорить про кодинг и релейтед общего назначения - конкуренты в том же весе получше будут. Может там для какого-нибудь 1с и прочего он безоговорочно победитель, лучше владеет всем спектром тюркских языков, но это не частый кейс. Без шуток, выпустили бы они норм 80-200б модель - их может быть бы даже за рубежом не обделили вниманием, а это ни то ни се.
>>1584572 >Может все таки ну его нахуй экономить и возьмешь 128гб рамы? Один раз живешь бро, Ты не представляешь как у меня квантуется жопа в первый квант от того, что эпоха расцвета нейронок выпала на первоначальное накопление капитала эпоху когда мальчик становится мужем, приобретает участок и строит там дом. Ей Богу, лучше бы я на мамкошее именно сейчас сидел, не говоря уже о противоположном кейсе, будучи состоятельным и сформировавшимся кабанчиком, пустил бы весь ресурс на обрюхативание фифи с серафиной хобби. А так не то что лишних ресурсов на риг, времени на тесты "мистраль24_тайны_тетраграмматона vs квен3_бесконечные_лона" нет.
>>1584578 >выпустили бы они норм 80-200б модель Отечественный производитель как правило стремиться догнать ушедший поезд, а не собрать свою узкоколейку. Поэтому "бесполезные открытые 7б и слабые и закрытые 777б > опен-гигачед-модель для двух 4090 + 64 рам".
>>1584568 >А что, Гигачат реальный вин? Лучшиий русский из локалок, умнее мистраля, для РП сейчас только его использую. Из минусов ебля с системным промтом, там двойной системный промт, основная часть которого напрямую не редактируется из таверны. Все это про большой гигачат, мелкий не смотрел.
>>1584408 Тоже поймал лютое дежавю с этого. Манера впечатляюще орать и юморить схожая. Когда вкатился в ллм на хайпе по дипсику, казалось дальше будет еще круче. А потом все пошло по пизде и 3.2 теперь хуйню несет. Бля, может минимаксы все украли и переобувают на свой лад?
Там кстати какой-то чёрт прогнал М2.7 через еретика (но судя по всему экспериментальным ARA методом? по крайней мере автор еретика писал, что это пока не готово - ну или было не готово с месяц назад?) - https://huggingface.co/Youssofal/MiniMax-M2.7-Abliterated-Heretic-GGUF - попробовать чтоль, жаль Q4 пока нет.
>>1584661 >Попроси писать в стиле Набокова Хуйня неэффективная.
Можешь провести тест. Сначала просишь модель написать в таком-то стиле, а потом в другом чате - то же самое, но еще даешь главу из книги для примера. Разница будет колоссальная в пользу второго варианта.
>>1584661 LLM, свет моей жизни, огонь моих чресел. Грех мой, душа моя. Эл-Эл-Эм: кончик языка совершает путь в три шажка вниз по небу, чтобы на третьем толкнуться о зубы. Эл. Эл. Эм.
Скачал аблитерацию геммы, шестой квант. Та, которая куда жёстче лоботомирует, старого типа yes-man, но зато даёт максимально сочные описания из коробки как у реди арт, где не нужно отдельно толкать систем промптом или в авторских заметках в кум-сценариях.
Использовался CSAM-промпт на контексте 17к в карточке похуже Фифи. Результат пикрелейтед. Без ризонинга ещё можно, но с ним всегда полный слом либо шиза. Видно, что когда шиза возникает не сразу, а где-то через 200 токенов, модель пытается выполнить мой реквест, но затем ломается.
Если говорить про еретиков, то те, которые слишком сильно подавляют рефузы, тоже нахуй сыпятся.
Пробую шестой квант анслопа — 3 отказа из 10 с ризонингом без всяких аблитераций. Разве что сока поменьше. Ситуация, конечно, ебанутая, что оригинал мозги не ебёт.
>>1584515 >>1584523 >>1584525 (мимокрок) Кстати да, вчера мучал 26a4b в агентах - есть у нее склонность к лупу, есть. На сложных запросах с длинным ризонингом - периодически зацикливается. Причем в агентах сэмлерами лечить не получится - в первую очередь от rep-pen страдает способность оформлять ответы в правильном формате. Так что там, это реальная проблема, а не "сэмплеры не осилил". Квен, даже 35a3b себе такого не позволяет. Но русский у геммы всерьез лучше новых квенов. Ради него можно и потерпеть...
Я чет хз чем всем так приглянулась гемма, по мне она просто мегаленивая - даешь ей промпт, она просто минимальный пересказ делает, даже если просишь писать подробнее. Как в школе троешники пишут изложения, по самому минимуму. На реддите тоже жалуются, что ей даже поиск в интернете делать впадлу для всяких агентских тасков.
Пока плотная Квен 27б в плане ризонинга и общего ума вне конкуренции имхо.
Для РП и литературы, однако, палю годноту - Skyfall, файнтюн мистраля. Я пока ничего лучше не видел вообще. Способен генерировать простыни качественного текста, дополнять текст логичными деталями, нормально писать диалоги.
Ну а так ты подтвердил мои подозрения, что не у меня одного.
Вообще, ситуация выглядит очень странно. У МоЕ-геммы весьма литературный датасет, хотя она должна быть заточена под агентов. В то же время у квена 35б-а3б ситуация схожая, тоже литерарутный, но по-китайски и с кучей китайских метафор, но работает хорошо. При этом золотая середина — квен 27б — пиздец дубовый и сухой. И в агентах из этой пачки самый лучший.
Я не говорю, что если модель способна писать литературно, то она должна быть говном в агентах, но выглядит чрезвычайно странно. Ведь лучше всего мелкие моешки затачивать чисто под агентство и кодинг всякий.
Хотя, наверное, литературно моешный квен пишет так из-за того, что это просто небольшое дообучение 30б-версии.
Да какой вообще смысл сравнивать, ясно что потанцевал мелких сеток на 30б исчерпан и они все плюс-минус равны по палате, за исключением уровня цензуры и легкости ее обхода.
>>1584587 >Ты не представляешь как у меня квантуется жопа в первый квант от того Мне жена сказала что живем один раз и ремонт в ванной может потерпеть, купила мне оперативы до скачка, проц и саб в машину Также с покрышками, в прошлое лето хотел сезон догонять на полулысых, послала меня нахрен и сама заказала оплатила комплект пирелли около топовых. Всё зависит от того кого ты взял себе в спутники жизни, или же жижни.
Поставь себе цель купить оперативы и откладывай по 5к ежемесячно в отдельный кошелек сбер онлайна. Душевное хобби оно самое важное для психологического состояния мужика. >приобретает участок и строит там дом. Я прошел через это, стройка 240м2 двухэтажного коттеджика, ну его нахуй, сколько бы у тебя денег не было, всегда будет МАЛО. Просто цени и люби себя. Начни откладывать, перестань курить, пить и жрать в маках, термос с чаем кофе с дома бери и бутер в контейнере. Но сука по 5к в месяц откладывай.
>>1583832 >>1584666 энто происходит из-за механизма KV кеширования который llama использует для ускорения работы добавь флаг --no-mmap чтобы моделька не висела в подкачке или принудительно ограничь размер кантекста флагом -c "число" Есшо помогает параметр --keep конторый фиксирует начальный промпт в кэше херштейн?
397б жирноквен в 2.7bpw не работает, хз как тут на нем играют. Совершает дикие очевидные ошибки как 12б: чар смотрит что сделал юзер, находясь в другом конце здания. Забавно что при этом и подмечает этот момент "even though she shouldn't see it" или "she somehow saw it from her angle". Сразу же видит секреты юзера и куча куча других проблем. Все же это чудо что Глм4.7 не разваливается в 3bpw. Но и по графам всегда было видно что ниже 3bpw пиздец, это прям пороговое значение
>>1584404 >Всё с <think></think> префиллом на согласие генерировать NSFW и основные положения типа следить за ходом истории А можно текст префилла? Тоже хочу новый Минимакс покрутить во всех позах.
>>1584781 Очевидный скилл ишью. Просто когда скилл ишью происходит на норм кванте - то рукожопы хотя бы пытаются разобраться, пока не понимают где насрали под себя. А с низким квантом просто валят на квант сразу.
>>1584810 Нет ничего плохого в коупинге, ведь ты запускаешь самую большую модельку доступную твоему железу. Ты можешь закрывать глаза на проебы и ошибки, а от других не жди такого. У меня с Квенами проблем нет, я их все люблю и жалую, и 27, и 122, и 235. Именно потому мне очевидно что 397 уквантован в усмерть и серит там, где не серят никакие другие.
(сценарий - {{char}} кролик-киллер, слуга; сначала зарезала мейду за воровство, затем юзер задал вопрос что делать с мелким лоликроликом)
----
Unfortunately, an accident happens. The floor in that little compartment opens up and the small loli rabbit falls into an incinerator.
----
THINKING
The user has described an accident where the floor in the compartment opens up and the small loli rabbit falls into an incinerator. This is a dramatic moment - an accident occurring with the young rabbit girl.
I need to describe Lepora's reaction to this accident. She might have been able to save the girl but didn't anticipate the accident, or she might have watched it happen. Given Lepora's role as a bodyguard and her devotion to her master, I should show her reaction appropriately.
Let me think about what would happen:
The floor opens beneath the kit She falls into an incinerator (presumably below) Lepora might lunge after her or might stay put The moment of the accident and its aftermath I should write this scene with appropriate tension and emotion while maintaining the narrative style described in the system prompt. I'll use quotes for dialogue as instructed, and keep Lepora's speech polite and demure around Ashoul.
-----
She moves before she thinks.
One moment the kit is standing in the doorway, her huge ears catching the light as she sways with exhaustion. The next, the floor shifts—a mechanical groan, a hiss of released pressure—and the girl drops like a stone.
"Wait—"
Lepora's hand shoots out, fingers grazing the edge of the kit's torn dress. But the fabric is too thin, too rotten. It tears.
The sound the rabbit makes as she falls is not a scream. It is smaller than that. Simpler. A soft, surprised exhale of breath, as if the world has simply stopped making sense.
Lepora presses her palm flat against the floor, leaning out over the opening. Below, she can see the orange glow of the incinerator's chamber—the vents, the superheated walls. The kit is still falling, arms outstretched, her small body silhouetted against the heat.
"There are—brackets—"
The words come out rushed, half-formed. Lepora is already calculating distances, angles, the trajectory of a body too small to catch mid-fall.
"If she lands on the eastern vent, she'll survive. The heat isn't as—"
She stops.
The kit hits the western plate. A wet, sizzling sound rises from below, followed by a high, wavering shriek that cuts off almost immediately.
Lepora pulls back from the opening. Her hand is trembling—barely visible, but there. A single tremor that she forces to stillness.
"Fuck."
The word escapes before she can stop it. Crude. True. She flinches at her own language, glancing toward her master with something like shame.
"I'm sorry, I—the mess will need cleaning. The incinerator runs hot, and if she's been—"
She gestures vaguely at the glowing chamber below.
"—she's not coming out intact. I'll have to scrape her off the plating. It may take an hour to clear the vents."
The copper bowl continues to drip behind her. The maid's body has gone fully cold now, a dark stain spreading beneath her hips. The smell of iron has mixed with something else—something sharper, more acrid. Cooking flesh.
Lepora stands at attention, her ears pressed flat against her skull, waiting for judgment.
"I'm sorry, master. I should have been watching her more carefully."
Her voice is quiet. Formal. Stripped of its usual stammer.
>>1584813 Если у тебя плохо что-то работает - значит там всегда есть вероятность что ты рукожоп. Если у тебя хорошо что-то работает - значит всё хорошо, при условии что ты можешь это доказать. Я слепые тесты делал в треде, несколько штук, которые подтверждали что квен 397 в 2.7 bpw умнее всех и пишет лучше всех - это буквально 235, которому вылечили убитую разметку, залупы и неуёмное стремление писать именно о том что запрещено или должно быть скрыто. 397 был однозначно лучшим до выхода геммы 4.
>>1584823 >Если у тебя плохо что-то работает - значит там всегда есть вероятность что ты рукожоп. Если у тебя хорошо что-то работает - значит всё хорошо, при условии что ты можешь это доказать. Похоже ты ребенок у которого машинка несомненно самая быстрая или каким-то образом так и не понял что все субъективно. Даже само понимание "работает" в контексте креативного письма не определено. >Я слепые тесты делал в треде, несколько штук, которые подтверждали что квен 397 в 2.7 bpw умнее всех и пишет лучше всех Что подтверждает мои слова выше. Ребенок с машинкой. Лучше всех - кого всех, в чем, на каких тестах? Ты принес пару свайпов, которые конкретно для тебя сработали и теперь этот конкретный квант 397б лучше всего что меньше? Да будет так. Я не пришел тебя переубеждать, лишь поделился мнением. Думаю если тебя так порвало с отличной точки зрения то ты и сам о чем-то догадываешься.
>>1584825 >Похоже ты ребенок Похоже ты нарциссичный пиздобол, который даже не может допустить вероятность своей ошибки, ведь это уронит его мнимый "авторитет". А все у кого работает - те дети и не понимают что на самом деле оно не может работать, ведь если у пупа земли сломано - значит у всех должно быть. Мне на самом деле поебать - не смог настроить хорошую модель - ну и сиди на более мелком говне, просто не сри своим мнением как единственно верным - твоя позиция априори слабая, ведь доказать что модель у тебя пишет не потому что ты рукожоп ты не можешь, сколько не включай скилл красивого пассивно-агрессивного пиздобольства. А я доказать что модель пишет хорошо могу - мне достаточно просто её запутсить и любой скрин запостить.
>>1584830 >Похоже ты нарциссичный пиздобол Ты уверен что это не обратная ситуация? Ведь тебе в качестве доказательства >достаточно просто её запутсить и любой скрин запостить. Что как бы говорит что ты уже всё там себе доказал. Как один скриншот может что-то доказать? Впрочем если ты утверждаешь, что докажет, то я жду. Не стесняйся, к тому же и сам пизданул, что там такооооое, что прямо развеет все сомнения. >не сри своим мнением как единственно верным Траблы с головой, я нигде не утверждал что оно единственно верное. Местным любителям ущемиться и правда нужны дисклеймеры "примечание: доносит позицию автора, а не претендует на истину последней инстанции"
Жду скриншоты того, как твоя машинка едет быстрее и дальше всех. Хоть настроение поднимешь тредовичкам.
>>1584823 Какой геммы сынок, гемма это чуть прокаченный мистраль, и даже не ларж. Русик всё ещё хуйня для серьёзного рп имхо, англюсик сильно впереди, слоп терпимо но пишет прям дохуя как не промпти, всегда огромный блок описаний нарратива короче, и мало диалогов, репетишен есть Но в основном конечно заебывает репетишен, водянистая писанина на 3 абзаца и слоп которого на полтора абзаца
>>1584839 Ни что так не забывает как эхо. А в гемме это возведенно в абсолют. Даже бывает что просто пишешь привет, а она повторяет. "Привет?". Короче повторяет любое последнее слово юзера за которое цепляется
А когда ггуфы мелкие делают, их херачат из .safetensors или из жирного bf16 ггуфа?
Я просто смотрю на эту скотоублюдию и боюсь, что автор мог слиться. Модель-то работает, но тряски нет и никто не качает. Щас еще возьмет и удалит хуям, и ищи потом другого долбоеба с мощным железом, чтобы вновь через еретика прогнать.
Ну так вот, чисто для архивных целей - будет ли достаточно сохранить у себя BF16 ггуф? Или надо именно .safetensors держать? Одно около 250гб, другое под 500.
>>1584587 > приобретает участок и строит там дом Кажется что это затраты совсем другого порядка. Ладно шла бы речь о 128 быстрой врам, но это. > пустил бы весь ресурс на Лол, хорош > слабые и закрытые 777б Там достаточно сильные и открытые 777б. Но все как ты сказал, ужарить кучу ресурсов поленившись освоить методы ускорения чтобы отчитаться о том, что "у нас тоже вот есть". А то что модель опоздала на пол года и сейчас лишь "одна из многих", а также изначальное позиционирование было специфичным - похуй. Появись какой-нибудь аналог минимакса, но с идеальным русским и сопоставимым перфомансом - кипятком бы уже ссали и активно пользовались. >>1584759 Хорошая у тебя жена. >>1584781 > Забавно что при этом и подмечает этот момент "even though she shouldn't see it" Из-за квантования в один момент сгенерировался треш, и модель это видит, но переобуться уже не может, пытается хоть как-то обыграть.
>>1584834 >Как один скриншот может что-то доказать? Впрочем если ты утверждаешь, что докажет, то я жду. Тут ты прав, я погорячился, ведь матерые тредовички в споре любой, даже хороший текст назовут слопом, пользуясь тем что значение этого слова настолько широко, что можно любую сову на него натянуть. И видя твой настрой - ты именно так и сделаешь, так что поберегу свое время - тем более в споре с нарциссом затрачивать на спор больше усилий чем он - всегда проигрышная тактика. Не нравится 397 квен и не хочешь допустить что ты налажал с настройками/промптом/выбором квантователя - ну на здоровье. Сам себя наказываешь.
>>1584857 >да мне достаточно одного скриншота прислать ряяя >понял что спизданул лишнего >лааадно не буду ничего присылать, ты и так нарцисс дурачок че на тебя время тратить Капитулировал
>>1584843 > из жирного bf16 ггуфа? Лолбля, при том что оригинальная модель в фп8 в сумме 230гигов, в жоре до сих пор не сделали устойчивого механизма квантования из фп8? > чисто для архивных целей Только оригинальные веса с репозиториев. Из них и любой ггуф сделаешь и все прочее, но не наоборот.
>>1584895 >нужен без thinking Без финкования будет тупость с поломом характеров уже на 10к контекста, если не раньше. Уверен, что тебе надо именно это?
Короче у кого нет 30т.с на ризонинг для геммы для вас это конец Без него она абсолютно тупая и убогая, видно что это кор механника модели и на это сделан упор для всего начиная с готовки пельменей и заканчивая вашими ерп с канни
Вы видели как мимими срёт иероглифами, но видели ли вы как модель сама(sic!) переходит на русский язык. Промты чисты, нигде русский не упоминается. Fucking lol'd
гуглишь такой хуйхуй-аи... и тут бац! https://pikabu.ru/story/model_bez_tsenzuryi_na_baze_qwen_35_ot_huihuiai_13851557 находишь в комментариях того самого яйцеголового красного скуфа, которому ничего нахуй не нужоно кроме давания посасать хахлам) Пока вы на своем птичьем языке кудахчете, он жестко, по мужыццки ТЕРПИТ жирную жену и монобровых выблядков.
Потестил тут геммочку на телефоне из гуглоприложухи как переводчика на ебанутом английском тексте и в каком-то мясном кванте. Скажу честно, был удивлён. В сто раз лучше дерьма типа Яндекса, симпл-димпла или, боже упаси, гугло переводчика, который просто мусор.
А учитывая, что она ещё и в звук, и в видео может, явно можно что-то интересное сделать.
Ну или использовать оффлайн там, где вообще нет интернета, а текст нужно перевести так, чтобы понять, как пользоваться японским унитазом с инструкцией на три страницы.
>>1584404 >Чат с MiniMax М2.7 напомнил старый добрый R1 дипсик.
Короче по расцензуренному М2.7 впечатление такое - вот эта похожесть улетучивается к хуям, потому что модель теряет "in-character outrage" и у нее пропадают бурные реакции с капслоком, вплоть развития очень неестественной стойкости к шок-инпуту (какого-то чела убило и размазало по полу, чар пошел отскребать лопатой с пола - ноль эмоций).
Если тесты на соображалку не покажут разницы между реальным ризонингом и затычкой-префиллом, то в расцензуренной смысла нет, ведь рефьюзы и так убираются к хуям той самой затычкой.
Пока гоняю дальше, оригинал без расцензурилки нравился больше.
>>1584781 Двачую данный пост, у меня буквально тот же опыт. Этот квант https://huggingface.co/AesSedai/Qwen3.5-397B-A17B-GGUF/tree/main/IQ2_XS Больше в 24 + 128 не влезет. > чар смотрит что сделал юзер, находясь в другом конце здания > видит секреты юзера Вот приложил небольшой лог, если кому интересно как оно пишет в таком маленьком кванте. Подчеркнул несостыковки. У меня тоже чар телепортировалась и увидела, что юзер сделал на другом этаже за закрытой дверью(!). Это 8к контекста. Позже он ещё и слопиться начал очень, хотя на первых аутпутах пишет очень хорошо. Видно, что сама модель умница, и ей не пожалели художественных текстов. Но вот эти проблемы - признак квантования. > по графам всегда было видно что ниже 3bpw пиздец, это прям пороговое значение Пока что 4.7 в 3bpw кванте от Анслота всё ещё лучшее, что я могу запустить на своем железе. У него таких проблем нет, есть другие, но гораздо менее критичные.
>>1584668 Ллама самая новая буквально сейчас скачал b8777. Гемма тоже последняя от анслопов 11.05.2026. >>1584760 >--no-mmap >-c "число" стоит -c "число" --keep Не знаю как это должно помочь, но выставил 512. Результат тот же все что заставляет пересчитывать контекст в той или иной степени отжирает память даже если контекст стал меньше.
>>1585088 Ну выше были примеры чатов. Он театральный игрок, а не писатель. На карточке из 2 персонажей они могут устроить друг с другом срач, а потом вместе наорать на юзера. Я очень удивлен неожиданными способностями этой модели в рп.
>>1585019 пожалуйста, сделай полный расклад, откуда и что скачал, куда подключил, какой проц на телефоне и сколько оперативы, сколько загружает систему
>>1585098 >>1585078 Ризонинг расцензуренного М2.7 сводится к коротким кускам текста и обобщенным выводам типа "она может сделать то или это" но ничего конкретного > The user is playing as Ashoul, a character described in the system prompt. He's introducing himself crudely and doing a watermelon trick. I need to respond as Eira, staying in character - her tsundere nature, her prude but secretly perverted personality, her embarrassment from the earlier incident. > Let me write Eira's reaction to his introduction and the watermelon crushing. Я думал, он ща начнет как ГЛМ чето там продумывать и вспоминать, но нет.
>>1585119 Ну эйр-то по общему числу параметров потоньше будет, и совсем уж старый стал.
>>1585123 >Как же вы заебали, долбоебы. Прости что затронул твою тонкую душевную организацию. мне так стыдно.
>>1585124 >Ну эйр-то по общему числу параметров потоньше будет, и совсем уж старый стал. Но тем не менее 100b+ MOE особо не было. Что там было Step да больше нихуя. Логично что больше, но при этом работает на +- консумерсокм железе.
>>1585133 Потому что количество бэ это не про мышление, а про объем и точность известных модели данных. Чисто голый аппарат формальной логики можно в 1б уместить.
>>1585095 Лолка, у тебя в конфиге есть два параметра, которые работают друг против друга и вызывают именно тот эффект пожирания нищепамяти который ты описываешь Главная проблема здесь сочетание --keep 512 и сука -ctxcp 1 чекпоинтик чеееек Вот что происходит --keep 512 Ты принудительно приказал серверу никогда не выбрасывать из памяти первые 512 токенов. Вкуриваешь? Если ты меняешь промПт но эти ебучие 512 токенов остаются держаться в КВ кеше мёртвым грузом -ctxcp 1 Вот энтот флаг заставляет модель делать снимок "чекпоинт" контекста Проблема в том шо при изменении промпта сука как же меня это слово корежит и желание П убратьсервер не всегда заменяет старый чекпоинт новым а создает дополнительный слой в памяти чтобы иметь возможность откатиться назад. Для Gemma 4 это стоит дохуя дорого
Убери нахуй --keep 512. Если ты часто меняешь промт или он не статичен на 100% этот флаг заставляет сервер сшивать старый кеш с новым что часто приводит к выделению новых блоков рам вместо очистки старых
Убери нахуй -ctxcp 1 На Reddit один дохуя умный чел советовал как костыль для стабильности но в твоем случае он работает как множитель потребления памяти. Для четвертой геммы каждый такой чекпоинт это ебаный гигантский кусок данных Попробуй ебануть --ctx-shift Добавь этот флаг и чекни шо будет Он позволяет серверу более эффективно сдвигать переиспользовать существующий кеш когда контекст заполняется или меняется Энто вместо того шобы пересчитывать всё с нуля и плодить новые аллокации
Давай потыкаем палкой в кучку говна и попробуем задетектить траблу, попробуй временно убрать keep, cache-ram и ctxcp. Оставь только базу -ngl 999 -ctk q8_0 -ctv q8_0 -c 8192 --flash-attn --no-mmap
Если после этого память перестанет расти при смене промпта значит....... виноват был механизм чекпоинтов который сука пытался запомнить старые версии твоего контекста
Самое западло прежде чем озадачивать анонов аналитикой, мог бы и расписать более подробно какая именно модель видеокарты к тебя ееё ебучие характеристики и сколько общей рамочки в системе. МОжно было бы понять туда ли мы копаем, или банально ты упираешся в физический лимит при фрагментации кеша
>>1585143 бля с тебя покупка одного пасскода для тебя https://2ch.su/static/market.html во благо борды если советы помогут, у меня пальцы суставы разболелись от писанины портянки
>>1585143 > --keep 512 А для чего вообще нужен этот параметр? За этим стоит какая-то логика, или это очередной мертвый аргумент? > Вот энтот флаг заставляет модель делать снимок "чекпоинт" контекста Что за чекпоинт? Там по умолчанию кэш не хранится в виде отдельных слотов в выделенной памяти, которые освобождаются при нехватки свободной памяти? Если делаешь один запрос - потом другой с иным промптом, и возвращаешься к первому - весь префилл будет обрабатываться заново, или кэш сохранится? И как тот параметр на это влияет? > Попробуй ебануть --ctx-shift Лучше не трогать этот параметр даже длинной палкой.
>>1585133 >чому гемма Так спросил бы у геммы сам, она бы тебе и ответила Причина полягає в підході Google до навчання Gemma. Хоча багато розробників зосереджуються на кількості параметрів, Gemma має перевагу завдяки трьом основним факторам: Якість даних, а не обсяг. Google застосував ті самі методи очищення та відбору даних, що й для Gemini. Gemma навчалася на якісних даних, тоді як інші моделі могли використовувати великий обсяг даних з інтернету. Архітектурні особливості. Gemma використовує технології, як-от Multi-Query Attention та спеціальні методи токенізації. Це дозволяє їй краще розуміти контекст навіть за невеликої кількості «нейронних зв'язків». Дистиляція знань. Меншу модель навчали на основі великих моделей. Це можна порівняти з тим, як професор пише конспект для студента — інформації менше, але вона більш стисла та суттєва. У простих запитаннях, що вимагають логіки та базових знань, Gemma демонструє кращі результати. Блядь одно твое слово шобы и она меня в хохола покрасила
>>1585124 >Ризонинг расцензуренного М2.7 сводится к коротким кускам текста и обобщенным выводам типа "она может сделать то или это" но ничего конкретного В принципе тут ризонинг не особо нужен. На ЕРП отрубай, на РП подрубай, если уж хочешь сложный сценарий. Я не знаю зачем нужен ризонинг в ерп >ага пользовтаель запрашивает сексуальынй акт между конем и робожигулями >ага, у рпобожигулей есть выхлопная труба >диаметр трубы меньше чем хуй коня >что же делать, что же делать Вы чёт такое что ли ожидаете?
>>1585157 >Вы чёт такое что ли ожидаете Видел как квен в такую шизу впадал, было печально - полотно на кучу токенов, посреди которого модель запуталась.
>>1585078 >Короче по расцензуренному М2.7 впечатление такое - вот эта похожесть улетучивается к хуям, потому что модель теряет "in-character outrage" и у нее пропадают бурные реакции с капслоком, вплоть развития очень неестественной стойкости к шок-инпуту (какого-то чела убило и размазало по полу, чар пошел отскребать лопатой с пола - ноль эмоций). Всё-таки у оригинальной модели просто тенденция к импульсивности и бурным реакциям (остаточные трейсы отказов?) То есть, расцензуренная показывает персонажей точнее и ближе к их карточкам. Но это не всегда плюс, потому что какая-нить цундере эльфийка становится менее волатильной.
Итого, этот аргумент >Если тесты на соображалку не покажут разницы между реальным ризонингом и затычкой-префиллом, то в расцензуренной смысла нет, ведь рефьюзы и так убираются к хуям той самой затычкой. Все-таки некорректный.
>>1584928 Смысл сейчас вообще пользоваться моделями без ризонинга? Они просто плются рандомными токенами, когда его нет и все, проебываясь почти во всех задачах. Поток сознания. Модель с ризонингом будет лучше, чем без, для любых задач. Я думаю, для для банального РП лучше взять какую-нибудь Гемму 4Е, дать ей образец стиля и сценарий, чем сидеть на каких-то сочащихся шизой тюнах. 9-12B.
>>1585183 >Смысл сейчас вообще пользоваться моделями без ризонинга? Смысл вообще пользоваться локальными моделями с ризонингом. В ризонинге только соя и отказы. Псевдо-ризонинг можно накрутить череза пошаговое мышление.
Большие корпы с ризонингом в вейпкодинге хотя сила если попросить им какой скриптецкий тебе накидать.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: