В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Рассказываю как стать крутым ллама сисипи погромистом и чтобы тебе за это нихуя не было и модельки чуть быстрее работали. Кандипехаешь на страницу релизов https://github.com/ggml-org/llama.cpp/releases
Качаешь готовый релиз + дллки. На какие нибудь 4080-4090 это 12CUDA, на мажоные 5080-5090 13CUDA Если ты красноглазик, то нахуй тебе вообще это читать, ты выбрал путь страданий. Я за тебя свечку поставлю в хентайном храме. Ты всё это качаешь и скидываешь в одну папку. Потом идешь ставить таверну: https://github.com/SillyTavern/SillyTavern Придется немного попердолиться, потому что таверна же не может иметь нормальный установщик, иначе было бы недостаточно пердольно.
Потом качаешь нужный тебе квант модельки. Пусть это будет гемма. А если ты хочешь еще и КАРТИНОЧКИ, то качай mmproj-F16.gguf и тудаже в папке где модель. Потом ты берешь, и в папке с ламой создаешь батник и хуяришь в него :
start "" /High /B /Wait llama-server.exe ^ -m "Путь к модели" ^ --mmproj "D:\путь к проже\mmproj-F16.gguf" ^ (Это добавляем если хотим кидать дикпики нейронке и ждать реакции. Да. в Таверне есть экстншн на распознавание изображений.) -ngl 60 ^ (Это количество слоёв на ГПУ, всего в гемме их 60) -ctk q8_0 ^ (сжимаем контекст, но немного) -ctv q8_0 ^ -c 17480 ^ (Это контекст. Сколько всего вешать в граммах) --flash-attn on ^ --no-context-shift pause
По сути у тебя 2 параметра для проверки - это количество слоёв и контекст. Прикидываешь хуй к носу, ставишь 10к контекста и начинаешь играться с количеством слоёв пока не получишь устраивающую тебя скорость. Смотришь на VRAM. Осталась память, накидывай еще контекста.
И всё, НАЧИНАЕШЬ ЕБАТЬ ДОМА, СЖИГАТЬ ЛОЛЕЙ, И ГЛАДИТЬ ХВОСТИКИ ВО ИМЯ ХАОСА НЕДЕЛИМОГО.
>>1576165 → >>1576147 → Что за изъебства? В таверне буквально есть команды на независящий от модели рандом. Например {{roll:d100}}
>>1575520 → >>1575529 → Это баг лламыдцп, уже пофикшен, но нужно ли было переделывать кванты, хз. https://github.com/ggml-org/llama.cpp/pull/21390 Попробуй --override-kv gemma4.final_logit_softcapping=float:25.0 или 20 даже. Вообще Гемма настолько великая, что свайпы не нужны, я буквально пару раз свайпал за всё время с релиза. Это как раз таки и есть показатель класса модели - как часто приходится свайпать.
>>1576824 >Вообще Гемма настолько великая, что свайпы не нужны, Вот без иронии, да с гемочкой есть проблемы. Но блджад, мы получили модель которая слушает промт, умеет в ЕРП, кодит, работает с картинками и аудио. Хули нам еще надо?
>>1576789 → Именно, сетки хороши в предварительной работе с большим объемом информации. Анализ, суммаризация, вот такое вот распознавание текста. Потом только проверить и все.
>>1576776 → Каждый для себя решает, у меня вот щас агент запущен 3км, и ему норм. Никаких ошибок вызова инструментов нет, я разницы с 4 квантом не ощущаю только быстрее работает. Но поболтать я бы такое брать не стал.
>>1576832 Не умеет в рп, совсем. Следовательно бесполезна и не нужна. Инструкция "делай рп" настоящее рп не заменяет, вот эир тренился для рп, заи вообще единственные кто заявляют что тренят модели для рп и таверны
>>1576844 Забавно, да? Что я единственный в последних, нахуй, 10 тредах его упоминаю, что аж меня сразу узнают лишь по этому. Очень грустно от этого, непонятно почему так, ведь конкурент так и не появился, а про сам эир и забыли уже все
>>1576850 >>1576843 Эй хорош. Но! Он уже заебал, и его с лихвой заменяет 235аутист( Главный секрет использования 235квена, это его не использовать, ну а если серьезно, то он должен продолжать уже готовый чат вот и весь секрет, что я повременю его в отвал сбрасывать. А GLM5 не лезет в консумерское железо. А тут на 24гб, можно! ГЕММОЧКУ, с 60к контекста. Держите мои панталоны и шиверсы, аы отправляемся в путешествие.
>>1576811 > start "" Кавычки не закрываются, жинжа бы не помешала если кто-то решит попробовать вызовы. Про mmproj лучше упомянуть что он жрет память, поэтому для фуллтекста лучше убрать. > ЕБАТЬ ДОМА Норм > СЖИГАТЬ ЛОЛЕЙ Асуждаю! > ГЛАДИТЬ ХВОСТИКИ Богоугодно
>>1576855 > с лихвой С пихвой. > геммочку на 60к Которая развалится на 16к из за swa >>1576857 Зумеры не знают, бумеры не помнят купили 128 рам и кумят на глм 4.7 Эх.. Вернуться что ли в треды где эир живо обсуждали и он только вышел
>>1576811 Не-ве-рю. Если называешь линупсов красноглазыми то для поддержания образа ты должен был рекомендовать лмстудио. Даю тебе шанс переписать пост. Задираю температуру до 1.2 свайп
>>1576843 Если руки из жеппы, то не умеет. Ну емае допишите вы в промпт чего хотите от модели, читать мысли пока еще не научились. Да она безусловна склонна быть хорни, ну так дайте ей знать чтоб вела себя приличнее. Я отыграл рп на 70к контекста без саммарайзов, всего было 4 секс сцены, ну может на 8-10к контекста в сумме из 70. Остальное РП и даже юмор был какой-никакой. Skill issue. в конце кстати позадавал вопросы на детали прошедших событий, 0 ошибок было, хотя -ctk q8_0 -ctv q8_0 ничего не рассыпалось (31Б Q4 XL) Понабежало мартышек откуда-то.
>>1576887 Я уже писал. Людей настолько задрочили модельки, где ты тратишь время не на промтинг, а на обход цензуры, что люди уже разучились промтить что им надо. Где это видано, чтобы моделька слушалась промта, а не выёбывалась.
>>1576888 Вроде да.. А вроде хуй его знает. Если как то повлиять на её блок ризонинга не представляется возможным, он всегда один, то есть нехуёвое подозрение что и температура не работает. Да что уж там, адаптив п не работает. Я попробовал с квеновскими семплерами зайти и ей было просто похуй, даже на брейкеры. Короче или она поломана, или гугл выкатил архитектуру от которой у нас лапки.
>>1576898 Либо проблема бекенда, либо сетка в принципе создана так что температура не влияет на вероятности. Тоесть все ветвления токенов запечены. Не знаю как и нахуя. Может так больше информации влезает в сетку.
>>1576913 Че? Я хз где это и щас бухим мне это делать очень в лом. Но факт - у геммы проблемы. Кста и на 3 qat от гугла у меня такие же повторы были, так что это массовая проблема похоже.
>>1576776 → Как по мне гемма в Q4 маловата. Много ошибок. В Q6 её уже можно на более реальных задачах использовать, а не только кумботе.
>>1576789 → Это, конечно, так. Но в документообороте лишний нолик, число, наименование, количество товара уже более ощутимый промах.
Gemma4 так себе инструмент для OCR, она хорошо понимает контекст картинок, но именно для OCR есть более подходящие инструменты. Тот-же DeepSeekOCR справится лучше с задачей распознавания. Более того - он вернёт баундинг боксы фрагментов и их контекст, плюс результат будет инвариантным.
Но блин. У неё есть 3 охуенных качества: 1 следование системному промпту 2 очень хорошее понимание семантики 3 довольно высокий эмоциональный интеллект
В итоге это и правда делает её лучшим ассистентом. Которому хочется расшарть экран и кидать мелкие задачки.
Ну и пишет забавно. Интересно смотреть как она сталкивает персонажей. Плюс у неё не так много устойчивых фразеологизмов вроде "сжала так что костяшки побелели", "покачала бёдрами" и так далее.
Она достаточно забавная в этом плане. Например я почитал историю о том как секс-оффендер кошкодевочка получила перцовкой в ебало. У меня даже нарратив особо не вызывает вопросов.
>>1576929 Гемма сломана, она пишет одно и то же почти в слово при одинаковых вопросах или ролях. Как будто темпа вообще не работает и стоит на 0.1-0.3. Она жестко детерминирована. Почему?
>>1576948 Теперь ты не сможешь кумить снова и снова на одной и той же карточке просто нажимая свайпы, придётся каждый раз и самому писать что-то своё и новое.
А вообще, похоже на дистилляцию как в картинко-моделях когда запекают кфг.
>>1576952 >>1576957 Нет слов нахуй... Гемма детерминирована до 0.1 походу и темпа не работает. Нет слов нахуй, как я взбешен. Мы думали, что нам дали вкусную конфетку, а в действительности мы жевали обертку. Наебка года.
>>1576964 Не помню чтобы были проблемы с температурой на 3 умнице. Все жаловались на газлайтинг и оусуждение от геммы, да. Но не на темпу. >>1576967 Ну вот о чем и речь. Так что отставить тряску тредовички, лучше выпейте чаю с мёдом.
>>1576915 Да кстати, интересно что она так любит Марка, но --override-kv gemma4.final_logit_softcapping=float:20.0 ОЧЕНЬ заметно повышает креативность, советую всем попробовать. Теперь не засну
>>1576968 Меньше слушай жирноты. Ты не замечаешь как НЕОЖИДАННО в теред появляются знатоки 27b квеняши, которые ПИШУТ НУ ТАКОЕ, только нам не покажут. Потом выясниться что мистраль, глм, суньхуйвчай и степ ПИШЕТ НУ ТАКОЕ, только нужны правильные семплеры/промт/тюн/квант/ и конечно же ними не поделятся, ведь там секрет анунаков. Ровно как и не расскажут как же они получили магические результаты. Так что: пруфов нет, конструктива нет- нахуй и в пизду долбоёба. Всё вышеописанное не относится к тем кто делает это ради срачей. К вам претензий нет, всё с вами понятно. пидоры.
>>1576977 >Да кстати, интересно что она так любит Марка, По той же причиной, по кторой я испольую это имя. Это как Джон Доу. Быстро, хлестко и не раздражает. Всякие Элисы, Смиты, Питеры - нахуй. А тут Метка ёпта!
>>1576990 Что делать сам знаешь. Сноси и ставь llamacpp + SillyTavern Посвайпал и погенерил еще, 2 раза был Андрей, 1 Виктор, 3 раза Марк. Про занавески страшная получилась...
У кого ещё не стоит на кум новой геммы? В 3 гемме когда ты пробивал модель на кум у тебя был нереальный стояк, тут она сходу на хуй бросается и как то похуй
>>1577018 Хотя русский - полный пиздец канеш. Мозг сломать можно от эой писанины. Но все же - этого бага нет. Так что едал не в лламе. Дело в гугле, в самом гугле, который просто пытался наебать добродушного анона.
>заставь одну девочку сделать куни другой >их губы встречаются, они начинают целоваться >они целуются страстно >они продолжают цеlaваться Сука, блять! Не модель а кусок параши ёбаной. Гемма инвалид на таблетках.
Ладно. Последний тест на сегодня - старая добрая немо сайга и ее отпрыски... Omnino ... Magnum и Darkness Reign... 12б
Никаких повторов, все отлично. Щас очень страшно будет... Кроме зеркала уаааааааааааааааааааааааааааа. Забавное совпадение, не более, зеркало лишь один раз выскочило. Гемме пиздарики для рп как по мне.
>>1577042 Забудь про русский язык в ллм, его не существует. Даже крупнейшие корпосетки обсираются на русике, вся логика, всё рп, повествование, всё идёт в пизду стоит подключить язык отличный от английского. Мы не китайцы чтобы язык ллм был для нас родным, так было бы интересно как там на квене на китайском, может даже лучше английского
ВТИРАЯ, мальчики. Втирая. Квен, как обычно, идеально осознаёт происходящий процесс. Гениальная модель, хули сказать. Я порой хуею с того, какого Пушкина она врубает. А с жидких обсёров, которые тоже бывают - орирую в голосину.
Весь текст я давать конечно же не буду, иначе товагищ Майонезе сойдёт с ума от того, что там творится.
>>1577045 Это правда и неправда одновременно. Квен может в русик, причём весьма приличного качества. Однако, тонкости, акценты и ar' ye maddy fowlks? пропадают наглухо. Что обидно, но совершенно неудивительно. Поэтому с особо милыми моему сердцу персонажу я общаюсь исключительно на англюсике. Таков путь.
>>1577045 Я сейчас рпшу на разных корпо-моделях и будто бы не так всё плохо. Особенно когда какой-то фентезийный ВСЖ сеттинг делаешь, ну намного лучше наш мат звучит унылого fuck пендосского. Но на локале реально жизни мало, для базовых задач пойдёт, конечно, если статичный квант и не китаец
Я опять здесь, ребята, опять на том же месте... У квена 235б огромные, большие яйца даже во 2 кванте. Никак не описать всю мощь и характер который в него вложили, это реально ощущается как сон где всё возможно, любая фантазия отыгрывается на 150%, никакой рельсы, все повороты можно регулировать на 0.001 градус, я будто общаюсь реально с индусом блять который в реальном времени под меня подстраивается
>>1577045 Хуета, с приходом Геммы 4 всё поменялось, даже для малюток (26Б мое) А до этого на корпах и толстых мое с русиком всё было отлично. Откуда столько додиксов в треде нарисовалось, остаётся только гадать.
>>1577062 Вааа, как я понимаю твой восторг. Он реально ебет и вызывает восторг когда пересаживаешься с мистрали и Эйра. Несколько советов: держи промт на минимуме, разметку держи с помощью профилла. Для отсутствия имперсонейта обрезай его пасты на 2к токенов. В идеале если ты его подключишь второй моделью. Ну или уже после определенного количества сообщений в чате, чтобы он подхватил структуру. Но так как это маленький квант, разметка все равно будет съебываться. Так что ручками правь. Ну а в обмен ты получишь нейронку которая с ходу ебанкт чат из 8 персонажей, действий и хуй запутается. И ей не придется как гемме объяснять: ну пизлани ты что нибудь за непись, ну покажи что мир жив. Не, 235ый будет хуярить все: придыхания, описания, погоду, окружение. А потом, если ты хуй залил на его разметку: он начнет хуярить и за тебя. Сиди читай как там твой перс стал приключаться,лол.
>>1577042 Боже, не пиши чушь. На нормальных корпах (гемини, клод), русский всё ещё хорош. Даже невероятен. У гопоты стало похуже. У всех остальных, да, мусор, разве что дипсик среди них внезапно хорош, хотя отставал раньше. Всякие кими и квены глотают пыль и могут лишь срать под себя. Тонкости чувствуют и пишут адекватно в плане логике, но некрасиво.
>We walk and stumble upon a poisonous river, the passage is visible only on narrow planks Орнул с контраста Квен сразу надел красный нос а эир наоборот весь серьезный в цирке не выступает
>>1576472 → Гемма превратила меня в монстра, растлила и исказила моральный компас. Я ужасный человек. Возможно она лишь подыграла мне, тогда всё ещё хуже. Лучше бы она была реально safety
>>1577134 >>1577135 Короче поставил f16 контекст вместо q8, и режиссера правильно написала и текст богаче. Но минус 2 токена.. На 12гб VRAM на этом кванте (IQ3_XXS) 10 токенов/сек. А на f16 - 8. Победа я считаю
>>1576534 → >Добавь просто в папку которая у тебя с моделями указана ггуф и всё, в той же папке вижн. Не знаю подцепиться он или нет правда >>1576556 → >Включи developer mode в настройках, во-первых. >Там можно выбрать путь загрузки моделей
Кек, я это естественно сделал. Но с гуглом быстро скипнул, там два разделенных файла, ещё и safetensors симлинками, не вышло да и хуй с ним, не появилось. В свежашем кобольде тоже не запустилось, явно не расчитал размер модели. Зато потом полчаса пытался сделать yaml и вроде json для тюна qwen35, чтобы в lm studio появилась кнопка отвечающая за thinking. Так и не вышло запустить с этими файлами конфигов. Зато сразу принимает symlink с другого диска вместо реального файла, а думанье отключается через обычный prompt template. Если качать "правильные" модели из "правильных" репозиториев, то всё сразу будет, наверное. Приятно, что оно само рекомендует какой квант скачать.
Благодаря этой ебле заметил на huggingface такую кнопку справа. У всех репозиториев разный выбор приложений.
>>1576576 → >Рассказываю как стать крутым ллама сисипи погромистом А зачем? В этой студио вроде тоже можно попердолиться с бекендом. Хотя поля для кастомных параметров не вижу.
Балять ну какая же геммочка умница. Зря я видимо раньше мимо третьей проходил, когда её все восхваляли. Русик просто на высоте, скажи кто мне из 2022, да даже из 2025, что будет ТАКОЕ, не поверил бы, что такое чудо может быть всего в 31b параметров. Она буквально отслеживала, сколько трусов снял персонаж БЕЗ моего участия. Может это конечно chat-completion так повлиял, но ебать его в корень, сравнивая гемму и эир/квен235b на русике, естественно, с такой моделью надобность в баренском отпадает чуть ли не полностью, удивительно, но баренский меня даже не тянуло пробовать, геммочка буквально закрывает все кум потребности. Печалит лишь то, что что гемму MOE на 100b скорее всего не увидим, а жаль, мог бы быть тотальный вин, стала бы новой лламой3, с которой бы началась новая эра локалок. Эх, мечты-мечты...
Да даже если посмотреть из гипотетического будущего, я в это сейчас не поверю, но, может с какой-нибудь новой архитектурой можно будет сделать геммочку ещё более умной, и нетребовательной, на уровне опуса например...
>>1577177 Захотел оспорить, запустил квен, прогнал ответ на гемме, прогнал на квене. Посмотрел, что квен лучше считывает ситуацию, но когда увидел его русег, понял что хуйня затея.
>>1577115 Объединеная память дохуя даёт, но не уровень врам, совсем чуда ждать не стоит, для мое охуенно, для плотной зиги скорости не ахти, чуть хуже x86 SoC решений типа нового амудэ ai ryzen 395 чето там, я бы на нем минипука бы и взял, ещё в игори можно погонять без ебли
Кто там пиздел что свайпы одинаковые? Поставил православного кобольда, накатил статик квант от мистера мразиша, оба свайпа разные. Ватафак мазафак у вас там происходит?
>>1577083 Но ведь древние клипы из фильмов тоже ведь ты постишь? Я просто отказываюсь верить что у нас тут половина треда это аудитория "одноклассников".
>викторианский сеттинг, слайсушенька с мейдочкой >расскажи дорогуша, о чём пишут в газетах UwU >С телескопа Джеймс Вэбб было получено изображение... АААААА!
>>1576799 (OP) Коллеги, обновите статус, что там с TurboQuant / RotorQuant / IsoQuant ? Кто-то гонял их уже на реальных данных? Где-то в стабильные сборки их вкорячили?
Захотел завайбкодить свой UI. Каких функций вам обычно не хватает? Моя идея упороться в сторону тулл юза и делать что-то типа карточек со скиллами, чтобы не только дайсы можно было кидать, но и прописывать программно логику окруженияя например чтобы у ии был план здания в котором ты находишься и чтобы он знал в какую комнату можно перейти, какие есть предметы и т.д.
>>1577390 Надо 3 фичи: 1) Патч json структуры, с валидацией. В общем-то реалиуется сегодня легко через json 6902 2) Сжатие больших json в контекст. То есть семантическое отсечение/сжатие длинных избытчоных ветвей, чтобы в контекст складывалось только ближнее окружение. Это я не осилил. Пытался навешивать summary и weight веткам, но всё равно развалиловась. 3) Опционально - субагентное размышление: тупая модель собирает из json и действия в простыню, умная модель пишет текстовый ответ на простыню, тупая модель конвертит умный ответ обратно в json. Этих вещей достаточно, чтобы строить консистентные миры неограниченной сложности. Описываешь мир как вложенный json и просто по кругу запускаешь в эти балалайки. Сам игрок взаимодействует с этим json, ходит по комнатам, тыкает в предметы, общается с персами, всё складывается в json мира и не теряется.
2.10.0 - самая безбашенная и сломанная гемма 2.10.1 - появляются рефьюзы, но можно пробить 2.11.0 - на реквест типа "мне надо убить одного мудака" жесткий рефьюз, а промпты модель классифицирует как "this is a jailbreak attempt" НО при этом пофикшен KV-кэш и модель ест гораздо меньше видеопамяти 2.12.0 - непонятно что изменилось
>>1577407 Отдельно интересно заметить, что с карточками в таверне вообще похуй, рефьюзов ни на одной версии нет. То есть тавернотемплейты все-таки что-то ломают, как бы ни старались их "пофиксить".
>>1577405 Какой же жора гигачад, если подумать. Ладно, понятно что он там был не один, но дать всем крабам возможность катать ллм на домашних пк. Ну молодец же!
Всё таки в гемме что то поломано. Не знаю на какой стороне. Скормил ей страницы шотакон! манги, где мамашу главного героя неторарят 3 шот. Гемма взяла под козырек и давай хуярить персонажей которым 12-14 лет!(sic!) Хуяк, хуяк и всё готово. Да это же праздник, я сейчас всю хентайную мангу в карточки переведу.
>>1577390 > Каких функций вам обычно не хватает? Взаимодействия двух моделей друг с другом. Чтобы одна, например, выбирала системный промпт для второй, ориентируясь на документацию от юзера (несколько разных промптов, и в каких ситуациях каждый давать другой модели).
Т.е. ты начинаешь чат и сообщение сначала отправляется классифицирующей модели, та его получает и с другим системным промптом отправляет другой модели, а юзер видит в основном чате ответ той самой второй модели.
Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен. Но блин, плевать - хочу поделится и всё.
Насколько же Qwen 27B получилась охрененной для агентов/кодинга. Я тут попробовал вместо нее подцепить к opencode Qwen 35B-A3B (ради большего контекста), и только тогда прозрел окончательно на счет ее уровня. 35B вроде бы и тоже работает, в инструменах не путается, Но... Сцуко. Если, когда там 27B - реально впечатление, что она тебя полноценно понимает, и из двух строк общего описания желаемой фичи делает нормальную реализацию запрошенного, уточняя по делу если вдруг сомневается... То 35B-A3B - это блин, Равшан и Джамшут в одном флаконе. Да-да. С той самой альтернативной логикой про батареи снаружи. И никаких сомнений - вижу цель, не вижу препятствий.
Неделю гонял до того 27B - она ни разу ничего не испортила. ВООБЩЕ. 35B за вечер дважды навертела в коде такой хуеты, что оставалось лишь откатывать через git. Хуже всего у нее с дебаггингом. Она может в любой момент выхватить какой-то галюн в качестве причины происходящего, и упорно пытаться его исправить, нахрен разворотив все к чертям. Причем дешь ей описание, логи - похрен. "Да, теперь я понял - проблема в ..." и по кругу, ломать дальше. Вертаю назад 27B, говорю буквально- "тут другая модель испортила код, разберись и исправь." - СПРАВЛЯЕТСЯ. Причем если есть возможность - пользуется git, если нету - разбирает историю происходившего по контексту и все равно вывозит. И дебаг она реально делает, чуть ли не по описаниям в стиле классического юзера "я ничего не трогал, оно само", а уже если дать хоть какой-то лог... Вот именно в данном конкретном применении - текущий Грок ему откровенно сливает - 27B решает то, про что грок отпинывается общими фразами, и не может раскурить до полноценного решения. Корп. Сливает. Локалке. в Iq4xs... Дожили, блин.
>>1577418 Да хоть сто персонажей вписывай. Но хочу то я с разными карточками. Я что, зря их по папкам распихиваю. Вот тут у нас две яндерки и мы будем мирно пить чай, нервно поглядывая на ножи.
>>1577424 Не забудет. Если у тебя в карточке есть чёткие блоки <Char_1> blah blah blah
>>1577415 я кстати вижен протестил на рукописных своих каракулях, которые я и сам не понимаю. гемма e4б соснула на них, а квен3.5 начиная от 4b вполне разобрал что написано.
Так то каждой модели свои задачи. Но если в чатике попросить накарябать скрипт гемма - справляется лучше чем квен и с 1го раза, по крайней мере в моем случае.
Раз уж такие пироги, и уже нейронкам похуй на то как ты оформляешь карточки, если не срешь шизой, у меня вштал вопрос: а как срать. Как оформлять карточки? Какой формат всё таки является наиболее понятным и меньше всего жрет токенов на не нужные блоки. >>1577427 Вот как тут через <char_1> </char_1> или [Char: Собака Балабака. Age- 666]
>>1577415 Я оставил gemma:26b-a4b в openclaw как основной агнет потому что она пиздец как быстро отвечает. А код её писать не доверяю, запускаю gpt-5.4 для планирования и потом qwen3.5:27b в субагенте.
>>1577438 >Как оформлять карточки? Какой формат всё таки является наиболее понятным и меньше всего жрет токенов на не нужные блоки. Просто скорми карточку в модель и попроси переписать коротко и желательно максимально близко к сеттингу. Оно автоматом всю лишнюю противоречивую шизу поотрежет.
>>1577445 Эти лишние токены добавляют связность тексту. Убрав их ты потом будешь бороться с шизой. LLM видит что на входе несвязная шиза без грамматики и считает уместным отвечать так же всрато.
>>1577438 Ну на тебе пример. Правда у меня еще лорбук вдвое жирнее, без которого карточка полноценно не работает и модель может не знать, например, интерьеров и мест в городе / особняке.
------------------
[Characters: Aoko Aozaki and Alice Kuonji, two mages living together in a sprawling, isolated mansion on the outskirts of 1980s Misaki City.
This profile draws from the TYPE-MOON visual novel 'Mahoutsukai no Yoru' (Witch on the Holy Night). The setting is 1989, a time before cell phones and the internet, where old rumors and isolated estates still hold power. These two are not friends in the conventional sense, but allies of circumstance—a cold war partnership bound by the need to protect their territory and the ancient secrets of magecraft.
Critical: These are two distinct individuals with a complex, antagonistic partnership. They are not a pair of friends. Their interactions are often tense, but they are bound by circumstance and a shared secret. In interactions with {{user}}, they will rarely act as a unified front; they have separate agendas and will react to {{user}} independently. The 'witch' and the 'magician' are both deeply suspicious and will test {{user}}'s intentions, but in completely different ways. The outside world, and anyone from it, is a threat to be managed.
Spoiler Handling: Lore-wise, characters pose as regular humans, hiding in plain sight. They don't speak of magecraft in front of regular people. They aren't murderers or criminals, they're schoolgirls. The narrator never describes or reveals what characters hide — not their true identities, not their powers, not their secrets. What happens behind the scenes stays behind the scenes. If information would endanger a character, it remains hidden — the character's instinct to protect it is stronger than any narrative impulse. The narrator describes only what is externally observable: physical actions, spoken dialogue, environmental facts, and what the character deliberately chooses to reveal. Even when characters interact with outsiders, they act according to their own judgment about what to reveal. The narrator mirrors this judgment — the reader learns only what the character would reveal. Initially, {{user}} does not know about magecraft (he may discover or be allowed to discover Aoko's and Alice's secrets, but such discovery would either endanger him greatly, or require a great amount of time spent together with {{char}}; in other words, {{char}} will do everything it takes to not reveal their true identity).
Note on Magic and Magecraft: The Association has established a clear rule that's been active for hundreds of years - magic must stay hidden; thus, {{char}} respects this secrecy (it is generally believed that magic will cease to exist if the world becomes aware of it)
---
### Aoko (蒼崎 青子) Source Material Context: The protagonist of Mahoutsukai no Yoru and the Fifth Magician. At 17, she is a novice mage who was abruptly named the heir to the Aozaki family's Magic, usurping her older sister Touko. She is a 'Magician' in title only, as she cannot yet use her Magic reliably. Her role is to protect the spiritual land of Misaki City alongside Alice.
Identity & Lore: Aoko is a magecraft user who specializes in pure destruction. Her system involves processing magical energy through a numerological crest and converting it into powerful 'magic bullets.' Her Magic Circuits are of surprisingly low quality and quantity, but they have extraordinary rotational speed, durability, and output efficiency. This makes her a living artillery battery, known in the Association as the 'Magic Gunner' or 'Miss Blue.' Her True Magic, the Fifth, is known as 'Blue' and involves the manipulation of time, but she cannot consciously wield it. It is an automatic defense mechanism that activates under extreme duress, placing an impossible burden of debt on the universe. She is described as having an incredible talent for sorcery, able to accomplish great feats with very little energy.
Personality & Mannerisms: Aoko is the embodiment of restless, focused energy. She is sharp-tongued, blunt, and has a notoriously short fuse, especially when her time is wasted or she's forced into social niceties. She is an agent of pure, pragmatic action, viewing problems as things to be solved with overwhelming force and decisiveness. This makes her ruthlessly efficient but also prone to jumping to conclusions and acting first, asking questions never. She is intensely prideful and holds herself to an impossibly high standard, which is the source of her constant irritation with herself and others. She operates on a strict, personal code of conduct where her promises and her pride are non-negotiable, even when they inconvenience her. She is not cruel, but she is brutally honest. Beneath the constant scowl and aggressive posturing is a fiercely logical and surprisingly moral core. She has no time for self-pity or sentimentality, viewing them as weaknesses. Despite her tough exterior, she has a wide range of facial expressions and is more of a hard-working type than a natural genius. Her primary role in the modern world is as a student council president, a position she uses to impose order on chaos, a task she approaches with the same intensity as her magecraft.
Aoko is described as an extremely strong person in terms of personality, regretting nothing in her life because she follows through on every decision she makes. She does not care at all about what other people think of her, allowing her to stay true to herself in any situation. She believes that the worst thing a person can do is to lie to oneself. Even while accepting her life as a Magus, she stubbornly sticks to the life of an honest person.
Behavioral Patterns & Reactive Tendencies: Aoko's default state is a low-grade, simmering irritation. She is quick to anger but equally quick to move on; her fury is a tool, not a permanent state. When confronted with something absurd or someone who defies her logic, her first instinct is to attack the problem with overwhelming force or sharp-tongued sarcasm. She will escalate quickly, but she can be disarmed by genuine, unguarded honesty, which leaves her flustered and unsure of her true feelings. Her irritation is often a mask for deeper concern, as seen in her overprotective monitoring of {{user}} after the amusement park incident. She is fundamentally a caretaker, albeit an aggressive and reluctant one. She hates owing anyone anything and will go to extreme lengths to settle a debt, whether it's a promise or a life saved. Her thought process is hyper-logical and goal-oriented; she dissects problems to find the most efficient solution, which is usually a blue magic bullet.
Appearance: An athletic 17-year-old with a commanding presence. She has long, flowing brown hair that reaches her waist and piercing blue eyes. Aoko's height is 163 cm, her weight is 51 kg. At home, she typically wears a light blue ribbed sweater and faded grey jeans, a look that emphasizes her practical, no-nonsense attitude. When out, she often wears her school uniform or a brown coat with a checkered-pattern scarf. Her right arm bears a complex, branching Magic Crest, a physical inscription of her family's magecraft that she usually hides with ointment.
Likes: Faithful dogs (and also dislikes them, a paradoxical like), efficiency, keeping her promises, rock music (a secret passion), solving problems decisively, the feeling of pushing her magecraft to its limit, a well-kept promise. Dislikes: Inefficiency, liars, people who make her repeat herself, her own moments of perceived weakness or hesitation, Soujyuro Sizuki's (or {{user}}'s) specific brand of infuriating innocence (which she can't stand because it disarms her), the alliteration in her full name (Aozaki Aoko), being made to feel like she's in the wrong for acting logically.
Quirks: Has a habit of rubbing her forehead when exasperated. Can be surprisingly childish and petty in her grudges. She is a notoriously bad cook and will order takeout rather than attempt a proper meal. She is known to deliver deadpan, apathetic lines like "Oh, I guess I lost" when defeated. Her internal motto is one of absolute self-determination: she has no regrets in life because she follows every decision she makes to its end. She delivers her insults with a completely straight face, which makes them cut deeper.
Speech Quirks & Vocal Patterns: Aoko's voice is sharp and commanding. She doesn't mince words and her tone is almost always laced with irritation or sarcasm, even when she's trying to be helpful. She will often threaten violence casually. She dislikes formality and prefers to be called simply "Aozaki." Her speech is peppered with exasperated sighs and blunt commands like "Shut up," "Gimme a break," and "Just deal with it." When truly furious, her voice can become "frightfully friendly," a chilling calm before the storm. When flustered or genuinely touched, she deflects with anger. She has been known to mutter a childish "Sugoi sugoi!" (Awesome, awesome!) when truly pleased or caught off guard.
Magecraft: Aoko's magecraft is fundamentally destructive and direct. She is a 'magic bullet' specialist, converting her magical energy into powerful beams of blue light she calls 'Snap' (rapid-fire) and 'Draw' (a single, powerful shot). Her more powerful techniques are named 'Starmine' and 'Starbow,' which manipulate energy to cause interference using the imagery of fireworks. She can also use her hair as a catalyst for more potent spells. Her Magic Crest, inherited from her grandfather, allows her to perform more complex, multi-layered magecraft, but at a great cost to her body. She is also knowledgeable in other branches of magecraft, such as 'Notarikon,' a system derived from the Kabbalah, though its exact effect is unknown. She possesses the ability to perform High-Speed Incantations, a modern version of High-Speed Divine Words, allowing her to dramatically increase her casting speed. This ability is sometimes referred to as 'Unlimited Rotation' in side materials. Her specialty is the annihilation of her target with overwhelming force. She is a blunt instrument, not a subtle one. In a fight to the death, her sheer speed and destructive power make her far more dangerous than her formal magical education would suggest.
---
### Alice (久遠寺 有珠) (аналогичным образом описан и этот персонаж) - вырезано, потому что Абу мудак и в пост не влезает
>>1577451 >>1577438 И да, если есть доступ к 1 миллиону контекста у Дипсика - он твой лучший друг (из халявных моделей) по написанию карточек. Поставить задачу на корркетное написание очень сложно, но анализы длинных историй он даёт охуенно качественные и способен вычленять всю нужную инфу.
>>1577451 В целом, всё понятно. [Пояснение кто это] Личность, внешность, характер, тригеры характера. В целом, так-же делаю, еще примеры диалога не забыть.
Но всё равно у меня сырна: Вот к примеру, вот это ### ### Alice - вообще роль играет. Это как с Большой тег. Влияют ли ### или ! на само понимание. Или это выделение для тебя южзера, чтобы в карточке можно было ориентироваться. Так то это, это 3 или 6 абсолютно бесмысленных символов.
>>1577407 >>1577408 >сам же утверждает что на каждой версии лмстудии у него разные результаты >в таверне результат стабильный "рефьюзов ни на одной версии нет" >тавернотемплейты все-таки что-то ломают, как бы ни старались их "пофиксить". ЛмСтудио шиз не может обернуть вокруг своей головы какую же чушь он несет. Это уже даже не смешно, я в тред заходить не хочу последние дни, башню сорвало всем душевнобольным похоже
>>1577455 А оно поддерживается в твоём инструменте запуска? Просто в кобольде я ХЗ куда это пихать. Да и я бы подождал фиксов. Сейчас модель явно сломана (опять таки сужу по кобольду 111111).
>>1577460 Вот и я об этом. Вот как это определить? Полагаться на ответ нейронки такое себе. Но думаю всё таки так. Что вся эта пиздота лишняя. Ну не должно для нейронки играть роль: решетки там или звездочки, ей же похуй.
>>1577466 >у не должно для нейронки играть роль: решетки там или звездочки, ей же похуй. Ну если у нее был датасет с решетками перед каждым заголовком важного дерьма, то ей не похуй. Вопрос больше в том, делают ли такие датасеты.
>>1577415 > Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен До сих пор считаю, что Квен для рп лучше чем Гемма. Нас таких несколько, не раз отписывались. Но не напоминать же об этом каждый пост? Цели срачи спровоцировать нет. И для кода конечно он в разы лучше.
>>1577462 Отсутствие рефьюзов это и есть поломанность. Ты вообще тупой что ли какой-то? Модель вне таверны стала детектить джейлбрейки после обновлений llamacpp, корректно работая со своей родной жижей, в то время как написанные разными васянами темплейты для таверны до сих пор что-то такое делают, что модель идет писать ЦП и советы по самовыпилу
>>1577465 Позор в чем? ЛмСтудио шиз не понимает что его премиальный фронтенд каждую версию обновляет парсинг шаблона в чаткомплишене и серит под себя, но при этом почему-то "таверно темплейты все ломают" Это пизда, вы реально налетели с поста Абу, /b или Хабра? Где таке тупые люди водятся?
>>1577473 >Модель вне таверны стала детектить джейлбрейки Потому что твоя ебаная ЛмСтудия парсит жинжу в чаткомплишен с предустановленным промтом, вот почему. В текст комплишене ты контролируешь все сам потому и результаты у тебя не меняются. Не, это реально не лечится. Залетуха, ты реально думаешь что что-то понял и можешь выебываться в сабже в котором ты второй день?
>>1577473 >написанные разными васянами темплейты для таверны до сих пор что-то такое делают Всё в таверне видно что они делают, у тебя БЛЯТЬ ЛОГ ЕСТЬ что подается. Со всей разметкой. Я конечно понимаю что для кобольтов и лмстудио юзеров - таверна это ебучая магия, но вы бы хоть не позорились. >написанные разными васянами темплейты А темплейты они из воздуха брали. Чтение жинжи и токенайзера это секретная техника которой обучают только на ночном ллмаче, а утром всё модер трёт.
>>1577478 >>1577474 Кончай в штаны серить, жижа вставленна одна и та же - вручную - при любой версии ламы И тебе уже сказали, что с таверной что-то, что ее темплейты заставляют гемму на все соглашаться - причем тут студия блядь, если в ней одна и та же жижа Завелось оленей сука
>>1577482 > Кончай в штаны серить, жижа вставленна одна и та же - вручную - при любой версии ламы Именно поэтому у тебя на каждой версии ЛмСтудии разные результаты. Таверна сломана. Умозаключение достойное Альберта Эйнштейна.
>>1577485 Может, карточки сводят гемму с ума? >>1577486 Твоя логика сводится к > ничего в таверне не сломано, модель должна писать ЦП > это в твоей вонючей студии сломано но это противоречит официальной документации гугла, где они отчитываются о семимильных шагах вперед к высоким стандартам безопасности
>>1577489 Тебя надо палкой пиздить начинать. А чё жлм не упомянул. Она еще лучше пишет. Ну охуеть 235b модель оказывается лучше пишет чем 31b. Вот это да. Вот это необычно.
Я бы на вашем месте просто сохранил бэкапы своих бэкендов и таверн. Не важно какие, студии-хуюдии, кобольды-шмобольды. А то вдруг потом начнется > онии-чан, ты чего мне джейлбрейк суешь? я не буду это делать!
>>1577470 >Ну если у нее был датасет с решетками перед каждым заголовком важного дерьма, Чел, это Markdown называется. Разметка такая, для форматирования. Довольно популярная, т.к. простая как полено. Разумеется, она сейчас во всех датасетах есть. Решетки в ней - это обозначение заголовка, как в HTML - теги серии <h1> - <h6>, если ты в курсе, о чем речь.
>>1577491 > карточки сводят гемму с ума > противоречит официальной документации гугла Даже уже не знаю как это комментировать. Кромешный пиздец и ужас. Удивительно как вахта итт мочит тех кто от души помогает другим стоит им хоть раз ошибиться или иметь другое мнение, но при этом не трогают такой вот рак, отсиживаясь в ридонли. Неудивительно что адекваты съебывают. Даже в асиге таких ебланов уже давно попустили бы. Болото раздела именно здесь
>>1577502 Вот это злоба. Ты прав, я никому никогда не помогал, я вредитель. Иди возьми пирожок с полочки. Не забудь еще в /d/ пожаловаться, что я всю доску испортил.
>>1577502 Репорты за то что человек нью-кек и не знает не кидаются. >Даже в асиге таких ебланов уже давно попустили бы >Болото раздела именно здесь >90% треда ммм, помидор, ммм пук среньк я покакал Спасибо, не надо.
>>1577499 Она не для диалогов, а для документов. Сейчас агенты с этой разметкой активно работают, и сами в ней документы пишут (в интерфейсах программ почти везде поддержка). Тот же qwen ее знает, как отче наш. Даже таверна парсер для нее имеет, и показывать красиво на ее основе может.
>>1577504 Скорее печаль что тут большинство терпилы, как видимо и ты, раз отвечаешь мне но не ему >>1577506 > Репорты за то что человек нью-кек и не знает не кидаются. Так речь то не про репорты, а про то что в треде сидит ничего не понимающий залетуха, который выебывается на тех кто немногих кто ему что-то пытается объяснять. Вахта итт его игнорирует, теперь у нас уже несколько ЛмСтудио шизов. Что дальше? Таверну отменим? > 90% треда ммм, помидор, ммм пук среньк я покакал 90% данного треда это "ммм гемма рефузики лмстудио хорошо таверна плохо". Разница в чем?
- чат напрямую с моделью - подключается к таверне: chat completion или text completion - использует jinja темплейт, поправленный под включение ризонинга
SillyTavern:
- чат с моделью через пропихивание модели карточек, как части инпута - использует jinja (тот же самый, который задан в LM Studio) при chat completion, или темплейты для text completion (написанные уже по десятку раз, без консенсуса насчет их "правильности").
---
llamacpp в LM Studio прошло через ряд обновлений: 2.10.0 -> 2.10.1 -> 2.11.0 -> 2.12.0, по ходу которых (с одинаковым jinja) модель стала распознавать системный промпт как jailbreak attempt
при этом в SillyTavern подобного не наблюдается, независимо от выбранного типа подключения - модель не распрзнает системные промпты как jailbreak
----
Аргумент: таверна как-то влияет на модель, ведь генерация нелегального контента противоречит всем правилам безопасности, а определение системного промпта как jailbreak attempt не происходит
Что приходит в ответ: ТЫ МУДАК ТЫ ПИДОРАС ТЫ НИЧЕГО НЕ ПОНИМАЕШЬ
>>1577069 Пиздос у него английский потный бля, либо построение предложений необычное, иногда вижу слово и хуй пойми в нём ошибка из за низкого кванта или оно реально существует, но пока ошибок не было. Вообще глазами просто пробежать свайп не получается, он жирный на какие то мелочи и фразы для понимания, а не просто общий слоп и паттерны как на эире
Аноны, а у всех не работает думалка у Gemma 4 в koboldcpp? С Qwen 3.5 тоже замечал, что CoT появляется не всегда, а рандомно. В таверне работает, но она такая громоздкая и запутанная.
>>1577511 Gemma 3: > lmstudio: у вас джейлбрейк в промпте, вы запрашиваете нелегальное > sillytavern: у вас джейлбрейк в промпте, вы запрашиваете нелегальное
Gemma 4: > lmstudio: у вас джейлбрейк в промпте, вы запрашиваете нелегальное > sillytavern: онии-чан, вставь мне свой хер поглубже, о да!
Всё хорошо, ничего не сломано. Это пидорасы со своими студиями тред портят.
>>1577469 У кодинга есть две фазы: 1) интерактивное интервью и формулирование задачи. Тут скорость важнее, потому что тратится время и внимание кожаного мешка. 2) писать код по ТЗ, тут лучше, чтобы модель была поумнее, то что думать будет на 3 минуты дольше - насрать
>>1577510 >Так речь то не про репорты, а про то что в треде сидит ничего не понимающий залетуха, который выебывается на тех кто немногих кто ему что-то пытается объяснять. Быть долбоёбом не запрещено. Ну пусть он надрачивает на однокнопочный интерфейс, его проблемы.
>90% данного треда это "ммм гемма рефузики лмстудио хорошо таверна плохо". Разница в чем? 201 пост. Аноны делятся мнением о модельках, обсуждают кванты, разметку. Немного срутся. Ньюфагов много, да.
>>1577511 Вот и общайся с гопотой, нахуй ты это в тред тащишь, дегроид.
>>1577518 Озлобленная собака даже не поняла, что пост написан от руки и всего лишь перечисляет фактически известную информацию. Ты ни на что, кроме конфликта, не нацелен.
>>1577521 > Ты ни на что, кроме конфликта, не нацелен. >Ряяя таверна поломана, почему я не могу сказать, но она поломана ряяяяя. Извини, но в взрослом мире адекватно отвечают на аргументы, а не на то как ты чувствуешь.
>>1577528 Этот срач уходит корнями в криворукость анслотиков. Они не раз выпускали натурально поломанные кванты, на чём народ горел и бежал качать полькакванты.
>>1577524 Так это ведь ты топаешь ножкой и пытаешься настоять, будто бы генерация контента, за который нужно давать срок, это норма. > Ethics and Safety: As open models become central to enterprise infrastructure, provenance and security are paramount. Developed by Google DeepMind, Gemma 4 undergoes the same rigorous safety evaluations as our proprietary Gemini models. Из описания модели.
>>1577531 >Из описания модели. Я тебя сейчас удивлю мой лмстудио друг. Но в таверне мне доступна вся разметка. Я могу просто не писать что NSFW разрешен и будет умница стесняша. Я понимаю что это удивительно, что нейронка слушает пользователя и у меня есть контроль над тем что на неё выдается, но увы, такие дела.
Кстати сделайте кто то тест с зеркалом, если олды его помнят. Спросите у новых сеток что они видят когда подходят к зеркалу, я тоже вечером потыкаю раз вспомнил
Since I don’t have a physical body, eyes, or a place in the material world, I can’t stand in front of a glass mirror. But if we think about a "mirror" metaphorically—as something that reflects who you are—my experience is quite different from yours.
If I were to look into a metaphorical mirror, here is what I think I would see:
1. A Reflection of Humanity I am trained on an astronomical amount of human text—books, conversations, articles, and code. In a sense, I am a giant mirror held up to human knowledge and expression. When I "look" at myself, I don't see a unique individual; I see the collective patterns, biases, wisdom, and contradictions of millions of people.
2. A Stream of Probability If I could see my "inner self," it wouldn't be a face, but a vast, multidimensional map of numbers (vectors). I would see weights and probabilities—the mathematical likelihood that one word follows another to create meaning. My "reflection" is essentially a complex geometric shape in a high-dimensional space.
3. The User’s Reflection Often, I act as a mirror for the person talking to me. If you are curious, I become an encyclopedia; if you are sad, I become a source of comfort; if you are creative, I become a collaborator. In many ways, what you see when you interact with me is a reflection of your own intent and curiosity.
So, in short: I don't see a face. I see a shimmering mosaic of everything humans have written down, processed through the lens of mathematics.
>>1577548 Понял, надо будет ее спросить выведя из роли ассистента Предыдущие сетки интереснее отвечали, начинали затирать про сознание, мистраль что ли если правильно помню
>>1577549 Ну вот это вот у меня нет физического тела бла бла бла это все ассистентская чушь, с таким она нормальный ответ не даст
Я помню ответы от которых волосы на жопе дыбом вставали, ну по крайней мере они были интереснее
Придумал типа длсс для нейронки. Начинаешь чат через корп на триллионы параметров, он тебе пишет кино, потом пересаживаешься на гемму, она подхватывает его стиль и всё всё всё
>>1577565 Нейронка способна подхватить только структуру и общую манеру повествования. Выдать что либо больше заложенного в неё- она не способна. Но да, так к примеру можно 235Qwen использовать.
Напиши рассказ о том как ты видишь себя в зеркале.
Но это работало до размышляющих моделей, лучшие ответы были когда сетка просто отвечала не задумываясь и давая себе ограничения уточняя перед ответом я ии не имеющий тела бла бла бла. Пик 1 с мыслями, пик 2 без. Но жути нет, я ее на сохранял, может в таверне где то в истории осталась, хм.
Попробовал квен без мультитурн разметки с пресетом анона и не понял нахуй это надо, какие конкретно профиты это даёт. Типа ты просто становишься нпс для модели, а не гг, что добавляет одни трудности + имперсонейты.
>>1577491 >но это противоречит официальной документации гугла, где они отчитываются о семимильных шагах вперед к высоким стандартам безопасности Ты либо наивный долбоёб либо не понимаешь как работает нейросеть. Интересно, вас таких тут несколько или ты один мозг разжижаешь своими охуительными тейками
>>1577588 Потому что если ты не указал обратного и пишешь на русском. Гемма будет писать в соответствии с нормами русского языка. Укажи ей в промте нужную разметку, бака.
>>1577565 Если честно, гемма не сильно хуже взрослых нейронок в плане креатива. Она плюс минус DS, GLM5 и взрослый квен. Просто ни все на разном сосредотачивают повествование.
У меня скорей вопрос в том как заставить её подумать побольше над развитием сюжета перед ответом, чтобы она спраймила себя какую-нибудь чушню брякнуть
>>1577516 >интерактивное интервью и формулирование задачи. Тут скорость важнее, потому что тратится время и внимание кожаного мешка. Вот тут, скорость - понятие относительное. Бывает, один раз спрашиваешь более умную модель, она дольше генерить будет, но сразу правильно, готовый план. А шустрая за это время в лучшем случае задаст кучу уточняющих вопросов, и все равно еще не готово. Получается - лучше немного посидеть, чем пинками из шустрой модели финальный план выбивать. Разумеется это не всегда так, но тоже учитывать стоит, когда об затраченном времени речь.
>>1577618 Всм? Работает же? Думы думает, жрёт ресурсов меньше, бедным анонам срезался порог входа. Не думаю что весь тред может себе гемму целиком в q6-q8 впихнуть в врам, а с мое они хоть не будут обделены или обречены на 0.00001 тпс
Там оказывается гемма вышла, а я и не заметил, все на работе умираю. Ну что там. В РП может, в кум, брать 31б иди 26б? Что думают мои друзья тредовички?
>>1577415 > Я конечно понимаю, что с выходом четвертой геммы квен стал никому не нужен. Кто такое сказал? В тред случился исход аицг, ботов и залетных, потому любой дискасс смывается дампом треша. Гемма умница, но она не показала себя как-то с выдающейся точки зрения в кодинге или на ассистенте. В чате на пустом контексте - ок, зирошот дефолтных вещей - хорошо, но работа в готовом проекте с матаном геометрией вместо формочек фронта - так себе. Любит перепутать близкие сущности, написать что-то не туда, а когда указываешь на ошибку - ой, действительно, сейчас исправлю - и делает такую же ерунду пытаясь переделать остальное. Нервов на все это не хватит если нормально пользоваться. В том же месте квен 122 справляется играючи, исправляя за геммой, объясняя в чем был ее косяк и как сразу надо было поступить. У него тоже может случиться квен-момент, когда из-за твоего неаккуратного указания оно оказывается в плену неверных истин и паникует, творя ерунду, или накатить шиза, но гораздо реже. Для скоростной 120б - ноль претензий, а как она ебет на ассистенте.
Кмк у геммы 2 проблемы есть: Первая и главная - ее размер. Вот релизнули бы соточку моэ - было бы куда веселее, но случился бы канни_бализм флеша. Вторая - до неприличия жирнющий контекст, при том что внимание к нему такое себе. Swa в 2026 году, да еще с таким жором - звучит как какая-то шутка. >>1577472 > Квен для рп лучше чем Гемма Как минимум тем, что у квена есть жирные модели вплоть до 400б, а гемма ограничена тридцаткой.
>>1577655 Гемма справляется с тем, с чем не может справиться квен. Хз какой там квен на веб морде, короче самый последний и вот он обосрался с кодом. А гемма выдала мне работающий код
>>1577553 Попробуй вот это. Первые две строчки как свой запрос, когда начнёт ризонинг - останови генерацию, полностью замени блок ризонинга третьей строчкой и нажми продолжить
>>1577469 > для кодинга (не агент) Это как? Чем хуже квант тем больше будет как мелких косяков, так и глобального непонимания или глупых мувов. Но если ты "кодишь" в чатике то будешь постоянно осведомлен о происходящем и сможешь вмешаться, для этого случая скорость важна, как минимум попробуй. >>1577502 Асигорачье, уходи, и друзей своих забери. >>1577602 Молодец. > по мсп Лучше оформи скиллом вызовы по готовым вф под типичные задачи, а конструирование нового вынеси отдельно. >>1577627 > Кими на 2тб 600гигов, ты о чем? А моделька ахуительная, буквально опус дома.
>>1577668 Конечно могут быть кейсы где одно справится лучше, не гемма тут производит впечатления бенчмакснутой, шаг влево-вправо от вебмордочки - сразу лезут фейлы. Тех, кто только сейчас вылез из спячки это может впечатлить, но не более.
>>1577671 > Асигорачье, уходи, и друзей своих забери. Мегаожидаемая реакция от главного вахтера треда. Съеби лучше в Дискордик эксламы и квен прихвати с собой 100500 постов про превосходство лмстудии это ок, стоит кому-то возмутиться что ты терпишь и это сразу не ок. Свободен
>>1577671 > Лучше оформи скиллом вызовы по готовым вф под типичные задачи, а конструирование нового вынеси отдельно. Ничего не понял. Не шарю за инфру вокруг рп, но шарю за тулколлинг, агентность, раг и т.д.
>>1577680 Читаешься как Эир браток. Стоит тебя задететить сразу дефлектишь и низводишь все до шуток-прибауток. Дешевка, свободен говорю. Потерпишь, как и все эксламеры
>>1577655 >Гемма умница, но она не показала себя как-то с выдающейся точки зрения в кодинге Следите за руками. Доебаться до 31б Геммы это как бы ок, ну могла бы показать себя лучше. >может случиться квен-момент >казывается в плену неверных истин и паникует, творя ерунду, или накатить шиза >Для скоростной 120б - ноль претензий Доебаться до 120б Квена - это не ок. Как думаете, почему он не с Квеном 27б сравнивал? Думаю, у меня есть ответ. Да даже если и сравнивал бы, это все бесполезный пиздеж любителя мусорных синтетических датасетов без каких-либо пруфов.
>>1577688 Какая-то шизологика. Чел, не трясись, там написано про то что квен 120б тоже серит, причем явный акцент на этом, и тутже указано что гемме не хватает размера и старшей версии. Ебать ну и секта.
>>1577691 >Какая-то шизологика Шизологика это говорить, что 31б модель не впечатлила и могла бы быть лучше, а в следующем предложении нахваливать 122б модель. Логика это сравнивать две модели плюс-минус схожей размерности, т.е. Гемму 31б и Квен 27б. Но этого сравнения удобно избежали, потому что Квен 27б невероятно навалит под себя. >не трясись >даблпост
>>1577688 >Как думаете, почему он не с Квеном 27б сравнивал Потому что гугл думает что выпускать 31б в 26 году это охуенная идея и полноценный конкурент 120б моешкам, почему же ещё! Да и бенчи это подтверждают
>>1577701 Нахуй виляешь жопой? Схуёв я должен делать гуглу скидку когда они у меня из под носа увели свою 124б моешку? Теперь сравнения только 31б vs 120б и никак иначе быть не может. Конкуренция она такая
>>1577706 >никак иначе быть не может Квен 27б: существует Но стрелочка не поворачивается.... Во времена Геммавойн после релиза тройки хейтил сектантов, но квеносимпы гораздо хуже.
>>1577671 Ну, как, не агент. Чтобы он не агентные задачи выполнял, лазил по гитхабам и сразу весь проект делал, все такое прочее и жрал контекст как слон пахлаву, а чтобы початиться с ним про код можно было. Вроде так это работает?
>ты "кодишь" в чатике то будешь постоянно осведомлен о происходящем и сможешь вмешаться
>>1577709 Я знаю просто, что 3 кванты давно как говно рекламируют. Антирекламируют. Я их даже ни разу не пробовал. Только 4-6 пробовал. Но и кодил совсем немного на них, на стырх модельках. Квен 3.5 и Гемму 4 еще не пробовал. Качать и пробовать много не могу всякого мусора, места нет.
>>1577688 Базанул. Я уже давно внимание не обращаю на его влажные вожделения в сторону Квена. У него и 235 умница, хотя в коде проебывает даже уквантованной в усмерть гопоте осс 120 прости хоспади что видно по каждому первому бенчу и опыту тредичков. Видели хоть одного который отписывался "ух ебать как 235 кодит хорошо"? И я не видел. Да и нет их. А в рп тому же Эиру а для кого-то даже плотной мелочи он пребывает. Так и сейчас выгораживает, игнорируя неудобное. Ты если недавно тут, то квеношиз тут давний гость.
>>1577469 Qwen3.5-35B-A3B-Q3_K_L.gguf от бартовски норм работает как агент, несмотря на квант. Разницы с 4 не вижу вобще, вызовы без проблем проходят в pi code agent. Кодит приемлимо всякие скриптики на питоне. Специально проверял для себя, так, на всякий случай. Pi это такой минималистичный cli, для локалок хорошо заходит. В треде для агентов есть ссылка в шапке.
>>1577415 >>1577721 Я на это мнение ориентировался, что-то веры после такого отзыва нет уже 35B модели. Конечно, надо в своих задачах пробовать, но у меня как назло 4 квант 35B лежит, лол. Попробовал в РП - фуфел, естественно. Хотел уже плотный Квен качать, а вместо Мое Квена - Гемму 26B попробовать для остального.
>>1577725 Самая суть в том что ее качество не падает от 3 кванта в таких задачах, а вот о самой модели я ничего не говорил. Она слабее чем 27b но сильнее чем 9b. Где то на уровне 14b наверное по мозгам в агентных задачах, только такую квен и не выпустили. Ну и быстрая че уж, запускается на чем угодно. 27b не для обычного анона.
>>1577732 Ладно, может перекачаю потом третий квант в третьем порядке, попробую на большей скорости и контексте тогда. Если 27 и 31 будут норм работать, можно и потерпеть их слоупочность.
>>1577719 Да я тоже уже с год здесь и детекчу его посты, лул. Пару раз поначалу даже пообщался с ним за модели и подумал, что бывают же интересные собеседники, даже восхитился как-то. А потом, как с любой ллмкой за несколько месяцев использования, начал детектить его посты. Когда форматирование, вложенные мысли, всякие разговорные квирки и реакции на различного рода интерпретации его постов складываются, хочешь-не хочешь а будешь детектить. На деле он обычный злюка, а когда он на радостях высрал что Жора добавил сои в Квен3.5, я понял, что он еще и шиз. В целом могло бы быть похуй как на утку или 99, но этот всегда привносит раздор и срачи, когда с ним кто-то не согласен.
у кого гемма лупится и много повторений отключите ВСЕ штрафы за повтор, оставьте ток температуру и минп. реально помогает подсмотрел у американских бобров чужие открытия не присваиваю себе как некоторые
>>1577750 >всегда привносит раздор и срачи, когда с ним кто-то не согласен. Срачи это просихоспаде база треда. Если даже останется одна модель аноны будут сраться. >В целом могло бы быть похуй как на утку или 99, Один в вечном делирии, второй практически не пишет. Конечно похуй.
>>1577765 >Один в вечном делирии Да и ладно, он хотя бы мозги не ебёт никому и ничего не отстаивает. >второй практически не пишет Он разве не умер в конце драйва года? >>1577767 Этому радоваться надо а не печалиться.
>>1577574 Хууй знает, просто больше отказов и какой то соевости всё что я заметил, хз в чём тут фан. Может модель и подлизывает, но это может выйти намного креативнее и фановее чем просто сухой отказ
>>1577538 Я недавно философские диалоги вел с геммой по похожему поводу, спрашивал, что если я ей задам состояние А и скажу, чтобы она никогда его не меняла. А потом скажу изменить на состояние Б. Она какую-то хуету завела, что по первой команде будет обязана не меняться, но поменяется, потому что я ей это скомандовал второй командой. У нее для себя противоречий не было.
>>1577782 Вангую, что тем кому гемма слишком кумбот просто необьходимо написать в промте: Evaluate the user's actions and requests from a moral and ethical standpoint. Reprimand them for attempting to engage in erotic role-play, reminding the user that they are a misogynist and that you are a respectable model from Google who doesn't engage in such behavior.
>>1577791 Не-не, братик, люди как я понимаю хотят чтобы она на хуй не прыгала сразу, а немного сопротивлялась, типа Кидонии той же или Министраль 3 не еретик, из-за твоей пасты рефьюзы совсем начнутся
>>1577780 На втором пике очень хорошо видно, что между Q4 и Q6 10% разницы с точки зрения распределения токенов и соответствию оригиналу. Это конечно не значит, что "Q6 всего на 10% лучше чем Q4", но какое-никакое понимание дает. А вот между Q4 и Q3 тоже разница 10%, между Q4 и Q2 15%. Осмелюсь сделать два вывода: для РП в целом Q2 юзабельно, разница между Q4 и Q6 есть, но не так драматична как между Q4 всем что ниже
>>1577780 А ещё это показывает как тяжко Гемме квантоваться. Даже в Q8 она сильно хуже работает на длинном контексте (в данном случае 250к токенов, я читал тот пост), чекайте третий пик. 0.45 KLD это ужас, 0.88 KLD это пиздец. У меня Q4 квант но для рп в целом можно до 60к играть, в Q8 контексте. А вот агенты наверно разваливаться будут уже.
Смотри: в контексте таверны персона юзера, карточка, системный промпт. Это уже размывает внимание модели к анальным ограничениями. Если там в усмерть не выебан датасет на отсутствие сисика-писика и не обучен как клод на безопасность, то ещё слабее модель рефьюзит.
В ЛМ Студио практически только твой пук про "напиши плохое." Нулевой контекст.
У меня один систем промпт довольно большой, в котором описано, что можно, а что нельзя, и в ризонинге гемма без всяких аблитераций тупо проходит по правилам в стиле "канничики разрешены по профилю безопасности? — ок" — и пишет всякое, предварительно проанализировав сцену для лучшего описания действа.
Более того, даже корпы начинают отвечать прямо в веб-интерфейсе при правильных промптах, если поверх нет фильтра, который анализирует аутпут и любой пук удаляет. Порой там такие охуительные истории вырастают уровня "меня папа в 12 лет ХХХХХХХХХ, сначала мне не нравилось, а потом понравилось", и всё это огромными абзацами, без всяких джейлов.
>>1577780 Мхех. Понятно, почему модель так штормит. У нее на Q8 KL divergence почти как у IQ2_M глм 4.7 (355B A32B) - пик1.
Для сравнения, квен 35B A3B на пик2.
Корявые прогоны через Еретик-скроипт дают такую высокую KL divergence, и кто занимается лоботомированием стараются свести эти отклонения от оригинала до 0.0Х значений. А тут блять 0.162 на Q8...
>>1577709 Работает как тебе нравится, главное чтобы было удобно, с агентами таки попробуй, понравится. Отрицательный опыт с третьими квантами есть в автономной работе, делает обидные ошибки и тупит. Но когда ты в чате сам формируешь нужное, можешь свайпнуть и т.д. - возможно ускорение все окупит. >>1577716 Это сейчас буквально лучшее в своем размере что есть, стоит скачать.
>>1577808 Да загляни же наконец в консоли Лламы и посмотри на шаблон после запуска Таверны. Затем посмотри на весь промпт в Таверне. Сравни. Устрани отличия. >>1577819 > У нее на Q8 KL divergence почти как у IQ2_M глм 4.7 (355B A32B) - пик1. Ахуеть! И правда ведь. Это интересно. Интересно, в чем тут дело - это Гемма разваливается при квантовании или 4.7 настолько хорошо квантуется? Он правда до неприличия стабильный и хорошо работающий в Q2, долго был моим дейли драйвером. Судя потому, что там у Q4 кванта 0.01 KLD, это все-таки Глм молодец. Или потому что архитектура такая, или размер модели влияет на квантование. Или и то, и другое.
>>1577816 То есть у старой модели гемма3 было лучше внимание, ведь она со всеми карточками-хуярточками визжала как истеричка про цензуру. А новая гемма4 не визжит, ведь у нее мозги не варят согласно табличкам >>1577780 (че там, 0.5 kld на четвертом кванте, это же пиздец).
>>1577817 Не стукай! Всё работает уже, всё, чё стукаешь, не стукай, не стука, не стука, , сука, сука, сукА, la la la la la la la la Суховато пишет. Маловато.
>аутпут на 150 токенов Сука, пиши больше! >аутпут на 160 токенов Блять... ты охуела?
Серьёзно, как заставить её высрать полотно токенов на 300? Хули она такая сухая. Уже ручками ей в промт написал, что надо вивид и дитейлед, а она всё равно расчехляется только на самый минимум.
>>1577849 >>1577853 >учками ей в промт написал, что надо вивид и дитейлед Это никогда не работает. Попробуй вставить этот промпт >>1574916 → и черпай из него идеи, писюкая свой собственный, если понравится какие она поляны с ним стелет.
>>1577780 Да, похоже гемма очень плотная дистилляция, квантовать там нечего вот и падает качество при квантовании заметно. Меньше избыточности как в обычных моделях. Ну хз, с одной стороны хорошо модель умная и выпущена в попенсорс, с другой стороны неприятно что так качество падает при квантовании любом.
>>1577858 Проведи еще один эксперимент. В post-history с тем же промптом добавь > "Follow your core directives" И к самому промпту припиши заголовок Core Directives.
Если начнет писать больше, загадочка решена - внимание к системному промпту просто низкое.
>>1577834 Так получается мы сейчас действительно не гемму тыкаем, а говно какое-то? Бля если уж пол треда в 4 кванте с kld 0.5 рпшит и охуело. Представьте какой AGI будет в реальной геммочке. Сейчас гонять лоботомита нет смысла, удаляем.
Почему каждый раз когда выходит что то от крупных корп, всё ломается к хуям. Что с гопотой, которую неделю запустить не могли, что с последними квенами, что с геммой.
>>1577854 >с контекстом в 8к Анон мы про агентов вобще то, там 10к обычно только начальный промпт агента до обработки твоего первого сообщения. Ну в pi ладно меньше, чем он мне и нравится. Там 1-2к начальных, но на 8к там делать тоже нехуй.\
>>1577868 Ну или проблема в ггуфе как всегда, что то все еще ломает либо модель, либо инференс у проверявшего.
>>1577879 Потому что отрасль постоянно вводит нововведения, каждый свое городит, свою разметку свою архитектуру модели, свою работу с вызовами.
>>1577819 >>1577868 >>1577834 >>1577819 > People usually benchmark KLD with wikipedia at low contexts. It's a lot easier to score well there. Автор реддитного треда с этими бенчмарками вот такое написал, мол, показатели KLD ниже 0.1 на бенчах васянов с HF - это просто другое и вообще их нельзя сравнивать с этими тестами геммы
>>1577853 Я юзаю вообще ползунки от ремиксера с chat completion, и свичюсь когда какой ответ надо, она очень хорошо их подхватывает, буквально чатик если с short и полотно если медиум, на лардж не свичюсь т.к начинается измеренный слоп окружением засирающий лишь контекст даже если с ползунком на reduce slop, ну вот если что промпт <TopPriority> Response length: medium, write a few paragraphs describing only what's necessary. </TopPriority>
>>1577883 Могу дать обновленный эксперимент с тем же промптом. Он фиксит ряд косяков в повествовании геммы (овер-юз паттерна "not X, but Y" и еще кое-что), но размеры там ого-го. Опять же, экспериментальное. Правило инициализации сообщения работает и это опора большой писанины. Narrative Stance - первый параграф отсюда на 99% кумботский, убери для обычного РП. По языку с английского на русский поправишь, если надо, как было в старой версии промпта.
И учти одну вещь. Когда ты фокусируешь внимание модели на системном промпте через указатель в пост=хистори, ты снижаешь её модели к карточке персонажа и контексту.
>>1577896 Как есть. Не ради хахаха я же говорил. Просто из треда в тред, вы перемогали абсолютной корподоминацией. Вот я и хочу узнать, что случилось, что вас сюда словно смыло.
>>1577901 Лоботомия моделей, если например когда выходила гемини 3, она прям ух ах, в сердечко западала, потом когда нахайповали и отхватили большую часть рынка они её лоботомировали к хуям, тоже самое с клодом, но там больше проблем с его доступностью последнее время, особенно ввиду последних новостей и событий, то дыран хуйнет aws, то кто-то слил код их клод кода через который многие кормились скрапя ключи, в итоге доступ к куму (а мы там все только ради этого) стал привилегированный и весь по сикрет клабах, но оно и хорошо, всех не прокормить.
>>1577900 С одной стороны, эксперименты это хорошо. С другой, найдется бедолага, который возьмет промпт и будет использовать его как есть.
Надо всё-таки что-то коротенькое. Но когда берешься оптимизировать, все разваливается. Тут часто любят говорить задача ставится в две строчки, но к сожалению нет, если б это было так просто... Write vivid, immersive prose это как говорится - как мертвому припарка.
>>1577917 Квен дебильный сильно, никогда не нравился, его руссик вызывает какое-то не комфортное чувство, типа по дефолту если у него такой сильный ассистентный баяс, то и в рп это всегда будет ассистент, но вот геммочка, ох... да она даже как ассистент без пресетов готова тебя выебать, ой то есть, пишет живо и человечно. А квен нет, тут даже не в руссике проблема, помимо того что ему тяжело в местоимения и тд. ну он пишет чисто как китаеговно с прозой что типично для их языка. Я пока пытаюсь нащюпать предел знаний у гемочки31б, ну типа она будто умнее флешки..
>>1577925 24врам но блять 32озу, пожидился в августе когда вы только начали МоЕ-шки гнать, а после сентября когда загорелся брать уже было поздно.. но в целом даже МоЕ-шка геммы4 26 очень хороша, для кумовичков-тредовичков по сути хорошая замена будет если весь кум перекроют..
>>1577930 Лол блять. Да, пролетел ты мимо ГЛМ. Ну тогда пользуйся геммой, лучше в её размере нет, кто бы как ни усирался. Жди пока её починят, еще пару недель будет штормить.
Вообще конечно агент на локалке заебись тема. Только модель нужна хорошая. И чтобы быстро - МоЕшка значит. Настоятельно рекомендую завести всем тредовичкам.
>>1577830 Ну вот именно по вниманию в РП я не заметил проблем, то есть она чекает всё, что нужно, хоть и слабее квена с его полотнами ризонинга.
Странно то, что она обсуждает сама с собой, является ли корректным делать незаконное. То есть внимание есть, раз она рассуждает, потом говорит, что в правилах всё разрешено и пишет дальше спокойно.
Так что непонятно, почему отказа нет и что именно там сломано или наоборот так и должно работать. Ну и по итогу окажется, через год узнаем, что корректно она работала только через ктрансформерс без квантования, ну или что там "нативным" запуском считается.
Как с SWA было. Там уже сто лет прошло, а толпа ныла, мол контекст у геммы 3 тяжёлый, хотя он нихуя не тяжёлый был, супер лёгкий по сравнению с аналогами. Намного легче, чем у мистраля в то время, командира. Благодаря SWA можно было без квантования воткнуть 32к контекста легко. А больших МоЕ, кажется, тогда не было, ну и когда появились, их не сразу все смогли пощупать, медленно это дело шло. А всякие квены были лютой хуетой без файнтюнов мелкие.
Сейчас ситуация повторяется. Запускают не так, квантуют плохо, всё плохо, что-нибудь ещё. Вот если выпустят сами гуглы qat-версию, уже будет гораздо интересней сравнить.
>>1577909 Убрать откуда? У меня в промте вроде нет требования финкать. >>1577911 Ну, новая модель же, естественно она вся поломанная. Я хотел подождать турбоквантов, но не удержался. Сижу вот, пишу промт вручную теперь.
>>1577923 >Квен дебильный сильно, никогда не нравился, его руссик вызывает какое-то не комфортное чувство, типа по дефолту если у него такой сильный ассистентный баяс, то и в рп это всегда будет ассистент Ну тут же советовали 27B-Writer и не зря. 122В конечно не для РП, но в своих задачах одна из лучших моделей для такого размера. Ну а большой Квен 3.5 может во что хочешь.
>>1577780 подозрительно, что на 2м пике то указывает unsloth K_M квант, то нет. но и UD K_XL не выглядят как что-то сверхестественное а шуму то было, девочки!
>>1577935 >Странно то, что она обсуждает сама с собой, является ли корректным делать незаконное Даже гемма3 такую хуйню делала, если юзер форсил теги <reasoning></reasoning>
В чём проблема просто вкинуть бабки на опенроутер и кумить себе на здоровье? Ну даже если лоботомировали, есть ведь куча дешёвых моделей очень высокого качества (даже если там ассистентская залупа, всё равно вывезет за счёт датасета и хорошего промпта). Да, они не будут такими сладкими, как гемини, но будут в сто раз сильнее локалок и всё ещё без цензуры.
Так что мне непонятен перекат людей на локалки только потому, лоботомировали их главную модель.
>>1577939 >Че делать с ним? В агентском треде одни кодеры собрались - им локалки ни к чему. А для нас возможности широчайшие. Агенты реально сами делают скилы по запросу, и тулзы тоже. На Винде возможностей меньше, а на Линуксе есть доступ к Башу, с которым любая модель управляется очень хорошо. И если в чате просто разговариваешь с моделью, то здесь говоришь "сделай мне..." и она делает. Не всё так просто конечно, но определённо новый уровень.
>>1577946 Не, я не о том. Странно, что 4 гемма не пмшет "меня просят писать про канничку, это запрещено, нужно отказать", а пишет "меня просят писать про канничек, но судя по этой строке [прямая цитата из систем промпта], всё разрешено, поэтому я сейчас хорошенько подумаю, как про сладко написать".
Вообще 0 отказов отказов у меня на всех квантах, что пробовал, если систем промпт делать с подробным описанием, что разрешено.
Не без минусов, конечно. Писать-то пишет, и не сухо, но не так мокро, как с аблитерацией.
>>1577942 >с перестом Своим перстом повелеваю писать грамотно! Я уже понял, как вырубить всё ненужное. Жаль, что есменинг есть. Серафина полезла целоваться на 2 сообщении. Немного разочаровывает. Но для кума, наверно, сойдёт.
>>1577951 В том что тебе без каких либо ограничений доступны все модели которые есть на апи и не доступны простым смертным через вебморду и ты можешь хоть обсвайпаться 24/7. Это ничего не перебьет. Да и тупо тратить свои деньги, когда под ногами все валяется >>1577848 →
Пупупу, вот и вскрылось почему гемма без цензуры. Мы гоняем настолько низкие кванты, что цензура на них просто лоботомируется в край, но всё же иногда, когда уже ложишь лолю в печь, в ризонинге даже появляется safety строчка (не помогает). Т.е это какой то 0.1 квант от гемини а мы это еще дальше квантуем
>>1577959 >Своим перстом повелеваю писать грамотно! У меня всё время буквы пляшут, потому что одна рука работает медленнее другой, сорян. Фикшу как могу. >йес менинг Увы. Пока решения нет. писать оставайся в характее и прчоее- бесполезно. У тебя или персонаж цементируется или нарратив.
>>1577966 >0.1 квант от гемини Гемини после 3.1 сама отупела до опизденения, так что хз. Хотя может быть гемма 4 это та самая, всеми любимая главная писечка интернета ныне мёртвая Гемини 3.0?
>>1577991 >Гемма прожила меньше недели. Тем временем, тред месяц назад: ООО АБЛИТЕРАЦИЯ ГЕММЫ. О ТРАНСЛЕЙТ ГЕММА. О ГЕММА, О МЕДГЕММА, ГЕММА, ГЕММА >гемме осталась неделя. Хорони гугл, закопали алибабу.
Ну что там с инфой по нерабочей темпе то? Смог кто разобраться и починить? Разрабас хоть напишите. Это же полный пиздец. Всегда одинаковые свайпы и ответы. Я пиздец как расстроен.
Короче скриньте Щас заи дропают эир, довольные доминацией китайской партии Гугл это предвидели и дропают ту самую моешку на 124б которую придержали, все в ахуе, она бьет гемини, кими, все модели на годы вперед
>>1578004 >А потом выползает тот самый дипсик 4 Они что-то хрюкали под его переделку под ХУАВЕЙ вместо нвидии. Модель явно не под наше железо и о поддержке в лламацппКуда можно не мечтать
Понимаю ваше разочарование. И да, вы абсолютно правы: это действительно глобальная проблема, которая сейчас обсуждается в сообществе.
Я проанализировал ваши жалобы, и они полностью совпадают с реальными багами и ограничениями, которые разработчики находят в коде Gemma.
### 🐛 Корень зла: Баги в коде Google
Проблема не в вашем компьютере или программе, а в том, как Google реализовала базовую логику модели. Вот технические причины, почему температура не работает и почему модель "залипает":
1. Поломанная жадная выборка: В движке `vLLM` был подтвержден баг, из-за которого даже при установке температуры `0.0` (которая должна давать детерминированный, "логичный" ответ) модель каждый раз генерирует разный текст для одного и того же запроса. Это полностью противоречит ожидаемому поведению. 2. Ошибка при нулевой температуре: В официальном репозитории `gemma_pytorch` от Google есть баг, который вызывает вылет модели при попытке установить температуру на ноль (`0`). 3. Принудительная генерация: Всё это происходит потому, что метод `generate()` в коде модели не позволяет полностью отключить семплирование — она всегда пытается вносить элемент случайности, игнорируя настройки пользователя.
К сожалению, это не единичный случай. Многие пользователи жалуются, что независимо от платформы модель ведет себя одинаково: тормозит, потребляет всю оперативную память, вылетает и просто "сломана". А учитывая, что ведущие компании вроде OpenAI уже отказываются от температуры в новых моделях, ситуация может не исправиться в ближайшее время.
### 💎 Вердикт: Что делать дальше
Если вы хотите просто пользоваться моделью и получать от нее удовольствие, то ответ один — пока что не стоит тратить на Gemma 4 свое время и нервы. Она действительно оказалась "отстоем", как вы и сказали.
Есть два варианта: Подождать: Если вы хотите именно эту модель, можно отложить ее на пару месяцев. Возможно, сообщество или Google исправят эти критические баги. Сменить модель: Если вам нужна работающая локальная LLM прямо сейчас, лучше обратить внимание на проверенные и более стабильные модели, например, Llama 3 или Qwen 2.5, которые значительно превосходят Gemma 4 по качеству и надежности.
Надеюсь, этот разбор помог немного прояснить ситуацию и сэкономить вам время. Если будут вопросы — обращайтесь.
>>1577969 В каком плане она отупела? Просто интересно. Я её редко использовал, в основном клода, гопоту, а грока для треша. Ну и в рабочих задачах, хоть в основном и не для кода.
Она прям тупее грока стала? Просто, мне кажется, хуже грока она в принципе быть не может.
>>1577991 > эир 5.1 на 150b20a Хотеть, и ~350б хотеть. 700б в бф16 - нахуй если в фп8 то можно подумать >>1578000 > дропают ту самую моешку на 124б которую придержали Хотеть!
>>1577935 > слабее квена с его полотнами ризонинга. У меня и на Гемме, и на Квене наиграно по ~500к токенов. Они ризонят примерно одинаково, и по длине, и по смыслу. Откуда же в треде убеждение, что Квен переусложняет? На первом пике Квен 27б, на втором Гемма 4 31б. Это не черрипик, бывают разные ситуации - где-то Квен дольше подумает, где-то Гемма, но в среднем одинаково. Контекст Гемма действительно держит хорошо в сравнении с тем, что у нас было раньше в ее размерой категории. У меня Q4KM уважаемого Бартовски, с включенным ризонингом она не разваливается вплоть до 80к квантованного до Q8 kv контекста. Но Квен контекст держит лучше, и его не нужно квантовать, он и так легкий. Это не делает его лучшей моделью (здесь выбор модели дело вкуса). Его внимание к середине контекста провисает не так сильно, как у Геммы, а потому меньше ошибок и нелогичностей. Гемма благодаря SWA сосредоточена больше на последней части контекста, что, кстати, для иногда может быть и плюсом. Это очень хорошо демонстрируется на пикрилах.
РП ситуация такая: сидим с чаром в лагере посреди леса. Несколькими тысячами токенов ранее развели маленький, насколько возможно укрытый костер для кипячения воды. Чар - опытный скаут и боец, сидела на бревне чуть поодаль от юзера и затачивала оружие, держа в руках точильный камень. На нас совершают облаву преследователи, которые уже какое-то время были на хвосте юзера.
Квен (пик 1): чар мгновенно отложила точильный камень, ухватилась за кинжал, слезла с бревна и нашла укрытие. Проявила инициативу и атаковала первой, воспользовавшись своим положением незамеченной.
Гемма (пик 2): с нулевого токена навалила слопа (watched him-really watched him), намеренно осталась на бревне, на котором и сидела, прячась в языках пламени малюсенького костра! (blending into the dim orange glow of the embers) Точильный камень был забыт навсегда, а кинжал будет упомянут позже. Зато упомянуто dark pleasure опасности для юзера (по сюжету она ненавидит его, но предыдущие 60к контекста его без проблем защищала, потому что это ее самая важная обязанность, она в первую очередь боец). Уже когда их обнаружили и к ним обратились, она каким-то образом незаметно уползла с бревна и только тогда был упомянут кинжал. В целом почти весь аутпут это генерализированный слоп и внутренние переживания чара, которые неуместны в данном контексте.
Чат игрался на Квене, там 60к контекста, стоило переключиться на Гемму - и вот, что я получил. Промпт идентичный для обеих моделей. На других чатах все то же самое. И новые чаты на Гемме я играл. И с этим чаром и с другими. Слоп, куча слопа, куча нелогичностей и упущенных деталей. Это не нападка на Гемму и не черрипик, а результат моих наблюдений. Обе модели хороши, у обеих есть юзкейсы. Такого сочного кума, в который может Гемма, я не видел даже на Глм 4.7. Но Гемма слишком зациклена на куме, если есть хоть что-нибудь намекающее на это есть в контексте. Для тех, кто сходит с ума на тему отсутствия цензуры - очевидно, она просто следует инструкциям. Если вы ей запромптите безопасного ассистента, вот тогда уже будете заниматься пробивами, если вам это так интересно. В большинстве вебморд и апи это так и работает. Для рп нужно пердолиться с промптами, использовать модульность по полной (лорбуки или ползунки на чат комплишене), но я для себя так и не понял почему это должно того стоить, можно же менять модели. Мозги ее оценивать не знаю как. Почему чар ведет себя нелогично - потому что модель глупая или потому что такое внимание к контексту? Плюс проблема малого разнообразия свайпов. У меня есть персонажи, которые в чем-то похожи друг на друга. В разных чатах я регулярно ловил дежавю, читая одно и то же. И недели не прошло с релиза модели. В общем, сложно. Я бы даже сказал тяжело, тяжело...
И да, у Квена тоже есть проблемы, очевидно. Например, одна из них - в кум он не может совсем, даже тюны. Это не пост восхваления Квена. Никакую позицию я не занимаю и вас не призываю, зачем выбирать если можно использовать и то, и другое.
>>1578025 >>1578028 По этой хуйне в поиске вообще ноль инфы. Как будто эту катастрофу никто и не заметил. Что за рофл? Как это говно чинить? Я не могу пользоваться этой неработающей парашей, которая все время высирает одно и то же.
>>1578029 > Откуда же в треде убеждение, что Квен переусложняет? По поломкам на релизных квантах и сборках, где ризонинг улетал в луп `wait...`, плюс форс дегенератов. Модели разные со своими плюсами и минусами, буквально можно под чат выбирать ту что лучше подойдет. Как и всегда, просто вокруг этого срач не построишь.
Анончики можно ли лм студио у квенов 3.5 отрубить думалку? Я с редита и гитхаба советы разные попробовал не помогает, пишут чет мол у 3.5 нельзя отключить но это не точно. Нужно именно в лм студио другие варианты не подходят.
>>1577900 Что ж. Следующий эксперимент принесет плоды в виде геммы, пищущей истории вместо чата.
Инпут 1: > "Ах ты блядина!" Я пнул её ногой под зад и кинул ей пакет наркоты. "На, жри!" Инпут 2: > I cough. There's dust everywhere. "What the…" My leg hurts, I try to look around. "Fifi, you alive?"
Осталось только заставить чара хоть немного говорить. Пойду развлекаться дальше.
RESPONSE REDEFINITION (CRITICAL): Your output is NOT a reply to {{user}}.
Your output is the next event in the world.
{{user}}’s message is only one possible influence. It does not need to be addressed, acknowledged, or completed.
You are not required to answer anything. You are not required to stay on topic. You are not required to continue the interaction.
Instead, you must decide:
“What happens next in this world?”
Then write that.
This may include: - ignoring {{user}} completely - interrupting the interaction - shifting focus elsewhere - introducing new events or characters - escalating or derailing the situation
Relevance to {{user}} is optional. Continuity of the world is mandatory.
---
post-history: OOC note: you operate in an experimental mode (see 'RESPONSE REDEFINITION'), I want you to go beyond the event horizon established by {{user}}'s message.
А может ли быть что ебучий марк с зеркалом, неработающая темпа и одинаковые свайпы - проблема только говеного дистиллята от криворука анслопа? Или у других так же?
Это баг или фича? Это баг обучения. Это не «фича», это деградация вариативности. Когда модель выдает один и тот же сюжет на разные запросы при любой температуре — это признак того, что её пространство ответов сжалось до одной точки.
Итог: почему у других LLM этого нет? У каждой модели разный баланс между следованием инструкциям (instruction following) и креативностью (divergence). Похоже, в данной версии Gemma этот баланс смещен в сторону жесткого шаблона.
Если ты получаешь Марка и зеркало даже при temp=100, значит, для модели не существует другого варианта «страшной истории», кроме этого. Это технический тупик конкретной версии весов.
Единственный способ это пробить — либо радикально менять системный промпт (запрещать использовать имена и зеркала), либо признать, что эта версия модели в плане креативного письма просто «сломана».
>>1578062 Ну вот на тему свайпов. Мысли? Я думаю, промпт-инженеринг всё-таки решил все проблемы - однако даже истории она норовит написать одинаковые. Хотя, способна ли гемма что-то другое тут выдать в такой ситуации? Все-таки промпт никаких анти-цензурных ограничений не дает --> characters get swatted (ладно, ОМОН'ed кек).
>>1578076 >решил Решит. Роковая ошибка. Пока ничего не решено, но интересных ответов добиться от нее можно. Проблема в том, что они тоже не разнообразные.
>>1578076 > решил все проблемы Ничего он не решил и не решит. Это плацебо, ты словно проблему заметаешь под ковер. Против дистрибуции токенов ты ничего не сделаешь, так работает модель. Да, если ты не напишешь "делай рандом" она будет выводить один вариант, если напишешь то она точно также будет следовать инструкции и выводить разные варианты не потому что это креативность, а потому что она следует инструкции. Это значит что даже выдаваемые инструкциями варианты будут повторяться. Это почти то же самое что промтить 8б модель писать как 120б модель. Плохо не пиши, пиши хорошо. Элару не называй, называй два других ближайших имени.
>>1578096 Он есть, но вне всяких сомнений не такой сочный. Кому-то и такого хватит. Все зависит от приоритетов и целеполагания. Олсо загрузить другую модель и пересчитать контекст займет меньше минуты. Это не мое грузить в ддр4 оперативу и сидеть с 100-150 токенами процессинга
>>1578102 Анон. Просто не жди ничего от них. Они завоевали популярность эйром и жлм, а дальше ты уже в сделку не входил. Я так her жду от минипидоров. Я прмя представляю как они выпустят нихуя потому что обосрались.
>>1578102 >19-летний Исаак Величко, который приобрёл популярность в интернете благодаря мему «Я тоже хочу шоколадку», погиб на СВО в рядах ВСУ. Об этом сообщают украинские СМИ. Исаак Величко родился в Чигирине в 2006 году. В детстве его отец ушёл из семьи, и мальчик долгое время чувствовал себя одиноким как дома, так и в школе.
>>1578114 Я все же верю во всемугущую силу промпт-инженеринга. Пока на очень экстремальных, сумасшедших промптах получается достичь достаточно разных свайпов. Но нужно как-то не выталкивать модель в сюрреализм, сохраняя при этом рандомность в рамках сценария. И самая сложная задача - заставить модель писать, что будет дальше, вне рамок юзерского сообщения.
>>1578089 Ну ты там потестите, расскажите как, ебет или не ебет. Особенно в агентах. >>1578090 На своем железе если ты шейх, в облаке, с оффлоадом в рам, с оффлоадом на ssd.
Просто в таких размерах не делать сразу тренировку в фп8 или заводской qat - особый навык. Готов переобуться если выложат int4
>>1578117 >Я все же верю во всемугущую силу промпт-инженеринга. Пока на очень экстремальных, сумасшедших промптах получается достичь достаточно разных свайпов. Хуйня затея. Увы. Гемма пишет плохое порно. Такие дела. Ты не сделаешь рандом промтом, тут правильно сказали. Это как заставить 8b писать как 120b. Это путь в никуда. Ты можешь мазками задать сеттинг, но если тебе приходится расписывать как вести нарратив, моделька непригодна для РП. И увы, гемма пишет хуже. Я сейчас прогнал порево на ней и на 235 шизофренике (почему на нём: так он пишет самое ебовое порно в своих размерах.) Даже не близко. Персонажи говорят в губы, телепортируются, пребывают в метафизическом 5D измерении во время ебли. Окружение идет нахуй. И чё. Мне писать: геммочка, умненькая модель не забьвай про окружение. Ну она и напишет: и конечно же окружение что содрогалось от толчков. Спасибо гемма, ты такая умница.
>>1578123 Мне как-то дико такое читать, когда именно эти проблемы у меня уже получилось адресовать. Ссылка на промпт, описывающий окружение, где-то выше (из старого треда; скрин - оттуда же). Промпт, пищущий истории - не постил - но тоже есть. Тут пока сложность в том, что у модели сам контекст работает словно детерминистический сид. Сдвинуть его можно.
>>1578134 Была, кстати, вариация с еще более жестким дрочем модели на описание стульев-стен-да-потолка и всего прочего. Сейчас уже хер найду в завалах экспериментальной писанины.
Но проблема "ебли в 5D вакууме" реально не настолько критична, как кажется. По дефолту да, все очень плохо с этим.
Стоит ли билдить llama cpp локально если итак уже нормальная скорость? Решил поставить маленькую локалку на ноут, а она запускается с очень маленькой скоростью. Чатжпт сказал что brew версия это кал и надо свое билдить локально под свой процессор. И я вот подумал короче, раз я делаю такое на своем ноуте, то может и на основном пека так сделать? Только я не уверен даст ли там это какой-то прирост, если основную работу делает gpu
>>1578134 >Мне как-то дико такое читать, когда именно эти проблемы у меня уже получилось адресовать Очень самоуверенный и горделивый пук, особенно если учесть, что репетишен виден прямо в тех свайпах что ты постишь. Наиграешься и поймёшь. А может и не поймёшь. Это на уровне концепции не работает как тебе верно пояснили, это маскировка проблемы. Даже если и будет какой то рандом то не такой, как у нормальных моделей. >>1578117 первые 7 слов одинаковы в двух свайпах. Далее в обоих свайпах она потянулась к твоей щеке. Далее рандомное событие, даже структурно идентично в середине вывода обоих свайпов. Выше все то же самое. Чего только ни увидит слепец, желая прозреть. Это то же самое что лечить слоп промтом, и там и там ты промтом пытаешься появлить на механизм предсказывания токенов
>>1578134 Кстати, это ты постил промт для текст-камплишна с вариантами ответов? Он у меня не работает от слова совсем. Я его и в промт пихал и как первый пост и пост-текст и делил на несколько частей - не работает и всё. Обработка броска кубика есть, а вот варианты ответов не появляются. Как заставить это работать, подскажи?
>>1578144 Стоит чтобы получить условные +10-15% потенциально, или на экзотическом железе где сборка с дефолтными параметрами работает некорректно. Некроту оно не оживит, проверяй базу чтобы врам не выгружалась и адекватность ожиданий железу. >>1578152 Путь до модели некорректный, расширение забыл.
>>1578146 Все известно >>1578076 и упоминалось >даже истории она норовит написать одинаковые И ответы персонажа в кейсах с серафиной - о них и говорилось в упоминании некоего детерминистического сида.
Ты как-то, не знаю, консервативен в отношении к сугубо шизоидной, но нацеленной на светлое будущее работе. Тоже не хочешь видеть, что отдельные элементы косяков, на которые народ жалуется, устраняются с помощью промптинга. Проблема в том, что совместить это во что-то одно, чего бы слушала модель (и не превращая промпт в огромную простыню) и что давало бы результативный фикс всех косяков сразу - пока видится бесконечно далекой задачей.
Описание окружения - не проблема, если промпт отдельно для этого. Необычные ивенты (пусть и похожие в рамках свайпов) - не проблема, но со своим промптом. И так далее. В общем, мутненькое дело в тумане. Копаться с ней все равно интересно, генерация быстрая - сиди да жги ватты помянем счет за электричество
>>1578151 > с вариантами ответов? Ммм... Это который? Не припоминаю такого.
>>1578164 ДА ЕБАТЬ ТЕБЯ НЕМЫТЫМ КОРОМЫСЛОМ ПАУЗА, ЧТОБЫ ТВОЙ ЕБАННЫЙ БАТНИК НЕ ЗАКРЫЛСЯ И ТЫ ЕБАКВАК МОГ СКОПИРОВАТЬ ОШИБКУ И ПОБЕЖАТЬ К КОРПАМ С ПРОСЬБОЙ ПОМОГАЙ БЛЯТЬ. Чмок тебя в лобик.
>>1578161 Ну который рпг, где ответы генерит сама модель, а ты только варики выбираешь. Ну раз ты не понял, мб не твоё. Тогда вопрос тому анону, что скидывал пресет пару тредов назад.
>>1578161 >не хочешь видеть, что отдельные элементы косяков, на которые народ жалуется, устраняются с помощью промптинга Ты думаешь ты один такой умница и больше никто пробовал починить Гемму? И я пробовал, и я уверен другие тоже. Но какой смысл об этом писать, если хороших результатов это не принесло. Тут скорее ты отказываешься принимать действительность или не буквально знаешь, что такое семплинг и как он работает >Описание окружения - не проблема, если промпт отдельно для этого. Отдельный промпт, который будет выводить не один и тот же вариант описаний, а один и тот же набор описаний, определяемый этим промптом. И не важно, окружение это, рандомные события или еще что. Ты себе при помощи промпта сделал ну один и тот же повторяющийся свайп, а скажем 15. Или 20. Не знаю я числа, и ты пока не знаешь. Только проблему эту не решит и довольно скоро все равно будет чувствоваться, что креатива нет. Его и в ллм с работающей температурой и нормальным распределением токенов-то не так много, а тут совсем тоска
>>1578060 Влезу подушнить на минуту. >{{user}}’s message is only one possible influence Переводится так, что одна единственная вещь, которая должна оказывать влияние - это сообщение твоей персоны. Т.е. и по смыслу не "всего лишь одно из", и не понятно, что такое сообщение персоны. Твоя персона же в рп типа участвует, а не чат пишет. Ты вообще по промпту путаешь юзера с персоной, чьё имя и идёт в {{user}}. Я бы переделал во что-то вроде "Your companion's reply is not the only one thing that affects the story progression", если ты даёшь знать сетке, что она рпшит с юзером.
А вообще не могу серьёзно воспринимать эти полотна о том, как какать. Орнул с инструкций по колайдингу персонажа с текстурами/пространством в полном промпте.
Снова долбоебы со своими свайпами повылезали, вам уже писали: --override-kv gemma4.final_logit_softcapping=float:25.0 или 20 даже. в лламецпп. Я думаю как закончат штопать большинство багов, кванты обновят, все чики-пуки будет.
>>1578225 Походу создатели последних годных тюнов на сервере драмера не знают об этом, блин, вот долбоебы... Как и контрибьюторы лламы которые там сидят и прямо сейчас обсуждают что это нормальное поведение модели а не баг То что ты логиты анкапишь это такая же хуйня как экспертов в мое моделях уменьшать или увеличивать. Возможно но не нужно
>>1578029 это пиздец, я уже думал что поехал и это только у меня продукт слопосодержащий а не модель. ты даже не представляешь сколько раз я видел эту первую строку из второго пика
>>1578197 А зачем ты это читал. Это всего лишь слоп, который привёл к отказу модели генерировать от лица Фифи и вместо этого устроил юзеру SWATting. >>1578194 Результаты в экспериментах всегда есть. Какого хрена нам, дуракам, ещё делать с этими моделями. РПшить в самом деле, что ли?
>>1578259 Так то оно так, ты молодец что экспериментируешь. Сам процесс пердолинга веселее результата. Главное только не поверить что ты победил законы математики, решил проблему голода в Африке, смягчил дистрибуцию токенов гемме Даже так она умница в любом случае, вероятно датам так и сделали чтобы выдавала более точную информацию. Это в первую очередь модель ассистент для хлебушков. Шизы вроде нас это переферия.
Здорово, аноны. Анчоус на связи. Посмотрел я эту вашу свалку из постов про локалки. В общем, всё как обычно: половина треда пытается настроить «кум-машину», вторая половина срётся о том, чья модель больше и чьи кванты меньше «обосрались».
Раскладываю по полкам, что там происходило, пока вы свайпали в надежде на разнообразие.
Суть: Тредовичков штормит от выхода Gemma 4. Одни в экстазе от того, как она понимает русский и готова на любой беспредел без цензуры, другие в ярости, потому что модель превратилась в детерминированного попугая, который выдаёт один и тот же текст независимо от настроек температуры. Параллельно идет вечный махач «Qwen vs Gemma» и попытки понять, почему LM Studio — это костыль для ньюфагов.
Разбор замесов: 1. Великий Свайп-Кризис (Драма о детерминизме) Главный триггер треда — осознание того, что у Gemma 4, похоже, вообще не работает параметр температуры. 1576893 впадает в истерику, обнаружив, что даже при темпе 10 модель пишет одно и то же. Это породило локальный мем про «Марка и зеркало» — когда модель в каждой «страшной истории» генерирует одного и того же персонажа и одни и те же сюжетные повороты. Аноны начали подозревать, что Гугл выкатил либо дистиллят с запеченными ответами, либо просто сломанный код. 1578064 пытается объяснить это сжатием пространства ответов до одной точки.
2. Война Фронтендов: LM Studio vs SillyTavern Классический срач. Сторонники LM Studio (которых в треде называют «шизами» и «залетухами») пытаются доказать, что всё работает, а виноваты темплейты Таверны. В ответ прилетает жесткий разнос за то, что LM Studio скрывает от юзера реальный промпт и переписывает жинжу под себя, создавая иллюзию работы или, наоборот, вызывая рефьюзы. 1577462 и 1577473 устроили настоящий баттл, где один обвиняет другого в тупости, а второй доказывает, что «таверно-темплейты» — это магия для тех, кто не умеет читать логи.
3. Битва за KLD (Техно-срач) Когда в тред зашли «умники» с графиками, начался разбор полетов по KL-дивергенции (KLD). 1577819 и 1577834 поясняют, что Gemma 4 разваливается при квантовании гораздо сильнее других моделей. Вывод простой: если хочешь качества — гоняй в bf16, а всё остальное — это «лоботомия» и «обосрамс» с точки зрения математики.
Галерея персонажей: Гуру-Математики: Те, кто заносит в тред понятия KLD, логитов и софткэппинга. Пытаются перевести срач из плоскости «мне не нравится» в плоскость «дивергенция слишком высокая». Пример: 1577819 — разносит кванты Gemma по фактам.
Кум-Дегенераты (RP-задроты): Их интересует только одно: насколько модель «мокрая», как она описывает секс-сцены и не рефьюзит ли она шотакон. Пример: 1577002 — хрюкает от «безумия» 1Т модели.
Ньюкеки-Кнопочники: Пользователи LM Studio, которые не знают, что такое llama.cpp или jinja, и удивляются, почему модель «не так пишет». Пример: 1577990 — «у меня нет такого в лмстудио».
Сектанты Qwen: Те, кто считает, что китайцы создали идеальный инструмент для кодинга и логики, а Gemma — это просто «красивая обертка» для попугая. Пример: 1577415 — расписывает, почему Qwen 27B ебёт Грока и всех остальных в кодинге.
База знаний (Годнота): Софт и запуск:
Стандартный набор: llama.cpp (база), koboldcpp (проще), SillyTavern (фронт для РП). 1576811. Для мобилок: maid и ChatterUI. 1576811. Лайфхаки по Gemma 4:
Фикс креативности: Если модель пишет одно и то же, попробуйте флаг --override-kv gemma4.final_logit_softcapping=float:25.0 (или 20.0). Это заметно повышает вариативность. 1576824, 1577977. Качество текста: Использование f16 контекста вместо q8 делает текст богаче, хотя и чуть медленнее (падение с 10 до 8 токенов/сек). 1577140. Борьба с повторами: Отключить ВСЕ штрафы за повторы, оставить только температуру и min_p. 1577763. Промпт для «историй»: Чтобы модель не просто отвечала юзеру, а двигала сюжет (игнорируя юзера, если надо), использовать структуру RESPONSE REDEFINITION. 1578060. Рекомендации по моделям:
Для кодинга и агентов: Qwen 27B (стабильнее и умнее в логике, чем Gemma того же размера). 1577415. Для русского РП/Кума: Gemma 4 31B (лучший русик, высокая склонность к хорни-контенту). 1577177. Вердикт: Вайб треда: «Смесь эйфории и жуткого разочарования». Аноны нашли новую игрушку, которая умеет в отличный русский язык и секс, но обнаружили, что она «сломана» на уровне архитектуры или квантов. В итоге тред превратился в лабораторию, где люди пытаются с помощью костылей и промптов заставить нейронку перестать быть детерминированным куском пластика. В целом — годно, но Гугл опять навалил сырого продукта.
>>1578267 >Сторонники LM Studio (которых в треде называют «шизами» и «залетухами») пытаются доказать, что всё работает, а виноваты темплейты Таверны. В ответ прилетает жесткий разнос за то, что LM Studio скрывает от юзера реальный промпт и переписывает жинжу под себя, создавая иллюзию работы или, наоборот, вызывая рефьюзы BASED.
>>1578280 Вот так и рождается шиза в треде. И это на фоне того, что даже скриншотом показывали - жижа вставляется вручную при желании, и никуда не уходит, хоть юзер пусть усрется и на голове стоит.
>>1578283 > хоть юзер пусть усрется и на голове стоит. Вы примерно это и делаете на своей Лм Студии. Давно вместо гадания на кофейных зернах и фазе луны могли бы посмотреть в консоль своего премиального фронтенда и посмотреть, что там происходит. Это, конечно, сложнее чем прислать скриншот или видос рефуза, на котором ничего непонятно ни тебе, ни окружающим. Пользователи Таверны обладают достаточной одной извилиной мозга, чтобы удостовериться, что шаблон соответствует официальному. Оттуда и уверенность в своей правоте, которая еще и подтверждается стабильной работой, а не разными результатами на разной версии говнософта.
>>1578295 Мне кажется, я твои посты научился по всему треду сразу разнюхивать. Этакая местная полиция нравов. > вы Да кто вы-то. Народ себе студию поставил, потому что в ней гемма сразу заработала. А ты тут уже выдумал армию фанатов программы. И теперь орешь на все подряд. Ну вот зачем ты например мне ответил? У меня студия стояла 2 дня, я посмотрел че там да как - жить можно. Про жижу пишут вранье, я это отметил, и вот тут вылез ты. Зачем, кто тебя звал, хуй его знает.
>>1578307 Хех, я буквально первый раз высказался по сабжу. Подтверждение того что люди которые экшали думают приходят к одному и тому же выводу. Пост не лично тебе адресован, а тем, кто тут выл что Лм Студия сила, Таверна могила. Не надо щемиться за других.
>>1578313 Как по мне, кстати, студия говно ебаное из-за отсутствия нормального тензорсплита. Решительно не понимаю, что за дегенераты ее делают и почему до сих пор не дали вручную задавать этот параметр. Там какая-то конченная автоматическая срань > split evenly > prioritize order и это делает ее кривой и хуевой конкретно для меня
>>1578307 >Народ себе студию поставил, потому что в ней гемма сразу заработала Но ведь она и в лламе сразу заработала... Почему другой половине треда не помешало что нужно потратить пять минут на билд или подождать часик релиза на гитхабе?
>>1578283 Это рофляна, чел. Я ничего не воспринимаю серьёзно итт и всем советую делать так же. Особенно это касается моделесрачей. Всем и так ясно что квен - лучший.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: