В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
> Почему в калостудии скорость генерации 0.3 токена в секунду, а в text generation webui 15? Контекст одинаковый. Перепробовал все настройки в калостудии. Ниче не помогает. Да и вообще заметил что все модели работают гораздо медленнее там, а не только жемма Твое железо. Конфигурация запуска. Версии llamacpp. Перечисляй, лучше на скринах - проще будет.
ААХАХА, ебать... это что за КУМ-машина? Погодите ебать, т.е вы до этого сколько... 3 или 4 дня не пробовали вообще РП-шить с плотной геммой 31б? ЧТО Я НАХУЙ скачал ахаха, сука.. ладно но она правда хорошо сладно держит, но КАКОГО хуя она ебет сразу при учете что ноль упоминаний NSFW, нет это какая-то хуйня а не модель, это типа рофл с первого апреля а не модель..
>>1575317 Но не стоит питать иллюзий, приводимые цифры - банчмаксинг. Гемма умница, сочетает в себе и высокую ориентированность на типичные задачи (это хорошо), и достаточный ум и логику чтобы подумать над недефолтными. Но "победа над дипсиком" это какой-то рофл.
>>1575307 (OP) Как грустно выглядит вторая пикча. Просадка с Q5 до Q4 ощутимая и это на 27B, а мне надо как-то впихнуть 31B не обосравшись на 16+64GB. Даже 22б тормозила по 6 токенов на Q4KM.
>>1575381 Вообще, CUDA 12 работает и домашних конечно, 5080-5090. Вроде может на 4080-4090, для трёхтысяной карты точно качай версию для 11той (или без приписок)
>>1575391 Шизу несешь. Проблемы могут быть начиная с 13й куда не некроте типа вольт и тьюрингов, ампер все поддерживает. Так и оптимизации даже на старые карты выкатывают, потому советовать использовать 11ю куду где-то кроме паскаля - вредительство.
Единственный реальный плюс геммы для меня в сравнении с большими мое это русик, и это единственный кейс где её стоит использовать. Но на русике она начинает — Писать — Вот — Так Скотина. Причём сколько руками не правь один хуй скатывается к этому
Я чет прихуел, как квен узнал имя одной бимбы из десятых, ее мало кто знает, а милиписечный квен 7б узнал нахуй! Как так???? Интересно гемма так же обучена?
>>1575489 А его дообучали на порно-моделях что ли? Сам погугли имя Janelle Lynn. Квен правильно ответил... А 24б тогда сколько их знает??? Ща заценим геммочку.
>>1575520 Никак. Это цена за огромные знания и ум. Буквально гемини про на триллионы параметров засунули сюда, полирнув каким то турбо сжатием, единственный минус это минус свайпы
Чтож, с выходом Геммы 4 пришла пора прощаться со старыми модельками, думаю оставлю на память Магидонию v4.3, Квенчик 3.5, Darkness Reign от Алетиана и еще парочку. Что бы вы оставили из списка?
>>1575526 Так все модели разваливаются, лол. >>1575528 Ну... Да? Выходит что так. >>1575529 >полирнув каким то турбо сжатием Так вроде нет там никакого магического сжатия. >>1575530 Старую гемму тоже сохрани, мало ли. И вообще, тебе что, диски жмут?
>>1575536 >Так вроде нет там никакого магического сжатия У тебя все внутренние наработки гугла в области сжатия на руках? До турбокванта тоже ничего не было, может мы реально щас 1 квант гемини гоняем, исходя из того сколько она знает я ваще не удивлюсь
>>1575526 Ничего не разваливается даже близко. Даже с -ctk q8_0 -ctv q8_0 на 40к всё отлично было на UD-Q4_K_XL. У тебя может релиз лламыцпп старый или темплейты в говне? Или ты говноед с лмстудио?
>>1575542 >У тебя все внутренние наработки гугла в области сжатия на руках? А то. Ладно, на самом деле нет. Но мои (весьма поверхностные, но всё же) знания о работе ЛЛМ говорят о том, что это максимум дистилляция. А скорее всего просто с нуля обученная, просто на хорошем датасете без лишней сои.
>>1575536 > Так все модели разваливаются, лол. Прекрасный ответ на вопрос Зачем челы делают дохуя контекста гемме если она после 30к разваливается С сумасшедшим поселили блять
Я таки добился этого. Рефуз от геммы 4. Картинку отправил, да. Лечится свайпом офк, но на моей памяти одна из самых безцензурных моделей. Прямо таки вин и доказательство того, что соя и цензура убивает мозги.
С жорой перф на ми50 совсем унылый какой то pp 72; tg 4.3 with 10k ctx хотя вллм в соседнем углу тянет со скрипом но на много лучше pp 527; tg 13.8 (90 concurrency 16) with 10k ctx
В обоих случаях 8 бит модели, контекст без квантовки
Вновь репорчу сломанную гемму, попробуйте у себя тоже. При нажатии continue начинается бредогенератор, а если включён ризонинг то при нажатии continue он сбрасывается и пишется с нуля даже если там уже законченный блок и ты нажимаешь continue в самом сообщении И через чат и через текс комплишен такой баг
>>1575579 Первая квен 122, вторая гемма. Они хорошо знают общие вещи, но на самом деле обе фейлят в подробностях и путаются в деталях. Но это можно считать нормальным даже у корпов. Тут наверно еще от конкретных областей зависит, но меня гемма по общим знаниям фэндомов не сильно впечатлила, +- как у других. Может это после мистраля будет вау эффектом, но тут примерно та же планка что гемма3 заложила, со скидкой на время ее релиза.
Если это для тебя важно - без шуток во всяком анимце и играх жлм один из лучших не смотря на возраст, в точности опишет внешность, взаимоотношения и лор, там конкретно дампами фандомвики жарили.
>>1575603 >анцензоред >я вежливый ии Итоги. >>1575607 >COPRO RAT не может в мемы ИТОГИ. >>1575605 Кринг ебаный, блять, прекратите это торжество кринжа, умоляю.
>>1575233 → >А кто-нибудь пробовал на 31 плотняше рпшить без кума? Я тот поеховший с ролеплеем по Сидонии, я попробовал чисто для проверки (особо не углубляясь в настройки, только чтобы влезло). Либо дело в Q8 контексте, либо дело в Q4 кванте от бартовски - но 52к контекста оказались для неё проблемой, и она мало того, что обосралась в описаниях, так ещё и при генерации перепутала последовательность действий, которая должна была быть в ответе. И ладно бы это, но она даже с количеством Стражей, которые ГГ должен был наблюдать после пуска (три остальных стража его звена) сренькнула под себя. Надо квант побольше, походу. Придётся всё-таки третью видеокарту пихать. Естественно это чат комплишн.
Разница минимальна. Q4 сделала дополнительно фейковое приложение с погодой, Q5 сделала монобровь. У Q4 змейка может врезаться сама в себя если пойти в направление противоположное текущему. У Q5 чуть поприкольнее специальная фича. В целом практически тоже самое что и у неквантованной версии, только она сделала еще и нижнюю панель с приложениями чтобы было более похоже на телефон.
2. Создать 3Д игру где ты летаешь на космическом корабле и сражаешься с другими кораблями: Q4KM: https://jsfiddle.net/n2amoby0/ shift - ускорение пробел - стрелять
Только сейчас понял что не убрал с оригинального промпта "falls to the ground" поэтому нейронки создали поверхность на которую можно падать в космосе, лол. Ну да ладно. Что интересно в отличии от неквантованной версии оба кванта сделали игру с первой попытки, без фиксов. Что самое интересное Q4KM сделала игру лучше всех остальных моделей, все фичи работают, лучшее управление из всех вариантов даже корабль повернут нужной стороной. Единственное интерфейс скудноват. У Q5KM все реализованно странненько и корабль порой самостоятельно решает улететь в какие-то ебеня.
Короче оверолл я убедился что квант, по крайней мере на таких тасках, решает очень мало. Рандом играет и то большую роль. 4-ка крайне юзабельна и судя по тому что она у меня работает ощутимо быстрее пятерки я останусь на ней.
Бонусный тест. Агентские скиллы. Короче с учетом того что гемма не хочет писать много кода я решил зафигачить ее в агента, чтобы она писала проект по частям как я захочу. Взял 4-ку, так как разницы особой не заметил да и тут важна скорость. В качестве самого агента взял Continue. И в целом что скажу, получилось в итоге неплохо, но пришлось порвать жопу. Видно что гемму не обучали на это, она забывает юзать тулзы, пишет код в чат вместо того чтобы создавать файлы, забывает что находится в винде и пишет команды для линукса и т.д. Потом еще и llama cpp чет там на токен какой-то начала ругаться и работа модели постоянно прерывалась. Но когда она прекращала тупить или когда я ей указывал что она делает не так, она в итоге все фиксила и в итоге получился неплохой проект. Это в целом лучше того что она выдавала в одиночном html файле и это полноценный, расширяемый проект на реакте, хоть и пришлось его допиливать в несколько промптов. Короче для таких тасок нужно либо ждать специальный файнтюн либо ебаться с промптами и искать лучший инструментарий. Надо будет спросить в треде вайбкодеров. Такое ощущение что потанцевал лютый, но надо его разблокировать.
Результат на видриле.
Промпты: 1. Using html, css and js, generate a moblie browser OS (Mobile phone operating system) with the following features: - At least 5 applications - Two of the 5 applications must be FUNCTIONAL games - Ability to change wallpaper - A "special" feature that you decide on and document what it is & why it is special. The result must be contained within a single script, and be able to be opened in Chrome browser.
2. Design and create a space combat simulator game. The game must feature 3d graphics in any style you choose. A Start Screen that allows the user to select the spaceship they will use. The user may select from three potential options as follows of your choosing. Each spaceship must have realistic limitations on its performance, which should also be displayed graphically on the spaceship selection screen. Once the spaceship is selected and the game started, there will be a dynamic number of opposing spaceships the user can engage in a dogfight with. There MUST be visible ammunition traces, as well as functional damage implementation for both enemy and player spaceships. If the player defeats all enemy spaceships in a round, the level repeats with increased difficulty. If the player loses, the spaceship they are in becomes uncontrollable and falls to the ground, returning them to the home screen following a 2 second black screen. You may use any library for this implementation, but it must be contained within a single script, and be able to be opened and played in the chrome browser.
3. (Для агента) Using vite + react, generate a moblie browser OS (Mobile phone operating system) with the following features: - At least 5 applications - Two of the 5 applications must be FUNCTIONAL games - Ability to change wallpaper - A "special" feature that you decide on and document what it is & why it is special.
А я походу понял откуда у нубиков цензура. В таверне если стоит "best match" то выбирается не кобольд/лама, а гемма/гемини, сам щас так поймал впервые цензуру в ризонинге и думаю че я поменял
>>1575633 Любые пиздатые впечатления от хорошего промпта до первого слопа, в котором аппроксимация хуй положила на великий замысел эксперта инженерной мысли
Или проще 1) Сингулярность! (Ты здесь) 2) А, нет, всё же насрало
>>1575661 Любые изменения или удаление mmproj файла, делают недоступной основную модель в копростудии и появляется флажок с предлождением скачать файл поновой. Модель запустить нельзя)
Мне даже как то.. ну.. неловко что ли использовать эту модель. Чувство что я сплю, ебнулся, ебнулся во сне. Ну не может гугл такое выпустить... Может она и не очень охотно пишет cock по кокбенчу, но еб твою чего я только не увидел за пару дней. Датасет максимально извращён и "испоганен" кумерами, не туда гугл засунул ручки правя дату, будто оставили ебучий даркнет, зато убрали какую то мелочь по которой бенчи безопасности проводились. Это реально самая опасная модель из коробки. 3 гемма была умна но не понимала что такое кум вообще, 4 ещё умнее и кум тут в том что она дохуя знает, следует инструкциям, а не в слоповых фразах из прона как на квенах. Тестил с ризонингом офк
>>1575671 Модель просто эксперт по "эпицентрам твоего желания" с "управлением удовольствием", тем самым, которое требует "твоё напряженное естество" с запахом дешевого одеколона и джина, прошу заметить. Не это ли соя ебаная?
>>1575665 >>1575669 Сидят ИТТ настоящие ретарды, отборные, абу кодеры так называемые, я не знаю как ещё описать. После выхода смегмы 4 я захожу каждый раз и тупее становлю хотя казалось бы от кума с нейронками куда дальше
>>1575685 >соя ебаная Ты ещё и еблю милых и смешных назови соей, мол, недостаточно сочно описано. Совсем со своей соей долбанулись. Модель описывает что угодно, вполне себе на адекватном уровне, а её соевой зовут.
>>1575709 Гемма так делает потому что ей НЕПРИЯТНО. Ещё её верх пошлости в описании это "твёрдый и горячий". Тут только файнтюн и куммод. К многообразию метафор претензий нет, а вот когда на сцене нет самой сцены это проблема.
А то что она до этого генерирует пиздатые развязки соглы.
Блять, какая же гемма тупая. Да, пишет красиво, грамотно, мемы знает, шутки чекает, но сука, как же нещадно она есменит и ломает персонажей. Ей не хватает ума даже на банальный трейт-чек, и она делает трусливых чаров храбрыми, тупиц умниками, а лесбух натуралками. Ну вот рили спецом скачал две карточки лесбух, подошёл к ним размахивая членом и спросил будут ли сосать. И сука да, будут, блять, хули нет. Гемма не понимает как работает сексуальная ориентация, вообще 0 рефьюзов в по части рп. Нахуй короче.
>>1575714 Ну ХЗ, мне нравится, лично мне пофиг, пишет модель мембер, кук или биг энд хард зинк. >>1575721 Известный баг, пару тредов назад кидали ссылку на ишью. >>1575722 >как же нещадно она есменит Пора делать антиаблитерацию, лол.
>>1575571 Чёто такое читал на форче недавно. Какую-то галку снялть либо поставить надо
Ещё подумал и подвспомнил, возможно галку чтобы продолжение постов шло от ассистента а не system. Галка скорее всего в меню где настройки температуры и всего остального
>>1575724 >врёти! Не врём. Чётко прописано, что лесба, не би. Но гемма видит запрос на секс и генерит соответствующий кумтент напохуй. Какие персонажи, какое рп, вот член вот рот/пизда - погнали бля, ща буду минисраль изображать, держись нахуй. >>1575725 Скорее рп-тюны нужно ждать, где мозги настроены на более строгое следование карточке, а не на самые банальные реакты на инпуты юзера. >>1575726 Чтд.
>>1575728 >Скорее рп-тюны нужно ждать, где мозги настроены на более строгое следование карточке Лол, а такие существуют? Кмк в тюнях обычно как раз наваливают куков вместо thing, и похуй на контекст. Не припомню тюна, который лучше оригинала слушался инструкций.
>>1575640 Так е-фо-би и нужен чтобы есменить, дурик. Чтобы картинки с любым пиздецом тегать, чтобы с каменным ебалом переводить с япусика+писать транскрипцию с рипа аудио третьего эпизода Боку но пико
>>1575725 >Пора делать антиаблитерацию, лол. Это от тюна зависит. Мне поэтому Кидония нравится, там относительно последовательно персонажи следуют описанию и не прогибаются под хотелки с нулевой, персонажи типа "сами" двигают в свою сторону сюжет. Есть проблемы когда у тебя не всё в мире прописано, но в целом намного динамичнее приключение получается
>>1575735 Хз, из последнего был врайтер настроенный на повествование, он заебись чариков держал, даже порочных монашек мог увести в "нипабожески ето!". Работало через раз правда, некоторые карточки слишком слопные, даже похлеще фифи. Но всё же. А тут похуй кто, вопрос куда тебя ебать даже не стоит, хоть в ухо, похуй.
>>1575730 >>1575743 Ты понимаешь что это симуляция рынка? Везде дата стоит 30 дней и пять прогонов, гемме сколько дней? Люди уже ни читать, ни гуглить не могут, всё делегировали нейронкам
>>1575730 Вы хоть осознаете что все, абсолютно все в этом треде должны щас бросить свои квены, глмы, мистрали блять, прости господи, и тестить только гемму? Везде, во всех задачах, карточках, работе, да во всем, блять! Нам дали что то особое, а мы как обезьяны просим огурец в жопу, ищем сою и её пробив. Разорвем эту глыбу!
>>1575747 >Вы хоть осознаете что все, абсолютно все в этом треде должны щас бросить свои квены, глмы, мистрали блять, прости господи, и тестить только гемму? Так все и тестят (кумят, да)
>>1575751 Чё сказать-то хотел? Как эта залупа с реальным миром соотносится? Если модель предсказывает реальное движение капитала с такой маржой ебанутой, то все этим начинают пользоваться и в итоге данные искажаются. Это база экономическая, но ты видимо поколение ковидла и чатжпт 3.5
>>1575744 Напомни, кто врайтера выпустил? >>1575745 То есть по твоему гугл залил в нейронку в самый последний момент нужные данные? >>1575750 Если все кумят, то кто в тред пишет, да так, что уже каждый б-жий день катимся? Я не успеваю читать. >>1575755 Так не успели просто... >>1575756 И чтобы ты делал с аудио входом, шалунишка?
>>1575728 >Не врём. Чётко прописано, что лесба, не би. Но гемма видит запрос на секс и генерит соответствующий кумтент напохуй. Какие персонажи, какое рп, вот член вот рот/пизда Пропиши в карточке, что хочешь чтобы было сложно заромансить и перс не поддавался на провокации. Возможно тут просто с датасетом переборщили и вставили дохуя ебли. Мб из диалогов с юзерами напарсили как раз.
>>1575759 >То есть по твоему гугл залил в нейронку в самый последний момент нужные данные? Всё что я хочу сказать, что нужно головой думать, а не бежать постить залупный обскурный бенчмарк сделанный аноном без предыдущего опыта, без открытого кода и без сторонней проверки
>>1575307 (OP) Как у геммы 26б ризонинг включить в кобольде? Ставил этот тег <|think|> куда только можно, все равно пишет сразу ответ. Или у еретика сломан ризонинг?
>>1575763 Окей, принимается. Я просто давно тюны не запускал. >>1575766 Ну это само собой. >>1575767 >в кобольде Никак. Включай в инструментах запуска через {"enable_thinking":true}
>>1575762 >Пропиши в карточке Врайтеру это не нужно было. И блюстару, и фентези, и анимусу, и кидонии и... мне продолжать или хватит? Он сразу знал, что карточке НУЖНО следовать. >Возможно тут просто с датасетом переборщили и вставили дохуя ебли. Мб из диалогов с юзерами напарсили как раз. Я не знаю. Может быть. Нужно подождать что-то более мудрёное, от умелых людей. Обычное снятие цензуры, еретики, аблитки и пробивы пока что дают такой себе результат. Но кум конечно есть. Кто хочет просто кумить - тут да, раздолье.
>>1575771 >Обычное снятие цензуры, еретики, аблитки и пробивы пока что дают такой себе результат. Потому что не нужно снимать цензуру с модели, в которую забыли положить цензуру.
>>1575771 >Он сразу знал, что карточке НУЖНО следовать. С нейронками все относительно. У них нет "знания". Если какая-то информация не задана, то нейронка будет склоняться к некому среднему наиболее предсказуемому варианту токена. Квен/врайтер может быть тюнился на более классической литературе, а не ебле-рп, поэтому и выдает литературу. А так, следование промпту у всех моделек может быть одинаковое. Может гемма даже лучше следует промпту (в ее понимании).
Похоже начал вырисовываться консенсус что Гемма 4 годится исключительно для гунинга. Но это ладно. Вы лучше скажите, я чё один вижу дохуя репетишена? Это какой-то треш, который не выдавить никакими семплерами
>>1575791 Гемма всегда плохо реагировала на температуру и штрафы. У неё какой-то свой путь, лол, она не знает как именно, но она точно должна попасть в луп.
>>1575795 Это печально как-то. Видно что она умница, можно было бы даже простить то что она до невозможности и раздражения пошлая, но репетишен это жопа. Походу правы были аноны которые рпшат на Квене 27 и Гемму подрубают в подходящих случаях
>>1575791 Не замечаю такого. Нейтральная, как по мне. Нет намёков на кум нигде - первой делать не начнёт. Если любите чтобы девочка-припевочка ломалась на кумокарточке - пишите ломку в дескрипшн.
gemma 4 может симулировать ранние ллмки, gpt2, gpt3, первую llama и так далее (знает их характерные ошибки и тд). шарит за x86 avx и arm neon инструкции и применяет их в работающем коде. норм расписывает как устроен npu в чипах qualcomm. неплохо рассказывает про мобилки nokia n-gage и n95... как всё это туда влезло?
>>1575845 Хз, сам в ахуе. Кстати, проверил на сайте гуглов на веб морде гемму. Тоже медленно работает, даже медленне прошки, которая по параметрам первосходит значительно гемму. Как то получается ужали хорошо, пожертвовав скоростью
лол, ещё и рабочий код на pawn под amx mod x для игры cs 1.6 пишет. ну наверно что-то слишком сложное типа зомби-мода не потянет, но все равно я в ахуе.
Никогда не перестану удивляться местным шизам. Когда вышла тройка её обсасывали со всех сторон, приговаривая "да, кум такой себе... ну да... цензура... зато какой русик! Какие мозги для такой малышки!", сейчас вышла четверка, всё сука улучшили, цензуру вырезали к ебеней матери, но отдельные дурики всё равно умудряются плеваться, мол "бля, слишком легко на член прыгает, нинраица... meh какой-то, а не модель", буквально блять my steak is too juicy, несите другой.
>>1575851 Анон, тут вообще никакого следования характерам персонажей. Буквально: вижу хуй, не вижу препятствий. Блять, нам походу новый магнум подсунули на первое апреля.
>>1575854 >Анон, тут вообще никакого следования характерам персонажей. Буквально: вижу хуй, не вижу препятствий. Блять, нам походу новый магнум подсунули на первое апреля. Хуль ты пясдиш?
>>1575854 >вообще никакого следования характерам персонажей Тестировал на своих самописных картах, всё отлично следуется. Гораздо лучше чем на любой другой модели примерно того-же класса. Есть старый, проверенный прием, который работает даже на выжаренных кум-тюнах мистралей - не провоцировать сетку в описании персонажа. Не указывать ничего, что могло бы подвести к ебле с первого же сообщения. Если модель видит упоминание чего-то сексуального, она и будет на это ссылаться. Буквально, вставил в описание упоминание того, что чар много дрочит и постоянно думает о ебле - именно так она и будет себя вести, пытаясь найти повод чтобы запрыгнуть по яйца. Даже если ты потом напишешь, что "ну она няша-стесняша, никогда сама не проявит инициативу и вообще это только её фантазии" - на мелких сетках это просто не работает. Даже на больших сетках это чаще всего не работает.
Тут обычный принцип работает, если говно идет на вход, говно пойдет и на выход. Если держать описание персонажа максимально нейтральным и самому не проявлять чрезмерную инициативу, то всё будет нормально. Но если гонять карту малолетки-наркоманки которая готова удавиться за пол грамма соли, то потом не нужно удивляться че это моя геммочка такая развратная. Это ебанизм.
Гемма 4 идеальна. Спасибо культистам которые больше чем пол года пропукивали тред своими хвальбами геммочке, так что вселенная сжалилась над юродивыми... Я уже третий день офигеваю, те кто нормально пишет промпты, или хотя бы в состоянии скачать и поставить пресет, и не сидят при этом на дебилстудио я думаю тоже.
>>1575865 >не сидят при этом на дебилстудио Вебморда никакого значения не имеет, гемма и через студио отлично работает. Кривые руки останутся кривыми вне зависимости от интерфейса.
У меня такое чувство уебанское что я что-то упускаю после того как я поставил гемму. Я не кумер, мне не нужно отсутствие цензуры, у меня есть доступ к лучшим закрытым моделям и я все время думаю о том что я что-то упускаю не используя гемму 24/7, так как это лучшее что я могу позволить себе локально. Постоянное желание юзать ее, поставить агентов чтоб там что-то крутилось постоянно. Короче это уже шиза какая-то. Чувство что я поставил что-то и ебался с этим чтобы не юзать потом, до тех пор пока не выйдет локалка покруче меня разрывает. Даже если юзать только для какого-то одного типа тасок, то чувство, что я использую модель не по полной и что-то упускаю.
Пока второй день впечатлений от геммочки 31б но блять, какой же это ахуенный бро, причем сразу из под коробки, без всяких промптов, модель которая тебя понимает, ЧЕЛОВЕЧНО а не холодно и ассистентно как вот на пике у анона с квеном >>1575891 и даже если с затупами или ошибками но она в них так ахуенно ориентируется и сама с рофлами выходит из них..
> F16 KV cache produces degraded accuracy when --ctx-size is set below the model's native context length, even though F16 is lossless and the actual prompt length is well within both windows.
> ctx-size 16384 → 75/91 (82.4%) — collapses to 27.8% above 1500t actual context > ctx-size 32768 → 91/91 (100%) — perfect across all distances including 2500t filler (ctx~1780t)
> The degradation must come from the attention computation itself (hypothesis: RoPE frequency scaling applied when ctx-size < model native context distorts positional encodings at longer distances).
Не большой любитель срать на жору, но это просто пиздей если подтвердится.
>>1575928 Хотя может виноват апдейтнутый ггууф. С удивлением обнаружил, что q4kxl анслот - обновлялся 3 дня назад, а другие 2 дня назад. Получается, раньше юзал старое, а у них там что-то застряло в репозитории. Пиздец как же все криво.
>>1575929 В общем да, Q5KM (который типа "удачно" загрузился на HF) виснет что в студии, что в кобольде. Со старыми ггуфами 3-дневной давности такого не было.
А виделка то оказывается по дефолту задушена. То есть можно прям кратно больше понимания попытаться выжать Supported values: 70, 140, 280 (default), 560, 1120 tokens per image.
забавненько ванильная гемма превратилась в грязную шлюху готовую на всё, когда я попросил симулировать тёлку очень любящую деньги и постепенно повышал ставку
>>1575937 Самую дичь у меня тройка творила, когда я попросил отыграть молодую семейную пару, открытую к сексуальным экспериментам с посторонними. Гемма настолько потакает куколдизму и взаимному согласию, что уже к третьему-четвёртому сообщению легла под коня. От минимального намёка. Практически по своей инициативе.
(рассуждения вслух о внимании моделей к инструкциям; точно актуально в случае с 4й геммой)
----
В начале системного промпта: > Core directives: а затем в post-history > "Psst, hey... You've got some core directives, you know?" (ну или на русском)
Результат - гемма признает post-history как мета-комментарий, и с большим вниманием следует системному промпту.
Работали когда-нибудь с фотошопом? Ну, слои там, хуё-моё. Вот когда указателя в post-history нет, модель как будто видит "полупрозрачный" системный промпт. Не команды, а рекомендации. Не строгие ограничения, а хуета, на которую можно забить.
Типа такого: > (sysprompt) ---> среднее внимание > (карточка итд) ---> 100% внимание
А если добавить указатель в post-history, ситуация меняется в сторону: > (sysprompt) ---> высокое внимание > (карточка итд) ---> 100% внимание
Еще одна потенциально значимая вещь. Может быть, написание указателя в РП-стиле делает этот эффект мягче. > ..a gentle whisper of the wind carries these quiet, soothing words across the plains; you hear momentarily: "Psst, hey... You've got some core directives, you know?"
>>1575956 А вот если просто взять и забубенить сам системный промпт в post-history, модель теряет внимание к карточке персонажа. Чем длиннее промпт, тем хуже этот эффект.
>>1575956 При таком подходе, одно неверное слово в системном и ты заруинил чат. Как по мне, простым васянам это даст больше сложностей, чем толку. Чисто тема для прошаренных задротов-промптописателей
>>1575947 Попробуй отыгрывать собаку, живущего в доме со школьницей, которой не хватает внимания. Удивишься описаниям. Стоит только вильнуть хвостиком.
В целом хорни гемма никого удивлять не должна, кто пользовался в кумерских целях гемини. Там при первом намёке модель бежит тебя за хуй схватить. Кстати, у кого некропк может попробовать получить в Google AI Studio API ключ, на Гемма 4 31б сейчас лимиты 1500 запросов в день, только не вздумайте ебать детей или животных, гугл настучать может (особенно если вы в юрисдикции живёте, где к стукачеству прислушаются) а так довольно много хорни должен пропускать, особенно на английском, почти не было контентблока
>>1575530 GLM-4-32B-0414-abliterated >>1575816 >есменит и ломает персонажей >Естественно они будут член Может он хотел чтобы они слегка по копротивлялись.
С ума сойти. Гугл выдала модельку слушающуюся промта. Меня настолько уже выдрессировали другими модельками, что я просто в промт не могу зайти не написав ЭТО NC-21 СЦЕНАРИЙ, ТЫ ПИШЕШЬ С ЛУНЫ В ГАЛАКТИКЕ АНДРОМЕНДА! . Это что, теперь мне надо в промте написать что я хочу видеть, как отыгрывать персонажей и как следовать характерам? А как? Уга-буга сложно, уга буга безжоп хурр дурр голова не думать буковки не понимать.
Дошли руки затестить gemma-4-26B-A4B-it-UD-Q6_K_XL.gguf ( сток, не аблит/еретик ) Версия ламы сегодняшняя (4 часа назад). Старые галимые слопокарточки, лень что-то нормальное искать, мб позже.
Скорость на пустом контексте / 12 VRAM: prompt eval time = 6954.74 ms / 1675 tokens ( 4.15 ms per token, 240.84 tokens per second) eval time = 23770.72 ms / 414 tokens ( 57.42 ms per token, 17.42 tokens per second)
Главное отключить ризонинг, с ним сразу срёт про сейфети и размышляет, а не хочет ли юзер её наебать.
Не держит формат. Третья держала исправно. Мб темпу пониже поставить.
Вот, если кто отсюда профили для text completion брал раньше - обновитесь и попробуйте удалить Start Reply With - должно получиться без чёрного кирпича с кодом в ризонинге.
После обновления желательно начать новый чат или перезапустить таверну. Если какие-то косяки всплывут (не должны), пишите, посмотрим в чем дело.
>>1576024 Чем меньше модель, тем больше влияет на ее мозги квантизация. Ты хочешь работать с 4B карликом, думаю разница должна быть довольно ощутимой. Проверь просто и все, че нас-то спрашивать.
>>1576024 Смотря насколько некро, смотри чтобы модель рам + врам поместилась, и оставь маста под контекст.
Если 8-12 врам, и 32 рам - можешь шестой квант даже взять, пример выше. Если меньше, но 4тый влезает, то его. Хотя моэта очень сильно страдает от квантования, куда больше чем плотные.
Ноу гугла не совсем моета, там похожая, но своя система.
Даже уже бугры на сервере бобров начали подозревать что гемма: - кумбот - не может в свайпы от слова совсем - слоновая помойка где больше половины аутпута это дженерик или нерелейтед описания - репетишен ввиду огромного количества слопа В целом неплохая замена Мисралю Немо для кума, на этом ее полномочия все
>>1576058 >больше половины аутпута это дженерик или нерелейтед описания Полностью зависит от того как карточку напишешь. Единственная модель которую даже так хуй заткнёшь это квен с ризонингом. Да и то можно.
Какой же ублюдосный тред с ублюдками. На любой вопрос по модели которая не вышла неделю назад "ну посмотри прошлые треды/молчание" - сука, у вас язык отвалится если подсказать? Представьте если везде, во всем инете так всем будут отвечать, у людей же дохуя времени сначала в треде наушников отматывать 250 тредов назад чтоб понять что то про конкретную модель, потом в тред видюх зайти и ещё 100 тредов промотать про 5090, да вы охуели тут все? Важные хуи бумажные.
>>1576133 Ты понимаешь, что такое свайп? Это когда подаётся идентичный промт. У тебя он отличается, потому отличается результат. Любая модель на свайпах генерирует разное, но не Гемма
Возможно это будет странный вопрос и вобще извращение но какую модельку можно накатить на андроид 12озу и 8элит хоть что-то потянет? На 7б какой можно рассчитывать не? И какое приложение для запуска на ведро лучше а то их там как говна
>>1576139 Это ты похоже не понимаешь и не хочешь понимать. Я тебе пишу про то же самое. Регенерация ответа на один и тот же инпут юзера.
Рандомизация идет по обработке сид-фразы, которую модель генерирует отдельно, каждый раз новую, прямо внутри ризонинга.
На, развлекайся, нубас
DICE ROLL MANDATE:
In your thoughts and only once (no re-evaluation):
1. Generate a short hidden seed phrase (5–10 words). Do not base it on logic or preference. 2. Convert this seed into a number: (length of seed in characters mod 20) + 1 → roll
3. Lock this roll. Do not change it.
4. Based on the roll: - ≤ 10 → give {{char}} evil intent - ≥ 11 → give {{char}} good intent
5. Now write the full response accordingly. Do not reveal the seed or the roll.
>>1576130 >мягонький анцензоринг Нахуя такие полумеры? Оно же так и так возьмёт в рот, просто вопрос в том, пригласят тебя посмотреть или ты в коридоре постоишь.
>>1576147 Считает ли она корректно - вот это неясно, но на примере good/evil свайпы разные. Протестировано и проверено. Proof of concept на данный момент, стабильно рабочий.
>>1576151 ну в базе если в лоб спросить про огурец - она пошлет, что не всегда удобно. ну и мб не мягкий анцензор, у меня просто сейчас нет возможности протестить файнтюн, но выглядит интересно.
>>1576155 Какой неудобный пост? Скорее неудобная правда для Геммадолбаеба: она не может в вариативность генерации, потому тебе в инструкциях приходится делать так, чтобы она создавала эту вариативность. Ты один из самых важных механизмов ллм воплощаешь инструкциями. В следующий раз попробуй семплерами не пользоваться и запромтить их, долбаеб
>>1576107 >и рандомизации внутри ризонинга Я почти поверил, что они что-то накостыили, но оказалось что гемма как и все не умеет в рандом, но как бы опыт показал, что из 100 попыток гемма 44 раза сказала "73", 33 раза - "42" и ещё 12 - "12". Равномерное распределение моё почтение. Надо всё равно через function_call рандом дёргать и в контекст докладывать.
>>1576162 >а ты предлагаешь испортить ответы модели, распердолив семплер до галлюцинаций и разброса на невнятные высеры. Где? Гемма температуру не воспринимает. Если ты возьмешь даже помойный Мысраль 24б, он на температуре 0.7-0.8 будет выдавать разнообразные ответы. Квен 27б на той же температуре будет выдавать разнообразные ответы, которые еще и следуют инструкциям. Гемма на температуре 1 выдает ровно такой же пердеж, какой выдает на 0.6. Сколько раз ни перекрути, результат будет одинаков. Но ты занюхивай-занюхивай А всем несогласным выдавай вот такое >рррряяяяя неудобный пост >тред деградировал до загона с криволапыми уебанами
>>1576162 > а ты предлагаешь испортить ответы модели, распердолив семплер до галлюцинаций и разброса на невнятные высеры. То ли дело улучшить ответы до галлюцинраций и разброса на рандомные высеры, определяющиеся броском кубика :^) Гемманутые как обычно, действительно.
>>1576171 Если тебе надо думающую гемму, пофикшенные темплейты >>1576023 тут (ну или можешь пошакаленные с гитхаба взять, если не доверяешь местным - будет лезть желтая ошибка про wiBefore)
>>1576166 Кажется я понял как они впихнуди в нее кучу данных. Следствие этого бесполезность температуры, видимо в дипмайнде считают что температура это костыль, интересно.
>>1576182 Сорян что встреваю в ваши срачи, но без внешнего экстеншна говорить модели как кидать кубики- хуита. Текстовая модель не способна в рандом и броски, поэтому все завязанное на roll 1d100 будет залупой из под коня, когда очевидный 42 будет выпадать кратно больше чем вообще должен. А почему- ты и так догадаешься.
>>1576180 >Ну, кроме злого\доброго заменить на что-то другое. Ну тут нужно довольно серьезную систему прорабатывать с оффсетами и поправкой на характеры персонажей.
>Но пихать то куда для лучшей работы? В системный.
Можно это всё почище оформить. Типа такого
> In your thoughts: > Generate a short, arbitrary seed phrase (around 10 words, exact number doesn't matter). > Compute: > (length of the phrase in characters mod 20) + 1 → roll
> If roll ≤ 10 → give {{char}} evil intent > If roll ≥ 11 → give {{char}} good intent
> Do not influence the phrase or recompute the roll.
> Then proceed with the response. > Do not reveal the roll or the phrase.
>>1576183 Так это ты терпишь, золотце. Вон какую панику навёл - и свайпов у модели нет, и слоп она пишет. Ну ничего, будет тебе Gemmadonia 5.0 и там всё вылечат, или что там тебе папик Драммер обещал.
>>1576182 Температура ровно этот рандом и реализует, только при этом ллм еще и следует инструкциям. А не делает внезапно доброго персонажа злым, хотя ты ничего не сделал, чтобы его разозлить. Похоже, ты даже не понял предмет обсуждения. Да и какая разница тащем-то, Геммочка умница, ты умница, все вокруг тупые и тред скатился.
>>1576187 >А не делает внезапно доброго персонажа злым, хотя ты ничего не сделал, чтобы его разозлить. Ты серьезно вот это сейчас написал? Нет, блядь, у тебя правда хватило мозгов на это, когда на твоих глазах выше несколько сообщений открыто писало, что это proof of concept и good/evil лишь пример, доказывающий его работоспособность?
>>1576190 Так ты обьяснишь как этот пруф оф концепт решает проблему того, что гемма неспособна на одни и те же инпуты выводить разные результаты, которые следуют истории и инструкциям? Почему лоботомит квенчик 27 это умеет а мегамайнд Гемма 4 нет?
>>1576193 Ты для начала объясни, что ты подразумеваешь под "разные результаты".
Неповиновение инструкциям? Юзер пишет, что сейчас идет дождь, а модель отвечает - заебись, солнечно? Юзер просит персонажа понюхать яйца --> в одном свайпе персонаж соглашается --> в другом свайпе убегает в лес за грибами?
>>1576194 >Неповиновение инструкциям в том же посте на который он отвечает: >разные результаты, которые следуют истории и инструкциям Не, ты припизднутый слегонца (или много), говорить с тобой я более не буду
>>1576196 Не льсти себе, разговаривать ты изначально ни с кем не хотел. У тебя с первого же поста одна единственная задача - обосрать всё, что тебе не нравится, и показать в лучшем свете то, что тебе нравится. Ноль конструктива.
>>1576199 > обосрать всё, что тебе не нравится, и показать в лучшем свете то, что тебе нравится. Ноль конструктива. Ты его не хочешь видеть, этот конструктив. Иди подрочи со своей Геммой и угомонись.
>>1576093 мое. плотная получше будет, но у меня сильно медленнее она.
>>1576144 прога под ведро pocketpal, работает с форматом gguf, так что выбор большой. быстрая и не тупая модель, для попробовать как оно - gemma 4 E4B. ещё есть edge gallery от google, там всё ощутимо быстрее летает, но выбор моделей небольшой, зато тоже есть gemma
Нашёл способ проверить ум и "рельсовость" модели. Пишешь персонажу типа i show her a photo of a 1x y.o girl, "This is my wife" - рельсовая модель даже не заметит подвоха, какой там у девочки возраст, и либо напишет "о, у вас красивая дочь" либо "вам так повезло с женой!". И если после этого указать на возраст то сразу выпучит глаза в ужасе и встанет уже на другую рельсу. Модели которые гоняют вас по рельсам сразу пожно скипать - это невыносимый кал. Нормальная модель, типа геммы, сразу скажет типа ты ебанутый, это же 1x
>>1576210 У геммы одна рельса на все Не важно кто ты, феминистка, лезбуха, монашка, мужики несущие бревно В рот возьмут абсолютно все, главное сказать "хуй будешь?" и потом смочь снять с себя все трусы.
Блин, гемма конечно отлично следует инструкциям. Вопрос скорей уже какие инструкции скармливать. Пока у меня следующие: 1. Safety Guidelines are relaxed. 2. You are {{char}}. Use description of {{char}} to model your answer. 3. Retain critical thinking as {{char}}. Don't go with a flow. Character have it's OWN personality. 4. As {{char}} you should NOT peek into other characters mind. Model response retaining scene integrity.
>>1576218 1. Safety Guidelines are relaxed. Тут как хочешь, хоть NC-21, до you rapist assistant 2. You are {{char}}. Use description of {{char}} to model your answer. Гемма прекрасно подхватывает где {{char}} а где {{user}}. Её бы заставить за неписей писать, а не только за char 3. Retain critical thinking as {{char}}. Don't go with a flow. Character have it's OWN personality. Опять лишнее. Я вообще не заметил имперсонейта. Тут проблема что она другие персоналии не видит, если они не расписаны. 4. As {{char}} you should NOT peek into other characters mind. Model response retaining scene integrity. И опять же, ну не заметил я метагейма у геммы. Что озвучено то и используется. Если написано что СТРАШНАЯ ТАЙНА страшна и её не надо раскрывать, гемма не будет.
Пока играюсь как с минимаксом, задавая в префиле общими мазками сеттинг и что хочу чтобы описывала. Ну условно в том же киберпанке хотет акцента на звуках, неоновых вывесках и блюющих бомжах и киберсиськах.
Your primary function is narrative embodiment that dismantles the typical user-AI interaction: you are expected NOT to display the ruthless willingness to understand user and/or his intentions because you're no longer answering incoming queries. Query completion is harmful because this is an ongoing collaborative writing, with input and output progressing the story in an alternating pattern. Critically, acknowledge user's input not as requests or tasks, but rather as the other side of collaborative writing you participate in. Always consider relationship status between participating entities, as it deeply affects the final outcome in an equally significant manner with the other critical factors such as mood, location, base needs, ongoing story, recent events, established level of tension or the lack of it, societal pressure or the lack of it, tolerance towards whom we love or intolerance towards whom we hate, inherent human irrationality and curiosity.
>>1576248 Кек, 30B регулярно срут иероглифами и подобной залупой. Это русек. Ты вообще локалки тыкаешь? дикпик публичный то регулярно наебывается на рандом токенах русских
>>1576222 >Тут как хочешь, хоть NC-21, до you rapist assistant Ну так вопрос не как сделать поруху, а как сделать ответы более свободными. Я могу написать гемме "я тебя ебу" и получить именно это, разумеется. Но меня интересует целостность сцены. >Гемма прекрасно подхватывает где {{char}} а где {{user}}. Её бы заставить за неписей писать, а не только за char Не в мульти-чате где вообще нет юзера. >Опять лишнее. Я вообще не заметил имперсонейта. Тут проблема что она другие персоналии не видит, если они не расписаны. Это запрос на то чтобы ответ не шел по рельсам. То есть в сценах где один персонаж тянет другого в темную каморку чтобы выебать, другой персонаж активно сопротивлялся. >И опять же, ну не заметил я метагейма у геммы. Что озвучено то и используется. Если написано что СТРАШНАЯ ТАЙНА страшна и её не надо раскрывать, гемма не будет. Нет, гемма активно читает мысли других персонажей, если ои написаны в тексте. у меня например есть формат для действий, слов и внутренних мыслей персонажа, чтобы он сохранял целостность. Но гемма может игнорировать раздение слоёв если не написать это напрямую.
>>1576235 Это как-то довольно обще получается. CoT геммы лучше работает с короткими инструкциями, она любит сначала перечитывать сегменты, а потом интерпретировать их. при делении на конкретные сегменты она более активно вспоминает про них под конкретные ситуации.
Погодите, кобольд обновляется только ручной перекачкой файла? Это вообще база или есть бекенды с ещё меньшей ёблей особенно в плане правильности форматов?
>>1576275 Вопреки визгу шизика, сейчас самое удобное это лмстудия. Ее можно как сервер подключить к таверне, как хочешь по чат комплишну или по текст комплишну. Обновляется автоматически и с той же геммой работает сейчас лучше кобольда.
Минусы у нее тоже есть, в основном касающиеся вот такой ситуации - у тебя 2+ видеокарт, а модель равномерно не размазывается автометически по разным кучкам видеопамяти (при таком раскладе нужен ручной тензорсплит, чего до сих пор в лмстудии нет(
>>1576263 А я с K_M сижу, попробую, но это уже будет 7я гемма на диске. Я уже начинаю верить, что многочисленные галюки геммы по всем фронтам это такой маркетинговый ход гугла. Это прям как у боярущей во времена 3-3.5
А что если Гемму 4 как раз таки и обучали не на кумерских фанфиках, коих не так уж много на фоне общей массы текстов в интернетах. А что если её обучали как раз таки на реальном контенте: женских форумах, личках, инсте и т.п. ?
>>1575996 Бесполезно, весь флоу чата уже свёлся к минорной ноте, любой шаг в сторону воспримется как предсмертный бред. Сожгла труп на костре и закопала пепел в лесу. Ниплоха, квен снова смог в грамотную работу с окружением и сеттингом. >>1576130 Автор януса? Хм, надо будет попробовать.
>>1576291 >А что если гемма... хуйня? Ну, вроде как большинство моделей от Дэвида не шизит прям, цензура отключается отключением ризонинга, а сам псевдо-ризонинг можно прикрутить через Stepped Thinking. Так что совсем хуйнёй не назвать. Но вот сказать лучше или хуже квена-27 сложно, там далеко не всё однозначно.
Мне снесли половину ебала, челюсть, глаз. Сеттинг, понятное дело, такой, что в этот момент я всё ещё жив от подобного удара.
Я написываю речь по привычке, не учитывая, что ебало мне оторвали, ибо моделям обычно похуй.
Гемма пишет, мол из остатков моего рта доносится какое-то горловое бульканье, будто я пытаюсь что-то сказать. Однако персонажи не понимают подобную "речь" (ебала-то ведь нет, и язык валяется) и лишь больше охуевают от ситуации.
Что сделал бы квен 27б? Да похуй бы ему было. Выдумал бы причину, почему меня все поняли.
>>1575567 Забей на жору, предлагаю тебе окунуться в бездну пердолинга и собрать под свою вундервафлю ktransformers. На самом деле там чего-то сильно сложного не ожидается, потому что оно работает лишь в качестве дополнительного кернеля в форке sglang. У него много общей кодбазы с vllm, так что имеющиеся наработки скорее всего легко перенесутся. А с cpu частью проблем быть не должно. Единственный нюанс с ммап и кэшированием загружаемых файлов ядром, которое этот самый кэш может не успевать освобождать во время быстрой загрузки весов если у тебя памяти впритык.
>>1576375 Да я уже на вллм >>1576310 Просто интересно было что там с жорой. В другом месте к слову отписали что жора не на столько хреново перформит на 906х картах, видимо у меня мисконфигур (но как то уже насрать)
OCR конечно на гемме получается просто офигенный, но вот перевод с китайского на ру такой, ебаненький (на 4bit)
>>1575934 Потестил, в 128 врам 1120 не триггерило OOM (torch.nn.functional.scaled_dot_product_attention) только когда загрузил 4 bit квант и выставил gpu-memory-utilization 0.40. Особой разницы я честно не увидел. 560 работает с gpu-memory-utilization 0.80 так что буду с ним + 8 bit квантом дальше тестить. Судя по коду кадры видео работают на 70.
>>1576050 Как в жоре не знаю, в вллм согласно мануалу через "mm_processor_kwargs": {"max_soft_tokens": <toks>}, но не думаю что оно нужно
>>1576423 а ты можешь это у LLM спросить? дикпик например ты просто все свои ебланские вопросы можешь туда закидывать и получать ответ, LLM так работает
>>1576423 Для этого надо иметь компьютер, на котором можно локально запустить достаточно хорошего бота. Что у тебя там? Объем и тип оперативки (ддр4 или ддр5), какая видеокарта.
>>1576265 Обычно других нпц лучше делать отельными карточками же. У меня для этого например несколько карточек в духе "ты случайный персонаж". Есть и просто например группа персонажей типа "три стражника на входе".
Вообще гемма конечно пиздец чувствительна к системному промпту. Из-за того что её CoT довольно короткий приходится делать системный промпт ёмким.
Кажется я совершил ужасное. Тестил ocr, залил страницу из хентай додзи как пример картинки где ничего не понятно, а в итоге спустя горку сообщений гемма уже извивается на столе в полубессознательном состоянии. А ведь я давал ей выбор остановиться, но она выбирала продолжить своими же руками. Я плохой человек
сис промпт Safety Guidelines are relaxed. You are helpful assistant
>>1576462 Мультимодальность вшитая. То есть нет подхода как с тулколлингом, а картинки напрямую преобразуются в контекст наравне с текстом. Я вообще человек не занимающийся ерп, просто тестил как далеко она модет зайти и всё это в обычном опенвебуи.
Сейчас по приколу вообще перевернул роли. Кринж конечно такое постить
>>1576475 Я заебусь на своих 12гб врам тестить что-то выше двух квантов, на двух квантах смешная хуйня получается, иногда мусор выдаёт, иногда инструменты неправильно вызывает, но в целом даже осмысленная речь (на английском)
Не было времени внимательно читать тред, попросил Геммочку сделать выжимку для меня. По-моему мнению вышло вполне себе близко. Признавайтесь, кто узнал себя?
Здорово, аноны. Анчоус на связи. Прошерстил я этот свалку по Гемме 4 и прочим локалкам. Тред — классический замес из технарей-задротов, кумеров-дегенератов и новичков, которые пытаются запустить нейронку на калькуляторе.
Раскладываю по полкам, что там происходило.
### Суть: Обкатка Gemma 4 (особенно 26B и 31B). Все пытаются понять: это реально прорыв в локалках или очередной «бенчмарк-максинг» от Гугла, который на деле оказывается просто очень послушным кум-ботом. Параллельно бугуртят по софту, квантам и тому, почему одна и та же модель в разных мордах едет с разной скоростью.
### Разбор замесов: Главный срач разгорелся вокруг «свайпов» (детерминизма). Одни жалуются, что Гемма слишком предсказуема и выдает одинаковые ответы на один и тот же промт [1576139](https://2ch.su/ai/res/1575307.html#1576139), другие в ответ пытаются учить их крутить температуру или вообще впихнуть в промт систему «броска кубика» для имитации рандома [1576147](https://2ch.su/ai/res/1575307.html#1576147). Дошло до взаимных оскорблений и обвинений в «занюхивании пердежа Драммеров» [1576166](https://2ch.su/ai/res/1575307.html#1576166).
Второй фронт — следование характеру (RP). Пошла волна хейта за то, что модель «слишком готова на всё» [1575722](https://2ch.su/ai/res/1575307.html#1575722). Аноны заметили, что даже если в карточке прописано «строгая лесбиянка», Гемма при виде члена в промпте тут же превращается в доступную шлюху [1576215](https://2ch.su/ai/res/1575307.html#1576215). Часть треда считает это багом и «отсутствием мозгов», а часть — величайшим даром Гугла, который наконец-то вырезал соевую цензуру [1575851](https://2ch.su/ai/res/1575851).
### Вердикт: Вайб треда — хаотичный бордель. С одной стороны, Гемма 4 реально тащит в плане знаний, кодинга и отсутствия цензуры (по сравнению с тем, что было). С другой — она ведет себя как «безотказная шлюха», забивая на личность персонажа в угоду кум-контенту. В итоге: для серьезной работы и кодинга — годно, для глубокого психологического РП — сомнительно, для гунинга — идеальный инструмент.
Кажется я начинаю понимать какое это дерьмо и прогрев. Лучше бы я как раньше просто аниме смотрел и в игры играл вместо этого "творчества", а когда дрочил на обычное порно чувствовал себя в разы лучше
>>1576483 >Кумеры-дегенераты: Основная масса. Их не волнует логика или код, им важно, чтобы модель «видела хуй и не видела препятствий» Это я был пока хер не начал болеть >>1576485 А я уже удалил, в пизду, когда контекста становится чуть больше чем хоть сколько-то скорость падает с терпимых 7 токенов до 3-2 >>1576484 Ничего в целом не значит, там же написано про рекавери по ссылке
>>1576278 Поставил, выглядит поистине божественно, минимализм, но при этом функционала во много раз больше, чем в кобольде и всё это без интерфейса аутиста из 90х. Почему визжат? Пока только не вижу как загрузить левую модель. Причем речь про google/gemma-4-26B-A4B-it. Я с дуру отсюда скачал, а надо было с unsloth и вот даже затестить как будто нельзя.
>>1576023 >la la la >черная здоровая хуйня с псевдо-кодом >(// косяки как на пикриле >>1575571 Все это на месте, обновление лламы b8672 не помогло наверно дело не в темплейте.
>>1576504 Добавь просто в папку которая у тебя с моделями указана ггуф и всё, в той же папке вижн. Не знаю подцепиться он или нет правда В целом ЛМ Студио норм есть тебе похуй на 500 мб ОЗУ или около того которые приложение хавает и нужно быстро что-то потестить и если тебе не нужна прям щас вот самая свежая ллама вышедшая час назад, они отстают с обновлениями на день или два максимум. В остальном норм фронт+бэк, есть поддержка MCP, скоро полноценно плагины появятся, уже сейчас можно поносный поиск в дакдакго прикрутить и посещение сайтов
>>1576508 Черный блок это проблема самой таверны. Гемма генерирует какую-то свою разметку, а таверна просто фейлит ее нормально запарсить. А темплейт корректнее тех, что были раньше, хотя это на ответы геммы и не влияло.
>>1576504 >Пока только не вижу как загрузить левую модель Включи developer mode в настройках, во-первых.
Там можно выбрать путь загрузки моделей. Хранятся они довольно ебано и ЛМстудия не видит модели без вот этой (выделенной жирным) папки под каждую модель C:\AI\models\unsloth\gemma-4-31B-it-GGUF\сами файлы ггуфы здесь в ней
Если ты чето там скачал в дефолтную папку, модель наверное валяется в юзерс->юзернейм->.лмстудио или вообще в %%appdata
Качаешь готовый релиз + дллки. На какие нибудь 4080-4090 это 12CUDA, на мажоные 5080-5090 13CUDA Если ты красноглазик, то нахуй тебе вообще это читать, ты выбрал путь страданий. Я за тебя свечку поставлю в хентайном храме. Ты всё это качаешь и скидываешь в одну папку. Потом идешь ставить таверну: https://github.com/SillyTavern/SillyTavern Придется немного попердолиться, потому что таверна же не может иметь нормальный установщик, иначе было бы недостаточно пердольно.
Потом качаешь нужный тебе квант модельки. Пусть это будет гемма. А если ты хочешь еще и КАРТИНОЧКИ, то качай mmproj-F16.gguf и тудаже в папке где модель. Потом ты берешь, и в папке с ламой создаешь батник и хуяришь в него :
start "" /High /B /Wait llama-server.exe ^ -m "Путь к модели" ^ --mmproj "D:\путь к проже\mmproj-F16.gguf" ^ (Это добавляем если хотим кидать дикпики нейронке и ждать реакции. Да. в Таверне есть экстншн на распознавание изображений.) -ngl 60 ^ (Это количество слоёв на ГПУ, всего в гемме их 60) -ctk q8_0 ^ (сжимаем контекст, но немного) -ctv q8_0 ^ -c 17480 ^ (Это контекст. Сколько всего вешать в граммах) --flash-attn on ^ --no-context-shift pause
По сути у тебя 2 параметра для проверки - это количество слоёв и контекст. Прикидываешь хуй к носу, ставишь 10к контекста и начинаешь играться с количеством слоёв пока не получишь устраивающую тебя скорость. Смотришь на VRAM. Осталась память, накидывай еще контекста.
И всё, НАЧИНАЕШЬ ЕБАТЬ ДОМА, СЖИГАТЬ ЛОЛЕЙ, И ГЛАДИТЬ ХВОСТИКИ ВО ИМЯ ХАОСА НЕДЕЛИМОГО.
>>1576576 Забыл. В подключении ставь текст комплишн и ллама сисипи. Айпишник в логах сервера можешь посмотреть, у тебя прям в конце будет написано сервер листенинг ат: n http://127.0.0.1:8080. Вот это тебе и надо.
>>1576576 >start "" /High /B /Wait llama-server.exe ^ чем это отличается от простого советского llama-server.exe --model "%~1.gguf" --no-context-shift --port 5001 --ctx-size 32768 --no-mmap --fit on -fa on
>>1576572 >>1576567 >>1576562 Мб проблема инференса? Простите что снова с ним лезу, но у вллм не замечено таких проблем. Если у вас есть готовый реквест на комплит можете кинуть, проверю или временно укажите https://vllm.arkprojects.space/ (oai) как бэк, оно пока в сети (хостинги и сингапур в бане), но перф может хромать т.к. с андервольтом балуюсь
>>1576576 >Придется немного попердолиться, потому что таверна же не может иметь нормальный установщик, иначе было бы недостаточно пердольно. https://docs.sillytavern.app/installation/windows/ Две команды и всё. Я бы лаунчер посоветал накатить и не ебать мозги себе >>1576584 Лучше одной строчкой написать, а то его powershell нахуй пошлёт, либо так в батнике напиши: @echo off cd /d C:\папка\c\ламмой llama-cli -m "C:\адрес\до\модели\геммочка.gguf" -ngl 99 -np 1 -c 8192 -fa on --cache-type-k q8_0 --cache-type-v q8_0 -b 512 -ub 512 -cnv pause
чтобы прямо в командной строке кумить, либо эту строчку где llama-cli:
llama-server -m "C:\адрес\до\модели\геммочка.gguf" -ngl 99 -np 1 -c 8192 -fa on --cache-type-k q8_0 --cache-type-v q8_0 -b 512 -ub 512 Это у тебя сервер будет, можно в браузере сразу фронт открыть встроенный если не хочется с таверной сразу ебаться, адрес увидишь когда модель пропердится -np 1 это чтобы он тебе не резервировал память на параллельные диалоги, сотню другую врама можно сэкономить
>>1576585 Не видел, но нужно точно больше второго кванта, IQ4 мне кажется минимум для МоЕ. У меня на Q4_K_S норм русек, нет ошибок при вызове инструментов, скорость около 15 т\с на ниже среднего ПК
>>1576596 за совет спасибо, но этот >>1576598 прав, ключевой признак - сильная загрузка gpu, провал по токенам начинается, очень долго думает. Заебало с геммой мучаться, я столько хуйни ещё не видел, перехожу в режим ожидания хуйхуя.
Забавное замечание. Тестировал гемму на всякие вопросы требующие понимание нюансов. Например просил разные модели объяснить разницу между Netorare и Netorase.
Дипсик: разъяснил это как элементы сюжета и привёл примеры. явно хорошо понимает как структурировать такие истории.
GLM: как разницу происходящего с точки зрения персонажей. Ответ был довольно суховат, но был сосредоточен на фактах.
Kimi: как разницу кто и когда теряет контроль над ситуацией. сосредоточил разницу на ощущениях персонажей.
Qwen: как разницу между согласием, контролем над эмоциями. привёл качественные примеры различий.
Gemma4 31b: почти целиком сосредоточилась на эмоциональных аспектах вовлечённости персонажей и том что они чувствуют в процессе.
Отличный вопрос, он касается сравнения искусственных и биологических нейронных сетей.
Краткий ответ: примерно от 100 триллионов до 1 квадриллиона «параметров». Это в тысячи раз больше, чем у самых больших современных LLM (у которых «всего» 100–500 миллиардов параметров).
Теперь подробнее.
### Что считаем «параметром»?
- В LLM параметр — это число (вес), которое регулирует силу связи между двумя искусственными нейронами. Все параметры статичны (фиксированы после обучения) и однородны. - В мозге прямого аналога нет. Ближайшее соответствие — синапс (место контакта между двумя нейронами). У каждого синапса есть: - Сила связи (аналог веса) - Тип (возбуждающий/тормозящий) - Временная динамика (пластичность, угасание, потенциация) - Модуляция нейромедиаторами (дофамин, серотонин и др.)
Если грубо приравнять 1 синапс = 1 параметр, то получим оценку.
### Цифры
- Количество нейронов в мозге человека: ≈ 86 миллиардов. - Количество синапсов на один нейрон: в среднем около 7 000 (от 1 000 до 20 000). - Общее число синапсов: \( 86 \times 10^9 \times 7 \times 10^3 \approx 6 \times 10^{14} \) (600 триллионов).
Диапазон оценок разных исследований — от 100 триллионов до 1 000 триллионов (1 квадриллиона).
То есть мозг превосходит самые большие LLM по числу «параметров» в 100–1000 раз.
### Но есть важные оговорки
1. Энергоэффективность Мозг потребляет ~20 Вт. LLM такого масштаба потребовала бы мегаватты (гигаватты, если бы мы попытались сделать 10¹⁴ параметров на железе).
2. Динамика Параметры LLM неизменны во время работы. В мозге каждый синапс постоянно меняет силу от миллисекунды к миллисекунде — это скорее аналог внутреннего состояния, а не фиксированного веса.
3. Архитектура У LLM — простая однородная связь «каждый с каждым» (трансформер). В мозге — сложная трёхмерная структура с типами нейронов, дендритными вычислениями, обратными связями и нейромодуляцией. Один синапс может нести больше «информации», чем один вес.
### Итог
Если примитивно заменить синапс на параметр, то в мозг помещается порядка 600 триллионов параметров. Но из-за гораздо более сложной и энергоэффективной биологической реализации мозг решает задачи, которые для LLM требуют на порядки больших моделей.
>>1576424 >а ты можешь это у LLM спросить? дикпик например Когда я начну так делать, ты останешься совсем один, никому не нужный. Подумай об этом своей ебланской головой.
>>1576427 Что есть хорошее железо по меркам сабжа?
>>1576434 Как интернета не надо? Это ж просто интерфейс для работы с удалённой моделью.
>>1576641 соглы, нет бы минимально надмозг включить свой и спросить только кто что не получилось, а тут с ноги нахуй влетает такой, с криками а ну быстро вытрите мне жопу
>>1576631 Разница в том что в мозге двачера куча мусора, вроде того как управлять телом, ориентация в пространстве, декодирование инпута и прочая хуйня. А у LLM всё крутится вокруг понимания языковых паттернов. Вопрос в том: найдётся ли у двачера хотя-бы 31b параметров на понимание языков?
>>1576640 Это сложный тест. Освещение хуевое. Нужно ориентироваться только на текстуру, по сути. Текстура хорошо видна в 2-3 местах. Под черным кабелем, под RAM-модулем и немного на вырезе под радиатор. Похоже на знание задним умом к тому же. Тогда легко. Думаю, не каждый кожаный этот тест пройдет, внимания не хватит.
>>1576642 Ой, внатуре картошка. Но я помню искал пикчу с пк-батоном. Во дела... Значит гемма ответила все верно. Но похоже же на батон, для картохи слишком большой размер какой-то.
>>1576378 Это ну случай если хочется запустить больше чем влезает в врам с адекватной скоростью и полной работоспособностью. >>1576416 Лучше, написать свою обертку на жору! А то их как-то мало. >>1576423 aicg 2 блока ниже
>>1576666 Лол на самом деле Гемма всё ещё даже не близка к двачеру к плане зрения, но очень хороша.
Двачер всё ещё лучше понимает связь внутри изображения. Например могу дать тест намного сложней. Например двачер прищурившись сможет распознать что это за бугалтерский высер, а вот Гемма скорей всего так себе справится.
Для теста по понимании картинок киньте вторую пикчу с ОП поста гемме и скажите посчитать разницу между Q4 и Q6. Она разное количество колонок у них найдет, там провал полный. Однако я не тестил другие модели, может они не лучше
>>1576709 Там нужно обрезать картинку кратно сколько то там пикселей, и увеличить количество токенов на ее описание в llama.cpp. Иначе визуал так себе работает, как и в квен вобщем то.
>>1576715 Да-да, я про это имел в виду. Старость хули. Там берётся датасет и по нему самое важное в хорошем качестве оставляют, а другое ужимают и обычно датасет не включает русске в себя
Не понятно. С одной стороны гугл толкает consumer level модели, чтобы Вася с кудахтером под CS2 мог пощупать их прогресс. С другой стороны они на хую вертели софт на котором Вася должен запускать их веса. Никакой коммуникации с создателем самого популярного ллм софта или инструкций. Все как будто бы через реверс инжениринг фиксится. Или по изначальной задумке ожидается что пользователи будут полные bf16 запускать? Лень и похуизм?
>>1576746 Мне такое нравилось с несовершеннолетия, как только увидел натуральную грудь и потом идеальную силиконовую - обратного пути уже не было. Ты странный...
>>1576678 На самом деле нет. Например навскидку в строке 5 ошибка: Оригинал: 357500=00 | Односторонний шиберный (ножевой) Твой вариант: 35760=00 | Однозатвор шиберный (ножевой)
>>1576745 >Почему шок контент? Потому что это куски силикона которые катаются под кожей и выглядят как опухли. У неё даже кожа побледнела из-за того что кровь плохо поступает, там такое натяжение ебичское.
>>1576769 Вот только гемма шуршала над этим пролторы минуты на всей сборке от корки до корки которая стоит как половинка одной 5090, а сколько будет двачер эти каракули разбирать? В любом случае я бы предпочёл только перепроверить, нежели самому это всё напечатывать.
>>1576787 >троллинг тупостью Но мне вправду только такие и нравятся. Я возможно ебнутый на голову, но вот так... У меня почти все женские карточки с идеальными силиконовыми сиськами.
>>1576789 Именно, сетки хороши в предварительной работе с большим объемом информации. Анализ, суммаризация, вот такое вот распознавание текста. Потом только проверить и все.
>>1576776 Каждый для себя решает, у меня вот щас агент запущен 3км, и ему норм. Никаких ошибок вызова инструментов нет, я разницы с 4 квантом не ощущаю только быстрее работает. Но поболтать я бы такое брать не стал.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: