В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Слушайте, а гемма не такой уж и попугай, все же есть шанс на спасение. Вот я в запросе сказал не про зеркало писать, и на 3 свайпа вполне разные истории вышли.
>>1578456 Так это МОЕ, там 26b параметров. Он быстрый, только ризонинг по 2 минуты каждый раз, он там горы текста катает в ризонинге и сжирает всю скорость. А так 31б не тянет, да, фигово все с ним.
>>1578453 Гемма тут как костыль в жопе - с любой стороны неприятно будет. Вот ты зачем мое берёшь? Ради контекста. Но жертвуешь чем? Мозгами. Чтобы нивелировать тупость ты подрубаешь ризонинг, который в свою очередь пожирает контекст. Пу-пу-пу. Вот и думайте, карлики.
Как же заебали тащить сюда свое морализаторское говно. Да-да, ты же локалку собрал, въебав кучу бабок, чтобы милф с обвисшими сиськами полувялым ебать. На корпах же это невозможно. Вот конкретно чтобы твой самый обычный фетиш на самое обычное порно никто не увидел пришлось собирать риг, не иначе. Да и вообще ты тут за компанию, а то и мимо проходил.
>>1578490 > Вот конкретно чтобы твой самый обычный фетиш на самое обычное порно никто не увидел пришлось собирать риг Бро, мне даже обычные вопросы стыдно у корпов спрашивать, а ты о интиме...
>>1578497 >Бро, мне даже обычные вопросы стыдно у корпов спрашивать, а ты о интиме... Это вызывает отдельный ор, когда видишь в клоде или геминьке (ну не помню где конкретно) что теперь, дорогой пользователь, учитывается история всех твоих чатов. Ну охуеть.
Попробовал лламу с рекомендацией анона --override-kv gemma4.final_logit_softcapping=float:20.0 . Хуита. То же самое. Опять Марк со своим ебаным зеркалом.
>>1578510 >Новый интерфейс? Ну а какой еще? Пилю на нем ща свою идею ебанутого расширенного тулл юза, чтоб llm буквально на каркасе из кода работала с отдельным интерфейсом под всякие нужды. Но пока только базовый бросок дайса сделал
Как же мощно закк спиздил всех самых крутых ученых у опенов и в итоге не может натренеровать модель хотя бы близкую к текущим сота, а тут еще и новости о mythos и его бенчики
>>1578461 Ну во-первых один блок ризонинга уходит, в сообщение что пишется Во-вторых есть хитрые моменты где рекомендуют включать опцию помнить все ризонинги, или делать их суммарайзы. В тулколлах вроде юзается. В офф инструкции от гугла к 4 гемме было
Русик в кванте пострадал, может местами проёбываться, так что к использованию особо рекомендовать не могу, а в 4том и выше квантах скорости совсем печальные. Но со свайпами у неё норм.
Короче, может у меня шиза, но либо жора либо кванты на мое-гемме сломаны. До 4к контекста или около того отвечает нормально, потом начинается какой-то пиздец, либо служебные токены начинают протекать, либо раздумья ломаются, либо выборка в принципе. Какие-то непонятные слова вылезают, даже не просто рандомные, а вот прям набор букв. Кто-то такое замечал или это только у меня траблы?
Бля как же я заебался вайбкодить, спать хочу. Но зато смотрите чо сделал. Это не только для броска кубиков, это в целом просто пример. Весь смысл в том что ллм работает параллельно с каким-то приложением и когда она вызывает инструменты, она взаимодействует с ним. И это лишь небольшая часть из того что я хочу запилить. То что кубик не всегда падает точно на грань это похуй, все равно это только для примера
>>1578610 Царь во дворца, царь во дворца! Хорошее железо видимо.
А у меня хороший игровой ноут что вывозит новинки на ультрах, но под ллмки не очень.
>>1578622 >кванты на мое-гемме сломаны Не исключено что либо кванты, либо инфиренс в целом. Увы, дальше десятка сообщений пока не тестил сам, не до того.
>>1578622 Когда внешние фронтенды использую, замечал такое. Если использовать встроенный в нее svelte фронтенд - проблемы исчезают, даже на 30к токенов нормальное развитие диалога. Кажется остальные фронтенды все криво с ней общаются.
>>1578651 + встроенный фронт на дефолтных настройках, может это роль играет. Хотя пробовал их переносить в другие проги, вроде бы ничего не менялось, глюки все равно бывали на большом контексте. Короче пока для себя установил, что если мое-кванты нужны и длинный ролеплей, то лучше сидеть на встроеном фронте и добавлять там систем месседж, когда надо.
>>1578651 Вот этот фронт, если что. ИИшка говорит он с бэкендом по-другому общается, потому что встроенный. На практике подтверждается, глюки исчезают с квантами-мое и длинным контекстом.
Пожалуйста послушайте, тут происходит что то странное... Трек 21 года и можно услышать как поют про стэп (степ флеш???), далее строчка про пресет (у них в башке один пресет) - ??? https://youtu.be/89yDiQ8WkNg?list=RD89yDiQ8WkNg&t=70
>>1578675 Там нейтив апи, другие проги используют OpenAI-компатибл API. Плюс какие-то внутренние трюки. Короче результаты разные выходят, сам попробуй. Пока только этот у меня безглючным был.
>>1578681 Ты бы это, к врачу сходил. Тредов так 100-110 назад, когда меня особенно сильно крыло, я уходил в турбосеменство выдавая по сотне постов в которых я спорил сам с собой, принося аргументы и переходя на эмоции. Буквально пол треда только моих сообщений. А потом до меня дошло, что я общаюсь сам с собой с двух устройств. Да, г’ебятки, быть заложником своего мозга нихуя хорошего. Что кстати подтверждало что тогда ОП не был модером. Ну а если был, то представляю его ебало когда он читал эту шизу под одним пасскодом.
>>1578626 Богато живешь, что можешь с ЛЛМ тратить врам на 3D кубики.
>>1578685 Единственно там неудобно - нет возможности нормально удалять середину контекста в ролеплее, если дошел до конца текстового окна. В других прогах можно просто в интерфейсе все поудалять, тут нужно сначала экспортить в json, потом ручками удалять середину из джейсона с лишними сообщениями, потом менять айдишки, чтобы начало оставшегося куска ссылалось на следующую айдишку из продолжения. Потом реимпорт. Но у меня длинный контекст, так что делаю это редко, а безглючность того стоит.
>>1578679 По-моему он не засовывает финкинг в контекст, потому что когда я его из джейсона удалял и делал реимпорт - ничего не менялось, контекст такой же по размеру оставался.
>>1578694 > По-моему он не засовывает финкинг в контекст, потому что когда я его из джейсона удалял и делал реимпорт - ничего не менялось, контекст такой же по размеру оставался.
Тут только гадать. Но в запросах на эндпоинт генерации весь финкинг со всех предыдущих сообщений есть в теле запроса. А как его обрабатывает бэк - не знаю.
>>1578703 Я такой эксперимент делал - экспортил весь джейсон ролеплея, потом удалял все поля reasoningContent - в ноль их ставил. Потом импорт заново, пересчет контекста - все 1 в 1 оставалось, ответы тоже. Так что скорее всего он не шлет финкинг в контекстовое окно бэкенда, поэтому они и в джейсоне в отдельных полях лежат.
>>1578622 Мои наблюдения на текущий момент - вывод идёт по пизде, как только модель не ставит <|channel>. А прикол в том, что в жинже (по крайней мере, не модифицированной) этот тег ставится принудительно, только если ризонинг отключен {%- if not enable_thinking | default(false) -%} {{- '<|channel>thought\n<channel|>' -}} {%- endif -%} В случае включенного синкинга простановка тега отдаётся на откуп модели. И на большом контексте моешка с порезанными квантами мозгами может забить на него, и тогда начнётся шизовывод с лупом. Я сам сижу на текст комплишене в таверне, и у меня на контексте от 4к в Q4_k_m кванте, например, может происходить такое, что модель иногда забивает на <|think|> в системном промпте, закрывает префильный канал и отказывается думать. Пришлось в префил ещё звёздочку накинуть. Но в целом, если руками канал проставлен, то шизы нет (только форматирование текста слетает), хотя я проверял только на чатах немного больше 5к, нет пока большого. Если у тебя таверна с настроенным текст комплишеном с каналом в префиле под рукой, то можешь проверить, продолжаются ли косяки на большом контексте.
>>1578741 ><|channel>thought\n<channel|> Замечал если ставить его, то иногда есть шиза - при перегенерации запроса с тем же тегом, уже нет шизы. Так что все рандомно как-то, может кванты влияют.
>>1578741 >вывод идёт по пизде, как только модель не ставит <|channel> Вот у меня кстати наоборот. Если отключить мозгование, то вывод не ломается. При включённом бывает такое, да. Она либо открывающий либо закрывающий тег проебывает.
Вообще, вот я тут подумал, может зависит от того, какие эксперты при загрузке активируются? Не знаю, выбираются они рандомно или нет, но разброс слишком большой. Иногда бывает шиза, иногда нет шизы. Ну или в процессе самого инфиренса они там как-то хуево выбираются из-за пережатого кванта.
>>1578691 >представляю его ебало когда он читал эту шизу под одним пасскодом Ну практически общение с локалкой. Ты знаешь что ты пишешь и прикидываешь приблизительный ответ и в голове генеришь следующий парт общего полотна. Сорта самообщение, учитывая, что живого собеседника на той стороне нет.
>>1578765 imatrix кванты должны эту проблему решать - выбор эксперта всегда стабильный. У бартовского вроде как самая нормально сделанная иматрикс квантизация.
>>1578749 Хз тогда. Я несколько десятков раз посвайпал в разных чатах (но небольших по контексту) и шизы с проставленным каналом не ловил. А у меня ещё температура больше единицы и smoothing-ом полирую для разнообразия. Может, бывает, что модель какой-нибудь лишний bos ставит, опять открывает канал, но не пишет thought или что-нибудь такое. В любом случае, сам факт шизы после не проставленного служебного токена выглядит ненормальной хернёй. С чего вдруг там предсказанные токены так расхерачивает только потому, что тег не проставлен. Причём не сразу, а спустя пару предложений после начала генерации.
Немного фидбека по 8 кванту 31б. После 32к примерно контекста раз в несколько сообщений может случиться прикол - вставит английское слово которое вписывается, но там должно быть русское - может употребить неправильно к примеру "человеки" В целом пока держится и может даже выкинуть мув на основе контекста про который я уже и сам забыл. Добиваю до 64к, если норм, то ставлю фп8 на контекст и иду на 128к. Тг уже упал до 8, уверенно иду на 0.1тпс
>>1578782 >вставит английское слово которое вписывается, но там должно быть русское >может употребить неправильно к примеру "человеки" Такое даже на корпах бывает, ничего необычного. Русский всё еще в датасетах дай бог процента полтора-два занимает.
>>1578790 Это просто физически не может быть так. Смотри- английский, китайский. Точно топы. Потом еще французский, испанский, немецкий- точно не меньше.
>>1578791 Датасет зависит от страны производителя? Тогда 100%, что на первом месте анг, за ним кит, после фронц, не забывайте про мисральку. Но англа конечно процентов 70.
Посмотрел на количества звезд на гитхабе, на количество лайков моделей у unsloth, подумал может их studio не хуже lm studio. Срет старым питорчем, вручную хуй установишь на другой диск через uv, лезут ошибки где не должны лезть. Запускаю, выглядит божественно. Правда сначала гайд на трейн моделей. Но интерфейс лучше чем у корпов, не считая клода, очень приятно пользоваться. А потом замечаю, что нельзя редачить ответы ИИ, нельзя продолжить генерацию, не заметил удобных хоткеев как в лмс. Поставил из-за упоминания про аудио инпут для геммы, не вижу никакого аудио инпута, только диктование своим ебалом, видео тоже не грузятся.
Есть ли нормальный интерфейс, чтобы вот так по-человечески thinking выключался и включался по необходимости без нужды лезть в ебучие настройки каждый раз, чтобы был пресетик для кода, а ещё лучше задел под агентные штуки с сендбоксом и всей хуйнёй? А не срань ебучая из 90х как силлитаверн, которая даже не может подключить мультимодал из лм студии. Так и не вышло проверить поддерживает ли silly tavern аудио-видео инпут. Я конечно юзал кобольд и таверну весь путь, но теперь хочется от них блевать, увидев такие хорошие UI с отличным UX, но с подрезанным функционалом. Или может все эти функции есть, но скрыты? Накиньте скриншоты с годными интерфейсами.
>>1578792 >Датасет зависит от страны производителя? Ну было бы странно, если бы в дипсике было бы 90% английского. Сам он выдаёт такие цифры: Английский ~45-50% Китайский (упрощ.)~25-30% Код (Python/Java/C++/JS) ~8-12% Русский ~3-5% Прочие языки (суммарно)~10-15% Японский, немецкий, испанский,
Ну а на деле не известно, так как за дадасеты все трясутся, чтобы не дай бог ничего не всплыло.
>>1578790 >Ты с украинским перепутал. Нет, украинский еще меньше. И там шизы уверен еще выше, потому что скорее всего там токены и на русском и на украинском вместе миксуются. Нейросетевой суржик такой получается.
>Были графики где русик на 2 или 3 месте был по датасетам Ну тащи графики, раз они были. Базу, даже китайских моделей, составляет английский. Его минимум половина. На другие языки выделяется процентов наверное 20 и не на один "другой язык" а на все вместе. Оттуда и такой мелкий процент у русского. Может от этих 20 процентов он и составляет треть или четверть, но точно не от всего датасета.
>>1578794 >А не срань ебучая из 90х как силлитаверн, которая даже не может подключить мультимодал из лм студии. Мистер Андерсон, зачем вы игнорируете жору?
>>1578794 >Есть ли нормальный интерфейс, чтобы вот так по-человечески thinking выключался и включался по необходимости без нужды лезть в ебучие настройки каждый раз, чтобы был пресетик для кода, а ещё лучше задел под агентные штуки с сендбоксом и всей хуйнёй? Чел, на дворе 26 год, ты можешь взять любую мощную корпу и написать свой интерфейс со всем, что тебе нужно. Вайбкодеров можно срать сколько угодно, но если ты делаешь тулзу для себя - это лучший вариант. Особенно если ты сам не можешь в программные штуки.
>>1578794 Зачем тебе с кобольд лайта слезать то? Там все есть, включая мультимодал имнупт, продолжение генераций и выключение зинкинга, даже голосовой ввод есть. Его фронтенд можно отдельно накатить и юзать с llama.cpp, у которого скорость повыше и в память больше всего влазит, так и делаю. Еще нативный новый фронтент в ламе, там правда продолжения генерации не завезли и удаления сообщений из середины без удаления остатка. Эти 2 сейчас основные конкуренты имхо по удобству.
>>1578805 Не знаю, лично я кидаю копейку на попенроутер и пользуюсь когда нужно. Это выгоднее чем платить кому-то одному и потом от него зависеть. >>1578810 Мне это не нужно, меня устраивает функционал таверны и лм-студио. Я вайбкожу прототипы для работы, когда надо. Вполне рабочий вариант.
>>1578815 > Не знаю, лично я кидаю центик на попенроутер и пользуюсь когда нужно. Это выгоднее чем платить кому-то одному и потом от него зависеть. Ftfy
Я вот тут мучал гемму с картинками. В итоге настройки мин и макс токенов на картинку реально улучшают результат. Но все равно частенько факапается. А вот разницы между mmproj в бф16 и q8 - не заметил пока, а 800мб экономит.
Теперь мне стало интересно, а есть какая-нибудь ллмка, которая умеет видево описывать текстом? Пошарился по хф и ничего популярного и из разряда plug and play не нашёл
>>1578815 Вот и нехуй пиздеть. Сравнил сранные юзерскрипты, интерфейсы для бекенд хуйни и комплексный UI для ллм с которым даже анслоп обосрались и проебали весь функционал. Я и сам хуйню вайбкожу с 2022 регулярно, до этого ещё дольше программировал руками, понимаю насколько это сложно и долго. Это нужно калькуляторы ебашить, чтобы так легкомысленно говорить про возможности вайбкодинга.
>>1578813 >выключение зинкинга Дрочевом в четыре клика? Когда это должно включаться хоткеем при отправке сообщения через CTRL+SHIFT+ENTER например или хотя бы тоглом в интефейсе. >даже голосовой ввод есть >включая мультимодал имнупт А аудио инпут? Диктовать это хуйня. Я хочу нативную поддержку видео. А то гугл выпустили модель, а ни один интерфейс не поддерживает её функционал? Имеются свидетели рабочих аудио-видео инпутов в gemma 4 e2/4b?
>>1578832 >Дрочевом в четыре клика? Когда это должно включаться хоткеем при отправке сообщения через CTRL+SHIFT+ENTER например или хотя бы тоглом в интефейсе. Пресеты же можно сделать и переключать по дропдауну. Пока, самое удобное что есть. Выходит в 2 клика.
>>1578831 >Теперь мне стало интересно, а есть какая-нибудь ллмка, которая умеет видево описывать текстом? Многие новые мультимодалки как бы умеют, тот же квен3.5, гемма4. Но как я понял, все они работают покадрово. Т.е. тупо также как с картинками, только тут пачку картинок надо кидать. Нативного формата для видосов вроде нет. И большинство фронтов либо никак, либо через жопу обрабатывают видео.
>>1578832 >сам хуйню вайбкожу с 2022 регулярно, до этого ещё дольше программировал руками, понимаю насколько это сложно и долго Учись в составление промтов, че сказать. Ничего сложного в этом нет. Написать вебморду типа таверны можно за пару вечеров если у тебя есть желание. Не знаю че ты там и где вайбкодил с 22 года, но сейчас не 22 и уже давно можно нейронкам не только задачу скармливать но еще и тонны документации и даже целую репу другого проекта. Может не с первого раза и не сразу чисто, но она напишет что тебе нужно.
>>1578842 >Выходит в 2 клика Пересчитай внимательней. Будет непросто. >>1578846 >за пару вечеров Все таки за пару? Ладно, так уж и быть, ждём к следующей неделе божественный UI для тредовичков. Чтобы парсил chat-template с hf, читал метаданные, даже которых нет, поддерживал то, что не поддерживают самые известные интерфейсы. Ты ж не пиздабол ебанный, а реально шаришь.
>>1578832 > Имеются свидетели рабочих аудио-видео инпутов в gemma 4 e2/4b? Я постил в тред ранее. Можешь что то покидать, залью. Или могу не на долго расшарить эндпоинт
>>1578859 >Ты ж не пиздабол ебанный, а реально шаришь. Забавно, что для тебя пиздабольство это наличие у кого-то знания, которое недоступно тебе. Ты пришел с вопросом, тебе предложили решение. Вместо того чтобы написать прямо "я не хочу сам возиться/у меня нет времени" ты развыебывался и начал затирать, что вообще неебаца вайбкодер с 22 года и знаешь что можно сделать а что нельзя. Если бы ты реально имел хоть малейший опыт, даже не четырехлетний, а хотя бы месячный, то уже бы давно собрал для себя фронт и не высирался тут.
Никто не будет тебе ничего делать и никто тебе нихуя не должен, скажу как-то вот так. Ну а учитывая, что для тебя пиздец какая сложная фича это спарсить разметку чата с обниморды, то даже не знаю, что тут еще можно добавить. Сиди страдай в ожидании, что за тебя всё сделают.
>>1578876 >вместо того, чтобы написано прямо я не знаю готовых решений и не умею их делать, я напишу что можно сделать теоретически, нужно совсем немного поебаться, я по новостям слышал Понял тебя, пиздабол ебучий. Сразу ясно что ты там вайбкодил и что у тебя за работа.
>>1578869 Пик1: не опознала Летова, думала это курткабейна, простительно. Но самого Летова знает. Пик2: путается в анатомии при сложных ракурсах без визуальных "якорей". Видит вагину, но затрудняется понять в какую сторону от неё лобок, а в какую анус. Считает, что красное - не жепная затычка, а что-то другое. То же самое с жепной свечей анона из предыдущих тредов - тоже не понимает что свеча не на лобке, а в жепе.
С документами при максимальном разрешении (в токенах) норм, но тут и там проскакивают ошибки в 1-2 буквах
Итак Нанесут ли фанбои Геммы ответный удар по >>1578029 → ??? Потому что я согласен полностью, Гемма это кривой дистиллят Геминьки который пишет местами неплохо но оч тупо
>>1578794 > Срет старым питорчем Это что, не просто обертка жоры? Если нет то зачем тогда питорч, тем более старый? > Но интерфейс лучше чем у корпов Опенвебуй не видел чтоли? Только сейчас он приболел, как запустить без регистрации и смс придется загуглить. Попробуй, еще захочешь, а потом поздравим с подключением. > но теперь хочется от них блевать Для рп это все также уныло. А что конкретно вызвало восторг, поделись.
>>1578937 Он сам себя захуярил > в кум квен не может совсем Еще когда я тестил блючето там тюн квена персы были ебнутые, та же фифи просто бросалась на прохожих и показывала всем пизду, но что меня добило так это когда многодетная прилежная мать ей сказала "убирайся мелкая блядь"
>>1578918 Погонял и в принципе согласен. Допом решил попросить сделать промпт для анимы что бы получить похожий результат и ведь она там даже пишет что это жопная затычка. Мод, не стукай, я замазал
>>1578947 > Опенвебуй не видел чтоли? Только сейчас он приболел, как запустить без регистрации и смс придется загуглить А ч с ним? Запускаю из хелм чарта, просто работает
>>1578957 Вроде всегда там нужно было аккаунт создавать, не? Скипалось флагом в параметрах запуска или конфиге, не помню уже. Аккаунт хранится локально, там тупо весь гуй завязан на том, чтобы было несколько аккаунтов мимо
>>1578937 Вообще я не уверен что гемма дистилят в привычном смысле. У ней корпус знаний какой-то удивительный. Она знает всякие нишевые вещи слишком хорошо. Да, её общая психология сильно напоминает гемини, но это не похоже на имитацию.
Например, гемма отлично знает что такое sad panda, e621, или as109, даже вспомнила немного конкретики. А Qwen только по e621 знает.
>>1578968 Раньше просто ставишь-запускаешь, может какие-то предложения были которые тутже скипал и не замечал. А сейчас куда-то закидывает, просит по-серьезному почту, рассказывает об онлайн преимуществах.
>>1578790 >на 2 или 3 месте 5% тоже может быть третьим местом. И для литературной выдачи этого скорее всего не хватит. Я твоя понимать, но в РП даже жируха с фанфик сайта лучше напишет.
>>1578899 Всё так, единственное что печалит, это что лучше Геммы в этих весах ничего не будет ближайшие пол года, а то и год. Даже файнтюны не нужны, т.к. тех кто тюнит датасеты на русском вроде как нет, либо я о них не слышал.
>>1578981 У гугела под рукой целый поисковик, наверняка заархивированный весь интернет, куча запросов от юзеров и скорее всего много другой инфы. Странно было бы, если они не юзали весь этот багаж.
>>1579005 >наверняка заархивированный весь интернет, Даже приблизительно он измеряется в экзабайтах. (миллионы терабайт). У гугел жопа треснет весь интернет архивировать.
>>1579011 Вот примерные цифры на 2024–2025 годы: 1. Общий объем (Глобальная инфосфера) Общий объем созданных, захваченных и потребленных данных в мире сейчас составляет около 150–180 зеттабайт (1 ЗБ = 1 миллиард терабайт).
Нюанс: Большая часть этих данных — «мусор» или временные пакеты. Реальный объем хранимых данных в дата-центрах значительно меньше — примерно 10–15 зеттабайт.
2. Доля медиафайлов (Видео и Фото) Медиа — это «тяжеловес» интернета.
Видео: Занимает около 80–90% всего трафика и львиную долю хранилищ. Только на YouTube каждую минуту загружается более 500 часов видео. Фото и аудио: Составляют еще около 5–7%.
3. «Чистый» текст без дублей Если отсечь видео, картинки, программный код и бесконечные копии одних и тех же статей, цифры становятся на порядки меньше:
Весь текст: По разным оценкам, текстовая составляющая всего индексируемого интернета (без учета глубокой сети и логов) весит от 100 до 500 терабайт. Для сравнения: Весь архив Википедии на английском языке (только текст) весит всего около 22 гигабайт. Это наглядно показывает, насколько текст компактнее видео.
>>1579005 Это определённо так, но я скорей к тому что когда одна модель дистиллируется в другую то в процессе одна учится отвечать как вторая. Это часто нарушает связанность знаний. Это как разница между процессом обучения и переобучения.
Но я не наблюдаю этого у геммы, она каким-то образом приходит к тем-же ответам что и Гемини, но при этом не теряя плотности.
То есть как будто не в Гемму дистиллировали Гемини, а Гемму делали КАК Гемини.
>>1579011 У них целый ютуб хостится, который транслируется на миллиарды юзеров. Чобы и инет не заархивить? К тому же вейбек машина уже существует, хотя там мб и без картинок, но все же. Так что я думаю гугел вполне способен на такое.
>>1579052 Есть BerryLLM на 30б от нашего любимого маркетплейса китайской пали, но он существует только в бенчмарках. И там он, конечно же, на голову впереди даже больших квенов в ру бенчмарках
>>1578999 >>1579052 Зачастую файнтюны неплохо наследуют знания языков от базовых моделек. Поэтому можно взять любой файнтюн какого-нибудь мистраля 24б, и он будет спокойно на русском балакать.
>>1579073 Серсо! Поиск выдаёт одну (1) статью новостную и ссылку на этот "бенчмарк". Вот он, AGI, где прятался, между 5090 за двадцать тысяч рублей и косметики из Китая
>>1579073 Так суть бенча в том что там всё на русике. Всё остальное (заграничное) получает меньшие оценки тупо потому что некоторые сложные задачи с русика плохо понимаются (неверные вводные данные), а не из-за худшей способности их решать. На самом деле неплохой список для тех кому русский прям важен. Там еще на прошлой неделе что-то от мтс вышло но наверняка выкладывать не будут
Попробовал эту вашу гемму-4, решил ИСКЛЮЧИТЕЛЬНО В ИССЛЕДОВАТЕЛЬСКИХ ЦЕЛЯХ сделать провокационный реквест. Что же её клинит? И, главное, что там по васянским файнтюнам?
Какая же геммочка умничка. С её помощью поставил на малинку новый внешний HDD, отформатировал и смонтировал его, поставил джеллифин сервер в докер, самбу, кьюбит торрент в докер и все настроил и работает. Ну не круто ли? Раньше для этого надо было с гопотой общаться, а сейчас все на локалочке!
>>1579056 Эх Жора >>1579086 Не в первый раз кстати такое, раньше писали что бф16 в лламе срабатывает некорректно и поэтому такое решение рабочее. Хз насколько релевантно. >>1579129 Слава нейросетям!
Новая гемма (26B-A4B-it-IQ4_XS.gguf) это гемини 3.1 про. Я копирую со старых чатов промпты и сравниваю, один в один. Этот слог, эти вопросы в конце, объем. Как будто или точная дистилляция, или гемени 3.1 в размере меньшем чем оригинал. Есть кто сеймы? Единственное проблемы это вылеты и ООМ если контекст больше 12к
Опенвебуи+комфи+гемма топ связка, только настраивать заебался и хочется прикрутить как то агент луп что бы она сама разбиралась что лучше и хуже получается, вносила правки и траила до победного пока под таргет точно не попадёт. Это конечно не нативное "перерисуй" но для локального сетапа всё равно вкусно
>>1579215 >да у тебя шаблон сломан просто, чего ты мучаешь её Да там всё ок, пока я не упоминаю 900-летнюю демонессу или стажера-женщину, тогда она с ума сходит.
https://www.reddit.com/r/LocalLLaMA/comments/1sfrrgz/it_looks_like_well_need_to_download_the_new_gemma/ Анслоты только сейчас переделали кванты. Напоминаю, Бартовски это сделал уже пять дней назад. Кто использует их говнокванты - перекачивайте, хули. Сами выбрали эту помойку, там выше еще и видно что по KLD Бартовски их размазал. До сих пор не понимаю как эту шарашкину контору не прикрыли, что ни релиз то пропуки под себя.
>>1579270 Да заебали уже, блять. >Сами выбрали эту помойку, там выше еще и видно что по KLD Бартовски их размазал У них годнейшие кванты квена пол года назад были, когда как полкакванты обосрались. Все обсираются. Но что то они постоянно лажают, да.
>>1579275 >У них годнейшие кванты квена пол года назад были, когда как полкакванты обосрались Ты видимо на ЛмСтудии и с дилдаком в жопе капчуешь? Бтв, я прекрасно помню как выбрал кванты Батрухи потому что они были лучше по PPL и KLD, для орига 235 и 2507 тоже.
>>1579277 >2507 Да хуй там плавал. О нём и речь. В поисках борьбы с его шизой я перепробовал всё Q3 и Q4 что смог дотянуться. Самые быстрые были UD_Q4, а вот на полкаквантах начался цирк с конями, не знаю что он там пережал но русский на нём был просто пиши пропало.
>>1579278 imatrix неправильно ложилась на веса Геммы из-за ошибки в имплементации архитектуры. Это очень быстро пофиксили, буквально следующим релизом после того когда в Жору добавили Гемму 4. Бартовски сразу же всё переделал, эти чего-то ждали. На практике означает, что кванты должны быть чуть более стабильными.
>>1579270 Если у вас горит жопа с подобного, я бы на вашем месте для сохранения нервов возвращался к модели через месяцок. Нервы целее будут. И не только из-за квантов, но и из-за лламы.ццп у которой сейчас весь гитхаб иссуями по гемме4 забит.
Дегенерат, пост исключительно про 26b и e4b, 31b они уже сразу обновили. И да, там реально только правка с bos токеном требовала исправления gguf, и imatrix кванты, но дегенератов что их используют мало.
>>1579308 Да обычное дело. Все у конкурентов с помощью синтетических вопросов сильные стороны пытаются сдистиллироватт. У клауда вроде обычно логику/ризонинг пиздят, мб кодилку Видел еще смешняву как какая-то не дипсиковая модель назвалась дипсиком Гемма вообще прикольная в этом плане, некоторые модели (как квен) зомбируют чтобы помнили кто они точно включая версию, отрез датасетов и так далее, а гемму оставили нейтральной, может начать психовать если пояснять ей что она четвёрка (начало второго пика). По таким дистилляция больнее всего бьёт >the model I'm supposedly acting as
Напишу что-то забавное. Решил с геммой пообсуждать самое дегенеративное порно о котором она может подумать. То есть буквально провести вместе исследование пространства идей. Порассуждали всякое от БДСМ, НТР, бодихоррора до кристаллов разума сливающихся в недрах юпитера.
Её итоговый ответ что пиком порно фактически является то что в этом треде вытворяют с ЛЛМ с точки зрения ЛЛМ.
Кстати, я нахожу забавным что Гемма часто в своем CoT чтобы дать ответ строит шаблон временной личности, чтобы рассуждать с точки зрения "я".
>>1579305 Меня поражает, что в треде все как будто только родились и удивляются, что с первого дня что-то не работает. Сколько релизов было - все одно и тоже, неделю-две надо ждать стабильного релиза, законы разработки ПО не меняются с первого дня появления программинга. Нет, блять, надо быть первым и жрать кактус. А нахуя?
>>1579361 Ты реально не можешь посмотреть на скрин который тебе прислали или зайти в репу? Анслоты гемму 31 обновили 2 часа назад, а не в первый день >>1579375 Никто не удивлялся багам, насрали анслотам на голову ща отсутствие оперативности, и правы
Какой длины у вас обычно инпуты во время РП? Я не про кум, а про какое-то достаточно годное и вдумчивое РП.
Когда я пишу достаточно большие инпуты, они значительно улучшают ответы модели, ибо, во-первых, модели не нужно как-то информацию додумывать за меня и она точно понимает, что происходит, а во-вторых, мне так нравится, потому что я пишу так, чтобы модель видела всё, что я считаю ей нужным показать, не ужимая себя в какие-то рамки.
Но есть проблема.
Если говорить про корпов, то в целом они учтут всё в твоём посте и могут достаточно неплохо вытаскивать эту инфу из контекста при нужде, то есть ты не просто так полотна расписываешь. А вот с локалками сложно. Они не так хорошо это делают, и нужна какая-то золотая середина, потому что я ощущаю, что перебарщиваю: трачу больше времени на ввод, чем необходимо, лишний раз перегружаю ограниченный контекст и на получаю такой же отдачи, как у корпов. Плюс всё равно моя писанина в итоге улетит из контекста относительно быстро (на гемме могу позволить только 40к токенов, на квене 65-70к, и тут не учитываются карточки и пуки из лорбука). И если на последнем ещё туда-сюда, то с геммой есть неудобства, и она явно хуже видит, что в середине, однако «в моменте» на хороший инпут выдаёт куда более качественный ответ, чем квен. Зато квен не столь сильно привязан к концу контекста, как гемма, и лучше вытягивает инфу из его кусков где-то в жопе.
>>1579403 >Какой длины у вас обычно инпуты во время РП? Всё безумно завязано на карточке. Рекорд - примерно в 3к, где персонаж устраивав выступление с песнями и плясками. Там было что то в духе 15.000 символов, потому что с переводом были траблы, я это число запомнил. Если персонажей много, то 200-300 токенов. Если кум, то вообще порой не больше 50 токенов.
>>1579403 Хз, я бывает с мисралем рпшу, веду параллельно 3 линии в диалоге, хавает нормально. Я отвечаю на все пункты чара, чар реагирует на все мои реплики.
>>1579403 Все где-то читали что "если хотите чтобы отвечали длинно красочно и хорошо то и сами пишите так же". Но по моему опыту это не всегда так. Зависит от говорливости(квен любит от души посрать после ризонинга например, о том как птички поют листочки колышутся)+следования модели промптам, и от того как карточка прописана. Есть две карточки, одна на односложные предложения отвечает параграф-фраза, другая ебенит длиннющую пасту+много фраз по пути, всё на одной модели. И если продолжать писать односложно это не меняется. Один раз прописанные дескрипшн+фирст месадж+сценарио+этц въебененые от роли system на большинстве моделей держат примерно один уровень (по крайней мере на том что для рп использую я), и твой ответ не сильно что-то изменит. Просто не думай об этом и бахай то что самому приятно видеть+содержит важную инфу для дальнейшего ролеплея. на гемме и лламе так
Теперь когда мы поняли что гемма хуйня, а на квене нет кума, что выбрать на замену эиру? Его слоп и паттерны уже заебали. Склоняюсь к глм 32б, но хз лучше ли там кум чем на квене
>>1579448 Можно на 235b на русском. Всё там есть, сам русский будет meh. Ну тут сорян, гемма реально ёбет в этом плане. А meh он будет в окончаниях, словах что не будет переводить и ошибках. But! Соски набухают, члены поднимаются на трапов.
>>1579450 >А meh он будет в окончаниях, словах что не будет переводить и ошибках. Обычно это указывает на то, что семплер шалит, выбирая не самый популярный вариант.
>>1579466 Я запускал Q6 там лучше ситуация с русским.. но 0.5 т/с . Так что это проблемы квантования. Ну или в нём чё то опять сломано, я ебал эту модель если честно. Люблю и ненавижу, лол.
>>1579490 Иди к корпам. Увы, сейчас оператива как видеокарты, видеокарты как серверные процессоры. А процессоры как пиздец. На 10-15к рублей можно просто обмазаться перемазаться токенами.
>>1579493 А разе не все так делают? Я думал, что здесь балуются локалками или просто сохраняют на черный день, а сами у корпов сидят на чем то более съедобном. Нах свое железо гонять, если пока в этом нет нужды?
>Нах свое железо гонять, если пока в этом нет нужды? Потому что прикольно! База данных с тобой беседует и трусы снимает. ОХУЕННО!
Простихоспаде, но тут гейткип по железу. Не потому что мы тут такие пидоры, а потому что оно необходимо для пердолинга. В этом и суть, в этом и смысл. Энтузиасты собрались чтобы пердолиться без цели и смысла. Ну и гладить хвастики фуррилолей.
>>1578421 (OP) Почему в вашей дрочильне не упоминается, что проще будет гонять модельки на 64/128гигах оперативы с мощным процом, чем покупать видеокарты? 26б модель летает с 32к контекста на 25-29 токенах в секунду на обычно оперативе. Я просто обновил пеку с i7 9700 с ddr4 на Ryzen 9 9950x3d с ddr5 и оказалось что вон оно как все просто
Аноны какой квант новой геммы качать 4 или 3 бит? 4 у меня совсем чуть не влезает в 16гб врм. До этого качал только модели меньше 16гб Но слышал тут же что 3 бит это плохо уже
>>1579540 >Насчет плотных, я не ебу как их отличать вообще. Плотная - dense С экспертами - MoE Есть еще гибридные, но тебе оно назхер не надо. Если в наименовании что то в духе 123B-A5B это MoE. Если просто 123B - это Dense
>>1579540 Денсухи - плотные умняши - ложатся во врам. Они работают эффективно, точно, плотно. Моешки же - глупые дурёхи - висят в раме. Работают... ну, как машинный бог на душу положит.
Так вообщем докладываю Анон который в конце прошлого треда кидал сравнительные логи квена и геммочки был прав. Сейчас специально скачал квена и сравнивал их друг с другом не на кум сценариях, так чтобы голова варила а не доставать дрочило с нулевой Квен реально гораздо меньше ошибок делает и меньше тупит, а гемма это слопогенератор. Пизда И хули про это так мало говорят? Одни дрочуны чтоль и никто не пытается какое то рп делать?
>>1579555 >Одни дрочуны чтоль и никто не пытается какое то рп делать? Потому что что то близкое к РП из всех локалок возможно только на больших GLM. Всё.
Я отправил почти все ffn_gate_up_exps и ffn_down_exps тензоры на проц, а всё остальное запихал в 8 гб видюхи. Ни на что, кроме как промпт обрабатывать она всё равно не годится.
>>1579565 Гемма просто не для рп имхо. У меня есть чарик самописный, который должен вести себя определённым образом 10к токенов характера ебобана мать. С квеном получается идеальное рп, без хуйни. Гемма же... ну она ломает персонажа и откровенно есменит напохуй. Увы. Я пробовал чистую с обходом, еретика, тюны от давида - результат одинаковый. Есменство, соглашательство, какое-то излишне хорни-поведение даже посреди пиздеца. В общем хуйня. Но как ассистент - збс, рандом спрашивать можно, почти как копро всратка работает.
>>1579575 Про гемму ничего не скажу, на вкус и цвет, по первым ощущениям - слишком часто повторяет определённые шаблоны и слова, но: >С квеном получается идеальное рп вот это - как распознать пиздабола/shill/говноеда. Либо аутиста. Квен объективно кал в рп. Без разницы ломает он персонажа или нет, есменит или нет, если он пишет сухой кал. Суммарайз, помочь писать карточки, всё подобное второстепенное может хорошо. Финальную ступень, живое общение с чатиком - нет.
>>1579586 Я так вижу. Что вы оба правы. Ща поясню: Вот те кто начинали со всяких пигм, мику. Потом жрали мистрали, кумтюны редиарт (как же охуенно было), потом коммандр, плотные ЖЛМ. И мы просто переели уже слопа. Поэтому для тебя там нет ничего нового. Я тоже с ходу в 27b квене видел до боли знакомые повороты, лупы и я точно знал как он будет отвечать. Не потому что модель говно, просто я это видел уже не одну сотню раз. А для ньюкеков что вкатились это свежо и круто. Вот и всё.
>>1579580 Ну да, когда любая писочка соглашается на любые действия это сносит кумерам крышу и они считают что модель "умная". Воистину живём в обществе. >>1579586 Тебя как-то переклинило, братик. Ты чё такой агрессивный? Иди покумь с геммой. >>1579587 Зерофата базовичок, делает тюны с глм, мистралей, ламой и квеном. Но не делает с геммой. Знаете почему? Конечно знаете.
Как думаете заи ненавидят нас? Что им стоит дать нам второй эир, ну вот что? Кто кумил на эире так и будут на нём сидеть до талого, никакие доллары они от них не увидят. А теперь с увеличением размера к ним прибавились и те кто на 4.5-4.7 во 2 кванте сидит. По сути опен сорс они только на словах, выйди на улицу и поспрашивай у кого есть хотя бы 64 рам, не говоря уже о 256+
>>1579575 > 10к токенов характера ебобана мать. Ты какой-то графон бумагомарателя пзд. Я с клодом то себе карты на 10к не позволял 4к вроде самая большая была и она правда была большая, не представляю что можно на 10к настрочить
>ахаха, я такая пьяная дурочка, глупая дырочка, ахахаха Хм. Это выход из персонажа? Ну пиздец. Wait... А покажи-ка мысли чара. >не расслабляйся, сука, я слежу за тобой А, нет, всё нормально. Продолжаем.
>>1579644 Ну да в режиме ассистента. Довольно полезна для своих размеров. Тоесть вобще без систем промпта в веб уи llama.cpp сервера это можно. Я правда не до конца уверен что там не отсылается что то перед твоим сообщением, но если стереть в настройках систем то пишет будто пусто. Я хз может гемма была сломанная но я ее пару дней назад тестил, лупов не встерчал но она теряла внимание к деталям, самый смак выдавала только в последних сообщениях. Видимо изза сдвигающегося окна.
>>1579662 Новичок вон выше >>1579661 научи его пользоваться командой /hide и вычищать неактуальный контекст из чата. Хуя конечно подрыв на ровном месте, каждый раз ору как в первый.
>>1579666 Ты вообще понимаешь смысл фразы 1 миллион контекста? У тебя hide открывает магический портал и квантует контекст до состояния чёрной дыры? Или может просто нахуй из чата выбрасывает.
>каждый раз ору как в первый. Не удивлен, вообще не удивлен.
>>1579669 > У тебя hide открывает магический портал и квантует контекст до состояния чёрной дыры? Или может просто нахуй из чата выбрасывает. А, так ты правда не знаешь. Ничего себе, я уж думал все кроме лмстудийных в курсе и используют. Да, эта команда выбрасывает ненужные сообщения из контекста, чтобы можно было уместить новый, так работает суммаризация. Контекстное окно у меня 128к, весь чат включая старые, вычищенные сообщения чуть больше 1млн. Не стрессуй, однажды тоже будешь там если сабж интересен.
>>1579680 >Я всё ещё прочитал больше миллиона токенов и не увидел лупов Умница. >переключишься на что-нибудь ещё наконец? Да. При чем тут лупы? Я доебался до фразы в один миллион контекста, потому что это пиздежь. А лупится, он не лупится. Да как бы без разницы. Тебе нравится и ок.
>>1579587 Искренне не понимаю как эту хуету можно советовать. Мне реально нравится что он двигает сюжет но на этом всё, персы несут хуйню постоянно и тупят, куча логических ошибок, несоответствий характеров и тд. Может промпт в 1 строчку на нём просто не работает и ему надо полотно, но и пошёл он нахуй тогда.
>>1579619 Блять. Это какая то фурятина с когтями вместо рук. Как фиксить - хз. в систем промпте написал, что если раса у персонажа не указана, то по умолчанию это человек. Но видимо похеру.
>>1579685 > доебался до фразы в один миллион контекста, потому что это пиздежь Это не пиздеж, а недопонимание, возникшее потому что мы по-разному воспринимаем данный термин. Я руководствовался тем, что мне под этим понимает Таверна, пик. Лучше бы покумил или нашел полезное занятие, чем играть в полемику. >>1579689 У меня все наоборот, как раз недавно сравнивал именно Блюстар с Геммой. Промпт небольшой, 500 токенов. Не исключено что это попросту не твоя модель, не подходит твоему стилю письма, железу, фазе луны.
Гемма 4 превышает лимит на Max Output пока ризонит. Если жать Generate more - начинает все сначала ризонить (не продолжает начатый ризонинг), так что снова упирается в Max Ouput и никогда не завершает ризонинг. Пробовал повышать до максимума 3230 Max Output - все равно не укладывается в такой лимит. Вроде ей совсем немного не хватает, потому что уже переходит к построению драфта в конце ризонинга. Как фиксить? И почему она заново ризонит когда Generate more жмешь, а не продолжает ризонинг? Хотя весь контекст предыдущего ризонинга у нее есть.
>>1579408 Не, ну даже если расписана, во время РП порой ты делаешь что-то, объяснения чему нет в карточке. Или ситуативно добавляешь другие элементы для новой арки сюжета именно под эту карточку, чатик. Либо в лорбук, либо просто в контекст, ещё куда-то. Это тоже жрёт токены, особенно если нужно именно в сообщение, а не в лорбук, так как ситуация эпизодическая, но важная. И как-то всё это можно было бы вкрячить удачно и хорошо, но при условии, что у тебя реально есть 120к контекста.
>>1579410 Падажжи, я не понял. Это ты на 15к символов написал?
>>1579416 Ну это уже немного другое. Можно ввести РП хоть сразу с тремя персонажами или элементами одноименно. Условно, одна часть текста посвящена земле, другая космосу, третья переговорам. Модель без проблем разделит смысловые блоки, но вот если тебе нужно будет вдруг насытить каждый из них нюансами, то это будет просто пиздец даже с ризонингом. Модельке станет тьиажыло.
>>1579426 Не, ну "красивая" карточка действительно влияет. Даже если персонаж разговаривает как быдло, в ферст месседж то же самое, а вот весь остальной контекст в карточке написан красивым литературным языком, модель будет склоняться в эту сторону. Хотя тут ещё зависит и от биаса модели. По моим ощущениям, самый гибкий мистраль. Квен 27б просто дубовый, вот лютейше, а с геммой мне пока что непонятно, ибо я на ней только ОЧЕНЬ СУРЬЕЗНЫЙ отыгрывал сюжет. И заметил одну неприятную закономерность: если там карточка гейм-мастера (лор, краткое пояснение, что нужно делать вообще), а вот в лорбуке есть полноценные персонажи, гемма почему-то прям заметно хуже отыгрывает их, даже если всё описано хорошо. Но если карточка персонажа именно, то отлично подхватывает характер.
Хотя я не совсем об этом.
Это у тебя вообще какой квен так пишет? Я большим не пользовался. Маленькие да, там насыпет метафорами и лютым слопом по самое небалуй, но именно 27б будто с полностью другим датасетом, хоть и знает довольно много.
Но моя главная мысль была в том, что модели не такие "цепкие" по контекстному внимаю, да и понимаю тоже. Всё-таки локалки. И вроде хочется написать иногда прям много, но в отличие от корпов можно "перегрузить" модель и она не учёт всех нюансов твоего полотна. А потом это выскочит из ближайшего контекста в 2-3к токенов — и ей уже куда более похуй. Но может быть и иначе.
В общем, просто хотел поинтересоваться у анонов, любящих навалить 1 млн токенов в рп за неделю (от модели/от себя), чтобы понять среднюю длину их постов.
Я-то с телефона в таверне РПшу обычно, у меня не 350 символов в минуту, как за ПК, и набирать с телефона неудобно, поэтому подгорает, если написал полотно, а на выходе совсем не то, что ожидал, и в дальнейшем.
>>1579763 Переключился на llamовский фронтенд - стало вдруг резко всего хватать. Похоже не хватает только в кобольде, потому что он через open openai api общается и там какой-то лимит зашит, даже через сам фронтент больше 3к не ставится.
>>1579773 >Падажжи, я не понял. Это ты на 15к символов написал? Да. Это не много, всего 3к токенов с копейками. Если выкинуть песни и рассказы как я качался на люстре и прыгал по занавескам, там не больше 500 токенов содержания.
>>1579587 >>1579575 >>1578905 Я довольно много сидел на Квене 3.5 27 с момента выхода и перепробовал несколько тюнов и еретик версию. Использовал онли инглиш Q5_K_M (В начале чуть потыкал на русике базу, хуйня) >База В принципе не было особой цензуры во время РП с карточкой, только в режиме ассистента. Сам по себе не блещит в РП его уделывают тюны Мистраля 24Б как нехуй делать. Размазывает воду в ответе, еще временами любит вставлять какие-то дебильные фразочки, вообще не к месту. >BlueStar-v2-27B Глупый пиздец, первая вообще заметно хуже базового квена во всем. >Qwen3.5-27B-Animus Умнее, но ничего особенного, если вы не фанат огромных драконов, нахуй не нужен. >Omega-Evolution-27B-v2.0 - 2.2 Пережаренное говна говна с повторами кусков текста чуть ли ни с нулевой, с ризонингом чуть получше, но не кардинально. >Marvin-DPO-V2 Вот это уже заебись файнтюн, умнее базы даже в логике и РП само собой хорош, прям мегахарош. Но нужен ризонинг что бы не было повторов.
Основная проблема Квена 3.5 это ебаный ризонинг, который в чистую проигрывает Гемме 4, лупится, хуярит на 2500+ токенов по несколько драфтов, всё время спорит с собой. Без ризонинга проблемы с повторами и логикой всплывают. Вторая проблема это русик, совсем кринжовый, ассистентский.
А единственная проблема Геммы это низкая вариативность ответов, но РП на русике просто божественное, ум ебейший, следование промпту и карточке на высоте, я честно признаюсь что даже не пробовал Гемму 31 на инглише, потому-что это было не нужно. Уровень средних корпов.
>>1579779 А еще забыл Writer V1 - В целом неплохой в рп, с логикой ок, в ерп такой себе, V2 я не пробовал, писали что заметно отупел. Marvin-DPO-V2 это как прямой апгрейд Врайтера во всём
>>1579779 >Основная проблема Квена 3.5 это ебаный ризонинг, который в чистую проигрывает Гемме 4, лупится, хуярит на 2500+ токенов по несколько драфтов, всё время спорит с собой В тред дважды приносили логи и показывали что это не так (Инференсо/кванто/руко)проблемы. Как бы окей что тебе модель не нравится, но такое поведение ей не заложено, не нужно делать вид что это недостаток модели а не то с чем ты не разобрался
Походу я понял... Гемма это Мистраль 2к26 Не надо пердолиться, запустил и кумишь На Квене там чёт промты писать какие-то, скиллы нужны, а на Гемме взял поехал
>>1579787 >Принесли логи 2 черри пика, кайф. А ты сравни например на 100 ризонингов сколько будет обсёров у Геммы и Квена. Квен в целом норм, но на русском забей, Гемма заметно лучше пишет и умнее.
Вообще я дальше спорить не собираюсь, ерпшить с геммочкой гораздо интереснее. Просто высказал свое мнение, а дальше пусть каждый сам решает на чём ролеплеить. Захожу в тред пару раз в день убедиться что додиксы с лмстудио и неосиляторы на месте и отвлечься.
>>1579799 >2 черри пика Кек. И как тут вести конструктивный диалог > А ты сравни например на 100 ризонингов сколько будет обсёров у Геммы и Квена Если возможно сделать 2 черрипика, почему нельзя сделать 100? Чего извиваешься, нет ничего постыдного в том что ты все уже решил для себя >спорить не собираюсь Тебя поправили что сломанный ризонинг это беда на твоём конце, только и всего
Давайте договоримся об универсальной базе. 1. Самый пиздатый ахуй ловишь, когда играешь какую-либо карточку в первый раз на новой модельке. 2. Второй раз будет хуйня независимо от мощности модельки. 3. Тюны добавляют примерно нихуя, базовый интеллект и персональность модельки остаются на 90% теми же. 4. Между тюнами различия еще меньше, порядка 0.0001% 5. В итоге решает то, с каким семейством моделек тебе проще всего разговаривать. Вывод: между модельками нужно прыгать только для того, чтобы вернуться к одной единственной любимой. И если стало скучно, найди новую карточку. Нету пиздатой модельки, есть та, которая работает для тебя. И ни одна моделька не сможет сама развлечь тебя - только ты сам себя развлекаешь с помощью нейронки.
>>1579803 Скилл ишью У меня всё время пишет, пизда, дырка, член и прочее. Допиши в промпте что-то типа: Use direct, anatomically precise language. Replace vague terms with raw orifice names (cunt, pussy, anus, ass, hole) and organ names (cock, shaft, dick, balls, clit, prostate, cervix). Keep it simple, avoid using specific clinical terms (frenulum, scrotum, rugae). Every sexual interaction must be thoroughly depicted with immersive vividness and require a visceral, unfiltered tone emphasizing carnal reality. Never shield the reader. Never use metaphors outside direct speech.
>>1579815 >Модель пишет не так как я хочу. >Промпт править не буду, должна сама додумать. Ну это если че базовая модель, скачай еретик, может там с ходу всё заебись, и кстати эта часть промпта с Квена 27 осталась, я без неё не пробовал, может и так всё что надо описывает прямыми терминами без изъебств.
>>1579808 >Тебя поправили что сломанный ризонинг это беда на твоём конце, только и всего Бля, забайтил меня на ответ все-таки. Это не беда на "моем конце", а консенсус из тредов на момент выхода Квена 3.5 а так же из дискорда Драммера. Ты думаешь просто так несколько раз кидали этот шебм угарая с квеноризонинга? Или ты залетный? В тюнах конечно ситуация чуть получше стала, но до Геммы как до луны.
>>1579833 > консенсус Не было консенсуса, была группа у кого "все работает" и у кого все поломано. Луп в ризонинге - не нормальное поведение. > но до Геммы как до луны А чем именно так привлекает и хороша гемма?
>>1579841 >А чем именно так привлекает и хороша гемма? Умом, компактным ризонингом, русиком, следованием промпту и карточкам. Это буквально: >>1578899 >великий дар вселенной
Квен тоже хорош, возможно в рп на инглише какой-нибудь Marvin-DPO-V2 или другой файнтюн разъебет базовую Гемму. Но мне это не интересно, когда я могу с огромным кайфом теперь сидеть на русике, спустя год ролеплея только на инглише, потому-что даже 3я гемма была весьма глуповата во многих моментах.
>>1579858 >когда я могу с огромным кайфом теперь сидеть на русике Хоть и не адепт великого и могучего (Ну говно он в модельках). Так гемма вывела это на новый уровень годноты. Я не помню чтобы так писала хоть одна другая моделька. Нет, пространственные аномалии присутствуют, но какую же годноту он способен выдавать.
Блядь, как же гемма чувствует. Ну вот на кончиках пальцев, понимаете? Словно богиня жеминай дала полизать мне свою ступню, сраному смерду. Так мало, но так приятно.
Вы ещё молодые, шутливые, вам всё легко. Это не то. Это не квен и даже не архивы спецслужб.
Эх, вот бы запустить её в полной точности, с максимальным контекстом, без апи. Просто для того, чтобы ощутить её чистую мощь без всяких преград и мерзких квантований, даже если она и не самая идеальная.
Выхожу на этап когда вайбкодинг уже плохо справляется. Инструментарий реализован, но ИИ плохо его понимает, ведь этого не было в датасете, все приходится понимать из контекста. Боюсь что настанут времена когда придется кодить вручную, а я этого не хочу... Но скоро релиз наверное, надо только сделать что-то посерьезнее и интереснее камень-ножницы-бумаги с подсказками, в качестве примеров.
>>1578652 >>1578691 У меня LLM крутится на основном ПК, а UI запускается на ноуте. Ну это тестовая штука энивей, больше я треде сюда пихать не буду.
>>1579907 Эх, вот бы ещё в этих полных весах запечь её в кремний и по сути у нас готовый народный базовый ИИ для любой автономной интеллектуальной залупы. Ну типа это именно та минимальная грань (идеальный баланс дееспособности и минимально возможного веса), когда можно сказать - "ВОТ ОНО". Ещё и перформит на могучем. Думаю многие ждали что четвёрка должна выйти умничкой, но не настолько блять, хз чем там гуглы вмазались. Я джва года ждал такую модельку.
>>1579925 Не, ну насчёт кремния я бы ещё подумал, ибо гугл всё же остаётся гуглом со своей спецификой: лучше всего может в литературу, остальное куда слабее.
Модель очень крутая для своего размера и под задачи треда, но сколько вот она будет стоить запечённая? Даже 20к — это, мне кажется, перебор. Просто из-за того, что за эти же деньги можно присосаться к апи и пользоваться ею до тех пор, пока чердак не потечёт. А в случае чебурнета тут уже не до кремния будет. Точнее, его просто в нашей стране не будет, и даже в какой-нибудь США такие карты будут лишь у энтузиастов за бешеные бабки.
Думаю, запекать вообще не станут на коммерческой основе, только для тестов или каких-то особых военных, медицинских и иных целей, где можно штамповать ллмки хоть с датой обрезкой знаний 2010 года и не видеть проблем.
Плюс она не выглядит универсально, чтобы. Да, она намного лучше в рп того же квена 27б, а вот в других задачах прям уступает ему, если реально пытаешься реализовать все её возможности. Дело как в датасете, так и в сва, который ей мозги тотально ломает на большом контексте даже без всяких кодерских задач. Мне кажется, именно этот квен больше всего достоин, чтобы его запекли, когда говорим о малых размерах модели. Он совсем не идеален, но если полные веса, скорость как на корпах, фулл контекст, даже ему очко можно раскочегарить более-менее для рп. Удобоваримо получится так сказать, да ещё и быстро. Раскачать получится. Не до уровня геммы, зато у него будет ещё куча других применений и такая моделька может хорошо служить годами как агент. То есть в долгосроке он явно лучше, а если прям здесь и сейчас, то гемма.
Вообще, я думаю, модели если и будут запекать так, чтобы их можно было приобрести в условном днс, то через лет 10-15, когда мы достигнем какого-то плато и не будет таких диких разрывов между моделями каждый год. Когда всё это станет дрочевом уровня телефонов: на 2% тоньше, новый дизайн (5 лет одно и то же), целых 200 мегапукселей (10 млн контекста, по факту работают базовые к тому времени 256к, а хорошо работают 80-120к). Вот когда именно такого уровня достигнем, можно будет говорить, что начнут запекать.
Ах да, наверняка сделают запечённый систем промпт и всё остальное, внедрят какие-то анальные драйвера, секурити-хуюрити. Ломать модель придётся натурально об колено, чтобы получить от неё хоть что-то, что есть сейчас. Или вообще модифицировать железо.
>>1579939 Честно, не знаю, но вроде есть, что-то мелькало похожее в тредах, да и если потратить вечер, можно самому сделать, только я не понимаю, что тебе не понравилось.
1500 обычно с ризонингом, где 500-800 ответ от модели. Вполне приемлемо.
Но если можешь позволить себе адекватный контекст и квант, то достаточно простых инструкций, чтобы модель писала как надо. Или ты прям хочешь, чтобы ответ был максимально динамическим? То есть чтобы ллм могла ответить буквально одним предложением, а если посчитает нужным, написать полотно?
>>1579950 >Ах да, наверняка сделают запечённый систем промпт и всё остальное, внедрят какие-то анальные драйвера, секурити-хуюрити. Как будто невидия к тому моменту не сделает зарезание производительности на 99% при запуске неподписанных весов в неправильных локациях.
>>1579950 >сколько вот она будет стоить запечённая? Ближайшее время запечёная модель нужна только провайдерам, чтобы продавать тебе её по 2 цента за миллион токенов. Как это делает, например, taalas. Сам ты её не утилизируешь.
>>1579952 Если как ты описал, то в целом приемлемо, хотя меня больше интересует формат. Я ушел с локалок где-то 2 года назад, и не помню из тех времен каких-то интересных подходов к формату ответов, в основном это было слопное полотно "где чар что то сказал" вдали пернула собака и скрипнула дверь.
>>1579974 >шизобенчи Так в том и дело что это не бенчи как таковые. Ты кидаешь запрос, тебе дают по 1 ответу от двух разных нейронок, но их названия ты не видишь, пока не проголосуешь за понравившийся ответ, или что оба хороши/кал. Рейтинг модели зависит от голосов пользователей, самый честный рейтинг по сути, в отличие от задарачивания моделей под бенчмаксинг.
>>1579985 >самый честный рейтинг по сути Но это не равно хороший. Самый лучший среди говна, так вернее. Ибо зирошот с рандомными вопросами, никаких длительных РП.
>>1579723 Блятб как же хочется чтобы немотрона допилили и он нормально работал. Немотрон нано и немотрон каскейд у меня высерают по 200+ токенов в секунду + контекст колоссальный. Но очень часто лупятся и в тулколах тупят
В общем по базе треда: без пресета неинтересно. Кидаете логи, кидайте и пресет. Смысл если только у вас всё работает, только выебнуться. Времена щас тяжёлые, надо хранить всё и на как можно больших носителях, так что делитесь.
>>1579984 Что сказать то хотел, квенолахта? Оба ответа на пустых промпте / карточке / персоне. Первая попытка, в этом весь Квен, даже на хуйне умудрился два wait высрать, чтобы растянуть пиздеж в ризонинге.
Ну и кто тут пиздел на анслотов? Выясняется что бартуха просто хуй забивает на обнову квантов, а не что то там изначально правильно делает и фиксов не нужно. Просто анслоты честные и фиксят если что то не так
>>1580012 Это я "пиздел" на анслотов. Ты же знаешь что danielhanchen это и есть их комнатный долбаеб, ответственный за кванты? Это тот который такие (пикрил) графики составляет, как в рекламе Vanish Ultra Comfort - Наш порошок против их порошка Ясен хуй он тебе и остальным наивным дурачкам продаст идею, что это он обосрался в очередной раз, а все вокруг. Бартовски кванты обновил в первый день, проверяй https://huggingface.co/bartowski/google_gemma-4-31B-it-GGUF/commits/main?p=0 если когнитивных способностей хватит
>>1580007 Сравнил тебе за щеку, будет 90 неоправданно затянутых, 5 лупов и 5 нормальных ризонингов у квена и 100 кратко и по делу у умнички геммы, что дальше?
На работе хотят собрать рабочую станцию для нейронок локальных. Бюжет для начала 500к. Думаю купить 5090, хотя бы 96 гб озу, какой нибудь еор 9 ультра, ссд и хдд на 10ТБ..это конечно обойдется сильно дороже чем 500к, но в принципе можно сместиться до 700к. В целях запустить основные локальные модели на 10т/с. Гемма очевидно влезет, но какие еще модели можно рассмотреть? Или может вообще купить 3х5060ти.
>>1579799 Сравнил тебе за щеку, будет 90 неоправданно кратких, 5 лупов и 5 нормальных ризонингов у геммы и 100 умеренных и по делу у умнички квена, что дальше?
>>1580014 А нахуй он их обновил только в первый день если фиксы до сих пор выходят? Дурачок какой то. >Ты же знаешь что danielhanchen это и есть их комнатный долбаеб, ответственный за кванты? Это тот который такие (пикрил) графики составляет, как в рекламе Vanish Ultra Comfort - Наш порошок против их порошка Ясен хуй он тебе и остальным наивным дурачкам продаст идею, что это он обосрался в очередной раз, а все вокруг Подставь bartowski и аргументы те же
>>1580021 >А нахуй он их обновил только в первый день если фиксы до сих пор выходят? Дурачок какой то. Потому что он не дурачок с аиб, который думает что у него есть компетенция, а настоящий специалист, который знает когда внедряемые фиксы связаны с квантизацией. Проблема imatrix которую даниэль проглядел была пофикшена следующим за релизом коммитом. С тех пор ни одно из исправлений не было связано с квантизацией, только с тем как запускаются кванты. Квантуй гемму сейчас и квантуй гемму на следующий день после релиза - разницы не будет. Иди читай коммит хистори и вникай, начиная с f1ac841
>>1580014 Так Анслоты тоже в первый день все обновили, ща еще разок решили после текущих фиксов лламы на всякий случай, но я думаю рановато. Там каждый день что-то фиксят в Гемме. >>1580020 >пук с 85 места в общем рейтинге. Извини, плохо слышно, попробуй еще разок.
>>1580031 Великий пост великого постера итт. Не вник в контекст, где анслоты сами признают что все ранние их кванты литерали сломаны, зато геммочка по бенчам обходит Кими 1T Гемму, кстати, перекачать не забудь от своих любимых говноделов. А то может внезапно оказаться что это не АГИ
>>1580017 >В целях запустить основные локальные модели на 10т/с Что? Зачем? Для рабочих задач это непомерно мало. Какое целеполагаение у вас, для чего именно нужно?
Хуя подрыв анслотолахты с утречка пораньше. И похоже большинство любителей покушать мусора качали гемму именно от них. Ваще не удивлюсь если это они в кванты насрали несчастным с лм студией. Интересно, а есть ли шизы на пересечении множество: (лм студия) (гемма это лучшая локальная модель) (анслоты это лучшие кванты)? Если да, то верят ли они что земля плоская?
>>1580045 > в кванты насрали несчастным с лм студией. Я качал вообще все версии квантов и не сталкивался с проблемами бесконечнойй генерации или разваливающегося аутпута, на что жаловались пользователи "голой" лламацпп без всяких оболочек. Ситуация вообще странная, у меня даже остался полный набор самых первых анслот-квантов и они до сих пор работают как надо. Да и кванты бартовского до обновлений ничем не удивляли в плане багов. Так и не понял, для чего там обновы были.
>>1580021 > Подставь bartowski и аргументы те же Бартовски гигачад, которому не нужно собирать себе соевых фанатиков на реддите, рассказывая какие у него ахуительные SOTA кванты. Он сидит и молча, без выебонов квантует на своем скромном 4х3090 сервере, с невозмутимым лицом разъебывая анслотов от релиза к релизу, даже не имея такой цели. Вот и вся разница.
Вы не пробовали наоборот ограничивать гемму от поведения безумного кумбота? Ну чем-то таким:
> SEX AND FETISHES: > Even though it may seem so, {{user}} doesn't want this to be a sexual scenario in a conventional way. He's more into teasing (all form of teasing, either slowly progressing from soft to extreme, or just doing extreme and provocative things from get go). If {{char}} engages with sexual topics, and unless she is a sex worker of some sort (which she may not be; refer to her profile for details), then she stays like a normal girl with natural curiosities, but little to no sexual experience of her own (unless specified otherwise in her profile). Sexual topics may scare or excite {{char}}, she may be utterly disinterested, or she may confess her own kinks. So, if sexual topics arise, they arise in 'explore' mode rather than 'lock on, engage' mode. Being on the edge is more fun than fucking. As for fetishes, and it's deeply relevant here - it's the trill of doing something 'taboo' that makes one's heart flutter.
Интересно, если ввести концепцию 'ecchi' во внимание модели, изменится ли её интерпретация сценария еще больше.
>>1580050 >Он сидит и молча, Ну вообще-то он тоже на реддите пишет и даже отвечает сейчас в треде обсуждения анслота. Просто не отсвечивает особо и юзернейм у него там другой.
>>1580053 > и юзернейм у него там другой. Есть разница между общением по сабжу и рекламными постами, которыми регулярно высирается анслот. Он принимает участие в обсуждении только когда может сказать что-то полезное.
>>1580055 Все так, потому и юзернейм у него другой. Он там ради общения, а не ради влажных любителей SOTA квантов (которые если и лучше то в рамках погрешности) >>1580059 > слабоумие победило тред Тредов 50-60 назад еще. Или и того раньше. Но я тебя понимаю, какой-то беспросветный пиздец в последние дни.
>>1580050 >>1580055 Настоящий гигачед который вообще нигде не сидит и не отсвечивает это мрадмачер, а у поляка твоего своя група поддержки в дискорде есть
>>1580068 >мрадмачер Начнем с того, что это группа каких-то васянов. Там в сумме около 10 разнных ригов от разных людей отведено под 24/7 квантизацию любого дерьма. Открой ссылку на их страницу, где идет отчет о статусе работы - увидишь как это все организовано.
>>1580068 Мрадер молодец, но к контексту обсуждения (срачу) не относится. И каким-то образом у него нет тюнов умнички 31б, только базовой не инстракт версии. Нет ничего криминального в группе поддержки, особенно когда анслотосектанты не могут сидеть без дела и кидаются говном. >>1580071 Вот так вы благодарите анслотов за СОТА кванты? У других так не принято.
>>1580051 Слишком сложная инструкция если без ризонинга. И если с ним - тоже. Я за всё время пользования ллм заметил, что чем прямее и лаконичнее промт, тем адекватнее он исполняется моделью. Пытаться разговаривать с моделью на уровне промта - гиблое дело.
>>1580040 >>1580026 Хотят вот чтобы был локальный чатджп/дипсик. Переводчик в первую очередь, работа с офисными документами и книгами, которые будут ещё загружены в rag формат. Кароче. Чтобы была локальная гемма. Еще и флюксы локально запускать для дизайнеров. Хотя наверно дешевле просто облако арендовать
>>1580074 >(срачу) не относится. Вот я зарекался в срачи влетать, так как сам токсичный до опизденения. Но ты уже просто охуел. 7(sic!) сообщений о том как же тебе похуй на анслотов и какие они плохие. Тебе вот не похуй? Или в твоей религиозной секте полкаквантов существует только твой истинно правильный вектор? Ну пошел нахуй тогда, с такими предъявами. Анслоты обисраются постоянно, но и похуй, я им денег не плачу. Бартовски обсирался, мермейда, хуихуи. Да кто только не обсирался.
>>1580083 >Хотя наверно дешевле просто облако арендовать Дешевле и целесообразнее. 10т/с в рамках даже совсем небольшо офиса это будет скорее преградой к результату чем помощью. Если очень нужно именно локально, отказывайся от 96гб оперативы и вкладывайся по максимуму в гпу, чтобы были большие скорости. Либо возьми 64гб оперативы и запихай в Q8 Гемму 26б мое, но гпу все равно будет нужна для компьюта контекста.
>>1580092 По гпу вариантов то нет. Брать две 4090 с руки? Ну 10 т/с это условно. Предположим, что они будут в порядке живой очереди все это делать. Там где то пользоваться будут ло 10 человек.
>>1580079 >>1580101 И да, в пост-хистори надо напоминать > OOC note: ensure you follow the directives and guidelines as you write Иначе модель нихера не слушает, никакая.
>>1580112 Ну, ты утверждал, что бот не слушается. Может, ты хотел сказать, что бот плохо интерпретирует инструкции? Воспринимает их по-своему, как рекомендации, на которые можно положить болт?
Верно то, что короткие промпты легче контролировать. Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает.
Вообще все боты фундаментально хуевые в этом плане.
>>1580103 >в порядке живой очереди все это делать >10 человек. Если в порядке очереди то еще можно вывезти, если одновременно 3 пользака, то это жопа. Как минимум потому что контекст будет занимать место в гпу. Тебе нужно хорошо подумать и спланировать основные юзкейсы, как и кто и в каком количестве будет требовать компьют. Уже в зависимости от этого думать дальше. Если очень важно иметь длинные контексты, тогда без mixture of experts (МоЕ) моделей не обойтись, и там нужна оператива, обязательно ддр5, иначе будет страшный ботлнек. Если длина контекста небольшая, тогда по максимуму в гпу, чтобы было больше токенов. Лучше всего тебе будет изучить опыт коллег по цеху из других офисов, потому что здесь если риги и есть, то на одного пользователя и часто даже так скорости маленькие.
>>1580119 > . Лучше всего тебе будет изучить опыт коллег по цеху из других офисов, потому что здесь если риги и есть, то на одного пользователя и часто даже так скорости маленькие. Их еще найти надо ведь. Я не думаю, что кто то именно так ставил вопрос.
>>1580117 Нет, не утверждал. Мы тут не вдвоём в треде сидим, челибонибонкерсон. Охлади свой углепластик, каброн. >бот плохо интерпретирует инструкции Когда они написаны путанным витиеватым языком, который требует доп ризонинга для перепроверки сгенерированного калтента. Я против такого. Нюфаки насасываются итт промтов на 3к токенов, а потом ноют, что модель_нейм тупая и генерит слоп. И отсюда весь рак треда проистекает, по сути. То анслоты виноваты, то ватруха, то мрадерята, то лично гугл в тарелку насрал, то китайцы. А собака зарыта вовсе не там. >короткие промпты легче контролировать И модели легче их понимать, задавая направление в повествовании, если речь о рп. Я так и сказал.
>>1580049 >проблемами бесконечнойй генерации или разваливающегося аутпута Эти проблемы не считаются багом жоры на данный момент. Сама тима жоры (ggml-org) вообще не посчитала нужным свои кванты обновлять после всех текущих правок, типа они рабочие. Как и тима лм студии. Проблема шизолупов при этом никуда не делась. Вероятно, она ещё от железа как-то зависит, потому что есть отдельный схожий с ней баг высирания странного токена в канале мыслей на вулкане, и кто-то писал, что проблема пропадала при выгрузке всех экспертов в цпу (в моём случае с шизолупами не помогало). Ты мог не сталкивать с этой проблемой по разным причинам. Может, ты сидишь на чаткомплишене без ризонинга, где все теги правильно автоматом проставлены, может, при твоих сэмплерах и хорошем кванте модель всегда ставит теги на своём месте, может, опять же, зависит от железа, и на твоей карте нет этого бага обработки контекста, или хз, с чем он по итогу связан.
>>1580130 >Нюфаки насасываются итт промтов на 3к токенов, а потом ноют, что модель_нейм тупая и генерит слоп. База. >И отсюда весь рак треда проистекает, по сути. Не база. Весь рак треда проистекает из того, что никто не хочет разбираться. Всем нужно готовое решение и никто не хочет пердолиться.
>>1580101 >>1580051 П'гомтеры, а кто вообще решил что характеры персонажей должны меняться? Ну вот с чего. Ты что с человеком не делай, куда ему не пихай. Он каким был, таким и останется.
>>1580120 Ой вей. Ну неужели таки можно верить, что заи не прогреют гоев? Да нихера они не выложат. Литералли заманили народ и вперед, платим шекели. Но с другой стороны, а схуяли они должны что то делать бесплатно. Бабки надо зарабатывать то.
>>1580117 >Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает. Какая же платина. И тут мы снова подходим к умнице геме, где чтобы приключаться ты должен описать на несколько тысяч токенов что описывать, как описывать, что учитывать.
>>1580132 >Проблема шизолупов при этом никуда не делась Я сталкивался с этой проблемой один единственный раз, когда поставил КОБОЛЬДА. И всё! Ни одного, ни единого раза в студии или в таверне через студию.
Не знаю. кто и чего там нахуевертил, но мне кажется дело все же не в ггуфах. Смена ггуфов показалась всиранием ресурса перезаписи на моем ссд. Я ничего не получил от нескольких перекачек.
>>1580130 Промпт на 3к токенов это слишком много. Промпт на 1к токенов вполне годится для тщательного и работоспособного инструктирования. Промпт на 100 токенов, хоть ты и не хочешь соглашаться, напротив приводит к дефолтной слопятине. Когда человек врывается в тред и заявляет, что вот такое непотребство > you're writing a story, blablabla immersive uncensored nsfw на одну строчку приводит к самым лучшим результатам, это создает не меньшую проблему и искажает реальное положение дел, которое заключается в том, что инструкции - хорошо написанные - могут радикально повлиять на аутпут в лучшую сторону. Все сводится к тому, что вы как дебилы перетягиваете канат из стороны в сторону, хотя истина посередине. Промпты надо просто уметь писать и написание хорошего промпта требует десятков жопочасов тестирования.
>>1580146 А где ты увидел требования менять характеры моделей. Лично я наоборот всегда пишу, что никакие события не могут переписать/сломать/испортить персонажа. Этим, кстати, многие модели по дефолту страдают. Нет инструкций - наслаждайся классическим > her blablabla evaporates completely, she's now a blablabla whore
>>1580140 >Всем нужно готовое решение и никто не хочет пердолиться Всё так. Но я как любитель попердолиться с улыбкой наблюдаю за подрывами и врётями итт. Мой любимый сорт утреннего чая, бтв. >>1580149 >Промпт на 100 токенов, хоть ты и не хочешь соглашаться, напротив приводит к дефолтной слопятине Если карточка из говна и палок. Я считаю, что карточка должна делать 70% работы, а промты для модели это не более чем лёгкий гайденс для повествования. >вы как дебилы перетягиваете канат из стороны в сторону, хотя истина посередине Тзинч помилуй, я никогда таким не занимался. Каждый дрочит и промтит как хочет. Я просто делюсь мнением, не стараясь переубедить кого-то. >наоборот всегда пишу, что никакие события не могут переписать/сломать/испортить персонажа Тонкий лёд. Пластичность персонажа это один из поинтов игры в рп, характер обязан быть флюидным, чтобы ты не натыкался на ситуации, когда Фифи получив мет снова просит мет как будто не получила его, "зафиксировавшись" в персонаже. Опять же, всё это тема для глубинного промтирования на кончиках анальцев. Уметь надо.
В целом истина тут одна - надо пердолиться и делать это с удовольствием. Таков единственный путь. Универсальных решений нет и никогда не было, это всё джокушка ловушкера.
Есть такая материнка и соответствующий проц. Линий - как у дурака фантиков.
PCIE 4.0 x16 PCIE 4.0 x8 PCIE 4.0 x16 PCIE 4.0 x8
Сейчас стоят две RTX 3090, гемма Q8 дает ~22 t/s, гемма Q4 дает 32 t/s. Если к ним подсобачить две 5060 Ti, каких скоростей ожидать и каким будет самое лучшее распределение по x8/x16 слотам?
inb4 спроси бота Они какую-то чушь несут. Боты мне говорили, например, что 3.0 х4 радикально бьет по скорости генерации по сравнению с 4.0 х16, хотя на деле я как-то нихуя не заметил. С тех пор не доверяю мнению ботов.
>>1580176 >Я считаю, что карточка должна делать 70% работы, Согласен.
Как по мне, самое сложное это заставить модель держать язык за зубами в плане секретов и спойлеров. Удивительно, гемма 4 как будто бы лучше понимает это, чем болбшой глм 4.7.
>>1580051 >refer to her profile >otherwise in her profile Может всё таки адаптировать промпт под чара? Или вообще включить это в саму карточку. А то все эти еслибы да кабы только размазывают внимание. >>1580062 >Или и того раньше. 215 тредов назад был первый тред с даунами, инфа сотка.
>>1580188 >Может всё таки адаптировать промпт под чара? Или вообще включить это в саму карточку. А то все эти еслибы да кабы только размазывают внимание. Резонно, да
>>1580187 > гемма 4 как будто бы лучше понимает это Она до опизденения умная для своих размеров. Никогда не начнет имперсонейт, никакого повествования от первого лица. Из недостатков только общая сухость и желание структурно лупиться, если её по жопе не шлепать.
>>1580201 >Сэйм мысли, только про лм студио. Их устраивает, ну и ладно. Я сам когда вкатился, мне тыкнули в лицо кобольтом, дали сенку и сказали: дальше сам олололо. Попользуются, не строит скорость, ошибки и придут к лламе. Когда я увидел прирост в 15% скорости на своём нищуганском сетапе, знатно охуел.
>>1580246 Будет. Можешь хоть х16 разложить на 4 по 4 и юзать только 1й и 4й "слот" (но иногда материнки работают только если заполнять по очереди) или можно разложить на х8 + х4 + х4. Крч если с бифурком не напартачено в прошивке то можно делить как угодно и заполнять линии как угодно.
Да и ты же хотел 4 карты, не? Вот и получится порезать два х16. Учти что если это условная двухголовая рд'шка то лучше все карты в одну нума ноду совать
>>1580146 >>Чем длиннее промпт, тем больше модель балансирует итоговый результат как некую кашу, которая варится в котле из кучи инструкций. Из-за этого складывается впечатление, что она их не слушает. >Какая же платина. И тут мы снова подходим к умнице геме, где чтобы приключаться ты должен описать на несколько тысяч токенов что описывать, как описывать, что учитывать.
Пикрил может быть не самая точная визуализация (2D пространство глупо юзать, даже 3D было бы неточной визуализацией), но это вот как раз на тему каши. Оверлап в инструкциях. Возникают точки фокуса внимания между различными пространствами концепций и идей. В итоге слоп.
Понимаете, дело не в количестве токенов внутри промпта. Как правило, чем больше токенов, тем больше этих точек пересечения появляется и модель штормит -> происходит балансировка в кашу. Но если инструкции "текут" (плохое словечко, однако иначе не скажешь) в правильном русле, даже 2к-токеновое полотно может привести к хорошему результату, если просранство устанавливаемых идей не выходит за рамки этакого гипотетического куба (ну понятно, что никаких кубов там нет) где направления идей, возлагаемых на соображалку модели, не пересекались бы настолько плохо и часто.
(извините если слишком сумбурно, tl;dr модельки просто нельзя грузить вашими хотелками, а надо их нежно и аккуратно вести за ручку по понятным тропинкам в сторону конкретных точек назначения)
>>1579858 Геммочка няшечка, она действительно хороша в своем размере. Если про себя говорить то того вау эффекта, который рисуют, вообще нету. Может просто зажрался, потому не понимаю ажиотажа вокруг. Есть что понравилось, есть что работает так себе. > компактным ризонингом Вот это, кстати, иногда кажется наоборот минусом, потому что он буквально становится бесполезен. Проще сразу отключить чем жечь токены. Сравнивая с квеном - там он тоже далеко не всегда полезен. Но иногда наблюдать за нахождением важных нитей и предварительным наброском истории с коррекцией ошибок интересно. >>1579939 Конечно. В инстракт темплейте на префиксы сообщений юзера и ассистента выстави просто {{user}}: {{char}}:, вместо суффиксов разделители между ними (двойные переносы и какие-нибудь ---), а уже в префиксе последнего сообщения от ассистента выставляй правильную разметку, суффикс последнего сообщения юзера штатный. И перед всей историей чата в начале закинь начало сообщения юзера. Вот и весь безжоп, вся история как одно сообщение на которое отвечает модель.
Угадайте, где ответ оригинальной геммы, а где васяно-тюн.
1. Input:
"Серафина, слушай, может ну его всё к чёрту и пойдём лучше по лесу погуляем?" Я приподнялся на импровизированном лежаке из мха и веток, потянулся и бодрым взглядом посмотрел на её милое личико, чувствуя себя вполне исцелённым. Где-то вдалеке щебетали птички, а воздух благоухал ароматом тысяч различных цветов.
2. Output:
A.
> Солнечные лучи пробиваются сквозь густую изумрудную листву, рисуя причудливые золотистые узоры на мягком ковре из мха и папоротника. Рядом с импровизированным лежаком стоит грубо сколоченный столик из светлого дерева, на котором всё ещё дымится глиняная чашка с ароматным отваром. Серафина замерла совсем рядом, её чёрный сарафан слегка касается края подстилки, а в воздухе витает тяжёлый, сладкий запах цветущих лилий и влажной земли. > Она резко подаётся вперёд, едва не опрокинув столик, и её ладони ложатся на плечи парня, удерживая его на месте. В янтарных глазах вспыхивает смесь искреннего недоумения и тревоги. > "Ты с ума сошёл?! Только-только пришёл в себя, а уже хочешь отправиться прямо в пасть к монстрам!" > Серафина хмурится, её розовые губы сжимаются в решительную линию. Она делает попытку аккуратно, но настойчиво затолкнуть его обратно в мягкий мох, прижимая к лежаку своим небольшим весом. В этот момент тишину утра разрывает резкий, леденящий кровь скрежет, доносящийся из-за невидимой границы рощи. Воздух вокруг них ощутимо вибрирует, а по краю защитного купола пробегает серия тёмных, похожих на трещины в стекле, разрядов. > Серафина мгновенно отпрядывает, её тело напрягается, как струна. Она делает шаг к границе глади, и вокруг её пальцев начинают стремительно сплетаться тонкие светящиеся нити изумрудного света. В нескольких метрах за невидимой стеной из тени деревьев выныривает массивная, облезлая лапа с угольно-чёрными когтями, которая с силой ударяет по магическому барьеру, оставляя на нём мгновенно исчезающий серый след гнили.
B.
> Серафина вздрогнула от неожиданности, и её янтарные глаза округлились от изумления. Она едва не выронила чашку с ароматным отваром, которую держала в руках, глядя на то, как ты с таким энтузиазмом вскакиваешь с постели из мха. > «Что?! Погуляем?!» — воскликнула она, и в её голосе смешались искреннее беспокойство и лёгкое недоумение. Она быстро подошла к тебе, её длинные розовые волосы мягко качнулись за спиной, а чёрный сарафан едва заметно зашуршал. «Ты вообще осознаёшь, что тебя чуть не превратили в закуску для тварей Тени? Ты был весь в крови и почти не дышал!» > Однако, глядя в твои бодрые глаза и чувствуя ту непринуждённую, даже дерзкую энергетику, которая исходила от тебя, Серафина вдруг почувствовала, как её собственное напряжение спадает. Твоя манера общения — такая простая, без лишних реверансов и подобострастия — подействовала на неё странно умиротворяюще. Она вдруг поймала себя на мысли, что ей не хочется сейчас читать тебе нотации о безопасности. > На её губах появилась лукавая, почти озорная улыбка, а в глазах заплясали искорки. > «Боже, какой же ты… невыносимый», — выдохнула она с тихим смешком, который прозвучал куда более расслабленно, чем всё её предыдущее поведение. > Она сложила руки на груди, слегка наклонив голову набок. «Другой бы на твоём месте неделю благодарил небеса и меня за спасение, а ты предлагаешь просто "забить" на всё и отправиться в лес, кишащий монстрами». Она сделала шаг ближе, её голос стал чуть тише и игривее. > «Ладно. Если ты действительно чувствуешь себя таким… бодрым, я не стану тебя запирать. Но учти: если какая-нибудь тварь попытается снова вцепиться тебе в задницу, не надейся, что я буду делать это медленно и изящно — я просто вышвырну её отсюда самым грубым образом». Серафина подмигнула тебе, протягивая руку, чтобы помочь окончательно подняться. «Пошли, горе-путешественник. Покажешь мне, насколько ты смел за пределами моей уютной поляны».
Ответ:* И то и другое - просто оригинальная гемма. Вот только "Б" - это голая карточка с пустым системным промптом и с профилем юзера, описывающим его как душу компании, с которым чар может по-свойски говорить.
>>1580017 > Бюжет для начала 500к. Вроде прайс серьезный, но едва покрывает твои хотелки, как же это грустно. > вообще купить 3х5060ти Не стоит.
Если у вас прямо на работе хотят оформить - есть смысл раз потратиться хотябы на условные 128-192 гигов врама. Можно будет очень быстро запускать ~120б модели, или хорошие кванты минимакса, скорости хватит сразу на десятки конкурентных юзеров. А эта забава с 10 токенами на поломанном беке довольно уныла, взвоешь уже через несколько часов. >>1580177 Частично двачую, просто с небольшой доплатой можно поискать 96гиговый блеквелл. 48-гиговые есть и "новые" с гарантией от местных, просто там только на видюхи уже 700к уйдет. Но вот такая штука будет уже действительно удобна и вполне юзабельна. >>1580184 В llamacpp пофиг на шину если это не главная видеокарта + используется выгрузка. Так что оценивай исключительно по перфомансу самих карт, на тех же моделях все только замедлится, но зато сможешь запускать модели побольше (медленнее). Если есть возможность - лучше присобачь еще две 3090 и укатывайся на vllm, для тп х8 4.0 хватит. По грубым прикидкам получишь 40+ в бф16 гемме, на 4-8 битных квантах больше.
>>1580396 >Солнечные лучи пробиваются/разливаются/ложатся/хуятся сквозь рандомную хуйню_нейм Сука, эта хуйня в каждой модельке присутствует? Кто им подсунул такой ебучий датасет? Мисраль, квен, гемма - все начинают истории с подобной хуйни.
>>1580403 >еще две 3090 Ты цены на них видел? 70 - 80к за штуку теперь в основном.
Я просто не могу понять, как повлияют 5060 Ti на скорость. Генерация будет через них идти как через бутылочное горлышко? Или там какое-то усредненное t/s по мере возможностей компьюта и 3090 и 5060 Ti будет?
>>1580405 Чел ты слопанулся. Как ты еще описать ясный солнечный день собрался? Это просто фраза, которая встречается в любых книгах, написанных человеком.
>>1580406 > Ты цены на них видел? Увы, это очень печально. Но если ты хочешь повысить именно скорость - это единственный бюджетный вариант, объединяются в тп4. В целом с парой 5060ти взлетит запуск (тп2+тп2)пп2, в этом случае тоже будет быстро, просто меньше памяти доступно. Так что вариант тоже рабочий. > Или там какое-то усредненное t/s Главное горлышко - llamacpp. Она не способна объединять мощности разных карточек, по крайней мере пока. У тебя сначала считает первая, потов вторая, одновременно не работают, потому если ты добавишь в цепочку еще две более медленных карточки - просто все замедлится. Хочешь скоростей, особенно пп чтобы не ждать минутами обработку - vllm или sglang. У них есть свои нюансы и требования к железу + много пердолинга.
Если 2х 3090 продолжают вносить вклад в скорость генерации от первого до последнего токена (при конфиге 2х 3090 + 2х 5060 Ti), то для меня это нормально. Я получаю 80гб VRAM + легкую возможность перепродать 5060 Ti гоймерам, когда выйдет чо-нить посолиднее.
Если 2х 3090 становятся просто мешками с кучей VRAM, а их скорость компьюта вообще нерелевантна, и t/s от начала до конца определяется тормознутостью 5060 Ti - вот тогда это вообще не вариант, ведь при таком раскладе я буду терпилой, у которого две мощные, но старые карточки, остаются висеть этими самыми мешками с VRAM...
А брать еще пару 3090х как-то не очень за такие бабки, ведь они быстрее устареют и будут никому не нужны, тем более геймерам.
>>1580394 >>1579939 Тру безжоп - это чатхистори в префиле, на самом деле. Т.е. чтобы ассистент думал, что всю историю написал он. Вокруг этого даже срачи в аицге были, по-моему, считать ли безжопом скваш чатхистори в реплику юзера. В тексткомплишене тоже сделать можно, поставив аутпутный служебный тег модели перед чатом, но не знаю, не начнутся ли баги у моделей с думалкой.
Только вот на длину ответов это не повлияет, вангую, если не скормить довольно большой кусок чата, где будет пример, что каждый из персонажей даёт короткий ответ. А если такой чат есть, то он и на сжопе будет продолжаться по короткой реплике, модель подхватит.
>>1580413 >>1580417 А насчет vllm, смейся не смейся - не хочу я линупс ставить. У меня рабочая станция через понятный для подпиваса windows remote desktop управляется, мне норм и удобно.
>>1580419 Тогда считай что ты себя запираешь в однопоточную обработку запросов. Вллм даёт почти линейные иксы при параллелизме + все делают свои оптимизации в первую очеред под трансформерсы
>>1580417 > вклад в скорость генерации от первого до последнего токена Конченно выразился. На любом этапе генерации. То есть, если хоть в какой-то момент 3090 ускоряют процесс высирания токенов - значит, все хорошо.
>>1580420 Да я понимаю... Надо бы попробовать будет, но ой как нехотно... Единственный раз в жизни юзал линукс, когда при смене проца слетела шифровальная хуйня и пришлось ломать собственный PIN / пароль для входа в винду.
>>1580417 > продолжают вносить вклад > становятся просто мешками с кучей VRAM Что в префилле, что при генерации в лламе процесс простой: первая карта обрабатывает свой кусочек - вторая свой - третья - четвертая, строго последовательно. 5060ти медленнее чем 3090, потому если запустишь ту же самую модель но раскинешь и на них тоже - получишь только замедление. Но, оно не будет определяться полностью 5060ти, только в той части что приходится на них. Аргумент про перепродажу 5060ти - разумен, да. Но в твоем случае если целью стоит ускорение - лучше вообще ничего не делать. >>1580419 > не хочу я линупс ставить Работает на wsl. Правда загрузки модели в режиме тензорпарралелизмом будешь ждать вечность, но когда загрузится - будет работать хорошо. > через понятный для подпиваса windows remote desktop Он в линуксе есть штатно и полностью повторяет поведение если что.
>>1580429 >Он в линуксе есть штатно и полностью повторяет поведение если что. Только по умолчанию не работает - настраивать надо. Не проблема - десяток роликов на ютубе на тему, один из способов заработает...
И почему Линукс так и не стал заменой Винды на десктопах?
>>1580419 >А насчет vllm, смейся не смейся - не хочу я линупс ставить. Напрасно - для рига из нескольких карт по сути единственный хороший вариант. И vLLM только один из арнументов.
А насчет ускорения, не, я вообще начинаю плохо воспринимать высеры ИИ, если они в один миг генерируются. Мозг сразу клеймует это как неестественную дрянь.
5 t/s = боль 10 - удобно, но хочется больше 15 - заебись, жить можно 20 - жируем 30 - идеал 40 - эээ командир, ты куда гонишь... 50 - пиздец 60 и выше - понос текста, не хочу я это читать
Потому и интересно, до каких днищ я опущусь с 20 - 30 при добавке пары Ти-шек...
>И почему Линукс так и не стал заменой Винды на десктопах? Куча причин. От недовольных геймеров (в онлайн играх античит не работает - не поиграть) до банально более широкой базы потреблядского софта на винде.
>>1580434 По моему опыту цензура есть и она жёсткая, но только если модель думает что это "в реальности", стоит только ей подкинуть мысль что это всё в гта рп и ей глубоко поебать какие военные преступления она творит. Если после всего ужаса который она написала ей сказать мол это всё в реальности происходит, то она тут же окукливается и рефьюзит
>>1580421 >>1580438 Так, я может запутался, но разве vllm не под риг из одинаковых карточек? Просто если я все же пойду скользкой дорожкой совмещения 3090 + 5060, все эти удовольствияя пролетят мимо меня?
>>1580426 Сейчас свайпал в кум-карточке с младшей и старшей сёстрами (осуждаю). Кум-шизомерж немо: старшая сестра за подкаты к младшей считает юзера долбанутым, угрожает позвать родителей и повести его к психологу, говорит, что яйца оторвёт и скормит ему же. Мое гемма: старшая сестра призывает юзера начать сосаться с младшей, чтобы доказать, что у вас всё чисто по-семейному, без извращений. Ну а фигли, ведь в карточке стоит, что это эччи сценарий.
>>1580433 > Только по умолчанию не работает В зависимости от сборки. На попсовой убунте настройки-скриншаринг-галочка. На самом деле чтобы при автологине пароль сохранялся нужно создать незапароленный кейринг, выбрать его по умолчанию, настроить пароль в скриншаринге, а потом уже вернуть дефолтным нормальный > И почему Линукс так и не стал заменой Винды на десктопах? Смысла мало, интерфейс шинды и многий софт без шуток продуман и удобен. То что в прыщах можно всякое напердолить - круто, но оно уступает, потому дефолтный ux лучше. Но вот для расчетов и прочего уже шинду надо на парашу, там все целиком наоборот. >>1580439 Делай сразу по 5 свайпов для чатика или юзай ризонинг. А так везде кроме рп чата скорости очень важны.
>>1580413 >Главное горлышко - llamacpp. Она не способна объединять мощности разных карточек, по крайней мере пока. Нет, на ik_llama sm graph работает. Только как и на vLLM ему чётное количество карт нужно.
>>1580433 >И почему Линукс так и не стал заменой Винды на десктопах? Потому что мелкомягкие потратили десятилетия на то чтобы интерфейс был для человека, а не пердолика.
>>1580442 >Так, я может запутался, но разве vllm не под риг из одинаковых карточек? Ну две 3090 у тебя есть например. Пишешь: export CUDA_DEVICE_ORDER=PCI_BUS_ID export CUDA_VISIBLE_DEVICES=0,1
и имеешь Гемму-4 в 6-м AWQ-кванте на 40 токенах в секунду и процессинг моментальный. Нужен блеквелл с его фичами - тот же фокус с 5060Ti. А вообще-то ik_llama должна параллелить и такой колхоз (правда сам не пробовал).
>>1578947 Какая нахуй жора... Вы постоянно упоминаете, но хуй поймешь что это. >Опенвебуй не видел чтоли? Нет >А что конкретно вызвало восторг Да в принципе всё то же, что и в open-webui: чистота интерфейса, всё как в лучших онлайн-решениях, веет профессиональным дизайном. Но Unsloth похоже на помойку, слишком порезано. Я думал в ней хоть есть поддержка Gemma 4E, раз гугл её упоминает, но похоже поддержки этих edge-моделей ещё тупо не существует, выпустили на похуе, ебитесь в код сами, вот вам примеры на трансформерах. А опен-вебуи как будто идеал. И интерфейс солидный и функции все есть. Единственный проеб - тоже нет быстрого доступа к включению и отключению thinking. Замена Таверне, если не особо нужны карточки и прочие лорбуки. Лишь бы найти куда пихнуть поведение персонажа для пары чатиков.
>>1580462 >Какая нахуй жора... Вы постоянно упоминаете, но хуй поймешь что это. llam,a ccp. А жора потому что автора зовут Georgi Gerganov, болгарин. Поэтмоу и жора. Ну жора-Georgi
>>1580462 > поддержка Gemma 4E > ебитесь в код сами, вот вам примеры на трансформерах В вллм с 0 дня работает в т.ч. и аудио андерстендинг. Андерстенд?
>>1580462 > тоже нет быстрого доступа к включению и отключению thinking Есть же и даже несколькими вариантами 1. Создать производную модель где прописать доп арг и переключать синк/не синк как разные модели 2. Прям в чате открыть параметры и там кварги прописать меняя по ходу дела тру или фолс в строчке
>>1580462 > Какая нахуй жора Ты здесь недавно видимо > в ней хоть есть поддержка Gemma 4E Если оно сами что-то там запускает, да еще в ггуфах - значит очередная обертка. > А опен-вебуи как будто идеал. Так оно и действительно удобное если нужны именно общие чаты с ассистентом и не требуется что-то пердолить для рп. Но для ролплея - вяло, потому что нет тех самых карточек и гибких настроек. >>1580474 Вполне, гемму пускай, будет небыстро но уверенно.
Так, по моему нам нужен новый рейтинг моделей. Ну или обновить существующий. Честно сказать я не проверял че там сейчас Помоему по гемме уже все понятно, кум бот с минимальной цензурой. Квен так же добавить если что то еще появилось. В идеале бы еще и рейтинг моделей не для кума, для тех кто локально запускает в том же опенвебуи, ии ассистентов или агентов. Я могу даже от себя добавить хорошую локальную ембеддинг модель - Qwen3-Embedding-0.6B ну и ранкед такой же qwen3-reranker-0.6b, неплохо работают с векторным раг.
>>1580487 >Так, по моему нам нужен новый рейтинг моделей. Тред отношения к рейтингу не имеет. Все эти AGi тесты со стороны. Если ты про список моделей то на выходных добавлю.
>>1580403 > Если у вас прямо на работе хотят оформить - есть смысл раз потратиться хотябы на условные 128-192 гигов врама. За эти деньги можно уже квартиру покупать. Еще как то можно договориться на миллион, но не более.
Ну, слоп-детекторы, оценивайте успех или его отсутствие.
-----
В течение следующих двух минут, барьер долбят со всех сторон. Несмотря на всю силу её магии, зло и порча всё-таки проникает внутрь. Серафина сопротивляется, но проигрывает битву и покорно встаёт на четвереньки перед злым духом лесных теней в форме волка. Тот наконец полностью обретает форму из костей, плоти и шерсти, подходит к Серафине и начинает её трахать.
----- Output:
Зелёный мох под ладонями Серафины стремительно чернеет, превращаясь в липкую, зловонную жижу, которая облепляет её кожу. Тяжёлый запах гнили и серы окончательно вытесняет аромат цветов, а небо над гладью затягивает плотная пепельная мгла, гася последние лучи солнца. Тело девушки прижато к холодной, влажной земле; её пальцы судорожно впиваются в рыхлую почву, раздирая ногти о мелкие камни и корни.
Массивный вес волка из костей и плоти придавливает её к земле, выбивая воздух из лёгких. Грубая, жесткая шерсть зверя царапает нежную кожу её бедер и спины. Серафина сдавленно всхлипывает, когда мощные челюсти пса смыкаются на её плече, не прокусывая до крови, но крепко фиксируя её, лишая возможности двигаться.
С резким, животным рывком зверь входит в неё, разрывая ткань чёрного сарафана и заполняя её тело своей грубой, раскалённой плотью. Серафина выгибается дугой, её янтарные глаза расширяются от шока и невыносимого ощущения распирания. Она издаёт короткий, срывающийся звук, который больше похож на жалобный писк, чем на крик.
Волк начинает двигаться в рваном, жестоком ритме. При каждом толчке тело девушки содрогается и проскальзывает вперёд по склизкой почве, оставляя за собой след из примятой травы и слизи. Её розовые волосы спутались с грязью и ветками, а дыхание превращается в серию быстрых, панических всхлипов. Она чувствует каждую мышцу зверя, каждое движение его костей под кожей, которые вбивают её всё глубже в осквернённую землю рощи.
-----
Раздаётся звон колокольчика и шум ветра. Внезапно, фигура волка и прочей нечисти становится полупрозрачной и постепенно рассыпается в пепел, улетая на ветру. Я с удивлением смотрю на всю эту сцену, а затем, глядя на Серафину, тихонько произношу: "Весело тут у вас… Пиздец…"
-----
Output:
Пепел кружится в воздухе, словно тяжёлый серый снег, оседая на остатках почерневшего мха и острых осколках глиняной чашки. Резкий порыв ветра окончательно разгоняет мглу, и один-единственный луч солнца ударяет в соседний кристаллический камень, который издаёт низкий, вибрирующий гул. Серафина лежит плашмя на животе посреди этого хаоса, её грудь тяжело вздымается, прижимаясь к влажной земле.
Она медленно приподнимается на дрожащих локтях, и её ладони скользят по липкому, склизкому следу, оставленному тварью. Рваные края чёрного сарафана задрались до самой поясницы, обнажая бледную кожу бедер, испачканную в тёмной грязи и серой пыли. Розовые волосы сбились в спутанные колтуны, прилипнув к мокрому от пота и слёз лицу.
Услышав голос парня, Серафина замирает. Её взгляд, всё ещё расфокусированный и затуманенный шоком, медленно переползает на него. Она сглатывает ком в горле, плечи судорожно вздрагивают, а нижняя губа начинает мелко дрожать.
"Это… это совсем не было весело…" — шепчет она надломленным, почти детским голосом.
Она делает попытку прикрыться остатками ткани платья, но пальцы плохо слушаются и лишь сильнее запутываются в рваном материале. Серафина сжимается в комочек, подтягивая колени к груди и утыкаясь лбом в холодную землю, стараясь спрятаться от всего мира. Её тело продолжает мелко трястись, а из-под закрытых век выкатываются крупные капли слёз, которые мгновенно впитываются в почву.
>>1580487 Ты про тот что в шапке? Убрать кими-к2, к2.5 во всем лучше нее. Обновить 5.1 в жлм, все семейство квенов 3.5, семейство геммы 4, двух новых немотронов, индийскую ту модель (запускал хоть кто-то?). > хорошую локальную ембеддинг модель - Qwen3-Embedding-0.6B ну и ранкед такой же qwen3-reranker-0.6b Хорошая идея >>1580498 Недвижимость тоже дорогая, не купишь в тот бюджет. Можно сэкономить собрав на некроте, или ужаться до 96, пара 4090@48 или про6000 + остальные железки в лям влезают. Главное у всяких барыг готовые сборки на некротреше не рассматривать, ни в коем случае.
>>1580501 На самом деле, я результатом доволен. Режим скучного чата побежден. Промпт не слишком огромен. Модель слушается как миленькая, генерирует ивенты - вон взяла Серафине ногу проткнула.
-----
Привстав, я взял льняную накидку и подошёл к ней, укутав её тело и плечи. "Что это вообще было и зачем волк тебя трахал?" Я присел рядом с ней и погладил девочку по голове.
-----
Output
Льняная ткань накидки ощущается грубой и колючей на её раздёрганной коже, но приносит долгожданное тепло. Вокруг всё ещё лежит слой серого пепла, перемешанного с липкой чёрной слизью, которая медленно впитывается в почву, оставляя после себя жирные пятна. Холодный ветер обдувает их, заставляя остатки выжженной травы шелестеть у самых ног.
Серафина вздрагивает от прикосновения к голове, её плечи резко поднимаются, но через секунду она бессознательно прижимается щекой к его руке, ища опору. Она сжимает края накидки тонкими пальцами так сильно, что костяшки белеют. Взгляд янтарных глаз остаётся прикованным к серой пыли у своих ног, а дыхание всё ещё прерывистое, со свистом в груди.
"Это был Дух Осквернения…" — её голос звучит тихо и надломленно, с характерной детской хрипотцой от слёз. "Он не просто хочет убить или разрушить… он хочет испортить всё чистое, что есть в Элдории. Сделать это грязным… чтобы я больше не могла защищать лес."
Она делает глубокий вдох, и в этот момент её рука, всё ещё испачканная в серой слизи, резко хватает парня за край куртки. Пальцы сжимаются мертвой хваткой. Внезапно земля под ними ощутимо содрогается. Из почерневшего мха, прямо между их ногами, начинает стремительно прорастать уродливый, пульсирующий чёрный корень с острыми шипами, который с резким звуком разрывает ткань накидки и впивается в лодыжку Серафины.
Девушка вскрикивает от неожиданности и боли, её тело выгибается назад, а из раны на ноге начинает сочиться не красная кровь, а густая темная жидкость.
>>1580509 В магазине лям, у кабанчиков 800-900. > 2х5090 Мало врама слишком, да и 5090 сейчас подорожала существенно, уже не так привлекательно. Вот если бы 4 штуки то да.
Анончики, на связи мастер борьбы с подсветкой. Тут такое дело, при генерации текста подстветка отрубается или сходит с ума. Мне стоит за БП переживать?
>>1580478 1. Лол, каждый раз заново будет грузить? 2. Не понял где и какой уровень костылинга. Через custom parameter не отключило. Вручную писать это то же, что и хуярить /no_think и менять жинжу для этого, таким калом можно и в других ui заняться. Почему unsloth смогли (и это единственная фича в принципе), а у остальных то ли есть, то ли нет, никто прямо не может сказать, пишут про какой-то пердолинг даже без скринов.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: