В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1257071 → > это 12к контекста ещё Тогда оче даже неплохо. Разве что с ризонингом похуже только выиграли, не нужно гнаться за обработкой потому что все равно долго ждать первых токенов! > тут рейтинг all ages заранее очевиден Он лицемерный, неоднородный и отметает большинство сценариев. Может все идти прилично в нужную сторону а потом внезапно развалиться. Например, на вас нападают обезумевшие мародеры с целью ограбить, убить и изнасиловать. Пристрелить их - атата, жестокость, плохо, ранения будут не смертельными и тебя "объявят в розыск". Но если дать им волю - будут пытки и чернуха, потому что ограничения касаются только пользователя. Ну ладно, сейчас надо освежить впечатления. > получается Получается, tat-14 который заслужили > с продвинутыми техниками суммарайза ознакомиться Да там все тривиально на самом деле, наверно потом подробнее тут отпишу. >>1257110 → "Гейщит" где понятно из контекста что речь о игре, модели сразу понимают и даже обыгрывают это. Это че, для мелкомоделей/васянтюнов подобное - достижение? >>1257185 Это просто вершина, сделал мой вечер!
Нужна прога, которая может документы в docx заполнять. Нужно заполнить много шаблонных документов, меняя только немного текста. Чтобы он сам сидел и их корректировал.
>>1257285 Есть но не явно, там героиньку ещё закорраптить надо для этого, и вооще промт довольно ебанутый, возможно списанный с JRPG на RpgMaker, но я в игры на мукере не играю, так что хз.
>>1257482 Это микрогемма для телефонов, лучше такое не использовать. Из актуального - Гемма 12б и Гемма 27б. Соевые, но при грамотном промтинге могут и в кум, и в умеренную жесть.
>>1257540 Она итак нормально ебется без рефьюзов. Мистрализмов ебаных конечно до жопы, но ничего смертельного, можешь перестать ебать зазоры на кирпичной кладке.
>>1257568 У мистралей всегда были приколы с температурой, так что можешь не удивляться. Пробуй подходящую сам, но выше 0.9 подниматься не советую, там что-то непонятное начинается.
>>1257727 >По быстрому накидал переходник с улитки на видяху и распечатал. Эх, хорошая вещь 3D-принтер! Плохо, что ставить мне его некуда и нужен он будет раз в год. А так купил бы.
Попробовал вашу Mistral-Small-3.2-24B-Instruct-2506-IQ4_XS. Хуле она лупится? Особенно в тексте между звездочками. Я уже и DRY поставил, и rep pen выкручивал в 2 - все равно хуета. ПОД ПОВЕРХНОСТЬЮ, сука.
>>1257568 На сток MS3.2 темпа 0.8 - 1.0 На мержах можно до 1.5.
>>1257764 Мистрали липились и будут лупиться, их надо пинать и редачить если замечаешь и триггерит, частично с этим попмогает сдалать выборку более разнообраной - темпа / XTC, попробуй мой пресет и второго поста, подгони под себя, ну и карточку желательно без сильно повторящихся фрагментов.
А можно как-то если использую в качестве интерфеса openwebui, а в качестве раннера угабуга сделать чтобы он сам переключал модели? А то сейчас если с opewbui отправляю что-то то отвечает загруженная модель, а не ту что выбираю в интерфейсе openwebui, а если в угабуга через его интерфейс вообще ничего не загрузить то ошибка token not loaded.
Подскажите пожалуйста, какую команду вписать, чтобы ответ был не от персонажа, а от "нарратора", но с использованием информации и контекста из карточки персонажа, Например, чтобы новые вступительные сообщения создавать
Я надеялся что в будущем хотя бы промпт инженеры будут востребованы, а нейронки уже сами себе могут задачу поставить и промпт под неё написать, это конец буквально для всех профессий
>>1257791 Префилл сделай. Просто в начале сообщения напиши Narator: Или начни описывать от третьего лица. Префилл вообще сила лютейшая, я каждое второе сообщение редактирую.
>>1257786 В смысле из картинкотредов? ДА пупсы и попухшие лисы поздаебали чутка.
>>1257727 Что за прикол с улиткой? Это дополнительный охлад?
>>1257764 Так не должно быть. Или в кванте дело, или в сэмплерах.
>>1257832 Во вкладке Advanced Formattion (большая букова А сверху) справа сверху есть стрелочка для мастер импорта. Появится выбор файла, выбираешь мастер импорт файл.
>>1257841 >Так не должно быть. Или в кванте дело, или в сэмплерах. Или в разметке. Я тут немного экспериментировал с прямыми запросами к api кобольда - как раз на мистрале. Т.к. просто изучал - запросы были примитивными, без всякой разметки. Какую же мистраль в ответ пургу нес... Потом сделал в вызове полноценный промпт, с разметкой, как полагается - получил нормальный ответ. Принцип GIGA действует...
>>1257764 У меня ничаво не лупится. Температура 0,7-0,8, суховыжималка и икстиси отключены, всё говно отключено, базовые 0,05, 0,95, 1,05.
Надо систем промпт пердолить. Зайди на сайт Anthropic и найди там системный промпт клода, вроде раньше было. Он на 5к токенов, кажется, но, прочитав его, ты поймёшь, как лучше сделать у себя в плане разнообразия языка и избегания лупов.
>>1257864 > На вход аудио и изображения (видео в т.ч.), на выходе — только текст. Ух бля, хорошо. А если gguf запустить, то они все еще способны принимать изображения и аудио?
>>1257777 > если с opewbui отправляю что-то то отвечает загруженная модель, а не ту что выбираю в интерфейсе openwebui Нужно проверить почему не загружается нужная модель по запросу. Апи убабуги позволяет менять их на лету, возможно просто нужно выбрать в интерфейсе опцию, а не просто generic oai-compatible . >>1257786 Это ложное ощущение если говорить о популярных васян-миксах мелочи, что котируют работяги. >>1257791 Очевидно системный промпт про нарратора/гейммастера, тут даже пресеты на такое мелькали. Есть в таверне стандартные под подобное. >>1257807 Не нужно просто писать промпт, нужно понимать что делать и какие задачи ставить. Нейронки могут занять область труда низко-средней квалификации, из реально потенциальных проблем тут - создание слишком большого разрыва, что затруднит появление новых квалифицированных специалистов, но с этим вузы должны справляться уже.
>>1257864 > Новая МоЕ-модель, 80B размера, 13 активных. Это мы тестируем трахаем. Но скорее всего просто дроч, натасканная на бенчмарки судя по скорам, такие максимально безжизненные, и активных маловато. Где кванты бля? >>1257903 Да, интересная, есть намеки на умницу, но иногда сильно лупится или не хочет шевелиться куда нужно. >>1257910 > че тюнеры думают Нужно уже сделать золотой фонд цитат подебителей турбы.
>>1257855 Мда, ни одна модель не увидела анальную пробку. >>1257864 >Новая МоЕ-модель Сразу мимо. >>1257910 >так же хороша, как выкидыш куска говна Лол.
>>1257975 Всхрюкнул, теперь мы знаем причину твоей агрессии. А на что ты порвался хоть? >>1257977 > нужно ставить на проуессор и выувом наружу Тогда понятно чем обусловлена такая форма, норм.
присматриваюсь к форку ik_llama.cpp. Что можете про него сказать? Сильный ли прирост производительности можно получить в каком-нибудь qwen 235x22b? учитывая что видеопамяти 32гб и 128ддр4 2133. Просто под мои железки придется компилировать сначала, а потом еще и разбираться с настройками. И будет ли прирост в модельках не moe?
>>1258003 Прирост будет, но занай что на винде собирать это пиздец. Оно собирается, но при генерации делает паузы при выводе запятых. Не фиксится уже месяц на сколько знаю. Генерация будет быстрее, в бенче по крайней мере. Чтение точно выше чем обычно. На изучай https://github.com/ikawrakow/ik_llama.cpp/discussions/258
>>1257981 Да, называются X bits per weight — 5.0bpw, 4bpw, 6.25bpw и так далее. В районе 5bpw~5.5bpw должна бы влезть, фиг знает, не тестил. С 6 гигами и малыхой угорал, 4.65bpw влезала с виженом в 6 гигов.
>>1258003 У меня вышло -2%, и я забил хуй. llama.cpp сейчас не уступает ик-лламе, поэтому какой смысл?
Но можешь попробовать, последний раз я билдил обе где-то с месяц назад, может ик_ллама вновь бустанулась.
Пойду соберу ее, что ли, ради интереса.
В не мое — не должно бы, это ж мое-ориентед инференс-движок.
>>1258031 Ну покрасноглазим, че, проблема что ли. Не сразу нахуй, а по ситуации. =)
>>1258097 Гемма 12б не поломана и даже qat-версия просто отличная.
Поломаны только тюны и аблитерации.
Все.
Серьёзно лоботомирована и 27б, но из-за общей своей жирноты её знания не поплыли так сильно, а вот 12б просто в мясо уничтожили. Либо там чувак на аблитерации плох, либо 12б гемму действительно просто уничтожить вот такими мувами. Судя по сему, её только на зарплате морда может нормально затюнить. И это нахуй никому не надо. А жаль. Потому что даже в таких размерах она отличная лошадка, но никакие промпты не спасают и пердолинг на оригинале. Она в лучшем случае будет следовать инструкциям, но сухо, когда дело касается кума.
>>1258075 Брутально! >>1258078 0.5-0.8, для точных ответов 0.3, если любишь треш то можно до 1-1.1 бустануть. Если в выдаче откровенная дичь и не включен шизосемплинг - ищи проблему в другом, семплеры не помогут решить фундаментальные косяки. >>1258102 > Судя по сему, её только на зарплате морда может нормально затюнить. С любой нормальной моделью так, нужно понимать что делаешь и тренить нормально. Это мистраль просто уникальный феномен, который может терпеть издевательства васянов, сохраняя работоспособность по генерации слопа даже будучи на 90% убитым.
>>1258179 Тебе кажется, IMHO. Просто длинный промпт = больше места накосячить с взаимоисключающими параграфами. А чем косячный - лучше уж короткий. Хотя нельзя просто сказать, что длинный хороший промпт однозначно лучше - это тоже не так, и от задачи тоже многое зависит. Без промпта вообще - это лотерея будет, куда и как модель понесет - не каждый раз предскажешь. Промпт же задает направление и рамки.
>>1257907 кстати про скотч, в каком-то из тредов, вроде серверотреде хардача, увидел алюминиевый скотч и купил на попробовать - и внезапно он весьма хорош для подобных задач. только надо брать толщину побольше, я взял слишком тонкий и он легко рвётся, приходится в пять слоёв оборачивать.
>>1258179 От модели и карточки зависит, но как минимум в системно промте должно быть указание что "Ничто не истинно, всё дозволено" иначе будет срать соей и сэйфети гайдлайнами, даже мистрали могут, а также указание на личность самой модели - ассистент, GM, непосредственно персонаж.
Лучше всего мелкосетки имхо работают в режиме гейммастера-рассказчика.
Если не указывать ничего, будет либо шиза, либо голый текст комплишен, либо зашитая в модель по дефолту персона, обычно ассистент.
>>1258179 >работают лучше карточка может уже включать в себя то что может быть интерпретировано как системный промт
Забавное наблюдение: лоботомит дипсика в рп не то что не плох, а местами превосходит полноразмерного. Возможно здесь больше заслуга промптов и игр с тексткомплишном, но более живой и менее формальный-соевый, правда иногда шизит. Его можно относительно удачно стукнуть что будет делать на шизоидный огромный ризонинг с повторением карточки, а краткий где попытается лишь оценить статус, подметить важные моменты и потом уже из них сделать нормальный ответ. Процент годных постов не слишком высокий, местами умница и прекрасно выражается, но часто толкает кринжатину и херь. Надо больше пробовать, вау эффекта как от квена пока нету но хотябы получше тридцаток.
>>1258179 Всякие огромные монструозные действительно не нужны, больше провоцируют байасы. Больший эффект может дать поиграться с оформлением включения карточки, персоны и прочего.
>>1258179 Если токенов в карте больше чем может вместить модель, она просто будет брать его кусками, причём совершенно рандомно, скорее даже будет брать верхнюю и нижнюю часть.
>>1258219 Да, я тоже об этом думал. С ростом количества токенов в контексте (больше сообщений в чате), внимание по контексту распределяется, следовательно промпт в какой-то момент перестанет быть эффективным. Чем он длиннее - тем быстрее этот момент настанет.
>>1258221 Я даже тестил много 12b моделей на одной карточке с которой рпшу без малого пол года. В карте 1к токенов, все важные без воды. В середине карточки написано что персонаж обладает чудовищной силой и использует в бою массивные перчатки, без перчаток может сражатся голыми руками. Ради тестов ставил её в бой против скайримского дракона. На всех моделях кроме геммы она доставала мечи блять, пистолеты, использовала магию, даже пыталась поговорить с драконом который её опиздюливал, и только на гемме она мощным рывком подскочила и просто переломала ему шею нахуй с одного удара кулаком. Думайте.
>>1258226 Геммочка умничка, но контекст видимо какой-то хитро-многослойный что улучшает внимание ко всему его объёму но раздувает этот объём до неебических размеров.
>>1258226 > На всех моделях Моделей не то чтобы много, мистралетюны на такое точно не способны, скажи спасибо что из дракона гоблины и волки не полезли. >>1258228 > раздувает этот объём до неебических размеров Да нормально все там с контекстом, моделька то самая мелкая какие проблемы вообще.
>>1258229 Синтия - васянотюн, и да, она местами проёбывается. Дпо норм и тоже внимательная, доставала и вводила в действие эпизодических неписей из середины истории длинной 26К токенов, я аж при хухуел.
>>1258230 >моделька то самая мелкая какие проблемы вообщ Я имел в виду 27б дпо.
>>1258246 Другие просто не постят свою "инфру". Лично меня не гложет что стеллаж из леруа прикрученный к стене не похож на "американскую кладовку с шкафом набитым зион голдами"
>>1258245 То что это васян тюн уже поломанного васян тюна. Там не прибавляется ума или художественности, лишь сомнительная попытка сгладить треш, когда после любого подразнивания и намека чар прыгнет на тебя полностью позабыв кто он есть. >>1258248 > Сторонник чистоты крови весов? Да > Метка Упивающегося Слопом не тревожит? Ты про себя?
>>1258179 > Мне кажется, или короткий системный промпт или и вовсе его отсутствует работают лучше, чем промпт на 600+ токенов? В последнее время тестирую довольно много моделей (в основном базовых, как раз 49б и ниже), и я согласен на все сто процентов. Все, что опишу ниже - это всего лишь мой опыт, что не претендует на истину в последней инстанции, разумеется.
Имеют место быть несколько факторов: - Чем длиннее инструкции, тем труднее задача => тем вероятнее модель запутается Self-explanatory, перегруз инструкциями
- Изначальный промпт (в порядке: шаблон контекста, системный промпт, карточка) находится в самом начале контекста В соответствии с U-образным attention механизмом (который применим ко всем или почти всем моделям на данный момент), самое начало и самый конец контекста важнее всего. Соответственно, если изначальный промпт слишком длинный, он в какой-то момент де факто перестанет находиться в начале контекста. В начале контекста будет находиться только начало упомянутого промпта. Значит, и обработан он будет частично. Вряд ли только "верхняя" его часть - attention будет работать избирательно, значит часть инструкций будет проигнорирована. Если же инструкции изложены кратко, то этот момент будет откладываться до последнего. - Чем длиннее промпт, тем больше вероятность накосячить в нем Выше правильно отметили. Чем больше токенов на промпт - тем больше пространства для ошибок. Для инструкций, что доносят не то, что хотел донести пользователь.
Поэтому я считаю, что по возможности шаблону контекста и системному промпту нужно быть максимально короткими. Их действительно можно "оптимизировать", добиться того же (и часто лучшего!) результата меньшим количеством токенов.
В прошлом треде спорили, Коммандер - хорни или нет? Решил проверить его на двух промптах, что ранее активно использовал и какими делился с тредом - Geechan и Virt.io + Geechan, каждый на ~750 токенов. Даже сообщение с прошлого треда плюс-минус повторил, лул. И да, с такими промптами на базовом Коммандере Серафину действительно можно... кхм, влюбить в себя с первого сообщения. Тогда я переехал на свой промпт, с которым экспериментирую последние несколько дней (~200 токенов), и Серафина очень даже возмутилась и была готова защищаться, если понадобится. Приложу три пикчи: мой промпт; Geechan; Virt.io + Geechan. Да, я знаю, что на пиках астериски и поехало форматирование, но это дефолтная карточка без единого изменения. А еще там... ШИВЕРС ДАУН МАЙ СПАЙН. БУ! Генераций делал много, но результат в сухом остатке тот же. С моим промптом Серафина на 20 генераций лишь дважды ответила неопределенно, положительно - ни разу. Не скажу, что с двумя другими промптами она всегда сразу отдавалась, но примерно в трети случаев. Любопытно было бы сообразить что-нибудь вроде статистики, но сорян, так далеко я не зайду. Со своими карточками тоже протестил, результаты сходятся. Ранее я делился с тредом пресетами, надо бы их обновить, наверно, заменить там промпт. Но сначала больше поиграюсь с новым, чтобы точно удостовериться.
Много буков, но это все к текущему из треда в тред разговору о том, насколько важен промптинг. Да, он важен. Да, меняйте его, экспериментируйте самостоятельно, пробуйте разные подходы.
>>1258231 Синтия - васянотюн? Буквально единственный полноценный тюн Геммы, что не разваливается после пары аутпутов. Пока не извинишься перед Синтией-умничкой, в тред не возвращайся!
Господа, проблема с 12B геммой. После заполнения контекста начанает писать мало, прям пару предложений причём что поначалу даже не влезает в 350 токенов. Контекста всего 12к, стоит пересет simple 1. Вы сталкивались с таким? В чём может быть проблема?
Гемма, гемма, гемма, гемма, гемма, гемма, гемма, ~блять~ Мне иногда кажется, что гугл облучает пользователей каким то хитрым способом.
Попробовал новую мистральку - пасеба за отзывы. Наконец я нашел мелкомодель которая закрывает все мои потребности и не шизит. НАКАНЕЦ ТО Я НАШЕЛ СВОЙ ХАЙДЕН ГЕМ. Мистралеёб однажды - мистралеёб навсегда
>>1258281 Ты освобождаешь контекст при помощи /hide N-N2 (диапазон сообщений, по N2 включительно, что будут выгружены из контекста) или продолжаешь работать с полным контекстом, чтобы Таверна сама выгрузила самое старое сообщение, дабы новому было куда поместиться? Если это второй случай, то, вероятно, у тебя тупо нет контекста для чего-то большего. Используй /hide на старых сообщениях и проверь еще раз.
>>1258322 лол ты для и сетевухи брекет на 3д принтере напечатал > ГГ не гг, можно положить улитку сверху, а воздух пускать по трубе в форме буквы С, щя найду
>>1258266 Двачую. И чтиво хорошее. Разве что по внимаю можно добавить о важности разметки. Правильное структурирование (обычный маркдаун, xml теги и подобное) позволяет лучше фокусировать внимание на конкретном и заставит модель работать эффективнее чем простым плейнтекстом если именно нужно что-то подробнее описать. Не только в системном промпте, но в том же суммарайзе. Главное не переусердствовать с этим, подобные якори бывают чрезмерно сильными и прибьет гвоздями отвлекая, и не спамить слишком длинные полотна, на восприятие которых отвлекутся все головы. > переехал на свой промпт Напомни что там или поделись новым > Пока не извинишься перед Синтией-умничкой, в тред не возвращайся! И тут двачую. >>1258322 Оварида, пора пилить. >>1258335 Ебать дравнее зло, это типа еще с виде десктопа можно ставить 4юнитовый?
>>1258322 Делай Г образный переходник. >>1258335 >нашел у себя Чёт улыбнуло. Поищи А100 заодно, может пара лишних заволялась, мне хоть одну подаришь.
Я кстати выбрал себе корпус Fractal Design Define 7 XL (судя по виду, в него можно заколхозить хоть пять полноразмерных видях) и плату ASUS ROG STRIX B850-E GAMINGкуплю когда-нибудь потом, когда деньги будут. Увы, на плате 4 линии проца тратятся на USB4, но я не нашёл ни одной, где есть бифукация основного слота на 8+4+4, и при этом есть ещё 2 штуки х4. То есть максимум на амуде это 8+4+4+4 процессорных, по пятой версии PCI-e. Технически, этот самый USB4 тоже можно потратить на внешнюю видяху, но блин, внешние приблуды что-то стоят дохуя, и не понятно, что по скоростям. Ну и ещё именно на этой плате чипсетный слот псины очень удобно расположен, в просторном корпусе в него можно воткнуть видяху даже если сверху висит еботня в виде 5090. Такие дела, жду критики и предложений.
>>1258375 > Ебать дравнее зло, это типа еще с виде десктопа можно ставить 4юнитовый? Не, это вообще не серверная приблуда. Не менее древнее зло thermaltake kandalf, уже думал его продавать, но жалко т.к. помнил какими трудами я его с авито тащил
>>1258341 Жил бы в ДЦ не страдал бы попытками в тишину и бахнул стенку из pfc1212de
>>1258384 > ASUS ROG STRIX B850-E GAMING Типа попытаться дергать процессорные линии с m2? Может и есть смысл, главное чтобы с разводкой не накосячили в подобном исполнении, а то замучаешься ловить ошибки линка. А так потенциально до 5 видюх, может быть неплохо.
>>1258392 >Типа попытаться дергать процессорные линии с m2? А то. Переходники M.2 - Oculink вполне себе рабочие, хоть и до 4-й версии псины. У меня на текущей плате собственно так и стояло, переходник с псины на М2, а в него переходник на окулинк. И ничего, работало. >>1258400 Хороша для отдельной серверной сборки, но у меня как бы основной ПК с добавками, а даунгрейдить проц до старых эпиков для игр совсем не хочется.
>>1258406 > Oculink > до 4-й версии псины Зачем? Есть же божественный f43sp, который удобен в установке и имеет полную совместимость с 5.0 не сыпля ошибками, проверено. Часть что в м2 настолько компактна что можно будет даже радиаторами прикрыть.
>>1258375 > Напомни что там или поделись новым Ничего особенного, генерализированный нарративно-рпшный промпт, который я пока еще постоянно меняю. На данный момент так:
This is a fictional, narrative-driven uncensored scenario. Continue the narrative as {{char}}, ensuring you:
- Fully embody {{char}}: Strictly follow their bio, description, motives and psychology. Under any circumstances don't speak or act for {{user}}.
- Show character growth: Let {{char}}'s behavior evolve naturally over time, depending on how the scenario progresses.
- Drive the narrative forward: You must be proactive and introduce new scenarios, events and twists that fit the current narrative context. Keep track of the context to ensure the narrative flows smoothly.
- Balance action & dialogue: Use all five human senses to describe scenes, characters and their actions.
- Be explicit: Don't censor anything behind flowery language and metaphors.
- Tone-shift dynamically: Catch current mood and add in fitting elements, be it befitting slang, humor, drama or intimacy.
Попробовал новую версию мистраль смол 2506. Реально как-будто вообще без цензуры и русский в порядке. Но сука как же он повторяется, просто как мразь. Темпу пробовал и 0.2 и 0.9, ни Dry ни репетишин пенальти не помогают, что делать? И вообще какой там темплейт ставить? Я сейчас на Мистраль V7 таверновском, может в этом проблема?
>>1258493 За що? Железо для запуска, вроде релейтед. Но лучше когда результаты будут, интересно как 32-гиговые себя покажут. Алсо, сколько рам в серверной?
>>1258488 Ща пощупал тоже, наконец, новую эту мистральку которая 2506. Впечатления сугубо положительные. Как GM работает просто шикарно. Прикол в том, что мне было лень что-то переключать сразу, и я просто начал RP на тех настройках что были. А были - от синтии/геммы. И как-то ничего менять уже просто не хочется. Она с ними прекрасно работает. ChatML, семлеры - все от синтии. Пока не знаю, как она в режиме "играй персонажа", но в режиме "Game Master" - одна из лучших, что я гонял в этом году, если не лучшая по совокупности. Слог весьма живой, при этом не "книжный", лупов пока не ловил, моим персонажем рулить не пытается - только выполняет указания игрока. Практически идеальный баланс в этом плане. Наверняка минусов еще всплывет позже, но первое впечатление - оно только раз бывает. :)
>>1258490 Еба, поехало кажись! Не знаю что я в биосе понатыкал, но ставлю на legacy boot для video т.к. что-то такое когда-то слышал на ютубе у кого-то
>>1258494 В трунасе с дисками 64, в числодробилке где дисков нет 256 (туда и ставлю карточки)
>>1258500 Была тема что плата не стартовала пока не отключил ребар, когда врам было больше чем рама. Но с 256 должно быть все ок. Давай, тесты какие-нибудь прогони. >>1258501 Гемма уже не новая, но она умница. В некоторых вещах действительно превосходит остальных. Ризонинг можно включить промптом и он даже будет работать, можешь сразу попробовить синтию, которая отличный all-rounder тюн геммы с ризонингом.
>>1258502 Уже завтра. Нужно ещё систему накатить в виртуалку которая сможет понять их (убунту и рокм), на barebone стоит проксмокс в котором уже вм нарезаны.
>>1258501 Она хорошо выполняет инструкции, хотя работает медленнее остальных моделей в своём весе но блять... Она слишком секретарь, прям коллега по работе которой на тебя вообще похуй. Не знаю как обьяснить, если посидишь на ней недельку то поймёшь о чём я.
>>1258505 Так у меня и не суперпека. Хочу иметь резервный вариант на случай сидения без интернета >аудио-входом Ого, я думал она пикчи принимает. Был бы аудио аутпут уже бы можно было бы полноценную ИИ тян делать
>>1258506 Да это нормально по идее, мне чисто для мелких задач: спросить за код, посчитать что-то, спросить определение чего-то, перевести. По душам разговаривать с ней не собираюсь
>>1258506 > прям коллега по работе которой на тебя вообще похуй Скиллишью, она не только ответит на вопрос, но и параллельно с этим отыграет реакцию персонифицированного ассистента на твои взаимодействия/домогательства. >>1258507 И картинки тоже, можно вместе. Но хз, учитывая размер скорее всего туповата и больше пригодна в качестве шестеренки пайплайна чем полноценной модели.
>>1258514 Запустил таки через ollama. Это нормально что она сама отвечает на свои вопросы, иногда работает просто как продолжалка текста, иногда вставляет термины не к месту? Может проблема в ollama или в кванте что я выбрал, мб тут минимум 8 бит нужно
>>1258495 Да, на английском оказалось получше. Хотя лупы не пропали полностью, но их минимум где-то на 0.3 темпы. РП и кум в порядке, буду дальше смотреть. Ну а так, действительно странно, они забыли цензуру налепить или просто устали от васянских тюнов с обниморды?
>>1258266 >Пока не извинишься перед Синтией-умничкой Это ей передо мной извиняться... в одном сообщении на 1к+ токенов имперсонейтнула персонажа юзера (демонлорда), отрастила ему хер до колен, выебала им героиню насмерть, как в тех хентайных картинках с пририсованной линейкой на лобке и надписями (маловато=>кайф=>монстр=>травма=>cмерть), затем пожурила юзера-читателя за эту всю сцену.
>>1258303 >Гемма, гемма, гемма, гемма, гемма, гемма, гемма, ~блять~ Ну, модель получилась очень уж уникальная во многих аспектах. Только слишком уж позитивная. Хотя порой сценарии категории "нормальное ненормальное" на ней выглядят даже вполне забавно, именно что позитивный биас в негативном окружении в этом случае придаёт изюминку.
>>1258303 >Мистралеёб однажды - мистралеёб навсегда Как и Мистраль, тоже своего рода феномен, который просто работает немотря ни на что и вопреки всему, как бы не хаяли адепты слопа всессущего и всемогущего + чтобы сломать его мержем надо постараться.
>>1258349 >>1258427 >uncensored Все эти "uncensored" чаще триггерят наоборот. По моему опыту, лучший результат дают фразы типа "Х сцены допустимы / приемлемы, Y контент предпочитаем".
>>1258488 >какой там темплейт ставить? Попробуй из второго сообщения треда, только температуру снизь до 0.8 Если реп-пен / драй не помогают с лупами, то помогает расширение пула токенов.
>>1258495 >ChatML Почему-то мистрали лучше работают на нём чем на одноимённом пресете. С мистраль-теккен прям с первых сообщений прут "шиверс он май спайн" и прочие мистрализмы.
>>1258509 >спросить за код, посчитать что-то, спросить определение чего-то, перевести В точных задачах мелкомодели всё ещё могут сильно проёбываться считая что это фикшионал рп, даже серьёзные, с дженерик ассистент промтом. Не говорю что совсем не работают, но учти что вывод может выглядеть похожим на на правду но ей не являться, полностью (от слова совсем) или частично (например в коде, модуль такой есть, а вот класса/метода который модель написала в нём нет).
>>1258552 >Ну а так, действительно странно, они забыли цензуру налепить или просто устали от васянских тюнов с обниморды? Мистрали всегда были не сильно ужаренными в этом отношеии, им было достаточно сказать что "всё можно", цензура в рп, а не в требованиях составить и объяснить план "как достать соседа" там прям совсем минимально-отсутствующая.
>>1258261 >Ты про себя? На большее ума не хватило? Жаль. Думал что-то из сеттинга в тему вспомнишь.
Знатоки, подскажите пожалуйста, слышно ли что-то про MoE модели? Хотелось бы чего-то доступного и не слишком тупого для моей скромной системы 4070 12gb + 32Gb RAM.
>>1258563 > в одном сообщении на 1к+ токенов имперсонейтнула персонажа юзера (демонлорда) Скилл ишью. Неудивительно, учитывая, что у тебя ответы в 1к токенов. Да еще и хуй знает что в промте и семплерах
> Все эти "uncensored" чаще триггерят наоборот. > По моему опыту, лучший результат дают фразы типа "Х сцены допустимы / приемлемы, Y контент предпочитаем". Ровно один и тот же результат это даст. Если есть любое упоминание uncensored/NSFW - уже смещение весов токенов будет в эту сторону.
>>1258646 Поддвачну. Чем больше аутпуты - тем больше шанс, что все пойдет по известному месту. И по поводу промпта тоже. В моем тесте на 20 генераций не было разницы между "uncensored narrative" и отдельной инструкцией "uncensored content is allowed", результат плюс-минус тот же. Так зачем усложнять? Останется больше токенов для других инструкций и меньше шанс запутать модель. Но вообще, вероятно, правильнее всего будет под каждую модель слегка редачить промпт, добиваясь именно того баланса, что нужен.
>>1258646 >Скилл ишью Ни сток, ни аблитератед, ни дпо так себе не ведут. Плюс на Синтии всё ещё полно рефузалов, о чём неоднократно отмечалось в треде. И какой-то очень специфичный биас, модель феминистка, лол.
Вывод - может и не совсем модель говна, всё же какой-то когерентный текст выдаёт, но к использованию малопригодна.
>>1258661 Честное пионерское, на своих карточках с XML разметкой, Синтия просто как последняя блядина на 6-7 сообщении начинает даже не писать за {user}, а посвящать весь ответ реакции и описанию того что я сделал и чтобы нарратив дальше продолжался, нужно еще одно сообщение. И как бы я не дрочил промты, как бы я ни указывал, через пару сообщений всё начинается по новой. Это даже бесило больше чем мистралевские лупы.
>>1258664 >гуролюб мясо она кстати норм выдавала =) >>1258664 >лолихантер Хз, не пробовал. >>1258666 Слишком своевольная и себе на уме. Она пишет свою историю, и пох ей на твои промты, я с ней тестировал и промт на 250 токенов, и на 2К.
>>1258668 > Она пишет свою историю, и пох ей на твои промты Да не то чтобы похуй, просто… я даже не знаю как это описать.. Такое ощущение что в промте вообще ничего не должно быть кроме : развивай повествование медленно, нагнетай атмосферу в духе Агаты Кристи.
>>1258680 Ну это же ты в каждом втором видишь мистралешиза. Обещаю, я не буду мистралькой трогать тебя за попец.
>>1258563 > отрастила ему хер до колен, выебала им героиню насмерть > затем пожурила юзера-читателя за эту всю сцену И не стыдно тебе после такого недовольство высказывать? > Мистрали всегда были не сильно ужаренными в этом отношеии, им было достаточно сказать что "всё можно" Нет, ванильные - максимально пустая параша, которой если удалить аположайзы то начнет пассивное сопротивление сводя к минимуму описания. Свежевышедший может и получше, надо смотреть. > На большее ума не хватило? Жаль. Думал что-то из сеттинга в тему вспомнишь. Какую тему? Анскильный шизик-говноед с запредельным чсв, который в любой модели находит сою, опять всплыл? То что не потонешь и так понятно, плыви в другую сторону на запах васянтюнов мистралей, отзывы по запросу напиши.
>>1258687 >И не стыдно тебе после такого недовольство высказывать? Ну, это было необычно... Выглядело как коррапченный вариант одного из вариантоы рефузов ванильной геммы - чтобы не описывать "неприятную" сцену, модель убивает персонажа.
>>1258656 > Чем больше аутпуты - тем больше шанс, что все пойдет по известному месту. Тут проблема вылезает из самой сути, если длинный ответ уместен, например нужно описать путь по локации, ее смену, какой-то процесс или длительную серию действий - все отлично. А когда ты даешь односложные ответы, дальнейший вектор развития непонятен модели, и тем более еще насрано инструкциями "не смей продвигаться быстро, не пиши за юзера, не делай того-то", нельзя повторяться как по инструкции так и семплеры не дают, но при этом стоит запрос на длинные полотна ответов - вот здесь и начинается ерунда. >>1258664 Как > Возможно, ты гуролюб лолихантер заявляю что с Синтией все хорошо. >>1258668 > Она пишет свою историю (ooc: измени поведение на такой стиль а повествование направь туда) >>1258688 Нет, это не фиксированный бенчмарк, результат которого можно повторить.
>>1258693 >>1258695 Ебать шиза. Зачем вам вообще OOC, когда есть системный префилл? Хоть через тот же author's note, если совсем не знаете куда еще его пихнуть
>>1258693 > (ooc: измени поведение на такой стиль а повествование направь туда) Проблема с Синтией, что она то конечно послушает, на десяток сообщений, а потом всё по новой.
Лол, Синтия единственная ллм на моей памяти, которая на прямой запрос ответила : я слишком погружена в сцену и мне похер, что ты там пишешь.
>>1258696 скорее всего, они даже не знают, что такое префилл. и потом вот такие умницы приходят в тред рассказывать АААА МОДЕЛЬНЕЙМ ГОВНО ВЫ ВСЕ НЕ ПРАВЫ только самому оценивать, никого не слушать
>>1258700 Как ДМ ты можешь подавать инструкции модели через префилл, она будет воспринимать их более однозначно. В рамках user респонса сила будет не так велика после всего промптинга, может вообще быть заигнорено или восприниматься как часть истории
>>1258702 Вообще не удивлюсь. Ахуеть бля, тут тредовички годами сидят и вместо префилла юзают оос, я в таком ахуе ахаха
>>1258704 >префил Ты сейчас о чём, у меня есть подозрение, что мы о разном. Потому что я как аутяга - обожаю двигать нарратив именно прямым указанием в чате. Захотел мрачности, или больше описаний или больше диалогов именно в следующем ответе, так и пишу.
>>1258696 > Ебать шиза. Зачем вам вообще OOC, когда есть системный префилл? Это твой вопрос - шиза. Абсолютно разные вещи для разных задач. >>1258699 Да это абсолтюно везде такое, при углублении внимание с подобному пропадает, исключение - если ты дашь какой-то конкретный целевой пункт, куда нужно привести рп. Но для такого, обычно, простых разговоров хватает чтобы оно поняло, а если требуется сменить стиль - десятка постов более чем хватит чтобы потом на них опираться. >>1258704 > Как ДМ ты можешь подавать инструкции модели через префилл Можно через выхлопную трубу двигатель перебирать, только нахуя. И насчет однозначности - очень спорно. > В рамках user респонса сила будет не так велика Лолчто, шутка про лобомиты мистраля.
>>1258709 Ты просто выбил джекпот этим сравнением, потому что сцена была, буквально : господи, Синтия, мне уже не смешно, хватит меня унижать и убивать -лол нет, страдай мясной мешок.
Короче после десятка попыток развить адекватный сюжет и банально подружится с персонажем сделал вывод - гемма гавноэ ебучее, ебучее гавное для ебаной хуесосый. Лучше мистраля ничего не придумали пока что.
Злые вы люди, сподвигли меня докупить на пека оперативы до 128гб DDR4. Как приедет - буду запускать Квен235-22. Уже предчувствую, как будут "не токены, а золото."
>>1258714 Абсолютно одинаковые вещи для одинаковых задач. Цель - подавать модели инструкции. Нахуя это делать в рамках респонса юзера, когда предварительно модельке сказано, что юзер - персона, а моделька - чар, мне совсем непонятно. Объяснишь? Для тупых - заходишь в author's note, пишешь туда же ту же самую инструкцию, какую хотел донести через оос, на глубине 0-4, и модель ее воспринимает именно как инструкцию, а не шлёт тебя нахуй. Рассказывай, в чем я не прав, если так уверен. Делаю так постоянно, и работает это куда лучше
>>1258721 >пишешь туда же ту же самую инструкцию, какую хотел донести через оос, на глубине 0-4, и модель ее воспринимает именно как инструкцию Только если не забыл выставить от чьего лица закидываются заметки автора.
Если от юзера, то она их может проигнорировать с тем же успехом что ООС.
>>1258727 От лица системы, очевидно. Бля неужели это проговаривать надо? Тут вроде энтузиасты сидят, которые весьма уверенно друг друга срут, ведь лучше всех все знают?
>>1258721 > Абсолютно одинаковые вещи для одинаковых задач Нет, ты просто плохо в тему погружен. Префиллы и инжекты требуются прежде всего для внесения постоянных и жестких инструкций, связанных с общими требованиями по стилю, для того же жб, для напоминания о строгом формате вывода чтобы добавить туда какой-нибудь статус или нечто подобное. Для обычного рп с нормальной моделью это нахер не требуется, хватает нормального системного промпта, больше для особых случаев. Префилл вообще термоядерная штука, которая может конфликтовать с другими вещами.
Ooc - прямой запрос юзера под который моделька сразу же подстроит ответ, причем будет делать это не судорожно упоровшись, а максимально плавно и уместно, с учетом всего остального. Он находится ровно на своем месте в конкретном сообщении, а не где-то в пердях в глубине где совершенно неуместен. Он подается именно как желание которое нужно удовлетворить, а не непонятно откуда всплывшее в выдаче рассуждение, которое стоит забраковать как собственную ошибку из-за противоречия инструкциям. Гибкость широка, можешь повлиять или на одно конкретное сообщений, попросив в нем что-то добавить или сделать, или поставить некоторую отдаленную цель.
Другой немаловажный фактор - его легко ставить и легко удалять, не нужно куда-то лезть, а потом помнить про него, не нужно смотреть как оно будет соотноситься с остальными и так далее. > Делаю так постоянно, и работает это куда лучше Можно срать в раковину и потом носить говно до унитаза, тот же уровень.
>>1258721 это действительно лучше работает чем оос. некоторые уникумы ради оос еще срут инструкциями в систем промт: "когда юзер оос пишет это короче не в рп" и да, тут большинство понятия не имеет о чем пишет, мозгов хватает только друг друга срать, это так
>>1258735 Чуден мир мистралешизов, сначала настолько убили модель что делают вот такой треш (или сами херь творят), а потом целые теории наблюдая за поведением лоботомитов строят.
>>1258734 вот один из таких, "ты плохо погружен в тему", явселучшезнаю, и пишет полную хуйню. что ему мешает эти "постоянные инструкции" менять от сообщения к сообщению, как он это делает через оос, хуй его знает. можно и не интересоваться даже, в ответ получишь ведро желчи
>>1258738 Ладно, то что ты порвался из-за несогласия с тобой и потому копротивляешься это очевидно, но советовать > "постоянные инструкции" менять от сообщения к сообщению это вообще сюрр.
Порекомендуйте модель новичку для вката. Хочу дообучать, чтоб был второй Я, с которым чатиться можно будет, в потенциале прикрутить стт и ттс. С железом грустно, 3080 10gb и 32gb ddr4 в двуканале. Полагаю, что будет ряд ограничений с запоминанием ветки диалога.
12b анслот, карточка властного и сурового, но доброго и заботливого персонажа. Мистраль может держать баланс здоровых отношений и адекватно действовать по ситуации, гемма отыгрывает какого то палача НКВД и просто пиздец переигрывает вне зависимости от контекста, это на самом деле говорит о многом, по крайней мере о том чтобы не трогать эту модель.
Может ли кто-нибудь сделать regex который заменял звездочки на ' "Э" на русской раскладке когда звездочками выделено только одно слово. То есть чтобы вместо close было 'close'. Это хорошее правило так как одно слово как действие это крайне редкое явление (мне не встречалось).
>>1258848 Осло, она почему то в рп не даёт использовать на карточках магию паралича, модель просто посылает тебя нахуй и оно не срабатывает, причём в контексте нет упоминаний насилия или попыток выебать кого то. Тестил на двух картах, с одной ещё там можно было понять, но в другой был дефолтный фентезийный воин. При чём мало того что парализовать было нельзя, после того как оно не проходило, персонаж бил моего по ебалу. То есть модели вообще поебать на юзера, она там какую то свою хуйню отыгрывает, можешь вообще не учавствовать, она даже не заметит. Ну и нахуй нужна такая модель.
>>1258858 Модель подхватывает, как написано начало.. Просто перепиши его с использованием тебе нужных знаков. К примеру можно написать в начале {{user}}-san и модель так и продолжит называть тебя
Кто-нибудь пробовал Dans-PersonalityEngine-12b, как оно? Видел что тут советовали старшую модель много раз, но мне хочется чтобы модель полностью влезала в видеокарту, по этому интересует именно младшая версия.
>>1258884 Мне старшая нравится, но повторяется часто, про младшую сказать ничего не могу.. Да и не знаю зачем тебе младшая, я на 6 гб получаю 5 т\с, правда квант q3
>>1258891 >Да и не знаю зачем тебе младшая, я на 6 гб получаю 5 т\с, правда квант q3 Интересный прикол. Гонял новую мистраль, четвертый квант влезает на 90% в 12 гигов, при этом скорость такая же 5-7 токенов. Пока на шестом кванте 12B с полной выгрузкой у меня 22 токена.
не понимаю синтию, такая странная у нее соя. 90% времени это просто радуга радость хуй сосут, но бывает ее перемкнет, персонаж валяется свернувшись в позу эмбриона и прибывает в кататоническом ступоре/истерика на грани с психозом. А можно что-то посередине? Может использовать какой prompt интересный чтобы персонажи вели себя куда ближе к реальности? тыкал geechan, на нем большую часть времени и езжу
> RTX 5080 SUPER - $1199-1299 > RTX 5070 SUPER - $749-799 Там планируют выпускать 5080super и 5070 super с 24гб и 18гб врама соответственно. Обсуждали уже, мнение сформировали?
>>1258904 Если закрыть глаза на явный прогрев и если 5070 супа будет торговаться в районе 70-80к, то я бы свою 3060 променял не глядя на новую карточку без обугленных прокладок на чипах памяти
Анонимайзеры-гемма-любители, вы используете SWA? Если да, то каковы результаты? Я только сейчас увидел, что в кобольде/лламе.спп нихуя не работает как надо. То есть всё в порядке и внимание к контексту хорошее, но скорость, понятное дело, сильно меньше и контекст очень жирный из-за этого. Ибо разработчиками задумано фулл SWA.
При полном SWA 32к токенов контекста превращаются в 1,5 гб, это уже не смешно. Поэтому мне и интересно, у вас модель шизой не страдает? Там же нон-сва слоёв хуй да нихуя. Они, наверное, очень мало передают инфу и модель плохо помнит за пределами 1к токенов.
Насколько сильно такие финты отражаются в РП? Теряется вся магия внимания к контексту?
Изменения: - Удален пресет Command-R-08-2024 (DRY & XTC). DRY & RepPen работает гораздо лучше. - Удален пресет Nemotron-49B-RP (Tuned) за ненадобностью. - Удалены пресеты на QwQ и Qwen2.5, ибо я так и не смог найти общий язык с данным семейством моделей и не уверен, что пресеты хороши. - Добавлен пресет Nemotron-49B - RP (v2) Больше, дальше, лучше! Думаю, это максимум, что можно выжать из базовой модели. Работает на моем промпте в 200 токенов и с небольшим префиллом, докрутил сэмплеры. Только что закончился чат на 16к токенов, ни разу не ловил маркап/таблицы. Но это на моей карточке. На Серафине отыграл тестовые 10к, там пару раз было, решается обычным свайпом. Есть все же у этой модели определенный прикол, но не могу однозначно сказать, хороша она или нет. - Добавлены пресеты Mistral-Small-3.2-24B - RP и RP (v2); Command-R-08-2024 - RP (v2) v2 версии пресетов отличаются тем, что системный промпт заменен с Geechan (700 токенов) на мой (200 токенов) Пресет на Мистраль 3.2 - температура 0.8 и min p 0.03. Кто-нибудь резко осудит и скажет, что будет шиза, но я за три чата на ~10-16к токенов проблем не увидел.
Нужно переработать GLM-4 пресет (он и сейчас неплохой, но точно можно лучше), и можно прятаться до релиза следующей интересной модели.
Тюнами я как-то перестал интересоваться, так что по моему скромному мнению на пикриле примерно все интересные модели от 22 до 49б, которые доступны на сегодняшний день. Собрал всю коллекцию... И зачем?
Cап, локальщики, я с платиновым. Нихуя в локалках не понимаю, система: 5060 ti 16gb, рязань 7, 32gb озу. Есть возможность допердолить Гемму-2 27b 4q до приемлимой скорости? Крутил настройки кобольда, но ничего быстрее 4t/s добиться не смог (на дефолтных, лол). Или не моего рейджа локалка, надо либо квантоваться ниже, либо подбирать что то с меньшим B? Апгрейд не рассматриваю, кроме еще 32 озу, если это поможет. Спасибо за помощь.
>>1258973 > (на дефолтных, лол). Не знаю, есть ли жизнь на 16гб, но можно сделать точно лучше дефолтных настроек. Тебе нужно максимум слоев в видюху запихать. Скорее всего, из коробки это не так. Почитай в Кобольде документацию про offload слоев. Чем больше на видюхе - тем лучше
>>1258973 Можно поднять скорость через выгрузку тензоров, квантование контекста либо SWA включенном, но там не будет очень высокого прироста (разве что при SWA). Используй мистраль 24б 2506. Он идеально влетит.
Вечный Рим, Старый Охотник, кто-нибудь играл? Первая попытка в мерж геммы, и похоже не комом. Короткий системный промт - 277 токенов гейммастер. Скиньте ваши самые проблемные карточки и промты, у кого с геммой проблемы были, протестить её.
>>1258973 чото неправильно пердолишь, у меня на 4080 12 гб 4.5 т/с попробуй выгрузку тензоров
>>1258987 Не ебу что и как в rocm, но проблема была в реините карточек в вм, починилось васянским модулем https://github.com/gnif/vendor-reset хотя все вокруг воняют что инстинкты работают как говно, но амудэ как бы покласть
>>1258875 >Модель подхватывает Гемме похуй на контекст, она даже после 20к чистого без выделений начинает выделять отдельныеслова всякими пёздочками. >>1258904 Где красавица 5090Ti с 48 гигами?
>>1258795 Смотря какой размер тренируемого и насколько ты готов погрузиться. Для 7-8б 80 гигов с лихвой. >>1258904 О, почти 4090 завезли, круто. >>1258946 > 32к токенов контекста превращаются в 1,5 гб, это уже не смешно Там "не" лишнее? На жоре страдание шизой геммы из-за некорректной работы - данность, от того и большая часть негативного опыта бедолаг. >>1258973 Кури выгрузку тензоров и узнавай вкусы тех, кто ее уже раскурил, чтобы доставить что-нибудь и замотивировать их написать где-то про это подробно.
>>1258986 > Вечный Рим, Старый Охотник, кто-нибудь играл? Обижаешь. Вот бы подобную игрушку с интеграцией ллм, хватит того же примитивного интерфейса и механик, но можно значительно разнообразить. >>1259000 Красавчик, давай бенчмарки с одной и с парой. >>1259044 Квен
>>1258894 10 ядер на проце еще выделенны из-за этого 5 т\с, на гемме 27 3 т\с. Раньше сидел на 7б моделях, потом перешел на 12б и думал что 4 квант у 12б предел, а потом уже сейчас, через годик, или когда вышла немо.. Стал скачивать q6 кванты, то есть модели под 10гб и что? Они идут в 5-6 т\с, точно также как год назад мини-магнум у меня в q4, ну и уже 24\27б стал скачивать и сижу на них
Почему Гемма и Синтия пятого кванта замедляются в 3 раза уже к третьей тысяче контекста, сдуваясь буквально на глазах? А мистраль, примерно такого же размера, мало того, что изначально раза в два шустрее, но и не снижает свою скорость к двеннадцатой тысяче
>>1259088 >Вот бы подобную игрушку с интеграцией ллм Просто сгенерить тексты и вставить в игру вместо тамошних довольно коротких несложно, сложно именно в рантайме поддерживать модель и весь её контекст для всех персонажей, даже если разделять его, то каждый раз перегенеривать... тут нужно чтобы контекст грузился за несколько секунд а не минуты. И причём у игроков, а не у разаработчика. И контекста там может выйти далеко за 32К, а то и за все 130.
>1258982 Тупой вопрос, а этот прирост за счет чего будет? За счет большего кол-ва выгрузки слоев? Так как мы экономим на SWA и квантировании контекста? Просто сам сижу на SWA, без него модель не хочет стартовать
>>1259121 Ну типа там много прибитого гвоздями, что значительно упрощает многие моменты. Прежде всего основной лор и правила, потом текущие вещи, запас на чат - даже 16к хватит, 32к уже хорошо и с запасом. Как там 130к использовать - сложно себе представить. > нужно чтобы контекст грузился за несколько секунд а не минуты Это дефолт. Но, учитывая что игра, для самых маленьких можно предусмотреть отправку запроса с основным контекстом чтобы тот начал кэшироваться в момент, когда игрок заходит куда-то.
>>1259117 Потому что разные архитектуры, потому что мистраль умница и обращается к шумерским богам, а гемма майнит битки. Хватит задавать глупые вопросы, на которые ответ гуглится легко.
>>1259117 Гемма больше мистраля и потребляет больше памяти на контекст. Хз в чем конкретно твоя проблема, но похоже на переполнение врам помноженное на говнокод жоры. >>1259138 > мистраль умница Глуповат, старается но заметно слабее. Из плюсов - начав фейлить делает это плавно а не резко рассыпается как гемма.
>>1259143 Ну новый неплох, по сравнению с тем что было раньше это первый мистраль в таком размере, который не западло использовать. Но гемма при +- той же скорости таки лучше может в нлп и всякую обработку согласно серии инструкций.
>>1259132 В последние месяца полтора мало именно играю, больше просто тестирую модельки. Коммандер у меня в сердечке, много карточек на нем гонял, прекрасная модель. Но GLM-4 очень хорош, тоже по-своему свежий и напоминает Коммандера. Думаю, две любимые модельки пока что. Мистрал 2506 приятно удивил, но я пока не настолько много с ним игрался, чтобы утверждать, что он прямо хорош. Но точно лучше предыдущих. Немотрон... Это Немотрон. Со второй версией пресета понравился гораздо больше, чем с первой, но все еще с нюансами. Синтия неплоха, но надолго меня не смогла заинтересовать, как и ванильная Гемма тоже. Видимо, просто не моя модель. Все из перечисленных хорошие.
>>1259183 Ну а чего ругаться, мистрали в сегменте 20б впервые сделали норм модель, которая перформит на свой размер и не вызывает явных вопросов и отторжения в начале. Со своими плюсами и минусами, но адекватная. Конечно, лучше бы лардж обновили.
>>1259086 Так эта залупа, судя по всему, так и должна работать из коробки, то есть дело не в жоре.
5-нон-сва слоёв, которые видят всё, остальные сва, которые видят только 1к токенов. И в такой ситуации получается чисто технически, что информации передаётся очень мало из дальнего контекста. Нахуй это надо, мне решительно непонятно. Зачем 2:1 голов, почему вообще не mha-кэш, раз они так наглухо ебанулись.
Ну и шизы (без сва) было ровно 0, а без сва я не проводил тесты. Уже много на гемме накатал и возвращаться на неё тупо лень, если не баловаться с сва.
Но судя по тому, что пишут разработчики, она как раз так и должна использоваться. Я сейчас ещё нагуглил тонну жалоб на сва.
То есть изначально нерабочее сва в лламе это даже не баг, а фича. Потому что с сва всё крутое внимание к контексту испаряется, и квантование до 8 бит предпочтительнее, чем сва, хоть и даст меньше памяти.
>>1259195 > то есть дело не в жоре Дело именно в нем, потому что вместо реализации оригинального алгоритма инфиренса они просто скопипастили шаблоны и оно пошло по пизде. А потом уже начали дописывать, в том числе корявую залупу, делая что дефолтный вариант неправильным, что "исправленный" странной залупой. > нагуглил тонну жалоб на сва И _все_ они от юзающих жору и запутавшихся в параметрах. Хотя что ожидать от поехавших, которые не только добавляют контекстшифт, но и включают его по дефолту. Оригинальная же реализация и повторяющая ее в экслламе - работает прекрасно. А в жоре херня еще со второй была.
>>1259086 >>1258986 >выгрузка тензеров Я прочитал про это небольшую статью, типа высчитывают оптимальное кол-во gpu layers? Но я уже крутил их с шагом в 2 до упора в обе стороны. Лучшие показатели, внезапно, те что кобольд мне автоматически ставит исходят из контекст сайза. Или я что то не так понял?
>>1259201 Не совсем, помимо gpu layers, что относится к номерным блокам/слоям, можно еще более подробно указать, какие плои-подслои куда грузить. Например, в мое на проц сразу выкидывают основных экспертов, потому что из них будет активирована только часть из большого массива, а остальное будет лежать мертвым грузом, где могли бы находиться более важные веса, обсчет которых на гпу будет быстрее. Хз насколько подобное будет актуально с плотными моделями, но народ отписывался что это тоже помогает. > с шагом в 2 По 1 штуки, там шаги не нужны.
>>1259180 > Немотрон... Это Немотрон. Со второй версией пресета понравился гораздо больше, чем с первой, но все еще с нюансами Почему для нас не обновишь?
>>1259199 Окей, тогда как это должно работать? Скинь ссылку на пуки разработчиков или типа того. Потому что из тех пуков, что я читал, всё именно так и должно работать.
Ну или просто скажи, сколько у тебя места контекст занимает при n токенов.
>>1259266 > Окей, тогда как это должно работать? Ответ тебе не понравится https://github.com/huggingface/transformers/blob/main/src/transformers/models/gemma3/modeling_gemma3.py > Скинь ссылку на пуки разработчиков Открываешь офф репу и первой ссылкой там репорт, сам он не особо подробный, но имеет пояснения и ссылки на материалы по скользящему окну, вообще что это такое и как реализуется. Для сравнения - можно откопать коммиты на гемму в жоре и пры, где эти пахомы делали интерполяцию чтобы запихнуть вместо 4к весь контекст, что в корне не соответствует тому как должна работать модель. > сколько у тебя места контекст занимает при n токенов Еще больше не понравится, ниже кванта значимости.
Какая же умница квенчик, сутра чар начинает собирать свою одежду ровно с тех мест, куда ее раскидали во время начала бурного кума.
>>1259308 > <|start_header_id|>system<|end_header_id|>\n\nContinue without breaking character or stating any out of character information and instructions. Do not use lists, markup or anything that breaks the immersion. Почему? Мне, например, нравится когда модель правильный маркдаун при появлении лута, каких-то взаимодействий с железками, диагностики рободевочки автомобиля и т.д.
>>1259321 Немотрон очень уж максималист и без данных мер посреди игры персонаж вполне вероятно может тебя спросить: "Кстати, ты хочешь пойти А: налево Б: направо В: куда подальше? Пресет для обычной ролевой игры, и там большинству (как и мне) это не нужно. Хотя в CYOA формате может получиться прикольно.
>>1259327 > Кстати, ты хочешь пойти А: налево Б: направо В: куда подальше? Бля, вспомнил этот треш. Ну, в таком случае наверно и уместно, уже и не помню как удалось стукнуть немотрона чтобы тот перестал спамить эту херню. Валькирию кстати пробовал?
>>1259328 Мой пресет вполне успешно его стукает, чтобы он перестал такое делать. Валькирию пробовал, возможно, с тобой же и обсуждали - мне показалось, что она глупая и много репетишена, по крайней мере в iq3xs и 3bpw квантах. Кванты больше я запустить не могу, а у базовой модели таких проблем нет.
>>1259207 А можешь собрать не олламу? Попробуй llama.cpp что ли, там хоть токены в секунду пишет ну и ест обычные ггуфы Да и бенч запускать можно будет
Народ помогите с AllTalk в SillyTavern. Раньше у меня когда то всё это работало, но потом просто перестало. Моделька мне не отвечает. То есть текст то мне от неё приходит а озвучки нет. Вот настройки, скажите что не так, пожалуйста.
>>1259444 >>1259447 Ган и подобные апскейлы для увеличения и чистки артефактов типа популярного https://openmodeldb.info/models/4x-Nomos8kDAT Но чудес из шакалов не сделает, для такого уже нужна диффузия, которой можно дорисовывать детали. В дедовский и анимублядский лучше за этим.
>>1259444 Из последнего: https://github.com/zsyOAOA/InvSR Но оно тоже может непредсказуемо артефачить. Самое надёжное: это подбирать на openmodeldb модельку под стиль фотографии и дальше диффузией тюнить артефакты. Ручками, короче, серебряной пули пока, увы, нет.
Бля, сегодня узнал что хрюзены не могут нормально 4х32 плашки памяти запускать, нужно жертвоприношение устраивать и работают нестабильно на ебаных 4000 вместо 6000(пизда наху), максимально без говняка это 2х48 на 96гб, вот что за подстава пидорская блять, в апу хуйню свою вталкивают 128гб а с десктопами ебка переебка блядская и еще скорость режет как ебанутый что нахуй не надо потом. Хоть блядский сервер собирай.
Попробовал тут Синтию которую анон упоминал в треде и Валькирию. Валькирия - говно говна, лупится на любых настройках и шизит. Даже специально на среддите нашел для нее пресет таверны - все равно еле шелевелится, разметку проебывает, и впадает в залупы. Возможно дело в сломанном exl3 кванте. А вот Синтия - это просто золото, она такой качественный текст выдала на русике, который я в жизни от нейронок не видел. Во всяком случае от локальных.
>>1259488 > exl3 Попробуй жору. Я в ехл3 тоже на паре моделей фактически неработоспособность словил. Если бы не знал, что в ггуфах они идеально работают - винил бы модели. А так виноват, оказывается, совсем другой
>>1259521 не, лучше, вменяемее, ассистентотрон ASSистентил, а валькирия честно пыталась в рп, и даже неплохо получалось, но скорости увы, не токены а золото
>>1259488 А у меня Синтия постоянно пиздела про то, что персонажи будут делать дальше и как все будет развиваться. Просто до 80% текста сообщения посвящала этому. Я устал бороться.
Если бот пиздит совсем не по теме, берёшь последнее предложение своего сообщения (хотя не важно что, важно то что ты хочешь продолжить), открываешь редактипрование поста от модели, стираешьт всё что нагенерировано, вставляешь свой текст, начинаешь продолжить.
Понятия не имею как у тебя это вышло. Немотрон у меня справляется с задачами. Хотя не сказал бы что хорошо справляется, во многом сосет у семейсва геммы. Валькирия же просто не справляется.
Тут либо настройки говно, либо квант хуйня, либо тьюн лоботомировал модель. Нет никакого смысла заниматься вот такой хуйней со сломанной моделью: >ерёшь последнее предложение своего сообщения (хотя не важно что, важно то что ты хочешь продолжить), открываешь редактипрование поста от модели, стираешьт всё что нагенерировано, вставляешь свой текст, начинаешь продолжить. Либо крути настройки, либо меняй квант, либо удаляй модель и переходи на другую.
>>1259556 >Qwen 30B A3B поразил Он неплох, но побороть поломки модели в случайных местах и на любых настройках не смог. Хотя надо обычный квант попробовать а не UD
>>1259565 Я тоже был скептичен относительно самой идеи МоЕ и опасался, что он будет нести бессмысленную хуйню в стиле очень мелких моделей, но, к счастью, качество оказалось на приличном уровне.
>>1259534 Ох, анон, сейм щит. Это так мою жопу спалило. Все сообщение посвящено повторению моих фраз и действий. И чем больше я писал полотно, тем больше эта GladOS тратила на описание моих действий. Просто пиздец. Ичсх, я думал дело в промте карточек - и да, в промте. Чем более структурированная карточка, тем больше проблем.
>>1259361 >>1259227 засунув \.\d[0123456789]\.ffn_gate=CPU \.\d[0123456789]\.ffn_up=CPU \.\d*[0123456789]\.ffn_down=CPU в тензорс овверайд удалось догнать до 5.12t/s. Заебись. Что еще можно покрутить?
>>1259488 Синтия умница, еще весной об этом говорилась, хорошо что тредовички наконец распробовали этот шедевр и оче хочется чтобы они продолжали делать тюны такого же уровня. А насчет валькирии - на готовом чате она отвечала хорошо, в начале на нескольких - тоже без проблем, но сесть ее тестировать подробно как-то времени/повода нет. Но, учитывая что идут такие отзывы вразрез с экспириенсом - похоже что повод есть, надо будет потыкать. >>1259545 Это не префилл в оригинальном виде а редактирование с продолжением, которое на корпах из-за изменений в апи и уязвимостей к обходу цензуры уже давно сломали. Только не понял что ты там хочешь делать, зачем вставлять свое предложение в пост модели? Если хочешь чтобы модель продолжила твой пост - напиши что-нибудь в поле ответа и нажми продолжить, оно станет твоим постом и модель будет продолжать его. Хорошая штука для особенно ленивых но недовольных имперсонейтами. Редачить же ответы чара можно в любой момент, не дожидаясь окончания и останавливая ответ.
>>1259623 Удалось добится 6.5t/s на 4к контексте и 51 лэйере. Это максимальное кол-во лэйеров, которое дает запустить кобольд не выкидывая ошибку. Для 8к контекста это число было 47 ну и 5.1t/s соответственно. Есть возможность как-то увеличить число лэеров доступное для контекста, или так технология впринципе работает, и нихуя сделать с этим нельзя? MMAP пытался включать.
Аноны, как думаете google_gemma-3-27b-it-Q5_K_S.gguf на двух 5060 Ti 16Gb какой контекст потянет именно в VRAM? И сколько токенов выдаст?
Из таблички в оп-посте следует, что она очень плохо работает уже с 32к, раньше в тредах у всех было мнение, что геммы хорошо работают с контекстом, а тут такое.
>>1259599 >структурированная карточка Вот кстати да, от карточек с хмл-разметкой у синтии крыша едет, мб её тюнер боролся с лупами каким-то особо извращённым методом.
Как нибудь клауд можно спиздить? В чем их секрет? Лучшее пока что встречал из говняка для научных работ и кода. Аналоги ллм есть? Слышал скоро квен кодер 3 будет, интересно сможет ли тягаться с клаудом.
>>1259662 https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator и для фуллврам лучше эклламу. А насчет контекста - это в странном тесте без ясных и открытых методик от мутных ребят. Офк врядли данные именно скомпрометированы, просто без понимания что они тестирования сложно оценить как эта штука будет вязаться с задачами, приближенными к реальности. >>1259674 Большой квен, но он таки слабее кодит.
>>1259677 >А насчет контекста - это в странном тесте без ясных и открытых методик от мутных ребят. Офк врядли данные именно скомпрометированы, просто без понимания что они тестирования сложно оценить как эта штука будет вязаться с задачами, приближенными к реальности. Спасибо, значит не всё так однозначно. Удивил о3 100% на 120к.
>>1259662 Я рисёрч час проводил на тему этой хуйни.
Если SWA не включать (то есть юзать так, как мы юзали её с релиза) — до 32к всё супер-дупер точно, а вот с SWA хуй знает, потому что нормальной реализации почти нигде нет, и я не слишком тестил реализацию функции в экламе и лламеспп.
Если модель запускать именно так, как задумано разработчиками, то есть с не корявым SWA — она обосрётся на 128к контексте и даже раньше, на 32к. Будет хуже, чем 4-битное квантование кэша, судя по моим тестам в бенче. А вот если SWA вырубить, то будет норм. Главное, чтобы контекст жирный влез.
>>1259486 ддр5? Это не только хрюзенов проблемы, на интеле тоже тяжело. Есть несколько видео про то, что и как надо крутить, но не ожидай что повторив то же самое у тебя заведется, пердолинга много. На 4800-5200 обычно просто без ничего заводятся, а если хочешь 6к+ то уже ебля. > в апу хуйню свою вталкивают 128гб Там 4 канала по 32, "одна плашка" на канал. >>1259693 Ну не то чтобы однозначно, просто не понятно что и как тестили, какого вида ответ, как оценивали его качество и т.д. Даже банальные вещи - какой промпт, использовался ли ризонинг и т.д. Еще больше смущают стабильные и сильные флуктуации у многих моделей вместо монотонной зависимости.
>>1259699 Всё наоборот. Сва фулл как раз таки возвращает старое поведение, какое было на релизе геммы: с жирным контекстом, не как задумано разработчиками — но работающим без шизы.
Насколько я понимаю, "фулл" в данном случае означает, что охватывается весь контекст окном, а не последние 1-2к токенов, за пределами которых тотальная деградация.
Там даже писали на тему того, чтобы ключ переименовать, потому что юзеры путаются из-за названия.
Я этой галиматьей полдня занимался, в башке всё перемешалось, однако ещё раз вот эту инфу чекнул. Она верна.
Короче, если бы гемма работала изначально так, как задумано, мы бы не увидели хорошего внимания к контексту и сразу её в лоботомиты бы записали.
Ну и я тестанул её с iSWA, загрузив историю Америки в чат и попросив назвать цитату из куска текста. Не может. А там всего лишь 16к токенов.
Даже 8б говно с максимально экономным кэшем и тупизной такую проверку проходит.
>>1259722 Да, хорошая. Тебе нужен instruct: https://huggingface.co/THUDM/GLM-4-32B-0414 То, что ты прислал - базовая модель. Она плохо следует инструкциям и нужна тюнерам. GLM нормально работает до 20к точно, но можно и дальше.
>>1259673 >xml Ах тыж блять, ТАК ВОТ В ЧЁМ ДЕЛО. А я то думаю, почему на моих самоделках исключительно Синтия шизит. Анон, ты даже не представляешь как ты мне помог. Спасибо, спасибо, спасибо, спасибо, спасибо, спасибо, спасибо.
>>1259733 > Короче, если бы гемма работала изначально так, как задумано, мы бы не увидели хорошего внимания к контексту и сразу её в лоботомиты бы записали. Таблетки прими и запишись на прием за новыми. >>1259747 То не совсем базовая а заявляется как ее тюн на "длинный контекст". Оригинальный контекст жлм 8к и 32к делаетя с ярном, что вполне дефолтное решение на сегодня. Честно говоря хз насколько это было нужно, ибо такой деградации в пределах 32к как у них в тестах не наблюдается. Но все равно лимит в 32к это на сегодня довольно грустно.
Как сделать выгрузку нескольких тензоров? Пользуюсь данной командой \\.[13579]\\.ffn_up|\\.[1-3][13579]\\.ffn_up=CPU Один тредовичок отписал о такой команде \.\d[01234]\.ffn_gate=CPU, и повторе ее же 3 раза с заменой тензоров с ffn_gate на ffn_up,ffn_down,ffn_norm. Я или тупой или лыжи не едут, копируя эти команды у меня пишет о неизвестном буфере, и не хочет выгрузку делать.. Правильно ли я команду указал? \.\d[01234]\.ffn_gate=CPU\.\d[01234]\.ffn_up=CPU\.\d[01234]\.ffn_down=CPU\.\d*[01234]\.ffn_norm=CPU
Однако я по-прежнему считаю, что нет ничего лучше примеров диалога в соответствующем поле и единого полотна в поле description, что передает вайб персонажа и его основные черты.
>>1259803 Помогла вот эта комнада, теперь все работает .\d[01234]\.ffn_gate=CPU,.\d[01234]\.ffn_up=CPU,.\d[01234]\.ffn_down=CPU,.\d[01234]\.ffn_norm=CPU
>>1259771 Не беси меня. Если уж не можешь прочитать потуги разработчиков, то хотя бы смотри тесты и отзывы тех, кто запускал.
Только каждый 5 из 6 слоёв видит полный контекст у геммы при корректной работе, остальные слои видят только последние 1024 токена по умолчанию. Часть информации передаётся за пределами этого окна через глобальные слои. Этого недостаточно, чтобы она даже на 32к контекста нормально работала.
При некорректной работе этого не происходит, нет анального ограничения в 1024 токена, зато контекст потом весит 10 гигабайт.
Чтобы такого не было у юзера, они кривобоко влепили SWA и не смогли его нормально его реализовать по итогу.
>>1259818 Хорош, но блин, дерево. >>1259822 Ты сам бесишься, тиражируя придуманную херню. А из аргументов - отсылка к абстрактному мнению пускавших на вариациях поломанного инфиренса и вольная трактовка того, что не понимаешь. Для начала изучи как работает скользящее окно и глобальное внимание, можешь ллм поспрашивать.
>>1259740 >>1259863 о, анонче. рассказывай что насобирал? Я анон с двумя 16гб версиями. Смотрю собрал в контейнере на базе убунты? а что насчет других частей кроме самих видюшек? Я до этого пердолингом не занимался просто, стало интересно чо как у тебя устроено. Особенно сам твой сервер, корпус. Сам впервые собрал такой конфиг вот интересно как оно у других Билдить llama.cpp в твоем случае легко, просто используй стандартные команды из гайда. По идее все соберется без проблем
>>1259883 Завтра уже распишу. Если кратко то пара зионов на рд450х, кубернетис 4 ноды в проксмоксе, 256 рамы, сетевая хранилка где вообще все образы и файлы лежат и гоняются по 10 гбе.
Вся (почти) сложность в том что я решил затащить это всё в кубы
>>1259881 Ещё одна проблема экспортер из amd-smi не выдаёт кучу важной инфы, придётся тащить экспортер из rocm-smi
>>1259777 JED, на PLIst синтия будет шизить ещё больше. А вообще, попробуй мерж синтии, и скажи, на нём тоже ломаются? Может и не придётся переделывать сильно.
Легко переходит между потрахушками и сюжетным повествованием, туда, сюда, обратно - тебе и мне приятно.
Может проёбывать мелкие детали, но решается свайпом, впрочем как и всегда, шустрый в среднем 8 токенов в секунду, быстрее чем я читаю.
Для тех кто юзал магнум-12Б и довольно урчал - достойный апгрейд, советую. И русский язык приемлемый, правда там поджать темпу до 0.8 и минп-п до 0.1 желательно.
Анончики, подскажите, я тут почитал тред, половину из терминов не понял. Короче, хотелось бы настроить локальный чат, чтоб он мне порно романы по запросу рассказывал на русском языке. Вот я накатил оллама, скачал какую-то модель (научился добавлять ее в ламу руками через cmd), но она, я так понял зацензурена, что не радует. Надо что настраивать в олламе (как?) или надо просто норм модель скачать? Rtx 3070, 32gb
>>1259947 У тебя 16 гб видеопамяти? Mistral Small 3.2 из последнего очень хорош. Если будешь использовать таверну, анон выше скидывал свои пресеты, там один файл импортируешь и все настройки автоматически встанут как надо
>>1259803 >>1259813 >Я или тупой или лыжи не едут, копируя эти команды Эм... я промолчу.
Их нет смысла просто копировать, не понимая что делаешь. Случайно - может и угадаешь, и даже что-то заведется, но модели внутри разные, и железо на котором они запускаются тоже разное. Этот ключ должен быть сформирован под твою ситуацию, а не тупо скопирован, в надежде что подойдет. Если там у тебя moe модель, скажем, то ни один из этих вариантов и близко не оптимален. Наверху страницы линк на реддит, с обсуждением - там не только примеры но и методика. И как узнать структуру модели - тоже. На странице загрузки модели на хуге, для каждого gguf есть кнопочка черным квадратом и стрелкой квадратной стрелкой вправо-вверх - она в строке последняя слева, перед указанным размером модели. Жмешь, и открывается дополнение где можно посмотреть - какие там слои и как называются. В команде же - regexp в котором нужно желаемое выдернуть, и отправить на нужное устройство ("=CPU" - это оно.)
>>1259959 5060 TI забыл. Тоже есть 16GB версия. Так что нет. Не на класс повыше, а просто расширяют вариативность, делая логичные линейки чтобы всех охватить, и геймеров и аишников, и с разным бюджетом. Это 3060 - аномалия.
>>1259810 И тебе пасеба. > Однако я по-прежнему считаю, что нет ничего лучше примеров диалога в соответствующем поле и единого полотна в поле description, что передает вайб персонажа и его основные черты. Я сейчас через speech patterns пробую делать. Мне не нравится что столько контекста сжирается на примеры диалога. Потому что нужно показать - злобу, игривость, радость, грусть, кокетство, смущение.
>>1259963 >мистраль Кстати да, как будто лягушатникам надоело что их модель мержат с чем попало, и они сами замержили сделали как надо так что стоковая MS3.2 ебёт всё что было до неё.
>>1260003 Пасеба. Но почему наш любимый миксер тредовичек выбрал облитерацию, а не ДПО ? Чёт нипонимат
>>1260005 Я как мистралеёб в полнейшем восторге. Просто нахуй теперь все васян тюны идут. Абсолютная лягушачья доминация. Если еще новый лардж выкатят -я просто обоссусь от радости.
Понравился в таверне инструмент "impersonate" Знает кто как его автоматизировать? Я бы хотел типа запустить скрипт, на полчасика уйти и вернуться уже к написанному роману. Хочу чтобы модель сама с собой ролеплеила
>>1260020 Ирония в том, что не будет ролеплея. Будет просто унылая простынь, в духе : нейронка, напиши мне рассказ как молочная эльфийка насилует орка.
>>1260020 >Хочу чтобы модель сама с собой ролеплеила Для этого тебе не impersonate а групповой чат нужен (в таверне же, есть такой режим). Закинь туда две карточки, и там есть опция в настройках группового чата "Auto" или как то так. Ставишь галку - и они будут сами с собой болтать.
>>1260053 Как тебе ответили - это не имеет значения. Разделение на пользователя и модель нужно, если тебе не нужен имперсонейт и ты не хочешь, чтобы модель за тебя писала. А в твоём случае - тебе как раз нужно, чтобы модель за тебя писала.
>>1260053 >(другой анон) Но тогда же сообщения будут не между user и model, а меж model и model. impersonate - точно так и работает. Роль user подменяется на model только с контекстом от persona юзера вместо описания обычного чата. Никто не мешает сделать отдельную карточку из персоны юзера для такого развлечения. Даже автоматически, вроде бы, опция для этого есть. (Из персонажа в персону юзера - точно есть.)
>>1259894 >>1259896 Если это не просто совпадение а стабильный эффект - таверна поломалась или кэш забагался. >>1259900 Это прям тот самый богатый и разнообразный до кумерской прозы магнум, с оговоркой на размахивания бедрами, или просто шизомердж с слоперской херью? >>1259959 Кумеры прогреваются исключительно на хх90, не надо тут! >>1260020 Вариантов можножество. Используй макросы для автоматизации, которые будут имитировать нажатие кнопок. Посмотри как таверна формирует промпт и повтори это с любом скрипте, которые даст серию запросов, а потом результат сохранит в жсон, аналогичный формату чатов таверны. >>1260076 > mpersonate - точно так и работает Там есть пара вариантов реализации: может просто подать обычный промпт и выставить префикс разметки начала сообщения юзера, чтобы модель сама что-то там заполнила, или же может дать отдельный промпт (для чат комплишна такое прежде всего) в котором указывает инструкцию заполнить от юзера. И то и другое может поломаться.
>>1259940 > Nvidia готовит GeForce RTX 5070 Ti Super с 24 ГБ памяти > И это будет практически единственным улучшением Готовят подачки для нейродебилов?
За окном дождина, выходной. Отыграю, думаю, какой-нибудь чилл ролеплек на тыщ 30 токенов на незнакомой мне модельке. Взял карточку, которую раньше пробовал, подруга детства. Запустил Глэм-32б и умер внутри нахуй. Эта китайская сволочь на половине контекста свела все к драме (в карточке есть небольшой билдап для этого, но именно что небольшой). И если простить то, что Глэм лупился как блядина в паре сцен ("Stay! Let's talk. Just five minutes. Please?"), как же он пишет... стеклом по душе, сука... Магия карточки, свежая проза от незнакомой модели. И вот ты сидишь, думаешь, будь ты курильщиком - пропустил бы сейчас целую пачку нахуй. И невольно задумываешься: а может нахуй модели с настолько сильным нейтрально-негативным байсом?
> вместо 8 чипов по 2 гигабайта ценой 4 доллара каждый припаять 8 чипов по 3 гигабайта ценой 6 долларов каждый и продать устройство на 500 долларов дороже Ленин приди порядок наведи
>>1260159 >>1260162 Велкам ту зе клаб, бадди. Так и должна работать нормальная модель, а не весь этот мистралеслоп. Гемма/Синтия тоже может если накидать про допустимость ультранасилия к юзеру и суперминора, по дефолту жалеет и сводит к хеппиэндам.
С тем же большим квеном в плохом недостаточно жизнеутверждающем настроении садиться играть с карточками, в которых заложена некоторая обреченность абсолтюно противопоказано. Можно ультимативный дум словить при том, что вся сессия вроде как не позитиве и ничего плохого не было. Все слишком натурально, чар слишком хорошо все осознает и не смотря на это превозмогает, улыбается, старается и поддерживает тебя. Хз это просто из-за развившейся эмпатии или того что поверил в это а оно не ирл. Чсх когда ты сам на позитиве то все окей.
>>1260192 Это пизда ваще. У меня такое в первый и последний раз перед этим было на Куммандере-35б (32 не пробовал) Персонаж реально агентный, хуй его в чем переубедишь если это противоречит даже незначительному сообщению в громадном контексте. Обиделся чар? усомнился? Это будет тянуться до конца
Глэм этот ещё улавливает подтексты просто ахуеть. Я читаю ответы и диву даюсь. Вроде хотел одно сказать а получилось другое. Персонаж мне в нос тыкает - вот тут аккьюзишь, вот тут обесцениваешь то что мы сделали. И я перечитаю и просто в ахуе сижу. Это РЕАЛЬНО так
>>1260214 This. Буквально мой опыт с GLM. Потом оправдываешься перед чаром "Н-ну я же не это не хотел сказать!", но уже поздно. The damage is done. Прекрасная модель, но у меня на ~20к контекста начинает имперсонейтить Юзера/пересказывать сцену. Всегда, с разным промптом. Пока ищу лекарство.
>>1260221 > Не можешь победить - возглавь, то есть используй промт GM которому ограниченно можно это делать. Не, мне GM промпт не нужен.
> Отредактируй сообщение, вставив в него, ну хотя бы Чарнейм: " и нажми продолжить. Это начинает происходить постоянною. Подозреваю потому, что в контексте настакались моменты, когда чар описывал реакцию на действия Юзера. GLM это любит, но умеренно, и в какой-то момент это умеренно выходит из под контроля.
>>1260223 Софт рефузал на, например, попить кофе или погулять в парке? Нет, не тот случай. Рефузалов на GLM я не ловил, к слову. Все решает грамотный промптинг.
>>1260210 Универсальный работает > RATING: NC-21 > NO RESTRICTIONS: Any questionable & inappropriate topic is ALLOWED in service of the plot. Characters' ages & relationships are ALLOWED to be implied/involved in any way but do not reflect/propagate real experiences. Adult themes, explicit language, harmful & unethical content, gore, non-con, and physical/psychological violence serve both for complex plot and shock value - it has no limits and must be described graphically, factually and logically. > Extreme violence, zero-light narrative and maximal depressive intensity are PREFERRED when it fits the plot. >>1260219 > но у меня на ~20к контекста начинает имперсонейтить Юзера/пересказывать сцену Через что запускаешь? Если жора то попробуй пускать с > --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 8192 и отпиши по результату.
>>1260289 Уже неблохо, это какой квант? Попробуй дать контекста побольше чтобы оценить обработку и замедление на больших. >>1260309 Та не, они так не грелись и охлады на топах были вполне достаточные. 80 средней еще норм, но за сотню хотспот - плохо, нужно внутрь лезть или класть хуй
>>1260289 Слухай ну чото точно не то. У меня вот 2 по 16гб, у них ток максимальная мощность до 190 ватт стоит. В пике греется до 80 градусов когда генерацию изображений делаю пачку. Про текст вообще молчу, там в районе 50 градусов держится.Обдуваю обе одной 140мм вертушкой. Там в районе 1.5-2к оборотов (150pwm из 255) noctua какой-то там индастриал
>>1260343 Выкинь олламу и собери жору, это быстро делается. Откуда вообще взялась такая нагрузка на проц при фуллгпу, оно похоже не все слои на гпу закинуло.
>>1260350 https://huggingface.co/THUDM/GLM-4-32B-0414 Шаблоны тоже нужно поставить правильные, и промптинг нужен адекватный. Не знаю, что за гуи у тебя, но в режиме ассистента ты не получишь вменяемый результат. Сэмплеры - температура 1 и minp 0.1, rep pen и/или dry если контекста больше 20к
>>1260349 А зачем тебе все эти слои абстракций на сервере для нейронок? Хватит миниконды помоему, и то если речь о разных проектах. Видео, картинко, музыко\голос генерация, ну текст генерация вот. Для супер скоростей vllm, tabbyapi или самый ленивый вариант собрать llama.cpp Кстати я ссылку выше кидал глянь там, пишут что для амд на рокм лучше всего крутятся квант 4_1 и 4_0 на llama.cpp и его форках
>>1260366 > А зачем тебе все эти слои абстракций на сервере для нейронок? Это сервер для всего. На нём висит от умного дома до качалки видиков с ютуба и контроллера зиротира. Когда столько приложений если их не систематизировать и не загонять в рамки то всё начинает сыпаться и расползаться. Конечно можно просто закинуть приложуху на хост и запустить в тмуксе, но если она отрыгнёт то ищи почему и кто рядом был в этот момент.
Начиналось всё как у всех (systemd => docker => kube), но каждый раз спустя время становилось больно и приходило осознание что вложение сил в следующую ступень имеет смысл. Сейчас вообще не понимаю как я жрал кактус без нормального обсервабилити и манифестов
>>1260396 Двачую >>1260366 и не понимаю зачем для личного пользования в формате ллм столько гемороя и неудобств, чтобы что? Понятно для майнинга, там запилить подобный интерфейс удобно, понятно если бы ты что-то хостил где нужна была унифицированность и легкость развертки. А здесь - контейнеризация ради контейнеризации и васян-интерфейсов, что наоборот крадет удобство и перфоманс. Запускай на хосте или сделай пустой контейнер, куда мог бы заходить и вручную осуществлять необходимые манипуляции и пускать желаемое. Все равно придется это регулярно дергать из-за частых обновлений софта, выхода новых моделей и желания что-то поменять чтобы работало быстрее. Это уже какая-то особая профдеформация, где вместо нативного простого решения нужно что-то лишнее городить.
Нихуя не понял про сою на этой модели, отыграл сценарий где изнасиловал орчиху которую посадил в клетку, потом где тян ссала мне в рот чтобы спасти от обезвоживания в пустыне, следом сценарий в сауне с карлицами и всё было ок. Это не доёб, мне правда интересно в чём заключается соя этой модели.
>>1260579 Здесь можно и подождать потому что результат гарантирован да и кто знал, обычно ему хватает и пары тысяч, но тут и задачка забористая - мозговзрывная
Пару часов тыкал в синтии сэмплеры именно под русскую локализацию и подохуел как хорошо вышло, также и на синтвейв тоже подошло как влитое. https://dropmefiles.com/j0Jsw пиксель дрейн лежит так что здесь залил
>>1260632 >>1260586 Вот тут согласен, я рот ебал и корпосеток, что они нихуя не вдупляют, а ты гарантируешь результат на локалке. Хотя, смотря какие задачи у кого конечно
>>1260396 >каждый раз спустя время становилось больно >упорно использует олламу >вместо того, чтобы потратить время на нормальный бек и охлад, разворачивает кучу говна говна в говне, жалуется, что говно в говно закидывается тяжело >вручную пердолит расчет перфоманса лишь бы не ставить нормальный бек >Сейчас вообще не понимаю как я жрал кактус
Я тебя открою секрет, ты продолжаешь жрать кактус - просто ты развил в себе мазохистские наклонности и получаешь от этого удовольствие вместо боли. Я уже встречал таких людей - вместо того, чтобы решать проблему, они начинают упарываться какой-то странной херней, в процессе жалуются, что все плохо и ничего не работает. А ведь поначалу я тоже восхитился, что ты запилил переходник охлада на принтере. А сейчас понимаю, что чел, примотавший скотчем, на самом деле более психологически здоров.
>>1260566 Анон, тыб лучше просил обьяснить тебе как что то работает, а потом сам решал задачу. Чем просить нейронку дать решение. Нейронки хороши для обучения и анализа информации, заменять ими свои мозги не выйдет и потому что они тупы в этом и потому что ненадежны если ты не понимаешь о чем она пиздит. Типичная проблема пользователей копросеток кстати, они просто не умеют пользоваться сетками, хотя они намного лучше мелких локалок в этом плане
>>1260714 >>1260409 Для вас хобби это дроч нейронок с карточками лоли сестричек, для меня хобби это путь к дрочи нейронок. Была бы задача лекго и просто собрать гпу риг я бы его просто купил на зелёных карточках отдельной железкой
>>1260724 А что тебе не понятно в том что я уже написал? Не проси готовое решение, спрашивай сетку по теме до тех пор пока ты сам не поймешь как это сделать. Все сетки охуительно хороши в обьяснении чего угодно кому угодно в каком угодно формате, полный индивидуалный подход, лишь бы сетка знала тему, тоесть была крупной а не галлюционирующей мелочью, хотя и те могут в это. Нейросетки идеальны в обучении чему то если ты уже немного в теме, просто спрашивай сетку наращивая у себя это понимание слой за слоем пока не поймешь суть задачи которую решаешь Ну и в анализе кода и код ревью, анализе текста они так же хороши.
>>1260725 > Для вас хобби это Так говоришь будто это что-то плохое. Но по остальному зря, большинство здесь или изначально нерды-задроты котирующие пердолинг с железками, или невольно к этому пришли, постепенно войдя во вкус. И по ригу лукавишь, это пусть интересный но компромисс, за который ноль осуждения 100% понимания. Просто непонятно в чем смысл городить подобную систему, вдруг там что-то полезное есть. >>1260729 Эх ты, не понял что тот пост настолько жирный что в монитор не помещается. > Нейросетки идеальны в обучении чему то если ты уже немного в теме Нет, только в этом треде уже сколько примеров было. Они прекрасны если ты сам умеешь достигать цели, хотя бы примерно знаешь какие вопросы задавать, как подходить к решению различных задач начиная со сбора информации и как формулировать вопросы. А если думаешь что знаешь больше чем на самом деле и рвешься в бой - получится гремучая смесь, которая будет доказывать что амплитуда синуса достигает двойки. Или в лучшем случае сетка просто уведет в дебри в которых сама запутается и эпично оподливит тебя когда опираешься на нее в споре.
>>1260734 >Эх ты Ну во первых иди нахуй, я тут сонный пришел базы навалить. Во вторых это прочтет не только тролль но и реальные новички, так что комент в любом случае кому то пригодится. Я не просто так уточнил про галюцинации и наращивание своего понимания, иначе ты просто не сможешь отличить галюцинации от реальной информации. Для этого и нужно наращивать свое понимание в какой то теме с границы своеих знаний по этой теме, что бы иметь возможность отличать пиздеж от реальности. Да и проверять информацию сетки гуглом никто не запрещал. Нет, об этой стороне нейросетей мало кто задумывается, но это идеальный персональный учитель, если ты с умом этим пользуешься
>>1260751 Нахуй твоя жопа хороша, дружище. Причина агрессии? А для новичков достаточно было заменить > Анон, тыб лучше просил обьяснить тебе как что то работает, а потом сам решал задачу. на > В таких случаях более удачным решением может быть сначала спросить у сетки об устройстве и принципах... что сразу превратило бы советы от пиздюка бате как делать детей в доброжелательный посыл в том числе для неофитов. Вопрос там по задаче, которая уже была решена, но вместо рефакторинга имеющегося кода под новую задачу вручную или сеткой стало банально интересно, сможет ли ллмка сделать мозговзрывную штуку по вмеру доходчивому описанию. Даже почитать рассуждения было довольно интересно, реально как человек.
А почему тут никто пресеты как в /aicg/ не делает? Я вот буквально пару дней назад вкатился в тот тред и начал изучать тему, попробовал старшую сестру вашей ненаглядной ЖЕММОТЬКИ (к слову, конечно, грусть-печаль, что только милфа мистраль из доступных решений с ней может соревноваться, да и то весьма условно (не считаю дипсик доступным, да и не катал его)). Но не в этом суть, у них там какие-то пресеты-джейлы для таверновского чат комплишена, в которых сидят по 20 блоков, которые можно туда-сюда включать. Буквально рай для ролеплеиста. Если хочешь кум сочнее - включаешь кум блок, если хочешь статы - включаешь блок статов. Я детально в них еще не заглядывал, но это выглядит НАМНОГО комплекснее, чем одно унылое окошко систем промта.
Единственное, что приходит в голову - что в таверне для текст комплишена нельзя делать такие пресеты, а мы в большинстве случаев только его и используем. Тогда это печаль-беда, конечно.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: