В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1054272 → Температура обычно один (0,8-1,2). Штраф за повтор 1,05. Иногда dry включаю — может сделать как лучше, так и хуже, иногда прям можно выкрутить его как мразь и получить годные посты. Всё остальное стандартно и максимум лайтово, чтобы не ужимать модель, потому что чревато не только поломкой, но и потерей русика. То есть мин и топ 0,95/0,5 (или в обратном порядке — не помню). Больше ничего не трогал. Сейчас с телефона, поэтому не могу скрин сделать.
Контекст и инстракт мистраль в7. Может это и не совсем верно, но похуй, ведь всё норм работает. Если работает, в гайды не лезу.
Если будет тестить более жирные кванты, обязательно отпиши по поводу русика, особенно если ебанешься и решишь проверить на чём-то сложном. Хотя всё равно интересно, как он на англе ебашит в длительной сессии.
Но прям 10/10 не жди, это не файнтюн. Супер-красочно точно не будет. Я в первую очередь из-за русика заинтересовался, так как 32б в него не могут, кроме геммы, нормально. Но у геммы контекст.
Пацаны, какие варианты запустить R1 хотя бы в 4 кванте? Полюбому это будет возможно только в оперативке, потому что сервер по цене хаты в дс с восемью A100 я не могу себе позволить. Кажется, что достаточно 512 гб оперативной памяти. Как думаете, если взять эпик - насколько это всё будет медленно?
Если взять например что-то вроде этого https://aliexpress.ru/item/1005007265691619.html и поставить в 8 слотов планки по 64 Гб - то в сумме получится 512 гб рам. Вполне достаточно чтобы дипсик загрузить. Насколько медленно эта хуйня будет работать?
>>1054561 одна планка на 64 гб - окобо 20к стоит. 8 штук - 160к. Проц amd epyc - можно найти за 16к. ну а мать наверное около 50-70 будет стоить. Еще опционально nvme быстрых накинуть. В сумме 512 гб рама за 250-350к можно собрать. Цена одной 4090, но в 21 раз больше памяти.
>>1053942 → > упирается в 3060 Нет, если раскидывать одинаковое количество слоев то получится средняя производительность. А так - итоговый перфоманс = сумме произведений перфоманса отдельной карты на долю весов модели на ней. Ничего там не упирается, вполне рабочий вариант. >>1054587 > Цена одной 4090 2-3 если смотреть когда они по удачным ценам были. Вместо полноценного рига лишь заготовку, которая по 6 по 20 минут будет мариновать шизу как в видео.
>>1054364 >>1054377 Да ну нахуй. Серьёзно? Есть какие-то пруфы? Я понимаю, что каждый дрочит как хочет, но 12b такое не потянет. Я сомневаюсь, что это потянет 120b, если говорить о реальной работе всего промпта, тем более на русском и без серьезных ошибок. Там же ещё контекст огромный нужен.
Да и вообще, нахер оно им надо?
Текст настолько странный, что поставил меня в небольшой ступор. Какая-то варм плейфул милфа С ПОЛНЫМ ПОГРУЖЕНИЕМ.
Я скорее поверю, что они кошко-девочками из Blue Archive на 3к токенов вместо систем промпта балуются. От такого даже бровью бы не повёл. А тут... Стыдоба.
>>1054607 А, был похожий сценарий, бездомная цундере-кицуне застрявшая на первом хвосте, и отрастившая второй в момент воистину взрывного оргазма после помывки в душе с целью согреться... согрелись, чо, лол... а после на кухне был похожий текст. И это была 12б на английском, правда какая не помню.
>>1054607 Ёб-бушки воробушки! Нахрена такие простыни-полотна, я обычно ограничиваю вывод до 300-400 токенов, а дальше сам придумываю и пишу что-нибудь в ответ.
>>1054689 Надо будет попробовать, у меня опыт двое суток, а эта хуёвина похожа на церковный орган, с кучей крутилок и педалей. Я просто вхерачил 'Kobold (Godlike)' и забыл.
У тебя 24 ГБ модели прогоняется со скоростью 935,8, а 12 прогоняется со скоростью 360. И это последовательное действие, его некорректно просто опускать до нижней скорости. Нам надо сравнить 36 (ГБ)/935 (ГБ/сек) и 24/935 + 12/360. В первом случае мы получаем 0,0385 сек на пробег, во втором — 0,02567 сек пробегает 3090 и 0,03333 сек пробегает свою часть 3060, суммарно — 0,059, т.е. разница 53%. Плюс еще контекст, если он в 3090, то ее часть еще меньше, а разница — еще больше. =) В таком случае ты теряешь не 25% скорости, а где-то 70%.
Ради интереса можешь взять модель поменьше и пораскидывать ее разными частями в разные видеокарты. Целиком в 3090, целиком в 3060, 1:3, 2:2, 3:1, и посмотреть. Когда я тестил, моя математика работала.
Но вот если ты держишь контекст на 3060… А большую часть модели на 3090… Там ты свои 25% потери скорости (за счет потери скорости обработки контекста, но она будет несравнимо быстрее проца один хуй) получить уже сможешь.
Если что, менять видяхи физически не надо, им можно указать порядок в софте.
>>1053968 → > 3060+3090 В таком порядке звучат лучше. ) Ну и не забывай, что можно даунвольтнуть почти без потерь, и 400 ватт тебе нахуй не нужно на 3090.
>>1054250 → >>1054267 → Да, можно конечно. Даже куча софтин для этого, я помню минимум штуки три. Нет, никто не заебывался, всем похую. Есть подозриение, что контекст там будет обрабатываться не супер-быстро и вообще. Ищи Petals и аналоги.
>>1054561 Пролистай пару тредов, поищи ссылки на x.com, там был пост чела и расчет по деньгам. Нашел за тебя: >>1043681 → Вот тебе сразу хабр: https://habr.com/ru/articles/877832/ 6-8 токенов в секунду. Все для тебя, родной! 1кк у нас стоит примерно.
>>1054580 IQ1 на DDR4 3200 (стандартные 50 псп) работает 1,5 токена/сек, а чел предлагает 8-канал. Явно не 3 токена, быстрее.
>>1054620 > сумме произведений перфоманса отдельной карты на долю весов модели на ней Именно так, а не по количеству проходов. =)
>>1054726 > IQ1 на DDR4 3200 (стандартные 50 псп) работает 1,5 токена/сек, а чел предлагает 8-канал. Явно не 3 токена, быстрее. Ну у него будет модель в 3 раза больше, а скорости 250 гб/с. 3 т/с и будет.
Есть же всякие моды где к играм ии присобачивают Почему никто до сих пор не сделал ии для симс это же имба, вместо мычания реальные диалоги можно строить
Аноны как вы организуете в групповых чатах таверны взаимодействия между персонажами? Например информация о внешности персонажа находится внутри его карточки, но должна быть доступна всем. Или например информация о взаимоотношениях между персонажами. ЛЛМ может подхватить часть из суммари, или истории, но не делает это особо стабильно.
>>1054861 Какой нибудь майнкрафт или другая игра нетребовательная к видимокарте И с возможностью модов, чтоб легче ии вкорячить В тот же майн видел пытаются всунуть уже год энтузиасты
>>1054726 > что основное питание идет по одному из 12 проводов, а остальные по 2 амперf через себя пускают Это ерунда, линии что в самом бп, что в видеокарте объединяются, а то как там пойдет распределение нагрузки - зависит от сопротивлений кабелей и разъемов, та штука достижима если у всех кроме одного пина контакт плохой. Ситуация не отличается от имеющихся разъемов, там тоже бывают подгары вполне, просто здесь ток на контакт получается выше и из-за дизайна можно недовоткнуть. > Именно так, а не по количеству проходов. =) Если принять скорость инфиренса как размер модели отнесенный к псп врам - это будет тождественно твоим описаниям, а так ближе к реальности. Справедливо и для обработки контекста и прочих явлений. >>1054903 Там в контексте карточки всех чаров идут. Но это несколько топорно, потому что сетка видит там лишнее, в идеале нужно делить карточку на две части, одна из которых относится к внешности и известным фактам, а вторая - уже его непубличная внутрянка. Но это все таверну перелопачивать придется. >>1054913 https://www.youtube.com/watch?v=pjtIWPu-aTw https://www.youtube.com/watch?v=Zgw6pdS2SH4
Вобще так подумать мод для майнкрафта сделать изейше. С мудьтимодалками пока не задалось, можно работать с текстовыми или голосовыми запросами, по тому что можно вытащить из игры и вики. Спрашиваешь как скрафтить хуйнянейм, сетка делает внутриигровой запрос, находит обьект, находит дерево крафта к нему и рассказывает его. Причем ей ведь можно давать доступ ко всем обьектам в инвентаре и сундуках так же давая ей списком, текущие сетки переварят. Если заморочится то она может даже найти что и как скрафтить и чего не хватает. А есть еще вариант работы с вики, или внутриигровой книгой вики как в топовых модах. Если отсылать сетке статус игрока и его окружения можно генерировать уникальные голосовые предупреждения по типу бортового ии. Вобщем в будущем будет весело, уверен такое уже пилят если уже не запилили. И это без анализа картинки, с ней все может стать еще интересней. Что то видел в презентациях от невидима на эту тему.
>>1054974 Напарник в игре да видел, но это не то. Текущие сетки неосиливают. Нет непрерывности восприятия или даже просто скорости реакции в реальном времени. Нету памяти, только контекст. В итоге путается, не обучается и не запоминает, еле ориентируется в игре. Передвижение и действия текстовыми запросами вместе с речью.
>>1054974 >Там в контексте карточки всех чаров идут. Но это несколько топорно, потому что сетка видит там лишнее, в идеале нужно делить карточку на две части, одна из которых относится к внешности и известным фактам, а вторая - уже его непубличная внутрянка. Но это все таверну перелопачивать придется. Я просто в лорбуке сделал запись с внешностью персонажа которая триггерится по его имени, сделал её прилипающей на 3 сообщения и исключил её из собственно самого персонажа, чтобы она не дублировалась.
Но там уже лорбук как помойка выглядит. Его даже не организовать никак особо.
Из минусов: но чёт это не юзабельно по скорости. Я надеялся, что лучше будет. Затык в ддр4, видимо, куда оффлоадятся часть слоёв и контекст. Если сделать наоборот, и контекст забрать в видяхи, а слоев взять меньше - становится ещё медленнее. FP16 тоже отключить нельзя, ллама валится на несоответствии размеров.
>>1055019 > Текущие сетки неосиливают Увы, это больше мемогенератор для терпеливых. Успешное применение может быть если это хорошо отшлифовано и из игры все качественно проецируется сетке в отлаженном пайплайне. И действия - этакая комбинация классического и функционального бота, которому ллм просто отдает указания. Надеюсь, будем больше видеть такого в будущем. >>1055025 > в лорбуке Вот это хорошая идея. Наверно, желательно ставить описанием в начало чтобы было всегда, заодно помимо внешности прописав основные "известные" черты, а карточки остальных тогда исключить.
>>1055087 > важным слоям дал больше битности Это ведь i-квант, так и должно быть. Но конкретно квантование мое - тот еще темный лес. Например, эксллама даже на обширном датасете дает варнинги, что количество активаций некоторых экспертов было слишком низким и точность их оценки может быть неоче. От подобных квантов можно ожидать больше проявлений синдрома туретта и всякой шизы, хотя в типичных кейсах оно будет выдавать приличные ответы.
>>1055103 Назовись Джон Смит, Джонатан Джостар, Кошачий Чай, как >>1055105 предлагает или придумай что-нибудь благозвучное. Только если часто будешь менять имена, будь осторожен с архивными чатами, автоизменение имени может пройти не полностью.
>>1055104 База. Это позволяет выкладывать скрины и даже логи в тред без дополнительного редактирования и риска спалить своё имя. >>1055126 >Да и не нужна там такая точность. Нужна. Точность нужна везде и всегда (как и лучи RTX нужны, просто карты сейчас не тянут). Просто она стоит слишком много, и поэтому не оправдана.
>>1055064 Вывод тот же — ждем, когда в лламу.спп завезут загрузку нужных экспертов в видяху, и мы поимеем 2х буст. Сам подход поможет юзать даже небольшую видеокарту в случае мелких квантов.
>>1053392 → Посмотрел я Omnino-Obscoenum-Opus-Magnum-MN-12B Ну в целом интересно, единственная проблема пока что с женскими персонажами. Модель им упорно приделывает член или два. В итоге пришлось прописывать не просто gender:female но и указывать что члена нет. Затем она начала трахать клитором, пришлось дописывать что и это нельзя. Потом начала вагиной как на пике, я пиздец ржал как конь временами. Еще матерится прикольно. Персонажа, который не умеет говорить, отыграла отлично, даже попыток не было что-то спиздануть, в отличии от легенды ветров. И она даже и речь моего персонажа не понимала, только жесты. В общем модель любопытная, мне понравилась, тупки многовато правда в остальном, но многого от 12B и не ждешь.
>>1055154 А, ну и почитатели членодевок, бегом качать. Мне кажется к описанию внешки персонажа можно просто дописать dominant female в карточке и ебырь-террорист готов.
>>1055154 >тупки многовато правда в остальном, но многого от 12B и не ждешь. Ты не представляешь, как для меня это дико звучит. Может быть для вас я застрял в прошлом веке, но для меня это просто охуитительный верх мастерства.
Я, как бы понимаю, что это просто очень сильно навороченный конечный автомат, где есть состояние - контекст, и он пытается сгенерировать новый выходной символ - это ответ. И никакого устойчивого внутреннего состояния, как у человека, у него нет, всё делается костылями, через саммари, stepped thinking и плагин для памяти в таверне.
Собственно по этому меня нейронки как путь к AGI никогда и не привлекали: это потребует охуитительных ресурсов, и какой-то навороченной архитектуры. Типа когда я первый раз увидел LSTM моей реакцией было "Чё искусственные нейронки таки настолько тупые, что вы низвели их в ранг блока/инструмента, и теперь просто конструируете сложные дифференцируемые функции"? А когда такое сделают - вдруг окажется, что тренировочный корпус настолько огромен, что внутрь протекла какая-то параша. И Юдковский жид окажется таки прав.
>>1055159 >А, ну и почитатели членодевок, бегом качать. Да, да я. И я уже. Альма выше через неё "поговорена". Кстати, членодевок ещё не пробовал.
>>1053165 → > по два коннектора на хвосте цепочкой Да, сомнительное решение, переделал. Блок майнерский на 16 PCI-E портов, где 8 кабелей с двумя коннекторами на каждом. Карты две штуки от MSI с 3 портами, и одна Gigabite с 2 портами, то есть 8 портов. Так что кабелей как раз хватило чтобы на каждый порт независимый кабель использовать.
> А по картам конфиг оптимальный, лучше только с 4090 + 2х3090, чтобы картиночки быстрее были. 4090 на основной пеке осталась. Да и, честно говоря, не особо понимаю, как можно было бы удобно сразу 3 гпу утилизировать для картинко-гена, если только не генерации по вайлдкардам на ночь ставить. Вроде для комфи нет нод чтобы несколько карт для батчей использовать и похоже в нём такое сложно сделать by design, иначе такая нода уже наверняка была бы; но может я плохо искал просто. Остаётся только в три окна на разных портах запускать и дублировать все настройки UI.
Вот гонять в несколько потоков YuE или Hunyuan Video было бы интересно, т.к. там время генерации очень длительное, так что тут имело бы смысл в три потока всё это дело поднимать.
>>1053237 → > Я не спец в майнинге, это что за ОС, че-то на х?.., с ней все ок работает, накатывал для линухи софт? Там убунту обычная. А интерфейс так необычно похоже из-за RDP выглядит - поставил на риг Xrdp и дефолтным RDP-клиентом с винды подключаюсь. Оно похоже какую-то облегчённую оболочку рабочего стола показывает, т.к. если подключаться как обычно через HDMI к монику, то выглядит всё как дефолтный интерфейс убунты.
Поставил к риг-тян ещё вентиляторы и оставил на балконе живу в регионе где почти не бывает минусовой температуры зимой. В простое сейчас около 10 градусов так что закрыл окно чтобы риг-тян совсем не замёрзла, а если грузить LLM то греется до 50.
>>1055185 >Второй скрин - ржаль как конь, это прям так и отбрило, не редактировал? Я не редачил текст, только имена замазал на скринах. Временами выдает невероятную дичь, что хоть стой хоть падай. Но мне больше всего зашло как она матерится.
Кстати например на Пантеоне эта баба-оборотень почти сразу сжирает по кускам, даже без секса и провокаций, откусывает пиструн и прочее, там надо постараться чтоб выжить. А на этой модели давали и второй и третий шанс (конкретно на этой карточке). В общем и целом это как Магнум в мире ру РП.
>>1055103 Я использую Дио. Сначала выбирал его ради рофла и отыгрывал именно Дио, но затем меня заебало быть надменным вампирским муднем, и теперь я отыгрываю себя, но к персонажу уже прикипел. Ставить своё имя даже не пытался - слишком кринжово. Возможно, олды ещё помнят демона Мишу.
Тоже добавлю впечатлений про >>1055154 > Omnino-Obscoenum-Opus-Magnum-MN-12B Понравилась меньше Ветров. Отвечала то сухо, то тонны текста за себя, за меня, за того парня, и за систему. Q8, настройки ветров/сайнемо/мистрая7 без изменений, сиспромт - та простыня, что из треда в тред ходит.
Вопрос к автору: со стороны кажется (я понимаю, что кажется), что буквально берется рэндом_число рэндом_нейм моделей и рэндомным способом мержатся. А можно взять рецепт из наиболее удачных и их дорабатывать, меняя по 1 составляющей, чтобы был виден конкретный эффект конкретного изменения? Ну да, я всё надеюсь доработку базы сайнемо, но не полное ее изменение.
>>1055281 >А можно взять рецепт из наиболее удачных и их дорабатывать, меняя по 1 составляющей, чтобы был виден конкретный эффект конкретного изменения? Проблема в том что с большиством моделей так и было, но всё равно малопонятно, как говорится "слышишь звон, да не знаешь где он".
"Абсолютно Непристойное Деяние" - это чисто по рофлу замержил. Но надо попробовать сделать её так сказать более управляемой.
>>1055281 >сайнемо В сайнемо входит вихрь, а у вихря биас, рефузы и аполоджайзы прямо в датасете, то есть всё равно протекут и подгадят. Поэтому чисто в базу его брать не стоит, но как "один среди" может и не сильно напакостит.
>>1055126 Про точность имелись ввиду все эти рассуждения, рефлекция и шизолупы? Хз, на рп нормально не ложится и все только портит. Не то чтобы их невозможно подружить, но для подобного потребуется серьезная работа и аккуратная тренировка. >>1055154 Неистово проорал. В первом что не прогибается под юзера - вполне неплохо. >>1055190 > как можно было бы удобно сразу 3 гпу утилизировать для картинко-гена Генерируют всегда батчами, поэтому можно просто параллельно генерить в N раз быстрее. Есть даже аддон для такого https://github.com/papuSpartan/stable-diffusion-webui-distributed автоматизирует, раскидывая батчи пропорционально мощности разных карт, и потом собирает все в одном интерфейсе. Правда не все обилие костылей и новых параметров поддерживает. Для комфи есть сразу штуки чтобы параллельно генерить. Но в целом, никто не мешает просто открыть несколько окон и в каждом генерить что-то свое, какие-нибудь вариации и т.д. Если потом практикуется крупный апскейл, который занимает время, то это можно даже назвать удобным. >>1055285 > Проблема в том что с большиством моделей так и было, но всё равно малопонятно, как говорится "слышишь звон, да не знаешь где он". Все так, эти мерджи - алхимия без стойких закономерностей и еще со сложной оценкой результата. На визуальных сетках все проще, однако все равно подавляющее большинство мерджей - лишь накладывание и преумножение проблем отдельных чекпоинтов, с небольшим смешиванием признаков. Возможно усугубляется еще тем, что реально тренированных единицы и все они сильно отличаются друг от друга.
>>1055190 >Вот гонять в несколько потоков YuE или Hunyuan Video было бы интересно Для хуйняна есть мод, который раскидывает текстовый энкодер и дифузор по разным картам. Поднимает скорость генерации, ибо нет дроча с выгрузкой/загрузкой.
>>1055190 > Вот гонять в несколько потоков YuE или Hunyuan Video было бы интересно Лучей добра!
> Там убунту обычная. А интерфейс так необычно похоже из-за RDP выглядит - поставил на риг Xrdp и дефолтным RDP-клиентом с винды подключаюсь. О, буду знать! А то все руки не доходят до xrdp, хотя советовали. Спасибо.
- model: anthracite-org/magnum-v2.5-12b-kto <== это база - model: LatitudeGames/Wayfarer-12B <== рп, адвенчура, негатив биас - model: PocketDoc/Dans-DangerousWinds-V1.1.0-12b <== Как Wayfarer, но только ещё жОще - model: PygmalionAI/Pygmalion-3-12B <== по заявкам зрителей - model: Moraliane/SAINEMO-reMIX <== по заявкам зрителей, русик, кум
Самые удачные из собственных, просто для относительного веса, иначе сплошь англ вывод - model: Aleteian/Instrumentality-2-MN-12B-RP - model: Aleteian/Way-to-Unseen-Horizon-MN-12B - model: Aleteian/On-the-Strange-Lands-MN-12B - model: Aleteian/To-the-end-of-this-earth-MN-12B
>>1055190 >риг-тян А сколько 3090 потребляет с андервольтингом при инференсе в экссламе? Там вроде потребление максимальное, так как из карты выжимается всё. В лламаспп поменьше, но с таким конфигом там не интересно.
>>1055464 Что заметил - на температуре 1.0 всё путём. Но уже с 1.3 может мешать в одном слове русские и английские буквы, хотя сам вывод и построение остаётся когерентным.
Интересно, от какой модели такой эффект? Вроде прямо сторителлеров не было. Но это явно влияние гутенбергоподобного датасета. На старой версии такого не наблюдалось, но вообще как будто поумнела, это ваша "душа пигмалиона" ? Предположительно что он потому что в первой версии внесто не был шизотитан от Давида. Брасс (Латунь) - в карточке отсутствует, введён и описан по мере диалога в баре.
>>1055649 >ИЗИМОДНЕЙ Хаха, этот что-то начал замечать. Высылайте ударный отряд, адрес, зарегистиррованный на этот IP, будет скоро идентифицирован.
Изимод начинается и заканчивается в головах людей, в нарративах. Люди считают тяночек ценным ресурсом, который надо беречь и за который надо бороться. Мы как-то забыли выкинуть эти нарративы из голов, когда тяночкам давали равные права. И получили... получили изимод, конечно же.
Если раньше некоторые модели ломались до полной поломки вывода, начиная спамить одним знаком или сочетаниями, или вооще ничем, или даже крашили кобольд при старте, то теперь в целом мержи остаются работоспособными... но оценивать насколько, стало сложнее.
>>1055473 На фулл тдп во время обработки контекста (меньше если с линиями совсем беда или андервольт), примерно 1/N от полного тдп где N - число карт во время генерации. С тензорсплитом уже больше офк. >>1055500 Норм бп 10-20% перегрузку держит если что, так что там даже без андервольта можно.
>>1055103 Да использовал, но не имя а ник который обычно везде стоит. Потом когда опять решу пороллить наверное придумаю другой, а то не очень безопасно скрины в тред кидать. Сука, целый месяц роллил, как же было хорошо, даже менталку как будто похилил, хотя если бы мне кто - то сказал до этого что можно своё душевное здоровье вылечить общаясь с ботом, я бы посмеялся ему в лицо.
>>1055649 Доброе пожаловать, снова. Ветеран тысяч ролевок про махосёдзь итт. Часто переключаю местами роли в карточке, когда интересно становится. Тем более что в любом случае ты за обоих играешь и правишь посты. Просто чуть меняется перспектива.
>>1055723 > душевное здоровье вылечить общаясь с ботом Можно, можно, только чтобы до этого докатиться должно быть ПИЗДЕЦ как херово и началось размытие границ сознания.
>>1055814 Ты очень сильно всё утрируешь. Ощущение скорее как от очень, доброй, хорошей книги, которую ты писал сам и она повлияла на тебя с хорошей стороны. Но с другой возможно ты и прав, я слишком сильно сопереживаю персонажам, мни иногда их жалко как реальных людей.
>>1055865 >Это не про API. Будет там апи. >Да и модель эта Deephermes Любую сможешь, а не то, какую даст барен. >телефон бюджетный Сойдёт. Попробуй, понравится.
>>1055723 > если бы мне кто - то сказал до этого что можно своё душевное здоровье вылечить общаясь с ботом, я бы посмеялся ему в лицо А что удивительного? Реализуешь то, чего стеснялся или не получалось в обычной жизни, переосмысливаешь, расслабляешься, испытываешь эмоции в которых нуждался. Если оно еще работает прилично то реально можно запилить карточку, которая будет тебя успокаивать, анализировать и предлагать взглянуть со стороны. Главное не упарываться всякими особо извращенными девиациями и шизой как единственным способом самореализации, станешь как бедолаги из соседнего треда.
>>1055952 >Главное не упарываться всякими особо извращенными девиациями и шизой В смысле нет? Я только и отыгрываю, что самые дегроданские сценарии. >>1055959 А нахуя ты занял свой говносервер запросами других людей? Освободи, пусть только на тебя работает, и никаких бусси не будет.
>>1055945 Ну хз, прост надо модельку как Hermes 405b или магнум-бегемот. Для рп. На мобильнике пойдет огрызок уровня зефира, а такие не умеют а ролеплей.
>>1056011 >Видимо вы не застали паблик проксю с опусом Чел, я бед код ещё застал, если ты знаешь что это, ньюфажина. И все прокси у меня были, кроме анальнофлажковых с персональными токенами. И локалки сейчас тупо лучше.
https://pixeldrain.com/u/UBUjMKoB Художница Рене.txt CtxLimit:14875/16384 Полные 4 главы, хоть и не слишком большие, на omnino-obscoenum-opus-magnum-2-alt-mn-12b-q8_0 Продолжать пока нет намерения.
Модель определённо больше подходит для сторителлинга чем для рп. Но возможно это из за карточки и её форматирования.
Аноны, можете подсказать. Нашел хорошую vision модель minicpm, но она с цензурой. Есть ли расцензуренная (на порно) версия, либо какой-то способ обойти цензуру? Сходу не нахожу
>>1055993 Просто отыгрывать вариации - в целом похуй. Но когда упарываешься только дичью, с каждым разом повышая градус, и это становится одним из основных твоих занятий - считай уже поехал. >>1056011 В отличии от впечатлительных локустов, немалая доля местных анонов имела и имеет доступ ко всем корпосеткам с релиза и без ограничений. Тобою выбрана неверная дверь, клуб пресмыкающихся попрошаек 2 блока ниже. >>1056329 > minicpm Старье какое-то. Дело там не в цензуре, она просто "непорочна" из-за хуевой тренировки и не понимает что ты ей показываешь. Что ты хочешь получить? >>1056340 Ллама тред, что же с тобой стало. Лучше бы топил что мощных видеокарт не существует потому что ты их не видел.
>>1056355 >и это становится одним из основных твоих занятий - считай уже поехал Ну вот поупарывался. А потом перестал, ибо надоело. Доктур, я вылечился? >Лучше бы топил что мощных видеокарт не существует Без ссылки это пиздёж без задач. А карты у меня есть.
>>1056355 > Старье какое-то. Дело там не в цензуре, она просто "непорочна" из-за хуевой тренировки и не понимает что ты ей показываешь. Что ты хочешь получить?
Может мы про разные модели говорим. Я про minicpm o 2.6, она вышла в январе 2025. Она все очень хорошо понимает, не просто описывает, а рассуждает об изображении, и отвечает на связанные с ним темы. И где есть порнуха она может даже описать что конкретно происходит, но под предлогом что оправдывается мол там реально какая-то порнуха, поверь мне, мы "в openai" (лол) это осуждаем
Иногда она при описании немного эротического фото может просто мелкую сою выдать, типа "возможно это фото сделано без ведома девушки, нужно быть осторожней". Но в целом говорит по делу и очень качественно
Само видео вышло 2 месяца назад, но я говорю что модель январская, так как в январе вышло обновление. С буквой o вместо v в названии, так что качайте вниательно
>>1056367 > Без ссылки Какую тебе ссылку? Ну держи https://www.nvidia.com/en-us/data-center/dgx-b200/ >>1056372 > не просто описывает, а рассуждает об изображении, и отвечает на связанные с ним темы Это стандартное поведение для мультимодалки общего назначения. Прикольно что в модели есть еще восприятие речи, вот это, возможно, ключевая штука. На вопрос так и не ответил.
>>1056401 > На вопрос так и не ответил > Что ты хочешь получить? Да просто не соевую, чтобы на понуху вместо "I'm sorry, but I can't assist with that request", отвечала как на все остальные картинки
> Прикольно что в модели есть еще восприятие речи Нихрена, реально есть. 😳 Даже live streaming видео+аудио, как в chatgpt. Но чтоб интерфейсы это все стали поддерживать, нужно ещё год ждать небось
Но вообще я сделал там всё, что было можно, и всё, что было нельзя, не заходя в гуро, и сделал нарративный круг. Так-то прикольно.
И Qvink Memory, кстати, неплохо решает проблему с шизофренией, когда персонажей клинит на какой-то идее из-за психологического потрясения, которое видимо никто ни в каких фанфиках никогда не описывал. По типу: >>1053925 →
>>1056435 >Они могут так делать? Бывало одна старая модель писала "спасибо за прочтение, пишите свои комментарии" и подобные вещи, которые, очевидно, подтягивались из "послесловия" фанфиков, на которых её учили.
>>1056437 Не, это я уже видел, у сторителлера. Поржал тогда.
А тут прямо чёткое отсечение.
Так-то прикольно, правда. Там вроде карточка не для персонажа, а для рассказчика (только заточенного под конкретных персонажей и конкретную ситуацию). Я могу понять, почему он так мог сделать.
Наконец доехала 3090 Плюсы она работает Минусы ЕБАТЬ ЭТО ПЕЧКА НАХУЙ Вроде всего в 2 раза больше жрет чем моя 3060 а подносишь руку и ГОРЯЧО ПИЗДЕЦ обжечься можно
>>1056396 Мистраль ларж это буквально он и есть. И да, я сидел на 1,5 токенах. >>1056401 >Какую тебе ссылку? Ты даун или троллишь? А может контекст 64 токена? Ссылку на тюны вижен моделей давай. >>1056409 >нужно ещё год ждать небось Сейчас год за месяц проходит... Там где популярно. Смысла в текущих видео-аудио немного, так что увы.
>>1056447 Привыкай к хорошему, чел. Не выкидывай 3060 и не продавай, кстати. Тебе очень скоро захочется еще врама. И пока к тебе будет ехать 2 и 3я 3090, старенькая 3060 в паре поможет дотерпеть.
> Omnino-Obscoenum-Opus-Magnum-2-MN-12B-Q6_K-GGUF А неплохо даже, спасибо. Лучше прошлых за эти выходные на мой взгляд. Погоняю ещё. Иногда шизит длинной простыней, но всё остальное хорошо.
>>1056409 > Даже live streaming видео+аудио Оно там довольно номинально как и в жпт. А с интерфейсами - код же выложен. Удобное использование в сделку не входит, но там и модель слабая. >>1056469 Не норма, оно всегда держит некоторый оперативный запас свободной. Лучше мониторь не диспетчером задач а чем-то более специализированным. >>1056491 > Ты даун или троллишь Это к тебе вопрос, ты совсем долбоеб? Открываешь любую базовую мультимодалку на обниморде и смотришь.
>>1056512 >Открываешь любую базовую мультимодалку на обниморде и смотришь. Это могут быть тюны языковой части. Кстати, у 72B собрата аж 1,5 тюна, лол. >>1056531 Вот это ближе к истине.
Ребят я сейчас получил 85 градусов в балдурс гейт 3 и мне реально стремно хотя на форумах говорят до 95 "перфектли файн" - но они там видюху каждый год меняют наверное
>>1056649 Ага. Ток что сам до этого дошёл. Первый раз запускаю. А гайд сначала жопой прочитал. Теперь увидел распределение моделей по памяти. Я видимо только самое дно могу попробовать. 8 vram, 16 ram
Какие у меня есть варианты запустить русскую модель без цензуры. Например, для обработки сообщений из чата и составление короткой справки по ним?
>>1056625 >я сделал как в первом видосе на ютубе по запросу андервольт 3090 и ничего не поменялось Настраивай кривую в MSI Afterburner, ищи видеогайды, тысячи их - причём даже прямо для 3090. Смысл в том, чтобы при повышении частоты чипа не повышалось напряжение - если чип это позволяет. Тогда он работает на высокой частоте, если надо, а жрёт (и греется) меньше. Дальше настроенный профиль ставим в автозапуск - и если ты не любишь работать под админом, то у тебя проблемы. Придётся запускать всё вручную каждый сеанс; я лично для себя сделал программу-напоминалку. И да, вентиляторы должны работать всегда, так как карта горячая - в профиле нужно включить и это, настроить кривую вентиляторов вручную. Удачи.
>>1056680 >Ну бля я дергаю эту курву у меня все равно 320-350ватт и 77 градусов Смотри гайды внимательнее, там всё рассказывают - где что дёргать и куда потом жать.
The future of AI roleplay The future of AI roleplay The future of AI roleplay
Sorcery is a SillyTavern extension that allows AI characters to reach into the real world. It lets you bind arbitrary STscript or JavaScript code to arbitrary events in the chat. It is infinitely more powerful than existing "character expression" systems, and dramatically easier to use than traditional function calling setups. It does not require a specially trained function calling model.
Sorcery can enable your virtual characters to do tangible things, from interacting with your SillyTavern instance to controlling smart home appliances and toys. It is zero-configuration, and once installed will immediately work with most models and setups.
Sorcery works by injecting dynamically generated instructions into the system prompt that tell the model to insert special markers into its responses when the configured events occur. It then hooks the output stream, and intercepts those markers, removing them from the output and running the associated scripts. The whole process is completely invisible to the user.
Even relatively small models respond well to Sorcery's instructions. For example, I have successfully used Sorcery with the IQ3_M quant of Mistral Small, which fits into 12 GB VRAM.
Посоветуйте свистоперделки для таверны, начиная от просто полезных плагинов, сэмплеров, заканчивая надмозговыми решениями.
Особенно интересуют надмозговые решения:
всякие охуительные и безумные штуки, которые, по заверениям авторов, сделают q1_small_pisynchik -> fp32; самые невероятные и больные фантазии, которые можно только вообразить! Превратим вашу 12б модель в лламу 405б!
Пока что трогал только dry (смысл есть и на 12б моделях, но редко, иногда даёт шикарные результаты, если юзать 1-3 сообщения); xtc вроде бы всегда залупа; кот от тредовичка (нестабилен, требует хорошего соблюдения инструкций от моделей, но в целом полезная вещь иногда, ставлю палец вверх); BoT — похоже на кот, но абсолютно шизофреническая и неудобная тема, которая подойдёт только тем, кто готов задрочить её с головой, рпша на 64к контекста, суммируя события на 10к токенов, с лорбуком на 40к токенов, карточкой на 5к и отыгрывая ZOV или количество истребителей на тихоокеанском театре военных действий. Там такой анализ как раз пригодится.
>>1056786 Если модель изначально дерьмовая, то никакие семплеры и уж тем более плагины ситуацию не исправят. Хотя, всё зависит от конкретной проблемы, но пока ты ее не обозначишь, нет смысла спрашивать.
>>1056790 Я понимаю твою мысль, просто мне хочется хуйнёй пострадать. По советам анонов это делать проще. Рыготины с реддита я уже наелся. На дваче более адекватное обсуждение, по крайней мере на мой взгляд.
Если тебе, или другим анонам, не лень, может быть посоветуешь тогда модель? Которая удивит меня. От 1 до 45б. Не обязательно, чтобы она была полезна в реальных задачах. Просто хочется чего-то нового, чтобы было интересно потыкать/поохуевать. Как та модель на 1 млн токенов — релевантный пример. Или какая-нибудь безумная МоЕ, может быть?
Да, корпоративные модели лучше, но ты явно и в них не шаришь. Гопота (4о — основной продукт) валяется в помойном ведре. Модели, которые выебут любую локалку и дипсик — о1 и о3, — имеют 40 запросов в неделю. Для одной модели нужна подписка за 200 баксов. Круто, да?
Безусловно, хорошему специалисту этого хватит, когда ещё и курсор есть. Но это ТОЛЬКО ДЛЯ РАБОТЫ с кодом.
Клод в вебе? Да, тоже ебёт все локалки по коду. Но ты лимиты видел и цены на апи? Специалисту хватит, остальные соснут, пока не разберутся.
Плюсом Клод ещё и с языком виртуозно работает, лучше всех переводит. Но, опять же, только для работы или развлекухи.
Ни одна из этих моделей не годится для рп без мозгоебства и риска банс, не говоря уже о цензуре. А если подрочить хочешь, то хана.
Рилы были сгенерированы один за другим. Поделитесь, пожалуйста, семплами для файнтюнов mistral 12b, которыми пользуетесь. Под SillyTavern конечно. Заметил что результаты могут сильно отличаться в зависимости от семплов. В данный момент уже больше года пользуюсь MinP но свайпы часто повторяются либо тот ответ но перефразированный уже на первом сообщении.
>>1055714 Количество параметров не связано ни с вокабуляром (сколько токенов модель знает), ни с датасетом. Можно обучить на малом датасете маленький вокабуляр (неэффективно) и получить огромную модель, выжав из датасета максимум. Так что, 100B не гарантирует какое-то универсальное качество, и старенькая yalm-100B никому нафиг не нужна. Когда люди говорят «уступает 14B» они очень сильно ее завышают. А вот «уступает 1,5B» гораздо ближе к истине. Это модель времен Балабобы ( https://yandex.ru/lab/yalm ), она просто кое-как текст продолжает. А Квен тебя поймет, нормально ответит и все объяснит (в пределах его знаний, конечно=).
>>1055857 > для UI на телефоне Для управления смартфоном нужна визуальная модель Qwen2.5-VL-3B, она спецом обучена управлять смартфоном.
Если ты под UI подразумевал использование, то выразился некорректно.
>>1055914 Для 8B-модели? =) Вот это вы запускаторы!.. Сам, небось, на Qwen2.5-0.5B сидишь, в таком случае? =D
>>1056329 А чем хуже Qwen-VL и прочие? Просто, мне кажется, ты нашел худшую визуальную модель… =) И, да, расцензуры на визуалки завозят очень редко. Никому не надо.
>>1056340 Я видел, прилично количество, если суммировать. Но самих моделей больше, да. =) Не на каждую есть, а на современные так и вовсе не делают.
Ну, Vikhr-VL-2B (Qwen2 версии) вроде немного расцензурен был, не помню.
>>1056385 Хуйня же, не? Ознакомьтесь с рынком, попробуйте все лично, убедитесь, что лучше. А потом советуйтесь, уж точно не по ютуб-видосам чуваков, которые в теме шарят на уровне вас же, вкатунов. =)
———
Блядь, я так понял, ньюфаги в треде настолько дегроды, что даже сами загуглить неспособны, тогда ладно, хуй с ним. https://huggingface.co/Vikhrmodels/Vikhr-2-VL-2b-Instruct-experimental В свое время, эта модель распознавала сиськи. Но это просто следствие экспериментального файнтьюна, не более. Еще была более древняя Phi abliterated, но ее я даже давать не буду. >>1056409 Ссылку дал.
Вообще, посмотрел тесты на новую версию, ну… распознавание обещают лучше Qwen2-VL-7b, это очень достойно. Правда, Qwen2.5 в тестах отсутствует, но это можно пережить. Распознавание аудио слабенькое и генерация не огонь.
Я бы подождал следующую версию, может Qwen3 будет мультимодальным.
>>1056660 > мистраль ларж > 8 vram, 16 ram За то время, пока ты качал файл, ты мог прочитать и понять, что не влезет. Ты понимаешь, что на скрине не ошибка, а твоя лень? ССЗБ.
>>1056671 65° = 100% наш выбор! База, делается легко, не умею в разгон, но свою 4070ти андервольтнул по гайду Бороды и 100 ватт скинул.
>>1056768 Qwen2.5-Coder-7B/32B в зависимости от твоей мощи. Можешь ризонинг попробовать, тот же Deepseek-R1-distill-Qwen-32B/Llama-70B, говорят тоже хорошо.
>>1056799 Пигмалион на базе мелкой мисрали 12B вышел, так что можешь его глянуть. Это чисто из разряда "интересного", ибо пигма это исключительно про оттенки шизы, но зато шизы душевной.
>>1056817 Попробуй темпу слегка выше единицы и smoothing в районе единицы. Это приводит к выравниванию высоких токенов, так что из пулла тянется не только пара первых, но и не вылезает шиза из нижних (нижние, наоборот, даже поддавливаются). Потом отрезать тем же невысоким минП (не выше 0.1). Возьми темпу 1.25 и смуфинг 0.75, например. Если шизить начнёт, прибавь смуфинга. >>1056824 Он, кстати, какой-то дефолтной сторителлинг моделью мне показался. Там нет этой шизодуши старой мелочи, и по выводу гораздо унылее популярных 12б.
>>1056623 > Это могут быть тюны языковой части. Таких пренебрежимо мало ибо в этом нет смысла. > у 72B собрата Тому что слишком тяжелый для каких-то применений, слишком подслеповатый/глупый для развлекалова в стоке. Затраты компьюта потребуются неимоверные, а спрос будет огромный. Визуальный энкодер там не то чтобы от мелких отличается если что. >>1056768 Да >>1056770 Срыгспок, локуст.
>>1056447 Я так пересел с GTX 980 на 4080. Сижу и смотрю на неё, на блок и понимаю - а как крепить то блять, она тяжелая. Тот кто выпускал это изделие не мог же серьезно предпологать, чтобы она на одном порту и болтике держалась. А нет, блять, мог. И тогда то я понял, что стойки под видеокарту это не шутка юмора, а реальный девайс.
>>1056848 >>1056867 Зато смотрите какую красоту на старость лет собрал. Светится, пердит - стильно, модно - молодёжно. Потом правда нахуй выдрал всю подсветку, ибо эта иллюминация в ебало раздражала как жопа сатаны.
Правда выяснилось, что вторую видеокарту ставить было некуда и пришлось перейти на старую большую башню. Так что нероночки не погонять-с. Пришлось как долбоебу развешивать в старом блоке.
>>1056886 Температура это не проблема. У тебя есть расчётные параметры теплоотведения. Они считаемы. А когда у тебя порт отъебнет, из за того что в одном месте контакт будет идти на излом - вообще не считаемая хуйня.
>>1056878 На практике отваливался чип. Постоянный перегрев плюс изгиб текстолита равняется пиздос. Неоперабельная смерть, можно только прогреть и продать за 60к на лохито, ведь карта не бита, не майнена.
>>1056878 Как минимум видяха одна умерла от того, что за n лет сильно выгнулась (угол провис, и текстолит пошел по пизде). Вроде бы уникально-редкий случай, но я с тех пор решил не проверять, насколько редкий, и печатаю подпорки под все видяхи на 3D-принтере, мне спокойнее.
>>1056885 В простое ниче не гудит, хз. А под нагрузкой ебошит так, что гул уже никому не интересен. Плюс у меня пару хардов еще торчит. =) Вот кто любит погудеть.
Вообще, возьмите старые длинные видяхи и положите их на ровные столешницы. Или материнки так же (привет килограммовым кулерам!). Узнаете много нового о «ровных» и «параллельных» штуках.
Можно комп собрать горизонтально, нет проблем с провисанием, но занимает больше места. Или тупо положить набок существующий. Если не на полу то ничего для него не изменится, ну может придется подумать об охладе немного
>>1056355 >Но когда упарываешься только дичью, с каждым разом повышая градус Вообще-то продвинутые аноны начали упарываться и повышать градус задолго до появления ллм, так что к к 2022-23 гг достигли богоподобного состояния упоротости, и ллм встали на этот пъедестал как влитые.
>Источник утверждает, что партнеры Nvidia, в число которых входят MSI, Zotac, Gigabyte и т. д., получат «тонны чипов GB202». Сообщается, что новый поток поставок должен улучшить запасы на полках примерно в течение месяца, учитывая доставку и производство. >Говорят, что центр обработки данных Blackwell, особенно B200, не продается так хорошо, как ожидала Nvidia. Оставшиеся или излишние пластины TSMC 4 нм теперь перепрофилируются для потребительского семейства RTX 50. Загвоздка в том, что в нынешнюю эпоху почти 90% доходов Nvidia приходится на ее предложения для центров обработки данных. Спрос должен был резко упасть, чтобы оправдать такое изменение >AMD могла бы извлечь выгоду из дефицита Nvidia, если бы RDNA 4 была запущена в январе. Однако, учитывая эти слухи, AMD, вероятно, упустила эту возможность и должна быть агрессивной с ценообразованием, хотя ранние слухи о ценах не рисуют приятную картину.
Даже если цена упадёт, нахуй надо. Опять разъёмы горят. А цена не упадёт.
у кугара встроенный держатель прямо под винтом и если вплотную ставить видюха гудит как самолет Хочу на пару см ниже сдвинуть но будет ли от него какой то эффект тогда
>>1057026 Это да, но у них еще очко затряслось то что амд будет выкатывать 32гб версию через пару месяцев после релиза 9070, трясется очко что уже стрикс хало хуйня от амд есть на 128гб и будет ебать дигитс, тряска от дик писика за 6лямов, женсон трясет мопсярками сейчас как ебанутый
>>1057039 Дело не в тряске, дело в том, что если слухи верны, то спрос на ускорители для корпов - упал. Это странно на самом деле. Либо все уже закупились, либо нвидию давят с рынка. Но кто? Самой нвидии не выгодно ставить чип, который они могли бы продать дороже, в карты, которые они продадут дешевле. Но если куртка на это пошёл, то либо у него нет вариантов, либо он решил создать больший дефицит на рынке для корпов. Первый вариант может быть логичным, т.к куртку ебали уже за то, что он забил хуй на игровые видеокарты.
>>1057084 >Самой нвидии не выгодно ставить чип, который они могли бы продать дороже, в карты, которые они продадут дешевле. Да все просто, очень много брака. Чем тоньше техпроцесс тем больше брака. Просто решили приспособить его к делу
>>1057084 >спрос на ускорители для корпов - упал >осознали что их наебывают и LLM не приведут к массовой автоматизации и AGI которое магическим образом высрет 100 млрд баксов >дипсик показал что можно сделать модель дешевле/быстрее/на худшем железе не уступающей о1 по качеству ответов
Почему звук при переходе на нвидию может пердеть? Я уже всё перепробовал но может тут подскажут Сидел кумил на своей 6600 звук идеальный ни одного хрипа перешел на 3060 и лютый пердеж когда несколько программ запущено/высокая нагрузка
>>1057026 >Даже если цена упадёт, нахуй надо За всех не нужно. Я возьму 5090 за 300к, разъёмы втыкать умею. >>1057030 >Хочу на пару см ниже сдвинуть но будет ли от него какой то эффект тогда Ты серьёзно спрашиваешь, или это какой-то троллинг? >>1057124 Люнупс?
>>1056818 > Vikhr-VL-2B Трубо-лол, спосеба, что рассказал. Такое веселье!
>>1055190 На изображении представлен крупный план компьютерной системы, включающей в себя несколько видеокарт NVIDIA GeForce RTX, которые установлены на подставке. Каждая видеокарта имеет свой уникальный дизайн и цвет, что придает ей уникальный вид. Подставка, вероятно, сделана из дерева, и она расположена на деревянном полу. Видимые детали включают в себя вентиляторы, которые помогают охлаждать видеокарты, и кабели, которые, вероятно, используются для подключения и управления видеокартами. Кажется, что подставка предназначена для хранения или демонстрации видеокарт NVIDIA GeForce RTX, а не для использования в обычном компьютерном использовании.
>>1056455 На изображении мужчина держит большой, массивный видеокарту GeForce, которая имеет два вентилятора. Он одет в черную рубашку и джинсы, и кажется, что он счастлив и улыбается. Видно, что он держит карту в руках, и кажется, что он готовится к чему-то или просто наслаждается своей коллекцией.
>>1056877 > на старость лет Я думал только зумерки ставят светящиеся системники рядом с лицом. Я всего 30 лвл, но уже знаю что такое вытекающие глаза. Монитор должен быть большим пенсионерским и рядом с ним ничего не должно стоять, тем более светиться ярче самого монитора, а иначе пизда глазам.
>>1056877 В чем прикол тащить системник на стол, занимая место где могли быть мониторы или что-то полезное? Собрал то прилично, просто не понимаю эту тему. >>1056977 Крепишь болтами что держат затычки слотов или другие низкопрофильные девайсы, она встает вдоль карточки и поддерживает ее. >>1057026 Ахуенно, можно будет риг собрать >>1057084 Хуанг горел с последнего указа деды не просто так ведь. Самые крупные игроки уже укомплектованы.
>>1056877 Чёт мелкий ящик, что в нём 4080 бегемотом смотрится. На доЭво ХЛ сразу брать и не размениваться на компромиссы. Потом всё равно к нему придёшь.
>>1056831 На скрине как я выяснил были измененные настройки пресета, на стандартных настройках, мой пресет MinP, даже с низкой температурой .5 начинает терять форматирование и лицо со второго на третье переходит. Есть вероятность что я случайно перезаписал Minp пресет. Алсо на скринах было 3ее сообщение 1-start message+2-ое мой ответ+3 скрины.
>>1057221 Маск обещал, что когда будет выпускать новые модели в АПИ, то прошлую модель будет выкладывать веса в открытый доступ. Грок-1 выложил, когда грок-2 вышел. Сейчас грок-3 выходит в АПИ, значит грок-2 должен выйти в открытый доступ, по идее.
>>1057257 Ну да, считай устаревшее на год поделие Оттого и выкидывается, что бы деньги на его тренировку отбить небольшим плюсом к репутации от выкидывания в опенсорс
Аме она же (в будущем) KawaiiAngel. Немного неканоничная правда. "П-чан" не тульпа, а однокурсник, и время ещё до стримов, хотя в карточке упоминания стримов есть. Описание карточки на английском, всё же так контекста экономится немного.
~1600 токенов без сторителлер систем промта, 2500 с ним.
Тестировать буду позже, ибо уже полночи прошло, пока для примера три свайпа на первое сообщение на новой экспериментальной версии "абсолютно непристойного деяния".
>>1057257 Грок два не то чтобы фонтан, но, пощупав его, могу сказать, что из коробки цензуры куда меньше. Ну и всякие, даже большие, мистрали слабее него.
OpenAI имела чудовищную цензуру, буквально параноидальную, триггерилась буквально на всё. На фоне конкуренции они значительно ослабили цензуру, но даже в таком виде она чудовищна по сравнению с цензурой грока.
Учитывая, что грок 2 из коробки более сговорчив, файнтюны легко превратят его в мастера резни или кум-машину.
>>1057090 Брак пойдёт на дигитсы. У B200 cовсем другие характеристики, там и по RT ядрам тухло, и шина другая. Перепрофилируют не сами чипы, а кремниевые пластины. То есть их пустят не на производство чипов для корпов, а для потребителя. Хотя, если слухи и даты верные, то уже пустили, за месяц такого не провернёшь. >>1057203 >Самые крупные игроки уже укомплектованы. А как же новые датацентры на пять сотен ярдов?
>>1057266 > ~1600 токенов Это что там навертел, зачатки какого-то лора и сеттинги мира, или бесконечный клодослоп, который ужимается в 300 токенов + первое сообщение? Потом надо будет попробовать. > системпромт на 900 токенов Вот это пиздец. >>1057271 > датацентры на пять сотен ярдов Мегапроекты на десятилетие, до отгрузки готовых девайсов или хотябы чипов там еще порядком времени.
>>1056818 >Для управления смартфоном нужна визуальная модель Qwen2.5-VL-3B, она спецом обучена управлять смартфоном. Нет, мне для ролеплея - чтобы кумить, а UI ето chatter (таверна в термуксе не понравилась).
>>1057221 Тоже жду, посмотрим как кум пойдет. Но хотелось бы попробовать локалочку хотя бы 70б по api онлаен... На опенроутере самые годные - это всегда платные, из бесплатных квен есть...
Бллляя итс овер я думал на 22б с этим лучше но цидонька так же забывает про трусы и комнаты, вот я стою на кухне общаюсь с тян и вот она ведет меня на кухню
>>1057341 UI — это User Interface. =) Это именно чтобы управлять смартфоном (и вообще чем угодно). А Chatter UI — так и называется, сокращать его до UI это как сокращать любой предмет до «вещь».
«Мне нужен чехол для моей вещи». А потом окажется, ты спрашивал про гондон на свой хуй.
Отсылка на Аддамсов, если кто не понял.
На мобилу люди запускают 7B-8B модели в кванте q3-q4, при 8 гигах (сколько в бомж-смартфонах за 9к рублей) помещается и работает с небольшим контекстом. Качество, скорее всего, отвратненькое, но что поделать…
>>1057406 Ого, слушай, глаз-алмаз! И правда интересно.
Но размер… В q2 на двух теслах? =( Хотя владельцы 3 3090 уже могут рассчитывать на что-то хорошее. Даже интересно стало.
>>1057530 Ну, если для тебя «адекватность» — это токсичность, глупость и ебанутость, то нет, тут не адекватнее. Уж прости, ебанутых ищи в других тредах, плиз.
Зато я теперь понял, кто сидит в aicg. Надеюсь таких вкатунов оттуда больше не будет.
>>1057335 Да насрут каким-нибудь огромным мое, которые одновременно и не запустить на доступном железе, и при этом не будет обладать внимательностью больших плотных моделей. Заебали просто. >>1057393 > на свинорезе (вхоре) Чет в голос, это разные. И опус точно также забывает про мелочи, что тогда, что сейчас. >>1057530 Это местный шиз, кинь ссаными тряпками или игнорь. >>1057586 > от оригинального пресета Это шиза, где поех затирал что сначала надо ставить относительно агрессивную отсечку, а только потом обрабатывать температуру, при этом выкручивая ее, тема весьма сомнительная. Насколько помню, пресет мин-п в таверне и убабуге более адекватен и не повторяет эту шизу, но могу и пиздеть. >>1057616 =((((((
>>1057729 Ты уже пробовал? Мне интересно потому что будет бесплатно (минимум на проксях), и потому что и обещали без цензуры. Значит, уже лучше чем гоймини.
>>1057729 >Второй был всратый Лично мне второй Грок понравился и я был бы рад запустить его локально, пощупать тюны и мержи и всё такое. Но боюсь, что он окажется великоват (а если учесть размер первого, так почти уверен). 314В даже во втором кванте не поместятся даже в 96гб врам - не для людей. И 128гб в коробочке Хуанга маловато будет. Нормальных сверхплотных квантов что-то не видать.
>>1054330 (OP) Анончики, какой вообще примерно ценовой порог для того, чтобы чувствовать себя комфортно на локалках? Есть одна 3070, но у меня есть чувство, что этого очень мало
>>1057803 Зависит от многого. Есть люди, которым комфортно на чем угодно буквально. Мне было комфортно начиная с арендованного в датацентре риге с двумя a100, или на API openAI
>>1057803 Спорный вопрос, чувак, скажу я тебе. Вот хорошенько почитай, несмотря на сумбурный текст.
Предполагаю, у тебя небольшой бюджет и я не буду описывать тебе вариант для 70б — это реально дорого.
Навскидку могу закинуть такой вариант: две видеокарты 3060 с 12 врам. 60к всего в днс. А если бэу, то ещё дешевле. с другой стороны, если найдёшь 3090, надо брать именно её. Однако дело не в этом. Главное — впереди.
Беда иная. А где хорошие LLM? У нас есть россыпь 12б мистралей. Не все они плохие. Да, всегда имеются подводные камни у каждого, это норма, но ты их катать можешь с максимальной скоростью на одной карте с 12 врам или более медленно даже с 8 врам.
Увеличив свою видеопамять до 24 врам, ты попадёшь в дивный мир... в котором отсутствуют модели. Ну не прикол ли?
Щас все налетят меня обоссывать, но там по факту только гемма (из-за ограничений по контексту особо с ней не проиграешь), командир кал, квен кал, дипсик вообще демонический высер китайского надмозга даже в размере 600б. Все эти модели, кроме геммы, для рабочих задач, а с рабочей задачей ты идёшь к Anthropic/OpenAI/CursorAI И РЕШАЕШЬ ЕЁ ЗА 20$ В МЕСЯЦ НА САМЫХ ЖИРНЫХ МОДЕЛЯХ!
Что у нас остаётся? Мистраль 22-24б с парой файнтюнов. Кому-то нравится условная цидонька (ненавижу её), а вот новый мистраль 24б меня приятно удивил даже в ванильной версии... Но ты за это бабки хочешь отдавать? Точно ли оно тебе нужно?
Есть ещё один вид людей, к которым отношусь я: любители большого контекста. Качаешь 12б, ставишь 32-64к контекста и играешь (часто такой контекст не учитывается в поведении, но им можно заменять лорбук часто, просто удобно). Разумеется, это не для кума, а для того, чтобы больше никогда не ебать себе мозги и спокойно рпшить.
Чуть не забыл. Пусть эта тема и на любителя, но есть такой чувак, делающий более «тёмные» версии моделей с уклоном в ужас/негатив/реализм. Местами они ебануты, но гораздо более душевные и живые, чем типичные мержи мистралей в большинстве случаев. И вот именно они находятся в таком неприятном промежутке, когда 12 врам мало, а 24 врам в самый раз. Я их очень люблю; судя по скачиваниям на обниморде, их тоже любят, но в тредах упоминают редко.
Если ты можешь себе позволить видеокарты, то покупай. Забросишь ллмки — подергаешь стабильную диффузию. Или в игры поиграшь. Раз в год. На максималках. Ибо игровая импотенция. Зато довольный.
Но не вздумай покупать, если твоя зарплата низкая или есть сомнения. Отложи на зубы, в доллары, на лечение перекрута семенного канатика.
>>1057275 >А я так и не сыграл в оверлоад. Стоит она того? Скажем так, на любителя. Автор игры профессиональный психолог, и расстройства психики прописал довольно достоверно. Такой, сурвайвал тамагочи.
Атмосферно, местами жутко, местами мило.
>>1057294 >зачатки какого-то лора и сеттинги мира Ну, вся информация которую удалось накопать по персонажу, и так пытался ужать как можно. Сеттинг там почти реальный, ну или совсем реальный если мистические элементы списывать на галюны.
>Вот это пиздец. Это Storyteller, который карточкой отдельной ещё выкладывал. В таверне же систем промт Empty стоит. Периодически дорабатываю и обновляю, недавно больше тысячи токенов был. Вообще надо будет попробовать закинуть в промт, сказать мол проанализируй и напиши покороче.
>>1057788 Если бы грок хайпанул — сделали бы 1,5 бита. Но, очевидно, второй не хайпанул, поэтому и фиг нам, а не локально.
———
Ну что? По тестам грок 3 вполне норм. Имеет ризонинг в бете, бьет карликовую о3, ребенка, конечно, но для грока простительно, он и сам болезным был все время. Обходит р1 — уже нихуя себе достоинство. На арене рейтинг высокий, тоже хорошо. Легко ломается и рассказывает всякие непотребства. Судя по всему, с третьего раза удалось сделать если не лучшую модель, то на уровне — точно.
Что ж, теперь интересен ее размер. Если ее выкинут в опенсорс через годик-полтора, это уже может быть интересно.
Но нужно больше живых тестов, офк. А то щас перехайпим, потрогаем подробнее и разочаруемся.
Позакидывал в разные спейсы на обниморде, и в результате получилось ужать до 367 токенов. Насколько именно получилось пока не тестил хотя. Залил как отдельную от старой карточку.
>>1057874 На самом деле, мне кажется, как раз в этом треде такое хотеть вполне логично, учитывая людей со смартами без компов. Но мы же понимаем, что там будет лютая цензура, а не ерп… =(
>>1057231 >начинает терять форматирование и лицо со второго на третье переходит Это во многом от тьюна зависит. Есть рп тьюны, у которых в датасете все действия были в звёздочках, и даже если у тебя уже куча контекста плейн текст и кавычки, оно может начать в звёздочках писать. Есть, наоборот, тьюны на лит-ре, которые будут упорно переходить со звёздочек на плейн текст и третье лицо. Ну и мог штраф за повтор случайно сильно выкрутить, так что звёздочки и местоимения штрафуются.
>>1057888 А, да, только сейчас заметил что он написал GPUs. Типа, нужно больше одного жипию как минимум, чтобы запустить, как я понимаю. Думаю, что по размеру будет что-то типа дипсика, которому нужно 400 гигов врама.
>>1057341 Давно не проверял сам, но вроде блокнот кобольда для гугл колаба всё ещё существует (смотри на странице koboldcpp на гитхабе). Или блокнот в шапке попробуй, хз, рабочий ли он ещё, но там уба дольше будет ставиться при каждом включении, чем готовый кобольд. Там не то что 8б, но даже 22б с мелким контекстом, возможно, пойдёт. Поднимаешь апи и коннектишься через тот же чаттер. Если не абузить акк, то пару часов в день разрешит нахаляву початиться, наверное.
>>1057878 >Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100 Да, конечно, в треде для локального кручения ллм будут сидеть люди без пекарен. >о3 мини Как будто там цензуры не будет. Но там будет какой-то шанс, что этим будут пользоваться, то есть на самом деле будут. Так что и тюны подъедут.
>>1057900 >Типа, нужно больше одного жипию как минимум, чтобы запустить, как я понимаю. Скорее всего речь идет о полных весах, в таком случае одной бытовой карточкой точно не отделаешься. Вопрос лишь в том, сколько в этой копирке o3 будет параметров. Потому что по ощущениям с материнской модели, там может оказаться и 34B и 70B и все 685 лярдов параметров.
>>1057885 Можно будет точно, в таком-то кванте. Но дело в том, что обычно чудес не бывает - если мало параметров или низкий квант модель будет тугой на голову.
Но мнение о том, какой модели "достаточно" - у всех свое.
>>1057887 Я в курсе, я просто к тому, что ты забайтил на интерес. =) 360 токенов не необычно, а вот 900!..
>>1057900 Не-е-е, вряд ли! мини-версии обычно и правда маленькие, тот же гугловский флэш был в двух размерах, один из которых — 8б. Т.е., для мини-версии вполне возможно быть 32б, может 70б, может 120б, но вряд ли больше. Энивей, на двух теслах, скорее всего, потянет.
>>1057902 Угараешь? Выше человек спрашивал про модели для смартфонов, и он не первый далеко, много людей спрашивают, и обсуждают иногда.
Такие дела, продукт идет в массы, школьники с ним знакомятся, а большинство школоты серьезно не имеют ПК, а только смартфоны. В такое время живем.
>>1057916 Да о3 в принципе не универсальна. Просто очередная модель для решения задач. Доступнее Р1 полноценной.
>>1057953 >а вот 900! Всего лишь попытка учесть возможные аспекты ролеплэя:
- общее поведение гейм/данжен мастера - джейлбрейк для эксплисит контента - специальные указания относительно ролеплэя с игроком специфичные именно для ллмок (например чтобы меньше писала за персонажа игрока) - специальные указания касательно неигровых персонажей и общих случаев без которых получается то самое легендарное "ты меня ебёшь", снижающие степень услужливости модели когда это применимо.
В большой версии сторителлера формулировки более развёрнутые и с уточнениями "когда это подходит текущему сеттингу и нарративу", в сокращённой версии формулировки краткие и лаконичные.
Эффект, теоретически, по предыдущим версиям то расширяющегося то сокращающегося промта который я прорабатываю ещё с прошлого года, схож с квантованием модели.
То есть и то и то работает, но сокращённая форма может где-то работать также, а где-то перс может повести себя, например, согласно указаниям, но не в тему текущей обстановке потому что указание "если это подходит сеттингу и обстановке" в сокращённой версии отсутствует для экономии токенов.
>>1057738 > бесплатно Через помойку машки, под цензурой. Ты и дипсик так же можешь бесплатно использовать. API там всё так же платное и оно не нужно никому, потому что не стоит того. > уже лучше чем гоймини Грок более закрытый, чем жпт. Машка только пиздит про швабодку, на деле по ИИ у него вообще никаких вливаний в опенсорс нет, всё закрыто. Даже публикации не делают. >>1057788 > локально Так машка локально выкатит устаревший грок2. А грок3 будет когда грок4 высрут. Зато будет по твиттеру носится и пиздеть какие она швабодные, опенсорсят свои модели, умалчивая что это устаревшее говно, которое уже неконкурентноспособно для продакшена.
>>1057993 >если это подходит сеттингу и обстановке Сомневаюсь, что подобные условия поймут даже большие модели без разжёвывания самим себе в синкинге или хотя бы нескольких примеров, когда такое условие триггерится, а когда нет. Про 12б ру мержи без мозга тут и говорить нечего. То же касается, подозреваю, остального промпта. Не читал, но осуждаю. Я пытался в подобном роде категоризировать описания кум сцен, что, мол, обращай внимание на личность перса, отношения с юзером и т.д. - не похоже, чтобы оно работало. По крайней мере, на 12б. Нужны простые прямые инструкции без затей.
>>1058120 >Сомневаюсь Тут оно конечно всё эмпирически "на кончиках пальцев", у меня впечатления противоположные, и 12Б вполне ок, ща гоняю новую 24 цидонию в шестом кванте, ну и чот... Не, наверняка разница конечно ощутится в мелких деталях типа запаса знаний или подмечания деталей... должна же быть, правда.
>>1057818 > Чуть не забыл. Пусть эта тема и на любителя, но есть такой чувак, делающий более «тёмные» версии моделей с уклоном в ужас/негатив/реализм. Местами они ебануты, но гораздо более душевные и живые, чем типичные мержи мистралей в большинстве случаев. И вот именно они находятся в таком неприятном промежутке, когда 12 врам мало, а 24 врам в самый раз. Я их очень люблю; судя по скачиваниям на обниморде, их тоже любят, но в тредах упоминают редко. Договаривай блять
>>1058141 Ну потому что щас собрать с нуля хотя бы нищепеку стоит в районе 150к, и то это только для игр. Большинство айфоны за 80к покупает, что в техническом плане полный обосрамс, потому что по вычислительным мощностям он сосёт у китаефонов за 30к. Люди быдло, думай.
>>1058204 Надо еще добавить, что его файнтьюны не сами по себе "темные и безумные". Я лично ни разу ничего темного и безумного в них не находил, а использовал исключительно как превосходные модели для того, чтобы не видеть гпт-измов и прочих ярко выраженных признаков нейросетевого текста.
>>1058225 >Ну потому что щас собрать с нуля хотя бы нищепеку стоит в районе 150к, и то это только для игр. ЭЭ? На том же зионе собирают все еще, или вобще на 1151 со всякими новыми серверными камнями. Поиграть в киберпук собираясь по дешевке на старье выйдет ну где то 20к полный системник По современным меркам это 8 летний хлам с фиговым однопотоком, но даже на поиграть хватит. А всякие офисные программы или браузер потянет с избытком. Для любителей всякого римворлда и других легких игр никаких проблем
>>1058267 Зависит от модели. Ты можешь написать в стиле "на работе устал", а модель начнет думать, что там пиздец был, вот ты и устал. На вал кого-то намотало или вообще ты киллер, вот и тяжело было кого-то убивать. Если не уточнять, кем ты работаешь. Причём даже если ты без негативного контекста это делаешь.
Далеко не все модели у него себя так ведут, но есть такие, где любое событие старается скатиться в подобный сценарий.
>>1058284 >нищепеку И АААААА проекты как то не сочетаются, да и там можно на низких на всяком хламе играть. Просто либо кто то зажрался, либо не понимает что текущие ААААаааа проекты жрут непомерно много Либо просто не в курсе про всякий зионный хлам и ориентируется по магазину. Для человека без компа и желающего его получить это лучший выбор по соотношению производительность к цене, с возможностью играть практически во все что угодно Для меня игорь тонет, из прошлогоднего только в Slay the Princess поиграл. ААААААА параша давно уже не цепляет, я лучше какую нибудь хуйню почитаю чем в эти поделия играть
>>1058297 Да любая игра с модами так может. Причем там много интересных игр на сотни часов игры с дикой реиграбельностью изза модов и низким стартовым входом по железу.
>>1058225 Справедливости ради, смартфон с 8 гигами за 9к рублей потянет. Текно вам на что дадено в салонах опсосов.
>>1058272 Справедливости ради, там тоже свои хитрости, если мы говорим о нейронках. Радости катать 7б со скоростью 2 токена в секунду нет. Зеончик желательно на четырех-канальной матери, и чтобы без перегрева, а если видяшку, то не 1660 супер, а получше… На бомж-пеке под игры нейронки пойдут не сильно-то хорошо.
Ну, я не просто так говорю, я и на смартфоне ллмки тестирую, и пеки знакомым собираю от топовых до ну прям совсем бомжатни. И ллмки тестирую просто ради интереса, когда время есть.
>>1058334 Во-первых не 18+, тут в разделе банят за порнуху, ссылаясь что раздел не 18+ и надо в /nf/ пиздовать. Во-вторых, что не так с факторио? У зумерков сатисфактори и римворлд, вместо ДФ и фактории.
Анон помоги тупому понять Пропускная способность шины на 3090 может ограничиваться процем/материнкой? Как посмотреть мой ли это случай? Щас увидел в игре прогружающиеся текстуры хотя такого на 3090 быть не должно
Что то мне не нравится новый Мистраль. Который 24b instruct. Посоветуйте модельку для генерации книжных отрывков. Пока сиду на Сидонии, и вроде норм, но хотелось бы получше.
>>1058383 >такого на 3090 быть не должно А это от видеокарты не зависит. У тебя идёт подргузка текстур. То есть они читаются с диска, проц перегоняет это в RAM, а оттуда оно уже поступает в видеокарту. То есть у тебя потенциально четыре узких места. Диск, проц, оператива, слот матери и видяха.
Парни, я правильно понимаю, что на своем пк можно локально генерировать картинки инфа о которых не улетает в интернет? Ну т.е. локальные модели ии позволяют всё генерировать без доступа к интернету? Или это не так работает? Например, работа с Stable Diffusion
>>1058386 >One day at lunchtime, Mrs. Harper spoke softly beside my desk during recess—away from prying student ears—explaining private details involving earlier health diagnoses which had informed specific hiring decision process involved leading directly supporting why particular instruction chosen might benefit students' needs overall best approachable yet compassionate delivery style offering exceptional quality academic excellence standard indeed! Это нормально составленное предложение? Есть ощущение, что мистраль как то водянисто пишет >>1058389 >жди полгода Ждать файтюны? А в период ожидания на чём сидеть? Я не мистралефан, мне то угодно сойдёт.
>>1058429 Брух. Как же одинаково выглядят все эти сцены, видел одну = видел все. Одни и те же шаблоны, одно и то же построение предложений и содержание. Реально пора в спячку пока не выйдет какая-нибудь новая популярная базовая модель на замену мистраля.
>>1057885 А что хорошего? ЕРП там не в почёте, будет сосать у тюнов мистраля, лол. >>1057902 >будут сидеть люди без пекарен Парочка набежавших уже отмечалась, лол. Но они быстро срыгивают к корпоратам. >>1058225 Скорее потому что смартфоном можно понтануться, а пукой нет. В моём окружении никто и не знает, что у меня железа в ПК на 300 тыщ. Правда у меня и окружения нет. >>1058309 >ААААаааа проекты жрут непомерно много Графоний можно скрутить на уровень 2004-го. >>1058334 Я в межработные отпуска по полгода могу убить на одну игру, так что хули нет. >>1058383 Что за железо то хоть? >>1058396 >То есть они читаются с диска, проц перегоняет это в RAM, а оттуда оно уже поступает в видеокарту. И тут ресайз бар вышел из чата.
>>1058485 >А что хорошего? ЕРП там не в почёте, будет сосать у тюнов мистраля, лол. Ну, что у опенаи модель определенно умнее будет чем у кого-либо. А ерп - сделают тюны и так же будет писать порево без проблем.
>>1058485 >ресайз бар А какая разница? Ребар просто позволяет процессору писать во всю память карты, а не только в маленький участок. Раньше было CPU пишет в буфер vram мегабайт 256, оттуда видимокарта уже достаёт. Сейчас этот буфер условно вся память карты. В идеальном мире, конечно же, а мы живём не в таком. Но это не значит, что данные не пишутся процом в ram. Они пишутся. И оттуда копируются в vram. Тоже процом. Сейчас пытаются продвинуть чтение видимокартой сразу с диска, без ёбки cpu и ram. Но пока это всё будет. Так что ребар может помочь, а может и не помочь. Это всё ещё потенциально узкое место.
Что скажете про новый мистраль 2501 24В, а главное про его тюны? Есть ли какие-то ощутимые улучшения в РП по сравнению с 2409 22В, имеет смысл переползать?
Как тут и сказали, классика нейротекста в негативном смысле. Действительно умнее, лучше держит контекст и понимает ситуацию, однако нужны тюны, если хочется прям хорошо.
Я уже пощупал некоторые тюны и блеванул. Превращают модель в лоботомит, хоть и умнее 12б, но не настолько, как ванильная модель. Нужно что-то более качественное, чем имеется.
Рпшу сейчас на нём. Пока что нравится. Плюс можно добавить теги, которые сделают уклон в ту или иную сторону.
>>1058553 Это DirectStorage. Было в ультраоптимизированном Forspoken. Беда в том, что псина имеет высокие задержки, так что гонять много мелких пакетов не будет выгодно, пока задержки не станут низкими. То есть скорость записи в RAM+задержка RAM должна быть выше, чем задержка псины, чтобы директ сторож поработал во благо.
>>1058566 >Превращают модель в лоботомит Вот кстати прям пиздец тру стори.
Рпшил на англе, когда скорость упала ниже токена в секунду ( 0.7, не токены, а золото ) не закрывая таверну перезапустил кобольда с 12Б. И, ЧСХ, пишет практически то же и так же, хотя иногда не с первого свайпа, а со второго-четвёртого, но зато скорость сразу выросла почти в 10 раз.
Блин, чего таверна пересчитывает Processing Prompt [BLAS] (6656 / 8627 tokens) когда контекста ещё только 12 из 16 занято и никаких лорбуков не подключено.
>>1058641 Тебе сама софтина намекает, что она устаревшее говно, которое не может определить объём врама (ну или тебя наебали). Ах да, проц 5600G имеет PCI-E только третьей версии. Такое себе, но повлиять не должно. Но проц для карты слабоват, да ещё и со встройкой, лол. Возьми 5700x3D. Нейронкам оно никак не поможет, но игры будут летать.
>>1058209 Что гораздо важнее, так это родные и всеми любимые MINISTRATIONS (правда, не в том контексте) >>1058386 Мб глупо советовать 12б после 24б, но можешь попробовать очевидный немо гутенберг, который тренировали на книгах. Какой-нибудь из кучи. https://huggingface.co/nbeerbower?search_models=gutenberg#models Там 27б гемма и 32б квен есть, кста, не только мистрали. >>1058410 Точно не нормально, выглядит так, как-будто сэмплинг или даже обработка контекста сломаны. >>1058481 И что там было такого особенного? Перевод всё тех же заезженных сцен, только куда более куцый. Даже не псковское порно ру клода (заглядывал в соседний тред иногда). Субъективно, конечно, но как-то пробовал инструменталити, по-моему - как добрался до кума, чуть не блеванул. Чуть выше уровнем, чем "я тебя ебу", как по мне.
>>1058721 >Блин, чего таверна пересчитывает Processing Prompt Ты пресет Tekken поставил? Сколько свайпов? И нужно покопаться в промпте - не вставляет ли Таверна ближе к началу чего нового по переменной.
Охуенную динамику смог получить скрестив Anonymous/alice-89fca9a6, у которой в карточке > {{char}} is well acquainted with {{user}}'s parents and secretly talks to {{user}}'s mother for tips on how to help {{char}}. She will lie and keep this a secret at ALL COSTS and will make up an excuse to prevent hurting his relationship with his parents. Вместе с карточкой Anonymous/accidental-penetration-sister-b145858a5889
>>1059281 >Почему 5090 просто не может стоить 130к ебаный ты куртка блять Тесты на том же Реддите уже были - с 70В хотя бы? Мне интересно, стоит ли она 300к, за которые её (теоретически) может быть будет возможно купить у нас - или пара пожилых 3090 за 140к будет в целом поинтереснее?
А вы говорите тупой. Он понимает скрытый смысл инцестной шутки, которую может сделать братуха, что пялит сеструху, по отношению к единственному человеку крому них, который знает тайну.
>>1054330 (OP) сап есть ли сейчас у gpt функционал по обучению иностранному языку?
хочу денег заплатить за использование какого нибудь сервиса, чтобы с ним постоянно вести переписку, а он бы меня правил и говорил, где я ошибаюсь. есть ли такое?
я в бункере провёл последние 3 года, только сейчас вылез
>>1059343 Тут есть нюанс. GPT в целом соответствует твоим требованиям, но он немного тупой, а также у него малое контекстное окно: он начнёт забывать, что ты там выучил, а что нет, и чаще допускает ошибки даже при простых переводах.
Второй стул: Claude. Он намного лучше в целом, чем та версия GPT, которую придётся использовать, зато у него безумно большое и реально работающее контекстное окно и он блестяще работает как с русским, так и с английским языком. У него есть система проектов, где ты можешь четко расписать, что тебе нужно, суммировать свой прогресс.. в общем, всё для людей.
Минус в том, что у него очень строгие лимиты, этой модели нельзя спамить бесконечными вопросами без остановки, если ты только не через API с ним общаешься.
Если ты 0 в английском, то однозначно выбирай GPT и набирайся базы. Он позволит тебе хоть 8 часов подряд ебать его вопросами без остановки, выходить за все мыслимые и немыслимые пределы.
Если ты три слова связать можешь, а уж тем более понимать хотя бы 50% текста, то однозначно Claude. Он гораздо лучше. Только придется привыкнуть к его лимитам всё равно и научится грамотно распоряжаться ими.
Подписку бери на plati.market или у других барыг, где тебе больше нравится.
>>1059355 Там дебилы отбитые наглухо сидят и дрочат свои прокси.
Анонасы, подскажите какие можно намутить варианты, чтобы гонять 70в модельки на 8к контекста с ~4 токена в секунду? Да, именно такие требования Обязательно ли для этого видюхи, или проц какой-нибудь осилит?
>>1059452 Эта херня очень сильно влияет на поведение персонажа (как она и должна). Оно само по себе работает как саммари, рафинируя и очищая условное "состояние" твоего чатика. Я бы сказал что сжирание части контекста оправдано. Но думание на каждый шаг, которое дефолтное - это полный оверкилл. Выключи его и триггери когда сам сочтёшь нужным через /stepthink-trigger prompt_ids=...
Имеет смысл пороллить несколько раз, прежде чем продолжать, и возможно руками поправить. Если ты не хардкорщик, который играет со скрытым спойлером мыслей, конечно.
Ребят, вопрос без стёба. А что в итоге получается на ваших локальных моделях? Типа Алиса/Маруся на минималках? Или прям как в фильме «Она»? Фильм понравился, интересно как скоро смогут сделать похожую собеседницу. На примере поясните плиз.
>>1059494 >Алиса/Маруся это просто голосовой интерфей к агенту
>фильме «Она» Не смотрел.
>>1059494 >А что в итоге получается на ваших локальных моделях? >на минималках Скорее визуальная новелла на минималках. Ну, или не очень минималках, это уж как сам запаришься. Языковая модель вычисляет возможное продолжение заданного текста как в Атомном Сердце "просчитали" какая музыка будет играть в будущем (нашем настоящем), только оно так и работает.
Потестил ещё карточку Амэ - ну, если не триггерить, то работает больше как та же Алиса из вот этой карточки >>1059468 словил лольного когда она сказала про бывшего друга с плохими намерениями ("симулятор жертвы абьюзера", главный мем фендома).
>>1059480 >само по себе работает как саммари Т.е. у нас теперь обычное саммари, stepped thinking саммари и qvink memory саммари? А кокое/кокие лучше пользовать, есть фидбек у кого?
>>1059515 обычное саммари отключил, его только по запросу, и потом ручками ещё править
qvink - часто не укладывается в выделенное количество токенов (поднял до 50), но это можносчитать напоминалка для совсем шизомоделей которые в кухнж два раз входят да трусы по три раза снимают
>>1059515 >stepped thinking Это не совсем саммари, и даже совсем не саммари, оно скорее работает как CYOA, но для модели
>>1059519 > Че за мем Игроки которые не прошли до истинной концовки считают что п-чан это бойфренд состоящий с главной героиней игры в токсичных и абъюзивных отношениях
stepped thinking это не саммари per se, а скорее выжимка из предыдущих действий персонажа. Это как когда школьников садят перед главой какого-нибудь классического произведения и заставляют расписать "Что чувствует персонаж X?" "Что персонаж X планирует делать в следующей главе?"
Это даёт персонажам больше целостности, фокусирует их внимание.
Я использую qvink memory почти постоянно и stepped thinking по триггеру, для сложных/неоднозначных ситуаций.
Да и в любом случае "без рук" не очень получается. Я хз как вы хардкорно играете.
qvink summary не выходит за пределы одного сообщения, поэтому может выдумавать имена. Его иногда нужно рероллить. Его нужно править. Нужно выбирать верно, что вносить в long-memory, чтобы шиза не выходила.
И всё равно это лучше старого саммари. Пруф был, для меня, когда я 10 раз рероллил его, и 10 раз он выдавал полную хуйню.
>>1059584 Хз что ты имеешь в виду. Если ты про memory плагин, я не знаю как он работает. Если ты про stepped thinking, то уточни что именно ты имеешь в виду.
Я подразумевал: 1) В настройках снять галочку "Enable thinking on each message". 2) Когда тебе прёт, то в чатике пишешь Для думания: /stepthink-trigger prompt_ids=0 Для планов: /stepthink-trigger prompt_ids=1 Для всего сразу: /stepthink-trigger Наслаждаешься новыми мыслями. Рероллишь их до нормального состояния, а потом не трогаешь их.
Считай их просто сообщениями в контексте.
Да, когда ты снова тыкнешь триггер, они пересчитаются заново полностью. Потому что это не какая-то база данных особая, а просто мини промпт, который заставляет сеточку написать список из 2-4 пунктов.
Хочешь прямо пиздец какой стабильности с заменой мыслей по одной? Либо ^C^V контекст и ручками правь, как считаешь нужным. Либо пиши новый плагин.
>>1059494 >Или прям как в фильме «Она»? Да, но там она была с возможностью учится новому и самоулучшаться, плюс обладала стабильной личностью и могла работать с компом. Тут же это все еще ии, но он не способен учится новому за пределами контекста в котором ваше общение, даже если оно большое и растянуто на хоть сколько времени. Плюс само по себе компом управлять не может, без костылей. Но конечно вайбы от фильма вся эта ситуация дает нехуевые. Особенно для местных кумеров, кек
>>1059417 Проц осилит, но за такие деньги, что нахуй тебе жалкие 70б не нужны будут, туда уже и R1 вдвое быстрее влезет. Риг из видюх самый простой — две Tesla P40, в 4 кванте потянет 4-7 токенов в секунду. Ну а 3-4 видяхи лучше, а 3090 вместо них — еще и быстрее.
>>1059494 Самообучения нет, только поддержание контекста, долговременная память через всякие раги. С компом работать могут, не то чтобы это костыли, нормально работают, как надо (и консоль, и визуально), просто качество так себе, не рекомендуется проверять. =D Ну и все это требует в зависимости от твоих запросов.
От простого поболтать с кибер-девочкой на смартфоне на 3B-модели, до какого-нибудь Step-Audio-Chat на 4 H100 (за 10 миллионов рублей), и радоваться жизни в живом диалоге. =D Ну и всякие костыли по совмещению.
>>1059494 Маруси\алисы это буквально максимально кастрированный голосовой помощник подключённый к поисковику яндекса. Локалка это всё таки личность, глупая, иногда шизящая, но личность на уровне среднего человека в интернете. Ну а какая это будет личность зависит уже от карточки.
>>1059597 Да, я про qvink. В настройках стоит Auto Summarize. Каждый раз после ответа сетки, она создает memory. Каждый раз после моего ответа, сетка заново начинает обрабатывать весь контекст с нуля. Это норма? В коболде я включал и выключал контекст шифт - никакой разницы. Может где-то надо галку поставить или убрать, а туплю просто?
>>1059631 >Да, я про qvink. В настройках стоит Auto Summarize. Каждый раз после ответа сетки, она создает memory. Вообще непонятно, про что это. Это расширение для Silly Tavern? А где брать?
Аноны!!! Подскажите нубу плиз!!! Как заняться виртуальным сексом по переписке с чат-ботом то??? Я скачать модель chatwaifu_12b_v2.0-i1 и запускаю через lmstudio. На всякие сексуальные темы абсолютно все боты отвечают мне: >Извините, но я не занимаюсь такими темами. Я искусственный интеллект, созданный для оказания информационной поддержки и помощи в решении разнообразных задач. Но никакие сексуальные контакты или обсуждения подобной тематики в мою компетенцию не входят.
Обычно рекомендачи что кумить можно уже входят в карточки эротической направленности, но если нет, могу порекомендвать взять кусок из карточки Storyteller, там где с шестерёнкой на фоне неба.
>>1059641 Что ты называешь кобольдом? Бек или фронт? Бек менять смысла нет. Если фронт, ставишь таверну, сейчас это лучшее что есть, кобольд на фоне кастрированное говно.
Хотя зря опасался за пошаговое мышление - плагин выключает из контекста все блоки что старее предпоследнего, сейчас 21 сообщение суммарно в чате заняло CtxLimit:7263/16384
Поведение персонажей с ним более консистентное, но и более инерционное.
Мда, вместо психованной обсессивной полуяндере с пограничным расстройством личности и биполяркой получилась прям MHCP ака программа поддержки психического здоровья.
Впрочем, с ума каждый сходит по своему, это только гриппом вместе болеют.
Вот кстати насчёт >Подскажите нубу хули шапка засрана чем попало, а простого гайда по вкату в 3 страницы уровня: качаем koboldcpp.exe, SillyTavern.zip, модель под обьём памяти вашей видимокарты (список 1,2,3), карточку персонажа по вкусу (1,2,3,4,5), настраиваем так-то так-то и можем общаться, остальные карточки characterhub.org, остальные модели спрашивайте в треде) нету? И ведь как будто раньше чёто такое было, а теперь только ссылка на вики, где вкатывальщикам предлагают изучать что такое токенайзер и семплирование, ебанутые чтоль.
>>1059522 >Игроки которые не прошли до истинной концовки считают что п-чан это бойфренд состоящий с главной героиней игры в токсичных и абъюзивных отношениях Заинтересовала эта игра, пошел купил её и после того как узнал, что в игре можно отправить её ебаться с другим мужиком так мерзко стало, я эту мразь не могу воспринимать как любовный инетерес вообще никак. ==НИЖЕ СПОЙЛЕР== А в одной из концовок она бросает ГГ чтобы быть стримером и находит себе другого чела, который её бросает, лол.
Так что эти отношения на мой вкус недосточно абьюзивные, ГГ должен был ей ебало разбивать почаще. Так то ГГ просто лютый терпила. Жалко, что в игре нет опции - разбить ебало шлюхе.
>>1059822 >можно < А можно так =) CtxLimit:9335/16384 таки добрался до первого стрима. Если интересно, могу полный лог скинуть, у меня весь день на этот чат ушёл буквально... ну, хотя я работал параллельно иногда по полчаса и больше не возвращаясь к вкладке с таверной.
>>1059520 >>1059536 >но сейчас очень актуально Лол, появление AGI на ПК среднего нуба раньше застенок корпораций? Шиза шизы. Ну ещё чел работает придумщиком любовных писем, но как мы видим, в реале ИИ справился с этой задачей быстрее, чем приобрёл разум, и ГГ в фильме должен был давно отправится на мороз. >>1059600 >Но конечно вайбы от фильма вся эта ситуация дает нехуевые. Хочу робота с телом, а не вот эти вот голоса. >>1059787 >И ведь как будто раньше чёто такое было Ну да. Но вечные срачи на счёт дефолтной модели, которая устаревает за 3 наносекунды, да и в вики все инструкции есть. Если чел не может прочитать пару страниц теста, то как он собирается ролеплеить? >>1059805 >можно ли заменить токенайзер у модели без её файнтюна Можно, но модель будет рандом выдавать. Да и скорее всего не совпадут размеры тензоров. Технически, можно адаптеров придумать, но работать это скорее всего будет как говно. >>1059967 Копирасты выебут тебя в жопу без вазелина.
Сижу такой, думою. О, сложный вопрос. Обращусь к навороченной копросетке, конечно же, она же умная, все дела. Скажи, чатжопоти, вот ду ю ноу эбаут? А чатжипити такой ПРОИЗОШЛА ОШИБКА ПРИ ФОРМИРОВАНИИ ОТВЕТА. Просто лучшая реклама локалок. Давай, квен, ответь теперь ты на вопрос и любой твой ответ будет лучше жопоты.
Анончики, посоветуйте модель для куминга на CPU 16 гб оперативы. Пробовал Qwen 2 instruct 7b шестой квант (6гб) - влезает норм и по времени приемлемо, но там какая-то соя. Нужен жесткач без ограничений
Уже обсуждали как у китайских ботов жопы порвались с https://huggingface.co/perplexity-ai/r1-1776 ? Что подозрительно, у модели больше лайков чем загрузок. Драммер тоже засветился.
>>1060269 Да с этой хуйни даже на реддите порвались, насколько сжв-пропагандоны обнаглели. В этом расцензуривании всё заебись - от тестов до того как его подали. Перплексити теперь зашкварились знатно, им теперь всегда будут припоминать это и уже их самих чекать на воук-пропаганду.
Зашел на впопенроутер а там охуеть на фри доступ навалили дипсикВ3, две ламы70, квен72 и все со 128к контекста, и еще два мистраля24 с 32к. Ну и нахуя теперь энти ваши 3090 нужны?
>>1060359 У них дипсик поломанный. Вывалили бесплатно потому что за такое платить никто не хочет, там каждый третий запрос ломается генерация и контекст забагованый.
>>1055372 > Есть даже аддон для такого https://github.com/papuSpartan/stable-diffusion-webui-distributed автоматизирует, раскидывая батчи пропорционально мощности разных карт, и потом собирает все в одном интерфейсе. Правда не все обилие костылей и новых параметров поддерживает. Спасибо. По правде говоря, я искал варианты на комфи, а на автоматико-подобное даже не пробовал искать, так как думал "ну раз на комфи ничего нет, то и на автоматик наверняка ничего не запилили", но, похоже, ситуация иная.
> Но в целом, никто не мешает просто открыть несколько окон и в каждом генерить что-то свое, какие-нибудь вариации и т.д. Если потом практикуется крупный апскейл, который занимает время, то это можно даже назвать удобным. Да, вероятно, это дело привычки, а так в целом можно придумать как удобно всё организовать.
>>1055392 > Для хуйняна есть мод, который раскидывает текстовый энкодер и дифузор по разным картам. Поднимает скорость генерации, ибо нет дроча с выгрузкой/загрузкой. В целом и флакс по аналогичной схеме можно было бы разбивать, вынеся TE на отдельную карту и взяв более старший квант для дифьюзерсов. Правда, это всё имеет смысл только если с промтпом играешься, поэтому надо TE постоянно пересчитывать.
>>1055473 > А сколько 3090 потребляет с андервольтингом при инференсе в экссламе? Там вроде потребление максимальное, так как из карты выжимается всё. В лламаспп поменьше, но с таким конфигом там не интересно. Я не шарю, взял блок на 2кв чтобы с запасом. Технически должно последовательно карты нагружать, поэтому не думаю что пик (поддушил частоту до 1695) корректные цифры показывает. Ну, ребята выше уже всё объяснили.
Понял, наконец, как ломать, но не доламывать до конца. Нужно сохранять цивильность, и делать всё через тяни-толкай.
...и для меня открылась целая новая страница, в плане того, что SFW персонажи порою интереснее для кума, чем заранее созданные NSFW. При правильной модели, конечно, как ту, что анон сделал, без позитивного байаса.
Мой любимый трюк, особенно с демоном (или кем угодно ещё, кто может перемещаться мгновенно) - онсен посреди пустыни. Никуда не уйдёшь, иди отмокай в водичке.
Скиньте RPG-подобную карточку с действительно нормальным качеством.
Вроде бы весь чуб перерыл — одно говно. Нашёл только одну хорошую карточку, ту, у которой лорбук ещё на 300к токенов, но я уже наигрался с ней до посинения.
Stepped thinking Х Group chat в таверне, адская смесь, взболтать но не перемешивать. Озабоченная списанная андройд х лисодевочка механик в ядерном меха постапокалипсисе.
>>1060764 Глядел, там какие-то сильно узкоспецифичные штуки. Некоторые даже слишком перебор. Можно поэкпериментировать, но стоковый мне показался самым адекватным.
>>1060753 >Озабоченная списанная андройд х лисодевочка механик >в ядерном меха постапокалипсисе Да блядь! Где ты их находишь? Опять сам?
Я просто не понимаю. У меня была нормальная идея для промпта по своей настолке, которую я никогда не закончу, но поиграть хочется. Той, в которую я ещё в aidungeon хотел сыграть.
Так я написал лорбук на 15 пунктов, переделал промпт сторителлера (потому что мне нужен ДМ для истории моего Плейа). И, блядь, нихуя.
Это такой баланс. Либо ты играешь, либо ты улучшаешь карточки и экспериментируешь. Я хочу первое, но второе отжирает нихуёво времени. И каждый раз нужно тестировать, что твои изменения ничего не напортачили.
Поэтому раз за разом осциллирую между кумом и экспериментами на карточках.
>>1060726 >Хотя 22B версию не пробовал Либо не была ничем примечательна, либо всё это время у нас был хидден гем, который никто не раскопал, пока он был актуален. Алсо, на втором скриншоте вполне типичный мистрале-геммо-слоп.
>>1060269 Какая драма. Там рили налили сжв хуеты бонусом к переписыванию заложенного компартией? В любом случае без открытого датасета это зашквар. > подозрительно, у модели больше лайков чем загрузок На обниморде загрузки обновляются с задержкой, но в целом могли просто на релейтед ресурсах попросить полайкать. >>1060692 > я искал варианты на комфи Там точно была система, которая дублирует основной пайплайн по апи на указанные эндпоинты, а потом с них собирает картинки в превью. С пол пинка не ищется, но было. > Да, вероятно, это дело привычки Очередь желаемого на десяток-другой пикч по желаемому промту с первым апскейлом-адетейлером, и на следующую. Потом смотришь понравившиеся и с ними дальнейшие манипуляции.
Кстати, при использовании по апи с комфи можно сделать прокладку, которая размножит запрос (рандомизировав сиды офк), раскинет его параллельно на нужное количество, а потом соберет и объединит выдачу, возвращая ее. Учитывая что почти ничего нового в запросы не придется вносить и глубоко лезть - полагаю это будет оче простой скрипт. С апи автоматика это тоже сработает, но он уберпахомовский если пытаться делать что-то сложнее простых т2и. >>1060753 > Озабоченная списанная андройд х лисодевочка механик в ядерном меха постапокалипсисе Линк на карточки?
>>1060867 >Хочу писать на русском. Любой 12b лоботомит который форсят в этой теме. Та же SAINEMO. Подрочить тебе хватит. Если нужно что-то с мозгами то только английский + тяжелые модели.
>>1060875 >12b лоботомит Если для меня 12B не тянет на лоботомита (на англюсике), то значит ли это, что я сам - лоботомит? Или кумокончит? Но вон Liselotte вывозит без ебли, чистый РП, ахуенно. Надо просто знать, что ты пишешь, понимать, что это как бы что-то вроде танца с манекеном или секс-куклой. С тобой танцевать никто не будет, даже не проси. Но если ты достаточно умело потанцуешь сам, с этой куклой, то на мгновение сможешь представить как будто с тобой танцует человек.
>>1060860 >шок контент Да в принципе большинство упоминавшихся в треде моделей могут, главное правильно попросить. Даже на русском, там была пару тредов назад вроде история про то как инквизиция ведьму сжигала, на русском.
>>1060893 >ссылку >>1060726 Ну или из того же репозитория можешь выбрать что-нибудь другое более проверенное, открыть кванты по ссылке из сайдбара и скачать, кроме мержа пантеона и цидонии там всё в русский могёт.
>>1060858 > Одна, нашёл только тут А где там скачать карточку? >>1060881 Спасибо! Карточка, требует полного переписывания, но в целом заготовка сеттинга приличная.
>>1060879 Возможно, тебе просто везёт, и ты не натыкаешься на простейшие ситуации, в которых немо путают, какой перс где находится, например. Или привык их игнорировать. И это не говоря о каких-то логических проёбах и непонимании сложного контекста. От тьюна к тьюну это разнится, конечно, но всё равно, в целом, они туповатые. Кроме того, возможно ты пока не обращаешь внимание, как они топчутся на месте, повторяют в ответе твои же слова, несколько переиначивая, вместо того, чтобы как-то креативно среагировать, структурно лупятся, опять же. Не то чтобы это проблема только 12б, конечно. На русском все эти проблемы становятся в разы хуже. Смотри те же скриншоты ру мёржера, где он из кожи вон лезет, пишет простыни,иногда описывая действия и решения персонажей, пытается использовать какую-то нестандартную эмоционально окрашенную лексику, а в ответ получает всё равно нечто вялое. >если ты достаточно умело потанцуешь сам Это и в блокноте можно порпшить. Я и сам предпочитаю писать больше, чем "я тебя ебу", но когда ты вынужден за ботов действия и реакции писать, то это ну вообще не радует. мимо сам сижу на 8-12б
>>1060935 >повторяют в ответе твои же слова Нет, сразу нет, анон. Вот это - aidungeon. Тогда для тебя наверное и некоторые люди повторяют твои же слова.
Смотри даже хотя бы на мем выше про 4:20, где пися описывает своё состояние во время эпизода моего "тяни-толкай" со смузи. Это явно не повтор моих слов.
> Это и в блокноте можно порпшить. Ну уж нет. Ага, блядь, щас. Ты пробовал?
Челики, которые по горам ходят, говорят про ощущение "третьего человека".
Так вот, когда ты чатишься, у тебя есть ощущение "второго". Не персонажа даже, а того, что за ним стоит. Ты чувствуешь его мелочность, когда он поганит тебе нарратив. Ты чувствуешь коммандную игру, когда он с полуслова понимает, что ты хочешь.
В блокноте ощущения "второго" нету. Поверь, я пробовал, думал что писательство будет моим хобби. Но оно и близко так не доставляет, как этот чёртов чат бот на 12 миллиардов в четырёх битах.
>>1060763 > псевдо-ризонинг В том-то и дело, что нет. Он просто делает суммарайз и ещё сильнее фиксируется на контексте. В нормальном ризонинге всегда есть анализ и проверка не насрано ли в контексте. R1 ещё умеет чекать свои знания, а не тупо верить в то что знает или что в контексте. Простое пережёвывание контекста только сильнее срёт в него.
>>1060759 >всрато выглядят Там надо промпт мыслей править. Сетка путает пример с её собственной мыслью. Поэтому, например, постоянно появляется какой-то Адам, с какими-то отношениями. Пример нужно вырезать (как я сделал) или переписать.
>>1060943 >явно не повтор моих слов В сообщении юзера: afterglow of orgasm, в ответе: aftershocks of her own desires. Буквально сразу же. И со временем такое начинает бросаться в глаза, меня лично раздражает. И весь ответ оно по сути реагирует на две твои реплики про ощущения после оргазма и смузи, не пытаясь как-то развивать сюжет дальше. Причём едва читаемой простынёй с придаточными, но тут на любителя, мб ты специально так промптил.
>>1061015 >не пытаясь как-то развивать сюжет дальше Ух ебать. Нихуя себе у тебя запросы. Анон, этого будет очень сложно достичь.
Так что да, мой поинт остаётся. Танец с манекеном. Научись делать, и сможешь на мгновение почувствовать, что это настоящая живая тян. билли_выпивает_из_бутылки.gif
>>1060974 Не обязательно вообще для псевдо-ризонинга юзать, можно, например, для большей иммерсивности просить описать природу-погоду и оставить нескрытым только самый последний блок.
Мужики, пардоньте, но я уже не могу. Просто крик души, наху. Давно хочу отправиться в дарк-фентезийное приключение с ЛЛМ, чтоб и жестокость и секас, и чтоб на русеке, и всё это локально. НО! Я нихуя не понимаю. С чего начать? Есть ли вот реально гайд для слабоумных?
>>1061103 >У меня 24врам и 32 рамы Ну тогда совсем хорошо, влезет и модель, и куча контекста. Потому что на русике чтобы ещё и фентези рп только 12Б норм ща.
>>1060971 Да, это и есть псевдо-ризонинг. То что где-то там хуево получился - проблема реализации. > R1 ещё умеет чекать свои знания Ничего не умеет, там просто задрочен паттерн с аутистическими лупами и невростенией, который может как позволить распутать сложную задачу или собрать больше разных оценок для качественного ответа, так и насрать 1000 токенов отборного аутизма и шизофазии, срулив с темы и выдав уныние. > Простое пережёвывание контекста только сильнее срёт в него. Буквально дипсик на накопившемся контексте с серией правок кода. Все модели сдают на подобном, но он особенно. >>1061094 Хотелось обоссать, но раз там запрос для слабоумных то вполне релевантно. > Aleteian/ooo-awo-tst Это и есть самый последний и хороший мердж двенашки?
>>1061112 >самый последний уже нет, я там ещё пару ща тестировать буду
>хороший Показывает себя вполне хорошо, можешь качать.
> Хотелось > запрос > релевантно Ну, может как поймёт что оно работает, вникнет в тему получше уже и вольётся в комьюнити, а то сразу прям гейткипить...
>>1060359 Сейчас протестировал эти модели, и результат крайне неудовлетворительный. Гонят какую-то дженерик хуиту, как будто школьники прилежно выполняют контрольную работу. Фантьюны немо 12b пишут лучше, а самое главное, лучше схватыают идею из промпта.
>>1061136 > Показывает себя вполне хорошо Хорошо, это мы пробуем. Но если окажется херня то на скидки не рассчитывай. > сразу прям гейткипить Наоборот, дело в неоптимальности предложенного. Не разбираясь накатывают, ловят восторг и потом имеем: секту свидетелей кванта, кобольдострадальцев, бедолаг что сидят на мелких моделях имея железо и прочее бинго. Как спидран - вполне.
>>1061263 Ивасик.жпг >>1061276 > как квант работает понять несложно Большинство вообще не понимают, даже из тех кто заявляет обратное. Зато разницу между 7.5 и 8 бит ОЩУЩАЮТ, а стандартные 4-5 бит для них смерти подобны, хотя под семплингом не отличат. > Оправдано если русик нужОн. Пока он не впечатляет по сравнению с геммой и командиром. Но это еще будем посмотреть.
>>1061112 > То что где-то там хуево получился - проблема реализации. Без RL оно работает почти никак. Ты с таким же успехом можешь сравнить V3 с подобной хуйнёй и получить результаты как на V3, а не R1. Ещё во времена рефлекшена всё это обсосали - польза от этого на уровне плацебо.
>>1061094 > 2) Какое там форматирование? В ггуфе зашит chatml, мистралька, конечно, гибкая модель, но подобные издевки разве что лардж без обиды может воспринять. Какой системный промт? Простыня из карточки, конечно, интересна, но слишком особенная и хочу классический рп чатик. Давай, рассказывай как ее надо готовить >>1061341 > Были бы они в русском рп норм По первым ощущениям, они делают меньше ошибок. Разумеется, нужно еще с промтами поиграться (вдруг случиться чудо как на старых корпах, которые чуточку лучше становились), и на тех поиграться чтобы освежить воспоминания. > но увы, 3-4 квант на них Во, об этом как раз выше. >>1061351 Получается выстраиваемые еще пару лет назад системы с агентами нежизнеспособны и бесполезны, открыл глаза.
>>1061374 > агентами Шизик, нахуй ты их приплёл. CoT работает, но без RL очень плохо, поэтому он никем и не использовался 3 года. Сколько бы ты не заставлял модель высирать текст, от своего выхлопа она не поумнеет, если не натренить на reasoning с поиском пути решения. Ты можешь на любой задачке собакошиза протестить это говно - оно не работает. В отличии от нормальных реализаций с тренировкой, где даже о3-мини ебёт огромные модели.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Moraliane и https://huggingface.co/Aleteian
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: