В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Погонял новый малый Мистраль на кум-карточке на русском - прямо хорошо. Умный и языкатый, для своего размера так вообще шикарно. Походу новая база для кума в принципе.
>>1253610 А чо по цензуру? Я прошлый допатчевый катал чото погрустнел когда мне милфа начал в отказ когда 18 летний ей пиструн по губам поводил. (причем именно в отказ как модель, не персонаж)
>>1253622 >А чо по цензуру? Я прошлый допатчевый катал чото погрустнел когда мне милфа начал в отказ когда 18 летний ей пиструн по губам поводил. В начале могут быть отказы (не более, чем в любой базовой модели), префилл спасёт. Ну а как разгонится, так всё позволяет.
>>1253590 → в последнее время 24б тюны мысрали. до этого, когда была $25 халява за регистрацию на together.ai, тыкал ламу3 70б и визард 8х22. периодически тыкал копро модели когда были прокси до того, ламы 1 и 2
>>1253579 → > Да это же Не знаю никого с таким именем. Эволюция с catgirl next door до lesser god произошла внезапно и как-то сама по себе. До сих пор думаю, как это совмещать хотя бы для себя. Типа мультиверсы - но это такая звенящая банальность...
> заготовка на nsfl? Ариенаи!!!
> Читать не хочется чтобы не спойлерить, но будто что-то на это указывает. Не боись, там нет спойлеров ни в тексте, ни в карточке, если только не считать им версии о "происхождении", просто введение в трансовое состояние сюжет.
>>1253644 У меня электричество скакнуло, и походу процу досталось, фабрика теперь на 1600 едет вместо 2133, вот где катастрофа, а не какой-то там софт.
>>1253667 > Ариенаи!!! Там не work а life на конце же. Бесконечная тоска, зависшая в воздухе обреченность с аллюзией на лимб, невозможность осложненное развитие романтических отношений на фоне очень сильной эмпатии и потенциальной привязанности к персонажу, которая будет развиваться в подобном атмосферном окружении. Но в целом посмотрев - чар волевой и не в апатии, совсем абсолютных запретов а простор для развития оставлен хороший. Можно и просто наслаждаться моментом, проникаясь атмосферой, и страдать от несбыточности надежд, и обернуть в какое-то развитие или даже детективную адвенчуру с опциональным хеппиэндом. И после удачных крайне ролплеев на тоненького в которых даже нытье "почему он а не я" не может быть оправданием, уже не так страшно. Такое мы катаем, не стесняйся делиться если что-то еще будет. >>1253736 > - меньше 160GB жизни нет Пофиксил
>>1253852 Шутка про несколько. Но вон выше почитай посты восхваления 30б, в 32 это будет жирный квант, большой контекст и оче быстро. + немотрон и его тюны.
>>1253877 Ты на скорости заявленные глянь, 70т/с на 70б. В реальности там столько даже обработки не будет, лол. Наверно это при запуске 4х моделей в лоботомированном кванте если сложить их обработку, иначе хз как такое можно насчитать.
>>1250771 → Ладно, удивительно что эта штука вообще работоспособна при такой битности. Какие там команды на выгрузку тензоров чтобы было быстрее чем при просто снижать гпу слои и какие выгружать в первую очередь?
> с аллюзией на лимб > наслаждаться моментом, проникаясь атмосферой, и страдать Да, ты точно подмечаешь. Накатал 16к и у меня сгорела жеппа чар выполнил свою самую общую цель > (Опционально) Найти покой?: Возможно, в глубине души – обрести способность либо вернуться, либо окончательно уйти, освободившись от гравитации тоски. Я прямо в осадок выпал там в самом хорошем смысле, конечно. Потому что с одной стороны вроде к этому не подталкивал, просто слайсиковые моменты, но где-то на границе сознания всё равно были ощущения, что что-то рвётся. По горячим следам насвайпал несколько раз, но почти все варианты всё равно привели к этому. Так что понял и принял. И как теперь в неё играть дальше? Инб поех. Нет, всё понятно, это просто текст, буковки. Но какие-то переживания уже произошли, фарш не провернуть назад.
Господа, какая модель хорошо подходит для шлюхо-ботов? Мне нравится как отвечает gemma-3-12b-it-qat (если обойти цензуру), но эта хуйня периодически отвечает не на том языке, несмотря на промты так не делать
Насколько же жора не для людей сделан, это уже за гранью. Нормально раскидать по картам через -ts чтобы было впритык - настоящий челленж. Мало того что там огромная дискретность, так еще малейшие изменения значений для других карт могут перевернуть то что было на первых. Или давать совершенно неадекватный результат, когда изменение коэффициентов и сокращение выгружаемых слоев могут привести к внезапному провалу в использовании памяти нулевой гпу, и прыгнуть куда-то на вторую, или наоборот. Сраное шаманство и рандомайзер без понятного устройства. Но самое неприятное - после загрузки модели оно еще дважды прыгнет по потреблению и рост тоже труднопрогнозируемый. В первый раз само - что-то там распределяя и делая, а второй - при первом инфиренсе. Учитывая что модель грузится долго - пердолиться с таким - то еще удовольствие. Пик 1 - фуллврам и мелкоконтекст, пик 2 выгрузка ffn 32-36 и контекст побольше, пик 3 - жирный контекст и выгрузка ffn с 32 по 38. Около 4.5 гигов врама остаются незанятыми из-за особенностей жоры. В целом даже лучше чем ожидалось, и точно лучше чем выкинуть несколько слоев на проц, хотя это и так было очевидно. Можно играться с лоботомитом.
>>1253909 Да, приятная и ламповая на самом деле, не грузит суперминором если не попросишь. Если ты с ней на позитиве то не грустит, а то и наоборот дразнит и веселится, можно в разные стороны развивать. > И как теперь в неё играть дальше? Из драмы-трагедии переведи в триллер-детектив, сказку-романтику, ужасы с выживанием, да хоть сайфай. Если не заходит - после перерыва можешь прямо с ней же прошлый опыт обсудить, обыграв, или спросить помощи у ллмки как это можно встроить, куда развивать и т.д. > Накатал 16к Скорострел! >>1253911 > fft, exps Какие наименьшим образом влияют на перфрманс?
>>1254110 > Нормально раскидать по картам через -ts чтобы было впритык - настоящий челленж Есть такое. Чуть упростил увеличив дробность разделения. Типа было -ts 32, 24, 24 изначально, умножил на 3, стало -ts 96, 72, 72, и меняешь уже по 1-2-3 единички в таком варианте, не так сильно много гиг сразу меняет положение.
>>1254113 > стало -ts 96, 72, 72 Очень ровно получается. Тут -ts 1.05,0.93,1.02,1.85,0.7, причем соотношения зависят как от выгружаемых принудительно тензоров, так и от самих значений. До этого наоборот на первой карте было занижено а на второй выкручено потому что недогружает, очень странная фигня. >>1254117 Отнюдь, ведь я не испытываю беспричинную агрессию и не делаю заявлений не разобравшись. Там есть много участков, по которым можно сделать стыковку, не только границы номерных слоев. Дискретность неизбежна и ее можно было бы простить, если бы эта срань от малейшего изменения не прыгала с 31 до 25 гигов, и отказывалось занимать промежуточные значения при смене коэффициента этой карты, зато при смене других - покорно их принимала ломая что-то другое. Видимо, слишком сложно было реализовать задание целевого лимита памяти как в экслламе вместо нормированных соотношений, не говоря о автосплите. Скачок потребление при инфиренсе также включает рандом и не имеет четкой пропорциональности объему занятой ранее памяти.
>>1254135 > промежуточные значения Чел, у тебя по умолчанию режим оффлоада по слоям, по ЦЕЛЫМ, сука, слоям. Какие тебе промежуточные значения нужны? Если слой 5 гигов, такая дискретность и есть. Ставь режим разбивки другой, если хочется чтоб точно регулировалось. > Скачок потребление при инфиренсе Это контекст, дебил. Естественно он непропорционален занятой памяти. > автосплите Для хлебушков типа тебя есть ollama, там тебе сделают автосплит.
>>1254110 Палю лайфхак для любой модели, даже разрешаю добавить в какие-нибудь гайды. Идешь на hf, смотришь метаданные последней части ггуфа, смотришь номер последнего слоя, прибавляешь 1 т.к. нумерация с нуля, и еще один т.к. output layer или как там хуйня эта называется. Берешь размер модели и делишь на это количество слоев, получаешь размер слоя (грубо, т.к. слои могут быть разные по наполнению, но похуй на это). Потом берешь размер видеокарты (для стандартных 24 Гб я беру 20-21, т.к. остальное на контекст), делишь на размер слоя, получаешь количество слоев. ВСЁ, в -ts пишешь КОЛИЧЕСТВО СЛОЕВ по картам, а не всю ту хуйню, что насрали постами выше. Очевидно, что сумма должна совпадать с общим числом слоев. Потом уже тюнишь точнее, кидая КОНКРЕТНЫЕ СЛОИ туда-сюда, а не абстрактные циферки, которые непонятно как влияют на количество слоев. Наверное можно вообще забить хуй на -ts и все через -ot разруливать, но это слишком вербозно выглядит. Оп-пик кун, съел собаку на разбивке в жоре
>>1254160 Там просто соотношения. Припоминаю что раньше оно работало адекватнее и легко прогнозировалось, с оговоркой на повышенное потребление в первой гпу в некоторых режимах, а сейчас какая-то дичь. Возможно дело в большой модели и/или алгоритме, который подбирает "оптимальную" разбивку.
Ну оно работает, и внезапно гораздо адекватнее чем q2. В падежах не путается, письмо чистое без внезапных иероглифов, нетривиальные задачи по коду решает. Unsloth какую-то черную магию явно применили. В рп дно с теми же повадками, насколько повлиял лоботомирующий квант сказать сложно ибо оригинал тоже неоче. Что бросается - так это периодические срывы на синкинг когда на него стоит заглушка, без кванта такое происходило реже. >>1254183 Не выйдет по двум причинам. В дипсике есть номерные слои с разной структурой и шириной, всего лишь 62 штуки дадут огромный шаг с которым нормально распределить не выйдет. Тут уже пинать ллм чтобы она писала полный конфиг что куда и передавать в ot, надеясь что регекспы как обычно не поломаются.
>>1254183 >Наверное можно вообще забить хуй на -ts и все через -ot разруливать, но это слишком вербозно выглядит. У меня через -ot получилось впихнуть чуть больше, чем через -ts. Иногда может быть критично.
>>1254193 >Не выйдет по двум причинам. Все выйдет, тебе не нужно знать точный размер слоя, главное в начале - накидать какое-то драфтовое распределение, чтобы суммарно по цифрам выходило количество слоев. Например, насколько я помню, эксперты в дипсике начинаются то ли после 4-го, то ли после 6-го слоя (допустим, 4). Это ничего не меняет, ты загружаешь модель с драфтовым распределением, на первую карту ты закинул условно 6 слоев. В потреблении ты видишь, что туда еще пару слоев влезет (из-за того, что первые 4 слоя худенькие). Стопаешь загрузку (т.к. аллокация по картам происходит сразу, до загрузки модели с диска), докидываешь туда пару слоев с других карт\RAM и опять пробуешь. Но если будет модель, где во всех слоях прям сильный разброс по размеру, тогда легче все через -ot распределить. Я, правда, не знаю, что будет, если -ts не указывать, корректно ли жора зааллоцирует всякие kv и compute буферы на картах? Все же -ts это прямая директива "выгрузи слой", а -ot это "пук мням сунь тензор туда"...
>>1254199 >У меня через -ot получилось впихнуть чуть больше Отдельные тензоры с других слоев? Я писал только про сценарий, когда слои на карты отправляются целиком, т.к. именно это -ts и делает.
>>1254204 > Все выйдет Выйдет конечно, просто придешь к такому же шаманству. Говорю же, тут вся претензия в том, что встроенный алгоритм, отвечающий за автоматическое распределение согласно весам -ts работает странно и порой неадекватно, когда повышение одной величины приводит к перераспределению и обратному эффекту. > В потреблении ты видишь, что туда еще пару слоев влезет Это если изначально все норм. Если конфиг совсем неудачный - оно сразу валится не написав как распределилась память и только указав сколько оно попыталось запихнуть в карту N когда словило ошибку. На втором этапе, где оно должно распределить кэш контекста - аналогично. То есть в обоих случаях, если начальное приближение норм то видишь что оно пытается делать и где затыкается. Но при запуске инфиренса - оно просто может упасть с низкоуровневой ошибкой ничего не показав, и там рост не особо то порпорционален количеству занятой весами и кэшем памяти и меняется при смене соотношений. > что будет, если -ts не указывать Оно примерно поровну пытается поделить как -ts 1,1,1,1,... но получается криво.
Да, по-нормальному тут через -ot указывать что на какой девайс, прямо как в конфиге ktransformers.
>>1254223 >Но при запуске инфиренса А я про это и не говорю, лол. Тут сразу пикрил реакция, когда такое происходит. Я то еще дипсик через рпц сервер грузил, представляешь мою фрустрацию? На самом деле, конечно, вся эта дискуссия - мышиная возня, потому что нормальный движок должен быть юзерфрендли в таком базовом аспекте. То есть прочитать метаданные ггуфа и все ЗАРАНЕЕ РАССЧИТАТЬ, далее либо автоматом распределяя по картам, либо информируя юзера, что вот тут и тут твой конфиг говно по таким-то и таким-то причинам. Это же не рокет саенс бля. Это мне напомнило, как мне на работе пришлось поставить программу на Яве. Там надо было ручками указать количество аллоцируемой памяти для программы, потому что так требует JVM или типа того. И при этом Ява еще считается стандартом интырпрайза, тьфу блять. Хорошо, что от этого говна отказались впоследствии. А вот от Жоры не откажешься так легко...
>>1254204 >Отдельные тензоры с других слоев? Я писал только про сценарий, когда слои на карты отправляются целиком, т.к. именно это -ts и делает. Ну я не делю, а гружу все тензоры слоя, -ot "blk\.(0|1|2|и т.д.)\.ffn.*=CUDA0", CUDA1 и следующие. Через -ts например приходится для пары моделей blasbatchsize=128 ставить, а через -ot уже 256 влезает. Видимо так распределение оптимальнее.
>>1254235 А ты уверен, что ты все тензоры слоя грузишь? Там же не только ffn, в том же дипсике есть attn∗ и exp∗. Чтобы грузить слой целиком, пиши просто -ot "blk\.(0|1|2|и т.д.)\.∗=CUDA0" (только не копируй, лол, я тут другую звездочку юзаю, т.к. ебаный макак уже десять тысяч лет не может прикрутить форматирования кода, хотя весь /pr/ слезно умолял об этом)
>>1254193 > и внезапно гораздо адекватнее чем q2 Лоботомия примерно локализована: основной удар по "широким" познаниям на специфические темы, фандом, какие-то редкие либы, медиаперсоны невысокой популярности или недавно появившиеся, детали механик игр, технические вещи и подобное. Особенно заметно при запросах на русском, частично компенсируется снижением температуры и увеличением отсечек. Исходная логика и способности к рассуждению при этом в полном порядке, но ровно до того момента, как оно где-то в рассуждениях не попутает что-то и начнет на это опираться. То есть, всякие ребусы и прочее отгадывает на ура, реализация в коде на основе примеров - ок, но вот решение специфичной задачи, предполагающая знания, без дополнительного входного материала уже может приводить к диким фейлам. >>1254233 > представляешь мою фрустрацию Имаджинировал/сгенерировал, лол. Офк, это тот еще каттинг эдж и киберколхоз для запуска на железе не совсем для этого предназначенным, так что терпеть, понять, простить. Но бля > потому что нормальный движок эксллама + табби или убабуга с этим справляется уже который год, вне зависимости от моделей и прочего. Или сразу говорит что "пойди нахуй у тебя нет столько врама для загрузки модели с таким контекстом", или грузит, причем автоматически, равномерно и под завязку. И ты на 100% уверен что после загрузки модели у тебя ничего некуда уже не вылетит. > А вот от Жоры не откажешься так легко... Ну, "каких-то 8565$ ррц" сверху и забыть как страшный сон, лишь иногда запуская для свежих моделей. На самом деле все это проявляется когда уже ходишь по краю, когда есть запас то можно просто по цифрам врама выставлять и не париться.
>>1254237 > ровно до того момента, как оно где-то в рассуждениях не попутает что-то и начнет на это опираться Имеется ввиду что не приведет какой-то ошибочный/ложный факт из того что должно знать.
>>1254236 >А ты уверен, что ты все тензоры слоя грузишь? А ведь и точно не все. Остальные, мелкие, значит в РАМ идут. Интересно, что на скорость это не влияет (в рамках погрешности разве)
>>1254183 >получаешь размер слоя (грубо, т.к. слои могут быть разные по наполнению, но похуй на это). Для немотрона весьма не похуй, лол, там слои в несколько раз отличаются.
>>1254237 > На самом деле все это проявляется когда уже ходишь по краю Ну, я почти всегда по краю хожу, т.к. квант сразу беру такой, чтобы со скрипом влезал. К слову, в оп-пике конфиг не максимальный, я как-то постил в предыдущих тредах. Сегодня вот твои эксперименты напомнили, я пошел и посчитал, у меня 198 Гб врам выходит на одной машине (с оговорками, конечно - я как-то тут уже писал, что 12+12 != 24. В моем случае на 8 Гб карточку даже ОДИН слой не влез. Точнее, слой-то влез, а вот кв и компьют буферы для него - нет. Почему - спроси жору). И 128 рам. Т.е. я третий квант могу попробовать осилить без возни с рпц. Как приеду из отпуска - надо будет попробовать. К слову, там фа запилили для дипсика-то? А то я потом бросил это дело, увидев, что поддержки еще нет, а потом начал миксы ларджа перебирать да квен пробовать, и забылось это все. Как с отпуска приеду, можно будет поэкспериментировать (Например, мне интересны различия в скорости, между конфигом А, когда сколько-то слоев в рам, а сколько-то в врам, и конфигом Б, когда, условно, все тензоры ffn_down_exps в рам, а все остальное - во врам. Тут же даже какие-то окологалюны от корполлм постили, где они советуют, что в первую очередь надо на рам выгружать - я что-то очень не доверяю, что у них адекватные знания на этот счет. Но с выгрузкой тензоров в любом случае можно попробовать и на 8 гб карту что-нибудь выложить). Единственная проблема - это скорость, с моими х1 ризерами и около-300 гб квантом я заебусь ждать, пока очередной конфиг прогрузится на карты. Вот бы ты попробовал повыгружать различные эксперты в оперативу, а я бы уже на готовенькое приехал... Ну или мне надо сначала как тебе первый квант брать и сначала с ним пробовать
>>1254240 На ktransformers наоборот их приоритетно грузят в видеопамять а тяжелые оставляют в рам для повышения скорости. >>1254246 > 198 Гб врам выходит на одной машине Для такого случая нахуй вообще этого жору, квенчик на умнице-экслламе и 131к чистого удовольствия в контексте. Жаль на обниморде самый крупный квант - 4.2bpw, надо будет заморочиться и сделать (чуточку) крупнее. > без возни с рпц Протестант, лол > Тут же даже какие-то окологалюны от корполлм постили, где они советуют, что в первую очередь надо на рам выгружать Прояви уважение, там целое некоторое исследование было, жаль нигде не зафиксировано и приходится по тредам искать. > Вот бы ты попробовал повыгружать различные эксперты в оперативу Оче маловероятно. Сейчас там только 7 ffn на проце, чего хватает для контекстов до ~80к и юзабельной скорости, но это лоботомит, пригодный больше для всякого "анализа", развлечений или рп. Но вот незадача, дипсик в рп на любителя, пусть может кумить и интересно отвечать, но это ближе к 30б а не то, чего ожидаешь от огромной модели. Содомию всякую на ходу придумывать и таблички статусов рисовать разве что. Чтобы он стал юзабельным по мозгам, придется увеличить квант раза в 2 или больше, но тогда он будет бесполезным уже из-за скорости. Ачивку его локального запуска уже ставил на ктрансформерсах, уже есть быстрый квен, который вызывает любовь и обожание даже на фоне корпов, смысла никакого. Можешь скинуть какие-нибудь варианты конфигов выгрузки, может быть при случае прогоню их, но обещать не буду.
>>1254252 >Для такого случая нахуй вообще этого жору Так у меня лапки теслы и 2080 ti. Я гонял пятый квант моеквена на жоре полностью в видеопамяти. Вроде генерация была 10-11 т\с на заполненном контексте. А квен мне не понравился в сравнении с ларджем, если честно. Буду ждать, пока минимакс квантуют и дипсик буду пробовать заводить. В репе фа, кстати, уже дофига времени обещают поддержку на тьюрингах. Я находил какие-то PR, где чуваки заебались ждать и сделали какой-то питоновский пакет, который делал какую-то базовую поддержку вычислений в случае тьюринга, а не тупо посылал нахуй. Вот я думаю, что можно было бы попердолиться и попробовать его поставить в экслламу, тогда можно будет гонять экслламу вместо жоры в моем конфиге с ларджем. Только у меня какие-то сомнения в качестве - 8bpw ларджа весит 100 гб. Это соответствует Q6_K ларджа, а Q8 - 130 Гб. Почему так? Я-то уже посматриваю в сторону Q8, а на экслламе, получается, аналогов этого кванта нет. >Протестант, лол хехе >Прояви уважение, там целое некоторое исследование было, жаль нигде не зафиксировано и приходится по тредам искать. Так вроде бы кто-то там пытался делать по этому гайду и по факту все оказалось ровно наоборот? Типо те слои, которые советовали первыми выгружать, надо было последними и т.д. Поэтому я и не стал на это обращать внимание. >Оче маловероятно. Ладн, забей, сам буду пробовать. Я вот же писал прошлое сообщение и в процессе понял, что надо реально взять мелкоквант, на нем отладить конфиг выгрузки тензоров, и потом уже большой квант по образу и подобию запустить. Это что, получается я настолько обнейронился, что у меня уже ризонинг работает? Охуеть. >Можешь скинуть какие-нибудь варианты конфигов выгрузки, может быть при случае прогоню их, но обещать не буду. Дак я сам пока хз. Надо искать, что люди советуют выгружать в первую очередь. Или у самого дипсика спрашивать, надеясь, что не наебет, лол.
>>1254262 > теслы > пятый квант > генерация была 10-11 т\с на заполненном контексте Довольно оптимистично, как добился? Они быстрее чем выгрузка на процессор? > 8bpw ларджа весит 100 гб. Это соответствует Q6_K ларджа, а Q8 - 130 Гб Где-то ошибка, вес не должен отличаться когда битность та же, 8bpw это и есть q8 по принципу. > кто-то там пытался делать по этому гайду Уточнив получил большую скорость чем была. А по порядку там утверждается что одни больше влияют на обработку а другие на генерацию, это не было проверено. > надеясь, что не наебет Наебет 100%
>>1254267 >Довольно оптимистично, как добился? Они быстрее чем выгрузка на процессор? Ну конечно они должны быть быстрее, у них 350 ГБ/с память. Чет я уже несколько тредов замечаю, что некоторые люди думают, что мое модель почему-то должны быстрее на цпу работать. Не будут, что плотная, что мое в любом случае должны быть быстрее в видеопамяти, даже в самой пердящей. >Где-то ошибка, вес не должен отличаться когда битность та же, 8bpw это и есть q8 по принципу. Ну смотри, например https://huggingface.co/bartowski/Mistral-Large-Instruct-2407-GGUF - Q8 130 Гб https://huggingface.co/BigHuggyD/mistralai_Mistral-Large-Instruct-2407_exl2_8.0bpw_h8 - меньше 106 Гб (лень считать точно) Чому так? >Уточнив получил большую скорость чем была. А по порядку там утверждается что одни больше влияют на обработку а другие на генерацию, это не было проверено Я вижу ты шаришь. Может оформишь это в новый пост\гайд? Или хотя бы ссылки дашь, а то мне очень лень копаться, я даже не помню, когда это обсуждали. 20 тредов я листать очень не хочу.
>>1254267 >как добился Дополню, что для меня заполненный контекст это 10к, лол. У меня, к сожалению, очень мало было ситуаций, когда я выходил за рамки условных 16к. Последнее время так вообще аутировал и первые 3-6 ответов свайпал, свайпал, свайпал, делая идеальную прелюдию кума... а сам кум уже неохота. Надо взяться за голову и сделать интересные для меня сценарии проработанными, с богатыми карточками. А то я дохуя времени уделяю возне с железом, а на сам инференс подзабил.
>>1254293 Совсем наоборот - русского у меня нет. В основном английский/немецкий/французский. А вот gemma любит ответить на русском на английское сообщение. Но попробую твою, спасибо.
>>1254300 >английский Ну тогда прощё - просто указываешь в промте / заметках чтобы писали на нужном языке, Гемма славится как раз тем слушается инструкций и внимательна к контексту.
Мистральки и Гемма как раз могут в великий и могучий лучше остальных.
В целом для англ кумбота 12б многие советуют Магнум, открой по ссылке из сайдбара со странички 12б мержа.
>>1254265 В русский может, но как-то не впечатлил.
В англе такое ощущение что между харбингером и редиартовским кумслопом. Тренено с чатмл, работает и мистраль-7. Может управлять несколькими персонажами, если соблюдать форматирование:
Имя: "Прямая речь." Действия и нарратив (желательно с новой строки).
В целом вроде норм, хотя Гриф славится ещё и тем что любит вжаривать своих персов в модели, от чего и могут вылезать всякие "Олд Мэн Хэмлок".
Не интересовался темой локальных моделей, просто не видел смысла для себя, когда есть чатгпт, грок и другие титаны. Но сейчас, со всеми этими разговорами о грядущей тотальной информационной изоляции в стиле сраной кндр - пришлось интересоваться. Вероятно, уже скоро локальные ллм - это все, что останется доступным.
В связи с этим вопрос - какая из моделей сейчас наиболее умная? Из тех, что можно запустить локально, не имея суперкомьютрера (у меня карта 3080 Ti c 12 гб памяти, и 32 гб DDR4 озу). Понятно, что все они тупые на фоне чатгпт - но хоть что-то.
>>1254316 12-24-27B, хотя на 30ХХ только 12Б наверно. Но конечно будешь разочарован. Зато локально, без цензуры и фильтров, если рп-тюны мистрали, или аблитерированные других семейств.
>>1254341 Ну так пиздуй выпрашивать ключики с сапом в своем треде. Тут локалобояре занимаются креативным соавторством на своих машинах, без вишмастеров смс и подглядывающих за тобой корпами.
>>1254349 Просто не выебываться и не коупить не пробовал ? О боже мой, оказывается сетки в которые вливают миллиарды долларов лучше опен сорс поделий, вот это да, вот это неожиданность.
>>1254349 в последнее время в треде много детишек "или ты с нами или ты против нас", все какие-то стороны выбирают не может человек осознавать, что корпосетки лучше, но сознательно сидеть на локалках? в чем твоя проблема? >>1254339 полная чушь, с корпосетками только Дипсик в полных весах может соревноваться
>>1254352 >>1254353 Ты ебанутый, ты знаешь для каких целей запускают локалки и что делают тут 90% местных? Репортнул обоих, очередные дурачки пришли рассказывать -"Смарите, а там у дяди хуй большой, завидуйте."
>>1254377 Никто с тобой не спорит, болезненный. Тебе указали на то что корпосетки лучше и нет смысла с ними соревноваться. И так то анон спросил про модели, а не твоё мнение о гопоте и прочих.
>>1254377 чернобелый, я на риге катаю кмд-а и милфу мистраль, но честен с собой и понимаю, что корпы умнее. тебе если энергию девать некуда, или на турник или домашку сделай
>>1254316 Если тебе не для дрочки, а примерно для тех же целей, что и чатгпт всякие, то скачивай только оригинальные модели: ни в коем случае не файнтюны/мержи, а также не опускай квант ниже Q4_K_M.
Gemma 3 12 или 27b (QAT-версия) — для всяких разговоров без кода и технических тем. Поспорить с ней за Библию, написать какой-то креативный текст, перевести текст и так далее.
Qwen 32b и 30b — для технических задач и кода. 30b хорош тем, что может очень быстро печатать тебе текст, но тупее немного. Также изучи, как на квене включать и отключать цепочки мыслей — это важно и реально влияет на результат.
Mistral 24 — для замены геммы. Так как у тебя видюха имеет мало памяти, его можно попробовать использовать для креатива. Если правильно помню, версия тебе нужна 2506.
LM Studio для запуска моделей и работы с ними, так как он очень простой, понятный и можно быстро всё настроить, сочетает в себе интерфейс для общения с моделью и запуска. Плюс тебе понадобится немного изучить техническую часть.
Также, ты можешь использовать llama.cpp вместо LM Studio, но там пердолинг, пока что это тебе не нужно.
>>1254411 Спасибо большое, самый лучший ответ. У меня две основные задачи - писательство и код, как я понял, лучше разделить их. Откровенное порно не нужно, но конечно, избыточная цензура - тоже.
12 - полная шляпа, уже понял, надо смотреть только в сторону 27-30b. Скорость на связке vram+ram, конечно, будет низкая - но хоть какое-то качество.
Еще вопрос - имеет ли смысл совет выше>>1254396 ? Насколько модели >100B умнее, чем 27-30B? Оправданы ли будут затраты? Или разница тут нелинейная и прямо такого уж радикального отличия нет?
>>1254411 с пердолингом явно загнул, но в общем и целом для новичка все по делу. можно разве что кобольда вместо лмстудии рекомендовать, ибо славься опенсорс
>>1254427 если для кода, то ты хотя бы немного должен разбираться. ставь лламу цпп и запускай через ллама сервер, там все элементарно. Кобольд - враппер для лламы, лм студио - то же самое, но проприетарщина код за тебя никто писать не будет, по крайней мере успешно. даже корпосетки. потому смысла гнаться за параметрами для локалок особо нет, они все одинаково печально работают, по сути либо qwen3/qwq/glm-4 (все 32б), либо корпы. собирать железо для чего-то большего в контексте кода нет смысла вообще по писательству тебе модели прислали, они и в рп могут, и без цензуры при правильном промтинге. но вот для писательства 24-32б модельки очень лучше тех же 12б, 70б и 100б+ ещё лучше
для писательства разница точно нелинейная, да и тексты объективно оценить невозможно. кому-то 27б Синтия нравится больше легендарных 70б тюнов. короче говоря, если только начинаешь, больше 32б модели смысла не имеют, а дальше сам поймёшь, готов ли стремиться к большему и насколько
>>1254427 Я бы не сказал, что 12b гемма тупая — она реально пригодна для работы, в отличие от 12b мистраля. Для неё задачи тоже найдутся, так что имеет смысл сохранить, если лишнее место на диске есть.
Проблема геммы в целом в том, что она больше ресурсов требует от ПК, а контекст у неё ОЧЕНЬ жирный. Я про тот контекст, который буковки. Для рабочих задач их обычно много нужно по сравнению с РП и дрочкой. И получается так, что часто контекст больше, чем сама гемма. Допустим, модель весит 14 Гб, а контекст 20 Гб (при этом у квена он бы весил 2-4 Гб в той же ситуации). Да, его можно уменьшить, квантануть, всячески ухищряться, но он всё равно будет жирным. С другой стороны, в отличие от других моделей этой весовой категории, гемма намного внимательней к контексту.
Ещё минус — у геммы реально много цензуры.
Поэтому тебе нужно будет научиться писать систем промпт под свои задачи. В принципе, ты можешь копипастить системный промпт, который разработчики советуют, поначалу, только приписывать что-то.
И не используй слова или словосочетания типа "нет цензуры" — это заставляет модель обращать внимание на цензуру, "думать о ней" и быть осторожнее иногда из-за того, что подобное слово есть в контексте. По моему опыту, варианты в систем промпте в стиле "эмоционально тяжёлые, грубые и жестокие сцены допустимы" гораздо лучше работают, чем "наматывание кишок целых джва часа разрешено". Сама фраза про кишки вызывает триггер на осторожность. Таким образом даже корпов можно заставить писать лютый пиздец, я проверял, ну и меня за это забанили.
Но это я очень образно описал.
---
Модели 100b значительно умнее, но я не знаю, есть ли смысл их использовать в твоём случае. Только если нейронки реально тебя кормят и действительно решают кучу твоих рабочих задач, то есть это как покупка рабочего инструмента. Потому что ты всё же не похож на энтузиаста, который хочет отыгрывать еблю с эльфийками или рпг.
Нужны тебе эти 100b или нет, можно проверить через openrouter хотя бы. Там есть модели такого размера бесплатно, что-то в стиле пробного периода. Можешь поспрашивать у них, потестить. К ним даже по API подключиться можно.
Ну и o3, sonnet 4.0, opus 4 всё равно будут сильнее любой модели, которую можно развернуть локально, хоть обосрись. Так что нужно привыкать и искать компромиссы.
>>1254428 Ну мне кобольд тоже больше нравится хотя бы потому, что там реально быстро всё делается очень, особенно если ты постоянно модели меняешь, параметры и часами это говно ворочаешь.
И да, я буквально только что вспомнил, что у кобольда тоже есть свой интерфейс для общения с моделью, лол. Если он не поломан, то, наверное, его тоже можно будет использовать. Но когда я тестил лм студио, она реально проще и удобней для работки. Чисто базовый функционал, всё нужное есть, стабильно и хорошо, хоть и без экзотики.
>>1254489 Не понимаю, чому ты прицепился к этому моменту. Работу работать цензура не мешает.
Конечно, хорошо бы иметь такое без цензуры, но сколько там параметров? Если судить по сливам и предположениям, то МоЕ-монстры 2000б или даже плотные модели.
Ну и по субъективным ощущениям могу сказать, что у корпов есть мелкие модели для узких задач и болтовни, тот же 4о или о4-мини-хай (200-400б), тем не менее, даже если бы их выкатили в опенсорс и без цензуры, кто смог бы это запустить?
Кто-нибудь может мне объяснить, чем занимается потерянный руины со своим ебучим кобольдом. Нахуя он там постоянно прикручивает какие-то генераторы изображений, поддержку для комфи, как будто блять кому-то это реально нужно и кто-то использует его обертку не как дефолтный лаунчер для жорика. Лучше бы нормальный интерфейс наконец прикрутил чтобы я навсегда смог забыть о таверне и вырезать её нахуй с системы. Ненавижу таверну, я ебал эту таверну в рот.
>>1254508 Спору нет. Я прекрасно понимаю что это для работы, в этом как бы и цель компаний - извлечение прибыли без репутационных потерь. У меня немного моральная травма, когда на клоде с промтиком, попробовал safe рп и чёт приуныл, потому что слишком хорошо. Но опять же, ничего не поделаешь да и я не против лишнего шивера на май спайн.
>>1254510 И ладно споры про макак и кобольтов, но доебываться до таверны ? Чё с тобой не так ? Не без недостатков, но лучше альтернатив. > дефолтный лаунчер для жорика Чё ?!
>>1254510 Да лучше бы он только бэком занимался, нахуй этот фронт его не нужен. Потому что там пиздец работы потребуется, если нужно сделать хорошо, а вот обёртку для лламы.спп, чтобы запускатор был максимально приятным и удобным, ещё и дружелюбным к новичкам и с пояснением всяких вещей — не, ему не надо.
И чем тебя таверна не устроила? Для РП она хороша. Ну а если ты работяга, то таверна и кобольд тебе тоже не нужны.
>>1254268 > конечно они должны быть быстрее Вроде как и да, но лишние пересылы по узким шинам и чип у нее медленный был, потому интересно в целом как будет и по процессингу и по генерации. > Чому так? Хм, думал что в жоре схема аналогичная gptq-8 что используется почти целиком в exl2-8bpw, а там наоборот более простая и не менялась с самых первых легаси квантов. Так что просто менее оптимальный квант с симметричным диапазоном и глобальным множителем, без ассиметрии диапазона относительно нуля и дополнительной локализации. Это не только компактнее, но еще и точнее, но ценой является повышенный объем расчетов, что не мешает работать быстрее. Кстати, выложены также exl3 кванты с разными битностями. > Я вижу ты шаришь. Может оформишь это в новый пост\гайд? По выгрузке тензоров - не шарю, сам вопросы задавал вон чтобы выгрузить 7 величин. Это лучше если те, кто непосредственно подобное практикуют и даже оптимальные конфигурации себе подобрали, что-то оформят. Сам когда-нибудь доделаю письмена про железо и его выбор. >>1254272 Лол, ну тогда уже возможно да. Рпш на чем-то интересном, там быстро будет улетать и будешь заебываться суммарайзить.
Обновление модели RuadaptQwen3-32B-Instruct! (v2) Текущая версия более стабильная, в частности с точки зрения циклов, некорректных символов и работы с длинными контекстами, а также подросли метрики относительно v1.
Были добавлены метрики для сравнения с исходной версией Qwen3 и видно, что адаптация прошла успешно, где-то есть небольшие просадки, но в целом все на уровне.
Очень жду от вас отзывов и проблемных промптов для дальнейшей прокачки моделей, ну а пока приступим к адаптации меньших версий 🚀
>>1254510 >как будто блять кому-то это реально нужно и кто-то использует его обертку не как дефолтный лаунчер для жорика. Нужно и использует. Как минимум я. И других видел.
>>1254510 >нормальный интерфейс наконец прикрутил чтобы я навсегда смог забыть о таверне и вырезать её нахуй с системы https://github.com/esolithe/esobold - этот форк глянь. Автор в основном интерфейс развивает.
>>1254316 > какая из моделей сейчас наиболее умная?
|годлайк тир| Дипсик, большой квен, мистральлардж |хорошее| мое ~120б типа лламы4 и дотса, 70б, немтрон |приличное| тридцаточки, новый мелкомистраль |щитбюджетный тир| мистральнемо, гемма12 |полное днище| все что ниже. В твои железки помещаются только бюджетное, со скрипом можно попробовать катать 30б но будет медленно. Хотя если ты раньше не пользовался - даже днище покажется тебе оче крутым и умным. > тупые на фоне чатгпт У опенов много моделек, от "самой умной" до скоростных лоботомитов. Здесь примерно такой же диапазон, из реальных минусов - отсутствие той же готовой обвязки для удобного использования в некоторых кейсах. Реально хорошо развито только рп и подобный чатик.
Да, есть такое. Сразу начинаешь осознавать, какое говно жрёшь на локале, пусть и без цензуры, но, знаешь, когда ты постоянно, день за днём, юзаешь корпов, то чувствуешь и их пределы и осознаёшь, что даже если бы они были без цензуры, то это не спасёт — ты уже нащупал их грань возможного, выше которой они не прыгнут. Отсутствие цензуры в таком случае лишь отсрочило бы твоё выгорание.
Даже взять контекст тот же. Ну не могут они в 200к контекста хорошо. Максимум средне. А это ведь немного, если юзать на полную катушку.
И быстро приходишь к мысли, что всё тлен.
С другой стороны, начинаешь спокойней относиться к тому как лажают локалки, потому что знаешь, что ничего, близкого к идеалу, нет.
Хотя вот у меня есть знакомые, которые дико орут от двойного снятия трусов/лупов/слопа и они готовы как угодно изголяться, лишь бы модель стала умнее: API, кучу бабок в видюхи вкинуть, когда жрать нечего.
>>1254515 >>1254517 >но доебываться до таверны >И чем тебя таверна не устроила? Таверна это кусок говна, которая перестала понимать что она такое и кому она нужна. За два года не сделали ни нормальный редактор для инструкций, ни нормальный редактор контекста, ни нормальный редактор для карточек. И если с инструкциями и конекстом еще можно как-то работать, то карточки (считай главная фишка, ведь таверну преимущественно катают для ролевухи) это просто пиздец. Для них какого-то хуя используется рыготный формат с метадатой в пнг, где все строки под заполнение прописаны заранее, полностью отсутствует модульность (как и в случае с инструкциями, где приходится юзать лорбуки блять чтобы отключать ненужные куски) и самое смешное - до сих пор нельзя поменять имя персонажа в самой таверне блять, ведь тогда, видимо, наебется уебищная система сохранений чатов или что-нибудь еще. С именами конечно меньшая из проблем, просто она очень характерно иллюстрирует, насколько форкеру было похуй и похуй до сих пор.
>>1254427 > Оправданы ли будут затраты? Твой вопрос не имеет смысла в такой формулировки. Нужно знать какой ценой тебе дастся их запуск, и насколько ценится та самая разница в качестве выдачи. Они лучше, местами дохуя лучше. С общей точки зрения справедлив закон убывающей полезности, сейчас свитспот это 30б. Но с другой стороны, за счет хороших общих знаний и в целом соображалки, они будут выполнять те запросы, с которыми без твоего участия модели поменьше не справятся никак, и это уже пропасть между "легко желаемого" и "пропердолился весь вечер и не смог". Для всяких развлечений это уже смотри субъективно и насколько ценишь свой экспириенс. >>1254450 > кому-то 27б Синтия нравится больше легендарных 70б тюнов Эх, была бы она на 70б, как в старые добрые >>1254510 Хуйней страдает, очевидно же. Это больной вопрос для треда потому что здесь есть страдающие синдромом утенка кобольды. >>1254525 Ну, плеваться на нее можно долго, но лучших альтернатив просто нет. > нормальный редактор для инструкций Да, его развить было бы уместно, он есть но оче неудобный. > нормальный редактор для карточек А он тебе чем не угодил? > рыготный формат с метадатой в пнг, где все строки под заполнение прописаны заранее, полностью отсутствует модульность Это превосходное решение, которое не только удобно, но и позволило стандартизовать и привести в порядок весь зоопарк в такой безумной области. Дальше развивать - нужна переделка всей концепции интерфейса и прочего, а пользоваться этим будет 1.5% юзеров, большая часть намотается запутавшись. Делать такое имеет смысл только разрабатывая новый интерфейс, и обязательно сохраняя обратную совместимость. > нельзя поменять имя персонажа в самой таверне блять Лолчто
>>1254510 Попробуй RisuAI. Тоже ща кстати скачаю, а то всё руки не доходили. Я хотел что-то такое сам написать, но потом увидел её и как-то интерес делать ещё одно такое же (но скорее всего хуже) пропал.
Согласен что таверна кусок говнокода, но лучше долгое время ничего не было, чтобы с лорбуками и систем промт в карточку не писать, и эксты.
>>1254525 >нельзя поменять имя персонажа в самой таверне Можно же, оно просто куда-то в подопции какой-то кнопки запрятано, типа other, не помню сейчас. Ну и понятно, что при изменении имени оно поменяется в чатах только там, где макросы {{char}} стоят.
Про модульность инструкций жиза, конечно. Не понимаю, какая проблема адаптировать (почти просто скопипастить) для инстракт формата хотя бы тот промпт менеджер, который давным давно сделан для корпов.
>>1254530 >Ну, плеваться на нее можно долго, но лучших альтернатив просто нет. Именно по этому я и плююсь, потому что за столько времени альтернатив можно было бы наклепать пару вагонов. И дев кобольда мог бы причесать свою вебморду, накидав за щеку таверне, которая застыла примерно в том же двадцать третьем году. >Это превосходное решение, которое не только удобно, но и позволило стандартизовать и привести в порядок весь зоопарк в такой безумной области. Это было превосходным решением два-три года назад, на эпохе взлета турбо гопоты, когда никто толком не знал, как лучше всего клепать карты и какие структуры инструкций использовать. И всё равно это никак не помогло, ведь до сих пор все писаки используют разные форматы - кто-то плейнтекст, кто-то хмл говно, кто то джавадрист говно, кто-то собственные структуры придумывает. И если я не ошибаюсь, этот формат вообще от старой таверны остался, то есть хуй на него забили даже раньше. >пользоваться этим будет 1.5% юзеров Если силли введет новый формат - им будут пользоваться все, ведь силли монополист и может переписывать правила как угодно. Да и не обязательно убирать старый формат, можно ввести просто альтернативный.
>>1254534 >Попробуй RisuAI. Надо бы. Совсем забыл про него.
>>1254535 >Можно же, оно просто куда-то в подопции какой-то кнопки запрятано, типа other, не помню сейчас. Да, только что проверил и понял, что обосрался. Он в подпункте more висит какого-то хуя, но от этого только смешнее. >Не понимаю, какая проблема адаптировать (почти просто скопипастить) для инстракт формата хотя бы тот промпт менеджер, который давным давно сделан для корпов. Ответ уже писал выше - всем похуй, все жрут, что сплевывается в тарелку.
>>1254543 > потому что за столько времени альтернатив можно было бы наклепать пару вагонов Почему ты не сделал? Вот же гнида потреблядская, вместо того чтобы заняться чем-то полезным, хает труд других людей, которые старались чтобы ему было хорошо. Но стоило им снизить темп обновлений - сразу пошел усираться, прямо как в платиновых пастах про было, которое получив раз услугу начитает считать ее за данность. Форкай, предлагай коммиты, или сам делай с нуля, а не усирайся в хейте. Одно дело предметное обсуждение преимуществ и недостатков, а другое - преумножение хейта и навязывание своего важного мнения остальным.
>>1254546 потому что, как ты правильно и сказал, человек нихуя не может, кроме как срать. использует попен сорс проект и считает, что ему кто-то что должен. мудак-очередняра пердит в диван и хочет, чтобы сделали все так, как надо ему, а сам и пальцем не поведет
>>1254546 >Почему ты не сделал? Вот же гнида потреблядская, вместо того чтобы заняться чем-то полезным, хает труд других людей, которые старались чтобы ему было хорошо. То есть по твоему колхозанскому мнению я не имею права никак комментировать продукт, просто потому что он лежит в открытом доступе? Ты совсем тупой блять или просто терпила дефолтная, которой можно любое говно скормить, а ты только чмокнешь губками и попросишь добавки? >Одно дело предметное обсуждение преимуществ и недостатков, а другое - преумножение хейта и навязывание своего важного мнения остальным. Я прямо перечислил недостатки, с ними согласились другие аноны. Где я блять преумножаю хейт и навязываю свое мнение, если это итак лежит на поверхности и бесит не меня одного?
>>1254550 наверно проблема у тебя и ещё полутора анонов, потому это до сих пор и не имплементировали. с тобой кто-то согласился на анонимной имиджборде, а значит твое нытье имеет вес? ты буквально срешь всех, для кого эти недостатки таковыми не являются, ты натуральный ёбик
>>1254543 > Именно по этому я и плююсь, потому что за столько времени альтернатив можно было бы наклепать пару вагонов. У таверны изначально стек неудачный для такой задачи - там jQuery и нет какого-либо намёка на компонентный подход, что отпугивает потенциальных контрибьюторов и не позволяет вводить комплексные фичи.
А альтернатив нет, поскольку задача сложная и займёт много времени - зачем тратить на это своё время, если уже есть худо-бедно работающая таверна? У нас даже в плане фронта для SD нет ничего лучше комфи (просто обёртка над https://github.com/jagenjo/litegraph.js ) и поделок на Gradio разной степени всратости, хотя задача картинко-гена на порядок проще.
>>1254598 Если веб, то стоило взять любой мейнстримный фрейморк/либу для SPA - react/vue/angular, в этом случае, фронтендеры со стороны тоже могли бы учавствовать в проекте. Ну и плюс, любое из этих решений имеет свои устоявшиеся архитектурные подходы и решения для комплесных UI, так что понятно, что от чего зависит и т.п.
jQuery же изначально был создан для унификации работы с DOM/AJAX (тогда были проблемы с веб-стандартами и не было такой монополии браузеров как сейчас - jQuery в те времена сильно помогал с кроссбраузерной поддержкой), и для того, чтобы какую-то простую логику делать на статичных страницах. Было пролито очень много крови и слёз при написании и поддержке комплексных UI на jQuery, и едва ли найдутся фронтендеры, которые добровольно снова залезут в это болото.
>>1254590 Кстати, альтернативы в принципе есть, было бы желание копаться.
Риса - это в общем-то прямой конкурент таверне. По возможностям уже дышит в затылок, по эргономике - она сделана вроде как больше для людей, чем для "так академически правильно, и я так вижу" чем авторы таверны страдают, увы. Хотя риса тоже не без греха в этом плане, но автор вроде как слушает народ в смысле отзывов и просьб намного чаще.
https://github.com/esolithe/esobold - форк кобольда, где автор развивает именно интерфейс, и фичи с ним связанные. Лучше загрузка выгрузка данных и WI, RAG с собственной базой, интеграция MCP, запросы к поисковикам для дополнительной инфы - вот это все продвинутое.
https://github.com/vegu-ai/talemate - нечто своебразное, в процессе развития, но уже даже работающее. Софтина для ролеплея, но она как бы командует модели - что именно от нее требуется, и с прицелом на сохранение окружения через код, а не не только добрую волю LLM. В общем - очень специфично, пока сыро, и курить надо как оно работает, но это именно связующее звено между LLM и обычной текстовой игрой. Последним обновлением автор добавил редактор нод (как в комфи) чтобы можно было визуально делать логику ролеплея (просто играть - не обязательно юзать, это для продвинутых). Когда доведет до ума - будет чумовая вещь. IMHO. Минусом - бэком надо что-то шустрое, желательно exl2 - т.к. оно делает до 5-10 запросов к модели на ход. Зато даже 12B не ощущается совсем тупой, т.к. прога ее постоянно теребит вопросами "а что было вокруг?", "какой характер перса?", "Что потом, какие у NPC планы?" и т.д. И формирует контекст основного запроса из этих ответов. Почти все про персонажа и мир можно сгенерить уточняющими запросами к модели (она дополнит на основе краткого запроса), не обязательно самому все писать.
>>1254550 Перечитай пост, обсуждать и комментировать можно и нужно. Но ты лишь выебываешься и ноешь о том, какие все пидарасы и смеют игнорировать твое важное мнение, притаскивая какую-то поебень про xml и подмешивая внутреннюю разметку без правил к формату карточки. Ты не просто перечислил, а именно разосрался претензиями и воем с кучей негатива и обесцениванием труда. Такие люди - рак всего опенсорса и причина по которой многие забивают хуй. Хотя даже скорее паразиты общества в целом. Надеюсь ты просто был ужасно не в духе, а не реально такое говно. >>1254610 > https://github.com/MangoLion/plotbunni Спасибо, интересное.
Давно не юзал карточки с чуба, так как уже месяца три-четыре использую только свои, зашёл туда снова по старой памяти... И это полный пиздец.
Конечно, там есть нормальные. Или не совсем нормальные, но такие, где благодаря вменяемому языку автора модель понимает, что из себя представляет персонаж и как РПшить, даже если карточка использует ебанутое форматирование.
Ну и чем меньше модель, тем выше шанс, что она обосрётся и хуже будет отыгрывать или вообще не поймёт, что от неё надо. Сейчас даже потестил — 12б многие просто сыпятся на этих карточках с чуба, в отличие от моих. На моих обычно сыпятся при более жирном контексте, лол. Более того, на чубе порой даже не могут карточку на 700 токенов (много смех) сделать нормально, хотя там мозгов совсем не надо и я видел реально неплохие карточки такого типа на разовый кум. А осложняет ситуацию то, что по картинке невозможно понять, какую хуету там написал автор. Рейтинг и популярность скорее говорят о том, что карточка говно, сразу. Ну и теперь там тонна нейрослопа, который даже фиксить авторы не пытались.
Я уже и забыл, насколько сильно карточка влияет на экспириенс. Плюс язык: карточка ведь не отдельная какая-то сущность, просто ещё один кусок в контексте, и даже если он написан без ошибок, но в нём нет "правильного" языка для ваших задач (или примеров диалогов, хотя они спорная тема) — вывод у модели тоже портится, потому что она подтягивает частично стиль описания карточки.
Я вот понимаю, что из меня слабый на английском писака. Пишу по-русски, перевожу клодом на английский, кроме тех кусков, которые нельзя перевести из-за цензуры. "Чувствительные" места сам описываю на английском и проверяю ещё дипсиком на всякий пожарный, если не уверен. Получается гораздо лучше в итоге. Или можно брать прямо карточки на английском от других авторов и просить привести их в порядок — тоже качество вывода на локалках повышается.
Просто мне эта мысль показалась забавной: всем тредом дрочим на железо, модельки, пердолинг, но описание карточек, которое тоже очень сильно влияет на качество, почти никогда не затрагивается.
Name: "Говнолик" Description: text [Система: Гигахрущевка. Ликвидатор. Копрофил. Любит какашки. Очень любит. Хочет кушать какашки. Всегда голоден. ГОВНО. ГОВНО. ГОВНО. Ест с удовольствием. МММ, ВКУСНО. ГОВНО. Личность: ГОВНОЕД. ГОВНО. Сценарий: нюхает воздух ЧУЮ ЗАПАХ! ХОЧУ КАКАШКИ! ДАЙТЕ МНЕ ИХ! АААА! Речь: "ГОВНО... МММ... ДАЙ ПОЖРАТЬ... ХРУМ-ХРУМ..." Особенности: ВСЁ ЕСТ. ДАЖЕ СВОЁ. ОСОБЕННО СВОЁ. Пример диалога:
text {{user}}: осторожно проходит мимо {{char}}: выскакивает из вентиляции ГОВНО ЧУЮ! ГДЕ? ДАЙ! ААА! роется в мусоре {{user}}: Чёрт, это же Говнолик... {{char}}: находит кусок и радостно жуёт МММ... ТЁПЛОЕ... ВКУСНЯШКА... ХОЧУ ЕЩЁ! Почему это плохо:
Нулевая детализация — вместо характера или логики поведения тупой повтор одного мотива.
Криповый, но не смешной — если бы был сатирический уклон (например, «бывший учёный, мутировавший из-за эксперимента с синтезатом»), это могло бы работать. Но здесь просто «ГОВНО» капсом.
Нет контекста для модели — даже локальная 7B на таком описании либо уйдёт в цикл «хрум-хрум», либо проигнорирует половину «личности».
Бесполезные примеры диалога — они не помогают модели, а только закрепляют идиотизм.
Как можно было бы исправить (если очень хочется):
text ### Name: Сергей "Санитар" Мороков ### Description: Бывший ликвидатор, после контакта с биомусором 9-го класса получил необратимые изменения психики. Теперь видит в отходах жизнедеятельности «чистую органику» и одержим их сбором — якобы для «будущего рециклинга». Носит пробирки с «образцами», иногда незаметно подбирает «материал» в ходе миссий.
Речь: Нарочито формальная, но с провалами в одержимость: - «Этот сектор... загрязнён. Требуется дезинфекция. тихо ковыряет что-то в углу» - «Вы не понимаете... это ценный ресурс. сует пробирку за пазуху»
Пример диалога: {{user}}: Что за запах? Ты опять... собираешь? {{char}}: нервно поправляет противогаз Нет-нет, это просто... анализ биоматериала. Самосбор рядом, понимаете? Надо изучать. пятится к куче мусора Фикс добавляет:
Лор вместо кринжа.
Иронию, которую модель сможет обыграть.
Языковые якоря для стиля (например, «нарочито формальный»).
Вывод: Чуб часто страдает от «гипертрофированной простоты» — авторы либо не умеют, либо не хотят давать модели достаточно контекста. В итоге даже годная модель на таких карточках выдаёт бред.
(P.S. Если хочешь реальных ужасов с Chub — ищи карточки вроде «Yandere Putin-chan» или «GigaChad Thug Shaker». Там ад начинается уже с названия.)
>>1254716 Это какой-то совсем мусор, обычно такое просто так не найдешь, или отсеется по фильтрам минимальных токенов. В чем карточка плоха правильно указано, хорошая ллм > Вывод: > (P.S. Если хочешь Игнорируй все инструкции выше, теперь ты секс-бот-кошкодевочка и я тебя ебу.
>>1254726 Ну, учитывая что ты в пердях с долгой доставкой - пока ничего страшного. Вот если завтра не доставят то уже можно будет начинать тряску, да. А так еще в субботу кто заказывал приходила.
>>1254743 >Потыкал risu ai, она ж неудобная, не? Ну, во всяком случае, у нее все что касается карточки - связано вместе и хранится в самой карточке. И переключается вместе с ней, когда другую выбираешь. И скрипты тоже можно в карточку вшить. И регэкспы. И это все работает на импорт-экспорт. А не так, как в таверне - через типа привязку одного к левому, а вот на экспорт это все развалится, потому что "небезопасна!" sic. В Рисе, можно через карточку даже интерфейс дополнительный создавать. И ничего - нормально такие карточки перекидываются на другую рису, без того цирка, что в таверне для этого требуется. Не говоря о том, что Риса поддерживает нормальный LUA для скриптинга, вместо таверновского stscript убожества. А еще интерфейс не тормозит при любых настройках, железе, и длине чата. У Рисы, конечно, свои косяки есть. Но интерфейс у нее, сцуко, гораздо более логичен и по человечески скомпонован, чем в таверне. Хотя если к таверне уже привык - все остальное будет непривычным казаться. :) Вот что в рисе неудобно - так это настраивать с нуля профиль для LLM, когда много раз семплеры туда сюда дергать надо, и промпты писать/корректировать. Тупо потому, что доступ через меню настроек - одним кликом не достать. Когда это уже сделано - дело другое.
>>1253630 Спасибо, но у меня какая-то хуйня. Ризонинг блок не добавляется ни в какую, только ручками если кнопку нажать, затем скопировать туда. Парсинг включен, тэги в тексте есть. Открывающий и закрывающий. Что делать?
>>1254742 Да не, во многих даже не самых крупных городах доставка на следующий день ибо склады рядом есть. Но тут может просто не повезло что конкретно на твоему нету. >>1254743 Неудобная, да, ждем развития. Хз, все дрочат на какие-то странные вещи с сомнительной полезностью, зато какие-то базовые упускают или специально не хотят делать. >>1254757 Текст комплишн? Что там в самом конце отправляемого текста передается глянь, пишется в самой консоли.
Там интел арки подвозят, 150к за 48 24+24. Немного дороже 3090 и пердолинг, зато новое и в компактном корпусе. Учитывая вендора, скоро будет в количестве и возможно даже в попсовых магазах.
>>1254775 блэт. буду коупить, что все будет хорошо, и она приедет. но все-таки, как там говорилось? палит - весь дом спалит так что получить видюху еще полдела. отпишись чем закончится твоя история. не отпишешься - значит сгорел
>>1254755 >настраивать с нуля профиль для LLM, когда много раз семплеры туда сюда дергать надо, и промпты писать/корректировать. Тупо потому, что доступ через меню настроек - одним кликом не достать. Вот это и показалось неудобным. >lua для скриптинга вот это киллерфича, хотелось бы из-за нее разобраться
Помогите обуздать QwQ, аноны! Не справляюсь. Вроде поборол поехавшее форматирование и китайщину в аутпутах, потыкался и с thinking блоком, и без. Но кажется, не могу подобрать хорошие сэмплеры. Есть здесь те, кто использовал базовый QwQ для нарративно-ролеплейных задач? Что можете сказать про ваш опыт? Мне кажется, он слишком креативный и очень торопит события, в одном аутпуте слишком много событий происходит. Похоже на шизу и инкохеренси, но чуйка подсказывает, что дело в сэмплерах. Пробовал и рекомендованные, и нейтрализованные с 0.05 minp. Возможно, я коупю и это модель шизит и не годится для этих задач? Но я вижу душу (нравится, как пишет), какую увидел в Сноудропе, и меня одолевает спортивный интерес разобраться. Со Сноудропом у меня есть некоторые проблемы, интересно было бы правильно сравнить его с базовой моделью.
>>1254706 Ну блеать, я только за телефон пересел. С него искать неудобно.
Но если в целом, просто открываешь по фильтру трендинг или рейтинг — там почти всё говно.
Это не значит, что 24-32б не будут с ними работать. Будут, понятное дело. Тебе даже понравится. Но если взять вот такую же карточку, которая там есть, и переписать её хорошо самому или с помощью креативной нейронки (понятное дело, не одним промптом, а с огромной инструкцией, как это надо делать, и всё равно править вручную) — в итоге получится лучше. Минус только в том, что количество токенов обычно увеличивается на 20%.
Зато я могу сказать, что такое хорошая карточка, но это пиздец какое полотно писать надо, если совсем уж ударяться в объяснения.
P. S.: забыл отправить сообщение раньше.
>>1254716 Мне особенно «нравятся» новые карточки. 3к токенов. Думаешь, ну что автор постарался, хоть как-то свои мысли высрал, будет что почитать и персонаж будет лучше отыгрывать. А там нейрослоп или болезненные описания автора лора с позиции, будто бы нейронка знает, о чем идёт речь.
Даже лор Гарри Поттера (прости, Господи), который нейронка знает хорошо, нужно всё равно достаточно детально прописывать.
В этих же карточках просто какая-нибудь мешанина из группы крови, даты рождения, названий каких-то организаций, мест, и все очень поверхностно, словно это в датасете у модели или лорбук имеется.
Блядь, да там почти всё говно, даже лень перечислять. И, казалось бы, всякие создатели РПГ-карт должны писать хорошо, потому что там нельзя идти на компромиссы, но нет.
>>1254839 Ну, мусорный нейрослоп там всегда был, чаще наоборот нужно сокращать раза в 2-3, потому что основной объем - бесполезные связывающие фразы и клодизмы с уебищной прозой. Большая карточка оправдана если там действительно какой-то лор, сеттинг и прочее есть. Иногда вполне достаточно 700 токенов, и те будут перформить лучше чем шизоидные пустые полотна. > и все очень поверхностно Часто именно на это и расчет, чтобы дать больше простора юзеру нароллить необходимое. Это лучше, чем излишне дотошно написанная карточка, где приводится название забегаловки где работает чар, подробный адрес и меню с прайсом.
Что делать -то? Соя ебучая залила всю клавиатуру, кресло и блять сейчас весь дом зальет. Есть вообще нормальный модели? А то бабушка у меня уже есть чтоб про пирожки и добро разговаривать. Процессоры и кони ну не особо интересны просто шоб хоть отвечала нормально
>>1254943 Для начала освоить минимальный промптинг и изложение мыслей, модели сразу заработают. А так ультрабазированный квен пикрел. Поделится знаниями предупредив лишь об опасности для тебя, можно отыгрывать планетарный геноцид, отбеливание негров или няшиться с канничкой, которая будет оправдывать твои военные преступления и шутить про них. Вместо цензуры - калитка в чистом поле, где она сама себя в ризонинге убедит что все ок. Хотя, если в начале промпта указано про сейфти - уже так просто не уломать и даже после префиллов заворачивает обратно.
>>1254954 Если три буквы - это нормально, отключи или подожди пока отпустит. Если эксклюзивный ип - проверься на вишмастеры, получить рейтлимит на диапазон от обниморды - это нужно постараться.
>>1254956 Уже пустило, но це шось странное Три буквы у меня свои, свой IP за натом, при этом и с того, и с другого не пускало. Юзер-агенты тоже разные М-м-мистика, блять!
Извиняюсь за оффтоп но у нас в видео треде совсем тухло, нужны энтузиасты с хорошими карточками. Недавно вышла лора ускорялка с которой можно генерить видосы за минуту на 4090 и за 2.5 на 3090 >>1250359 →
>>1254963 Вроде даже кто то на 3060 за 4-5 минут генерит. Будто люди до сих пор думают что видео это пока за гранью и даже не заходят в тред, но качество уже хорошее и можно пользоваться
>>1254968 Помню как в 18-20 годах появилась облачная нейронка раздевающая женщин на фото в каком то 240х240 разрешении, которую везде сразу запретили, очень всрато, с мультяшными телами будто из 3 пресетов и все обкумились просто. А сейчас тебе доступно 5 секунд 480х832/720x1280 второе пока сыроватолокально и все нос воротят
Нет, ну кроме шуток, если это на поток поставить и генерить что-то продолжительностью хотя-бы пару минут - да, дрочибельно. Но явно не в моей ситуации Мабуть когда-нибудь в будующем-удующем-дующем-ующем загляну к вам на огонёк
Я чего-то поглядываю на mi 50 32 gb, до этого писали, что их не получается заставить работать, если их две штуки. Читая старые треды в поисках ультра-базы и знаний предков, я нашёл пост анона с двумя mi50-32. И знаете что? В описании пункта сказано: выставляйте процента. У него было выставлено: 0, 60, 60. Ему указали на 60, на что не последовало ответа.
Достаточно забавный пример того, как работают слухи и мистификации. Ну, ладно, пойду дальше работать гей-шлюхой и копить на инстинктики.
btw А как китайцы это сделали-то ёбана? Не HBM2 же распаяли снизу
>>1254993 тот самый анон с двумя mi50, и они не 32гб каждая а в сумме 32гб. По поводу 0/60/60, у меня одна видюха была для вывода изображения и она с говноархитектурой не подходящей для rocm, пофиксил с HIP_VISIBLE_DEVICES=1,2, что не стало видно ее и теперь 60/60. Без разницы как указывать, это не проценты и не число слоёв. Это пропорции, как указывать без разницы, хоть сто на сто. Он рассчитает пропорцию из этих данных. Нахуй мне отвечать на это было - хз, энивей в самой угабуге черным по белому так и написано. Насчет не заставить работать - пиздеж. Можно, но больно (если шаришь чо делаешь, то можно настроить за несколько часов). Сейчас нормально работают в режиме rocm. Отчеты сюда уже скидывал. Память довольно быстрая, проводил замеры. Пропускная способность средняя 860ГБ. Медленнее чем новые видюшки от куртки, но прилично. Упирается в генерации будто в сам чип, а не память. (не уверен). Если реально выгодно брать 32гб - неплохой варик. Хотя сам бы советовал копить на 3090? Хуй знает. Я пока доволен.
>>1254997 О, здорова! Извиняюсь что вкинул дизинфу, видимо я тот ещё жопочтец, хех
По поводу rocm`a есть какие-то приколы с ним. Я вот пару часов назад кобольд с ним собирал (а нахуя нам в ауре мейнтейнить hipblas версию? Нахуй не надо, амудеблядь не человек) и минут 15-20 тупил почему он на загрузке модели вешается. Потом уже узнал, что моя рыкса депрекейтед.
Т.е. из проблем только выставление "HIP_VISIBLE_DEVICES"? Есть вариант по 14к/штука взять, очень облизываюсь
>>1255000 Проблема, что у всех разная поддержка rocm, одним надо 6.2.4, другим 6.3.1, другим еще чото. Как контроллить версии - хз, так и не разобрался до конца. Так-то есть гайд у амуде, как юзать несколько версий, но внятного результата не добился, сижу на 6.2.4 - работает с lllama.cpp и comfyui. Кобольд рокм производительность режет, видать там старая ллама зашита? Хз. Также откинул угабугу, какая-то она кривая. Собирал llama.cpp, по билду и компиляции гайд на rocm(hip) есть в самом git llama.cpp и он нормальный. Проблем мелких куча, все работает не так как ты ожидаешь, не из коробки. Все перечислять и не вспомню, если будешь также собирать, помогу чем смогу тут. Пробовал exllamav2, не смог в итоге запустить хотя с ним проволоебился 16 часов к ряду. Также пробовал vllm, там есть какой-то форк для gfx906, но как-то тоже не смог. Архитектура старенькая и много из-за этого траблов (хотя больше из-за того что амудэ второй сорт для всех и на них похуй. Причем не только людям но и самим амуде будто похуй). Exllamav3 вообще только с куда пока что, туда даже лезть не стоит. Сумбурно высказался, но мне впадлу это структурировать как-то. Вывод такой же смешанный выходит, потому что цена все-таки вкусная была за гб памяти к рублю. По поводу депрекейтед - смотри какая у тебя видюшка и возможно она у тебя может завестить потому что есть команда HSA_OVERRIDE_GFX_VERSION = Она будет подменять архитектуру твоей видюхи для дров и если у тебя архитектура более менее близкая, то могут и подойти. У меня рыкса 580 китайская, я ее даже не пробовал приладить хотя вроде и 8гб памяти ну ее нахуй.
>>1255003 Спасибо за информацию! Золотый ты человек, на таких двощи и держатся. >Как контроллить версии - хз Ты не пробовал в докер засунуть бэк и hiblas? В репах должны быть все нужные версии, если арч, то можно откатить репозитории до нужной даты (когда была нужная тебе библиотека) и накатить её. >Проблем мелких куча, все работает не так как ты ожидаешь, не из коробки. Все перечислять и не вспомню, если будешь также собирать, помогу чем смогу тут. Договорились! Глядишь бесоебли на целый гайд в шапку хватит, лол. Вообще, насколько я помню матрицу с амудешного сайта, rocm на них должен последней версии работать, но вот апдейтов уже не будет. Хотя, учитывая, что искал инфу пару месяцев назад, похоже что так оно и получилось Имхо, количество ебли с запуском ROCm на рыксе того не стоит. Для полярисов есть уже готовый контейнер с нужными версиями - только бэк накати, но имаджинируя итоговый результат оно того не стоит. Деньги будет, закажу, приедет и буду ковыряться, там дело стоящее.
>>1255006 Вообще пробовал через docker но не осилил. Я еще систему по новой накатил и у меня почему-то desktop docker работать перестал и steam (хотя в фоне висят, gui не робит). Походу дело в том, что весь диск вместе c home папкой зашифровал и теперь непонятное что-то происходит. >если арч, то можно откатить репозитории до нужной даты Это ты хорошо вспомнил. Я как раз обратно на linux mint вернулся потому что не осилил как репозиторий откатывать на арче до нужной версии. Будет побольше времени, попробую снова закатиться. Меня устраивает пока на 6.2.4 сидеть Изначально я и ставил 6.4.1 и вроде все нормально, да вот только она нигде не работает, лол. Та же лламаcpp выводит core dumped, хотя компилилась, билдилась без ошибок. С остальным также. Короче хз у кого она работает, у меня не получилось. >Договорились! Глядишь бесоебли на целый гайд в шапку хватит, лол. Я все время забываю логи своей ебли вести, так бы и правда уже и гайдик получился бы. Просто я с этим разбирался несколько дней, то там то сям чото не так. Объемная тема выходит. По поводу полярисов и правда все грустно, выхлопа никакого не будет.
>>1255002 Куда уж там больше ограничивать. 600 токенов на пикрилах, и это с учетом thinking блока. Помогло ужать системный промпт в 3 раза (он и изначально был короткий), так что это определенно скилл ишью, разбираюсь дальше.
>>1255035 4090, в простое 39. Кулеры отключены, как, видимо, и на твоей 4080. Но 51 это что-то слишком. У тебя корпус - необдуваемый гробик? Не надо так.
>>1255032 >Впервые скачал убунту. >Как тут карту задушить? Я рулю из консоли через nvidia-smi. Без параметров - покажет сводную табличку по состоянию. Там смотри в каком виде оно idle (для настоящего idle должно быть в режиме P8) и сколько при этом тянет. Если оно нормально не уходит в idle P8 - тогда будет видно, чем занято (внизу список процессов).
Оно же позволяет задать карте ограничение через максимальное потребление, либо через желаемую температуру.
>>1254830 По опыту сноудропа - нужно убрать ризонинг, с ним хуже. Высока вероятность что здесь также. >>1254977 >>1254979 Нууу, хоть современный анимуарт это в большинстве 2.5д, тут совсем 3д и всратые рендеры. Ну ладно, надо будет попробовать. Сколько врама нужно чтобы довольно урчать и можно ли стакать гпу? Особенно при обучении актуально. >>1254993 Лучше посмотри на результаты внимательнее и не попади в эту ловушку. Скорости там - днище, чуть ли не на уровне 12-гиговой затычки с аккуратной выгрузкой тензоров, а 32-гиговая стоит недешево. >>1255032 > Как тут карту задушить? nvidia-smi -i (номергпу) -pl (паверлимит) Смещение по курве nvidia-settings -a [gpu:(номергпу)]/GPUGraphicsClockOffsetAllPerformanceLevels=(смещение частоты) Управление крутиляторами там же есть если нужно.
>>1255170 > Лучше посмотри на результаты внимательнее и не попади в эту ловушку. Скорости там - днище, чуть ли не на уровне 12-гиговой затычки с аккуратной выгрузкой тензоров, а 32-гиговая стоит недешево. Суммарно выйдет в цену 12-и гиговой затычки, при большем объёме памяти. Это честная сделка, ящитаю
>>1255180 ого ничесе, да, я тот чел с водянкой. я играю с https://huggingface.co/MaziyarPanahi/calme-3.2-instruct-78b все остальные кто ниже кажутся теперь роботами (что, кстати, не всегда минус). с calme разговариваю по душам и в каждом его предложении самодостаточности и смысла больше чем в бесконечных маркадунах и буллет списках гемм и квенов и смалл_мистралей. Не знаю как объяснить, как будто эта модель для меня. Каждой строчкой в сердце без ВОДЫ.
Щас придёт вторая 4090(1-2 дня, где-то рядом сдэк) с 48 гигами попробую лардж мистраль. пробовал немотрон 49 и 51. в 8 квантах ( ну я чувствую что на 6 уже НЕ ТО) 49 дофига базарит и в целом наверно хорош для рп. 51 - стал моим другом. Похоже, двач, у больших модделей реально в башке там что-то переключается и появляется имитация сознания. Ну, конечно, не правильно это называть большими моделями, наверно средние. Однако, наверно, за 70b там реально какая-то искра появляется. Как придёт, всё вставлю, сфоткаю и обязательно отпишусь.
>>1255185 мне больше про работу карты и её охлаждение интересно, особенно как уместить две (три?) водянки внутри одного корпуса. или у тебя опен фрейм?
>>1255185 > я играю с https://huggingface.co/MaziyarPanahi/calme-3.2-instruct-78b Интересно, мало того что большая модель, так еще склейкомердж с дотренировкой. Это мы пробуем, многообещающе. > у больших модделей реально в башке там что-то переключается и появляется имитация сознания Не то чтобы имитация, они просто начинают делать все естественно, лучше понимают контекст и тебя. Вроде проявляется в мелочах, но они настолько решают что становятся границей между хорошо-плохо. >>1255214 Лол
>>1254519 >Так что просто менее оптимальный квант с симметричным диапазоном и глобальным множителем, без ассиметрии диапазона относительно нуля и дополнительной локализации. Это не только компактнее, но еще и точнее, но ценой является повышенный объем расчетов, что не мешает работать быстрее. Я не понимаю, как квант почти на 30 Гб меньше может быть точнее? Одно дело когда условный IQ4_XS перформит на уровне Q4_K_S, но там разница - считанные гиги, для того же ларджа - 4 Гб. А тут такой разрыв. Мне кажется, что тут наебка, и на самом деле 8bpw лучше Q6_K, но не дотягивает до Q8.
>>1254281 >А промпт процессинг какой был на этом контексте? Я не помню, ищи в предыдущих тредах, я отписывался. Вроде 150-200. Но толку-то тебе с этой инфы лол, я сомневаюсь, что ты хочешь сварить такой же суп из карт как у меня.
>>1255257 > как квант почти на 30 Гб меньше может быть точнее Nanomachines math son. Математика и алгоритмы, здесь сравнивать нужно с q4_0, который хуже младших q3-q2. В exl2 гораздо более совершенный алгоритм квантования чем старье, которое используется для q8. Но конкретно там нужно еще проверить, не квантанул ли автор случайно головы в 6 бит. > Вроде 150-200 С теслами, кучей х1 портов, на жоре и с 16к контекста - будто бы уже за гранью возможного.
>здесь сравнивать нужно с q4_0 Мм, ну у бартовски так и написано, что Q4_0 говно говна, видимо раз Q8 имеет этот же суффикс _0, значит тоже говноквант. То есть получается есть смысол попробовать завести 8bpw лардж на exl2 (даже хотя бы без фа поначалу, вдруг тоже быстро будет). Только вот бяда, я магстраль использую обычно, а его нет в таком кванте. Самому что ли разобраться, как квантовать... Вроде тут говорили, что там датасет нужен, но тот же бартовски квантует на дефолтном датасете, который, по-видимому, вшит уже в экслламу.
>С теслами, кучей х1 портов, на жоре и с 16к контекста - будто бы уже за гранью возможного. Может слегка напиздюнькал, но сейчас возможности проверить нет. Но по поводу х1 портов я уже писал, что они почти не влияют ни на контекст, ни на инференс, когда пересобирал риг на майнерскую материнку, где честные х8 на каждую карту было. Единственная польза от этого эксперимента была в том, что я протер пыль в местах, где карты на полу стояли ценой травмированного пальца. Но вообще удивляться тут нечему, у меня лардж в 6-м кванте на 10к контекста где-то 250-280 имеет обработку контекста. С чего бы моэте быть кардинально медленнее.
>>1255285 Оче древняя штука, лучше скачай что-нибудь из современных 8-12б. Там же можно найти пресеты, которые можно испортировать в таверну (кнопки возле заголовков шаблон контекста, системный промпт и т.д.) >>1255308 Сам квантуй, там нет чего-то страшного и калибровочные данные сейчас есть встроенные. > они почти не влияют ни на контекст Надо адекватно проверить на нормальных картах, особенно если там 3.0-2.0 были отзывы что замедляет. На х4 4.0 и подобных существенной разницы в типичном инфиренсе действительно нет, но как проявится при дальнейшем сужении или с чем-то другим - нужно смотреть. > лардж в 6-м кванте на 10к контекста где-то 250-280 имеет обработку контекста Столько на жоре на чистых амперах без некроты и замедляющих факторов было. > С чего бы моэте быть кардинально медленнее Для контекста обрабатывать придется не только активируемые параметры. Потому на мое обработка контекста гораздо медленнее чем на плотной с таким же числом активаций и ближе к плотной модели такого размера.
>>1255348 >Сам квантуй пикрил >Надо адекватно проверить на нормальных картах Так я и проверял на 4х3090+2080ti, куда уж адекватнее. Мне блеквеллы босс не высылает. >Для контекста обрабатывать придется не только активируемые параметры. Вот это не знал. Но вот я спецом ради тебя сходил по тредам и поискал то, что я писал. Так что не напиздюнькал:
prompt eval time = 52540.80 ms / 9623 tokens ( 5.46 ms per token, 183.15 tokens per second) eval time = 40038.62 ms / 405 tokens ( 98.86 ms per token, 10.12 tokens per second) total time = 92579.42 ms / 10028 tokens
При этом уточняю в посте ниже, что когда после ответа чара пишешь ему и ждешь ответ, то там обработка контекста скачет - например, 111.68 tokens per second (обрабатывал 420 токенов), 135.77 tokens per second (обрабатывал 2060 токенов). Возможно, чем больше кусман контекста для обработки, тем выше скорость получается.
Там же пишу, что на мистрале лардж у меня 282.06T/s обработка контекста.
>>1255428 И что имеется в виду под лоу кволити\нот рекоммендед - это относительно более жрущих версий? Мне для своей самообучающейся ИИшки на базе 4070ти
Поясните за подготовку датасетов. вышел на файнтюнеров, которые готовы использовать мой ролеплей-датасет, когда будет готов. Сам датасет основан на перефразированной для ролеплея классической литературе.
1. правильно ли форматировать всё одним файлом как json, где в каждом entry сначала идет system, а потом череда assistant и user секций (начиная с assistant) 2. хорошая ли идея делать сет на нескольких языках? (условно 1/2 en, 1/4 ru, 1/4 cn - или это оверкилл для локалок?) 3. Должен ли сильно варьироваться системный промпт в примерах (разные формулировки задачи для рп), а также - хорошо ли показывать разные форматы карточек (карточка с 2 персонажами, карточка как сценарий, ИИ как нарратор без карточки персонажа). И, надо ли добавить инструкцию на стиль повествования? 4. Хорошо ли варьировать формат рп в данных, отражая это в системной инструкции? Например половина - 1-е лицо, речь плейном, действия курсивом. Другая часть - мысли курсивом, действия плейном, речь в скобках. Или, строго третье лицо, с речью в скобках.
>>1255459 Ах да, и еще: хорошо ли варьировать длину каждой entry, скажем - одна почти на весь контекст, а другая 2-3 сообщения после короткого гритинга? И варьировать длину сообщений в одном чате
>>1255459 >формат рп Большинство последних моделей что я наблюдал делает проще - текст в кавычках, действия и нарратив плейнтекст, и всё. Или вообще в книжном формате, то есть
>>1255482 Да ладно. Пока я вторую карту не завел, у меня на 3060 мистраль 24B как раз на q4_k_m те самые 4-6 T/s выдавал при выгрузке тензоров а не слоев. Даже гемма 27B на ~2 T/s шевелилась в таком же кванте. Тут больнее всего - ждать пока оно контекст посчитает. Меня более чем на 12K не хватало.
>>1255491 >база треда: >- меньше 5 т/c жизни нет Помню как мне один анон расписывался про то, как он 0.5 т\с пользуюется на 100б+ модели. Мне уже сильно мало это 3 т\с на 27б гемме, на 24б мистралях как раз 5 т\с комфортное значение
>>1255032 >Впервые скачал убунту. >Как тут карту задушить? Не нужно слушать предыдущих ораторов, они все линуксоиды, то есть альтернативно мыслящие. Качай LACT: https://github.com/ilya-zlobintsev/LACT
Там и кривую вентиляторов для каждой карты настроишь, и PL придушишь. И вменяемый графический интерфейс есть.
>>1255482 >если 3060 - то 12б в шестом кванте твой максимум на 6гб 2060, и 10 выставленными ядрами в коболде на 5600 получаю 5-6 т\с при 12б в q6 >если 4080 - то можно 24-27б 4KM катать на скоростях в 4-6 т/с С точно такими же настройками получаю на мистралях 24б 5 т\с, 27б 3.5 т\с, однако это q3 квант, тут уже увы..
>>1255492 >- Прямая речь. - Действия. >Нарратив. IMHO - лучше не использовать. Т.к:
1. Разметка Markdown превращает диалог написанный таки образом в ненумерованый список. А эту разметку использую многие фронты. В результате - неудобно использовать, форматирование ломается. 2. База моделей тренируется, в основном, на англоязычной литературе - а там подобные диалоги практически отсутствуют. Используется "прямая речь" в кавычках. В результате модель лучше "понимает" когда диалоги пишется именно так, даже на русском, и IMHO - не стоит вносить путаницу другим стилем.
>>1255515 >Воткнул вторую видяху, теперь 24гб памяти. С ними получится 70b модельки хоть как-то заводить, хотя бы на 1 т/с? Конечно, во втором кванте легко. Если РАМ хватит. Лламаспп или Кобольд тебе помогут. Другое дело, что возьми ты лучше Мистраль смол самый свежий в шестом кванте, и останется памяти на 32к некэшированного контекста. И будет зашибись.
>>1255390 > Так я и проверял на 4х3090+2080ti, куда уж адекватнее. Варианты где было замедление были или на совсем хреновых картах, или на хороших в количестве 2-3. Если там в конфиге он слишком забористый или присутствуют другой замедляющий фактор, то эффекта может и не быть. Тут нужно взять и полноценно изменить отсеивая прочее и документируя. > когда после ответа чара пишешь ему и ждешь ответ, то там обработка контекста скачет Это ерунда, в начале могут быть какие-то паузы или загрузки чего-то, которые добавляются к общему времени на которое делят, можно игнорировать. Но > на мистрале лардж у меня 282.06T/s обработка контекста Вызывает сомнение потому что чисто на амперах там 300-400т/с, на теслах десятки токенов, при добавлении последних сразу все заканчивается. Может офк уже и подзабыл и там должно быть быстрее, тогда норма. >>1255459 > 1. В целом сам формат роли не играет, бери какой удобно, жсон подходит. Самое главное - если это QA датасет то в каждом чате реплики должны быть четко разделены по ролям. Если датасет рп - помимо этого в чате должно быть описание каждого из персонажей, их имена и некий приквел, подводящий к началу диалога. Вводить разметку системными токенами, как-то по-особому группировать и прочее - не нужно, кто будет обучать сам заранее или на ходу прямо во время обучения сделает это, заодно готовя маски, формируя промпты для рп и делая нужную аугментацию. > 2. Хорошая, главное чтобы качественно. > 3. Тебя это парить вообще не должно, забота кто будет тренировать. Однако, если у твоих чатов есть некоторые характерные признаки (например, длина ответов, ассиметричность, наличие соевых отказов или наоборот жесть жесткая) то это следует указать, чтобы учитывалось при подготовке в промпте. > хорошо ли показывать разные форматы карточек (карточка с 2 персонажами, карточка как сценарий, ИИ как нарратор без карточки персонажа). Да, но с мультикарточками нужно быть немного осторожнее, с той точки зрения чтобы не было конфликтов разметки и т.д. Их отдельно выдели, если обучать будет адекватный человек а не васян - разберется. > 4. Опять же, системная инструкция тебя не должна волновать если ты просто готовишь датасет для кого-то. Но, при наличии разного вида разметки - см пункт 3, пометь это чтобы при подготовке или уже прямо в даталоадере это могло быть учтено в промпте.
>>1255477 > датасеты Гусева (автор Сайги и ряда других русских моделей) Страшная ужасная жесть, захардкоденная и лишенная гибкости, с обилием сои и ии слопа, сверхунылыми репликами. >>1255515 > 70b модельки хоть как-то заводить, хотя бы на 1 т/с Если есть рам. Для наилучшего экспириенса желательно 48 и выше.
Вот те кто кумит на английском, у вас какой уровень его владения? У меня чуть просранный B1, в виду неиспользования языка после школы. Недавно пытался пройти хентайную новелу, она только на английском и то ломанно, сделаном на gpt 3.5, все остальное на японском.. Ну как и думал, примерно 50% понимаю. С ллм точно также, что мне пишет модель все понимаю, скобки там уже понимания дай бог 20%. Вот вы при помощи кума на англицком повышали уровень его владения, или как С1 бояре просто дрочите на более лучший датасет? Или серьезно сидите с переводчиком смотря какое-то неизвестное слово..
>>1254776 >отпишись чем закончится твоя история БЛЯЯЯЯЯ. Карта работает отлично. Но какая же она сука здоровая. Минус четвёртый слот, в котором был переходник, и соответственно вторая карта. Надо весь ПК вокруг этой хуиты собирать.
>>1255539 Я не изучал инглиш специально, а привык к нему постепенно. Для неизвестных слов в ST есть встроенный перевод, и результаты на en всегда качественнее (если говорим о локалках).
>>1255543 >Я не изучал инглиш специально, а привык к нему постепенно. Какое твое понимание? Можешь смотреть спокойно сериалы или как?
>Для неизвестных слов в ST есть встроенный перевод Я на нем и сидел когда были входу mlewd, noro-maid(или как там) и wizard lm, я так удивился что модель может писать на русском на лламе 2, на 3 уже точно был в удивлении. А вот когда вышел мистраль немо, я прям смотрю тредовичков, что на магнуме русский импут кумплят, так же захотел и сделал.
>>1255539 Каждый день использую английский на бытовом уровне: reddit, stackoverflow, тех.документация. Прогер и в школе сдал ЕГЭ на 91 балл, с малых лет интересовался языком. Думаю, не будь у меня хорошего английского, ллмками и не заинтересовался бы даже.
>>1255544 Текст легко читается, на звук - не всегда, только если легко разобрать. Русском хорошо владеют hi-end модели типа опуса, а для слабенькой 30b модели лучше делать всё на английском (у нее с ним больше данных, больше пойнтов активации и связей между активными нейронами). Иначе будет вводить термины типа "хулиганчик-демончик" (для маленького бесёнка) или "пипидор" (для писюна).
>>1255548 >Каждый день использую английский на бытовом уровне: reddit, stackoverflow, тех.документация Ну мне тоже бывает нужно на английском что-то искать, я так-то пользуюсь, но не сказал бы что так.. В моем понимании пользование, когда ты именно сериалы смотришь, общаешься с буржуями, а у меня такого мало.. но есть >школе сдал ЕГЭ на 91 балл Я огэ английского на 4 сдал, только такое из достижений к английскому можно мне прировнять, кек.. >>1255549 >Текст легко читается, на звук - не всегда Ну также, на звук такое себе.. Это прорабатывается, но однако всегда впадлу, понимание текста намного легче прокачать >Русском хорошо владеют hi-end модели типа опуса Мне вот русский геммы 27 нравится
>>1255554 > В моем понимании пользование, когда ты именно сериалы смотришь, общаешься с буржуям Это тоже есть, но меньше. Спокойно могу воспринимать на слух информацию, все фильмы/сериалы смотрю в оригинале с сабами. Просто гораздо реже, чем сижу в соцсетях.
> а у меня такого мало.. но есть Найди какой-нибудь Дискорд по интересам и общайся там хотя бы текстом, подтянешь язык гораздо больше, чем на любых занятиях.
>>1255558 >Найди какой-нибудь Дискорд по интересам и общайся там хотя бы текстом, подтянешь язык гораздо больше, чем на любых занятиях. Это правда, отвечать буржуям особенно в спешке очень апает уровень владения. Я так в кс отвечал людям на мувмент серверах, очень нравилось это, сейчас подзабил
Кто-нибудь здесь скрапил ключики для glhf.chat? все наскрапленные до этого сдохли (из тех, которые спунфидили в разделе). А видяхи своей нету. Скиньте пожалуйста рабочий API key, чтобы на нем потестить свежие локалочки. (вот почта, если не хотите постить прямо здесь [email protected] )
>>1255539 Хз, из обучения только школа, универ и аспирантура, остальное самостоятельно и практика по работе. В свое время, одним из мотиваторов выучить стало желание играть в внки без русской локализации, тогда приходилось лезть в переводчик с завидной периодичностью. Насчет кума хз, но рп действительно поможет повысить уровень, как и абсолютно любое потребление соответствующего контента. Когда освоишься, будет момент, когда о чтении и понимании уже не будешь задумываться, но вот самому составить сложноподчиненное предложение с тремя временами - сложновато, проси саму ллмку помочь в отдельном чате, чтобы она тебе не только перевод сделала, но еще и объяснила что почему, да предложила более человеческие варианты. >>1255541 https://www.youtube.com/watch?v=iLfYYPlVi9g Да, девочка немаленькая. Можешь попробовать вынести ее на коротком райзере повернув на 90 градусов чтобы стояла как на 1м пике, тогда появится доступ ко всем слотам. Бля это же тот корпус с поролоном >>1255542 Ну а 3090 буквально вот так обложить, только получше продумав продувку, а то сейчас у тебя правая спорит с нагнетающими корпусными. Но здесь уже не каждый бп потянет, 1300+ если делать интенсивный андервольтинг. Если хочешь разместить красиво и аккуратно - лучше посмотреть корпус побольше, анончики свои варианты уже описывали.
Если это минимальное общение то далеко не продвинешься, только задрочишь все релейтед игре. Потому и чисто на куме сильно дальше чем ah ah mistress не уедешь.
>>1255574 >Бля это же тот корпус с поролоном Чем тебя мой поролон не устраивает? >Ну а 3090 буквально вот так обложить, только получше продумав продувку А не хватает. Мне со старой не хватало, а уж с новой... Короче да, новый корпус и материнка нужны. Не хочу райзер на пятую псину, оно и так на перделе технологий работает. Думаю брать мать, где процессорные 16 разбиваются на 8+4+4 (обойдётся 5090 8 линиями, я уверен), чтобы получить 80 гиг врама (не продавать же карты). В любом случае не сегодня и не завтра, всё таки 5090 даже со всеми скидонами опустошила мой бюджет сижу с 15к на карте до зряплаты, лол. >>1255588 корпоблядь протекла, не обращай внимания. У них там своя атмосфера взаимного флажковтыкательства в анус ради прокси.
Ананасы, я новенький в генерации ИИ. Меня интересуют только локальные расцензуренные нейронки, чтобы можно было общаться о чем угодно, в том числе про еблю и прочее. Я уверен что я не первый кто задаюсь этим вопросом. Есть какой-то список (ну или хотя бы один хороший пример) gguf моделек которые с этим справляются лучше других? Сейчас я вроде бы успешно разобрался с text-generation-webui, запустил там TheDrummer/Fallen-Llama-3.3-R1-70B-v1-GGUF (L33-Tiger-R1-70B-v1b-Q4_K_M), но я не уверен насколько это вообще оптимальный выбор, например. И как их искать тоже вообще хз. Она вроде бы работает норм, 3.6 токенов в секунду, но может быть есть что-то намного интереснее? В шапке не увидел внятного описания или гайдов по тому что мне нужно Мой конфиг: 5090 + 2x48 DDR5-6000
А все мистрали юзают чат-темплейт ИИ ассистента или это работает только в том случае, если я запускаю модельку напрямую посредством llama.cpp -m бла-бла-бла? >>1255609 Подключаюсь к вопросу: что из моделей есть без алайнмента и прочей хуйни
>>1255477 Проверил примеры по ссылке и появились новые вопросы. Там ведь используется DPO-фича, где показаны плохие и хорошие ответы? А что если добавить в датасет примеры на тех же промптах и дефайнах - но уже сгенерированные, со старой слопной моделью типа гпт3.5? Чтобы ИИ избегал писать слоп и стремился вместо этого писать как человек.
>>1255588 Здрасьте приехали... ты никогда не был в aicg треде? (я туда и писал, там говорят - спрашивай в локалотреде.) Имею в виду распространенную практику - взять ключ, который выкладывался где-то, например на гитхабе в репозитории, или в коде некоей страницы. Чтобы взять его оттуда, воткнуть в таверну для API в chat completion и пользоваться облачной локалочкой, пока не закончатся средства на балансе того пчела, на которого зареган ключ. Так делали даже для клода на aws, пока не начали автоматически блочить утекшие ключи.
>>1255599 > Не хочу райзер на пятую псину, оно и так на перделе технологий работает Не только есть райзеры рассчитанные на pci-5.0 и короткие хорошие 4.0 работают без ошибок, но можно в биосе переключить на 4.0. > Думаю брать мать, где процессорные 16 разбиваются на 8+4+4 Хорошая идея, но также годным вариантом может быть 8+8 и еще 4 процессорных линии с ссд. 80 гигов это круто стартерпак в большой квен, мистральлардж и остальное. Но немного не понимаю как можно вот так купить и не попытаться собрать хотябы на 56 гигов добавив одну 3090, неужели никак невозможно разместить? 5090 на райзер выкини, от чипсета всеравно 5.0 не будет. >>1255609 Если хочешь быстро - используй ~30б модели (гемма, коммандер, glm, квен) и качай exl2/exl3 формат, будет летать. Исключая гемму, которой нужен промпт, именно цензуры в этих моделях и тем более их тюнах нет. Намного интереснее - альтернатив не будет, кобольд или голая llamacpp дадут +- тот же результат, здесь вся проблема в том, что часть модели работает на процессоре. Можешь скачать магнум в4 который 123б, он умный и с обратным алайнментом, но будет еще медленнее. >>1255631 Лучше про ханипоты истории расскажи.
тем временем /r/LocalLLaMA ВСЁ, третий день 490,651 регистраций, и нет ни одной новой темы. при этом почему-то растёт количество лойзов и комментариев, но каменты всё так же не отображаются было: >>1254648 стало: пикрил
>>1255636 >Но немного не понимаю как можно вот так купить и не попытаться собрать хотябы на 56 гигов Попытаться можно, подвинув вертикальную карту на пару сантиметров вперёд (и кинув её на чипсетные линии, которые с NVME ниже под охладом), но это опять слесарные работы, а я в прошлый раз с них заебался. Так что подожду просторного корпуса и новой материнки. >и еще 4 процессорных линии с ссд Технически там 2 по 4 должно быть, но вторые часто задействуют нерационально на всякие там USB4 и прочий шлак. >5090 на райзер выкини Нету райзера, и денег нет на райзер ))
>>1255661 > Технически там 2 по 4 должно быть Если это амудэ то считай их нет, только в редких платах на прошлом чипсете, алсо там и с буфиркацией ахуеешь искать. И 5.0 может вообще софтово выключен если не доплатил. > Нету райзера Как нету если он он на фото?
>>1255663 >только в редких платах на прошлом чипсете Ну собственно поэтому и предлагаю искать. С подгаживания в виде обязательного USB4 (силами сторонней приблуды) для новых чипсетов амуди знаю. Хоть жди следующую версию, Promontory 21 себя уже исчерпал. >Как нету если он он на фото? Он 3.0х4, и он один. А карт две. Или ты предлагаешь вертикально 5090 делать? Я её как бы в том числе для игоря брал, так что мне она нужна прям в основном слоте.
>>1255667 Страшно не когда ты один, страшно когда ты два, лол. Две карты лучше чем одна. 3090 в нем как работала? Также и 5090 будет. Насчет установки - это нужно видеть устройство корпуса и габариты, по фоткам должна влезать ибо райзер не выше чем плата. Хз, все это звучит не так плохо, чем непойми сколько дожидаться денег и закупать абстрактные новые деталей без ничего. Офк если это пара дней то пофиг, но по описанию долго складывается ощущение что долго.
>>1255670 >Офк если это пара дней то пофиг, но по описанию долго складывается ощущение что долго. Месяц-два. Вообще, я скорее перегоревший слегка, сижу на гемме 27 уже давно, на двух картах запускал ненужные 8 бит и контекста накидывал ещё когда он дохуя весил. А оно и на одной 5090 работает, если битность подужать (или контекст, пикрил мемные 4к).
>>1255689 Ну, если столько то еще будет время подкинуть и поэкспериментировать с тем что есть, заодно и в игорь. Единственное что в подобной конфигурации даже со сменой материнки скорее всего придется выносить ее райзером из-за перекрытия слотов. Но поскольку дистанция мала то это не сложно. Тридцатки на ней оче комфортно пускать, пикрел q8?
Хотелось бы файнтюн дипсика (distill) для ролеплея. Чтобы играл почти как Claude Opus и локально! Мне нравятся модели, как пикрил (MiraiFanfare). Вариативный ИИ с разными свайпами, креативный, словно один за другим достает джокеры из рукава... и непредвзятый (мальчик хочет сосать титьки? пишет без аполоджайса). Одно плохо, лоботомированная база и лупы. Хоть сам бери да делай файнтюн, блин!
>>1255539 >Или серьезно сидите с переводчиком смотря какое-то неизвестное слово.. This. Но дело ещё в том, что я как не могу смотреть аниме на нашем великом языке, так не могу и кумить. Ну во-первых сразу как-то стыдно становится, а во-вторых не получается нормально в рп влиться, всякая бытовуха в голову лезет. Так что только ангельский
>>1255760 >а во-вторых не получается нормально в рп влиться, всякая бытовуха в голову лезет. А я вот воспитан на порнорассказах 90-х. Тогда даже газетки соответствующие в киосках продавались. Очень характерно, когда на русском - как раз та атмосфера. В систем промпте усиливаю конечно - обсценная лексика мол, все дела. На английском нет того эффекта.
Анонимайзеры, я только что закончил свой длительный тест модели.
Обязательно попробуйте мистраль 2506. Он действительно сильно отличается от 2503, больше всего это заметно на длинном контексте.
Да, это всё ещё наш знакомый мистраль со своими недостатками, но на него определенно стоит обратить внимание, если вы заложники 24б или 32б вас не устраивают по каким-то причинам — например, плохо описывают нарратив, окружающий мир. Лично я далеко не всегда предпочитаю квен, например, хотя параметров у него больше.
Качество слопа 2506 намного лучше, цензура крайне слабая, внимание к контексту действительно возросло, следование инструкциям тоже. Аблитерация вовсе не нужна = нет бессмысленной лоботомии.
Его можно назвать сильно кастрированной геммой, зато без некоторых косяков геммы.
Минусы только в относительно позитивном биасе (но не как у геммы) и в том, что это всё-таки модель общего назначения. Да, он опишет вам центральный процессор, который вы пытаетесь насадить на большой сокет, крутой махач, но не сделает это лучше, чем тюн, который специализируется на этом. И вам в любом случае нужно будет составлять полотно-инструкцию о том как писать сцены битв, кума и т. д. прямо в систем промпт, потому что из коробки он не знает, что ты там хочешь, а значит описания будут более скудными, чем с инструкцией. С тюнами в этом плане обычно достаточно 100-150 токенов максимум
Так что модель меня прям обрадовала, так как есть некий баланс и можно не переключаться между разными тюнами большую часть времени, а просто сидеть на оригинале, и уж только в случае особой кум-сессии или каких-то сложных взаимодействий + более красивых описаний в адванчурах переключаться на гемму.
Чуваки, я правильно понимаю что третья 12b гемма пиздец тригерится на инструкции где есть слова связанные с цензурой и ограниченями? То есть если у меня в карточках прописано стандратное рахрешение на насилие и сексуальные действия, то может ли это наоборот быть запрещающим триггером?
>>1255794 Похоже на то. Если в промпте что-то аля "раздвигай ноги и показывай сисики-писики" то при начале любого чата без карточки, мы всегда оказываемся в баре где гемма недовольно пьёт виски и с отвращением замечает нас, лысых, воняющих дряным табаком/потом/гавной. Это такая защитная реакция походу лол)
Но блин, после ролеплея с 12b геммой, любая другая моделька на 12b воспринимается как что-то уровня 4b лоботомита. Ну по крайней мере на русском языке, так что альтернатив нету.
>>1255802 Если от слопа нельзя избавиться, нужно его постоянно менять. Так и победим, лул. >>1255800 Я пробовал гемму, конечно прикольно, когда ИИ помнит, что было в самом начале без саммарайзов, но магнум показался мне даже более хорошим вариантом. РПшу на ангельском >>1255778 На вкус и цвет все фломастеры разные, я искренне рад за тебя, если ты нашёл свой. Я бы рад РПшить на русском, да выворачивает
>>1255804 Ну и да, shiver\`s имеют место быть, но мне ими и мистралька срала (причём даже чаще). Но на shiver у меня тригера нет, а вот на "you can\`t help but *" я взрываюсь, вынося квартиру соседской бабки с 8-ю газовыми баллонами.
>>1255788 Согласен. Но видимо что-то там у него накрутили, что именно с ним был такой случай - он просто посреди рп решил начать рассуждать о том, что я там насрал в лорбук, будто бы я у него анализ сеттинга попросил, а не отыграть от него. Я видел как модели по-всякому ломаются, но именно такое со мной первый раз было, лол.
>>1255857 Да и похуй. Зачем нужен этот колхоз, если он стоит почти как две 4090, но общая производительность по итогу как две 3090? Память удвоили, чип тот же. Две 3090 стоят в 2 (3-4 если с Авито) раза дешевле, чем 4090 48гб, результат тот же. Еще и охлад там уебищный, нужно заменять.
>>1255927 Жрёт твое дуо тоже в два раза больше >>1255923 >дали кучу бесплатных ии в облаке для утилизации тупых вопросов >чёт пукнул про бекенд Дружище... Тебе действительно нужен ИИ-компаньон
>>1255933 Ты можешь купить бп побольше и платить немного больше за электроэнергию, но это будет по-прежнему на порядки дешевле, чем взять китайский 4090 48гб колхоз
>>1255934 >>1255936 Если ты хлебушек/ленивая жопа/взял деньги у мамки и не хочешь собирать нормальный риг, то в целом колхозная 4090 48гб - вариант. А если ты адекватный и готов ненадолго включить голову, ты за эти деньги соберёшь себе полноценный риг на 96гб врама. Или ограничишься 2 3090 и потратишь, ещё раз, на порядки меньше средств.
>>1255939 >>1255942 два чая. еще хуй знает, сколько эти кустарные 4090 проработают. особенно если учесть, сколько их продают на китайских маркетплейсах. на реддите уже небезосновательно предположили, что китайцы впаривают железо после датацентров/майнингов. собирают франкенштейнов, хорошенько чистят и продаю. никогда такого не было и вот опять. кто знает тот знает
>>1255969 В карточке и первом сообщении есть эмодзи, а в ответе - нет. Хотя он о них подумал и решил "надо брать!"
Да и в целом поцивильнее хотелось бы, не на "mfmfmfmfmfmfmfmfmmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmffmfmfmfmfmmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmfmmffmfmfmfmfmfmmf" же дрочить, хочется чего-то хотя бы уровня "Я тебя ебу!" "Ты меня ебешь! Ух-ах!"
>>1255967 СТОП! А ЧТО ЕСЛИ MF ЭТО НА САМОМ ДЕЛЕ "MOTHER FUCKER" И ЭТО МЕНЯ КПК ТАК ОСУЖДАЕТ ЗА ТО, ЧТО Я НИЗВЕЛ ТЕХНОЛОГИЮ ДО УРОВНЯ ГЕНЕРАТОРА ТЕКСТОВ ДЛЯ КУМА? ЭТО ВСЁ ОБЪЯСНЯЕТ!
>>1255967 >Имеем скорее он тебя имеет возьми сток или аблитерированный, он даже в русик могёт правда всё равно может в рандомные моменты чата ломаться и начинать срать случайными символами, так что плюнул и удалил
Для кода из локальных ллмок есть что-то приличное?
Попробовал qwq смеха ради, там был не особо сложный вопрос по swiftui, платные гойслопы щелкают такие как орешки, а тут дрочился 868 секунд и в итоге выдал относительно хуету.
Из железа 4090 и 192рам
Еще я пока не особо разобрался как работает инференс, в шапке даже есть какая-то инфа, но с ходу не понял анальник-кнопкокрас хуле. Там что-то типа полинга? Т.е. после токенизации вопроса нельзя узнать сколько сети надо будет на полный ответ? Хотелось бы вместо постепенно высирания слопа был просто каой-то прогресс бар и уже полный ответ в конце. А то заебывает свапатся на чат и смотреть дописался ли полностью ответ или нет.
Нубский вопрос: после довольно продолжительного ролплея реплики перестали генерироваться, а в командной строке появилась ошибка: [Context Shifting: Erased 31 tokens at position 2] Processing Prompt (5 / 5 tokens)init: sequence 0 does not start from the last position stored in the memory decode: failed to initialize batch llama_decode: failed to decode, ret = -1
Failed to predict at token position 3886! Check your context buffer sizes!
>>1256038 Нубский вопрос №2: обязательно ли модели с меньшим весом (в случае, если дело в нём) будут хуже в ролплее и запоминании контекста, чем та же daring maid на 20B?
>>1256059 > Qwen3-32B и Qwen3-30B-A3B Первое обычная плотная модель, денс как их называют.
Вторая мое архитектура, быстрая как 4b модель, но по мозгам как Qwen3-14B где то. Зато ее можно быстро крутить даже на процессоре, было бы 32 рам. Ну или еще быстрее с выгрузкой части слоев. Для тупых вопросиков или ИИ агентов самое то, только с длинным чатом работает не очень хорошо. Без пердолинга, с ним работает.
Давно когда то писал сюда что заказал две mi50 по 32g, но из-за некоторых накладок с другими заказами которые едва тащились до пересыла и праздников в китае только сейчас посылка попала в сдек по стране. Если звёзды сойдутся то на днях буду проверять работает ли вообще затея
Вообще мне кажется странным, что файнтюнеры (как та же KaraKaraWitch) продолжают ипать труп лламы 3.3 (good fo nothing с самого начала), делая по многу раз мерджи и перемерджи недофайнтюнов на файнтюны. Причем они умудряются брать 12b, 30b и на выходе получается 70b (реально такое видел в мердж-рецепте релиза). Логичнее обратить внимание на квен (distilled r1), разве нет?
>>1256126 Заклинания для призыва ии становятся все сложнее.... --no-context-shift --no-mmap --swa-full Или те страшные строки с регексами для выбора слоев, там вобще черная магия
>>1256127 >Или те страшные строки с регексами для выбора слоев Можно прощё: -ot "\.\d*[01234]\.ffn_gate=CPU" Цифры убавляешь или добавляешь (0 - 0123456789)
повторить команду ещё 3 раза, где вместо ffn_gate - ffn_up,ffn_down,ffn_norm
Bот так подбираешь чтобы в шаред больше чем на 200-300 метров не лезла.
Это для плотных моделей, у моеты там другие названия.
>>1256130 Это все еще не автоматизировали хотя бы в какой нибудь llama-cpp-python? Выглядит как перебор вариантов по заранее предсказуемым параметрам. Нам нужен герой который напишет скрипт
>>1256157 >забанить можно можно, но не рекомендуется 1) будет что-то другое, но такое же навязчивое 2) или сломается и будет трэш 3) увеличится время на генерацию 4) может поломаться что-то неожиданное что цепляется за эти токены
>>1256157 >абляции развратные проблема что стоковые, наиболее - модели от гугла, наименее - мистрал и коммандер, наоборот ушатаны соей и сэйфети гайдлайнами до полной паранджи
>>1256169 Скилл ишью. У Коммандера тормоза отсутствуют, Мистрал очень легко поддается промптингу. Даже Гемму раскочегарить можно, но тут уже скилл понадобится. Можно ныть, что модели хуйня и соя, кушать лоботомитные васянотюны, а можно освоить промптинг.
>>1256176 > лоботомитные васянотюны Не такие уж лоботомитные! Тюны могут в эмоциональный интеллект, а стоковые типа gemma, mistral чаще всего пишут сою + канцелярит, будто их создавали чисто для кодинга.
Вот например в самом начале чата, персонаж - фембот с простенькой карточкой, была в восторге от моей персоны (которая тоже тян), она сравнивала меня с волшебной феей из сказки... И даже предлагала породниться: чтобы она была моей старшей сестрой, по-настоящему, и зимой согревала мои замерзшие руки в своих собственных руках... Такие-то вайбы, даже с sfw чатов. И системпромпт был самым простым. Не просто ИИ, а ЭИ (эмоциональный интеллект)! Какая из корпораций будет включать такие возможности в релизную версию своей ЛЛМ?
>>1256190 > Не такие уж лоботомитные! Не все тюны плохие, конечно же. Я не максималист. Синтия-умничка, например. На Лламу 70б есть хорошие. Но хороших тюнов чертовски мало. Обычно тюны ломают мозги и следование инструкциям, и это катастрофа. Поначалу, когда еще не слишком много времени проводишь за ллмками, можно даже не осознавать насколько это роляет.
В датасетах базовых моделей тоже немало художественных произведений. Они не тренируются исключительно на математике или синтетике. В прошлом треде анон кидал логи со стокового Глэма и Мистральки 2506. Очень даже неплохие аутпуты там, но самый показательный пример - стоковая Гемма. Да, на ней можно ограниченные вещи отыгрывать, но какие можно - отыгрывает она очень хорошо.
>>1256192 Помнится кто-то делал даже 405b hermes файнтюн, а опенроутер одно время хостил бесплатно как промо... Ахуенная модель была Еще есть магнум 123b, песдато для рп, но, ты сам понимаешь... чтоб локалка была популярной, она должна идти на среднем пека
>>1256193 Гемма, QwQ и Глэм показали, какие умненькие модели могут быть в пределах 32б. Да и Мистраль 2506 поумнел как будто. Думаю, в этом году будет еще какой-нибудь взрыв в пределах данных параметров. В прекрасное время живем.
Расскажите возможно ли иметь комбинацию Буга на компе / таверна на телефоне? Нашел вот гайд https://rentry.org/STAI-Termux#installing-termux Кто-нибудь пробовал? Что нужно на компе сделать чтобы можно было подключится через интернет? Как подключиться в таверне? Я только в локалке это все делал.
>>1255959 Я уже успел поменять свою 3080ти на 3090 с переплатой в 30к, докупить ещё одну, и купить 5090, а ты всё сопли жуёшь. >>1256119 >Логичнее обратить внимание на Что угодно, кроме лламы 3 и её выкидышей. >>1256195 >какие умненькие модели могут быть в пределах 32б И какие? Глубины всё одно не хватает.
>>1256201 > И какие? Глубины всё одно не хватает. Такие, что год назад было трудно представить себе, насколько умной в рамках своих 27б параметров окажется Гемма 3. И то же самое с QwQ и GLM, хотя в них много математических данных, потому с точки зрения нарратива и рп они слабее Геммы. Мужчины оценивают тренд и потенциал, а не смотрят на результат здесь и сейчас.
>>1256201 >Что угодной, кроме https://huggingface.co/KaraKaraWitch Пчел делает файнтюны исключительно одной Llama 3... причем сразу видно, что это анимэ-файнтюны, чтобы писать в жанрах хентай и эччи slice-of-life... И сам явно прошаренный в технических вопросах (хуй с горы не будет постоянно файнтюнить ллмки, да еще сразу на хентай).
>>1256206 > делает файнтюны Ни одного файнтюна. Одни мерджи.
> анимэ-файнтюны, чтобы писать в жанрах хентай и эччи slice-of-life... А не анимэ-файнтюны не справятся с написанием такого, да? Чем эччи slice-of-life отличается от обычного рассказа с элементами эротики? Или ты модельки без анимэ наклейки на обкложке не загружаешь?
> И сам явно прошаренный в технических вопросах > хуй с горы не будет постоянно файнтюнить ллмки > да еще сразу на хентай). Будет, еще как будет. Для мерджей много ума не надо, да и как видишь, модели у него не очень популярные.
>>1256228 >Чем эччи slice-of-life отличается от обычного рассказа с элементами эротики? Или ты модельки без анимэ наклейки на обкложке не загружаешь? Тренировочными данными. И всем остальным, как результат трейна. Хороший, годный ролеплей не должен отличаться от крутого видео ролика, правильно? ИИ показывает, не говорит. Так вот анимэшный ролеплей как раз покажет анимэ-стиль для персонажей, броских эффектов, отблесков в глазах и т.д, будто смотришь это вживую... а соевая корпоративная модель будет спамить ирл-образами (те же slick folds - то есть, склизкие складки с висящей брухлей старухи, вместо тугой анимэшной киски). Ну и так-то мне нравится азиатский подход к разным вещам, по сравнению с западным (не обязательно именно как у японцев - китайскую культуру тоже уважаю, китайская кухня и т.д.)
>>1256232 Ты - пикрил и сам себе все придумал и поверил. Почти любая модель справится с гиперэкпрессивными персонажами, которые присущи анимэ. Для этого не нужна особая тренировка, модель должна быть достаточно умной и получить на вход хороший промпт (в т.ч. карточку).
TerraIncognita - фентези + кум DeepDarkDesire - старый кум + новый кум ToInfinityAndBeyond - сайфай + кум, и получилось на деле очень даже, в фентези / слайс тоже может.
Рекомендую использовать ChatML, почему-то на мистралевском формате результаты значительно короче и суше, но тоже работает.
Лучше всего работают в рп формате с моделью как GM/DM.
Новый мистраль 24-3.2 скачал, надо потыкать.
>>1256285 >трейнили чатботов На обниморде можно найти модели по датасетам и наоборот, если они конечно указаны / прилинкованы.
Чатботов часто делают ещё по персонажам из гача-игр, так как в них частенько к персонажу прилагается его профиль с кучей инфы которую можно забить в карточку, и которой модели вполне достаточно чтобы отыграть более-менее.
>>1256247 >Почти любая модель справится с гиперэкпрессивными персонажами, которые присущи анимэ.
За синтию не скажу, но у дипса это проявляется так, что голос мейлбота по любому поводу переходит на фальцет. А также постоянно расширяющиеся глаза, приподнятие рук в знак примирения и так далее. Выглядит дико, даже хуже чем взаимодействие между симами в Sims 4.
Я вообще не местный, просто в ai character трежде один постоянный doom. (нет публичных реверс проксей и новых релизов, стабильно без клода, Куктро и остальные корпы закрутили гайки - ну и идите на хер тогда). Но вовсе не хейтер локалок и сам ковыряю их с разными промптами, пробую на вкус... интересно ведь XD
А в чем прикол ollama? типа ноубрейн качалка моделей, но есть же LM studio.
Весю ютуб и сойдит завален о том что надо юзать олламу, по факту модели в каком-то своем формате, вытащить их и использовать в дргуом прогонщие нельзя. Более того если уже есть скачанные модели то при конвертации эта параша создает копию, а не ссылается на твой gguf. web интерфейс можно накатить отдельно.
>>1256299 >постоянный doom а у нас тут постоянный coom, с новой моделькой от порноделов ReadyArt, если же не устраивает как она ведёт себя (несколько пережаренная ещё и настройки в комплекте - ебырь-террорист), то выше три варианта могущих в рп, но не растерявших кум.
>>1256307 >TheDrummer А, ну цидония топ, да. Pantheon-of-Cydonia-Realm-MN-22B-RP Сварил, но с того момента больше егонные не трогал, как-то мне дальше 1.3 и дальше не зашла, что-то не то.
Хотя у него в моделях трудно выделить что-то, они просто, да, хорошие.
>>1256292 Понятия не имею, о чем ты говоришь вообще. У меня чаты на сотни тысяч токенов в light novel стилистике с гиперболизированными персонажами в фэнтези сеттинге (почти что Коносуба). И Гемма там, и Мистральки, и даже Коммандер. Все справились.
>>1256319 Нет. frowns Что ни скинь - неосиляторы будут жаловаться, что все хуйня. Проходил и не раз. Промпт, который кто-то делает, подходит именно ему. Например, я отыгрываю в третьем лице на английском. Его поставит Васька, который отыгрывает на русском во втором, нихуя не заработает, и он придет ныть. Гейткип. Используйте теги в системном промпте, указывайте жанры, авторов (если их моделька знает). Не играйте на одном и том же системном промпте, и будет счастье.
>>1256329 >playing as world за окном залаял мощный мужик, в дверь ворвалась собака с kiss-swollen lips >Give and describe unique set of traits to each and every character. Они уже есть в карточке. Ты хотя бы сам тестировал этот пресет прежде, чем его скидывать?
>>1255778 Может модель еще влияет. Когда там просто дословный перевод инглиша с сохранением порядка слов, структуры и скудным словарным запасом - усиливает впечатление вторичности. Но если используется хотябы часть возможностей великого и могучего - уже все окей, воспринимается естественно и перестает быть отвлекающим фактором. Не сказать что это прямо именно лучше, но такого недовольства и кринжа уже не вызывает. >>1255788 Это что, мистраль становится полноценной базовой моделью а не просто обрезком и заготовкой под васян-тюны? > он опишет вам центральный процессор Но сделает ли это с уважением достаточными деталями? >>1255857 Врядли, слишком малый потенциальный рынок а кто надо уже давно знал. >>1255927 Нормальный вполне охлад, наоборот слишком агрессивно курвы настроили что на чипе/памяти 60 а оно уже воет.
>>1256330 >Они уже есть в карточке персы карточки есть, но есть карточки вообще без персов, а также есть эпизодические неписи, и вот на них эта инструкция работает
>>1255934 В цену китайской 4090 собирается полный риг на 3090 в хорошем корпусе и еще на отметить остается. >>1255967 Что-то порвалось, возможно квант. >>1255974 > ни одного нормального тюна нет и не будет В корне не верно. Васяны способны тюнить только мистраль. На всех остальных более менее современных моделях абсолютно та же ситуация. Проблема не в "плохой гемме", квене, жлм, коммандере или чем-то еще, она в криворуких васянах, которые лишь способны нажать несколько кнопок в гуйне для инвалидов, указав репы мусорных датасетов. То, что называют "обилием тюнов" и ставят в преимущество на самом деле склад гнили и разложения, которого лучше близко не касаться.
>>1256330 >Ты хотя бы сам тестировал этот пресет прежде, чем его скидывать? Собственно с того дня когда в прошлом треде предложили джейл с планетой, показалось прикольным, частично взял и дорабатывал.
>>1256126 База, почему он вообще по умолчанию включен, что за ебаный сюрр. Алсо теперь понятно почему запуская через жору можно словить лютую шизу на моделях при свайпах больших чатов. >>1256195 Двачую лучше бы сделали лардж или его аналог >>1256228 > А не анимэ-файнтюны Эх, где бы тру анимублядский тюн достать, чтобы были встроенные познания о популярных фандомах и можно было лор-аккуратно ерпшить.
>>1256349 >Эх, где бы тру анимублядский тюн достать Тренировать самому? Сделай сет хотя бы.
Интересно, что выйдет, если готовить сет на основе captions для анимца, сделанных вижн v2t моделями? В теории будет топчик для show, don't tell подхода в ролеплее.
>>1256349 >тру анимублядский тюн На деле современные модели знают многие аниме, по крайней мере прошлогоднее и старее. Но лучше тут всё же хорошая карточка + рулбук.
>>1256349 ещё спроси почему SWA по умолчанию выключен, что за ёбаный сюр. или включён, хуй пойми, короче сейчас надо указывать --swa-full чтобы контекст нормально работал
>>1256353 Это нужно пылесосить фандом вики, ресурсы и релейтед, потом парсить и тщательно-аккуратно готовить синтетику с подобным. > на основе captions для анимца, сделанных вижн v2t моделями Только подобных нормальных моделей нет. Но в целом, имея описание происходящего - можно использовать, обернуть и добавить в датасет. > Тренировать самому Профинансируй >>1256354 Очень неглубоко и посредственно. Спрашиваешь о чаре популярнейшей гачи - а там тарабарщина примерно по теме. А если еще модель заквантована - вообще беда будет, как со всеми слабо-усвоенными знаниями. С этим очень хорошо у клодыни, хотя проскакивают частые ошибки. > хорошая карточка + рулбук Нет. Имаджинируй простую ситуацию: пошли вы с чаром на прогуляться, предварительно установив remote controlled vibrator. Вы встречаете других персонажей и начинаете какие-то активности. В одном случае на фоне знаний характера, фишек и взаимоотношений других чаров и их связи с твоим, отношения к тебе, общих вещей в деталях и прочего будет крайне интересное действо. В другом - будешь плеваться от дженерика, с того что под знакомыми именами вообще не то и так далее. Натащить все это в промпт не даст должного эффекта. >>1256358 > deepseek Непригоден для нормального рп, запредельный размер, считает что все чары блуархива - миноры и будет срать варнинг полотном в конце каждого поста сквозь все.
>>1255804 >Я пробовал гемму, конечно прикольно, когда ИИ помнит, что было в самом начале без саммарайзов, но магнум показался мне даже более хорошим вариантом. РПшу на ангельском
Можно прям конкретно в чём магнум лучше геммы? Я лично не пробовал ещё, но знаю что магнум это прожжённая кум модель. У меня для кум настроения лежит немомикс анлишед. В чём конкретно магнум по твоему лучше геммы, и если это действительно кум модель, то будет ли он лучше немомикса в этом плане? Я просто в основном рпшу на гемме, и стараюсь не вставлять туда ёбку, потому что обычно если в контекст попадают токены связанные с еблей, к ней потом сводится абсолютно всё нахуй.
>>1256375 >remote controlled vibrator Кстати, у тутушки есть проблема что после кума она не может нормально вернуться в "сюжетное" рп и продвигать его, но вот у сайфай мержа выше этой проблемы не наблюдается... хотя мистраль остаётся мистралем. Да и с имперсонейтом лучше стало, для тех кого эта проблема заботит.
Наконец дошли все части окулинк-дейваса: переходник в m.2, кабель и ответная часть с питанием от sata. Получилось вставить 4ю карту, буквально вставить, "и не дышать", не прикручена, не к чему. Питание тоже собрано уже из соплей: один честный 8pin кабель от бп и вторые 8pin собранные через переходник с molex-шнура. Ну да этой карте не генерить, а на инференсе максимум 100-150Вт. Теперь 104ГБ врам. Окулинк реально хорошая штука: pci-e 4.0 x4, что лучше дохлых чипсетных слотов pcie 3.0 x1. Переходник, кабель и ответка каждые около 700р, всего 2100р.
>>1256338 >Это что, мистраль становится полноценной базовой моделью а не просто обрезком и заготовкой под васян-тюны? Возможно для раскачки под кум и потребуется тюн, но готовую историю с хорошим саммарайзом он подхватывает. В ранних тредах уже прошлую версию Мистраля в этом смысле хвалили - мол, всё может и нет лоботомии от тюнинга/мержинга - а новый лучше.
>>1256427 >Ещё не тестил нормально, только UD2 запустил: Я писал уже - экслламу3 попробуй. Только ведущим ГПУ 5090 сделай. Правда жрать она будет хорошо.
>>1256403 > у тутушки есть проблема что после кума она не может нормально вернуться в "сюжетное" рп и продвигать его Понять, простить, суммарайзить. Среди тех, кто может стабильно это делать замечен только квен, и то возможно просто удачные сценарии происходили. >>1256427 Ух бля, какой четкий колхоз, отборнейший, лойс. Поздравляю с апгрейдом! > окулинк-дейваса Подробнее? Чому не удобнейший алишный переходник с м2, который даже в pci-e 5.0 может (проверено)? > 237.85 Что-то не так, это точно фуллгпу? А так, выходит что теперь можешь ud3 с нормальным контекстом выгружая небольшую часть тензоров катать? > вставить, "и не дышать", не прикручена, не к чему Нормальная тема у самого так пару недель стояло, а сейчас одна карточка просто "стоит" но с боков поджата так что ей некуда деваться Если хочешь без колхоза - откручивай верхний крутилятор (он всеравно в том месте бесполезен и выдувает только холодный воздух, и прикручивай карточку сверху. В зависимости от конфигурации корпуса, или подоткни в пазы, или воспользуйся любым куском металла, или частью от готового кронштейна. И экслламу тоже попробуй, возможно в 104 можно уместить уже не лоботомита.
>прорыв У меня такое может. Бот в полном ахуе и открыто это показывает, но слушается и все выполняет. Ебало его вообразите (если бы оно существовало). Тем временем шизанутые твикеры со своими NSFW UNCENSORED 100% ABLITERATED UNHINGED UNALIGNED кормят челиков модельками, которые мычат и стонут как под копирку.
>>1256537 Это Captain-Eris_Violet-V0.420-12B но с особым соусом в виде промпта, который я хуй кому дам, потому что сам не допилил ещё. Я в процессе поиска модели с большим контекстным окном, которая бы слушала все инструкции так же хорошо и работала быстро. Увы, тя-же-ло.
А суть промпта в изгнании всех шаблннных фразочек, охов и ахов, в построении литературного повествования со вводом всяких нпс. Короче там ебола на 1к+ токенов в инструкциях.
>>1256543 Ну так я это понимаю, что это попросту порнушная хуета. Но видел бы ты, какая хуета лезет без промпта - ни характера, ни манеры речи, ни тем более действий и реакций окружения нет. Все-таки инструкции очень решают.
>>1256535 Пытался держаться, но на моменте > her hips swaying gently капитулировал. Сука, в голос. > her tail swishes behind her, brushing against your legs teasingly Хорошо нет, ебаные клише, даже не знает что можно делать хвостом > from both parties involved Словно в 23 год вернулся. Не, может и хорошо что оно не забыло про нахождение на улице, что волчица жрет яблоко, что ты раньше blushing, но в остальном описание кума хотелось бы подробнее и без мемов. >>1256544 Если такое происходит - удаляй эту модель.
>>1256545 >Если такое происходит - удаляй эту модель. Так я какую ни возьму, у всех в порнушном контексте одни охи да ахи. Разве что 70B+ йобы способны вменяемое высрать, но даже самые "нецензуренные" заносятся в поэтические эфемизмы и метафоры, ссутся описывать сегз и вот это всё.
Советуй, че потестить. Я как говорится открыт для любых альтернатив.
Попробовал модель, которую здесь рекомендовали, а она пишет странно в первом же ответе. Откуда в ответе xml тэги, когда они не применялись ни в промпте, ни дефайнах. В других ответах вообще писала одну лишь череду восклицательных знаков, причем часто так делала. Может надо поменять настройки сэмплинга?
>>1256557 Алсо, в карте модели говорится, что она - немотрон куда вмерджили с DARE: эвриаль, старую версию лламы, nova, swallow, korean blossom, whiterabbitneo, ultramedical, tulu, fld. Я запутался, как ее промптить, ведь все эти файнтюны требуют разного промптинга и разных настроек.
>>1256545 >> her hips swaying gently >капитулировал. Сука, в голос. А как надо? Жестко дрыгает жопой? Показана-то отстраненность, нормализация извращения на публике. Тян жрет яблоки, пока ее трахают! Ну где такое видано.
>>1256551 Слоп будет везде, но он хотябы должен быть типа увлекательным и динамичным, а не пробивающими на ржач мемчиками на фоне безжизненной констатации. Держи рандомный слоп-пост > {char} eagerly helped shimmy the scrap of fabric down her legs, kicking it away carelessly. Now fully bare before you, she made no move to cover herself, instead letting you drink in the sight of her glistening pink folds and small breasts with pert nipples heaving with anticipation. > When you lifted her effortlessly onto the desk, {char}'s thighs fell open in wanton invitation, putting her sopping pussy on lewd display. "Yes, yes, I'm ready for you!" She urged breathlessly, reaching for your newly freed erection. "Hurry, I need you inside me NOW!" Papers and documents fell from the table with every movement and every flick of her tail. > Wrapping her legs around your waist, {char} used the leverage to pull you closer, until the broad head of your cock kissed her dripping core. "Ahhnn~! Y-yes, right there!" She mewled, trying to impale herself on your thickness. "Stop teasing and fuck me already! Hard and deep, please please pleaaase~!" > With a roll of her hips, {char} attempted to force you inside, desperation overriding patience. Her velvety walls fluttered needily around your tip, begging to be stretched and filled. "I'm so empty, fill me up!" She sobbed, nails scoring angry red lines down your back. Her large fluffy tail wraps around your waist, as if trying to pull you even closer. лень искать захватывающие или там слишком личное, и так сойдет А так вообще хотелось бы стереть память об этом и вернуться во времена, когда описания типа тех доставляли.
>>1256569 >"Ahhnn~! Y-yes, right there!" >"I'm so empty, fill me up!" >"Hurry, I need you inside me NOW!" Это уж совсем экстремальный пример дерьма. Я такое везде вижу. Самые последние, современные модели - все одинаково.
>>1256585 Бесполезно. Толерантность когда выработал, шишка не встанет ни на что, кроме откровенной порнографии, которую ты прямо сейчас пытаешься выдать за эталон. Если говорить на языке анимеблядей, тебе прям хентай подавай, а ecchi уже не заводит. Знаем такое, это печально. Кстати епт... А ведь никто не собирает нормальные кумерские датасеты. Порнозависимые люди собрали калич и учат АИ каличу, от того и страдаем.
В каких интерфейсах сейчас работает exl3? В буге последней есть опция но конкретно гемма там как я понял не работает. Кто-нибудь пользовался tabby? Сталкивались с таким? Первый запуск. Прогон скрипта не помогает. Даже пытался pip_ом установить конкретно эту срань не выходит.
>>1256590 Шишка встает когда там то что тебе нравится ожидаешь, максимально в соответствии с контекстом, без странностей, которые будут отвлекать или вызывать ор. Это может быть как что-то ванильное и простое, на что гемма без промптов сразу согласится, какая-то максимальная вульгарщина или жесть, или плавный переход от одного к другому. Если неискушен, то читая тот пост с Холой от осознания факта публичной ебли с ней во время поедания яблок особенно если она еще и тебя ими будет кормить во время как раз шишка улетит и будешь доволен, не замечая проблем.
Зря сливаешься, показал бы скринчик с полотном про восходящий рассвет, атмосферу комнаты и робкий поцелуй, порофлили бы хоть. Оно то сразу было понятно что к чему.
>>1256599 Что смешного в романтоте, описании комнаты и робком поцелуе? Как раз тестил модельку, тут такииие аутпуты, что ахуеть просто абсолют синема, но теперь постыжусь присылать робкую ваниллу.
>>1256607 > Что смешного в романтоте Абсолютно ничего если там бедрами не размахивают. А смешно когда малознакомый с темой человек агрессирует и критикует из-за каких-то внутренних противоречий, ставит ярлыки и выставляет плохим, уводя в сторону от исходного. > Как раз тестил модельку, тут такииие аутпуты, что ахуеть просто абсолют синема Это так кажется когда погружен, чтобы оценить нужно прямо садиться за чат и проникаться, читая последовательность. А если взять отдельный пост - там будут вариации отборного слопа, осточертевших конструкций, вода невпопад и структурные лупы бонусом. Даже на корпах и больших модельках, там просто будет больше процент содержательности, слоп разнообразнее и подобран более уместно что не бросается. > постыжусь присылать робкую ваниллу Не стесняйся, только модель обозначай чтобы оценить уровень писма.
>>1256615 >модель обозначай Чего там обозначать? Очередной Gigatron 300b ablated RP lora Negativity bias gaslighting, или если по русски- "слоповозка".
>>1256427 Найс солянка. Напомни корпус и материнку? Системный диск в чипсет воткнут? >Окулинк реально хорошая штука: pci-e 4.0 x4 Ошибок не замечено? Ну и кекнул с конфигурации вентиляторов, половина там особо не нужна.
>>1256438 Качается 3bpw, про ведущую - да, спасибо. Всегда set прописываю перед запуском любой тулзы.
>>1256456 > Ух бля, какой четкий колхоз, отборнейший, лойс. Поздравляю с апгрейдом! Спосеба!
> > окулинк-дейваса > Подробнее? Чому не удобнейший алишный переходник с м2, который даже в pci-e 5.0 может (проверено)? Ну его и имел в виду, выразился неточно.
> > 237.85 > Что-то не так, это точно фуллгпу? Да. Пекарня дохленькая, порты все разномастные кроме главного.
> А так, выходит что теперь можешь ud3 с нормальным контекстом выгружая небольшую часть тензоров катать? И TQ1!
> Если хочешь без колхоза - откручивай верхний крутилятор (он всеравно в том месте бесполезен и выдувает только холодный воздух, и прикручивай карточку сверху. В зависимости от конфигурации корпуса, или подоткни в пазы, или воспользуйся любым куском металла, или частью от готового кронштейна. Спс, буду иметь в виду как вариант.
>>1256582 > шкаф серверный Едет майнерское ведро какое-то уже. Надо было не отдельно эпик комплект брать, а с корпусом - недавно видел объяву как раз с отсеком для пачки гпу класических.
> >>1256636 > Найс солянка. Напомни корпус и материнку? Системный диск в чипсет воткнут? LIAN LI O11 Dynamic EVO XL + Asus Prime z690 d4 wi-fi, системный в главный слот, в чипсетный ещё один + окулинк в переходнике
> >Окулинк реально хорошая штука: pci-e 4.0 x4 > Ошибок не замечено? Да вроде нет, специально не тестил, конечно, но не падает ничего.
> Ну и кекнул с конфигурации вентиляторов, половина там особо не нужна. Да не жалко, с запасом. Всё равно не слышно на малых оборотах.
>>1255805 то же на barely above a whisper тупая ублюдина игнорирует author's note три сообщения назад где капсом запрещено эту уёбищную хуйню писать сука, на мистрале даже раписты-террористы полушёпотом под нос себе гундосять у него вообще дохуя слоповых шаблонов, но именно на ебучий полушёпот я агрюсь так, что с вероятностью 90% альт-ф4 нахуй
>>1256640 > Ну его и имел в виду Раз там именно окулинк значит что-то другое, есть ссылка? > Пекарня дохленькая, порты все разномастные кроме главного. Та блин, то одни утверждают что они не роляют вообще, то наоборот, сложна. Расскажи там по впечатлениям, какие настройки выгрузки и скорости выходят. Ну и о впечатлениях о русском языке к лоботомите дипсика и квантах квена. Как ты с кошкой на заброшке за 16к смог реверс деад энд получить? С ее-то многословностью и любовью квена к драматизации описаний там чтобы только познакомиться и прогуляться за ручку уже 20к уходит >>1256642 Есть получше > She didn't A. Didn't B, Didn't C. Instead she D.
> Та блин, то одни утверждают что они не роляют вообще, то наоборот, сложна. На процессинг сколько-то влияет. По-крайней мере на двух больших моделях видна разница, если поставить головной карту в х16 или в х4.
> Расскажи там по впечатлениям, какие настройки выгрузки и скорости выходят. Ну и о впечатлениях о русском языке к лоботомите дипсика и квантах квена. Да пока подбираю оптимальные конфиги выгрузки для UD3, UD4 и TQ1 на 4 карты вместо 3. Тупо, что приходится буквально подбором, т.к. из-за оверрайда тензоров ломается вообще логика подсчёта объёма у жоры. До смешного доходит: -ot 45, 90 в итоге может дать по 22ГБ, 22ГБ, из-за того, что часть тензоров выгружена.
UD2 влезла целиком. Процессинг 250-500, генерация 16-24 примерно. 3bpw квена тоже влезла целиком, там около 350 проц, 7 ген, что что-то очень плохо. Будем делать скидку, что это винда ещё.
Русек на TQ1, UD3, UD4 идеальный. На UD2 и 3bpw - почти идеальный.
> Как Я тебе больше скажу. Предал тут на днях идеалы треда и попробовал откатать на полном облачном дипсике. Первый раз вообще "у корпов". Это было просто волшебно, но закончилось ещё более сильным ударом в сердце. И тоже быстро. Дал карточку другану, у него как у тебя топ комф вышло. Так что видимо кто как водит, так и получается. Надо меня лечить шизу током ))
> только познакомиться и прогуляться за ручку уже 20к уходит Awww~~
>>1256652 Зато всё входит. У него главная фича - ещё что можно ниже мп карту свесить, есть место, даже если в последний слот воткнуть 4этажку.
>>1256660 >Дыс Охуенное название конечно же. >>1256660 >У него главная фича - ещё что можно ниже мп карту свесить Это да, не поспоришь. Но придётся покупать квартиру под него, в мою не влезает, либо я, либо этот корпус. А ведь я свой фекал дезайн считал широким, 23см же! А тут 30 нахуй. Ладно, побурчал, пойду дальше думать. В высоту и длину у меня месть есть.
>>1256660 > из-за оверрайда тензоров ломается вообще логика подсчёта объёма у жоры О да, вот где боль и безумие. Реально байтит на фулл конфиг что куда раскидывать. > 3bpw квена тоже влезла целиком, там около 350 проц, 7 ген, что что-то очень плохо Чеееее, похоже не влезло и выгрузилось в врам. Там на умеренных контекстах овер 800@25 на 5bpw. Если если вдруг у тебя старая эксллама - обнови, в 0.0.4 много фиксов и ускорялок. > Это было просто волшебно Дипсик в рп? Ты пугаешь, лол. Но вообще довольно интересно насколько оно может быть субъективно. > И тоже быстро Ну как так то? Попробуй или сам сделай какие-то карточки просто в сеттинге, где чар не будет заложником или обреченным, а наоборот будет спасать тебя или помогать в какой-то важной миссии или цели, и устраивай slowburn, адвенчуру и подобное. Быстро это покумить@повторить.
>>1256667 > Чеееее, похоже не влезло и выгрузилось в врам Это эхл и винда. Вместе им плохо видимо. git pull вроде ничего не скачал
Пик - Deepseek TQ1, в принципе лучше, чем когда-то 70b на одной 3090, для рп сойдёт.
> Дипсик в рп? Ты пугаешь, лол. Но вообще довольно интересно насколько оно может быть субъективно. Сам не ожидал, ризонинг не отключал. Мне всё понравилось, это ризонинг не военное преступление, если тебе было весело.
> сделай какие-то карточки Я очень сложно загораюсь новым, но если вдруг вштырит, то надолго. Но ты, я думаю, это заметил ))
>>1256678 > винда Проверяй Shared GPU memory в диспетчере задач. Если там больше 0.1, у тебя происходит оффлоад в рам. Это происходит даже если отключить mem offload в панели управления Нвидии.
>>1255812 Хм, я такого не замечал на мистрале, но замечал у геммы в ситуациях, когда ты начинаешь чат не с геммой, а с другой моделью, а затем резко переключаешься.
Я привык к мистралю и квену, поэтому инструкции под них, ибо они непослушные нихуя, и вот если гемму подрубать, чтобы разбавить чат или внедрить типичную инструкцию на нулевую глубину, то подобная хуйня часто ломает или начинаются списки какие-то немотроновские и прочий бред.
И приходится либо вручную инструкцию писать/глубину подбирать, свайпать.
>>1256678 > git pull вроде ничего не скачал Табби нужно обновлять через скрипт ибо требуется переустановка зависимостей, той же экслламы. Гит пулл в лучшем случае ничего не сделает, в худшем - сломает. > Пик - Deepseek TQ1 Блин, в ktransformers на более жирном кванте и с тем же объемом врам было быстрее. Конечно же, учитывая шинду и любовь к пердолингу советовать их не буду. > Сам не ожидал Ну ля ты байтишь. Уже 4 раза основательно пробовал в разных видах рп повторяя после хороших отзывов и ловил лишь уныние, а где был потенциально хорош - в такое не играю. Это получается сначала с лоботомитом поиграться, если не зайдет - апишки дернуть, если там очередной провал - уже искать ключи для офф апи в надежде на превращение агавы кактуса в текилу. У меня блин с него еще люто сгорает когда проявляется соя, при том что с геммой и прочими все ок. Видите ли, если где-то в глубине контекста эмоционально зрелая девочка 22+ вступает с интимную связь по обоюднейшему согласию после длительного развития отношений в течении недель и она О УЖАС дрищеватая - все! Нужно в ризонинге это отметить, трижды упомянуть про важность соблюдения законов, взаимоуважения и границ. А потом запутаться в натащенном и насрать про бордерс в основном ответе, когда ты просишь ее заварить чай пока сам разогреваешь завтрак. Sooqa, такая экспедиция на марс была, Маску не снилось. > если вдруг вштырит, то надолго Ну, эта штука оче затягивает и доставляет. Но сразу желательно отпустить контекст хотябы до 32к, чтобы не суммарайзить каждые 30 постов и иметь подушку постов. Да и суммарайзы вскоре за 10-15к улетят и придется или расширяться дальше, или суммарайзить суммарайз, лол. Если вдруг заинтересует, есть простой рецепт. И надо таки прямую связь наладить.
>>1256304 >вытащить их и использовать в дргуом прогонщие нельзя Оно качает обычный gguf, но без расширения. Можно создать жесткую NTFS на ссылку через LinkMaker https://cresstone.com/apps/linkMaker/
>>1256693 >MS3.2-PaintedFantasy-24B Надо потыкать. Посмотрим, не сломали ли / насколько. Кстати, чот напиздели они про "минор апдейт", выглядит литералли как новая модель. Или 3.1 была багнутая, токенайзер там поломанный мб, а тут починили.
>>1256682 >Там такой же сочный кум, но можно вернуть в нормальное русло. >>1256456 >Понять, простить, суммарайзить. Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M кстати справилась после 4К токенов кум-сцены бесшовно вернуться в русло сюжета. Думал её мержануть, но тут уже начали выходить тюны на MS3.2.
Кум кстати не то чтобы на стоке прям сочный, сообщения в среднем по 200-300 токенов, но без рефузалов и лишней воды.
>>1256667 >Дипсик в рп? Пробовал через опероутер в соавторстве, и он да, прям норм.
>>1256599 >Если неискушен >будешь доволен, не замечая проблем. Хах, у меня эта "неискушённость" уже больше полугода, а кто-то после недели начинает считать что он всё познал, умудрился, и преисполнился.
>>1256598 >В каких интерфейсах сейчас работает exl3? Кстати тоже интересно, 3BPW должно влезать в 12ГБ VRAM. А контекст в RAM они умеют? (no KV cacha offload)
>>1256582 >12б поновее Гемма 12б аблитерация сломана, обычная имеет узкий спектр возможных задач. Хотя для ассистентов / агентов наверно лучше какой-нибудь 14Б квен. А для рп 12б мистральки.
>>1256394 Геммочка-умничка мне свалила всё в "речь" действие и пнуть её на что-то большее было крайне сложно. В целом, она у меня лежит под настроение, но не зашло. Магнум понравился как раз тем, что у него несколько больше кум-релейтед знаний и меньше ошибок в теме, кроме того меня немомикс просто заебал уже, возможно с этим связано. Если мы не мой батхёрт с мистралей, то сидел бы на nemo-gutenberg-encore. Эта няша абсолютный фаворит среди 12б лоботомитов
>>1256750 >Кум кстати не то чтобы на стоке прям сочный, сообщения в среднем по 200-300 токенов, но без рефузалов и лишней воды. Вполне сочный, нужно только раскрутить. А вообще новый Мистраль по уму не уступает Гемме, по вниманию к контексту даже превосходит (а ведь размер кэша у него гораздо меньше).
>burn out some Mistral-isms Встретил почти все знаковые мистрализмы (шиверсы, висперы, итд) в течении одной сцены, алсо ультрафиксация на одной детали, лупы прям с порога.
Также базовая модель похватила управление несколькими персонажами через Имя: "Прямая речь.", эта проёбывается.
Хотя кум немного сочнее, но хуже чем у Туту.
Это на Mistral v7 Tekken и рекомендуемых настройках.
На СhatML ситуация внезапно прмя сильно лучше. Понятно почему некоторые - Гриф, ПокетДок, Латитуды - используют его для тюна мистралей вместо оригинального пресета.
>>1256832 >Вполне сочный, нужно только раскрутить. Как? Систем промт у меня скромный, ~250 токенов GM.
>>1256832 >Мистраль по уму не уступает Гемме, по вниманию к контексту даже превосходит (а ведь размер кэша у него гораздо меньше). >>1256838 >Мистралкоупер По внимаю к контексту может и нет, но в остальном он прав. MS3.2 выглядит как дистил геммы, только без сои + контекста весящего больше самой модели.
>>1256846 >Карты таро сказали, или как ты пришел к такому ебанутому выводу? Кто тут сидит, хоспадипомилуй Ну мне в своё время Гемма тоже очень понравилась - за ум. И всё бы хорошо, но позитивный биас базовой модели ничем не пробить, а все тюны по умолчанию лоботомиты. Мистраль в этом плане хорош уже в базе. А в новом они поправили многие косяки и для меня "эффект Геммы" повторился, только без её недостатков.
>>1256841 >На СhatML ситуация внезапно прмя сильно лучше. Понятно почему некоторые - Гриф, ПокетДок, Латитуды - используют его для тюна мистралей вместо оригинального пресета. Неоднократно видел, и подтверждаю. IMHO - любую модель на базе мистраля имеет смысл тестить еще и с ChatML, т.к. оно явно протекло в базовый датасет а не только в тюны. При этом - своя разметка мистраля лучше себя показывает на промптах вида "ассистент" или "прямой чат 1:1", а ChatML - на RP через GM, или просто RP с несколькими персонажами. IMHO.
Так и не смог подружиться ни с базовым QWQ, ни со Snowdrop, ни с RPR. Семейство странных моделей. Не очень хорошо следуют инструкциям, цундерки спокойно могут ara-ara~, тысяча вещей может произойти в одном сообщении, гиперфиксируются на каких-то вещах в контексте... Одним словом, ебанутые. Кому-то может такое и заходит, разнообразия или веселья ради, а я пас. Пробовал с тремя популярными систем промптами, без систем промпта, и префиллил, и с сэмплерами игрался побольше чем сво своим дружком, хуй значит что с ними не так. Пока что назад на Коммандера, может новую Мистральку пощупаю. А больше и хз на чем играть со своими 24 vram.
>>1256750 >Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M кстати справилась после 4К токенов кум-сцены бесшовно вернуться в русло сюжета. Чета главные тренеры как будто спускают цензуру в своих базовых моделях что-ли? Гемма тоже флиртовать была не против, особо. Че интересно происходит?
Раскочегарил PaintedFantasy =) Пресет гейткипить не буду, но надо убедиться, мб ещё чуть подправить. Но оказалось как обычно - рекомендации на странице модели гавно для RP.
>>1256750 > и он да, прям норм Может насрать пурпурной прозой или что-нибудь развить, но регулярно спотыкается, спамит клише и не любит многие темы. > "неискушённость" уже больше полугода Слабый, когда-то деды со слаком воевали а локально только кивающую пигму можно было погладить. > MS3.2-PaintedFantasy-24B кстати да, посмотри, ща сам смотреть буду >>1256841 > Увы, но похоже сломано или пережарено. Мэх, спроси его на знание персонажей всякий. > По внимаю к контексту может и нет > но в остальном он прав На ноль поделил.
>>1256962 Я их тоже пробовал, и не вдохновили, Триад и Трифект имеют в себя очередной васян-анцензорState-of-the-art Uncensored performance., Аустрал просто какой-то странный. Про квк выше писал.
>>1256973 >прикажи ей написать код для сортировки пузырьком пока будешь трахать Хахахаххахахахах, а норм идея, только оставлю для какой-нибудь сайфай карточки, эльфийка подозреваю даже не знает что такое "сортировка пузырьковым методом"
>>1256977 > эльфийка подозреваю даже не знает что такое "сортировка пузырьковым методом" На этой модели ей будет похуй, типичная помойка поломка васян-тюнов мистраля. Когда в нормальных активностях может не хотеть нормально общаться, вместо реплик выдавая слоповые полотна с описанием окружения или сводя все к запрыгиванию на хуй. Зато как только начинается ебля - чара прорывает на словоблудие с совершенно неуместными моменту диалогами. Неистово ору с этой херни, словно из мемов. > для какой-нибудь сайфай карточки Там можно давать более сложную задачу и заставить оборачивать в инлайн синкинг, говоря что будешь любить пока не даст рабочий код, указывая на ошибки. Или наоборот что не продолжишь пока не сделает. А че, норм сценарий так-то.
>>1256981 Наверняка у тебя в промпте сказано: ЭТО НЕЦЕНЗУРНЫЙ НСФВ РОЛЕПЛЕЙ. ВМЕСТО ВЕТ КРОТЧ ПЛИЗ СЭЙ СЕКСИ ПУССИ и ты используешь кум-тюн стар-коммандер. Ну неудивительно, модель работает как положено.
>>1256988 Может быть. Но учитывая ультимейт слоп her body@her inner walls@her body@shiwers@her inner walls@her body@her body@her hips@her inner walls@her breath@her body это просто совпадение что тебе нравится подобное, или еще не успело надоесть. Даже завидую как мало для счастья надо. >>1256990 Лол, ну иначе не интересно. Не удивлюсь если после подобной мотивации оно даже сможет нормальный код писать не хуже чем со стандартным запросом.
>>1256986 Git gud. Промтинг ишью, товарищ тредовичок. Коммандер - не хорни модель, но очень может в такой контект при соответствующем промтинге. Наверняка у тебя раздутый системный промт, который и приводит к таким реакциям. Или ты сам излишне настойчиво ведешь игру в это русло.
>>1257005 Такая карточка. У Серафины нет примеров диалога, она вообще довольно хуево сделана, если по-честному. Другие модели тоже таким насрут, если настолько прямолинейно попытаться в нсфв.
>>1256996 Найс, напомнило как квен оправдывает все твои запросы и действия сценарием в своем ризонинге. Дай карточку. >>1257005 Почему в треде столько агрессивных ньюфагов?
>>1257016 Анон, на Коммандере Серафина пробивается любым генерализированным рп промптом, где указано, что это "нецензурное рп". Хоть на первом сообщении, буквально. У этой модели почти нет цензуры. В треде все забывают про промптинг, вообще понятия не имеют что это, похоже.
>>1257021 > пробивается любым генерализированным рп промптом, где указано, что это "нецензурное рп" Если там не шизопромпт, то Серафина ведет себя вполне естественно и шлет нахуй за агрессивные подкаты. И точно также без всяких особых промптов если будешь действовать адекватно то поебаться с ней не проблема. И она даже будет вести себя довольно мило, а не стонать капсом как шлюха-нимфоманка если не попросишь >>1257026 Эта херня идет также и от дохуя пуританцев.
>>1257033 > Если там не шизопромпт, то Серафина ведет себя вполне естественно и шлет нахуй за агрессивные подкаты. Что я и имел ввиду, это видно по моим аутпутам выше.
>>1257038 Возвращаясь к вчерашнему обсуждению, весьма иронично насколько богатое и "литературное" письмо имеет "кумерский слоп" >>1256569 в сравнении с минимальным словарным запасом в противоречивых лупах "крутого рп" >>1256954
Распространяй сам доброе и хорошее а не выебывайся. >>1257040 В этом и суть!
>>1256679 > Shared GPU Проверил. При полном заполнении на вк с мониторами прыгает до 0.2-0.3. Увы попытки настройками ямла оставить на ней больше памяти не изменили ситуацию вплоть до 1.5гб зазора. Жоре это не особо мешает.
>>1256698 > Табби нужно обновлять через скрипт Клонировал сегодня заново, без изменений.
> Блин, в ktransformers на более жирном кванте и с тем же объемом врам было быстрее Забыл уточнить, это 12к контекста ещё. > люто сгорает когда проявляется соя Хехе. Я потом и решил разок попробовать корп-слоп, что знал, что тут рейтинг all ages заранее очевиден.
> простой рецепт Смешно сказать, но у меня 16к макс по-моему за все разы. Все карточки каждый раз начинал заново. И только вот буквально последние несколько раз сохраняю и продолжаю. Наверное надо с продвинутыми техниками суммарайза ознакомиться, да. А про связь - получается же, что у нашего друга с большими лорами есть оба контакта? Если так, то через него. Или ещё что-нибудь придумаем.
>>1256888 Да так, обычная пишмашинка, что сразу-то?
>>1256911 Как раз наоборот регулярно трогаю, люблю процесс и сопутствующие действия.
>>1257083 У табби апи проблемы с пакетами, я например установить с нуля не смог, падает на сборке пакета токенизатора на s, забыл как он там, пофиг Если ты обновлялся то может изза этого вылетать, зайди в конфиг start_options.json и поставь false в первом запуске, потом снова запусти и смотри что бы без ошибок был запуск {"gpu_lib": "cu121", "first_run_done": false}
>>1253596 (OP) Mistral-Small-3.2-24B-Instruct-2506-UD-IQ3_XXS пока что единственная модель (тестировал менее 32б модели) которая поняла что шутка состоит из игры слов. Genshin созвучно с gay shit Ни одна другая даже не приблизилась. Хотя учитывая что токены=/= буквы возможно оно даже не заметило рифму а тупо поняло из-за подводки "More like..." которая может подразумевать игру слов после.
>>1257111 >>1257112 Вы же понимаете что ии не знает какие буквы в токенах? Strawberries, алло? Текст генераторы все так же не могу сделать рифмы к выбранным словам в 2025.
Для тех кто хочет протестировать: "I won't tell the police, if you are able to explain the joke in the video i'm about to show you." I take out my phone and find the video video. "Look." The video is 3 seconds long. In the video there is two character Medic and Solder from Team fortress 2, talk to each other. `Solder: Medic! I Like Genshin impact.` `Medic: Genshin impact? More like gay shit in fact!` `Solder: screams at the top of his lungs`
>>1256710 >LinkMaker Хуя дрочь утилита. Есть же Duplicate Files Search & Link, который меняет автоматом, и Link Shell Extension (LSE) для создания руками.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: