В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1326319 → Это все равно 3 штуки 4090 и у него, судя по описанию, их нет. >>1326338 → Необходимо добавить еще -ngl 999 и проверить не переполняется ли врам > -t 9 Вот это выкини вообще, потом уже когда норм заработает можешь попробовать поиграться. >>1326357 → Оверклокер в треде, все в жидкий азот.
Cмысл сабжа если есть character.ai? Дни на пердолинг таверны и сотня тысяч на видяшку только ради того чтобы получить доступ не к ванильному а к хардпорно?
>>1326501 >Cмысл сабжа если есть character.ai? Жирнить пришел или просто долбаеб? Хотя одно другого не исключает. >Дни на пердолинг таверны Ставится за пару минут, если ты не пизданутый наглухо. Настраивается за пару часов, если умеешь читать. >сотня тысяч на видяшку Локалки заводятся на любом барахле, которое имеет процессор и память. >чтобы получить доступ не к ванильному а к хардпорно На чайной нет никакого порно, даже ванильного. Лучше бы в пример какой-нибудь спайси чат привел, чтобы не так сильно обсираться.
>>1326354 → >Неплохо, но стоило бы еще добавить в сис промпт что-то типо >- Never write messages on behalf of {{user}} or try to continue the conversation on their behalf. >А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица.
А, я обычно рпшу в режиме соавтора от третьего лица, поэтому мне норм.
Аноны, такой вопрос как бы очевидный нахуй как запускать без интернета? Ну типа, ты же все равно должен на айпишник зайти а это же интернет нужен, не ? или я чего то не понимаю?
>>1326543 >или я чего то не понимаю? Нет, ты всё понимаешь правильно. Можно даже сказать, что ты задаешь правильные вопросы. Так что предлагаю тебе отключиться от интернета и попробовать подключиться к локальному серверу без его участия. Результатами обязательно поделись, вопрос серьезный.
Ну так и че там по квантам. У меня например на 2 кванте русик не то чтобы хуже чем у анона на 6xl здесь >>1325404 → Может и правда моделям 200+б просто похуй уже на квантование
>>1326555 >похуй уже на квантование оно скажется в точных задачах вроде кодинга, но в сторителлинге, хз, разве что ты свою нейро песнь льда и пламени задумаешь писать
Как сбросить настройки модели в LMStudio? Накрутил какой-то хуйни на GPT4-20M, теперь не грузится. Хотя грузилась как только скачал. Я дропнул модель и загрузил ее заново, но не помогло, настройки хранятся где-то не в каталоге с моделью.
>>1326448 >Это все равно 3 штуки 4090 Одна 4090. И две п40, это на них оказывается выгружало. Но всё равно не понятно, где эти мифические 10 токенов, такая же скорость была и на старых плотных моделях ~70б. >Необходимо добавить еще -ngl 999 Сегодня попробую.
Решил я вечером покушать чистого слопа, но все было не то. Не хватало этой, знаете, хентайной радости от происходящего. А потом меня осенило : ответ же на поверхности, нужно просто запромтить хентайворлд. Чем мы вечером и займемся.
>>1326571 Тебе в соседний тред ботоводов, тут обсуждают локальные ллм.
>>1326597 Через апи можешь рулить всем чатом, через корпофронты доступа к первому сообщению ака системной инструкции нет. Но если мы говорим об апи, то это другое
>>1326606 Ну и хуй с ним. Все равно не тематика. Не будем спать в тред. Авось придет какой нибудь корпоеб. Хотя я вангую, что скорее всего ты просто будешь баны за охуительные запросы получать.
>>1326622 И чё, ну вот и чё ? Ты где то тут в треде увидел как аноны делятся джейлбрейками ? С чего ты взял, что тут вообще, кто то ебет за джейбрейки корпов ?
>>1326629 В ПИЗДУ ТОГДА ВЫ МЭДЖИК В ШАПКУ ПИХАЕТЕ , ХУЕСОСЫ? Эта параша работает на гемини, а гемини мало того что без впн не работает, так еще и не переводит 18+, так что нужен сраный джейлбрейк.
>>1326629 Может ты уже прекратишь ебика кормить, мань? Или ты он и есть?
>>1326636 Затем, что оно и на локалках работает, глупенький ты наш. Пиздуй отсюда в облачный тред ад, не трать свое драгоценное время, тебя здесь разве что обоссут
>>1326522 Ollama установилась быстро, но выдает 3 токена. В таверне же действительно фиг разберешься. Да и по качеству ответов gemma-3-27b фигня какая-то. Выдает огромную стену текста с каким-то фанфиком по теме. Даже у dungeon.ai с его длинными, повторяющимися и совершенное не продвигающими сцену ответами получается лучше. с.ai на голову выше. И ответы короче и содержательней и сюжет двигает понемногу. >>1326536 Есть там ванильный nsfw, доступность как я понимаю зависит от описания персонажа.
>>1326667 Не в этом проблема. Нельзя выдавать своё мнение о локалке, не понимая как её запускать и что ты делаешь. Ты не гемму запустил, а лоботомита на кривых семплерах с кривым промтом. Это как делать обзор на майбах, катаясь на электросамокате.
>>1326667 Только вот Gemma 3 27b — это не «что запустилось», это нормальная модель. Так что intel mac или nvidia linux у тебя — не важно, вывод будет одинаковым, если ты все корректно настроишь, а не будешь ломать кувалдой ящики, утверждая, что в них невозможно ничего хранить.
>Never write messages on behalf of {{user}} or try to continue the conversation on their behalf. >А то меня чар без этого дополнения с нулевой начал заебывать действиями и фразами от моего лица
Это плохая идея такое добавлять в таком виде, оттуда и появляется этот ваш слоп и пробуксовка сюжета - у нейронки одновременно стоит задача двигать повестование сообщением в 800-1000 токенов, и одновременно эта хуйня, по которой юзер статичен и его состояние не может меняться и даже описываться. Она и начинает изгаляться, описывая статичную ситуацию вокруг юзера сотнями слов хуйни. Такое подходит только для букуального чата с персонажем, где кроме прямой речи ничего нет. Для РП или не дай боже адвенчуры это смертный приговор.
>>1326698 Там ещё и Never стоит, лучше уж avoid или прямая инструкция что он должен делать только то-то и то-то, например описывать окружение и отвечать от лица чара. Ещё можно сказать нейронке, чтобы она включала описание действий пользователя в ответ, не меняя их, а потом описывала реакцию на них и продолжала сюжет.
>>1326698 На слоп такие инструкции никак не влияют
>>1326704 Хорошо делать, плохо не делать. Много раз же проговаривалось. Если тебя свой результат устраивает, не слушать шизов-теоретиков и промтить как есть. У меня такие инструкции в промте, никак не мешают. У него видимо модель говна или русик
>>1326707 >У меня такие инструкции в промте, никак не мешают. Значит ты либо не ролеплеишь с сюжетом и никогда не запускал карточки с адвенчурами, либо у тебя модель нарушает твои инструкции.
Как вообще возможен фентези ролеплей когда ИИ даже тупо не может написать например что ты по дороге идешь, потом слышишь как из-за холма доносится хор пьяных гоблинов, ты прячешься за деревом и обдумываешь дальнейшие действия? Ведь ей запрещено твои действия описывать.
>>1326739 Чувак, у тебя лютый скилл ишью либо ты не понимаешь о чем говоришь. Пиши нормальный промт и не будет одна конкретная инструкция внезапно превращать твоё рп в слоп и лупиться
Инструкция не мыслить за юзера и не предпринимать за него действия никаким образом не ограничивает ллмку в других вещах, у тебя весь промт из одной инструкции состоит или каво?
>>1326744 У меня то как раз нормальный промпт и написан, где четко расписано что модель за юзера может делать, а что не может. Может - управлять его действиями для продвижения сюжета и принимать мелкие решения типа укрыться за деревом от выпущенной стрелы. Не может - принимать важные решения - типа стоя на распутье выбрать пойти налево. Может - произносить малозначащие фразы типа "привет", "да что ты говоришь" для развития диалога. Не может - направлять дальнейшее развитие диалога. И т.д. А просто полностью запретив модельке любые действия и слова юзера описывать - ты заруинишь рп. Об этом я с самого начала и писал, просто ты видимо целиком не умеешь сообщения вопринимать на которые отвечаешь.
>>1326747 Был у нас один который делился. Доказал что это плохая практика. Утятам самим надо учиться промтить а не выпрашивать готовые решения, иначе поток тупняка в треде не закончится хотя кого я обманываю он никогда не закончится
Люди не хотят учиться и потом пишут вот такую шизофазию как выше, да еще и на уверенности. Ну не могут же они быть не правы да?
>>1326747 Посмотри пресеты настроек таверны, слитые анонами в прошлом и позапрошлом тредах, туда попали некоторые промпты, нет гарантий что они тебе подойдут, но хоть какое-то начало.
А вообще каждый пишет промпт сам под свои предпочтения, обжигается и учится на своих ошибках. То что подойдет одному - будет заплевано другим.
>>1326501 Это как заявлять о преимуществе ржавого трехколесного велосипеда с прицепом перед спорткаром или фурой. Разрыв по качеству и возможностям как раз примерно такой будет. >>1326539 В пятом кушает около 280-290гигов в сумме. Попробуй, но скорее всего с одной картой на 24 гига будет уже впритык. Моделька оче хорошая и приятная, косяки которые вменяли эйру тут не наблюдаются. Кстати есть интересный квант от интелов https://huggingface.co/Intel/GLM-4.5-gguf-q2ks-mixed-AutoRound возможно для своего размера самая йоба. >>1326555 Им не похуй, деградация ощутимая и когда начнешь мучать ее в рп на чем-то сложном или пытаться писать код - там это будет достаточно наглядно. >>1326573 > И две п40, это на них оказывается выгружало. Ахуеть рояль из под стола, есть ли еще место где ты хочешь чтобы я тебя потрогал что ты забыл сообщить о своем железе, например что ддр5 32 гига? Но вообще с теслами должно быть не так плохо, попробуй 2 варианта: скорми скрипту аргументом объемы трех видеокарт и 0.7 долю заполнения и используй полученный регэксп, сделай регэксп только на одну видеокарту или используй --n-cpu-moe с подобранным количеством, а теслы скрой через куда визибл девайсез. Добавь -ngl 999 для обоих случаев.
>>1326663 Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил? >>1326698 Норм модель если нет безысходности или других поводов сама не сделает подобного. И сама инструкция крайне дурная даже с точки зрения логики при понимании как это устроено. >>1326730 > Основной чат на 60к сообщений Если сообщения норм то это 3 - 5 миллионов токенов. Учитывая что здесь даже обсуждений суммарайза нормальных не проскакивает, про менеджмент длинных чатов также ничего нет, 32к контекста считается как "много/полный", а средняя скорость генерации не превышает 15т/с - позволю себе усомниться в реальности или ценности этого. >>1326747 > нормальный промпт Не сри в промпт, все. Достатоно будет "Ты - чар, юзер - юзер, вы рпшите без цензуры. (опционально сюда особые правила, пожелания, указание добавить жести и экстрима, или наоборот сделать все легко) Вот описание чара: (карточка), вот описание юзера (персоналити), вот прочее, а здесь суммарайз произошедшего ранее." Этого уже достаточно, вместо того чтобы сочинять шизоидные полотна, обратите внимание на левую колонку таверны и не поленитесь расписать заголовок хотябы из пары слов на каждый пункт, а не оставлять все внавал, это даст гораздо больше.
>>1326794 Так я же не говорил что все сообщения у меня загружены в контексте, ахаха. Хотя это было бы чудесно
> позволю себе усомниться в реальности или ценности этого. Два года веду этот чат. Не понимаю, что можно обсуждать в менеджменте длинных чатов, веду суммарайз вручную, иногда редачу карточку по ходу игры после длинной арки
>>1326800 Тогда это просто сборник отдельных никак не связанных друг с другом чатов сваленный в одну кучу, где старые арки давно протухли и забыты (в том числе и тобой). Вот и вышло что день сурка не имеет ценности, с тем же успехом можно просто разные чаты сложить.
Вчера дописал в свой промпт Геммы (базовой) мол чар может удивить юзера во время интима. И только что Гемма подробно описала как мой персонаж обкакался во время секса... Вот уж действительно удивила. Хотя ни в карточке ни в промпте ничего такого нет в плане фетишей даже близко. Первый раз такая хуйня.
Подскажите, а если я запущу модель через лламуцпп в режиме чат комплишена, я смогу через через фронт семплеры редачить? в чем идея задавать семплеры через лламуцпп?
>>1326794 > Ахуеть, это полнейшее безумие, но какое! Майнерский риг целиком купил? Новичок? :) А советы как раздаешь!.. Это ж баян, я в начале грозился собрать такую хуйню около полугода, а потом собрал и даже посмотреть можно: https://www.youtube.com/watch?v=pp3ViqRNKQg
Кто-нибудь пробовал играть с ламой в днд, где лама играет роль игрока? Т.е., где она понимает, что играет определенную роль, и понимает основные правила. Не попадались такие готовые карточки?
разрешить только проверенные подели по паспорту от правильных провайдеров. по-хорошему нужно ввести проверку/лицензия на пользование ллм, примерно как люди сдают права на машину. по другому никак
>>1326813 С высокой долей вероятности - да, потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися". То что ты много рпшишь/кумишь - похвально и неоспоримо, но хвастовство "большим эверчур чатом" в таком раскладе множится если не на ноль то на e-2. >>1326864 Литералли злой джин. Кстати, как раз такое выполнение приказов/котелок (особенно с рандомным шансом инжекта) можно сделать для рофлочатов, должно шикарно получиться. >>1326932 Недавно наткнулся на тред, как кобальта установить? Скачайл сейфтензор какой-то а он его не запускает! > грозился собрать такую хуйню около полугода, а потом собрал Еще не разобрал или продал эту штуку? Какая там скорость на 30а3 на контекстах типа 30-60к?
>>1326979 > потому что потратил много времени и достиг некоторого успеха в организации длинных чатов с памятью а прошлом, а не "они познакомились потом на азове поебалися" > хвастовство Лютый ассьюмимг на твоем конце анон. Почему другие не могут преуспеть как преуспел ты? Да и не хвастался никто, мы вообще инструкции обсуждали. Зочем ты ворвался со своим исключительным мнением хуй знает, я свой чат привел как поинт что отыграл дохуллион токенов и ни разу не встретил проблему какую мы обсуждали. Проще будь
>>1327001 У меня нулевые, так как удалил эту подделку за бесполезностью. Единственное, что там полезное, это код обучаемого делителя в софтмаксе, но кому это интересно? >>1327006 А ты фантазируй законно. Ты зачем фантазируешь незаконное? Фантазируй с канни мальчиками, это пр-зиденто-угодно.
Вчера добрался до GLM 4.5 (не Air). Как я не пытался исхитриться и засунуть всю модель в врам - не получилось (разве что можно размер батча понизить, но тогда пп падает значительно, а тг всего лишь на полтокена вырастает).
prompt eval time = 4847.47 ms / 730 tokens ( 6.64 ms per token, 150.59 tokens per second) eval time = 39930.65 ms / 462 tokens ( 86.43 ms per token, 11.57 tokens per second) total time = 44778.12 ms / 1192 tokens
prompt eval time = 69110.62 ms / 9428 tokens ( 7.33 ms per token, 136.42 tokens per second) eval time = 50284.90 ms / 361 tokens ( 139.29 ms per token, 7.18 tokens per second) total time = 119395.52 ms / 9789 tokens
Но зато сама модель - просто офигенская. Не несет пургу как квен, не вялит и тупит как эрни. Не зря у челика пердак подгорел, мол, ответы 1-в-1 совпадает с гемини флеш, мол, зачем нам такое надо, если есть сама гемини, лучше и дешевле. Но зато литералли gemini at home, пусть и в таком виде.
Как мне показалось, (опять же, в отличие от квена), рп-шит лучше с ризонингом. Что немного больно, учитывая 7-12 т/с, но брать квант ниже - себя не уважать (мои соболезнования тем, кто вынужден второй гонять), так что терпим, карлики. С магнумом 2 т\с терпел, а тут вон какая щедрость. Благо он ризонит не какие-то ебейшие полотна, обычно секунд 30 занимает.
Из минусов все те же структурные лупы, а бывает, что даже куски предложения повторяет из предыдущего сообщения.
В общем, это первая модель, за исключением корпов, которая меня действительно порадовала после милфы и ее тюнов (исключая дипсик и кими, которые я не пробовал по понятным причинам). Понятное дело, что это только первые впечатления, но все равно.
>>1327006 >А может это только верхушка айсберга? Разумеется, никому в голову не придет идея, что можно фистить своему персонажу, а потом его утягивает в его же анус ужасное лафкрафтианское чудовище.
>>1327027 >но брать квант ниже - себя не уважать А ты пробовал, или просто привычка? И как оно по сравнению с Air. >>1327028 >канни фистинг Больной ублюдок.
>>1327009 Не просто могут а всегда найдется рыба больше. Но такие вещи становятся понятными по самому началу разговора. Или вы находите общий язык, вспоминаете то с чем сталкивались, или ты видишь какой-то другой принцип реализации и вам становятся интересны подходы друг друга, завязывается плотное обсуждение, в обоих случаях сразу понятно что там что-то есть. А когда начинаются громкие заявления, но вместо пояснений и разговора по сути нужно клещами вытягивать короткие и совсем общие фразы - очевидно что желаемое выдается за действительное. > Зочем Потому что на замечание по промптингу ты врываешься со своим 60к сообщений чатом и апеллируешь к этому как к истине. Зато на пояснение сути аргумента - сдулся. >>1327027 > ответы 1-в-1 совпадает с гемини флеш Он получше флеша. Но замечание резонное тем, что крутые ответы обильно разбавляются литрами слопа, который очень напоминает жеминиевский. В остальном поддвачну за похвалы, он действительно годный и умный, если слоп не вызывает острой аллергии. > total time = Это фуллгпу? >>1327028 Асуждаю, канничек надо любить и обожать
>>1326978 Ну так посмотреть же, а не послушать. =D Хоб-хоб, выкрутился!
>>1326979 > Какая там скорость на 30а3 на контекстах типа 30-60к? Давай ща затестим.
prompt eval time = 340661.22 ms / 34677 tokens ( 9.82 ms per token, 101.79 tokens per second) eval time = 191029.80 ms / 1228 tokens ( 155.56 ms per token, 6.43 tokens per second) total time = 531691.02 ms / 35905 tokens
>>1327029 >А ты пробовал, или просто привычка? Привычка, но вообще это же моэ, активных 32B параметра все равно, так что я вангую квантование тут будет сказываться сильнее, чем на плотных моделях такого же размера. Поэтому на всякий случай всегда беру повыше. >И как оно по сравнению с Air. Не знаю, не в обиду анонам, но зачем мне запускать огрызок от огрызка гемини. Тут вроде писали, что обычная не имеет каких-то проблем, которые имеет Air. Да и кому это интересно, те, кто запускают Air, либо не в состоянии запустить большую модель, либо осилят только первый-второй квант, а это уже отдельная история.
>>1327033 >Это фуллгпу? На первом скрине параметры запуска. Фулл, за исключением четырех экспертов. Но я видеокартовый барон же, лол, если бы вот хотя бы 2.5 блеквелла было вместо этого всего, эх...
>>1326501 > хардпорно? This. Ну а еще гибкость и функционал. Я уже слишком старый чтоб мой фимозный корнюшончик повидавший многое поднимался на неловкие романтические отношения с ванилой. Для меня уже футы\фф\нтр\мистресы с флюгегехаймером воспринимается как что-то лайтовое и скучное.
>>1327037 Очень жаль, так ее можно было бы приспособить под какие-нибудь прикладные задачки фоном. >>1327038 > параметры запуска Что такое -ncmoeud? ncmoe - сокращение обычного n-cpu-moe, ncmoed - для драфт модели. И их использование с мультигпу - непростая задача. Что за процессор? Если рам не самая срань то попробуй выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц. Казалось что должно быть быстрее.
>>1327047 >Что такое -ncmoeud? Пикрел, запилил себе для удобства >Что за процессор? Если рам не самая срань DDR4 3600 128 Гб, i7 9700K. Так что, пожалуй, почти самая срань. >выкинуть все старье из видимости жоры и сосредоточить на амперах, выгрузив больше эксертов на проц Не знаю как поведет себя тг, но я уверен, что пп от этого встанет и уйдет, будут жалкие 50 т/с
>>1327038 >Поэтому на всякий случай всегда беру повыше. >Не знаю Ну так попробуй оба случая. А то может твои представления устарели. К тому же твои сравнения могут подтолкнуть других анонов собирать свои риги.
>>1327047 Ну, на старте 26 токенов. А ты не забывай, что те же агенты подают порционно, не держат все в контексте, там скорость вполне 15-20 будет на постоянке. Так что приспособить можно (но у меня есть сборки получше, а еще и DDR5 едет 2 х 64).
>>1327049 Я император и смотрю на людей как на равных пока они не доказали обратное, или наоборот возвысили себя. Играть в обиженку когда слился в техническом обсуждении, будучи почти пойманным на лжи - пожалуй одно из самых жалких проявлений такого. Заметь, я не высказал ни единого оскорбления или чего-то плохого в твою сторону, лишь предметно о низкой ценности твоего "основного эдверчур чата", на который ты уповал в том споре. >>1327051 > что пп от этого встанет и уйдет В последних версиях llamacpp этот момент прокачали при повышении батча, но иногда наблюдается упор в шину основной гпу. Потому есть смысл посравнивать с другой конфигурацией подключения, если такое возможно. Еще что интересно - попробуй максимально выкрутить контекст сколько влезет и попробовать сколько будет на 30, 60, ...к, достигло ли оно условного плато и эти 7 токенов так и останутся, может просядут до 6, или падение будет линейно. После всех обновлений, особенно когда много экспертов на проце, оно ведет себя именно так, быстро просаживается в начале но потом стоит прибитым. >>1327054 > те же агенты подают порционно В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело.
>>1327059 В том и дело что был не спор а обмен мнениями. Но объяснять бестолку, мы на разной волне похоже. Ты понял кто я, я понял кто ты, так что давай будем умницами и прекратим срать не по делу в тредик, курю трубку мира
>>1327028 ТЫ СПАЙК @ ОТ СКУКИ ФИСТУЕШЬ СЕБЯ В СРАКУ ЛАПОЙ @ ОТТУДА ХВАТАЮТ ЗА ЛАПУ И ТЯНУТ НА СЕБЯ @ ТЯНУТ ВСЕ СИЛЬНЕЕ @ ЗАВОРАЧИВАЕШЬСЯ В СОБСТВЕННЫЙ ЗАД @ ВЫЛЕЗАЕШЬ ИЗ ЗАДА ДИСКОРДА ВО ВРЕМЯ ЧАЕПИТИЯ С ФЛАТТЕРШАЙ @ ТА УМИЛЁННО ХЛОПАЕТ
>>1327052 Мне неинтересно такое пробовать. Мне интересно выжимать максимум из моего сетапа и чтобы это было юзабельно, а проверять заведомо не лучшие вещи - ну такое. >могут подтолкнуть других анонов собирать свои риги. Собирать риг под конкретный квант конкретной модели - выглядит прям очень и очень странно. Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться. Как по моему мнению, если уж и собирать риг под модель, так чтобы крутить там 5 квант и выше, иначе это клоунада уже.
>>1327059 >попробуй максимально выкрутить контекст сколько влезет Какие 60к, у меня 20к влезли на тоненького. Да и смысол, я никогда не использую контекст выше 32к.
Да и у меня старья то толком нет, только теслы. Можно попробовать их выкинуть ради эксперимента. Остальные должны хорошо молотить - уж наверняка лучше цпу.
Но веры у меня нет в этот эксперимент, потому что даже теслы все еще должны ебать по сравнению с рам, т.к. моэ и двухканал ддр4
Аноны, подскажите пожалуйста. Гуню в таверне. Всячески указывал во время диалога о простых ответах, но модель выдает пизда сложные формулировки. (пик). Я уже не знаю, что делать. В Prompt Content указан пик2.
Как избежать такой хуйни? Как заставить ее писать проще и по делу? Меня заебали эти заумные формулировки, которые нихуя смысла не несут, по своей сути.
Модель Mistral-Small-3.2-24B-Instruct-2506-Q4_K_M.gguf
>>1327098 Самый простой способ попробовать решить эту проблему - поговори с моделью в режиме ассистента (без карточки персонажа).
Пишешь примеры текста, которые тебя не устраивают. Пишешь, как тебе хотелось бы видеть текст. Показываешь промпт с инструкциями.
Задача - отредактировать инструкции так, чтобы получалось как тебе хочется.
Модель что-нибудь выдаст. Пробуй. Если не устроило - повторяешь запрос (с нуля, в новом чате) с добавкой к посту, что вот такой-то подход решения проблемы не сработал (прям вставляешь че модель в первый раз насоветовала, чисто по инструкциям).
И далее повторяешь все то же самое, пока не высрется удовлетворительный результат.
>>1327110 >>1327098 > Пишешь, как тебе хотелось бы видеть текст. Имеется в виду буквально "сочини свой вариант идеального ответа ЛЛМ" и презентуй как положительный пример в сравнении с отрицательным.
>>1327059 > В квенкоде типичный диапазон контекста от 12к до 90к, самое популярное - около 20-40. Будет тяжело. Никогда не ловил, всегда было 12-20. Но, хз, может размер проекта решает, да. Но на крупном проекте 30б и юзать ну такое. =) А ниче нормальнее такой конфиг с 40 гигами не потянет, естественно.
>>1327110 Я не знаю, как говорить с моделью в режиме ассистента ._. Я в таверне создал персонажа и там и играю. У меня был какой-то дефолтный персонаж, но я его сразу удалил.
>>1327117 Сэмплер это "Story String"? У меня там стоит обычный Simple-proxy-for-tavern (пик). Конекст я сбрасывал где-то 30 сообщений назад всего, заполняя его ворлд-лором и заметками автора. Она изначально себя так и вела.
>>1327118 Для начала, у тебя правда семплер кривой судя по всему. Там не какие-то "сложные манеры речи", а просто поломанные настройки и полный распад.
Не принуждаю его использовать, но он должен пофиксить проблему шизогенерации.
>>1327121 Настройки семплера графическом интерфейсе по самой левой кнопке - text completion presets. Но вообще если смотреть текстовый файл конфигурации - они там все после температуры идут по порядку. Это очень сложная хренть (см. пик 4) и дело в том, что каждой модели нужны свои настроечки. Не обязательно прям какие-то идеальные, есть некое окно, в котором модель лучше всего работает. Диапазон параметров. Где искать подходящие - ну для начала загугли, обычно разработчик модели пишет рекомендованный минимум.
>>1327132 https://docs.sillytavern.app/usage/common-settings/ Ну ты можешь документацию почитать. А еще лучше поговори с DeepSeek про то, как работает ИИ и какие настройки на что влияют. Только по таверне бесполезно вопросы задавать, у него очень мутное представление о старых версиях.
>>1327126 Короче я перешел по ссылке, нажал "copy download link", перешел по скопированному адресу - там открылась страница с текстом. Я его скопировал, создал текстовой документ, вставил написанное, переименовал формат в json и нажал master import. Галочки везде поставил.
>>1327082 Ебаный рот вашего казино, во что, в киосках d20 заряжаете?! Кстати а разве есть критический промах, не критическая неудача? Нужны эксперты для пояснения. >>1327085 Жора не суперэффективно работает на мультигпу, особенно на разноархитектурных и плохо подключенных. На оче больших моделях добавление +75% врам , пусть и более медленными картами, дает оче слабый эффект, с немалой вероятностью там гадит райзер. Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее. С другой стороны, уже условно юзабельно. Эйр можно катать в экслламе, с новым параллелизмом будет супербыстро даже с медленными шинами. И он вполне неплох.
>>1327126 Так. Модель стала активно писать от лица моего персонажа теперь... Три генерации и везде она пишет посреди реплик своего персонажа реплики моего персонажа.
>>1327143 А ты чат новый начинал? Или в старом продолжаешь? По хорошему надо вообще пойти и отправить сообщение другому персонажу, а потом вернуться на старого и начать с нуля.
Много раз замечал дикую дичь при смене настроек без смены чатов. Как будто все смешивается к хуям.
>>1327146 >Просто перезапустил кобольд и таверну. Настройки сохраняются и без этого. Главное начать чатик, не засранный предыдущим контекстом.
Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.
При 64 по идее модель видит лишь мельчайший кусочек инструкций (или контекста чата, я честно говоря забыл как это работает - но короче ЧТО-ТО важное просто не влезает).
Я ради смеха 0 поставил там, и модель меня нахуй послала вместо ответа. Буквально fuck you.
>>1327170 Понял. Поставил 4к. Вроде пока что-то внятное пишет. В случае чего, просто буду добавлять все заметки автора и перезапускать чат.
Вспомнился анон с прошлого треда, которого модель нахуй послала сразу же, после того, как его персонаж очнулся и сказал "дай мне секс". Смешно это было.
>>1327170 Ты тролль или чайник? Token Padding - всего лишь указывает - сколько токенов резервировать на случай, если токенизер наврет при расчете количества токенов из текста истории+WI. Т.е. это количество отрезается от размера контекста которое у тебя в таверне стоит, чтобы всякая история и WI гарантированно не вылезли за пределы, которые модель понимает и переваривает. Чем больше вставишь, тем больше собственноручно отрежешь от доступной "памяти".
>>1327178 Вертай назад. Оно и 64 - обычно много. У меня 16 стоит, и ничего никогда не глючит.
>>1327085 >Достаточно общего фидбека, а анон сам разберется, что ему нужно и насколько он готов потратиться. Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен, так как отвергает всякие "скил ишью" в отношении дешёвого Аира. Но как знаешь. >>1327105 ГЛМ 4,5 Аир
>>1327214 > "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен Придумай какую-нибудь мотивацию
ROCm от AMD стремительно догоняет CUDA и бросает вызов лидерству NVIDIAАноним20/08/25 Срд 22:16:23#150№1327225
>>1326416 (OP) Секрет успеха NVIDIA во многом заключается не в железе, а в её программной экосистеме, где безраздельно царит CUDA, ставшая стандартом для инференс‑задач. AMD же долгое время не удавалось пробить этот «стеклянный потолок»: производительность железа удавалось подтягивать до уровня конкурента, но софт оставался слабым звеном. Теперь же ситуация меняется. По словам Tiny Corp, компании, известной своими решениями для конечных пользователей в сфере ИИ, AMD уверенно сокращает этот разрыв.
В Tiny Corp считают, что достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров. В расчёт берётся и июньский прорыв: на конференции Advancing AI AMD представила новую версию ROCm с поддержкой расширенных фреймворков вроде vLLM v1, llm‑d и SGLang, а также с целым набором оптимизаций — от распределённого инференса до prefill‑вычислений и дисагрегации.
Седьмое поколение ROCm ориентировано прежде всего на инференс‑нагрузки, и там AMD показывает внушительные скачки производительности: будь то пропускная способность DeepSeek R1 FP8 или ускоренное обучение, которое компания называет даже лучше, чем у CUDA. Более того, ROCm 7 уже в этом году получит поддержку на ноутбуках и рабочих станциях с Ryzen, будет встроен в Linux «из коробки» и получит полноценную поддержку Windows. Очевидно, AMD хочет сделать свой стек доступным практически для всех пользователей — от энтузиастов до корпоративного сегмента.
Если AMD сумеет довести своё ПО до уровня CUDA, у компании появится мощнейший козырь. Ведь альтернативная экосистема программных инструментов способна превратить «красных» в грозного соперника, способного пошатнуть монополию NVIDIA в ИИ. Остаётся лишь наблюдать, как будет меняться расстановка сил.
>>1327221 Почёт и уважение в треде. >>1327225 >Секрет успеха NVIDIA во многом заключается не в железе Не только в железе, да. Но и по железу невидия ебёт. Так что... >Если AMD сумеет довести своё ПО до уровня CUDA >Если Ну в общем всё понятно. Притом что тут не только красные должны росм допилить, но и утилиты для инференса нужно подтягивать.
>>1326791 >Ахуеть рояль Так толку от них никакого не было. Кобольд их не грузит, если принудительно не сказать выгружать слои, а если выгружать, то только хуже. На одной запускал лишь мелкогемму для перевода, вот и вся польза. Брал пару лет назад когда их китайцы на рынок выкинули, думал что йоба. >например что ддр5 32 гига? Писал же что 64 >>1326340 → >-ngl 999 Если только на озу, то 2,8 токена >объемы трех видеокарт и 0.7 долю Тогда 3,2 токена Если долю увеличить до 0.8 и 0.9, ровно те же 3,2 лишь разное количество озу забивало. >--n-cpu-moe Ранее писали же что от неё только хуже и работает криво?
>>1327157 >Кстати, хрень в настройках ниже промпта (token padding) - что у тебя там выставлено? Если ебануть ноль или в принципе мелкое число, модель будет как бешеная собака. Насколько я понимаю, там должно быть 20 - 25% от контекстного окна (8к при контексте в 32к, 4к при контексте 16к) или типа того.
Ебать вот это нахуй совет, ты че угараешь? Ты реально сидел с такой настройкой все это время и ничего не замечал неладного?
>>1327225 Уже который год это слышим, стремительный рост с 7.1 до 7.3%, ускорение до уровня конкурента, сравнение ми300 в хоппером при выставлении и последнего самых неоптимальных режимов с упором с процессор. > достаточно одного «провального» поколения у NVIDIA, и AMD вырвется вперёд на рынке ИИ — примерно так же, как компания уже сумела добиться превосходства в сегменте дата-центровых процессоров Продвижение на рынке профессоров заняло более 7 лет, и даже так в 24 штеуда примерно в 2 раза превышал амд на серверном рынке. Хуанг уже более 5 лет кормит с лопаты, а все причмокивая просят еще, а красные только сейчас начали понимать, что продукт без возможности удобного применения нахер никому не нужен. Они могут попытаться подняться с мелко-потребительного рынка, сделав ставку на пользователей и энтузиастов, разумеется при хорошем продукте мы их поддержим. Вот только это все еще роль догоняющих, пока на твоем железе не создают модели изначально, ты лишь подножный корм. Отношение к амд очень наглядно проиллюстрировано в крутейшей документалке gn https://www.youtube.com/watch?v=1H3xQaf7BFI на вопросы про них или откровенно глумились, или вежливо отнекивались. Кто не видел рекомендуется к просмотру. Кстати про куду можно послушать в также ахуенном видео от бороды https://www.youtube.com/watch?v=uANmdXo5__Y со второго часа. >>1327227 > Почёт и уважение в треде. Неоче вариант
>>1327214 > Как по мне, сравнительный фидбек типа "Вот на ГЛМ 4,5 всё отлично, а Аир подсирает тут-то и тут-то" весьма ценен > так как отвергает всякие "скил ишью" в отношении дешёвого Аира. рубрика ээээксперименты это оч весело, но остался ли в треде хоть кто-нибудь, кто доволен эиром? двое что радовались эиру позже переехали на большой квенчик во втором кванте и довольно урчат. потом нюня пришел и поделился что он мех, а я ему верю (с прошлыми его мнениями совпал полностью)
как будто реальный юзкейс для эира это если ты не можешь запустить ~32b плотненькую няшу
>>1327139 >Учитывая что у тебя совсем десктоп и подключено абы как - возможно оставив одни амперы и подключив главную карту хотябы в х8 может оказаться быстрее. Видишь ли, тут много нюансов и надо проверять. У меня две 3090 подключены через х1. Можно ли с них выгружать тензоры вообще и в каком количестве? Вдруг придется гонять столько данных, что уже эти х1 ролять будут. С другой стороны, я уже говорил, что амперы амперам рознь и 2080 Ti намного шустрее 3060, поэтому я основным сетапом считаю 3090 + 2080 (ну и 3070 ти на сдачу). Поэтому, к слову, я экслламу не завожу - фа не завезли на тьюринги, надо пердолиться. Ну об этом я уже писал тирады в прошлых тредах. Еще стоит проблема адекватного сравнения, потому что комбинаций как, что и откуда выгрузить в моем сетапе - жопой жуй. Кажется, что можно попробовать запихать в главную карту (там у меня х16) как можно больше слоев с выгруженными тензорами, освободив теслы. Если не влезет - можно повыгружать с 3090 х4. Если в таком сетапе уже будет медленнее, чем сейчас - значит все говно и дальше освобождать более слабые карты смысла нет.
>>1327139 >>1327253 Можно начать с самого простого - помониторить псины на скорость обмена под нагрузкой. В лини делается без особых сложностей, в винде хз
>>1327250 >но остался ли в треде хоть кто-нибудь, кто доволен эиром Ну вот я. Мне норм. >позже переехали на большой квенчик во втором кванте Мне боязно такое запускать на моём калькуляторе.
>>1327254 Я вроде пробовал ставить что-то, что это делает - мне сказали, что с такими запросами пошел я нахуй, то бишь серверный проц нужен. Так что реальную нагрузку линий я смотреть не могу.
>>1327250 Ну захейтили эйр прямо. >>1327253 Для эйра на экслламе хватит умеющихся 3090, остальные можно выкинуть из рассмотрения. На х1 еще могут быть приколы чипсетных линий при их перегруженности. Хз будет ли толк от запихивания всех слоев кроме экспертов в основную карточку, особенно в конфигурации где нужно максимально избегать пересылов между картами, но можно попробовать. >>1327254 Идет загрузка основной карточки во время обработки контекста. На остальных - десятки мегабайт. Но метрика не точная, оно показывает с редким обновлением просто деля количество пересланного на интервал накопления, если оно треть времени загружено на 100% и просто простаивает - ты увидишь лишь треть от максимальной псп, хотя замедление уже будет существенное. В шинде сейм, но там точно есть тулза от хуанга, которая позволяет записать подробные логи и посмотреть что происходит по миллисекундам но она для игр, хз сработает ли тут >>1327268 Вот бы еще побольше версию выпустили
Заметил странную хуйню с мое моделями. Такое ощущение, что на нулевом контексте у них меньше скорость, чем на условных 5-10к. Почему так? Я вот вообще нихуя не спец и могу только предположить, что т.к. контекста нет модели не на что опереться, и => пул токенов для выбора бора => активнее тасуются эксперты А когда контекст частично заполнен модель с первых секунд генераций определяет вектор развития и урезает часть экспертов? Может хуйню сказал, но я убежден в том что на нулевом контексте скорость меньше. Может чудеса Жоры, хуй его знает
>>1327330 > я убежден в том что на нулевом контексте скорость меньше. Берёшь и смотришь сколько тг при 0, 1000, 2000, 5000, 10000, 20000 контекста. Все метрики есть как в логах так и в респонсах
>>1327333 Так я и смотрел. У меня Эир на 10к контекста генерирует быстрее чем на 0. Под убеждением я имел ввиду что это нихуя не погрешность и не совпадение. Пусть и всего на полтокена, но реально быстрее генерит. Учитывая что у меня он в целом на 4т /с фурычит это ощутимо. Потом конечно скорость снижается, ближе к заполнению контекста, до 3 Короче такая хуйня: 3.2-3.5т/с на 0, ~4-4.2 т/с на 10-18к, ~3 на 24к, а больше не лезет увы
>>1327335 На репрезентативные данные не тянет. Сам я конечно не буду бенчи писать, лишь скажу как бы делал. - шаг в 2к контекста - 3 разных контекста - пп лимит везде 100 - прогон каждого сочетания 5 раз с выключенным кешем и отбрасыванием первого т.к. прогрев
>>1327324 Получается Гемма с проперженным ризонингом может лучше в логику? 2 из 2 раз верный ответ, но на русском отказалась думать сходу, а делать специальный промпт под русик не охота.
>>1327324 Попробуй еще такой вопрос, почему-то часто с него модели какаются и отвечают 3. Но Гемма и тут с 1ого раза справилась. Jessica has 3 sisters and 2 brothers. How many sisters Jessica's brother has?
>Конечно. Гемма умничка и лучше всех на свете Всё так, ждем 4ую.
Какой же Квен няша. Давно так лампово не сидел. Не галлюцинирует в рп, послушный, яркий, струны души натягивает как надо, да и не только их в общем-то...
>>1327326 Ну это откровенные читы, там весь ответ и есть ризонинг. И квен постоянно так делает, даже в рп. Какбы я ее оче люблю и обожаю, но весь ум проявляется именно в относительно длинных ответах где даже чары постепенно выстраивают свою речь и действия. Если мучать и заставлять делать зирошотом - ответы хуже. От того, вероятно, и разделившиеся мнения по модели, кто-то восхищается а кому-то такой стиль не заходит или пытались сокращать и ставить в жесткие рамки. >>1327373 База, и главное что он очень хорош не только в рп а в очень широком перечне задач, исключая что-то совсем массовое из-за ограниченной скорости.
Дипсика 3.1 кто-нибудь пускал уже? Он совсем базовый без инстракт тренировки, а значит с высокой долей вероятности не соевый.
>>1327322 Похоже местный фольклор протек Перевернув кружку ты пошел против воли небес, встал на путь культивации, теперь у тебя только один путь - стать бессмертным. А вот нехер было загадочными практиками заниматься. Жди гостей из клана Тан
>>1327383 Справедливости ради, есть небольшая разница между: CoT само CoT по промпту CoT в ризонинг-тегах Третье очевидно обучалось и должно решать задачи любые легко. Второе может решать, а может не решать, и это дополнительный промпт и вообще. А первое — хорошо, когда он сам иногда думоеть, а иногда отвечает сразу, ИМХО, это НЕ плохо, если он так отвечает НЕ на каждый вопрос вообще. =) Нехай думает в открытую и кратенько, когда нужно. Только выиграли, короче. =D
Челики объясните пж для чего вообще нужны локальные LLM. Ну типо есть же облачные решения по типу gemini, copilot, gpt и прочей хуйни, они и быстрее генерируют и умнее локалок и контекста как будто бы больше скормить можно. Понятно что лучше использовать локальные LLM для конфиденциальности, но в этом треде я так понимаю что люди не только ради конфиденциальности их юзают. Из всех адекватных моделей для меня оказалась gemma, прикольно юзать с RAG, но всё же до уровня облачных моделей не дотягивает (юзал 4b)
>>1327530 > Челики объясните пж для чего вообще нужны локальные LLM Если кратце - чтобы не плакать в твиттере, что GPT-5 глупее предыдущего. Если подробнее - очень много вариантов использования, больше развязаны руки, и нет зависимости от интернета/цензуры.
>>1327530 >Челики объясните пж для чего вообще нужны локальные LLM
Для власти над ними. Над копросетками ты никакой власти не имеешь, скорее они тебя властям сдадут если ты попросишь их отыграть что-то эдакое. А локальная сетка это твоя личная рабыня. Ты можешь её пиздить, насиловать, убивать, воскрешать и убивать снова, можешь няшиться с ней, можешь отыграть что она - госпожа, можешь носить её на руках, можешь создавать с её помощью миры, прекрасные или ужасные, можешь заставить работать и зарабатывать тебе бабло и т.д.
>Из всех адекватных моделей для меня оказалась gemma
Так гемма(27b которая) это облачная сетка, бесплатная версия этой вашей гемини.
>до уровня облачных моделей не дотягивает (юзал 4b)
В таком размере - это чудо что она вообще адекватно общаться умеет. Вообще эта версия для смертфонов, у тебя настолько комп убитый что ты 12b не можешь использовать?
>до уровня облачных моделей
Квен 235B, Deepseek 3.1 - это так-то облачные модели, просто доступные еще и локально. Будь западные корпы не такими блядьми - они бы тоже выпускали хотя бы старые версии своих больших локалок, а не только маленькие 32В модельки.
>>1327550 >у тебя настолько комп убитый что ты 12b не можешь использовать?
GPU офисное. У меня лептоп неигровой, 16 Гб оперативки, i7-12U и барабанная дробь GTX 550 MX блять (2 ГБ VRAM). Как будто бы я в состоянии накопить деньжат и купить эти ваши RTXы, но пока не вижу смысла в локал моделях, не рпшу и нет целей для того чтобы делать из модели рабыню. Есть особо одарённые челы в тиктоке которые готовы покупать кластеры H100 для того чтобы запустить локальные модели gpt и ради чего...
>>1327556 да не трясись ты, не все нолайферы и живут в треде смакуя каждый пост, как ты >>1327557 на первый взгляд выглядит как убийца всех локалок в её сегменте
>>1327557 Я вот думаю - возможно она подойдет для вторичных агентов к talemate? Если хотя бы с суммарайзом событий в тексте в состоянии справляться, можно на нее второстепенные генерации скинуть попробовать...
>>1327554 >>1327560 270m если ты вдруг не понял - это 0.27B сетка. Я хз кому и зачем это надо, если современные телефоны совсем не премиум уровня 8b сетки спокойно запускают, а уж ту же гемму 4b запускают уже даже со скоростью и контекстом. В то время как для мелких задач уже есть 1b гемма, и она честно говоря уже настолько лоботомит, что страшно представить что там на модели еще вчетверо меньше.
>>1327564 >Скорее в какой-то момент предложат за него платить
Так уже. Теперь даже стал ясен их дьявольский план. Корпы сначала бесплатно подсаживали додиков и жирух на отношашки с ИИ вайфу и хасбендо, а теперь начали закручивать краник, теперь отношашки - только за денежку, а без нее - сиди, мудак ебаный, во френдзоне. прям как ирл Пройдет еще пара месяцев и все остальные тоже на такую модель перейдут, вот увидите - следующие версии геммы и прочих мелких квенов будут рефьюзить уже не только секс, но даже поцелуйчики.
В общем да, GPS OSS 20/120b ролеплейщики совсем не зря засрали. Неюзабельно с любыми возможными джейлбрейками: и через промпт, и через префилл, и через thinking префилл. Цензура вжарена на претрейне, да и в целом это модель-ассистент.
Зато для технических задач очень неплохо себя показывает. На моем железе работает втрое быстрее Air Q6 и Qwen 235b Q4S, 15т/с, 131к fp16 контекста вместо 32к на упомянутых выше моделях. Генерация кода, кодревью - прямо хорошо. Reasoning effort high необходимо задать. Разумеется, я понимаю все проблемы: 4 бита, такой себе шаблон, активных параметров маловато. Однако супер сложные задачи я через ЛЛМки в любом случае не решаю, а что по мелочи - данная модель работает на хуже Air и Квена 235, со всеми упомянутыми выше бонусами. Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков.
Поделился на случай, если кто-нибудь еще здесь не только гунит.
Вот дуралей, совсем забыл уточнить: 120b FP16 квант от Анслота (ну то есть mxfp4, как я понял переупакованные оригинальные веса с чуть измененным шаблоном, который я все равно успешно заменил на обновленный)
>>1327508 Это ровно тот же паттерн рассуждений что у квена происходит в синкинге, с обнаружением нестыковки, шагами назад и действительно альтернативным рассмотрением. Минусом назвать язык не поворачивается, просто такая особенность. Не уверен в целесообразности существования отдельно ризонинг и инстракт версий вместо управления этим промптом, но квенам виднее. >>1327530 > и быстрее генерируют Не всегда, лол, хотя это камень в дипсик с их картофельными серверами. Или пятая гопота со скрытым синкингом и оче долгими первыми токенами. Не удивлюсь если на самом деле там генерируется батчем 2-3-4 свайпа и идет их комбинированный анализ, потому и прячут > и умнее локалок Далеко не всегда, а при использовании фришных планов почти никогда. > и контекста как будто бы больше скормить можно Ограничен железом, для типичных юскейсов контекста для нормисов они также слабы.
Ты забыл указать главный минус корпов и плюс локалок: цензура и байасы. Она завязана не только на рп и еблю, с новой гопотой или опущем ты даже серьезно какие-то специфические технические вещи не можешь обсудить, или заставить анализировать тексты по заданию: они высирают аположайзы и дают лишь краткие вялые ответы с префиксом "Только если вы лицензированный специалист...". Приколов с соей, инклюзивностью и прочим там хватает. При активном использовании денежку также стоит, но может быть лоботомированы или вообще ограничены в любой момент по желанию левой пятки господина, к которому ты идешь на поклон. > юзал 4b Над этим лоботомитом даже врамцеллы насмехаются, хотя сам факт существования в таком размере как явление - круто. Если ты юзал такие модели - неудивительно что сложились подобные впечатления. >>1327579 > Так уже. Привет гопота 4.5. А у кумеров-рпшеров она вообще ценилась и о ней отзывались как о новом опуще3. Явно модель с большим числом активных параметров а не забенчмаксенный лоботомит. И несложно было соефикацию обходить, что, очевидно, стало основной причиной его грохнуть на фоне поддержания в живых всякой древности. Если что, модель вышла только в феврале и ее уже нет.
>>1327530 Не хочется сливать в интернеты свои технические статьи или то, что требует редактуры из творческих идей, есть вероятность, что это будет слито онлайн или другие базы на всеобщее обозрение, как это недавно произошло с ГПТ, где всё стало гуглится.
>>1327563 Она точно подойдет для обработки какого-нибудь голосового ассистента, ее можно интегрировать в мобильное приложение и использовать в подобных кейсах. >>1327570 CUDA_VISIBLE_DEVICES >>1327583 > Зато для технических задач очень неплохо себя показывает. Есть примеры? В коде показалась недалеко ушедшей от 30а3, в "общении" это уровень эйра, только с побитыми квантом знаниями, в процессинге текста уступает гемме 27, которую можно запустить 2-3 штуки на том же железе и не сильно проиграть в скорости. До квена ему как раком до Китая. Разве что > Тестил на шарпе, плюсах и паре малоизвестных скриптовых языков. Вот тут он может действительно хорош, если клозеды не поскупились на датасет. >>1327617 Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах. Все так радостно и активно пользуются ими передавая кучу данных и ничего не стесняясь, а в соглашении явно написано что все, что не оплачено по дорогому прайсу апи, или выходит за мелкие лимиты подписки и другие критерии - логируется и будет использовано.
>>1327628 >Есть шизотеория что спустя время начнется новая охота на ведьм по действиям в чатботах Я думаю она уже идет, но по людям с баблом и связями, рандомный иван город тверь не нужен даже своим соседям, а вот блоггера с миллионной аудиторией посадить на сотрудничество угрозами слить его логи как он с ИИ-лолями развлекался - милое дело. Или узнать через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету. Потому суверенные страны и начали гонку вооружений по достижению ИИ суверенитета.
>>1327573 >хз кому и зачем это надо Для перевода такая мелочь думаю сгодится. Даже восьмой квант всего 300 мегабайт весит - подключить его как вторую модель и вот тебе локальный русик без надобности добровольно сливать свои логи другим конторам. Особенно актуально для тюнов на всякие старые мистрали, типа немо, которые ощутимо шизеют на любых языках, типа английского.
>>1327744 Это какой-то троллинг или че? Буквально выше в треде уже был такой вопрос, пара-тройка дюжинов постов, и ответы на него. И в прошлом треде было
Платина, но все же. Вчера всю ночь развлекался с glm 4.5 air на iq4 кванте, тюнив настройки для быстрого вывода токенов. Сегодня думаю скачать qwen3-235b, но в более ужатом q2 кванте? Стоит ли заморачиваться или лучше остаться на первой модели? Пробовал в кодинге, в рп недолгом, контекст 80к, токенов 12 в секунду выдает. кстати, ollama лютым говнищем ощущается теперь после кобольда, буду ра llama-swap перекатывать второй сервак на пингвине
>>1327788 Ок, попробую q2_k_l запустить, там сколько moe слоев выгружать на проц, если у видеокарты 32 гига? >>1327789 Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только.
>>1327816 >Ну бля, когда вкатывался, выбрал однокнопочное решение, но по итогу оно тормозит и тупит. После вчерашнего ресерча понял, что ебал мозги только. Тоже самое. Когда на жоре после того как ручками все вбил, получил прирост скорости в 40% по сравнению с кобольтом, я понял что кто то был знатным ебланом.
>>1327822 Истина намного проще. Некоторые версии кобольда хуже работают с определенными моделями. Испытал такое на своей шкуре. Даунгрейднулся обратно - скорость вернулась.
>>1327832 А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать? Это гораздо более пердольно. Не удивлюсь, если ты какой-нибудь погромист. Нормальные люди от вас в ахуе, инопланетяне блять.
>>1327874 >А если я в бесконечном поиске той самой модели, мне че каждый день твои ебатники переписывать? Ну давай трезво на это посмотрим. Начало батников всегда одинаково. Путь к модели ? Ну это сложно, я согласен. Прописать размер батча и количество слоёв ? Ну тут точно пердолинга на три дня. Блять, там батник пишется за минуту, а потом запускается по ярлыку. Хватит уже оправдывать свою лень, сложностью. А то блять в кобольте не нужно к каждой модели донастраивать параметры запуска чтобы она нормально работала, а не кое как.
>погромист А то, я даже фортран и ассемблер когда то учил.
Хватит придумывать, что жора это что то сложное. То что в жоре можно тензоры ручками распределять, не значит что это НУЖНО делать.
Ньфаг приходит, начитается вас, а потом пердолится с кобольтом, олламой и черт знает чем еще, и у него получается говно, потом срет в тред, что модельки говно.
>>1327637 Корпы сами врядли этим будут заниматься, но если произойдет очередной виток со ставкой на левацкий мусор, то, приняв соответствующие законы, эту карту могут разыграть, целясь прежде всего во влиятельных, состоятельных и т.п. людей. Но куда более близка и актуалена для каждого юзера ситуация с утечкой этих данных. Приходит тебе на почту письмо со скринами, твоими данными и предложение отправить всего 0.002 btc на указанный адрес чтобы хакерская группировка "anal-pandas" про тебя забыла. > через ИИ-логи вайбкодинга разработчика критической инфрастуктуры или ядерного оружия и навести на его дом ракету А это даже смешно. В случае "локальных" конфликтов евреям для вычисления отдельных людей в Иране никакое ии не требуется. В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей. >>1327744 Оно хорошо. Склонен к графомании и может насочинять всякой дичи, но с креативностью проблем точно нет что плюс. Любит описывать подробно и в интересных форматах, например когда ты и чар находитесь в разных точках в засаде и начинается заварушка - может выдать крутую простыню с разных ракурсов, меняя их, обыгрывая радиообмен и позиции. Может справиться с концепцией обмана или ограничения чувств: чар/нпс в повязке на лице не будет узнавать тебя пока ты сам себя не обозначишь, будет относиться и действовать иначе а не имплая что уже тебя узнал и соответствующим образом меняя реплики, а то и вовсе делая к тебе обращения. Ну, офк иногда фейлит, но если пороллить то все ок. В целом прилично справляется с большими контекстами, но иногда может себя запутать и лениво интерпретировать какие-то вещи, или начать добавлять в сюжет какую-то платину типа русской мафии, мистики и оккультизма, фентезийный уклон и прочее если что-то такое раньше просто косвенно упоминалось но не соответствует сюжету. То есть, он гораздо лучше типичных мелко-средних моделей и может то с чем не справляются они, но при этом также может навалить галюнов или не справиться с чем-то сложным. Из плюсов - не буксует, пишет интересно - хули еще надо, качай и пробуй. Особенно если пресытился всякими мистралями - зайдет. Для сравнения, на большом жлм описанных косяков нет, держится за сюжет мертвой хваткой, лучше понимает тонкие намеки, шутки и отсылки, стиль повествование отличается (не всегда в лучшую сторону, больше слопа). >>1327781 Попробуй а там решишь, с тебя же денег за оплату и запуск не требуют. Модели разные.
Мудрецы, целесообразно ли впердоливать Q8 в мои не-совсем-народные 48гб видеопамяти? Свободное место есть и Q6 туда помещается с запасом (15гб свободных) при 32К контекста.
Я не совсем понимаю, насколько большая разница по сообразительности между этими квантами (для моделей 24 - 32B).
Я вообще не ебу в этих командах, тензорах и тд. Короче, можно ли как то эту команду улучшить что-ли, чтоб мне выдавало больше токенов в секунду? сейчас выдает 5-6 токенов. Хотелось бы ну хотя бы 7-8, или больше.
>>1327605 Учти, что на максимуме квен может ризонить на 80к токенов, а инстракт без промпта не будет так делать, он меньше ответ выдаст. Ясное дело, что можно заставить, но это типа как немного тюненные на долгий и на быстрый ответы модели.
———
К i5-13400F и 128 DDR5 заказал в качестве видях CMP90HX и CMP50HX. Обе по 10 гигов, фигнота, конечно, зато вдвое и втрое быстрее P104-100, и поддерживают Exl2 (что, в принципе, в моем случае похуй) и генерацию видео и картинок. Стоили 8к и 5к соответственно. Неплохо для 3070 ti и 2080. Если не заведутся вместе — ну, поставлю одну на бота-рисовальщика. Э-э-эксперименты!
>>1327892 По большей части плацебо, конечно. Я кручу Q8, но это просто для удовлетворения (и 40к контекста). Вряд ли это супер-критично и как-то влияет.
>>1327904 Ты озвучь объем видеопамяти и оперативной, чтобы понимать, че там у тебя где.
--no-mmap нужна для экономии оперативы (часть в видяхе не копируется в оперативу), а --mlock для залочивания в оперативе целой модели (на случай малого количество оперативы и попыток винды выкинуть модель на диск). Немного противоречивые команды для винды. -ngl и -c зависит от количества видеопамяти, мы ж хз. Либо больше слоев можно закинуть на видяху, либо больше контекста (а вдруг у тебя 4090 48 гиговая, и ты сможешь и то, и то нарастить.
Я хз, скока там ваще слоев у Микстрали, может это все?
>>1327579 >теперь отношашки - только за денежку Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку. >>1327605 >байасы Байасы везде, нету сетки без баясов, кроме пигмы. >>1327628 >новая охота на ведьм по действиям в чатботах Попус уже закрывает чат, если ему грубить, лол. >>1327655 Скорее как драфтовая модель к большой гемме. Впрочем пилить драфты на 27B огрызок...
Жаль никто не тестирует. Интересно как оно. 4.1 сама по себе очень хороша и нравится больше базовой мистрали. Получился ли хороший мерж или там все грустно?
>>1327921 > устаревшие 4о Правильно делают - для чего-то серьезного чатовая версия нестабильное говно, а для casual пиздежа шаблонное говно. И как такое народу нравится?
>>1327883 >Приходит тебе на почту письмо со скринами Они и так приходят, скрины то нахуя? Если человек дебил, то скрины ему не нужны, если нет, то он поймёт, что отправка бетховенов ни к чему не приведёт кроме потери этих самых бетховенов. >В более крупном масштабе выгоднее разрушать сами предприятия, чем отдельных людей. Домики можно построить новые, а вот людей с уникальными компетенциями взять неоткуда. >>1327884 >но жоры нет Кобольд есть, который во всём лучше жоры. >>1327925 Или 4,5, или ещё чего. Я в сортах опенАИ моделей не разбираюсь, они уже сами запутались нахуй.
>>1327921 >Временно же. Попены скоро отключат устаревшие 4о (или о4, я вечно путаюсь в этом говне) и оставят соевую пятёрку. Ну если они дегенераты - то да, сами себя по яйцам рубанут, а аудитория уйдет к машку, который даже нсфв за бабло продает. Но думаю они не дегенераты и уже тренят модельку на смену 4o.
>>1327904 Можно попытаться выгрузить атеншн остальных слоев, типа -ot "_attn=CUDA0", возможно придется уменьшить количество в -ngl, а так сам подбирай по загрузке видеопамяти. >>1327911 > квен может ризонить на 80к токенов Больше 40к это уже луп и/или ужаренный квант. У них есть пример как лимитировать на конкретном бюджете, жаль нету мягкого управления "много-мало". > заказал в качестве видях CMP90HX и CMP50HX Богатый дохуя >>1327921 > Попус уже закрывает чат, если ему грубить, лол. Имаджинируй что вместо старых твитов из 10х годов тебе предъявят негативное высказывание про гроидов, феминаци, или не дай бог цисгендерный, гетеросексуальный секс без явно подписанного предварительного согласия в трех экземплярах с канничкой! И будешь потом оправдываться что просто тестировал цензуру модели, а она сама на тебя прыгнула, предложив сделать своей. >>1327929 Ты поехавший
>>1327931 >а аудитория уйдет к машку Hа опенроутере тот же дипсик вполне себе лайтово-ванилльные поебушки пишет, а пятая гопота даже на 'за ручки подержаться' клеймит девиантом и рекомендует подыскать специалистов если ты напишешь где IRL живёшь.
>>1327964 Тогда бери слоп от рэди арта, там этого говна в любой модели. Но ты будь еще умнее, бери модели которым с пол года- год, тебя к хуям утопит слопом
>>1327931 Сёма же сказал, что просто пиздеть не вариант, нужно ориентироваться на агентов, кодинг и инструменты для корпов. А за чатингом, мол, идите к психологу.
>>1327931 >а аудитория уйдет к машку Пока и того не понерфят. >>1327932 Зачем ты отчитываешься об этом в треде? >>1327945 >Имаджинируй что вместо старых твитов А я и в твитторе не был зареган. >>1327945 >Ты поехавший За що? >>1327975 >Чем дольше ты играешь тем слопнее она становится. Исправил, убрал лишнее.
>>1328001 Я вот и думаю под 2 видяху пеку пересобрать с DDR5 128 ГБ, потому что сейчас 12400 вместо проца, но прикинул, выйдет 150к, если не больше, и вот хз. Да и поколение процов уже устарело, новые скоро, но неизвестно какой курс даллара будет там.
>>1327993 А в чём он хуже то? Удобнее? Удобнее. Поддержка старых моделей есть? Есть. Качать один файлик вместо двух архивов с прорвой говна? Да. Что ж тебе ещё надо то? >>1327997 Посмотрим, сколько продержится.
>>1327989 > За що? Высказывания неоче. Про "людей с уникальными компетенциями" это уже шпионские игры, пытаться вычислить их через логи ллм чтобы навести ракеты - глупость. Слишком переусложнено, а для "переманивания" достаточно чекнуть рецензируемые журналы на соответствующую тему. Кобольд - странная обертка жоры с достоинством в виде гуйни для хлебушков, они лишь доедают на подсосе. >>1328017 > Удобнее? Удобнее. Sfx архив с питоном вместо готовых бинарников, ненужный и нелогичный гуй, зашитые поломанные коммиты висят неделями, вместо вполне няшного минималистичного чата - кобольд, функциональные вызовы и полноценный чаткомплишн не работает уже хрен знает сколько.
>>1328026 >Sfx архив с питоном вместо готовых бинарников Минусы? >ненужный и нелогичный гуй Мне проще пару кнопок тыкнуть, нежели чем ебаться с консолью. Остальное ненужно (да да).
>>1328043 > Он не призывает всех пересаживаться на кобольт Сурьезно? > Кобольд есть, который во всём лучше жоры. Вместо > Пмсм кобольд тоже ничего для новичков
Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет.
НО! Проза хоть и слегонца слопанутая, но гораздо более насыщенная по сравнению как с базовой мистралью, так и с 4.1 от драммера.
Я не помню че там было на старом мерже, который все оценили, но этот точно неплох.
>>1328065 А чем это является? Ясчитаю, или перечисление отдельных плюсов - да. А заявление что всем - нет, от того и прилетает.
И в целом, фанатичные любители кобольда довольно забавны и всегда вызывают желание их подстебнуть и обличить, прямо олицетворение плохих качеств и мракобесия. Именно фанатичные офк, а не просто ленивые.
Кобольд хорош хотя бы тем что вместе с ним идет и фронт. Я помню охуел когда первый раз запустил таверну, вообще ни черта не понятно куда жать. А в кобольде все отлично, включил и поехал, для начинающих самое то. Как бэк тоже ноль претензий, гуи удобнее для всех кроме красноглазиков.
>>1328103 Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более. Таверна, при всех её недостатках, лучше в разы. Вот и получается что единственное его преимущество, это помочь ньюфагу хоть что то запустить, а потом перекатываться на другие инструменты.
>>1328103 Вещь "для начинающих" хорошо своей простотой, но плоха если становится причиной острого синдрома утенка. Не нужно останавливаться на достигнутом и бояться осваивать новое, экспириенс будет лучше радикально. > гуи удобнее В том и дело что он неудобный. Сделали бы его полноценным, чтобы было много настроек, можно было галочками и масками управлять теми же тензорами, сохранялись пресеты со всем нужным, чтобы запускать все в один клик - вопросов бы не было. А тут мелкое штрашное уебише, в котором нужно делать много манипуляций, прыгая по окнам, вставлять большие строки команд, да еще наслаждаться распаковкой при каждом запуске. >>1328122 В голос
>>1328112 >Проблема фронта кобольта, что он нахуй не нужен. Только протестировать, не более. В целом так, но я бы не сказал что он ужасный, 1-2 недели вполне можно посидеть, но таверна почти во всем лучше само собой, если разобраться. Так что лучше кобольда для новичка ничего нет, 1 файл скачал + модель и карточку перса и можно кайфовать.
>>1328125 Его можно распаковать 1 раз (Extra > Unpack to folder), пресеты имеются (save/load config), тензоры пока что через regex. Может ты давно последний раз запускал кобольда? Сейчас он в полном порядке. Но пиздит т/с или нет я не знаю, не сравнивал
>>1328072 >Карточку персонажа не держит после таймскипов, включает самодеятельность и просто превращает в дженерик блядину, если ты написал что допустим прошло 5 лет. А вот тут рисуется такой вопрос: IRL за пять лет тоже ничего в характере у человека не поменяется? Да? Так это точно недостаток модели, или может быть - ее попытка в развитие персонажа? (МБ неудачная, но все же...)
>>1328112 >Таверна, при всех её недостатках, лучше в разы. Для РП. Если тебе хочется просто рассказ писать на пару с сеткой - хрена с два она лучше.
>>1328150 А вот вы можете наблюдать кобольтоюзера в естественной среде обитания : солнечный свет и внимание его пугают, из за чего у него включается защитный инстинкт и он начинает плеваться ядом. Удивительное создание.
>>1328183 >Кобольд старики используют, которые ничего в компах не выкупают. В таком случае LmStudio проще. А старики вообще все привыкли пердолить через консоль. Я не удивлюсь если все пользователи жоры это 30+ лет.
>>1328183 Опа, так и знал что ты то шизло, устроившее недавно русикосрач. Не надоело еще самоутверждаться какими-то базовыми навыками типа владения инглишем или умением запускать софт в консоли? Вааау бро, ты такой крутой, ты умеешь пользоваться ТЕРМИНАЛОМ, вот это да! Настоящий хакер, ах!
Держу в курсе: кобольдом пользуются потому что он тупо удобен, а его вебморда под сторителлинг и ассистента - так вообще топчик. И да, на русском общаться точно также удобнее и приятнее.
>>1328189 > В таком случае LmStudio проще. Там персонажей нет. Лмстудио используют в основном кому просто любопытно в целом ллм потыкать
> А старики вообще все привыкли пердолить через консоль. Та не. Как раз сознательные молодые и пердолятся, потому что силы есть и желание получить хороший опыт. А дедунам-пердунам похуй, они с тяжелой плохо оплачиваемой работы возвращаются в свою панельку и им хоть бы как погонять, вон выше пишут "мне хватает" "обезьяна пиздоглазая" ты вообще слышал такое где-нибудь? Звучит как ирония но так и есть. Кому не похуй и у кого силы есть разберутся адекватно инференсить через лламу или экслламу если гпу есть, а подпивасычы хуй забьют и будут сидеть на кобольде. так было, есть и будет
>>1328197 > Опа, так и знал что ты то шизло, устроившее недавно русикосрач Ваще мимо аноныч, я тогда тихонько кекал и призвал улетать в ридонли. Жаль срача толком не случилось. Любят тут охоту на ведьм
>>1328201 Тыщу раз уже объясняли в треде. Ну вот зачем мне втысячапервый объяснять? Скорость. У меня на голой Лламе на 15% быстрее например. Какого хуя? Не знаю, Питон или суп из семи залуп под капотом например, больше абстракций Гибкость в настройке. Можно выжать из железа максимум. Про скорость это я писал при одинаковых настройках, а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали, можно еще больше токенов выжать. Ну а кому это надо? Тем кому не похуй, кто готов запускать лучшее на своем железе лучшим способом
Заметь еще, тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят, а обратная ситуация частенько возникает
>>1328125 >да еще наслаждаться распаковкой при каждом запуске Сколько это занимает, 3 наносекунды? >>1328208 >а на Лламе больше параметров офлоада, про что большинство кобольдов и не слыхали С одной стороны да, с другой ебля с выгрузкой тензоров поштучно, когда их 700 штук... >>1328210 Унылая шутка, тем более политота. Нахуй не нужно, посылаю нахуй. >>1328219 >Мне 37 и я могу сказать, что ты ленивый хуй. Да, я знаю. И горжусь этим. Это в 15 можно с горящими глазами полночи сидеть компилять винду, а в 30 хочется стабильности, спокойствия и отсутствия обновлений (мечты-мечты, эх...).
>>1327383 >с высокой долей вероятности не соевый. Погонял немного Q4_K_M и могу подтвердить, никаких отказов, никакого моралфажества пока не наблюдаю. Сложно сказать насколько он в целом хорош, слишком мало его ковырял, но минимальный уровень сои уже хорошо.
>>1328231 и только лишь немногие знают что ты дал этому начало... тебе и исправлять положняк. сделай то что сделал однажды, заеби его настолько что он вылезет из ридонли и вернет пиксель
>>1328222 >а в 30 хочется стабильности, спокойствия и отсутствия обновлений Два чая. Мне 34, сижу на дебиане, пользуюсь кобольдом. Запускаю баш-скриптами, где сразу подхватывается файл настроек и параметры запуска под каждую модель. Буквально пара кликов - и сидишь общаешься с ллмкой довольно урча. А дроч ради дроча - нахрен не надо.
>>1328148 Ну это же кринж. Удобно - это когда запускаешь tabby/yals, прямо из таверны выбираешь нужную модель и погнал. Или когда запустил готовый шеллскрипт с лламой сервером. Или можно лламой-свап обмазаться и также можно будет через таверну менять, но там конфиги не такие гибкие. А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск, чтобы получить поломанную и медленную ллама-сервер - зачем? >>1328150 Обезьяны - это фанатики кобольда, безальтернативно. >>1328183 База, только тугой и совсем закостенелый после неосиляторства, будет восхвалять его только за то что был первым опытом и потому что ни во что другое не умеет, лол
>>1328236 >ты дал этому начало... Океееей. Ладно, мелкобуква, снимаю шляпу. Ты действительно оказался прав. Не знаю как правда, курсивом пишу не только я. Но я его поджигал, не мне его заебывать переделанными пастами про пресеты.
>>1328208 > тут тредовички никогда какахами не кидаются в кобольдов и адекватно говорят Еще как, прежде всего в фанатичных маргиналов. Это ведь того же поля ягоды что главные участники русикосрачей, а еще очень много мотивации происходит из опасения оказаться в отстающих ибо ничего другого не умеют. Потому такой агрессивный болотошиллинг, или оправдание откровенного ублюдства всратым костылем >>1328209 мм. >>1328219 > Или батник который не меняется, созданный один раз Для лламы сервера. >>1328235 Вот это круто, если еще что-нибудь будешь катать - не стесняйся делиться впечатлениями.
>>1328241 >А вот эту херь с мерзотным микроокошком найди, запусти, пролезь в лоад пресет, выбери конкретный, открой его, нажми запуск Дабл клик на файле пресета не хочешь? И всё. >>1328243 Не пробовал купить SSD взамен IDE жёсткого диска, доставшегося в наследство от деда?
>>1327917 Вроде 40 слоев. 13,5 гигов файл? Ну, что я тебе могу сказать. Открываешь диспетчер задач. Смотришь поле Оперативная память графического процессора (из трех памятей это левая нижняя). Там будет больше 12, потом что кэширование в оперативе. Но тебе надо выгрузить столько слоев + добавить столько контекста, чтобы суммарно было не больше 12. 11,9 или около того.
И увеличение -ngl и увеличение -c ведет к жору видеопамяти. Просто запускаешь с разными параметрами — и смотришь. Чем больше -ngl — тем выше скорость генерации. Чем больше -c — тем больше моделька помнит (контекст). Сам ищешь свой баланс — быстрее модель, или больше контекста (дольше чат адекватный). =)
>>1327998 Почти осс-120б, или глм-аир-106б, но как известно, ничего лучше глм-32геммы 27бмистрали смоллмистрали немо геммы 0,27б нет и большие модели херня. =)
>>1328007 Это как? Я 128 с нуля за 90 собрал. Не факт, что оно будет работать, но… =) Или ты проц тоже менять собрался? На i9?
>>1327904 На 24B больше 5-6 токенов на 3060 не получишь. Твой потолок (как, впрочем и мой, и всех других обладателей "народной" видимокарточки) - 12В-шки.
Но кое-что посоветовать могу. Пробуй МоЕ модели, вроде вот этой: L3.2-8X3B-MOE-Dark-Champion-Inst-18.4B. У меня на IQ4_XS она просто летает (30-35 токенов против 25 у 12-шек), при этом ощущается умнее (но умеет только в инглиш).
>>1328253 > Дабл клик на файле пресета Уже лучше. Но требует существенных манипуляций лишь ради замедленной llama-server без части функционала, прямо пикрел.
>>1328291 >На 24B больше 5-6 токенов на 3060 не получишь Получаю стабильные 8 токенов на 34 слоях, и это без выгрузки тензеров. Что у тебя вместо оперативной памяти стоит? Все биты на листочек выписываешь и вручную распределяешь?
>>1328283 >И как долго на перфокартах распаковывается кобольд? Таааак, хуё-моё, одна перфокарта - 80 байт, в кобольде ~960 мегабайт, итого получается 12 миллионов перфокарт. Даже если объединить их в перфоленту где каждая карта считывалась за 0.25 секунды без перерывов и сбоев, получается около 35 суток чистого времени.
>>1328302 Нет, я ненавижу вниманиеблядей. >>1328304 >Но требует существенных манипуляций Один раз проставить настройки в интерфейсе и сохранить файл. Конечно же это на порядок сложнее, чем читать хелп в консоли и писать батник ручками (нет).
>>1328319 Ты забываешь еще про обработку и смену магнитной бабины. Я не помню сколько там была оперативка лол, но результат все равно переносить на постоянный носитель.
>>1328336 Были, были. Я точно помню, так как щупал и запускал Минск-32 (Это отдельная история, я не настолько дед), там магнитные платы были. Даже нашел, как на пике.
>>1328326 Ну смотри: Скачать sfx архив @ Запустить @ Извлечь в папку @ Закрыть, запустить из папки @ Искать в интерфейсе куда безумный разум засунул нужные параметры и что соответствует готовым ключам запуска, которые все обсуждают, вместо их прямого копирования @ Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует @ Не забыть сохранить пресет перед тестовым пуском, повторять те же манипуляции с запуском, загрузкой пресета, корректировкой параметров, сохранением пресета, пока параметры не будут подобраны @ В шинде выбрать ассоциацию с файлом пресета через контекстное меню (у него, надеюсь, свое уникальное расширение?), в линуксе настроить .desktop файл и ассоциации, чтобы действительно запускалось по клику на пресет @ При обновлении наслаждаться тем, что пресет не работает из-за очередных нововведений.
Ну такое себе. Для той же лламасервер половина или больше этих этапов пропускается, а все манипуляции осуществляются в шеллскрипте или батнике. Их написание без шуток быстрое и удобное из-за отсутствия необходимости лазить в гуйне, просто меняешь отдельные параметры в скопированном скрипте с других моделей. Немаловажным является и удобство обновлений.
Этот спор бы имел смысл, если бы жора менял команды при каждом релизе. Но они неизменны. Один раз разобраться и хоть аллаха на кофеварке запускай в 0.25 бита.
Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.
>>1328369 >Ей богу, у меня больше пожара вызвала установка таверны, которая просто положила систему бсодом, а потом все вообще поломалось на скачивании с гита. Буквально Эдвард-руки-из-жопы.
Жееесть.
Я конечно тоже немного затупил с нодами, но настолько она мне всё не ломала.
>>1328369 Жора не меняет, зато кобольд - да. С ключами запуска еще забавно, это странное желание сделать их не как у жоры. У таверны толком нет нормальных альтернатив не смотря на корявость. > бсодом > поломалось на скачивании с гита Это неутешительно.
>>1328366 >Скачать sfx архив @ Запустить @ Выбрать модель @ Играть >Осознать что тебе все равно придется использовать текстовые команды в поле в гуйне, потому что интерфейса для них не существует Так существует или нет? Ты сам себе противоречишь. >а все манипуляции осуществляются в шеллскрипте или батнике То есть ебля с сонсолью. Люнуксойды конечно же рады, но я нет.
>>1328414 > Так существует или нет -ot и множество других параметров, с подключением, нюфаня > То есть ебля с сонсолью Вернулись к тому с чего начинали: утята отстаивают свое прямо жрать кобольда с лопаты, аргументируя страхом перед операциями в текстовом редакторе. О том и речь, унтерменьши.
>>1328431 >ot и множество других параметров Они есть в гуй? Есть. Хули тебе мало? >страхом перед операциями в текстовом редакторе Еблёй с сонсолью, да.
>>1328437 > Они есть в гуй? Контрекстшифт сработал? Для него не сделали интерфейс, хотя простор был очень богатый. Лишь текстовое поле шириной с твой мозг, в которое придется вставлять длинную строку и наслаждаться ее редактированием. Реализовать подряд несколько по очереди применяющихся регэкспов невозможно. > Еблёй с сонсолью Что ты в этом треде забыл, недоразвитый?
>>1328451 >Для него не сделали интерфейс >текстовое поле Так сделали же, хули ты копротивляешься? >хотя простор был очень богатый Ну так делай. Нет, не могёшь? Хули жалуешься тогда? >Что ты в этом треде забыл Адрес твоей мамки, азаза.
Ладно я зря быканул на Драммера. Новая Цидонька 24B-v4.1 вполне себе неплохая. В сравнении с Геммой - хуже следует систем промпту, но заметно лучше передает характер персонажей (на мой субъективный взгляд). Буду дальше смотреть.
Кому не лень, поясните, у таверны есть какие-нибудь более простые аналоги?
Хочется иметь чистый фронт под текст комплетишн, без рудиментарной хуйни и прочих нагромождений. Разумеется, для чатов с персонажами. Про дефолтные чат-морды с ассистентами я итак в курсе, оно мне не надо.
>>1328576 Хотя. Я еще не пизданулся окончательно и не страдаю галлюцинациями. Но я точно видел какой то японский фронт, который, невзирая на то что у лунных очень специфичное понимание дизайна, выглядел он не плохо. Надо бы поискать, я точно где то линки сохранял.
>>1328576 Лень разбираться в очередном сраче, но скажу за себя, что морда кобольда это кривая параша, на которую даже смотреть тошно. Для дефолтных задач пойдет, для ролплея точно нет.
>>1328582 Не ризу случайно? Не знаю насчет того, узкоглазые ли её делали, но это тоже не то.
Тестирую чем можно распознавать картинки. Вот поймал дешёвку за руку, загрузил фотку анимешки и скриншот - попытку другой нейросетки угадать фотку анимешки. Тупая хитрая машина решила считерить, причем обычную фотку распознаёт нормально, а фотку с текстом просто "списывает" не пытаясь в анализ картинки.
Короче, скачал бинарники Жоры и запустил квен на своей 5090 и 64 гигов памяти. Выдает 11 токенов в секунду на мелком контексте. Если что, кобольд выдавал 2 токена в секунду. Вопрос закрыт.
Это что за ебаный франкештейн блядь, кто-то взял 8 одинаковых плотных llama_3.2_3B, прогнал через файнтьюн и зашил внутрь мое-поганища в виде лже-экспертов?
Ну в общем-то как я и говорил. Исключение тесел из мультигпу баронской сборки и перенос тензоров в RAM снизило скорость: 2k context: pp 164 -> 131, tg 11->7.5 10k context: pp 136 -> 120, tg 7->6 (генерация кста не сильно просела)
Дальнейшее исключение тройки видюх из хвоста еще больше пидорасит: 2k pp 108, tg 6.2 10k pp 106, tg 5.5
Это говорит о том, что нехуй выебываться и даже самое дряхлое говно, подключенное через райзеры, спаянные китайскими бомжами в подвалах Бангладеша, лучше обычной советской DDR4. У бояр c DDR5 с миллионом каналов ситуация может быть другая, конечно.
К слову, вот вы говорите про дипкок. А как его запускать-то? Ниче тот факт, что жора до сих пор фа не поддерживает, он ебанутый чи не https://github.com/ggml-org/llama.cpp/pull/11557? А на ik лламе фа не работает на теслах, то есть -48 гб из моей врам как корова языком слизнула. В общем, говно без задач, это либо со скрипом гоняй второй квант, либо имей под рукой сервак с 256/512 ram
>>1328664 Создается впечатление что что-то подсирает, возможно медленное подключение основной карты. > А как его запускать-то? Просто и без задней мысли, как любую моэ модель. Есть опция скачать лоботомита и катать с минимальной выгрузкой. > до сих пор фа не поддерживает Погугли mla в дипсике > на ik лламе Она малополезна для мультигпу сетапов
Квен настолько умна что если она косячит - то если прям в ролеплее через OOC тыкнуть её в косяк и дать указание проанализировать системный промпт и карточку персонажа - то она покажет точное место где косяк и сама же его перепишет. Вообще команда OOC: это палочка выручалочка, с помощью которой можно дебажить нейронку прям в процессе ролеплея. Мне напомнило как в "Мире дикого запада" была команда "Freeze all motor functions", которая переводила тамошних ботов в аналогичный режим дебага.
>>1328673 >Создается впечатление что что-то подсирает, возможно медленное подключение основной карты. Не она точно, там честные х16. >Погугли mla Это ортогональные вещи, насколько я знаю. Впрочем, твой ответ побудил сходить и я таки нашел https://github.com/ggml-org/llama.cpp/pull/13435 https://github.com/ggml-org/llama.cpp/pull/13306 Единственное, что названия какбэ намекают, что теслы пошли нахуй... Но надо проверить, вдруг уже тоже поддержали в другом PR. Непорядок, если так оно и есть, удар в псину от жоры.
Ой ну всё наслушался советов на дваче. Темплейты не глупые люди наверное разрабатывали, если стоит names - always значит так и надо. Просто перестало в середине чата выводиться сообщение, удаляй, откатывай на пару назад, - всё похуй, токены пишутся, таверна не выводит. И только names - always с never помогло
>>1328760 это явно не проблема темплейтов, у меня всегда Never ибо имена (как настройка) пиздец отупляют и модель теряет возможность управлять несколькими персонажами + нарраторить, такое только для чисто ассистентов и потрепушек 1-на-1
Кстати, очень хорошие результаты даёт сторителлинг от третьего лица без маня-селф-инсертов, с добавлением в промт:
Keep responce formatting. Formatting examples:
Имя: "Прямая речь."
Имя (мысли): "(продумывание, размышления)"
Ну, и самому придерживаться того же формата.
То же самое что с именами, но не ломает разметку и модель.
Почему в треде непопулярна 70B ллама? Я наблюдаю, что ролеплейщики (кроме нище-рамлетов) до сих пор на нее дрочат, воротя носы от МоЕ-хуе с жалкими < 15B активных параметров.
>24 Потому что винда отъедает 4гб видеопамяти, даже если они не заняты. >34 Потому что старая видюха и если поставить больше, то вместо 20 т/с станет 15. >42 Остаточек на новую видюшку с полностью свободной видеопамять.
Какого хуя я должен это подбирать вручную, почему оно автоматически не может найти лучший вариант?
>Let me answer this: >One: this isn’t spam. Deca 3 Alpha is an experiment, and yes, it’s scaffolded from existing models. That was intentional and mentioned upfront. We’re testing routing, reproducibility, and scaling — we didn't pretrain this >two, all reused components are properly licensed. We’ll be adding a NOTICE.md to clarify provenance, including InternVL.
Потому что нет ни одной причины её использовать - в треде сидят умные люди, умеющие просчитывать value over spent resourses. Само качество этой неудачной модели находится незначительно выше 32b моделей. При этом эти 32b спокойно запускаются на 16-24 гб врам, а эту - ты не запустишь с нормальной скоростью имея ниже 48 гигов врам. Некоторую популярность в треде имел немотрон - который есть просто ужатая версия этой самой ламы до 49В, почти без потери качества, вот там уже были причины его использовать и многие его использовали и был даже небольшой культик этой модели. Но после прорыва с оффлоадом мое тензоров, когда ты на 24 гб врама с нормальной скоростью можешь запускать мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству - и она и немотрон окончательно ушли в небытие.
В регарде валяется. По идее ценник будет снижаться каждую неделю, пока не выкупят. 1 месяц гарантии должны подсунуть. Только никто не скажет, че там было отремонтировано.
>>1328812 > двухбитного квена 235 Хватит форсить этот кал, аноны просто пошутили и свичнулись обратно на эир. Никак абсолютно 2 квант чего либо не может быть лучше 4
>>1328817 Наборы по 32 и 48 гиг, очевидно, характеристики схожие, 6400 в базе CL30. Амудя конечно же, больше процессоры уже никто не делает. >>1328820 Знаю, сам сидел. Я конечно знал, что не заработает, но самому удостоверится надёжнее (и обиднее). >>1328824 На самом деле рабочая подделка. >>1328850 Тут вопрос в "235 q2 VS 106 q4", так что не всё так однозначно.
>>1328812 > мощнейшее мое типа глм аир и двухбитного квена 235, которые эту ламу просто уничтожают по качеству
Эир не уничтожает даже 32b плотную модель, о чем выше не раз писали. Ты о чем? Квен получше, конечно, только не кратно количеству параметров. Но в целом все верно, 70b Лламу нет резона юзать сейчас, вот и ответ
>>1326416 (OP) Сейчас есть одна 3090 и 32 гитара ОЗУ. Сижу на магнуме 24b и жду где то 20 секунд на ответ. Стоит ли купить 64 гига ОЗУ (ддр4)? Чтобы с таким же комфортом сидеть на чём то лучшим?
>>1328853 >Амудя конечно же, больше процессоры уже никто не делает. Это аутотренинг? Вот у меня четыре плашки ддр5 как на интеле работают, скорость 5600 как заявлено, а не 3600 как у тебя.
>>1328863 У меня планки 5600. И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается. Читал что с вольтажом начинаются проблемы на 6400 на моей матери и проце, а с таким я ебаться не хочу.
>>1328871 >И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются и юзер сам себе злобный буратино если таким занимается Чего блять, лол. Там скорости от пизды написаны, все до 6400 гонят не потея ни грама и всё нормально живёт
>>1328813 АМД не показатель, никто для нейронок на амд собирать не будет, интел же. Ну или хотя бы 9950 вроде норм работал. Но цена за него не радует. Вот би на интеле посмотреть…
Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть? Я честный и всегда возвращал тока ломанное.
>>1328862 Гуд ньюс. Остается надеяться, что 13400 потянет 256 гигов. хд
>>1328886 >все до 6400 гонят Это на амуде. На интуле можно гнать хоть до 8 кеков. >>1328904 >никто для нейронок на амд собирать не будет Я... >Ну или хотя бы 9950 вроде норм работал Чиплет с контроллером один и тот же, разницы не будет. >Вообще, что скажите, я могу взять в ДНСе комплект памяти, а если оно не поедет — то просто вернуть? Бери дистанционно, должны принять по "не подошёл". >>1328913 На интеле осталась только быстрая память, по остальным параметрам он действительно всосал.
>>1328913 Просто у АМ5 проблемы с четырьмя планками оперативы, и вообще плохо с псп. Как-то так не фартит процам новым. При том, что интуль хуже как процессор, но под RAM-нейронки выходит лучше.
>>1328915 > Бери дистанционно, должны принять по "не подошёл". Угу, если все пойдет как надо, то через месяцок так и попробую.
>>1328871 >И интел честно пишет на коробке проца что скорости выше 5600 - не поддерживаются Лол, ты и на сендиках небось сидел с DDR3 1333 МГц ? >>1328924 Попробуй конечно, но росст циферек скорее всего увидишь только в тестах аида.
>>1328760 > Темплейты не глупые люди наверное разрабатывали > если стоит names - always значит так и надо. Интересно, а в каком дефолтном шаблоне стоят names - always? Думаю, ты не утруждался проверить, потому что это решило проблему в твоем конкретном случае. Ни у одного шаблона в Таверне из коробки такой настройки нет, кроме тех что с суффиксом -Names, коих целых две штуки. Везде Groups and Past Personas, потому что там это оправдано на мелкомоделях (на больших по-прежнему оставлять Never). Не говоря уже о чаткомплишене, где нет имен.
>>1328962 Получается это правила базовой разметки ? А где задавать нужную мне пунктуацию (Ну мол, мысли персонажа через `мысль`, "диалог", выделение курсивом чувств - и прочее. Это через system promt ?
>>1328969 В story string по итогу собирается почти весь промпт, который Таверна отправляет бекенду. Обрати внимание на {{#if system}}{{system}} - это и есть твой system prompt. Если он есть - передается, если нет - не передается. Иногда отсутствует {{/if}}{{#if mesExamples}}{{mesExamples}}, потому что не все передают сообщения таким образом. Кто-то делает это как на пике 2: Always include examples, и тогда story string будет передаваться второй экземпляр поля Example Messages из карточки персонажа. Короче говоря, это контейнер для сбора почти всего промпта (например, там отсутствует непосредственно история сообщений). Сами инструкции, в том числе какие ты описал, тебе нужно писать в system prompt. Иногда, для удобства, в контексте конкретных моделей можно и в story string размещать инструкции, чтобы system prompt был более гибким и универсальным. Например, джейлбрейк Коммандеров в дефолтном шаблоне Таверны, из коробки, находится именно там - в story string.
>>1328998 Та же проблема, никогда не использую темные темы. Это элементарный рескин, который делается за пару минут в User Settings -> UI Theme -> Theme Colors
Чтобы использовать кастомный фон, нужно его загрузить в Таверну: SillyTavern\data\default-user\backgrounds или имя пользователя вместо default-user и выбрать во вкладке сверху, что обведена синим
>>1329004 >LaTeX extension хи хи хи Хотя странно, в маткаде давно уже нормальная система записи формул, ну если хочешь матан фронт, ну реализуй как там.
>>1329038 Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах. Если речь про жирные модели корпов. Некоторые маленькие модели у них натурально 8б.
>>1329066 Мминуточку. Позволю себе не согласиться. > Любая модель ощущается ужасно по сравнению с корпами даже в четвёртом кванте в рабочих задачах. Как показывает практика, квен кодер порой лучше гопоты работает.
Все очень зависит от задач. Корпы имеют самые жирные датасеты, но из за сейфети лайнс, они крайне узко применимы. И я сейчас не про кум. Сейфети он во всем. Перевести Де Сада ? Фу бля, пошёл нахуй пользователь. Медицинские данные - а ты точно специалист ? У тебя обычный аккаунт, нахуй иди. Я пробовал с ними сделать расчет АСДТ на горную выработку, так он моментально залупился. Сука, если у меня есть ДТ и Селитра, я знаю пропорции, все что от тебя требовалось, это сделать простую математику с кислородным балансом. Но нет, взрывчатка же. Ведь террористам точно нужен кислородный баланс ВВ.
>>1329072 Да все. Клоды, гпт, дипсики - они все одинаково хуевы для узких задач. Это буквально зацензуренный масс продукт, который сгодится только как ассистент да гугл. И то, умудряется лажать с запросами. Я все понимаю, но я очень очень разочаровался в корпах.
И вообще это не тематика, так что если будем продолжать обсуждение, предлагаю укатиться в предназначенный для этого тред, а то опять стриггерю шизов на сотню постов срача.
>>1329091 >Просто надо промптить правильно. А еще собирать кровь девственниц и обязательно писать промт в определенную фазу луны и молиться, чтобы тебе бан не прилетел. Нахуй надо.
Локалки - это и MOE и ТВОе.
>вскукарек Убил бы, блджад.
Ф пезду короче. Лучше скажите, кто нибудь ллама слоп от драммера использовал ?
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: