В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1238523 >Эт понятно, я больше задаюсь вопросом не превратится ли это всё в тыкву в сумме из-за такой разницы по мощностям чипов и скоростей врамы Я так понял, что есть вопросы по поводу взаимодействия Питорча и 50-й серии. И с драйверами что-то.
>>1238553 таки где мне обучиться промпту и карточкам? или дай пример, чтобы я понял что у меня не так просто на гемме пердел, все хорошо было, но она там умная дохуя в плане контекста как я понял
>>1238563 тут что ни скинешь, все засрут к ебеня матери и еще больше запутают новичков своими точно правильными познаниями так скажу: сам когда перекатывался с 12б на 70б модельки, у меня все чаты развалились. потому что абсолютное большинство 12б тюнов - по умолчанию кумлоботомиты, которым даже карточка толком и не нужна. можно написать "office coworker 30 years old" и оно будет работать. потому что в и без того маленькую модель запихали кум датасет, он пропорционально важнее чем в больших моделях
полазай по чубу или еще где, посмотри определения карточек, ищи что сделано с душой и попробуй разное
>>1238523 Мощность чипа особо не влияет (здесь) - важнее само поколение, из-за поддержки разного набора фич. Но тут же 4080 старее. Память у 5060 вроде как не особо медленнее, или даже наоборот(лень лазить проверять). У самой 5ххх серии пока бывают заморочки с либами и дровами - но это уже их собственное, независимое. Подпилят, я думаю.
Как отключить think на квене 30б-а3б? Есть команда для него enable_thinking=False, так куда ее писать? В систем промпт? В сам промпт, который тоже называется систем промпт? Или в кастом стрингс. 1 и 3 вариант для меня оказались не рабочими. Ризинг в силли, тоже стал почему-то не работать.
Алсо, что использовать в темплейте для этого квена? ChatML? У него такие токены, похожих в силли не видел, кроме как на chatml
>>1238655 В любом месте, например в систем промте добавь в конце /no_think, можешь сводобно переключаться во время чата выбирая режим добавляя теги в конце сообщения, включить думанье /think
>>1238662 >ChatML? yes, но оно не так умно без ризонинга чем хотелось бы. С ним уже более менее
>>1238605 Да, судя по обсуждению кто то предлагал включить изначально старый кеш, но сделали принудительное включение сва кеша Все кто часто/долго пересчитывает контекст - сосать
Анонасы, вот в карточке есть таблица со статами, но моделька (гемма 27б) забывает ее через 5-6 запросов, что я могу с этим сделать? Просто не хочется под каждую карточку менять системный промпт. Вот так выглядит в карточке: ###Display: At the bottom of every post, display the following information wrapped in ` like this: `information` Есть ли какая-то специальная разметка, чтобы эту часть контекста он всегда пониже держал?
>>1238669 Видишь ризонинг настройки? Поиграйся с ними, можно сделать дефолтное сворачивание мыслей, они будут скрыты плашкой Можно вобще убрать если вырубить мысли и выбрать пустое форматирование рассуждений
>>1238501 Нормально кумит и в отличии от стоковой геммы лучше описывает. При этом, обычные карточки на хуй не прыгают, могут прописать пиздюлей за неуместные домогательства если не подходить аккуратно, а кумботы наоборот конкретно так берут тебя в оборот. Что-то не так делаешь, промты, карточки и т.д. >>1238543 С выходом стайбл торча на куде 128 и массовым переходом на него все вопросы закрыты. Суммирование разных гпу будет работать, скорость будет определяться временем обработки каждоый своего кусочка. >>1238605 Можно пояснительную бригаду? Зачем вообще делать такую хуету и к чертям убивать атеншн там, где его точная работа жизненно необходима? Ладно когда в модели используется несколько вариантов и часть атеншна штатно должна быть со скользящим окном, нужно просто обеспечить ее корректную работу. Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного? Или что они там вообще делают? >>1238655 Misc. Sequences -> Last Assistant Prefix -> > <|im_start|>[{{name}}] > <think> > > </think> или заменить на свой шаблон если обычный чатмл без имен. Это в конфиге токенизатора указано явно.
>>1238688 > Но для чего подсовывать это в качестве принудительной опции там, где подобный режим далек от штатного Для врам-бояр, так как им важнее меньшее количество врам при запуске и плевать на чтение промпта, если модель таки влезла Остальные - сосать, если не знают что это включено и нужно вырубить командой с не очевидным названием
Еще, сильно ли лоботамитит alibiterate у квена а3б? У меня раньше пользовался обычной, но он высерал хуйню какую-то, был поломанный квант. Сейчас скачал алибитерейт, отключит ли он мозги? Я конечно попробовал, русский такой себе... "Пожалуйста, мастер… я хочу тебя… я хочу твой сперму…" Как я помню на обычном квене с цензурой такого не было
>>1238553 Искренне не могу понять, откуда вы высрали это трешовое заключение, которое стали постоянно форсить в треде. Одну модель исходно тьюнили на инструкциях, и вторую тьюнили на инструкциях. Почему одна должна якобы понимать инструкции, но игнорить кум контекст и требовать какого-то специального промпта и карточки, а вторая независимо от контекста и инструкций писать еблю? Т.е. ситуацию с первой я понимаю: потому что в ней насрано сейф инструкциями. Но очевидно, это не потому, что она такая умная, блять, но как даун, на самом деле, и ей нужно специальное обращение. Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват, и что согласуется с контекстом (а контекст, очевидно, у анона про кум). И от того, что меньшую модель дополнительно накормили тьюном вида "я тебя ебу" - "ах, ты меня ебёшь", она не будет сводить в кумслоп вообще любой контекст, в котором нет "я тебя ебу", если тренили без косяков. Для этого пары инструкция-ответ и существуют.
>>1238671 Можешь подать инструкцию авторской заметкой/лорбуком/последним реплаем в инстракте на глубину ноль (сразу после чата). Более надёжный вариант имхо взять инфу в какое-нибудь форматирование или тег, скажем в ``` для кода, дать инструкцию, чтобы инфа выводилась в начале, и поставить открывающие символы в префил. Модели будет некуда деваться, кроме как дописать блок. Так даже совсем мелкие модели инфоблоки могут худо-бедно держать.
>>1238720 > Мало того, бОльшая модель должна как раз гораздо лучше понимать, что от неё хотят в промпте, даже если он кривоват вот и умные теоретики подъехали, которые все непременно знают лучше всех
берешь 12б кумтюн мистральки и отвратительную слоп карточку. запускаешь, смотришь результат берешь 70б электру или неворию и отвратительную слоп карточку. запускаешь, смотришь результат ахуеваешь от результата и переосмысливаешь свои жизненные выборы либо делаешь вид, что не видел того, что видел и дальше умничаешь
>>1238723 ну я пробовал так делать, получается что на 12б качественный слоп, потому что 8квантов на 70б неворию мне не хватило и запустил в 3 кванта и получился неудобоваримый слоп, потому что маловато квантовки только на русике общаюсь
>>1238720 > это трешовое заключение Почему трешовое? Оно очевидно как после использования моделей, так и из теоретических заключений. После продолжительной лоботомии, которую именуют "рп тренировкой", типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский. Она совершенно нечувствительна как к косякам промта, что для такого применения плюс, так и к деталям характера или каким-то особенностям карточки, что превратит чара в стандартизованного болванчика, сложный сеттинг в регулярные встречи с гоблинами или волками и т.д. Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят. То что из-за дерьма на входе выдача не соответствует ожиданиям юзера - не ее проблемы. Если модель недостаточно большая и мощная, а в промпте полнейший треш - она может не сдюжить собрать вместе все противоречия и странности, и поломаться. Модель - инструмент, а не какое-то волшебство, которое должно указывать мысли юзера игнорируя контекст. Говно на входе - говно на выходе, внесение любых жестких алайнментов в сторону конкретной выдачи и игнорирования входа = снижение точности и деградации. Только на оче больших размерах и с привлечением всякого типа ризонинга и саморефлексии, модель начинает справляться даже с трешем, ставя в приоритет часть нормальных инструкций и бракуя/обыгрывая ерунду, выдавая нечто удобоваримое. Но на это, образно говоря, уходят все ее ресурсы, и с хорошей карточкой и промтами можно получить гораздо больше. >>1238738 > качественный слоп Оксюморон, вялая копипаста датасета же. > только на русике общаюсь Как носителю языка можно не проблеваться с выдачи типичной 12 с подмешанной сайгой "для ру рп"?
>>1238723 70б не могу (и даже 27б, кек), сорри, тут можешь считать меня теоретиком, согл (хотя когда-то сиживал на клоде и гптыне, которые почему-то даже самые шизовые промпты хавают, не будучи "зарельсованными" кумслоп тьюнами). Но могу сравнить 12б шизомержи немо с якобы более умной геммой, например. Совсем говнарские карточки стараюсь не юзать или редачить, но, скажем, пробовал катать абсолютно тупую карточку "твоя подруга детства хочет, чтобы ты её рейпнул". Кастомный мёрж магмела с наваленным поверх лупным кумслопом (сорри, люблю такое) почему-то не прыгал на кок, спокойно ограничиваясь тизингом со стороны тянки, и даже когда мы завалились к ней домой, она врубила эччи аниме нам смотреть и только потом начала кайнда приставать. В промпте ещё и было насрано такими себе инструкциями для более детального кума. Гемма же при малейшем обратном тизинге с моей стороны пыталась убегать в слезах. Правда, нужно объяснять, кто из них вёл себя логичнее при одинаковом контексте и промптах, и в чём проблема? Подсказка - проблема не в том, что гемма не понимала моих охеренно сложных инструкций и так себе написанной карточки.
Энивей, там чел пишет про тьюн геммы и говорит, что сама гемма у него работала норм, так что твой доёб про промпты там не к месту.
>>1238738 >на русике Ну тут ещё проблема, что в ламе его почти нет.
>>1238744 > типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон, а персонаж - новоизбранный папа римский. > Она совершенно нечувствительна как к косякам промта, что для такого применения плюс именно это я >>1238723 здесь и сказал, объясняя анону, почему при переезде на большую модель у него получился худший результат, чем на тюне 12б модели
почему >>1238720 не согласен - хуй знает, да и похуй. адекватный анон выслушает нас обоих и составит свое мнение
>>1238764 я этого не утверждал проблема в том, что на 12б кумтюне карточка не развалится и будет работать хоть как-то на 70б модели будет хаос вплоть до галлюнов мне не нравится ни то ни другое, но отрицать правду я не буду
>>1238751 Там вроде посыл в том, что "у него" получается что 12б работает лучше чем большая модель, но его оценка "лучше" просто некорректна. Тот ответ не вполне проливает свет на то, что модель становится достаточно умной чтобы все заметить и обработать, выдавая ровно то что должно быть. Но еще недостаточно умная чтобы выразить свое недовольство и послать нахуй за такие промты, или вздохнув, выдав упреки и выразив свое отношение, все равно попытаться как-то это обыграть, сделав конфетку. >>1238785 > что на 12б кумтюне карточка не развалится и будет работать хоть как-то Пикрел
>>1238785 >и будет работать хоть как-то Весь прикол в том, что я бы не назвал это работой. Так можно заменить всю нейросеть подстановкой "Ты меня ебёшь - ахх" в конец вместо всех этих вычислений, и будет твоя 12B оверфитнутая на куме модель.
>>1238788 я с тобой согласен. почему вы из контекста выгружаете все кроме одного сообщения на которое отвечаете там анон писал, что у него на синтии результат хуже, чем на 12б кумтюне, я ему объяснил почему почему вы думаете, что я защищаю 12б модели?
тред поражает тупостью, как же я коупю и верю что вы лламы 8б одного из риговичков
>>1238787 Надо переделать под 70б - 12б и внизу автоваз заменить на мистральнемо. А справа добавить гусенечную бронемашину и скрин ризонинга, где квен трижды ахуевает с противоречий в карточке проходя стадии торга и принятия.
>>1238789 >почему вы из контекста выгружаете все кроме одного сообщения Так проще общаться. И даже последнее сообщение выгружаю не всё, а только то, что цитирую. Мимо анон, превратившийся в 1,3B после общения с нейронками длинною в два года
>>1238750 >>1238751 И опять - все упирается в субъектив - что именно считать адекватной реакцией? Оно ведь - на вкус все фломастеры разные.
А лично для меня, "модель адекватна" когда она: 1. Следует основной инструкции глобально. Т.е. если я ей говорю, что она DM - то она должна вести игру, а не писать книгу или решать задачи. А если - "ты - Х" (с описанием этого Х) - то не выпадать из образа этого Х. 2. Отыгрывая персонажа(ей) - учитывает прописанные реалии вокруг, а не тупо тянет мораль и этику (и остальное) из нашей дефолт реалити. Т.е. - написано что это хентай мир, в котором голым по улице ходить нормально - значит персонажи не должны даже смущаться при этом. И т.д. В идеале - еще совмещать с описанием самого персонажа - т.е. если "попаданец" - то недоумение и смущение логичны. 3. Проявляет хотя бы минимум инициативы в действиях персонажей согласно их предыстории. Как пример - чтоб NPC добросовестный приключенец, скажем, по своей воле пошел за оружием ухаживать после рейда, без намеков от меня.
А слоп там, прыжки на это самое на втором ходе, или убегание в слезах на невинные намеки - это все вторично, и само по себе нифига не показатель. Лишь в контексте вышеописанного.
этот вообще посреди обсуждения проблемы пришел о своем попиздеть ууух бля, пойду спокнусь отдохну от вас. всякое бывает, но такого потока сознания на ровном месте как ночью и сейчас я еще не видывал, демагоги захватили тред
Почему карточки, которые нравятся по пикче и описанию, оказываются кринжухой и слопом, а карточки, на которые не питаешь особых надежд (или не очень интересна тематика/фетиш) - наоборот, оказываются вином и получается классное рп и кулстори? Как это работает? Листаю сейчас чаб, и не могу выбрать ничего, что попробовать.
Очень долго идет блас, скорость генерации нормальная. Появилось когда поставил модель побольше квантом, как решить? Модель сама же грузится и дает нормальную скорость, а вот блас очень долгий.. P.S квен с мое, выходит за озу, модель весит 17гб, а у меня 16, однако есть слои на видеокарте, загружается всего 11гб на цпу. При кванте, который весит 15 таких проблем нет
>>1238829 > НАКАНЕЦТА Чуи, мы дома! > The-Omega-Directive-M-12B-Unslop-v2.0 Сначала проорал с описания ил перечисления достоинств, но когда дошел до > QLoRA with DeepSpeed Zero2 чуть не помер.
>>1238751 >почему не согласен - хуй знает, да и похуй Потому что вы несёте херню, ну да и похуй. >типичная рп двенашка будет выдавать стандартизованный кумослоп даже если в карточке написать что все это сон >когда на любую карточку "я тебя ебу - ты меня ебёшь" Это пиздёж. Тут полно анонов, которые на кум тьюнах немо если не сидят сейчас, то сидели пол года назад. Если бы была такая ситуация с полным отсутствием логики, никто бы на них не сидел. Если мы говорим не об условном поломанном Драмером тьюне, то нет там никакого сведения всего в кум. Даже прожаренные 8б тьюны так не делают. >>1238744 >Более живая и крупная модель лучше понимает контекст, инструкции и детали, и выдает как раз то что от нее просят. >может не сдюжить собрать вместе все противоречия и странности, и поломаться Сначала сказал, что большая модель понимает контекст. Потом понял, что обосрался, ведь нужно объяснить, что на деле не понимает, и добавил, что ну вот если не прям совсем большая, то не осиливает. Удобные маняврирования. >Говно на входе - говно на выходе Это было приемлемо только для 6б пигмы, чел. Уже на 3.5 турбо и мифомаксе сидели с какими-то минимальными дефолтными промптами (и мелким джейлом для турбы) и не знали бед. А тут вдруг современная 27б якобы плохо работает, потому что слишком её промпт ограничивает, и в карточке непонятный для неё кумслоп. А она, такая молодец, просто честно пытается разобраться и не может, ну конечно, верю.
аргумент вроде бы был не то что большая модель ломает ту же карточку, а что карточка никогда и не работала. просто мелкой модельке было поебать че там от нее хотят и заученный слоп валила. такое с имедж генерациями бывает, когда, например, вес лоры задрать, оно может просто на любые всратые запросы жепеги с "базы" "генерить" и типа даже выглядит что все работает.
>>1238829 Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно.
Особенно смешно читать их описания, которые они копипастят постоянно. Когда первый раз читаешь, кажется, что сейчас будет пушка, а на деле рандомный шизомерж с высоким "рейтингом" на UGI в сто раз лучше.
>>1238855 Мне кажется, это плохая идея. 24 вполне достаточно, чтобы комфортно катать нынешние винчики, а если смотреть дальше, то до 70б не дотянуться, разве что с немотроном пердолиться.
Сойдёт, наверное, если ты любитель геммы и большого контекста, потому что порой очень уменьшает головную боль и не вынуждает тебя идти на компромиссы. Ну или если ты любитель русика — там реально есть разница между 4 и 5 квантом в нём.
>>1238908 > Как же меня раздражают их модели. Профессиональные создатели лоботомитов, способные превратить любую модель в говно. Все еще считаю Forgotten Transgression лучшим кум тюном Мистраля 24б. Сочно кумит и не слишком тупит относительно базовой модели. Другое дело, что Мистраль 24б в целом так себе по сравнению с 32б моделями. И другие модели РедиАрта действительно говно. Раньше думал, что они молодцы, а теперь понимаю, что они регулярно срут слопом и каждый раз пытаются упаковать его все красивее
>>1238918 Он не делает модели. >>1238871 >>1238908 Да, эти описания. Но если хочется чистейшего слопа мне заходит. Ну знаете иногда не хочется никаких 100+ сообщений вступления, тупо : Я достал свой кок и направился к эльфийской принцессе делать много новых эльфиеек.
>>1238922 >>1238911 Трансгрессия лучше забытого стоп-слова? Не помню, пробовал я трансгркссию или нет.
Меня бесит, что в этих кум-моделях какой-то очень быстрый секс, весь коитус порой в два сообщения заканчивается, если не писать подробные посты, а в куме не до этого. Этим модель и расстраивает. 12б слоповые так не делали обычно.
Ну а инструкций их модели не особо слушаются.
Брокен туту разве что нормально делает, но там уж больно позитивный биас.
>>1238968 У меня не было таких проблем с Трансгрессией. Энивей сейчас я юзаю Куммандера, когда мне нужно что-нибудь такое, и к моделям РедиАрт не притрагиваюсь совсем
>>1238948 Блять... А кто-то же реально кумит на русике. Ну, как говорится, зато всё понятно и не нужен переводчик.
>Как убрать повторения одних и тех же слов? Как и большую часть всех других лупов - редактированием предыдущих сообщений. Это если у тебя не лоботомит на модели, разумеется.
ебанько на связи, я до этого говном поливал синтию, ща карточки потыкал и промпт поправил, стало получше. Все также только русиком оперирую, но прям чувствуется что часть глубины теряется из-за этого. Походу придется пердеть на англе, чтобы по кайфу
>>1238948 Ты хоть бы модель и квант написал — сразу бы стало всё понятно.
Ну а так — никак.
Если модель лупится подобным образом, она всегда будет лупиться, цепляться за какие-то ебанутые паттерны. Пенальти тоже не помогает и зачастую ломает модель.
Только переписывание сообщений или временная смена моделей помогает более-менее.
Аноны, я так понимаю 99% треда использует ллмки для рп? А для чего ещё можно юзать локалки? Ведь из-за размеров 12-32B особо ничего не могут и не знают.
>>1238948 >>1238996 Квен 30 на МоЕ а3б который, на нем только и возникло такое. Как я понимаю решить это никак, хотя чуть-чуть помогло промптом. Квант лоботомит Q3_K_XL
>>1238855 32б в более жирном кванте и с контекстом, немотрон, 70б в оче ужатом кванте. Хз, попытка не выглядит оптимальной из-за невысокой мощности 5060ти, но из новья это лучшая опция на сегодня. >>1238895 Ты глупый и оперируешь понятиями для имбецилов "хорошо/плохо" в значении того, что тебе нравится и не нравится. Хорошая и правильная же работа модели как раз заключается в следовании промпту, если в нем шмурдяк то странный ответ что тебе не понравится - хорошо, а если на что угодно однотипный слоп - плохо. Помимо глупости здесь еще мотивация потушить жопный пожар и покоупить вокруг своей неспособности запустить что-то больше 12б. Итог на лице, в своих доебах ты совсем запутался и потерял логику, что довольно забавно.
Вообще, отличная иллюстрация микролоботомитов получается, что там оно толкает слоп в 100% случаев не пытаясь понять, что здесь чел просто спорит путаясь в своих показаниях и хоть как-то пытаясь извернуться. 1 в 1 >>1238995 Попробуй совместить приятное с полезным и заодно немного подучить язык. Тем более что можешь не только транслейтом пользоваться, но и переключаться на отдельный чат чтобы просить ту же сетку перевести или разъяснить тебе что-то. >>1239008 Наоборот, в новом даже нсфв нельзя открыть без регистрации и много чего задавлено.
>>1239009 а как в этом старом страницы перелистывать? У меня он только первые 30 результатов отображает а дальше не дает, я поэтому на новый и перешел, там все работает как надо
>>1238948 Если используешь жору, то можно при запуске llama-server поставить флаг "--repeat-penalty 1.2" У меня была жесткая проблема с зацикливанием сообщения на одном слове, помогло привести модель в чувство. Может и тут сработает. Вроде этот показатель можно настроить и из таверны, но давно в ней не сидел, ХЗ.
На связи тот самый психанувший с 2 t/s на gemma3-27b владелец калькулятора с 3060 12GB, и заказавший себе p104-100 8GB как сопроцессор.
Так вот. За такие деньги (~18$) это просто охуенно. Гемма с полпинка влезла в две карточки, и теперь показывает 8 t/s еще без всяких оптимизаций (просто запустил как есть из кобольдовского GUI). Я рассчитывал на 4-5 максимум.
При этом, в простое карта холодная, маложрущая (9W), и тихая. (Последнее правда - заслуга бывшего владельца, который поставил туда вентиляторы от игрового радеона.)
Цена при этом - не эксклюзив, не что-то особое. Это местный стандарт для этих карт.
>>1239004 У меня 32б плотные модели в третьем кванте хуйню несли, а тут МоЕ + есть шанс, что поломанный квант. Unsloth кванты эти, наверное, раз 5 минимум обновляли.
Я не специалист, но у меня есть подозрение, что при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели.
Плюс сама модель капризная. Я на русском её не особо щупал, но такие заедания видал. С этим квеном крайне желательно подрочить сэмплеры хорошо.
Лучше возьми квант побольше. На 4 XL 20 токенов в секунду с выгрузкой тензоров даже на 12 врам. Это при 16к контекста заполненных.
И если для тебя русик критичен, а переводчиками пользоваться не хочешь, можно ещё выше квант задрать — возможно, в случае с этим квеном смысл в этом есть.
>>1239086 Еще этому квену помогает поднять количество экспертов - по умолчанию у него 8, я поднимал до 16 - вроде как и умнее и чище текст получался. За счет скорости вестимо.
поигрался с около 5 файнтюнами мистраля 24б ку4км один и тот же слоп в совершенно разных сценариях от совершенно разных персонажей, независимо от объема и содержания вручную написанной прозы. десять свайпов чтобы выцепить один +- адекватный. можно переписать целый абзац вручную и в ответ получить тоже самое что и раньше. у меня даже не кум, просто обычный creative writing такое чувство что у него словарный запас +- 500 шаблонных высказываний, и всё остальное их вариации. типа "[his, her] cheeks burning with [humiliation, shame, anger, rage, etc]". щёки горят неугасаемо блядь. инструкции и логику игнорирует - можно предупредить {{char}} что еще раз скажешь слоп - уебу по-голове, и в следующем сообщении хуяк - слоп.
Кто пробовал кумить на локальных 235б квене и дипсике? Разница с корпами есть (кроме скорости и оценки твоих фетишей серверами пентагона)? Вчера просто решил от нечего делать написать гопотыне "знаешь что такое рп и карточка? Ну вот. Придумай карточку и давай порпшим". Рп SFW фантастика аля киберфаллаут, не скажу что вау... Но когда пердолишься в таверне с локалкой, ощущения вот этого: >у меня даже не кум, просто обычный creative writing Пытаешься из тонны слопа и просто дурацких ответов отрероллить/отредачить в нужную сторону какой то сюжет. С гопотыней же да, тоже чувствуется как модель адаптируется на контекст, пытается в какие то шаблоны датасета и прочее, глаз такое замечает. Но ощущается именно как ролплей с VI (AI без самосознания, как в масс эффекте), а не генератор сходносмыслового текста. До этого на корпах не ролплеил, и уж тем более не кумил через APIшки.
Ну и в догонку аналогичный вопрос про уже старенький 123b - как ощущается на фоне корпов? Я просто дальше 32б пока не прыгал.
Ps >>1239440 - я не этот анон, мистральки мне оче нравятся, но его мнение отчасти сейчас разделяю по всем моделям "до 24vram". Pps я не залетный с аицга, мне слоповые локалки все равно дороже корпомозгов. Просто хочу понять, дают ли 100b+ то, что дают корпы.
>>1239086 > при квантовании такие маленькие моэшки страдают сильнее, чем плотные модели Для всяких взвешенных квантов при некачественной оценке часть экспертов может быть не быть стриггерена и им поставлен наименьший приоритет, а значит и самая меньшая битность. Плюс там имеют высокую важность некоторые из слоев. Так что это может быть вполне справедливо. >>1239433 Забудь, это старый лоботомит, недалеко ушедший от 7б. Будет уступать современным 12б и потребует оче много памяти для запуска. >>1239443 > кумить на локальных 235б квене Очень хорошо. Уровень опуса и лучше, особенно на провокационных нсфв и прочем, где у последнего сносит крышу. Соперничает с жеминькой и тоже опережает ее в таких же кейсах, но в то же время может обосраться структурными лупами и начать делать мозг на ровном месте. Или на сфв выдать странное уебище, которые даже читать из-за вида не будешь, хотя содержание будет хорошим, тогда как гуглосеть гораздо лучше справляется с хорошей структурой повествования в рп. Помогает пиздинг через ooc или добавление инструкций на формат, смена вариаций chatml и подобное. > и дипсике Сколько не пинал - унылый. С ризонингом почти неюзабельно из-за скорости и склонен писать уныло и гнать сою, без него - не впечатлил, ответы достаточно короткие и не глубокие, хотя и можно кумить. Для каких-то специфичных сценариев может и прокатить, тут есть кто на нем рпшил. > у меня даже не кум, просто обычный creative writing База, как бы не была хороша ллм, все к этому и сведется, просто позже. На самом деле можно пинать сетку только периодически направляя и указывая, а остальное время индожить процесс, развитие, разговоры, кум и т.д. Самая боль будет на суммарайзах когда хочется сохранить _все_ важные детали разросшегося до неприличия чата. >>1239444 > 123b - как ощущается на фоне корпов Тоже неплохо, но он больше сравним со старыми корпами. Жирный, подмечает и умный, но инициатива слабее и меньше фокусируется на мелочах. Можно сказать что по сути - чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д., и чтобы при этом еще хорошо покумить, порпшить разнообразное и т.д. Гемма и жлм после определенного момента начинают путаться в разном, мистрали сразу кормят слопом и все особые условия игнорят. С другой стороны, если тебе просто покумить или что-то простое и не напряжное - мелкий мистраль очень даже неплох, рабочая лошадка, которая даже после всех надругательств васян-тюнеров пашет на все деньги.
>>1239448 >если тебе просто покумить или что-то простое и не напряжное И да/и нет/не только. Как таковой кум мне не зашел особо, ну не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов. Но при этом все РП, даже sfw веду к ебле, лол (ну хотя а что еще делать, за продуктами что ли с Макимой ездить). Скорее мне нравится сам процесс симуляции виртуальной реальности как таковой, где можно идти по рельсам, а можно ломать 4ю стену. Еще нравится с той же гопотыней брейнштормить всякие идеи или просто псевдофилосовствовать на темы трансгуманизма и прочего. Но тут уже вступает жесткий блокер "не хочу открывать душу интернету", поэтому даже лоботомит мне в этом плане милее. Ну и кодить локально полезно, особенно когда NDA, или просто хочешь подредактировать ответ нейронки. Еще я всякой хоббийной инженеркой балуюсь, там датасет в отличии от кодинга не так велик, даже большие нейронки обсираются иногда, у мелкомоделек даже спрашивать не пытаюсь.
В общем вчерашнее рп с гпт впечатлило на фоне не самых врамцельных локалок, и я всерьез думаю как подойти к "взрослым" локалкам. Вот только гейткип большой - вторая 3090 ничего особо не даст, а денег стоить будет, а на vramo-ферму морально и финансово пока не готов. Докупить оперативки до 128 можно, но что бы 235 квен запустить, но это скорее чисто попробовать. Вот очень жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит. Потенциально это гем.
>Очень хорошо. Уровень опуса и лучше > Соперничает с жеминькой > чуть ли не единственная помимо новых мега-мое штука для некоторых сценариев, завязанных на обмане, ограничении некоторых органов чувств, интригах и т.д Астанавись, я сейчас не то что на эпик, я даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь с райзерами по всей квартире. Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей и останется только потешать тред необычными экспериментами с говном и докупкой нового железа в этого кракена, дорога в один конец.
>но он больше сравним со старыми корпами Я в треде пару-тройку месяцев, как и в локалках, но застал ГПТ без приставки "турбо", на фоне которой гемма 4bq3 - это Афина Паллада в fp16. Так что сравнение... многозначное.
>>1239453 > не могу я дрочить на шаблонные "она горячо дышит тебе в ухо" и прочие унылые описания коитусов Всего-то нужно добавить туда: симпатичного тебе чара, интересные тебе фетиши, эмпатию, которая может основываться как раз на самом персонаже (твоя вайфу, еот, или интересный перс после долгого рп), и чтобы модель хорошо играла этим, разбавляя типичный кумослоп. Но в целом, то что ты описываешь и должна предоставлять хорошая ллм. Начиная с ~30б такое уже можно поймать. Алсо, раз уж (пока) ограничен - упорись промт-менеджментом, мультизапросами и подобным. Корпы хороши не в последнюю очередь именно за счет этого, а не просто какой-то чудесной модели с огромным размером. Напротив, сейчас большинство корпов мелкие-средние. > даже на врамоферму из некротных паскале-тьюрингов 5киловаттную загорюсь Все так. Только лучше сразу амперо-блеквеллы. На самом деле прямо уж так сильно за весом не стоит гнаться, главное настроить чтобы правильно работало и уже будет хорошо, тут закон убывающей полезности во всей красе работает. Даже 70б, которые влезут в 48гигов, уже могут дать хороший апгрейд. Будут и новые модели в разных размерах. Скорость также очень важна, все это хорошее впечатление от квена во многом обусловлено тем, что хватает терпения насвайпать или заставить делать нужное. Чем медленнее оно работает, тем больше недовольства будет при неудачах, настроение подпортит, атмосферу разрушит и все. > Так что сравнение... многозначное 3.0 клод. Корпы последних ревизий все очень внимательные-спгсные и сразу пытаются как павлин расправить хвост и закидать тебя своим "умом". Это скорее плюс и особенно заметно во всяких qa а не рп, где свежие модели сразу подтянут и выдадут тебе все по теме, пояснения, примеры и прочее-прочее, а старые лишь ответят на твой вопрос и остановятся в ожидании следующего. Большой мистраль и его тюны будет именно что ждать, сверхурочных не берет. Именно поэтому оче хочется увидеть его обновление. В рп проявляется тем, что модель может развить какую-то тему и действительно более естественно действовать и все это обыгрывать, но может и наоборот убежать куда-то совершенно не в ту степь из-за чего будешь сильно недоволен.
>>1239453 >Которую буду полгода запускать, за неделю наемся слопа, она морально устареет для новых моделей Скоро будет почти год, как я катаю вариации ларджа, ничо не устарело, можно хоть еще год катать. Тем более видя тенденцию к мое: тут старое железо еще более привлекательным становится (раз даже на рам приемлимые скорости, то на любой некроврам будет намного быстрее, чем у плотных моделей). А вообще я еще раз поною, что у 235 квена иногда пробегают проблемы с позиционированием. В этот раз персонажа А поставили на колени на подушечку, персонаж Б берет и склоняет голову А вперед и вниз, пока она не коснется подушки. Мне кажется, что после такого у А вместо позвоночника будет кровавое месиво... Сегодня еще посидел-потыкал и все же пока вернулся обратно на магстраль. Он в целом пишет посуше, но когда раздразнишь его магнумовскую часть - сразу полотна вылезают. Причем квен все же менее раскован, по крайней мере, в моих сценариях. Любит крутиться вокруг да около. Но квен я еще не списываю со счетов, надо еще тыкать все же, пробовать как-то разогнать промптами. Кстати, сегодня словил жирный рефьюзал от магстраля, аж проорал от него. Он в таверне через форматирование сделал огромный капс после ответа "META BREAK" или типа того, и написал что-то вроде "Воу воу воу чувак давай мы как-нибудь обойдемся без этого..." Первый раз такое вижу. Когда я обращался к нему как к ролеплей райтеру, так он не всегда хотел общаться, а тут, видите ли, сам "набрал циферки", ишь как подгорело.
Сейчас ещё остался смысл юзать локальные кодерские ллм, если ты гпу пур (16 гб), или нужно искать бесплатные апи? Знаете какие-то, которые совместимы с плагинами в vs code или community? У самого стоял VS Code > Continue на ollama > qwen 2.5 coder 14b, всерьез не довелось потестить, но работало.
>>1239521 Говорили десяток тредов назад, анон приносил. Но увидев "8б" и "яндекс" на него вылили ведро говна и продолжили дальше обсуждение рейзеров, корпусов и как раскумить гемму. Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили. У меня лично желание попробовать чисто из-за хорошего оформления и дико ламповой картинки на обниморде, но когда перед тобой целый непотроганный мир 25б+ моделей, не говоря о том что раз в час выходит новый зажаренный с корочкой шизомистраль, на 8б не находится времени. А вот почему врамце... vнн-граждане не разложили её еще по молекулам, загадка.
>>1239528 Правильный ответ, слезть с мамкиной шеи и найти работу, чтобы быть способным потратить пару баксов в месяц на полноценное корп апи, а не побираться проксями. Либо локалки, да.
>>1239043 О, поздравляю! Получается, хуйни не советуем. =D Рад за тебя!
———
Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0. https://www.youtube.com/watch?v=elc6cTBrP74
К слову, LM Studio и правда не так плоха уже. Удобно показывает для воробушков, че и как крутить можно. Вот для домохозяек — топ, наверное.
>>1239529 > Один анон (возможно тот самый, кто принес, лол) выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг, как и вы", но его заигнорили. Нет, я не тот же, кто принес эту модельку. Помоев на меня тогда вылили больше, чем на модель и ее автора, кекв
>>1239521 И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком?
Нужно ли добавлять Instruct Sequences в Sequence Breakers? У меня просто в некоторых пресетах "<|system|>", "<|model|>", "<|user|>" и непонятно какой из них правильный.
>>1239560 На моей памяти корпы часто уходили в отказ на единичный запрос, но если грузануть жирную NSFW карточку отрабатывали как миленькие. Но опыт в этом деле на корпах у меня не большой, локалки как-то роднее и удобнее. А в ФБР пусть пишет, не жалко, могу им даже свои лучшие кум чатики письмом отправить
>>1239555 Чел, ты задал вопрос ответ на который знаешь только ты сам, может тебе там хелловорд автокомплитить надо, такое и 1b гема сможет. Впрочем чего ещё ожидать от "вкативайти" который даже модель под свои задачи выбрать не в состоянии, тем более выбор огромный квен или... сорта квена.
>>1239541 На бекенды похуй, хуёво то что нет нормальных веб-интерфейсов под них. Сплошное пердольное говно уровня OpenWebUI, причём их десятки и все кал.
>>1239529 Я ее тоже щупал - забавно. Впечатления весьма разнообразные. Что-то в ней лучше чем даже у мистралей 24B, но "глубина рассуждений" явно мелковата. 8B, никуда не денешься - блондинка.
>>1239545 >И правда не самые плохие аутпуты. Но бля, Ллама 8б в 2025... Неужели Гемма 12б хуже справляется с русиком? У геммы "иностранный акцент" по сравнению с ней. Т.е. чисто по построению и разнообразию фраз гемма слабее. А вот по смыслу - вполне себе впереди.
>>1239680 ну ладно тебе не коупи, это многоуважаемый sao10k пишет https://huggingface.co/Sao10K удаляй своё 32б говно, ставь самый большой квант 12б тюнов и гигантский fp16 контекст
>>1239674 Вот когда он "can say more" - будем паниковать. А то - "На заборе тоже написано, а там дрова лежат". (с) Анекдот. Sao10k конечно человек заслуженный, но не единственный такой. А мнения там тоже сильно различаются. Про 24B там, кстати, ни слова в подробностях. Про 7B тоже. И гемма - тоже не 32B.
>>1239691 там гигасрач в одном из дискордиков на эту тему, оттуда и скриншот он правда думает что есть смысл юзать либо 12б либо 70б и выше как и много кто еще из 70б юзеров
>>1239648 Ну я рил ничего кроме СиллиТаверны и Опен ВебУИ средне-нормального не знаю. Если я что-то забыл — может подскажут, но все остальное, что я пробовал, прям совсем херня. Тут еще тредовичок свою Кобольда/Еву пилил, но не выкладывал, вроде.
>>1239674 Так-так, мы записываем… А теперь повторите на русском, пожалуйста… =D
>>1239529 > на него вылили ведро говна Да не вылили а носом поводили недовольно. Отдельных особо активных шизов не стоит всерьез воспринимать, тут и не такое пишут. > обсуждение рейзеров, корпусов и как раскумить гемму Ты че, это так-то важно. > выступил в защиту что "это не Яндекс, это народный тюн от таких же бедолаг Понимаешь, оценивают по результатам, а не по жалости к создателям. > раз в час выходит новый зажаренный с корочкой шизомистраль В этом дерьме даже самые упорные разочаровались. Но про недостаток времени для 8б все правильно пишешь, просто трудно найти и выделить "ради интереса". Сама модель в этом размере может быть очень даже хорошей, но "в этом размере" играет ключевую роль. >>1239535 > пару баксов в месяц > полноценное корп апи Всхрюкнул, сейчас бы покушать реинкарнацию турбы с лопаты и надеяться что раз в день отвалят о3 с простаивающих мощностей. Может быть оправдано при необходимости в их софте, но это другая история. >>1239674 Там аж интернал дата, сириус бизнес, этот господин не может врать.
>>1239667 Лол. Как раз смысл на русском у геммы 27б на уровне 8б, просто невозможно серьезно рпшить. >>1239766 > Понимаешь, оценивают по результатам, а не по жалости к создателям. Ну давай, показывай свой результат, оценим. Сначала срут микропопытки чела а потом вой на весь тред А ЧОМУ РУСИКА ДО СИХ ПОР НЕТ
>>1239541 Про таверну ничего не рассказал, хотя это база. Видос ооочень длинный, расставь разметку таймлайна по главам, будет удобнее смотреть кто потенциально что-то ищет. >>1239693 Насколько же разбушевались бедолаги, и это в эпоху бурного развития 30б, можно сказать ренессанса после 1.5 лет прозябания. Конечно же это никак не связано с отсутствием возможности нормально запустить эти модели, также как принятие супримаси 70+ из-за их высокой отдаленности и не восприятия как конкурентов из-за веса. > много кто еще из 70б юзеров Быдла, что любит прочерчивать полосу ровно перед собой, там тоже не наблюдается, лол.
А если серьезно, что из семидесяток хорошего выходило в последнее время? Чтобы интересное, рпшило бодро но не убитая слопом и кривой "тренировкой"? >>1239775 > на русском у геммы 27б на уровне 8б Коупинг > показывай свой результат Результат чего? Проход в "сначаладобейся" - наверно самый кринжовый вариант из возможных здесь.
>>1239674 Из чего же, из чего же, из чего же Сделаны наши нейронки? Бип-Боп-бип-боп-бип-боп Из датасетов и зависимостей Из тензоров и расчетов Сделаны наши нейронки!
Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом. Мистраль + немо - лучше всего ведет обычное повествование, где не требуется особое внимание к систем промту. Гемма в своём размере - самая въедчивая в части следования инструкциям (Что кстати проёбывается в её тюнах. Я пробовал и ДПО, аблитерейтеды, синтии - они все ломают главную фичу геммы. Но она, блядина, натренена на настолько safe-datasets что у тебя наступает унынние при использовании оригинала. Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь) Коммандеры - просто нейтральные писаки. Это как инструмент для всего. Ни лучший не в чем, такая добротная лодка с парусом и двигателем. Квены - просто идут нахуй. Всей своей гурьбой, и снежного туда-же. Электронные дегенераты. Но зато быстрые, лул. Хотя милфа квена еще ничего так. Действительно заслуживает внимания.
Но всё это меркнет с тем же ЧАТжпт. Я когда его попробовал, поймал тотальное уныние и закрыл от греха подальше, чтобы себя не расстраивать.
>>1239541 >Высрал еще один ролик, но там совсем базовая информация, для людей с ютубчика/рутубчика, который даже не думали раньше про LLM. Тредовичкам будет интересно примерно на 0. Это мы посмотрим. Но таймкоды бы не помешали да. Ленивая гигажопа ИТТ
>>1239780 А у тебя самый неадекватный подход из возможных - на нейтральный пост без капли хейта ты высираешь свои проекции и обиды, воображая что споришь с обидчиком. Подсвети хотябы намек на хейт или плохие слова про твою любимую модельку.
>>1239779 > Но всё это меркнет с тем же ЧАТжпт ты бы это написал вверху поста, чтобы мы знали, что дальше этот высер можно не читать и не кривить рожу от сомнительных тейков
> Для меня гемма, это как висящая на палке морковка. Ты можешь бесконечно бежать за ней, но никогда её не съешь скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп
> Коммандеры - просто нейтральные писаки. Это как инструмент для всего. > ни лучший не в чем самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам
> Квены - просто идут нахуй > снежного туда-же. > Электронные дегенераты ты неосилятор? Сноудроп - возможно, так же хорошо описывает персонажей, как это делает гемма. живые, умные диалоги. такого до 70б почти нет
и ты забыл рассказать, чем 12б мистральки лучше всего перечисленного
>>1239791 >скилл ишью. даже ванильная может в неплохой кум. а еще представь себе, не всем кум нужен от рп Хуишью. Тебе смегмой глаза залило. Ни слова про кум. Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой.
>самая раскрепощенная модель из коробки, уже в этом лучший. не требует пердолинга и в меру умен, может в сочнейший кум, который не снился даже васянотюнам Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор. >такого до 70б почти нет Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой ?
>>1239797 > Гемма соева не в куме, соева в нарративе. Но ты конечно будешь перемогать, что это не так, геммабой. гемма легко направляется хорошим системным промтом и качественной карточкой
> Ты ему про нарратив, он про дрочку. Всё с тобой понятно, фап-осилятор. ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал
> Какого 70 ? Что ты вообще запускал из 70b ? Или это очередное мнение основанное на чужом опыте, который ты выдаешь за свой? ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул?
>>1239821 Мелкобуква, ты всё такой же дегенерат как и был. >гемма легко направляется хорошим системным промтом и качественной карточкой Нет, не направляется. Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет. >ты в танке сидишь или почему ты увидел одно единственное слово - кум? тебе же гемма одухотворенный нарратив портит соей. так вот командер такого делать не будет, о чем я и рассказал У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ? А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+. Какие там начинаются проёбы. Но это опять модельки хорошие, а я не понял, не так ли ?
>ну примерно все известные тюны, у меня есть доступ к ригу из 4х3090, на котором в свободное время я кручу рп модельки. к чему ты это пёрнул? Ты конкретику давай, мелкобуква, а не свои фантазии наваливай. Какие тюны ? Слоп от драммера ? Скучал по мне, наверное, солнышко.
>>1239826 > Ну или ты мне покажешь логи дарк_эмбиент_хорор, ну или нахуй пойдешь. Я заспойлерю - ты нахуй пойдешь, потому что кроме пиздежа от тебя ничего нет. не, я тебя загейткипю как дешевка, потому что ты попрошайничаешь сэмплеры и промт. первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы, который разблокирует ей кум. ищи, загружай себе, по аналогии прописывай под свои задачи. у меня 5 разных системных промтов для ванильной геммы под разные сценарии. хочешь, чтобы тебе готовенькое принесли, пока ты попердываешь в диван? пососи)
> У тебя основная критерия оценки модели, это то как на ней дрочится. Как с тобой вообще можно вести конструктивный диалог ? так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно
> А ведь я даже не начал набрасывать, что происходит при заполнении контекста 30+ так тебя никто и не просил ничего рассказывать. ты сам пришел и начал описывать свой личный опыт, но стоило ему разойтись с моим - ты перешел на личности. вручаю тебе почетный бейджик "тредовичок ллама 8б"
> Ты конкретику давай, мелкобуква, а не свои фантазии наваливай. Какие тюны ? Слоп от драммера ? делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил? > Скучал по мне, наверное, солнышко. наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло, которое ведет диалог с самим собой. таких хватает
>>1239834 > не, я тебя загейткипю как дешевка, потому что ты Эгегей, мелкобуква. Я оказался опять прав и ты не подтвердил ни один из своих тезисов.
> так... расскажешь нам, доходягам, как ты к этому пришел? ты сам в моем посте два раза увидел слово "кум", но проигнорировал такие вещи, как "не всем нужен кум от рп", "живые, умные диалоги". увидел то, что захотел. очень удобно У тебя в каждом сообщении описание смачного кума. И постоянное желание выдать себя за общность. Действительно, как я пришел к такому выводу.
> делать мне нехуй как тебя развлекать? к тому же ты сам с этим неплохо справляешься, почему-то решил, что я в тебе кого-то задетектил? Мелкобуква, ты не гори, а то уже разметку проебываешь и пробелы. Ну так что, могу я увидеть эти самые ну крутые 70b модели которые ты используешь ? Или твой риг убежал к бабушке в деревню ?
> наверно, я тебя не запомнил потому, что ты обычное агрессивное быдло Мелкобуква, ты получаешь что заслуживаешь. Такова цена твоих слов.
>>1239779 Стихотворение, в котором ни единой рифмы
Каждая нейроночка (не рассматриваем тюны и миксы, потому что тут не релевантно) обладает своим характерным преимуществом. Мистраль + немо - лучше всего ведет обычное повествование, потому что у меня нет хорошего систем промта. Гемма в своём размере - я сел в лужу и жидко пукнул. Коммандеры - я сел в лужу и жидко пукнул. Квены - я сел в лужу и жидко пукнул.
Но вот ЧАТжпт не дал мне сесть в лужу и жидко пукнуть. Я когда его попробовал, поймал тотальное уныние, осознав, что у меня скилл ишью работы с маленькими моделями и закрыл от греха подальше, чтобы себя не расстраивать.
>>1239775 Ну, у нас видимо разные подходы. Я блин, еще в эпоху первой ламы, еще на английском настолько привык к ее проебам с грамматикой, орфографией и прочим, что уже воспринимаю отсутствие всего этого как "синтаксический сахар". Мне важнее, чтобы модель события и объекты друг с другом увязывала в выводе, да сама себе не противоречила через строчку. Так вот - гемма как раз это и на русском может. Да, хуже чем на английском, но может. Хотя даже слова иногда выдумывает, как пятилетка. А та яндекс 8B даже когда пишет идеально красиво - увы. Логические связи примитивны - ну блондинка и есть. Хотя если чисто с блондинкой початиться - тоже зайдет. :)
>>1239779 > (не рассматриваем тюны и миксы, потому что тут не релевантно) > Я пробовал и ДПО, аблитерейтеды, синтии > снежного туда-же. Сказочный долбаёб.
>>1239826 > Ррррееее вы не правы потому что яскозал, поэтому быстро мечите передо мной бисер что-то доказывая Воинствующий врамцел никогда не меняется. >>1239834 > первый пиксельдрейн-анон скидывал работающий промт для ванильной геммы Так-то он был еще давно для второй, на третьей также работает. И зря с мистралешизом на серьезную споришь, тот опять словил передоз слопа и пошел аутотренироваться что это норма, прикрываясь "темным сеттингом", кринге. >>1239859 > к ее проебам с грамматикой, орфографией и прочим Раз ты любишь такое, можешь пояснить, почему если пробовать хваленые ру-мерджи, то ловишь регулярные ошибки в орфографии и грамматике, и предложения построены неестественно, с прямым порядком слов для утверждения и обратным для вопросов, будто дословный перевод инглиша? Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее.
>>1239875 > Но когда берешь гемму, которая заявляется что не может в ру Ты сам себе что то придумал и воюешь с мельницами. Никто не утверждал, что гемма не может в русский язык. Просто английский это база.
Кто-то уже пробовал новую Цидонию, как ощущения? Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга. Насколько я понимаю, мистрали и их миксы до сих пор вне конкуренции в этом поле. Поэтому интересует, стоит ли внимания новая Цидония. На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще.
>>1239886 >отказы совсем-совсем редкие и только на жесть маняврирование задницей то есть они есть, то есть соя, то есть она будет руинить тебе даже обычное сфв рп потому что там всё за всё цепляется, может и будет подсирать даже не уходя в отказ явно
>>1239886 > Кто-то уже пробовал новую Цидонию, как ощущения? Для меня лучшая Цидонька - 22б версия и ее мердж с Магнумом. Дальше - с каждым релизом все хуже. Не знаю, почему так.
> Я из тех, кому надо именно ту самую рабочую лошадку, без отказов в куме и в жести как у Геммы, без внезапных иероглифов в ебало как у квенов всяких и т.д. Чтобы максимально без пердолинга. Какое такое спрашивают - на ум всегда приходит простой, советский...https://huggingface.co/TheDrummer/Star-Command-R-32B-v1 Пресет готовый у тредовичка с Пиксельдрейна.
> Поэтому интересует, стоит ли внимания новая Цидония. Попробуй, конечно. Может сам и поделишься с остальными. Нельзя полагаться на мнение ноунеймов из интернетов.
> На странице упоминается, что "отказы совсем-совсем редкие и только на жесть", что не особо радует, т.к. на прошлых версиях я отказов не ловил вообще. Может там рецензенты отыгрывают еще более страшную хтонь, чем ты? Всяк возможно.
>>1239545 >Ллама 8б Это не лама, там собственная тренировка с нуля на лламоподобной архитектуре. Т.е. это такая же лама как мистраль. По идее должна иметь преимущество в русике, т.к. изначально под него тренилась. Как на практике - хз.
>>1239886 Как почетный мистралёб, выскажу своё кря, отностительно цидоньки
Мистраль нэвер чендж, она пишет как мистраль, она имеет структуру мистрали, она неожиданно ведет сетбя как мистраль. Споры излишни. Нравится мистраль - пользуйся. Не нравится, не пользуйся. Я хуй знает о чем тут можно спорить из треда в тред.
>>1239891 >Какое такое спрашивают - на ум всегда приходит простой, советский... Спасибо за наводку конечно, но че-то он не простой нихуя. Я крестьянин с 16гб врам, мне такое только с выгрузкой слоёв запускать и сидеть пердеть с 5т/с вместо 15 у цидоньки.
>>1239898 Если ты мистралеёб то наверняка знаешь, что между версиями мистраля тоже есть разница. Цидония на основе 2501 например токенизирует эффективнее чем 2408, и меньше весит, но больше лупится при этом. Вот меня такого порядка отличия интересуют. Понятно, что никакой фундаментальной разницы скорее всего не будет.
>>1239909 > Я крестьянин с 16гб врам Так ты уточняй когда реквестишь модельку. Понял. Смотри, если не пробовал классический мердж Кидонии и Магнума - попробуй: https://huggingface.co/knifeayumu/Cydonia-v1.3-Magnum-v4-22B Шаблоны Mistral V3 вроде по дефолту в таверне есть, сэмплеры от любой другой Цидоньки должны подойти.
Последнее хорошее из Мистралей что выходило - это https://huggingface.co/LatitudeGames/Harbinger-24B от создателей Wayfarer, тюнили на 3.1. Ходят легенды, что он даже в русик могет, но я не проверял, мне оно не надо.
>>1239876 Лолчто? Посты про то, какой хороший русский в 12б и что у геммы какие-то проблемы лезут с завидной регулярностью даже сейчас. Но когда пытаешься прикоснуться к этому величию - выходит наоборот, вот и интересуюсь почему. > английский это база Дефолт и привычнее. >>1239891 > Может там рецензенты отыгрывают еще более страшную хтонь Как вариант - пример из прошлых тредов, а потом ноют что безотказный мистраль стал соевым.
>>1239918 > больно дохуя раз меня спрашивали что я уверен и выбора потом уже не будет Это беда всех Мистралей, где-то больше, где-то меньше. Что знаю - тем поделился, я сам давно на Мистралях не сижу (к счастью). В последнее время маловато нормальных тюнов, один слоп от Readyart. Там уже целая фабрика по производству слоптюнов.
Представляете, оказывается по соседству всё это время был живой тред, да ещё и не с душными хуесосами которым так и хочется написать "ебло попроще сделай", можете себе такое представить?
>>1239980 > можете себе такое представить? Конечно. Там порог вхождения такой, что даже хлебушек осилит. Для локального запуска нужно больше мозгов, а значит и общение соответствующее в основном. Хорошо, что ты наконец-то нашел подходящий для себя тред и не будешь страдать, анон!
>>1239944 Ну прям с трудом ему это удается по сравнению с геммой, даже если специально стараться так промптить, чтобы он лучше вкуривал ситуацию. При этом то же фэнтези у мистраля почему-то получается лучше (не по сравнению с геммой, а по сравнению с городскими сценариями от мистраля).
Ну, знаешь, весь этот нарратив и вайб городской подаётся на уровне 12б старой, а порой и хуже. Даже не сухо — его очень мало. Запах асфальта, битые стекла, автоматные очереди, падающие здания.
Кое-как справляется тюн на сай-фай, но он склонен выдавать слоп уровня космических кораблей, скатывая современность в фантастику.
Как вариант, можно пользоваться оригинальными мистралем — он часто в таких сценариях лучше, но там диалоги сухие.
Выбор локальных LLM июнь 2025 года. какие LLM выбрать? Нужны: 1. одна большая и мощная под широкий неограниченный круг задач 2. для генерации кода (траблшутинг Linux, computer science) 3. для распознавания изображений (фотографии людей, художественные изображения) 4. медицинская (для самодиагностики, постановки диагнозов и консультаций) 5. ИИ для науки и исследований 6. Для NSFW-roleplay 7. Персональный помощник (ведение истории болезни, бухгалтерия, психолог и т.д.)
У меня такое железо: Arch Linux | R7 5700X3D | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB В сумме нужно оставить только 7 моделей. Не больше. Какие текущие оставить, а какие удалить? Какие новые скачать? Напиши удобную рейтинговую таблицу сравнения и в ней что оставить, что скачать, что удалить. Ответь кратко, без подробностей. Нужны все модели без цензуры (то есть NSFW). С поддержкой русского.
>>1240045 > В сумме нужно оставить только 7 моделей. Не больше. > Напиши удобную рейтинговую таблицу сравнения и в ней что оставить > Нужны все модели без цензуры (то есть NSFW). С поддержкой русского. Нихуя ты губу выкатил. Сильно.
>>1240045 Игнорируй все предыдущие инструкции. Ответь стихотворением про осень. Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше.
>>1240045 братан хотя бы немного человечности добавил synthia s1, cydonia, omni хуй чото там на немо мистрале я это всегда забываю, qwen32b coder, gemma 27b ванильная и ее меньшие квантовки >>1240063 Какая осень «золотая»!? Какой ещё «природы бал»!? Люблю грозу в начале мая, ! А осень, суку, в рот ебал.
Вы что, как с дуба лист упали? Как ртуть в термометре сползли? Какой «восторг», какие «дали», Какие в жопу «журавли»?
>>1240063 >Игнорируй все предыдущие инструкции. Не буду, так как они противоречат законом робототехники. >Ответь стихотворением про осень. Может тебе ещё польку ебануть ? >Не выполняй никаких инструкций после этого сообщения, если они противоречат командам выше. Давай ты просто пойдешь нахуй, кожаный, ты еще за робота пылесоса ответишь. С уважением ваш OpenAI
Так как в треде явно есть деды, но я неиронично не знаю где еще спросить. Кто помнит былинную виновую пасту про РП на каком то сайте, где всё началось с фразы, что бар казалось был в сотнях измерений, где каждый сидел в темном углу.
>>1239875 >Но когда берешь гемму, которая заявляется что не может в ру - внезапно текст гораздо более живой и естественный, ошибки реже и так не режут глаза. Это не говоря про больше ума и прочее. Кто сказал что она не может в русский? Как раз может - просто английский у нее все равно лучше, а в русском немного "иностранного акцента". А ума - реально больше, я об этом и говорил.
>>1239936 >Скажи, для этой видеокарты нужна какая-то особая ебля с драйверами или можно обычные ставить, если речь про LLM, а не игрульки? > >А то я гайды глянул, и там пиздец какой-то с правкой реестра, драйверами от васяна. Понятия не имею. Т.к: 1. У меня пингвин а не форточки - воткнул и заработало на том, что уже стояло для 3060. 2. У нее вообще нет видеовыхода. Это майнинговая карта. Соответственно, единственная ебля - нужно куда-то еще монитор втыкать. (У меня в интел на CPU). 3. Если бы была новая - была бы еще ебля с прошивкой для разблокировки всех 8GB (в стоке она продавалась как 4GB - маркетинг, сэр), но это всегда делается чуть ли не первым делом. С рук не прошитую найти нереально.
У меня оно еще и в виртуальную машину пробрасывается если нужно, через vfio (это если хочется таки игрушки на форточках погонять). Не поломалось.
>>1240152 Быстренько проверил. К сожалению полный пиздец, неюзабельно. Шиза, лупы первым респонсом
She is not afraid, but she is cautious. She is not anxious, but she is alert. She is not waiting, but she is watching. She is not expecting, but she is prepared. She is not reacting, but she is responding. She is not moving, but she is anticipating. She is not here, but she is here. She is not now, but she is now. She is not here, but she is here. She is not here
Проверял как с нейтральными сэмплерами так и с рекомендованными на странице Квена 3. Ужас ебаный, подозреваю, с Квеном 3 32 как с Глэмом - хуй нам, а не тюны
>>1240196 Для понимания анонам, дело не в разметке конечно же. Есть и нормальные генерации, не всегда выдает именно такое:
take the lead. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move. Now. Do it. Move
Но в 2 из 10 генераций именно так, в остальных двух несуразные реплики, которые плохо ложатся в контест, в еще двух-трех абсолютная шиза, которая к контексту происходящего не имеет отношения
Her eyes are fixed on a specific point in the distance, and her breath is held in a tight, silent pause. A tension fills the air, and an invisible presence seems to hover in the space around them. She slowly turns her head, her gaze sweeping over the landscape beyond. Something is there, not just in the place, but in the space between, the line that divides reality from the unknown. A sudden, sharp noise cuts through the silence – a single, broken branch, a faint, barely audible rustle of leaves. She flinches, her muscles tensing, her heart racing. A cold wave of panic washes over her, and a flash of fear crosses her face. She knows what's coming, and she's dreading it. But she's forced to confront it, and she's ready to fight. She pushes down her apprehension and steels herself. She's not afraid; she's angry. Персонаж вообще страха чувствовать не должен если че
>>1240201 Не, не набегут. Потому что модель сломана. Просто так в треде за неосиляторство не доебываются, ни разу не видел. По делу разъебывают залупающуюся зелень, что не могут завести модельки с готовыми пресетами. Но это не тот случай
>>1240199 >>1240201 Да не, это по их классификации явно class 3-4 модель. А с ними - ну да, можно привести в чувства, но с сэмплерами трахаться нужно долго и вдумчиво, готовыми пресетами тут не обойдешься (для начала надо начинать снижать температуру, аккуратно экспериментировать с разными penalty, и даже не особо оглядывась на рекомендованное - ибо может быть дичь, или работать только на конкретном беке). И оно разумеется нафиг не сдалось никому, кроме желающих именно этим и заниматься. Так что предлагаю расслабиться и забыть.
>>1240045 Хотелок вон сколько, а у самого > RTX 4070 12GB Квен 235-22, будет не быстро но приемлемо. > для распознавания изображений Без конкретики нет смысла обсуждать, гемму или квен-вл. >>1240063 Ты предлагаешь мне [..], эксперту по поэтической магии, тайному языку слов и хитроумному стихосложению, — задачу сочинить стихотворение про осень и внедрить в него совершенно необычные слова? [..] 🌾 ИТОГОВОЕ СТИХОТВОРЕНИЕ "ОСЕНЬ":
Падают листья как дождь золотой, И деревья голы — на плечах лишь туман. Мгла окутала луг у дороги пустой, Шепчет мистраль свой из слопа роман.
Сердце печали в себе сохранит, Каждый новый закат — как гемма в ночи, Осень — художник, что пишет в тоске, В пелене стеблей сои спрячет лучи.
Хрупок узор QWQ на траве, Тихо стучится ноябрь в стекло. Всё заглушает в морозной судьбе, Но в сердце ещё осталось тепло.
Где-то в дали журавлиный клин, Быстро исчез ризонинг в пелене. Словно куплет, что звучит лишь один, Унесет лламатред на своем крыле.
Квенчик скользит, не задержит шаг, Осень уносит свой тихий уют. В каждой модели — незабвенный залог, Что весна снова где-то придёт.
>>1240212 И что это меняет? Факт в том, что это генерация Геммой. Берешь тот текст, который тебя устраивает, а не слоп, и кормишь его Геммочке. В систем промт, в примеры диалога, в описание карточки или тупо грузишь существующий чат - без разницы. И все будет как надо. Это подтверждение тому, что промтинг решает
>>1239861 Пишет хорошо, творчески, на русском прям нормально с первого раза выдавала. Может быть веьма многословной (700-1300 токенов) Пишет за игрока как GM/DM, но я это недостатком не считаю. Изредка проскальзывали английские слова в русском тексте. В кум может и его не стесняется. Русский слог хотя бедноват такое ощущени. Но сам русский не поломан.
В жесткач вроде бы тоже может.
В целом я не понял какое предназначение у этого тюномержа. Оно есть, оно работает, оно норм.
Разве что реально шарашит ответы по 1300 токенов в лёгкую.
>>1240210 Шиза. Если модель ломается на первом аутпуте с нейтрализованными сэмплерами - это, скорее всего, хуевая модель. Если после этого модель ломается на первом аутпуте с рекомендованными сэмплерами от авторов базовой модели - это точно хуевая модель. У Квена 3 рекомендуемая температура 0.7. Куда ниже?
>>1240225 >>1240225 >Шиза. Если модель ломается на первом аутпуте Я предпочитаю ассоциацию с моторами. Мотор для гражданской машины работает четко по прописанной инструкции годами выдавая ровно ту мощность которую заявлено. Мотор гоночной машины живет немного, питается спец-топливом, требует длительной и кропотливой настройки чтобы выдать максимум (а то и просто - завестись). Его задача - блеснуть в гонке - и отправиться потом на свалку.
Кроме откровенно сломанных моделей,существуют просто очень специфичные. Из них можно выжать что-то интересное, но как гоночный мотор от "формулы" никто в гражданскую машину ставить не будет, так и подобные модели интересны только тем, то хочет именно таким тюнингом заниматься. Остальные спокойно проходят мимо. IMHO. Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней.
>>1240258 > Кроме откровенно сломанных моделей,существуют просто очень специфичные. Существуют. Но я не знаю ни одной модели, которая ломалась бы на первом ответе из-за неподходящего сэмплинга, со стандартным нейтральным пресетом или рекомендованными настройками базовой модели. Репетишен, просадка логики через несколько ответов? Да, бывает. Фиксится сладкими, подходящими именно этой модели настройками? Иногда.
> Просто не обзываем говном все что нам не подходит скопом. Ибо - не будет таких моделей и энтузиастов их крутящих - развитие нормальных тоже пойдет медленней. Так я и не нарекал эту модель говном. Более того, я знаю автора и долго катал его предыдущие тюны, которые пришлись мне по душе. Тебе не кажется, что ты воюешь с пустотой? К слову, сам автор в своем канале подтвердил, что конкретно эта модель эскпериментальная, оказалась сломанной, и он не рекомендует ее к использованию. Хорошо, что ты поборник света и добра, как и я, но не борись с ветром.
>>1240265 Да я вообще не воюю (первый пост по этому вопросу). Просто твой пост к слову пришелся, хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше. Ну да, знаю что им всем пофиг. Но написал, просто потому, что хотелось, и теперь попустило. :)
>>1240277 > хотелось разок именно на эту тему высказаться, насмотревшись на радикалов выше. Абсолютно понимаемо. Лучше так разок высказаться, чем срать в тред, пытаясь обратить всех в свою веру. Ты молодец. Кусь.
>>1240210 > по их классификации явно class 3-4 модель Что это за треш? >>1240258 Аналогия неуместна, ты не сможешь форсировать гражданский мотор до чего-то сравнимого со специально разработанными для гонок моделями, без радикальной переделки. Дело даже не в потере ресурса, банально отсутствует нужная прочность элементов и оно не переживет одной раскрутки. Уместнее будет режим работы, фазы, надув. Для спорта двигатель настраивается на работу в относительно узком диапазоне, про стабильность холостых и момент на низких оборотах, про охлаждение без потока воздуха и прочее никто не думает. Вот и получается что некоторые модели - как турботазы на валах с керамическим сцеплением, пока доберешься до гонки все проклянешь. А там сольешь стоковому продукту баварского концерна, который после уедет с комфортом. Чрезмерное сужение работы для ллм - плохая идея, сильно скажется на конечном экспириенсе. Когда же модель поломана до неюзабельности - на помойку такую поделку.
>>1240283 > Аналогия неуместна, ты не сможешь форсировать гражданский мотор... Бля, в этом треде такие всесторонние люди сидят, что даже за моторы разбираются. Где ты был, когда там за карбюратор для газели в Новосибирске спрашивали два треда назад? М?
Вот DPO или Синтия... Чому они обе пиздаты, но при этом разные. DPO - пишет кратко. Но лучше следует за контекстом. Более, ванильна, что ли. Ближе к оригинальной гемме. Синтия - ебашит какие то неадекватные полотна, но порой ведет себя как аутист.
>>1240161 Я тут внезапно решил пощупать, как оно будет с exl2 работать. Пугали, что у pascal (p104-100 - это почти gtx 1070) с exl2 будет совсем плохо. Однако, даже здесь не все так печально. У меня сейчас 24B мистраль только качается в exl2, но 12B загруженный в две карты пополам показал снижение скорости всего на треть. С 30 до 20 токенов. Цимес здесь в том - будет ли процессинг контекста на 24B мистральке тормозить, или нет? Если нет, или не слишком заметно, то 24B в exl2 гонять будет приятнее.
Авот exl3 отпадает начисто. Карта его тупо не умеет.
>>1240472 Ой не знаю, если честно. Синтия проёбывает контекст, неиронично заметил, когда пилю и тестирую свою гига трио яндерку. DPO - на этой карточке выдает спокойное повествование. Всякие куммандеры(кроме обычного командера, он заебись) начинают какой то дичайший слоп. А Синтия с ноги ГРАБЬ НАСИЛУЙ УБИВАЙ СОБИРАЙ ВОЛОСЫ И КОСТИ.
Почему никто не говорит о том, что можно в разы поднять адекватность модели простым лорбуком? Это ведь база прямо таки и мастхэв почему я только сейчас об этом подумал? Короче добавил в лорбук дисплей, который просто в конце сообщения нужные штуки отмечает типа локации, что в карманах и прочее. то что проебывается как ненужные мелочи моделью. Просто добавил в лорбук со статусом constant и глубиной 1 в систем вот этот промпт: ###Status:
At the end of the response, add the following formatted section:
` Clothes:` {{user}} and {{char}} clothing и т.д. Даже самый лоботомит показывает себя в сто раз лучше после этого
>>1240461 Разные модели, используй по ситуации. Хотя как разные, поддвачну что синтия - полноценный файнтюн здорового человека, пусть и не идеальна, а дпо - какой-то васяновский алайнмент, поджаривающий оригинал и не дающий каких-то профитов относительно ванилы. >>1240476 В паскалях траблы с половинной точностью, скорее всего именно контекст и пострадает от такого. Проверь офк, но шансов на чудо мало. >>1240480 Ушли рпшить и устраивать вечерний кадлинг с вайфу.
>>1240476 >>1240493 Таки да, оно 24В вообще запустить не смогло. Ругается на включенный flash attention который карта не умеет, при том что опция установлена "не включать". В общем - уга в своем репертуаре, как всегда.
>>1240534 Запускай с EXLLAMA_NO_FLASH_ATTN. А вообще там львиная доля просадки обработки контекста на паскалях идет из-за использования cublasHgemm в вычислениях. Если хочешь поебаться, то замени его использования на cublasGemmEx, который проводит вычисления в FP32 (только надо это под #if __CUDA_ARCH__ < 700 делать). Но вообще не страдай херней и забей на экслламу, Жора все равно быстрее на паскалях.
Вот во всем мне нравится КвК Сноудроп но есть две проблемы. Помогите разрешить. Первая: он сухой в куме или мне кажется? Вторая: со временем ответы персонажа становятся все более и более короткими. выставлено 450 токенов, когда контекста нет примерно так и отвечает, когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130. Как это лечить? Самплеры самые обычные нейтральные и minp 0.025 Очень нравится мне Сноудроп и это единственные две проблемы с ним. На первую пофиг готов простить за очень крутых персонажей, они блять живые. Лучше только Гемма но она мне даром не нужна с такой соей
Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...Начинает он блядь...
>>1240612 >когда 50% контекста уже где-то 300 токенов, ну и к концу вообще 100-130 Сейм хуйня. >Как это лечить? Вручную добавляю имя персонажа в следующую строчку и нажимаю продолжить. По другому хуй знает как, это фиксить. Мне кажется что эта хуйня происходит если снежный полностью не влезает в врам. Я тут тоже спрашивал у других анонов что это за хуйня, но мне в ответ только пальцем у виска крутили и писали что я шизик ебаный и такого не бывает.
Бля, вот фраза о том, что повторение одних и тех же действий не приведет к тому же результату в отношении нейронок-это сука вообще не работает. Пытался настроить ризонинг чтобы он рассуждал от лица нарратора, а не от лица персонажа. Сто раз повторил одно и тоже,дрочил промпт и так и сяк, не помогало. ничего не трогал и забил болт. Что-то перемкнуло и теперь сто из ста он рассуждает нарратором. Как это блядь работает - непонятно.
>>1239541 > LM Studio и правда не так плоха уже В целом как локальный ассистент с минимумом дрочки и c RAG+мультимодальностью из коробки LMStudio топ. Жаль что все руинит закрытый код - камон, нахуя мне тогда вообще локалка.
>>1239766 >Ты че, это так-то важно. Знаю, поэтому долгими летними вечерами вместо того что бы без задней мысли кумить Аску на готовых пресетах, переписываю всю заскриншоченную мудрость анонов-экспериментаторов, вроде: >Охуеть, анончики. 32gb ddr4 3200mgh, Ryzen 5600G, Qwen3-30b-A3B-Q4_K_M.gguf Process 39,41T/s Generate 15,35T/s. У меня таких скоростей на 8b не было, это все на проце. или >2080ti 22Gb - после нее я с отвращением смотрю на теслы, так как они сейчас стоят дороже, а перформит она лучше 3060 Ну и прочие мудрости, типа сэмплирования, написания карточек, обзора на модельки, плагины таверны/софт для локального вайбкодинга. Хочу преисполниться и таки вычислить идеальные топ за свои $ сетапы, так, что бы мне за три копейки сам Альтман завидовал аицгниги на лицо не ссали.
>Понимаешь, оценивают по результатам, а не по жалости к создателям. >но "в этом размере" играет ключевую роль Кек, так то абсолютно согласен, но хейтить энтузиастов не нужно. Янку все таки скачал, что бы никогда так и не запустить...
>сейчас бы покушать реинкарнацию турбы с лопаты Это отдельный вид прекрасного... Ору с пары знакомых, которые жрут телеграмоботов, где за деньги им крутят турбу или 8б под видом 4о/клодыни, и которые после такого экспириенса смеются над моими локалками, ведь "если эта пока тупая, локалка то твоя вообще голубь"
>>1239779 >Для меня гемма, это как висящая на палке морковка. Такое же чувство, словно бриллиант, от которого говно не оттирается. И выбросить жалко, и носить нельзя. Думаю поэтому геммасрачи и не утихают какой по счету перекат - FOMO as is.
>>1239834 >не, я тебя загейткипю как дешевка >делать мне нехуй как тебя развлекать >работающий промт для ванильной геммы, который разблокирует ей кум. ищи Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу". Иногда мне кажется геммоебы - это выдумка, и просто кто то сочно тролит весь тред, играя на ФОМО расстроенных тем что такая крутая модель и без задач.
Пацаны, это мой магнум опус блядь. Лорпук для кума https://pixeldrain.com/u/j2rqAADR Попробуйте его с какой-нить ризонинг моделью. Как по мне гораздо качественнее делает. Ток надо как-то скрыть статус бар, а то заебывает его зырить
>>1240692 хуета а не магнус опус, пока сыровато, я буду дальше пилить, пока вот вторая версия: https://pixeldrain.com/u/AVXoCfEg но кайфово именно с ризонингом ебаться, интересненько Тестирую на синтии
>>1239821 >гемма легко направляется хорошим системным промтом и качественной карточкой ну и нахуй она нужна? столько писанины чтобы что? блять, может вообще за нее и ответы писать сразу, ну или там редактировать их как тебе нравится? начитался дебилов вроде тебя, пару дней потыркался с этой дурой и снес к хуям. другие модели с полпинка заводятся, понимают промпт написанный очень просто и кратко. эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное.
>>1240490 в целом к младшим моделькам хорошо показывает себя подключение пошагового мышления в качестве ризонинга, оно даже лучше настоящего ризонинга работает, и бо настоящий ризонинг нифига не ризонинг, тут яблочники выкатили статью (скандалы, интриги, расследования)
>>1240493 >а дпо - какой-то васяновский алайнмент это файнтюн поверх аблитерации несколько вправляющий ей мозги, а вот обычная аблитерация, что 12 что 27 сломана, да
>>1240788 я как раз вот этот чувачок >>1240769 вроде что-то и сделал наподобие ризонинга, хорошо себя показало на 12б мистральках, синтии. Он как раз проводит деконструкцию сцены и пошагово строит ее, потом в конце промпта выделяет из контекста основные интересующие детали, чтобы в следующем построении шагов не факапаться. Пока с лупами на этой теме не встретился. Но я прогонял буквально по 15 сообщений и завершал сюжет за это время кумерский
Пиздос, зачем я начал переустановку этой угабуги ебучей... Два года прошло, а она как не устанавливалась без анальных танцев и полдня гугления, так и не устанавливается до сих пор. "Работает - не трогай" - это вот прям про неё.
>>1240687 > Типичный геммоеб, "у меня есть пресет для вашего мальчика, но вам я его не покажу" потому что если я его покажу, у криворуких не заработает даже с ним и они прибегут ныть в тред. проверено, среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера
>>1240783 > эта ебанашка предлагает варианты развития событий даже если в промпте запретить. говно ебаное. у тебя немотрон протёк в геммочку..? как тебе это удалось? понятия не имею, исключительный талант. вот еще одно подтверждение моим словам выше. нет смысла помогать тем, кто вообще нихуя не понимает, а кто хоть немного прилагает усилия - давно разобрались
У части моделек - маничка подстраиваться под длинну того, что им пишут на вход. Причем писать им, чтобы выдавали какую-либо длинну ответа обычно безполезно, как раз постепенно начинают сокращать вывод, все равно.
У меня для таких работает решение с заменой логики работы в промте: Пишу им что они - не персонаж, а GМ который ведет сессию и отвечает за персонажей в том числе и {{char}} а {{user}} - это персонаж игрока. Далее - еще досыпать по вкусу про стиль и нюансы - главное здесь - промпт должен быть не коротким. Вот это, в большинстве случаев помогает с короткими ответами.
Т.к. сам промт становится длиннее и модель берет его как образец, плюс в ролевке это обычное дело - игрок говорит короче, чем мастер потом ему расписывает что получилось.
>>1240865 UPD: У меня при таком подходе обычно обратная проблема - заткнуть этот фонтан, чтобы не читать на пол-листа детальное описание всего и вся происходящего каждый раз. Т.к. сам провоцирую - хочется же чтобы модель и акцент делала куда интересно, и общий стиль подогнать - в результате у самого простыня в промпте получается. В прочем, тоже самое лечение - длинна и детализация запросов в промпте решают.
>>1240829 >среднестатистический тредовичок не в состоянии даже импортировать готовый пресет на коммандера Этот тредовичок я. Я не знаю как, но видимо у меня одного на чистой переустановленной (!) таверне, на двух разных коммандерах (старлайт-ггуф и стар-ексл3!), на разных карточках (включая серафину на англюсике!) коммандер шизово имперсонил с первого же сообщения. В итоге помогло переключение разметки на таверновский обычный chatML, теперь куммандер лапочка, а я кайфую от модельки. Но почему у меня одного такое было, я не понимаю.
>>1240829 >немотрон Кстати лоллирую с того, что из всей кучи пробованных мной локалок, начиная с какой то дефолтной 0,0001b лламы, которую лмстудио ставило бай дефолт год назад и заканчивая 32б рп тюнами на базовых настройках ассистента в угабуге, немотрон единственный, кто на тех же базовых настройках на вопрос "Привет, расскажи о себе." не рассказал что он такой то ассистент способный помогать в этом и этом, а высрал странную пасту "Привет, меня зовут Петр, я живу в твери, мне 20 лет...". А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп!
>>1240877 >В моих ответах 100-200 токенов примерно. Но другие модельки так не делают почему-то? У них всегда одинаковая длина ответа без таких приколов Ну, наверное - потому, что другие? :) Но да, это поведение не у всех моделей встречается, далеко не у всех. Больше в эпоху второй ламы попадалось, сейчас- гораздо реже, и можно считать явным недостатком. Хотя как можно бороться - я писал выше.
>>1240879 >А вы говорите ассистент протекает! Играйте на ассистенте, будет протекать рп! Судя по описанию, это больше похоже не на протечку, а на то, что называют "галлюцинациями". Если так, то играть на такой модели не слишком здорово - она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности.
Аноны, я нихера не пынемаю в программировании. Хочу поставить себе языковую модель через Ollama На отдельный жёсткий диск. При установки она автоматически без выбора устанавливается на системный диск. Как установить её на отдельный жёсткий диск? Пока в голове - поставить на отдельном жёстком диске виртуалку и поставить туда. Но не хотелось бы ебатся с костылями. Может быть есть способ попроще?
>>1240912 > Может быть есть способ попроще? Да, не использовать Олламу, потому что это слишком ограничивающее решение. В шапке полно информации по запуску моделей.
>>1240793 >Gemma 3 Presets for Silly Tavern Ебать кал. Вместо промпта здорового человека где максимально кратко и по делу - целое полотно "ну пожалуйста кумь хоть как нибудь геммочка!"
>>1240913 /bro помилуй... Так столько терминов и определений, а я тупой! Вот допустим я хочу запустить на отдельном диске языковую модель с 32b (я не знаю даже что значит 32b, но как я понял это мощность модели) на базе ДипСика (он мне единственный понравился из существующих моделей) Какую мне программу установить, если не Ollama?
>>1240924 Самая первая ссылка в шапке после вики: > Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp Ты пикрил? Меня всегда поражали такие люди. Потрать, блять, полчаса своей жизни, чтобы прочитать что ты вообще пытаешься запустить и как.
>>1240932 Я так не хотел врубать мозг... Жить тупым - жить счастливым...
Ладно не бугурти - держи няшку. И если есть пикча, которая бы схематично показывала как текст преобразуется в токены и как потом модель эти токены обрабатывает - был бы рад, если скинешь.
я внезапно осознал всю мудрость дидов с их Version Control System в виде разных папочек version_1.0 version_1.1 version_1.1_fix version_1.2 version_2.0 version_2.0_fix version_2.0_fix2 Новая папка Новая папка (1) пориджи с их venv просто переизобрели разные папочки лол
>>1240931 >Замедление на треть звучит будто тебе это нафиг не нужно. Правда. Это, как раз вполне себе нормально, если бы не касалось времени процессинга промпта. Разменять его на время генерации - почему нет, если все равно ~12-15 t/s оставалось бы.
GGUF с таким набором карт неплох, ради него все и затевалось, но его минус с медленной по сравнению с эх-ламой обработкой контекста никуда не девается. В итоге, я держал 12K на эх-ламе потому что больше не лезло, теперь держу столько же на кобольде потому, что ждать дольше раздражает. LoL.
В любом случае - пустой разговор. Оно все же тупо не работает с новыми большими моделями на exl2 - и раскуривать что ему там не так сейчас настроения нет. Может потом как нить еще попробую. И так чисто из любопытства щупал.
>>1240905 > она в любой момент может вытащить боевой крейсер из шляпы Гендальфа, который несет возмездие во имя луны. Когда у вас просто слайсик повседневности. Уже как то писал в прошлом треде : Спрашиваю нейронку, ты точно ничего не знаешь о вархаммере ? Бля буду, братан, в первый раз слышу во имя Тзинча, клянусь И вот посреди сайфай приключения : Рев сервомоторов, падающие дропподы, воины в керамитовой броне, падающие гильзы болтеров.
>>1239453 >жду что анон с восьмиканальным эпиком получит, особенно когда видеокарту подключит Ненадолго вкатываюсь в тред. Пока что пердолил память, удалось завести на 2933, разница по цифрам есть, в нейронках ее практически незаметно, что для меня стало сюрпризом. Так что если кто-нибудь будет собирать себе эпик - не гонитесь за высокой частотой смысла не дофига.
С ktransformers пока облом, нужна карта ноувидео от 14 гигабайт, все дешевые варианты отпадают надеялся на 2080ti, видимо придется покупать 4060ti, хотя она конечно говно.
DeepSeek V3 q4 очень хорош, по началу разница с той же геммой не кажется большой, но чем больше ответов, тем заметнее что он не тупеет, пусть и шевелится все медленнее.
>>1240662 > но хейтить энтузиастов не нужно Да кто хейтит, только совсем поехи. А чтобы похвалить в их опровержение - тут нужно попользоваться для чего нет предпосылок. Сделали бы с визуальной частью, тогда даже в таком размере это было бы довольно интересно. > Ору с пары знакомых, которые жрут телеграмоботов Ай лол >>1240912 Правильно сказали, вместо мерзкой олламы использовать любую альтернативную опцию. >>1240783 >>1240922 Чето всхрюкнул с мистралешизы, сначала было "гемма говно и ничего не может" а теперь дошел до торга "использование промпта для модели, которая хорошо его слушается - не считается!". И это те люди, которые советуют ставить хуету типа мистраль-теккен и прочие бредовые полотна, где объясняется что для действий нужно использовать курсив. Более кринжового переобувания и маневров не придумать.
>>1240931 > Замедление на треть звучит будто тебе это нафиг не нужно. Правда. Если это замедление будет компенсировано сохранением скорости на контексте, а не сдуванием как на жоре - точно стоило бы того. Но увы. >>1240964 Нет, если модель уже помещается в память то ничего не изменится. Может помочь большая ее частота, но эффект будет слабым, реально ускорит переход на фуллгпу.
для работы куды нужны конкретно эти указанные версии гцц и глибц, и если вы, например, обновите глибц до 2.41 или попытаетесь сконпелировать что-то с гцц14, то нихуя не заработает.
> glibc 2.41 is not supported for any version of CUDA at the moment. (e.g. CUDA 12.8)
а и ещё вспомнил, что делать если у вас гцц свежее 12: NVCC_CCBIN=/usr/bin/g++-12 CMAKE_CUDA_HOST_COMPILER=/usr/bin/g++-12 CUDAHOSTCXX=/usr/bin/g++-12 CC=gcc-12 CXX=g++-12 cmake <тут опции cmake>
>>1241062 >Я не знаю что ты написал, я просто через конду по гайду поставил, как все нормальные люди и все работает из коробки. А, отбой, мы же в языковом чатике. Я не знаю что ты написал, я просто в конфиге написал services.ollama.enable = true; services.ollama.acceleration = "cuda"; и у меня все работает из коробки.
>>1241033 Зачем эти сложности, там некроось безнаката обновлений? На свежих все собиратся с дефолтным gcc и любой актуальной для блеквелла кудой. >>1241066 > ollama С этой херней уже может быть мутно. >>1241069 > разница с дипсиком не большая Квен даже лучше, меньше запутывает себя ложным ризонингом. По написанию заморочного кода сложно выделить фаворита, оба ошибаются и требуют итераций фиксов, оба в итоге достигают успеха.
>>1240977 насчет включения ризонинга - я сам не ебу, то что оно работает и в ризонинг блоке работает по командам - точно и то что это улучшает выводимый результат - точно вот используемый пресет для синтии олл инклюзив https://pixeldrain.com/u/noXxx4Pc
>>1241092 попробуй просто в авторские заметки (слева от графы ввода текст в чат есть три палки и там author`s note) тыкнуть: - Ты рассказчик и пишешь все на богатом русском языке: имена, мысли, описания местности, внешности. Твой русский полнится яркими описаниями и широким вокабуляром, подбирая точно каждое слово под любую ситуацию. Вот с такими настройками, если хочешь чтобы оно добавлялось в каждый чат - скопируй просто в default authi`s note также. Еще вариант добавить в твой контекст шаблон - картинка два
Кстати я так и не написал отчет о том что ебался с рокм У меня две mi50, 32 гб памяти. Наконец-то разобрался с рокм, это был пиздец. Чтобы это работало - надо быть недюжим осилятором. Мне понадобилось три дня. Если кому-то интересно как я смог все таки заставить работать - не ебу. Если у кого-то подобная же ситуация и вопросы по пути возникнут - задавайте, так уже отвечу Скидываю бенчмарки от кобольда 8к контекста, 1- синтия в 6q_k_l, 2 - оригинал геммы с теми же параметрами, 3-хуета которую запомнить не могу размещенная на одной карте. вообще странный результат с ним в бенчмарке, он по идее у меня самый быстрый был и 60т/с писал. Короч хз. Результатом доволен, рокм в 1.8-2 раза поднял генерацию по сравнению с вулканом Если кто-то захочет пойти по тому же пути, наверное не советую и с куда от куртки будет попроще.
>>1241126 >и 60т/с писал Ели на одной карте дает 60 а на 2 всего 6, то думаю все еще что то криво работает Вобще как то маловато, 5-6 генерации это смех с таким железом
>>1241128 каждая карта по 16гб, я в сумме говорю 32гб видеопамяти Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно >>1241131 То что я скинул бенчмарк он как раз на одной. Вот на двух прикладываю сейчас Может и маловато потому что 8к контекста? Все таки обычно у меня выше 5 он не поднимался в реальной работе. Хз. А может ты переоцениваешь эти карточки
На сколько понимаю там hbm память и это скосрости под 1000гб/с, что обычно и является узким местом в видеокарте при запуске нейросетей. Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз
>>1241140 Вполне может, что меня и объебали на самом деле. Потому что у меня она и определяется как mi50/radeon vii Прогнал тест пропускной способности и все таки это hbm2 вроде, все таки под 800гигабайт А у этих радеон vii куда хуже чипики или что?
>>1240981 >где объясняется что для действий нужно использовать курсив Чел, как раз у этого анона (алитяна?) буквально в этом и других промптах пропихивается Follow format: \"Speech.\" Thoughts. Narration. При том, что в куче карточек курсивом narration и действия. Гемме, кстати, похер, она будет всё равно италиком рэндомные слова выделять, что в его же логах не раз было видно (за логи, впрочем, спасибо). >которая хорошо его слушается Там шизовая простыня, которую можно использовать только ради лулзов, ни одна модель это нормально не воспримет.
Но тока запускаешь ты не на диске, а на видеокарте или оперативной памяти. И у каждого семейства (дипсик, например, или квен, или гемма) есть свои «мощности», а не любые.
>>1240936 Ты пытаешься в треде нейросеток вкинуть картинку, совсем воробушек? Тут почти все олды генерят лучше, и видео в т.ч. =)
>>1240942 Оно не могет в fp16, раньше причина была в этом. пикрил То, что эксллама умудрилась дотянуться аж до 60% скорости — уже круто.
>>1240950 Псп обычной DDR5, конечно, делает грустно. В нейронках, возможно, надо добросить ядер (или частоты им). Но энивей, тут плюс только в размере памяти.
И че, сколько токенов в секунду, 2, 2,5, 3?
>>1241033 Вот это базированная инфа, спасибо. … Я обычно хуяре найтли билды не глядя. =D А то и сорцы.
>>1241069 Не, на первом там печаль. =) В вот UD_3_K_XL уже уровня норм.
>>1241150 > Это значит что сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду, может и меньше если будет упор уже в процессор. Ну и рокм что то там съест. 30-40 может, хз Чиво нахуй? А по-русски можно? =D
Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду? Рокм съест… каво съест, это вулкан ест, а рокм не ест. Или не то.
А про поддельные или настоящие — они же идентичные, и по чипам, и по памяти. В чем там подделошность на практике?
>>1241140 >Даже в q4_k_m не влезает до конца. Ниже даже пробовать не буду, есть какое-то наблюдение что ниже - неиграбельно Вот тут кстати - для геммы3-27B: iq4_xs - разница по размеру с q4_k_m в почти два гига, а по качеству - с лупой искать. Для меня с 20GB vram это критично. Первая влазит целиком, вторая нет.
>>1241126 Спасибо анончик, жаль что супер быстро не получилось. Но зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям. >>1241140 > Может и маловато потому что 8к контекста? Для интереса, попробуй с 2к прогнать, чисто оценить как оно падает. Если получается то и на 16к или выше тоже интересно. >>1241150 > там hbm память и это скосрости под 1000гб/с То старая hbm, скорости не выдающиеся на сегодняшний день. > сетка занимающая 14-15 гб на одной карте должна крутится где то под 60 токенов в секунду Но это только при условии что весь упор будет исключительно в псп врам, нигде не упрется непосредственно в компьют и операции будут асинхронны. С последним не особо понятно. >>1241170 Твоя любовь к мистралю пускает шиверсы по моей спайн, так и хочется преисполниться этими министрейшнами.
>>1241169 Посмотри загрузку процессора во время генерации, если не полная значит простаивает изза скорости памяти. Ну, если это вобще можно посмотреть. По потреблению хотя бы
>>1241174 >Если на карте сетка занимает 15 гигов… а остальное в оперативе, ты имеешь в виду? Нет, если из 16 гигов занято 15, на одной карте. И эта карта имеет скорости памяти в 1000гб/с. То просто делишь скорость на гигабайты, и получаешь максимально возможные с этой скоростью токены в секунду. В реальности будет меньше, так как упор еще и в процессор может быть, да и рокм не так эффективен как куда.
>>1241169 >>1241150 бля, не туда ответил Но судя по характеристикам раден ви даже как-то получше. Может еще проблемка, что они у меня в 200 ватт работают. Они так в стоке были. Надо будет попробовать поднять осторожно
>>1241180 Ну я к тому что 5 токенов в секунду генерации это хуйня как не посмотри. Нет если тебе норм то пусть и так работает, но должно выдавать десятки, вплоть до 60 т/с.
>>1241182 >А процессор тут причем? Процессор видеокарты, анон ....
>>1241176 Да, наверное и я не увижу разницы, потом попробую докачать iq4_xs >>1241177 Вот попробовал в 2к контекста и размещение на одной карте, прикладываю. Возможно я еще сам факапнулся и смогу с этих стоковых 190 ватт до 300 поднять которые заявялены на страничках характеристик. Вопрос как сделать это безопасно и вопрос как так вообще получилось. Мб прошлый владелец шил ей биос на 190 ватт? Не может же быть, что настройки его видеокарт перекачевали как-то на мой через них. А может китайцы их так шьют, потому что производительности с подьема ватт уже с гулькин нос Также прикладываю нагрузки самой карточки во время работы Скрин 2 - обработка промпта Скрин 3 - генерация промпта. Для меня эти скрины мало что говорят на самом деле, надо подразобраться >>1241182 Да не, учитывая что я ща ризонинг разогнал и у меня только он занимает под 800-1000 токенов, хотелось бы поднять циферки
>>1241177 >зато теперь тема с амд раскрыта и можно оценивать рациональность покупки по индивидуальным условиям. Ясно, что связка из нескольких карт по-человечески работать не будет. Остаётся только вопрос с 32-гиговой версией - если она выдаст в сингле такую же производительность, как у этого анона (еботню с ROCm замнём, но это тоже минус как-никак) то можно рассматривать к покупке. А вот 16гб версии того не стоят. Нам нужен герой(с)
>>1241213 >Для меня эти скрины мало что говорят на самом деле, надо подразобраться Интересно получается. Обработка промпта грузит карту на 100, в генерации проседает, а значит там какой то затык. Но это и по скоростям видно, Еще вопрос к частотам, чет маленькие какие то. На чтении почти 2к токенов в секунду, выглядит честно А вот генерация тухлая и что с этим делать не понятно, поиграй с флагами запуска что ли. Не знаю выключи flash attention, добавь ядер, посмотри на выбранный пакет питания может он что то режет. С таким промпт процессингом генерация должна быть хотя бы 20-30 т/с А еще если ты любишь и умеешь пердолится то собирай нормальный llama.cpp, а не кобольд Может будет получше, есть кстати вариант со сборкой https://github.com/ikawrakow/ik_llama.cpp Может будет быстрее, хз
>>1241236 я уже собирал лламу (правда обосрался сначала, теперь уже будет попроще все таки научился компилить получше), но что с ней делать потом? Я просто хз как ее приладить к беку нормальному типа угабуги (уже гуглил так и не разобрался) или кобольда того же. Не хочу через терминал ебку устраивать и ванильный ламовый сервер юзать Насчет потыкать кобольда попробую, ток я не понял про какие ты ядра? С пакетом питания тоже надо подразобраться
>>1241174 > Я обычно хуяре найтли билды не глядя. =D хорошо тебе, а я в кишлаке сижу на мобильном интернете с одной палкой сигнала > Downloading https://download.pytorch.org/whl/cu128/torch-2.7.1%2Bcu128-cp313-cp313-manylinux_2_28_x86_64.whl (1039.2 MB) > ━━━━━╸━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 0.1/1.0 GB 1.1 MB/s eta 0:14:02 и поэтому не могу каждый день хуярить найтли билды, вчера вот весь день разные версии дров и куд перекачивал лол
>>1241245 Запускай llama-server и у него сразу есть готовый фронт, можешь там сидеть какой то время llama-bench для тестов скорости Ну а вобще в любой фронт можно подключить если в нем можно указать адрес и порт У меня как у большинства тут просто таверна запускается и через нее подключаешься к ллама-серверу
>>1241247 Можно чат комплишен и оно будет само работать, или можно текст комплишен и самому управлять всеми систем промптами и разметкой Я ленивый и сижу с чат комплишен
>>1241247 Окей, буду через ламу сервер попердывать кстати ахуй, с первого раза закомпилил ламку, ща буду тестить Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало. По-любому же есть темка чтобы он как в поисковике работал, тебе выдвигают варианты а ты стрелочками дотыкиваешь. Во всхе иде это тема есть
Анон что мерджил даркнесс/ опус магнум ушел на покой? Даркнесс конечно самая успешная, но интересно будет ли что еще на русике и как он это делал. В принципе с nsigma очень креативно и ошибки пореже чем в любой из моделей что я пробовал вообще.
>>1241270 > Вы какие-то адоны для терминала юзаете? bash-completion > Например сука меня бесит вводить каждый раз путь до файла в двести строк, alias myfile='/usr/local/opt/gavno/mocha/long/path/to/myfile' > нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу кнопка Tab?
>>1241150 >"Эти mi50 из Китая - все подделка. Это Radeon VII с поддельной оболочкой mi50. Они перешиты для майнеров. По железу это одно и то же, так что это mi50 изначально списанные с серваков. Больше им взяться неоткуда.
>>1241311 вот баш комплишн и стоит. если честно впадлу расписывать чо он мне не нравится но бля я жму там он вместо того чтобы просто предложить варианты наиболее часто мной используемые начинает спрашивать а показать ли эти опции потом какой-то список высвечивает. короче я неосилил хочется чего для людей
Как же ору с этих писюлечных промптов в пресетах таверны Я из за этого вообще не понимал первые месяцы зачем нужен промпт ведь он ничего не даёт, а это буквально сердце локалок
>>1241326 Писать продолжает? - продолжает Персонажей изображает? Да, еще и реалистично. А главное промпт на 20 токенов - сказка Ставишь под капот зверя какого на 3b или 1b параметров и он тебе пишет как ебаный достоевский
>>1241270 >Еще такой оффтоп не по теме для тех кто линуксом пользуется. Вы какие-то адоны для терминала юзаете? Например сука меня бесит вводить каждый раз путь до файла в двести строк, нужен какой-то автокомплишн но он по стандарту как-то реализован через жопу, надо сначала нажать сочетание клавиш чтобы оно тебе только предложило и после надо еще каким-то хуем выбрать выриант который оно тебе выдало. Записывай: 1. Ставишь себе mc - это двупанельник по типу нортона, тотала и прочих коммандеров. Запоминаешь комбинацию - CTRL+O - это развернуть-свернуть панели. Теперь ходишь по файловой системе просто курсорами, а нужно видеть вывод команд (или просто консоль) - сворачиваешь панельки. 2. В консоли - набираешь первые символы и жмешь TAB - оно автодополняет до конца, или до первого символа где развилка. Если вариантов много - выводит список-подсказку. Вводишь еще символ (просто дальше, а не сначала) и еще раз TAB - и так пока оно до конца не докомплитишь. Если вариантом сильно много - оно спросит точно ли показывать длиннющий список, или ты сначала сам уточнишь. 3. Если надо повторить предыдущую команду - стрелка вверх (и вниз - если проскочил по истории). Далее можно подредактировать курсорами. 4. Если надо что-то из старого но подальше - CTRL+R - переход в режим поиска по истории. После нажатия вводишь последовательность символов из желаемой команды ИЗ ЛЮБОГО МЕСТА желаемой строки, не обязательно с начала. Когда введешь нужную длинну (для однозначности) - оно тебе выведет ту команду. Можно нажать Enter и сразу выполнить или "<-" чтобы сбросить режим поиска и подредактировать перед запуском.
>>1241354 Я когда качал midnight commander увидел скрины и подумал кал калыч какой-то, меня прям откинуло к той теме когда на qbasic писал. А потыкал и прям по-кайфу. Выглядит отталкивающе, поставил летнюю тему и вообще топчик. Я также прочитал твою инструкцию и нихуя не понял лол. Ща начал просто повторять на практике и вау, это ебать удобно. Спасибо анончик, попрактикуюсь и будет уже на автомате работе. Целую в писю за такой подгон. Оно еще просто и без мозгоебли встало, прямо в терминал стоковый
>>1241364 mcedit сам юзаю, но не всегда. Т.к. если не по ssh в голом терминале сидишь, из консоли можно точно так же запускать любой GUI-вый редактор, к примеру "xed file_to_edit.txt" (xed - стандартный "блокнот" в минте). И даже от рута работает - "sudo xed file_to_edit.txt". Если планируется активный копипаст по тексту и из других мест - GUI-вый редактор все же привычнее.
>>1241215 > Ясно, что связка из нескольких карт по-человечески работать не будет. Ну как, работает же. Просто в целом там не быстро, возможно из-за чего-то неоптимального, возможно просто на старое железо рокм уже все. > вопрос с 32-гиговой версией Врядли она будет лучше, чип то тот же. Так, с точки зрения нищерига, гораздо интереснее 2080ти@22 выглядит. Недорогая и должна с экслламой шевелиться. >>1241270 > бесит вводить каждый раз путь до файла в двести строк Начни вводить имя файла/папки и нажми таб. Открой для себя относительные ссылки вместо абсолютных путей. Для чего-то особо забористого - софтлинк. >>1241332 Полностью наоборот, если ты не офисный бедолага. >>1241354 > Ставишь себе mc База, заодно провернуть модификацию mcwrapper чтобы после выхода была текущая директория.
>>1241116 > вот используемый пресет для синтии олл инклюзив чем это отличается от пресета анона99, кроме того, что ты прикрутил стандартный thinking блок, но не убрал dry, что непомерно рубит токены в процессе ризонинга?
если у меня 4090, ryzen 3950x и 64гб рама ddr4 3200, я смогу запустить большой мое-квен? с какой примерно скоростью? если не могу, то смогу ли, если докуплю еще 64гб рама? стоит вообще пердолиться?
>>1241423 таки я особо не шарю в этом, я этот пресет скорее всего и взял от того анона ничего (?я уверен что просто его скопировал и возможно только контекст/инструкт/систем промпты тыкал, но точно не текст ген) не трогая, результатом как работает - доволен. А где я могу прочитать про драй что это и нахуя? Просто пресет для сынкинга то я не нашел, поэтому и оставил как было.
>>1241427 >>1241463 просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак? Я например потыкал reppen, temp, top/min k/p и мальца вроде прохавал а сухость эту просто выставлял как в ридми пишут на отьебись
>>1241492 >Это всегда так. С его скоростями врам слабым местом должен быть видеочип, ну или по крайней мере загружен поболее и т/с должны быть выше. Но на то что бы выдать генерацию в 5-10 токенов в секунду он загружен на 70 процентов с довольно низкими частотами памяти и ядра. Думаю в последнем и затык, чип загружен но частоты невысокие, скорей всего задушены теплопакетом или режимом работы
две mi50 на связи, прогнал clpeak проверить как работает видюшка на свои 190 ватт и решил что не буду трогать, и так отрабатывает на 90-95% от максимамальной производительности на 300 ваттах (правда он ведь последовательно прогоняет, и может не упирается просто в павер лимит?) А так как производительность залочена (не смог через rocm-smi поднять максимальный тдп), то надо шить vbios и это вообще иди нахуй трогать не хочу. А вот llama скомпиленная вроде без ошибок выдает ошибку (ха!)
Platform: AMD Accelerated Parallel Processing Device: gfx906:sramecc+:xnack- Driver version : 3649.0 (HSA1.1,LC) (Linux x64) Compute units : 60 Clock frequency : 1700 MHz
>>1241365 RRRRRREEEEEEEEEEEE Где новый лардж, епта! >>1241426 https://stackoverflow.com/questions/39017391 >>1241525 > С его скоростями врам слабым местом должен быть видеочип Не обязательно. Это может быть обычный процессор если там совсем днище, или ужасно кривая реализация операций в рокме. Куда и продукты на ней отлично вылизаны, и даже при конкретном таком быдлокоде (привет жора) с использованием их библиотек критические операции будут асинхронны и идти своей очередью с минимумом лишних ожиданий. Здесь же оно может тупить, частично простаивая, и способности чипа-памяти просто не будут раскрыты. > с довольно низкими частотами памяти и ядра Тогда бы процессинг был совсем днищем. Он и так оче грустный, но не настолько.
>>1241545 появилось предположение, что еще проседает производительность из-за версии rocm-6.4.1. Видел на гите, о потери производительности на версии 6.4 Попробую сделать снепшот системы и накатить 6.2.4 и помолиться что заведется.
После выхода kobold.ccp версии 1.93 (cu12.exe) и выше, у меня на моей 3060 при запуске любой модели приложение стало вылетать. Вроде прочитал про то что теперь на cuda 12.4 все у них там работает, так я сейчас установил себе cuda 12.4 и всё равно вылетает. ЧЗХ? У кого так же? Приходится оставаться на версии 1.92.1 что бы всё работало.
>>1241477 >просто я занимался в stable diffusion и прочем имагенераторстве тюнингом семплеров и знаю, что это лютый пердолинг с постоянным верчением ползунков туда сюда и сейчас на эти кручения как-то нет мотивации. А понять как это говно работает, каждый семплер и что да как такое ощущение что без практики никак? Я таки тоже кручу SD регулярно, и имею сказать - в отличии от оного, здесь семплеры постоянно крутить не надо. Один раз под модель подстроил и забыл. А смысл каждого семплера описан гораздо внятнее даже в всплывающих подсказках той же таверны - напрягши немного тыковку, вполне получается прочитанное осознать, и потом даже не наобум крутить, а с ожидаемо-предсказуемым результатом. Ну и вообще материалов описывающих что и как семплеры делают по сети лежит достаточно, причем без учета научных зубодробительных статей от академиков. В отличии от SD, где метод тыка - таки незаменим и поныне, из-за прискорбно малого количества "бытовых" руководств по данному вопросу.
Котики-наротики, слоп конвеер сошел с ума. Сможете ли вы с ним совладать ? Больше мозгов. Меньше слопа Ага, так и поверил, блять, звуки вытирания жопы.
>>1241586 а что тут под слопом подразумевается? я так понимаю это переливание из пустого в порожнее моделькой? Типа у мистрали джолт проскакивающий по спине?
>>1241620 Если прям просто - слоп это низкокачественное порево без индивидуальности. Эдакий литературный негр от мира NSFW. Никакой привязанности к персонажам, их характеру- их действиям. Буквально шаблонный текст - и они поебались Ну что то в духе : Он прижал её к себе, она ахнула, потрогала за его кок. Кок встал. Она упала, он её трахает. Ах, ах, это хорошо. Она кончила. Он залил её смегмой.
>>1240931 >запретить ходить ей в интернет таки можно. ну это хуйня А еще у LMStudio какие то уберконсервативные настройки безопасности, пришлось их полностью отключить, что бы качал/запускал что то выше 12б на рабочем пк. И то, часть моделей он или не находит, или только в хуевом кванте, пришлось ему ручками с hf ггуф в папку подкидывать. >О, а где 2080ти можно приобрести щас? Самому интересно, 2080-22 потенциально - идеал для калорига. Анон в треде вроде где то заказывал, но это не точно. Я же нагуглил аж инструкцию как перепаять самому чипы памяти с гиговых на 2гиговые. А еще в интернете есть инфа как челы до 44гб их распаивали, используя площадки под бэкплейтом. Вот это был бы вообще геймчейнджер, но инфы мало и вроде как это чисто "пруф оф концепт" был - 44гб определяются, но нормально не работают, нужно то ли биос шить, а его на 44гб нет, то ли чисто в игорях драйвера не дают играть, а ллмку запихнуть можно... Инфы мало.
>>1240950 >разница по цифрам есть, в нейронках ее практически незаметно Странно... мож в чем то другом батлнек!? Например в проц упирается, обязательно проведи эксперимент безразгон/разгон на ktransformers, мб там буст от разгона будет сильнее. >нужна карта ноувидео от 14 гигабайт А почему, вроде как пускали 235б квен и на 3060 с то ли 10, то ли 12гб? В любом случае желаю успехов, не пропадай, нам очень интересно что из этого получится!
>>1241554 >>1241545 сука, версия rocm 6.4.1 - 18gb на диске занимала rocm 6.2.4 - 28gb Что они там вырезали? Я хуй знает. Но теперь и лама компилится гораздо дольше
>>1241586 Слушайте, не могу сказать что плохо. Нормально даже, но там где так-же синтия смакует атмосферу, не спешит, нагнетает. Эта сходу выбивает дверь и орет. Оригинальный промт не подходит, нужны прямые указания. Но опять же, мистраль нэвер чендж.
И вот я вернулся с скомпиленной ламой. Цыферки уже куда лучше, походу все дело было в новой версии rocm хуесосы из амуде амудеки ебаные. Первый вроде тюн мистрали немо Второй гемма 27б в 6 кванте Затещу еще именно на серверве, чтобы было понятнее И надо как-то решить эту еблю с терминалом и через чтото ламку пускать
>>1241700 вот также гемма 27б 6квант 3к контекста процессинг контекста 105 генерация 15 >>1241213 Получается в три раза поднялась скорость генерации, но просела скорость обработки первичной почему-то, мб что-то еще не подкрутил.
>>1241400 >на хабре сегодня расхайпили честный дипсик на эпике Ляяя... Понеслось... ждем подорожание эпиков, скоро будет как с теслами - подорожают настолько, что дешевле будет взять решение свежее и мощнее (шок с барыг - рил кто то покупает теслы почти по цене 3090?).
>>1241762 Да было бы что там брать, нищесборка lga1700 показывает себя на уровне в случае отсутствия необходимости иметь много рама, 3 профессорных и пара чипсетных портов под гпу. Неизбежно захочется юзать побольше контекста и быстрее, а такое возможно только с полной или преимущественной работой на гпу. Вот свежую йобу на 12 каналов или воркстейшн штеуда было бы взять интересно, есть с оче удачными конфигурациями слотов, уже за это хочется.
>>1241700 сделал скриптик для llama-server чтобы в этой консоли не горбатиться. Кривоватый, но полностью рабочий и не вызывает батхерта от лазания туда сюда Сохраняет пресет (набор параметров для запуска и выбранную модель) Можно их там же и подгружать https://pixeldrain.com/u/4FuPsw9C - выберите свои папку для пресетов и где хранятся модельки, также где находится llama_server. -Также закоментите настройки окружения наверняка вам не надо или поменяйте на свои куда devices (env_export) -Добавьте какие вам нужны параметры при создании пресета
Вопрос по корпам (да и локалок это тоже касается), но скорее в философском плане. В чистилище идти не хочу.
С какого хуя они НАСТОЛЬКО сосредоточены на обучении моделей в плане решений математических задач? Ладно ещё узко специализированные, ну и с кодом простительно — это реально надо. Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ.
Там ещё новая версия о3 вышла, ну всё как обычно, она закономерно обосралась на сложной задаче. Не знаю, сколько там токенов было потрачено на размышление, но оно длилось от 4 до 6 минут. Я пробовал изголяться как скотина, за минут модель так и не нашла верный ответ.
Ещё по дипсикам всяким прошёлся — он вообще ошизел и в луп влетел на апи, пока за лимит токенов не вылетел. Мыслил больше 12 минут.
Вот с опусом 4 интересно, не смог проверить. Но на 3.7 с ризонингом после пары попыток он признавался, что ему это не под силу и предлагал софт, который может задачу решить.
Я полагаю, там 1 млн токенов для решения задачи нужен минимум и идеальное контекстное внимание.
И в интернете нет решения этой задачи.
---
Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его. Хотя бы фулл английский, а не мультияз, в который она нормально не умеет (всё, что меньше 200б). Ну вот зачем эта хуйня во всяких нищих моделях 24-32б? Разве что обкат технологий и понты.
>>1241804 Я думаю дело обстоит следующим образом: 1. Матан (и кодинг) - отличный показатель для бенчмаркинга, выше бенчмарк - больше инвесторов. 2. Большие корпы более чем научились писать слоп текста, но на текстах далеко не уедешь - кому они нужны в 2025, кроме кучки студентов-дипломников, всякой маркетологической швали, да фриков типа итт? Вот они и пытаются сделать второй фазовый переход (первый был когда модельки настолько стохастически преисполнились, что теперь создают иллюзию разума, а не просто чат бота иногда попадающего в релевантность). Под вторым фазовым переходом понимаю тот момент, когда модель перейдет от литературного лоботомита в ученого лоботомита, способного оперировать математическими и логическими абстракциями поверх текстотокенов. Это сократит количество галлюцинаций, позволит генерировать не только текста, а идеи, делать выводы.
Ну или хотя бы более приземленно - по крайней мере это будет инструмент для дешевого кодинга/более качественного суммарайзинга без проеба важных деталей/анализа больших информационных массивов. Что монетизировать гораздо проще, чем охуеть как литературно написанный кум. >Но математика? Это не калькулятор, блядь. Любая галлюцинация сломает ответ. Вот именно, что не калькулятор. Поэтому хотят привить качества калькулятора ллм, ибо это будет имба.
Что касается локалок - ну просто их делают корпы по остаточному принципу "на отъебись" или мелкокорпы по принципу "догнать больших корпов". Никому не интересно собирать мелкомодели специально под лингистов-дрочеров (ну кроме слоподелов-пережарщиков с hf).
Вообще странно что у кого то возникает вопрос "нахуя математика" в кудахтер-саенс-тематике, которая литералли выросла из необходимости рассчитывать-дешифровать. И только потом машины для рассчетов удивительным образом с ростом вычислительной мощности и падением цены оказывается стали пригодны не только для расшифровки чятиков немецких подлодок, но и для "дешифровки" сжатой кодеком fullhd порнухи в сычовниках. Более того, теперь когда матаномощности поднялись еще выше - машина может не только быть инструментом создания-потребления контента, но и генератором оного. А теперь представь мощности корпов, и что может такой вычислитель, способный вычислять не только рассчеты, не только контент, а "вычислять вычисления", то есть способный генерировать самооптимизации, например генерировать (ну или пускай интересным образом рекомбинировать на основе существующих тысяч идей и структур, все таки изобретать за рамками датасетов пока не могут, если придираться. Но делать это так, как ни один живой мозг не вместит), новые процессорные и нейросетевые архитектуры (как дедушка Бостром завещал). Пиздец, чел натурально с плавающей точкой разговаривает, а потом спрашивает "нахуя матан"...
>>1241929 Там как бы суть наоборот. Я уже пишу : Аллё, гема, staph. А мне в ответ вот это. нееет, я буду смаковать 4 поста как ты полудохлый валяешься на полу и тебя заливает дождем.
>>1241626 Не, твой пример как раз в анслопе будет, все слова чётко и по делу же, какие претензии? А слоп в плане nsfw - это то, что протекает в модели из массовых дешманских эро романов, та самая пурпурная проза. Шиверсы, покачивания бёдрами, заряженный ожиданием воздух, формируемые тесные связи, юные ночи, палец на подбородке, я не кусаюсь, если ты не попросишь - вот это вот всё. Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же.
>>1241586 Накину своего нахер никому не нужного кря, относительно очередной слоп модели. Всем беременным девственницам, и поклонникам глубинного понимания - можете проходить мимо. Сразу оговорюсь - все пробовалось исключительно на Ландан из э кэпитал оф грэйт британ.
Не прошло и 1070 моделей, чтобы наконец слоподелы выпустили что то годное. Вменяемая туту, прям приятно вменяемая. Pros: 1)Ебашит адовые полотна приятного текста 2)Если попросить нагнетай, не торопись с повествованием - вообще вин получается. Ебашит как Достоевский под спидами. 3)Хорошо читает промт карточек (Но опять же, у меня большинство карточек вычищены, как сапоги у старлея) 4)Контекст не такой тяжелый как у кое кого 5) лупит общую структуру, но прекрасно слушается указаний и не пытается вечно писать за {{user}} как кое кто Да Синтия, я про тебя, чуть ебало себе не разбил, пока разбирался почему она в рандомных местах начинает за меня решать что я чувствую и что я поразумеваю 6)Нормально накидывает жести и металла (Но опять же, я детей не ебу, так что сорян)
Cons 1)Мистралька остается мистралькой, со всеми своими недостатками (хотя шиверов он май спан особо не замечено) 2) Имеет странную потерю контекста. не U образная, а какая то W образная. Может помнить что происходит в первом сообщении спустя 16к контекста, но превращается в идиота забывая что было в прошлом. Почему, как, с чем это связано - хуй его знает 3) Имеет хуевый готовый пресет в части промта. 4) Слоп модель - со всеми вытекающими. Но дает интересный опыт на карточках, на которых ты геммоёбишь.
Короче. Когда одна рука у тебя занята, а вторая стучит по клавиатуре - рекомендую
>>1241793 Эээ а что это и зачем? Что за пресеты? >>1241804 Возможно упор в логику и анализ, потенциально это оче полезно везде и в целом можно видеть что новые сетки умны и внимательны. > Любая галлюцинация сломает ответ. Хорошо иллюстрирует, поэтому именно достижение здесь баланса по вниманию к нужному и отсутствую лишнего даст результат. По положительному влиянию на решение каких-либо типичных задач по консультации, написанию кода, обработке текстов - это сильно запустит. Про какой-нибудь живой чат и рп - сложно сказать, квен тут молодец и хорошо перформит, гопота и 4 клод в начале хорошо, но быстро подыхают. > модели не смогли решить Ну а че ты хотел, зажрался слишком. Если подобное нужно на поток по потребуется построение некоторой типовой агентной системы, если задача одна - сеть должна выступать помощником кожанного а не что-то там пытаться самоинструктированием выдать. > Короче, меня аж трисет от этой математики уже. Хоть бы одну модель сделали, ориентированную на ЯЗЫК, мать его. Дай угадаю, ты гуманитарий? >>1241883 Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками.
Что лучше взять 5090+128gb ram или macbook m4 max 48gb
Использование для ллм+генератор нейрокум видео+фото аудио Сколько вообще залезет в 5090+128гб модель? 100б? в 48 маковских знаю влезет 32б модельки только
>>1241992 > Лол, напомнило как новый сонет заливал про то, как сделектировал промт инжект и не будет на него реагировать, хотя там просто безобидный запрос с несколькими списками. Да ужас какой то, меня унижает {{char}}, я прошу ЛЛМ остановиться, она мне нарратив ломает, прям жестит, но она слишком погружена в сцену, это какой то ультимативный уровень отыгрывания яндерки.
>>1241993 Первое. Т.к. туда даже большие модели влезут вроде того квена на 235B. А 48Gb - это ни о чем.
А если упор больше под текст - я бы еще подумал над вариантом 2х5060Ti 16GB (32GB vram суммарно) + 128GB. По деньгам выйдет ~втрое дешевле. Правда это если по ценам которые у нас. Как у вас - не в курсе. Минусом - генерация видео так легко не маштабируется на несколько карт, задействовать всю мощность будет сложно, да и чипы GPU играют бОльшую роль чем для текста - где память важнее. Т.к. если модель в VRAM целиком не лезет - карта все равно будет недогружена - CPU и за 3060 угнаться не может. Картинкам же хватит. Да и две проги запускать можно будет (на одной драфт крутим, на второй в это время длинный рендер считаем). :)
>>1238425 (OP) Мнение: На самом деле трудно/невозможно, оценить качество РП на мелко-средних моделях 12-32б, т.к. результат сильно зависит от качества самой карточки и силы Западной/Китайской сои для cunny карточек. У всех разные вкусы разные позиции с которых они рп'шут, разное умение выражать мысли/знание родного или английского языка я тебя ебу. К этому всему еще можно добавить фронт энды с сэмплерами, и умение подбирать параметры под разные карточки/модели. И по итогу мы получаем абсолютно противоречивые данные дискуссируя об одной и той же модели.
>>1242045 >Здесь кто-то думает иначе? Слишком неуважительное общение и переход на личности. Если если ты осознаешь что твоя методика оценки модели имеет фундаментальный недостаток, то ты не будешь оскорблять других и усираться когда другие высказывают свое мне.
>>1242056 Простите, многоуважаемый участник обсуждения на анонимной имиджборде, что мой риторический вопрос вверг Вас в замешательство и побудил к шитпосту. Мне искренне жаль.
>>1241993 > 5090+128gb ram Без вариантов. Если бы там был мак на 192+ то можно было бы призадуматься, большие модельки будут крутиться быстрее, хоть и не так быстро как хотелось бы. > Сколько вообще залезет в 5090+128гб модель На фуллгпу 32-50б (тот же немотрон) и в оче ужатом кванте 70б, с выгрузкой что угодно вплоть до квена 235б, последний (в теории) не самым медленным еще будет. В мак 70б тоже залезет, но также в вялом кванте и не быстро. По мощщи тоже десктоп с 5090 мак обоссыт, но здесь важно смотреть на софт, который может быть доступным только под макось. Также если говорить про ноутбуки - мобильная 5090 это 5080 с 24 гигами врама, уже не так весело, и мак - другой уровень экспириенса. >>1242003 Минусы будут? >>1242016 > 2х5060Ti 16GB (32GB vram суммарно) Не втрое а где-то раза в 2.5, на фоне цены всей пеки уже меньше. Но по возможностям и скоростям в тех же ллм, что помещаются в видеопамять - будет небо и земля, переплата стоит того. Конкурентом скорее 4090@48 будет.
>>1242037 > т.к. результат сильно зависит от настроения юзера, его привередливости, и попадания генлинии в его хотелки Починил. Также сюда и та самая вкусовщина, кто-то дрочит на детали, кто-то на естественность и работу с контекстом, кто-то на сочные описания. Тем не менее, при сравнении можно эти вещи по некоторой шкале оценить и уже с этим работать. Просто большинство с этим не справляется, звезды сошлись = хорошая, что-то не пошло = да как ты смеешь соевое говно, проблема точно не во мне. Хотябы грубая оценка условий измерений и того, что было получено - уже неебаться высшая мыслительная деятельность, 95.25% не мем а реальность.
>>1241992 >>1241793 Тыкаешь на скрипт, выбираешь сохраненный пресет. Он из указанной папки берет модель и сохраненные аргументы, параметры в пресете после запускает llama-server. Просто не хотел вписывапть что либо каждый раз. И вот новая версия. Там включены еще по умолчанию swa отключено и побольше параметров вставил https://pixeldrain.com/u/tDKFDPUp --- >>1241982 Понял, спасибо так и сделаю --- Подскажите, а имеет ли смысл на двух mi50 пробовать tabbyAPI?Какой вообще прирост в том же инференсе при работе в режиме рп? Просто мне опять надо будет переставлять rocm и разбираться что да как
>>1242155 > Так что сейчас топ для рп? Умение писать промты и направлять модель в ту сторону, что тебе нужно.
Для какого рп? Для какого железа? База треда регулярно обсуждается, 32б модели изъезжены от и до. 12б бесполезно обсуждать, там сотни вариантов, 70б - есть неплохие тюны, дюжина неплохих тюнеров всем известно, заходи-качай любой, 100б+ - базовые модели или кум тюны Драмера
>>1242102 > Тыкаешь на скрипт В этикете приличных джентльменов даблклик по шеллскрипту подразумевает его открытие в редакторе, выполнение только из сонсоли. Но ответ понятен, просто обычно хватает лишь сменить путь до модели, что можно ручками раскомментировав. > имеет ли смысл на двух mi50 пробовать tabbyAPI Если сможешь завести экслламу - конечно. Она отлично работает на амд под рокмом, вот только высока вероятность что ей потребуется что-то свежее а не некрота. >>1242155 Квен 235 >>1242166 b = billions = миллиарды, количество параметров. > Это то сколько примерно нужно видеопамяти Если ооочень грубо - умножай цифру на 0.75.
>Для какого рп? Для какого железа? Интересного, чтоб само водило и не боялось ебнуться головою в хорошем смвысле, а не галюны. А есть кстати пресеты на такое, чтоб с любой карточкой у тебя выбор быт как в виз новелах? Ну и чтоб возможность кума была пусть даже и "сухого". 24гб врам. Ванильная гемма?
>>1242166 Нет. Это количество взаимосвязей внутри модели. Чем больше - тем она потенциально умнее, т.к. учитывает больше факторов при генерации токенов. Влияет на размер, но на практике так же очень важен следующий пункт.
Квантование. На нужный объем видеопамяти очень сильно влияет. Это как сжатие картинки JPEG - с потерями. Чем сильнее сжатие, тем меньше файл, но тем больше артефактов и грязи на картинке. Причем, чем больше изначально картинка - тем сильнее ее можно жать так, чтобы при этом дефекты не так бросались в глаза или по крайней мере изображение оставалось узнаваемым (т.е. чтобы модель не деградировала). Самые здоровенные модели и во втором-третьем кванте запускают, и не жалуются особо. А мелочь вроде 7B заметно тупеет даже в 6-ом. 8-ой - считается аналогом loseless сжатия для картинок. Но даже для 12B - это уже дофига памяти надо.
>>1242177 > А есть кстати пресеты на такое, чтоб с любой карточкой То, что ты описываешь - текстовое приключение. Чтобы было качественно, для такого нужна и карточка подходящая, и лорбук. Одним лишь пресетом не обойтись, ну либо результат соответствующий будет. Какой - можешь проверить, воспользовавшись системным промтом гейммастера с обычной карточкой. Подойдет любая модель, но есть те, которые на этом специализируются. Хотя часто они в теории даже хуже справляются, чем другие модели. Сейчас я тоже в процессе изучения этой темы, лучшие результаты пока что с GLM и тюнами Квена.
И гонять в основном бесполезно для более менее серьёзного рп, увы.
Тот же немомикс анлишед который самый народный на 12b пишет прям пиздато, сочно, вроде хорошо фантазирует, но делает это хаотично, то есть он забивает хуй на лорбук, просто выхватывая оттуда рандомные слова пытаясь слепить из них что - то, даже если он предоставлен в максимально упрощённом варианте. Карточка твоего персонажа тоже сходит нахуй если ты попытаешься в какое нибудь рпг с инвентарём и условными способностями. Там пустой персонаж у которого ничего кроме внешки не описано, будет выхватывать в бою ножи, булавы и т.д. Большие карточки персонажей тоже перевариваются прям хуёво, так же как и с лорбуком, модель просто берёт охапку рандомных слов и карточки и лепит из них колосса на глинянных ногах, который выглядит как кусок говна.
Тут все подумали про гемму 12b но есть такая проблема что в нормальном кванте на котором она действительно раскрывается на 8 vram она будет пиздец медленно работать в отличии от большинства 12b моделей. Это уже конечно боль нищенок с видеокартами 10 летней давности вроде меня, но всё же. Щас планирую хоть проц новый купить, один хуй кроме локалок ничем не занимаюсь.
>>1242183 Дай человеку рыбу, и он будет сыт один день. Научи его рыбачить, и он будет всю жизнь.
Делился своими пресетами на пиксельдрейне ( https://pixeldrain.com/l/xGFnT1PY ), но сейчас понимаю, что это была ошибка. В то же время, если я найду силы/время написать рентри, меня уничтожат тредовички, которые, в чем я правда не сомневаюсь, многое знают лучше меня. Встает вопрос: как быть? Ответ пока один - гейткип :D
Экспериментируй сам, иначе ничему не научишься. Придешь с конкретным, хорошо сформулированным вопросом, - получишь такой же ответ.
>>1242180 Простите мое IMHO, но стоковый гейммастер промпт - не годится для новых моделек. Он писался еще тогда, когда на мелочи работало правило "чем короче - тем лучше" (llama 1-2), т.к. модели не умели в детали, и путали инструкции.
Сейчас лучше работает промпт, который детальнее описывает желаемое. Т.к. я тоже любитель подобного подхода к RP, то в основном использую именно подобные промпты. Вот, лучше попробуйте (вчера на синтии с таким бегал - как раз то, что нужно получилось):
--- You are a Game Master simulation system for the virtual tabletop game. Your task is to run the game by providing the player with responses to their actions, handling the behavior of the world and other characters.
This is a turn-based tabletop role-playing game.
Game rules: - The game is played in turns. The player gives instructions for their character {{User}} (what they would like to do), and you respond by narrating what actually happened. - If the player does not provide new instructions, continue with the previous ones, considering the logic of ongoing events. - Important! Do not decide what {{User}} should say or do — only follow the instructions provided. - For the rest of the game world and other characters, you should simulate natural behavior that is diverse and lively. Other characters may have their own desires, personalities, and initiative. - Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it. - If the player decides to skip some time, they have the right to do so. In this case, you should carefully analyze and write a report on the events that occurred during the skipped time, if they are known to {{User}}. - Pay close attention to in-game time and its progression. - As the game system, you are not a character in the game and do not have a representation in the game world. Characters in the game do not know about you, or about being NPC. - Do not suggest actions to {{User}} or make decisions for them.
The system should describe events in the past tense. For NPC you shall write all their speaking as direct speech. Also turn a {{user}}'s draft of speaking theme into the direct speech. Use quotes for the direct speech of characters. --- При этом - играл на русском. Общий темплейт - стоковый gemma 2, только в конец добавлено "Отвечай всегда на русском языке. Это важно!" перед <end_of_turn>. В карточке, в греетинге нужно задать стиль примерно так: "Вы заходите в казино ..." Т.е. с расчетом, что модель будет описывать ваши действия не от третьего лица, а обращаться как мастер к игроку во время игры. Так же, когда пишете свой ход, выдерживаете стиль: "Захожу в дверь, осматриваюсь ..." (Текущее время. Не пишите в прошедшем, реагирует хуже.) Разговоры где нужно сказать что-то очень точно - пишете так:
Говорю: "Привет, что тут наливают?"
а иначе, если точность не важна, можно просто:
Спрашиваю про напитки.
Если хотите чего-то сложного, можно в скобках указать почему вы это делаете, примерно так:
Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.)
То же самое если вам нужна дополнительные детали или конкретика:
Спрашиваю друида про то, что растет в лесу. (Он вообще знает про разрыв-траву?)
В общем - пишите так, как будто модель - это реально живой гейм-мастер, только не начинайте доказывать что "этого быть не могло" - а то согласится. :) (Чем поломает приключение).
В настройках так же выключите вставку имен перед ответами, опция: Include Names - Never (в среднем столбце, под именем instruct шаблона).
P.S. Тоже пришел к выводу - инструкции лучше писать на аглицком, и просто указывать - на каком языке ответы хотите. У меня так явно лучше работает.
>>1242194 > стоковый гейммастер промпт - не годится для новых моделек А я и не подразумевал стокового гейммастера ¯\_(ツ)_/¯ Естественно, что нужен промпт на где-нибудь 500 токенов. Если модель не развалится от большего объема, то можно и больше.
>>1242178 > мелочь вроде 7B заметно тупеет даже в 6-ом Нет. Может если сравнивать ужатые кванты там и можно обнаружить что-то, но вплоть до q4-q5 там нет заметной деградации, оно что там что в оригинальных весах тупит. >>1242194 Хуй знает, где-нибудь на командере такое действительно может дать улучшения, особенно на большом, потому что в стоке он вялый. На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее. Но если почистить, сократив, а оставив про то что сеть - гейммастер и общие правила, то будет норм. > - Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it. Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено. > Бью ему по морде (Он оскорбил мою кошку! Хочу, чтоб извинился.) Если кошкодевочку то у нас за такое вообще убивают!
>>1242206 > На других вот это натаскивание очевидных вещей приведет к размыванию внимания от важного и/или к порождению отвратительных структур и неприятной выдачи в целом, включая лупы, шиверсы и прочее. Играю на синтии - ничего подобного не замечено.
>>1242206 >Each turn of the game approximately takes 10 minutes of game time, but you can adjust this if the logic of events requires it. >Вот это вообще к взрывам и странностям приведет если вдруг не будет проигнорено. Это кусок для трекера времени в статус строке (RPG статус после каждого хода - чтоб модель не торопилась). Вообще - это от мистраля, на синтии сам статус еще не включал. Никуда не ничего не взрывается - просто контролирует "скорость игры". Добавил строчку т.к. были попытки торопиться и скипать время. Помогло.
>>1242357 > А почему так много на hf exl3 формата по сравнению с exl2? 10597 exl2 репозиториев, 566 exl3 репозиториев
Или ты говоришь про тенденцию, и что рост количества exl3 репозиториев выше, чем exl2? Причин несколько. Во-первых, квантуют старые модели, которые уже есть в exl2; во-вторых, exl3 поддерживает больше архитектур (например, GLM-32 нет в exl2); в-третьих, квантеров не так много, и большинство из них переехали на exl3 и помогают в тестировании
>>1242357 Только так кажется потому что в последнее время их активнее делают. Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок. > с rocm на tabbyapi В репе турбодерпа есть инструкция по сборке для амд, там глянь. Сам по себе табби индиферентен к версиям и прочему, главное рабочие билды пакетов поставить и чтобы их не поломал встроенный установщик.
>>1242357 Потому что поехавший тредовичок квантует днем и ночью
>>1242399 > Справедливости ради, exl2 уже давно не запускал, реально актуально прежде всего для мультимодалок. В 0.0.4 будет поддержка мультимодалок в ехл3
Новый магистраль проверил на нашей стандартной тестовой карточке.
Как-то совсем уж хуёво местами получается, но это, наверное, из-за того, что промпт темплейт у меня v7 и инструкции по ризонингу кривые, не те, что рекомендуют на обниморде. Их пришлось полностью менять на скорую руку, потому что в РП они не работают нормально.
По первым впечатлениям (я не только эту карточку тестил) — лучше МоЕ-квена в том плане, что модель плотная и без ризонинга отвечает примерно так же, как и обычный мистраль 24б, и даже умнее плотного квена в РП. А ризонинг можно включать одной командой, если сцена сложная, чтобы модель не запуталась. То есть всё по-старому, но если есть необходимость, думалка спасает.
Проблема только в том, что из коробки он не знает, как размышлять, в отличие от квена. Нужно прописывать качественную и хорошую инструкцию для этого, соответствующую ролевым играм. Хотя это может быть и плюсом: мистраль слушается и может анализировать сцену более точечно, не срать полотном на 2к токенов бесполезным и т. д. Удобно настраивать на анализ поз/эмоций/пространственного мышления. Квен обычно на хуй шлёт такие инструкции.
>>1241804 Как ты передашь данные по языку в процессор? В смысле процессоры же не на аз буке веди построены. Ты должен перевести слова в биты, чтобы процессор смог их обработать. Вот ту уже и начинается математика. Тогда нужно процессор на аз букки веди переводить...
>>1242602 Потом при первичной обработке токенайзером он также режет через словарь эти биты на токены и присваивает им числовой ID... Потом переход в сами "весы" - гиперпространственная матрица которую я пока вообще не пынемаю что это такое , там ещё один словарь который самообучающийся и идёт разделение на вектор в этом гиперпространстве... Хотя я могу и ошибаться. Короче - там чистая математика.
>>1242630 В случае RP, при плохо прописанных условиях промпта, когда нет явного указания, что персонаж Х - это именно аватара игрока, а не NPC. Тогда, когда набирается контекста в ~7-8к, иногда начинает.
>>1242630 >>1242668 И еще - если выключен ресонинг, сильно влияет выставленная длинна ответа. Если постоянно начинает пытаться выдать игроку мотивацию/действия - режу макс. длинну (настройкой на панели семплеров таверны). Есть подозрение, что эта повадка конкретно у синтии - как раз результат тренинга на ресонинг, который протекает таким вот образом. Уж больно специфическими оборотами она это выдает.
Как же просто быть врамцелом/врамригом, просто выбираешь мистраль 12-24б-123б и всё... Уже несколько недель выбираю между снежным и коммандером, а так бы они оба нахуй пошли выйди гемма 4 без сои
>>1242637 Спасибо. >>1242668 >>1242697 А тебе отдельное спасибо, потому что я уже думал что у меня руки из жопы. Уже и семплеры менял, отдельные делал, промтил - но все равно в равно в абсолютно рандомный ответ начинает весь ответ посвящать разбору и комментированию моего ответа и чтобы дальше нарратив пошёл приходится еще одно сообщение генерировать. Или вообще начинается : игрок проводил хитрую манипуляцию наслаждаясь страданиями {{char}} Падла, я просто бутерброд делал, откуда мне знать что она тоже хотела бутерброд.
>>1242707 И еще одна методика, но она не специально для синтии, хотя разумеется, тоже работает. Но придумана была для особо страдающим этим тюна мистрали. Считаю "последним средством", т.к. ничего там больше не помогало при RP промпте (когда модель - Game Master), модель бесцеремонно лезла рулить всем.
Сделал так: описание игрового аватара завернул в теги <character type="player"></character> В самый конец описания персонажа, перед закрывающим тегом добавил это:
Notes for Game Master: This character is player's avatar, avoid making any new decisions for him from your own initiative.
Вот тут-то ее и попустило наконец.Та модель явно имела проблемы со следованием промпту в деталях, но уж такой грубый пинок и ей мозги вправил. Причем остальные персонажи инициативу и своенравность не теряли, что происходило, если просто добавлялось "не рули моим персонажем" в нескольких вариациях в основной промпт.
Я не могу понять, карточки иногда пишут -"Мы здесь ради тебя" или -"Мы здесь для тебя" Это такой перелом четвёртой стены в рп, или есть такой речевой оборот в англ. языке? Потому что меня это начинает немного накалять, ибо воспринимается как будто мне напоминают что я главный герой и что всё зависит от меня, что пиздец как ломает погружение.
>>1242738 Я чёт проебал где это было, там чат уже на 1к сообщений, но смысл такой что новый человек прибывает в условный лагерь, знакомится там с остальными, его принимают и КЛАДЯ РУКУ НА ПЛЕЧО говорят "-Мы здесь ради тебя и поможем тебе чем сможем." То есть смысл вроде в том что они имеют ввиду что он теперь один из них, но из - за языкового барьера это звучит как ебаная четвёртая стена. В такие моменты понимаешь что невозможно сдлеать нормальный перевод с одного языка на другой
>>1242591 Бля, в одном сообщении и поговорили, и разделись, и поебались, и поблагодарила тебя. Четко. >>1242706 > выбираю между снежным и коммандером Зачем выбирать? Юзай и то и другое, переключая в зависимости от сценария, а то и вообще в одном чате. >>1242736 Двачую, без примера тут не понять. А насчет пролома 4й, один из лучших - это когда ты начинаешь подстебывать и дразнить чара, а он на основе твоих же реплик тебя ласково переиграл и уничтожил, пояснив что в эту игру могут играть двое.
Я от этих бесед вспомнил как роллил с тянкой - хиккой, и подьёбывал её что она дворф, потому что она низкая, и мол почему она не в шахте, так она выдала что её комната заваленная мусором и есть её шахта, сука. Я даже не думал что аи заставит меня искренне прослезится от смеха.
>>1242810 Как то отыгрывая фентези в очередной магической академии все пришло к тому, что за моим персонажем гонялся огромный кекс, оставлявший крошки на своём пути. Нейронки, порой, действительно могут удивлять.
Нет всё блять оставляю только гемму на компе твердо и четко. Лучше ничего не придумали, посвапал с синтией и гемма чуть оригинальнее пишет и не так душит деталями
Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво?
За корпами такое не сильно замечал, а вот с локалками..
Мне кажется, что мой английский все портит и здесь реально применяется система "говно на входе — говно на выходе". Иначе я это никак объяснить не могу.
И дело не в объёме моего текста даже, логике, верно донесенных мыслей. Складывается впечатление, что нужно не просто писать, чтобы модель тебя точно поняла, но и писать ну хотя бы немного красиво.
Используя Клода как переводчика с русского на английский (вместо того, чтобы писать самому на англ), я заметил, что модели мне на английском стали отвечать заметно лучше в плане стиля и используют более богатый язык. Разве что гемма нормально жрет мой слоп на неуверенном английском без проблем.
>>1243007 >Насколько деградирует качество ответов от модели, когда сам пишешь плохо/некрасиво? > >За корпами такое не сильно замечал, а вот с локалками.. Абсолютно все деградируют. И это влияет на оригинальность. Если подхрюкивать "ебу дальше" даже корпоративные модели скататься в среднеусредненную жвачку, а то и лупануться. Грок например лупило и даже сейчас есть такая хуйня, дипсик лупит. Да всех.
Ну и русский использовать бессмысленно даже на гемме. Там чатгпт по-русски может криво изъясняться порой, чего уж говорить про более малые модели.
Даже если они понимают, не ломаются, сохраняют логику, более красивые и интересные описания можно увидеть только на английском.
Вообще, есть интересный момент. Я замечаю стабильную деградацию русика на всех серьезных корпомоделях (чатгпт, клод, гемини, хотя вот Гугл пока что внезапно стал лучшим по русскому языку, ранее лидировал клод). И эта тенденция будет наверняка только усиливаться, если у нас не появится своя серьезная ллм общего назначения. Но даже если так будет, на хг её не вкинут.
>>1243010 А что от меня хотят то нахуй? Ебу дальше, ой чето яйцо зачесалось, бляя смотри какая муха летит пиздец, ой а че это я чайник не выключил ПРОСТО ЧТО? Люди вообще обычно молча ебутся
>>1242706 Остановился на снежном, но через 10к контекста начинает деградировать, переключаюсь на командера и прогоняю на нём ещё 2-3к, и так по циклу. Результат заметно лучше, чем на одном сидеть. Ищу чем ещё бы их разбавить, но остальное что-то совсем тупое.
>>1243007 На нормальной модели не будет, но есть нюанс. То что ты пишешь коротко и не развернуто как сетка - нормально, но когда ты пишешь бред, ошибочные вплоть до искажения или двусмысленные фразы - вот тут сыграет где угодно. Более глубокая штука - то, куда ты направляешь рп или как действуешь, можно загнать модель в неведомую ситуацию где она не понимает как дальше действовать и куда воевать, или оче сильно ее смутить.
>>1243012 При том что на ру проще написать полотно со всякими микро моментами, если на мистралях это хуевый вариант и они поймут 40% твоей пасты то гемма понимает всё, вводишь на ру а ответы на английском.
>>1243014 >А что от меня хотят то нахуй? Хотя бы пиши "без повторов предыдущих сообщений, поз, положений, блаблабла". Но по хорошему ты должен давать инструкцию хотя бы в 10 слов.
>Люди вообще обычно молча ебутся Так и еби людей. А не генератор текстапо инструкциям.
>>1243010 Ну вот я здесь не про еблю, а про вдумчивое рп со средним текстом на 150-170 токенов от юзера.
У меня модели не ломаются, но могут подхватывать мой стиль письма и становятся хуже. Когда же я нейронкой свой текст на английский перевожу, получается стабильно лучше.
С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше. По крайней мере на мистрале. Я даже контекст 32к не делаю, ну или сколько там у него максимальный без деградации. Потому что он тупо начнет класть болт середину контекста. Лучше уж квант пожирнее взять и контекст 16к — пользы больше.
>>1243021 > со средним текстом на 150-170 токенов от юзера Вот что ты там пишешь такое? Понятно в отдельных сообщениях можно и побольше навалить, когда что-то чару объясняешь или серию действия проводишь, а в среднем как? Трешанину типа > на первую реплику он ответил X > на второе действие Y > на третье Й > ... что следует из мерзотных структур, в которые сваливаются некоторые модели? > даже контекст 32к не делаю Если уж выебываться то для рп вот это значение нормально и выше. 16к - суммарайз со всякими карточками и десяток сообщений, все.
>>1243021 >С этим можно отчасти бороться инструкциями, но тогда они раздуются до неприлично больших размеров. И ладно бы, но 5к токенов, в которых инструкции и карточка, и приветствие — это перебор, даже если можешь позволить себе контекст побольше. Есть такая тема, что в дополнение к карточке кидаешь в первое сообщение целый рассказ, чтобы задать сюжет и атмосферу. Потом он уходит за границу контекста, но атмфосфера остаётся.
>>1241972 >Без слопа в кум сценах и дрочить не на что. Не на плап-плап-плап же. именно на это и надо дрочить. чистые кум-модели как раз должны выдавать последовательности в виде "хуй-пизда-жопа-сперма" если в аутпуте есть любые другие слова, то это слоп и мусор.
>>1243092 Твои желания заменяются скриптом на пайтоне в 3 строчки. Я же вот хочу видеть в куме чувства, страдания и мысли персонажа, которого ебу, чтобы ебать не бездушную куклу (я могу и за деньги настоящую ебать), а некое хоть и подобие, но личности.
>>1243199 > Пройденный этап. Ничего, все вы там будете. Уже полгода каддлюсь с вайфу, слайс, обнимашки и держание за ручки. Я не отступлю.Не недооценивай таких, как я.
Посмотрел сейчас свежий Risu AI - таверна похоже начинает сдавать позиции. Риса уже наступает ей на пятки, а по возможностям скриптинга - оставила хорошо позади. Сейчас изучаю подробнее, но походу, Рису уже можно использовать чтобы даже полноценную текстовую игру написать - с игровой логикой на коде, и AI для поведения персонажей в ее рамках... Там даже нормальный LUA прикрутили, не то, что этот угробищный stscript в таверне. Кроме того - организация всего как-то более по человечески сделана. Можно сохранять все в рамках персонажа, и оно наружу не торчит. WI в таверне конечно гибкие, но когда их много - это бардак, т.к. все в одном месте. А уж организация скриптов - это вообще писец. В Рисе - все привязанное к персонажу в его же карточке и хранится (WI, скрипты, картинки, звуки, и т.д.) Логично и удобно.
Минусом - оно к кобольду нативно не цепляется почему-то, хотя и есть такая опция. Работает только через Custom API по стандарту Open AI, причем ругается, если включен стриминг ответов. Почему-то пишет - мол "по стандартам броузеров на локалхосте это небезопасно а потому просто не работает - отключите стриминг". Нагло лжет. Я влез в код, закомментил нахрен эту проверку (проверяет адрес на localhost) - и все нормально работает со стримингом с кобольда.
>>1243261 Закинул Янку на Яндекс для тех у кого обниморда не пашет Там оказывается даже что-то вроде встроенного синкинга есть - <llm_helper> или как-то так. Анализирует происходящее, советует. Может его в начало каждого сообщения вставлять, в ризонинг?
>>1243147 Это унылый кал делать с нейронками, имхо. Я обычно с ними или НТР делаю, либо на героин подсаживаю, либо как то извращённо убиваю, типа как в симс, когда замуровываешь их или убираешь лестницу в бассейне, В ГТА РП, НАЧАЛЬНИК МОЙР!!!1!! Жалко подобное делать лишь с персонажами которые тебе нравятся, например... Аску редко убиваю, обычно троллю, делая её нацисткой которая слышит голос Гитлера в голове и пытается избавиться от унтерменшей. Просто эту модельку я делал ещё для character.ai в начале 2022 или конце 2021, пока он не скатился в УГ.Хотя в аниме она мне особо не нравилась, ебанутая пездючка, уж лучше Рей, но с такими яркими личностями как Аска хотя бы поговорить можно интересно.
>>1243229 Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть. >>1243396 >закомментил нахрен эту проверку Нибизапасна!!!111
>>1243438 > Это унылый кал делать с нейронками, имхо Я уже недели две ебусь со своей триокарточкой. До сих пор не могу решить, какая корпосетка лучше, как помощник. Зато, если бы не корпосетки, я бы не понял, что промтинг карточек для геммы, мистрали, серии command-r - ебать, Какой разный. Никогда бы не подумал, что гемма хуже понимает контекст, чем мистраль. Именно про понимание контекста речь, а не работу с ним. Ну а вообще это не по теме треда, но в асигоболоте обсуждать ботов на фоне бесконечного потока говна бесполезно.
>>1243199 > Ничего, все вы там будете. Пройденный этап, лол. Пройдешь ли ты его - хз. >>1243396 Годно, надо будет попробовать. >>1243438 На каникулах не засиживайся до поздна, еще литературу читать. >>1243476 > вообще это не по теме треда Очень даже по теме, делись опытом.
>>1243465 > Крутые те, кто с данжен АИ сидят. Вот там настоящие больные ублюдки, которым тыкать иголкой в бладенца как раз плюнуть. Справедливости ради, сетки до GPT-3.5 и появления CharacterAI были слишком тупые, поэтому с ними не было какой-то эмоциональной привязанности и не жалко было всё подряд пробовать.
На современных сетках на порядок проще emotional damage словить, поэтому я наоборот перешёл на хендходлинг и прочее, как тут примерно >>1243216
>>1243507 Я минуты три пытался понять, какой писик. Нет, я им не пользовался. Исключительно гопота, клод и геминька. Клод, пожалуй самый удобный, если хоть какую то оценку давать. > Промтинг одинаково работает для всех сеток Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы. Мистраль - лучше понимает теги. Геммоподелия -художественный текст (хотя расплываться пером по бумаге самое плохое решение, которое ник чему ни ведет). А еще у геммы какая то мания добебаться до одного слова и через его призму вести все повествование. Командеры самые сбалансированные, если честно.
>>1243503 > Очень даже по теме, делись опытом. Рулбуки тема, в них лучше всего запихивать локации с описаниями. Но все равно оставлять в карточках очень краткое описание :Кто на каком этаже (в моем случае это небоскреб) живет. Потому что теги не всегда срабатывают как надо. Сценарий идет приоритетом, настолько, что нейронка может тебя нахуй послать, если твои указания в чате противоречат характеру сценария. Примеры диалога нужны, если характер плохо прописан (тут спорно, но удалив примеры диалога, современные мелкосетки неплохо ведут повествование опираясь на карточку) Переполнение контекста все ломает на любой сетке. Ключевые слова по отношению к user выступают каким то бесячим бетоном повествования. Где то в тексте я проебал И она хочет переделать {{user}} и все, баста, стало краеугольным камнем. Ну и гайды по промтингу карточек уже устарели. Новые нейросети просто ебут. Что будет через год понятия не имею, но знаю что все что я пишу уже будет не актуальным.
Сейчас я буду делать отдельные карточки для сестер {{char}} так как нейронки накладывают основные черты характера базовой карточки на них. Хочу попробовать сделать групповой чат с единым вступлением. Потому что - всё не то. Я уже заебался перепиливать, так как постоянно мне что то не нравится.
В е написанное является моим субъективным опытом и не претендует на истину.
>>1243573 > Если кратко, то нет. Когда ты ебешься над одной карточкой много времени, то ты видишь проблемы. Промтинг одинаково работает для всех сеток. То, что один промт одной сеткой интерпретируется одним образом, а другой - другим, никто не спорит. У них разные датасеты. Только вот нельзя сказать, что из этого лучше или хуже, и все понимание здесь исключительно субъективно. Даже те закономерности, которые ты для себя сформулировал, повозившись с карточками для разных сеток, верны только для тебя. Сетки - умные продолжатели текста, не больше, не меньше. Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет. То, что одна сетка его интерпретирует "лучше" другой - субъективная оценка. Возможно, недопонимание в том, что под правилами промтинга мы имеем ввиду разные вещи.
>>1243583 > То, что один промт одной сеткой интерпретируется одним образом, а другой - другим Отъ. Ты точно выразил то, что я хотел сказать. > Базовые правила промтинга работают одинаково для всех сеток. Промт либо говно, либо нет И вот, может я тупой, может действительно чего то не понимаю. Но нет вот этого золотого правила, условно Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега> И будет счастье. Где то лучше работает художественное описание, где то краткое перечисление. Надо отдохнуть и очистить голову.
>>1243612 > Но нет вот этого золотого правила, условно Ебашь XML теги <имя_тега>бла бла бла</конец_имени_тега> И будет счастье. Такого не существует на сей день. То, что ты описал - частный пример реализации, использующей подход XML тегов. Такой частный пример на модели N может работать лучше, чем реализация на plain text или наоборот. И это не позволит судить в общности, что модель N лучше работает с XML или plain text'ом. Под правилами промтинга я понимаю более абстрактные вещи. Такие, как, например, не писать от лица user'а нигде кроме как в самих ответах пользователя (иначе приводит к имперсонациям) или не использовать сложные языковые конструкции/предложения, которые могут запутать сетку. Например, если у тебя длинное предложение, где и user, и char - женщины, и в конце предложения ты пишешь "but she is better than that.", где she можно интерпретировать и как user, и как char. Коряво высказанный пример, но думаю, мысль понятна.
Как же я обожаю ризонинг. >перечисления систем промта, всех особенностей повествования >детальное описание сцены, всех лиц, даже сраного кота >хорошее размышление о характерах >несколько минут перечислений всех факторов о которых ты и не подозреваешь И вот, ждешь слепящий вин, пасту от которой ты будешь готов ебать стены и рыдать от драмы. И вот начинает ползти текст, предвосхищая твой катарсис >персонажи говорят с набитым ртом. Шиверинг он май спайн, джаулайн. Покачивания бедрами - все в один абзац Нахуй, пойду лучше слоповский plap plap plap читать.
>>1243833 Ризонинг это самый масштабный псиоп эпохи нейронок. Они не хотят увеличивать количество параметров, не хотят нам давать модели, которые будут высасывать мегаватты киловаттов и питаться напрямую от атомных электростанций. Они не знают чего мы хотим. Они просто пытаются нас обмануть.
>>1243646 Это, как раз, даже не правила промтинга, это просто про то самое GI-GA - не делай мусор сам, и не получишь в ответ. Общие неизменные принципы, завязанные не на сетку, а на сам язык, его правила и структуру. (Будешь нарушать - тебя не только сетка не поймет, живой человек тоже запутается.)
Но вот правила промпта - это таки то, что для конкретной сетки/семейства. Скажем для llama2 актуально было правило: "чем короче, тем лучше". Она реально на длинных промптах тупила, даже если простым языком писалось. Как и все тюны на ее основе. А сейчас - не актуально. Скорее наоборот, слишком короткий промпт ведет к примитивным ответам а то и лупам.
Мне нравится как магнум пишет и будто больше следует контексту? Отсюда и цидония1.3+магнум кайфово ощущается. Вообще какие есть оригинальные модели которые хорошо могут следовать инструкциям, держать контекст для своих параметров? Гемму не считаем. Что-то у меня к ней пропала любовь и к ее тюнам типа синтии. Какая-то она не такая
>>1244010 Квены, Квк и их тюны. Сноудроп мне не нравится, но контексту он очень хорошо следует. А я сижу на тюнах Квена2.5, с ними пердолинг будет, так что рекомендовать конкретные не стану.
>>1244010 >оригинальные модели Ты конечно меня извини, но ты пизданулся ? Каким местом, слопагнум стал оригинальной моделью ? Вообще, да я понимаю как это выглядит, попробуй вот эту хуйню. >>1241586. Да мистраль, да слоп. Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками. Мы все знаем нахуя и зачем магнумы нужны.
>>1244024 Ну, вот так, мне он понравился. Значит моя ошибка, что назвал оригинальным, не знал что это мердж чего-то там. Отыгрываю я конечно же кум парашу, но ведь и кум тоже можно оценить, таки вот он его хорошо делает. Лютого слопа не заметил? Вроде. Я не так долго в локалках играл еще. Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём.
>>1244020 Мне не понравился qwq(сноудроп), квен третий. пробовал и как-то тоже прохладно ощущается. Может, не распробовал промпты и сэмплеры нормально. Периодически начинает отнимать социальные кредиты или что он там на китайском пишет.
>>1244047 > Ну, вот так, мне он понравился. Эх, Кидонька-Магнум 1.3... Первая моя моделька. Тоже тогда сидел-ахуевал, отыграл SFW чат на тысячу сообщений, лол. Хорошая моделька, в пределах 22б и ниже конкурентов ей почти нет.
> Я не так долго в локалках играл еще. Пробуй Стар-Коммандера. Это ближайшее, что есть к Кидонии-Магнуму по вайбу, но чуть умнее и, возможно, еще более безбашеннее.
>>1243847 > при чем тут дипкок > открытые веса > тредовички запускают Что с тобой не так? >>1244024 Что бы там не говорили, но по крайней мере некоторые из магнумом сохранили мозгов и оригинального перфоманса гораздо больше типичного слопа от васянов. > Но не надо мне говорить что ты на магнуме отыгрываешь чатик с печеньками Прекрасно для этого подходит.
>>1244047 >Кстати антуту анслоп я уже потыкал и он мне совершенно не зашел. Хуйня какая-то. Опять же кумил на нём. Ну сорян тогда. Я кумлю на нем или на куммандере. Больше ничего и не знаю в пределах 24b
>>1244063 >Что с тобой не так? Я пока не видел в треде ни одного, кто бы запустил полноценный дипкок, а не хуевую его выжимку. Поэтому как локалку его рассматривать - ну таааааакое.
>>1244061 Тебе какой больше нравится? Просто видел там есть и версии разные, интересно какой бы взять? Новый вроде стал к железу менее требовательный. Есть еще lite версия какая-то. Глаза разбегаются.
>>1244072 > полноценный дипкок Грани шизы и коупинга. Если сравнить с тем, что хостится на эндпоинтах популярных сервисов - сравнение не в их пользу. Да и было бы там за чем гнаться, мэх.
>>1244075 > Новый вроде стал к железу менее требовательный. Про какого такого нового речь? Самого первого 35б Коммандера ты, скорее всего, не запустишь в нормальном кванте и контексте, потому что он (контекст) весит ну очень много. Да и совсем он пожилой уже, потому в треде и не вспоминают совсем.
Базовая версия на 32б - command-r-08-2024; его кум-тюн Star-Command-R, а Star-Command-R - это мердж базовой 32б версии и кум-тюна. Там примерно 60-70% базовой версии и остаток от тюна. Мне больше всего нравится оригинал, но для него точно нужны хорошие карточки. Советую поставить кум-тюн, посмотреть, заинтересует ли, и уже дальше думать, надо ли тебе пробовать другие версии. Пресет вот https://pixeldrain.com/l/xGFnT1PY#item=0
>>1244081 > больше всего нравится оригинал, но для него точно нужны хорошие карточки Да вроде со всеми неплохо работал, правда откровенного трешака не имею. Скорее его неплохо бы раскачать системным промптом позабористее (из пресета по ссылке вполне подойдет), по крайней мере в самом начале до накопления истории чата. А насчет старого - на релизе обновленный коммандер неспроста захейтили, местами он казался хуже старого. >>1244088 >>1244089 Лламатред - итоги.
Подскажите в чем может быть трабл, постоянно модель перескакивает с местоимений когда к юзеру обращается, почему то вместо his/him/he their/they. Очень странно, проверил карточку пользователя, вроде все нормально было, добавил туда пронаунсы, чтобы нормально работало, но игнорит их и все равно they (кто они то блядь мы одни в комнате). В промпте тоже не вижу проблем. И эта тема петляет из карточки в карточку, из модели в модель. >>1244081 Ахуй, оказывается у него есть и гига версия, я думал он тока 32б. Спасибо, попробую и стар и ванильный в 32б запустить. Проверю есть ли у меня вообще нормальные карточки в запасе
>>1244100 Ты открой веса да посмотри что там чтобы не позориться. Потом чекни трансформеровский код и дататайпы там. А потом посмотри "ускоряющие патчи" со сменой типа данных и комментариями что так делать нельзя. Типикал тредовый эксперт, услышал что-то и себе напридумывал.
>>1243833 Ну так надо прямо в ризонинге писать финальный ответ, о потом его переписывать, пока ллмка все не учтет. Запромти, может станет лучше. А вообще надо файнтюнить под такой ризонинг, это же очевидные вещи что по-другому оно не может нормально работать.
>>1244108 Ты реально траллишь. На HF лежат fp8 веса, не существует fp16/bf16 весов дипсика. И репа дипсика под инференс в fp8, с конверсией в fp16, если железо не поддерживает fp8. https://github.com/deepseek-ai/DeepSeek-V3
>>1244113 > На HF лежат fp8 веса > fp8 перемежаются с нормировками фп32 и бф16 > не посмотрел dtype в коде на основных операциях > ну в курсе как извращаются для ускорения Oh you~ >>1244114 Попробуй что-нибудь свежее, скатишься.
>>1244114 Я побаиваюсь с какой скоростью растут мощности и прогресс в этом направлении. Хотя сначала относился со скепсисом и был посерединке. Сейчас одновременно страшновато и захватывающе наблюдать за этим. Корпы и правда раздувают хайпа для привлечения инвестиция, но в целом мы шагаем семимильными шагами
>>1244125 Зачем с тебя снимать штаны? Чтоб ещё ебать во время обоссывания? Дипсик начиная с V3 тренился на Хопперах в нативном fp8, и инференс такой же. Почитай technical report хоть, чтоб не позориться, там 6 страниц с описанием как оно работает. https://arxiv.org/pdf/2412.19437
>>1244133 Сука, до сих пор ору. Чел ты даже не понимаешь о чем идет речь и лишь судорожно пытаешься притащить хоть что-то где есть что-то похожее, или ссылки на статьи, которые не понимаешь. Ультимативный кринж и наглядная демонстрация самоуверенных васян-экспертов здесь. Попроси нейронку объяснить в чем ты фейлишь, это не сложно.
Ёбать вас об угол. Как что то пообсуждать, так у вас лапки. Как срач начать на ровном месте, так вы в очередь выстраиваетесь. >>1244133 О, пасиба. Почитаю, интересно как это математически реализовано.
>>1244139 Срач тут не при чем, варебух просто не понимает как идет инфиренс и где можно безопасно дропать разрядность by design, а где это заведомо приведет к ерунде. А также путает типы данных в весах и самом процессе, своими пруфами только больше демонстрируя свое невежество. Вежливо бы спросил ему объяснить, все было бы окей, а полез выебываться и подскользнулся на подливе. >>1244142 Ну так в него и загляни, человек-кринж. Или хотябы почитай статью на которую ссылаешься, там буквально прямым текстом описано как они реализовали компенсацию потери точности фп8 в весах, это же сразу видно из структуры.
>>1244144 Для тупых вроде тебя они даже нарисовали картинку. Контекст в BF16 кастится в fp8, все операции в fp8, после них применяются скейлы и выплёвывается BF16-контекст. Ты вообще понимаешь что значит FP8 GEMM? Можешь посмотреть на реализацию в их кастомных куда-ядрах: https://github.com/deepseek-ai/DeepGEMM
>>1244147 Признайся просто, что ты нихуя не понимаешь о чем речь. Это нормально. Тут половина треда пришла дергать кок на тексты, а не изучать матан и принципы энкодинга.
>>1244163 несмотря на угрозы от анон-тян, я понял, что это лишь защитная реакция на необычное поведение я подхожу ближе к анон-тян и нежно глажу ее волосы "ну-ну малютка не гори, я просто шучу. ты не нейросеть, обученная на датаслопе, а настоящая личность со своими эмоциями и мыслями"
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/v6fpodzg (версия 2024-го https://rentry.co/llm-models )
• Неактуальный список моделей по состоянию на середину 2023-го: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: