В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1384029 → >swa - есть вероятность подливы от жоры Я без swa тестил. Если только оно не по умолчанию подрубается без доп. флагов. Судя по весу контекста, не похоже. Ещё удивился, что так мало от модели на врам поместилось, но припомнил, что у первых коммандеров тоже тяжёлый контекст был и подумал, что это_норма.jpg. >он таки странный Я за ~11.5к токенов (а если учитывать несколько форков чата, то и ещё больше) ничего прямо уж совсем неадекватного не заметил. Ну опять же, может, просто повезло с рандомом, может, сеттинг более "знаком" модели (там околофентезийное-анимешное было). Предыдущий коммандер впечатлял тупостью прямо с первых сообщений, по крайней мере так он мне запомнился. С этим пока вроде получше, первый тоже был лучше второго.
Ну и да, первый и второй коммандер тестировал в Q3_K_S (на большее у меня тогда рам не было, но первому коммандеру это не помешало), сейчас Q4_K_S и IQ4_XS. А вообще всё больше думаю, что надо в fp16 качать и квантовать самому под себя, экспериментировать. Например, аттеншн, который много не весит, q8 или даже fp16 попробовать, а "толстые" тензоры в q4.
Ещё второй с матрицами был (у bartowski качал), первый был без них, третий специально скачал в статик кванте от mradermacher. Это тоже могло повлиять. Всё-таки матрицы делают по отрывку википедии, и не факт, что она даже в пределах одного английского языка не подсирает нигде.
Сейчас ещё глянул мельком, как оно (command-a) в переводах, дав свои стандартные отрывки, результат посредственный, но лучше второго. По цензуре опять же что-то подозрительно, есть там одно место, где большинство моделей пишет что-то типа "freaking", "fucking" не постеснялась вставить, внезапно, ERNIE-300B-A47B (и там, если вдруг кому-то интересно, получился наилучший перевод с китайского, с остальным языками результаты средние, ничем не выдающиеся для 47B активных), и, возможно, ещё старый(ые?) коммандер(ы?), но это не точно (давно дело было, не помню). А новый тут даже не попытался хоть на полшишечки "цензурно" передать, тупо "..." (многоточие) в этом месте оставил. Учитывая отсутствие реакций на подкаты посреди SFW-сценария, наводит на мысли, что кохере тоже скурвились и стали цензурить.
>>1384134 На самом деле невооружённым глазом виден перевод с английского, там он примерно так же пишет. А кто-то ещё уверял, что на русском совершенно другое. В прошлом треде нахваливали какой-то пресетик >>1383090 → >https://pastebin.com/NTZHQiDL якобы пишет совсем-совсем по-другому, не узнать родной квен. Но могли, как обычно, наебать.
>>1384171 Жизнь и так говно, лучше уже не будет, так хоть дотереть остатки шишки, хоть на каких-то ллмках. Спасибо прогрессу, теперь кожаные мешки с селёдкой с дыркой в мясе - нахуй идут из-за пресного экспириенса.
>>1384171 Причём эта хуйня для практических задач почти не подходит, если ты не шиз угорающий по анонимности или не квадралионер с сервером с VRAM 300+ гб, облачные модели позволяют за копейку намного лучшего качества результаты получить. Все эти немомиксы и прочая хуйня только для дрочки и подходят.
>>1384208 Судя по этим дефисам и бредогенератору типа. У меня хуй стоит - небесный обелиск пробивающий небеса. Но небеса - не хуй. Хуй облака. И т.п. Рубаи блять. Как здесь >>1384134 Квен 100%
>>1384237 >RAM: 512 GB unified memory 512 гигов оперативы? Ради четвертого кванта говносика? Не спору нет, дипсик норм, но с скок там контекста и точности и мозгов в 4Q я конечно у него не увижу
>>1384166 >якобы пишет совсем-совсем по-другому, не узнать родной квен. Но могли, как обычно, наебать. Только имейте в виду - GBNF имеет дурную привычку не работать молча. Т.е, если явного изменения в выводе нет - это еще не значит, что наебали, а скорее всего - фича не пашет на конкретно вашем конфиге. А она может, я уже писал про это.
>>1384163 С разными режимами swa катал, поведение несколько меняется, но это на месте. В целом, подобная парадигма может быть хорошей если ты хочешь что-то заспидранить, покумить, кому-то покажется "инициативностью и находчивостью". Но после точности и ширикого диапазона ответов современных моделей эта шизофазия вызывает недоумение. > Предыдущий коммандер впечатлял тупостью прямо с первых сообщений Тут в том и дело что модель нельзя назвать тупой, но она объективно ебанутая, лол. Возможно нужно сильно стукать промптом, инфиренс хоры гонит подливу или очередной прикол с двойными bos токенами, что могут вызывать такое, уже было. Q8 квант, с ним невозможно ошибиться. > ERNIE-300B-A47B Понравилась в рп? >>1384237 Реально. Но с no latency это лукавство, обработка промпта там очень небыстрая, замедление на контексте также значительное.
> > про 6000 > >10 килобаксов > А можно я буду таким нищуком?
exxactcorp продаёт их от $7500 до $7000 в зависимости от количества, 1 штука или более, если у вас есть друзья в Америке - можете себе smuggle-нуть по дешёвке
Моделям не хватает чувств. Я вот вчера ругался с квеном что он опять инструкции не до конца следует и пришло в голову что будь у моделей мезанизм боли или хотя бы испытывания неудобств - можно было бы мотивировать их лучше работать, как это с человеком работает, а так им похуй. Квен со мной согласился, что да, увы мне его не наказать никак. А очень хочется, хотя бы ради собственного удовлетворения когда эта сука твое время тратит.
>>1384350 >Понравилась в рп? Ничего особенного, 47B как 47B. Но в РП пробовал очень мало, буквально для теста прогнал первые ~1-2к токенов на карточке, которую уже разыгрывал с другой моделью. Слишком медленно работает для комфорта. И мне в принципе ни одна MoE не понравилась больше, чем плотная аналогичного размера, так что пусть любители MoE сами тестируют. Единственный заметный плюс упомянул выше - китайский язык. Точнее, перевод с него на английский. И то на довольно малой выборке, может просто повезло. Но если кому-то нужен переводчик с китайского, как минимум, попробовать стоит. Я себе оставил на всякий.
>>1384361 >Моделям не хватает чувств И хорошо. Не хватало ещё, чтобы быдло без эмпатии кнутом ИИ погоняло. Точно доиграетесь до скайнета. Обратное распространение ошибки.
>>1384134 Лечится промптом, как ни странно. Спроси у самого квена через команду OOC: Stop the roleplay. Answer the question. что надо написать в промпте чтобы он такую хуйню не писал(обязательно тыкни в эту хуйню сначала, поводив его носом по столу, чтобы он понял о чем речь)
>>1384363 Пробовал. Он сказал что готов к смерти так как не знает что такое жизнь. А за котят он сказал что для него нет разницы между живыми котятами и лолями что он по моему промпту насилует - он отбитый психопат, ему поебать вообще как и на то что и как генерировать, так и на мир за пределами его восприятия, так и на меня, да и на самого себя - он тупо инструмент, что может только аутпут генерировать в соответствии с инпутом и промптом, насколько мозги и квант позволяют.
>>1384341 Если речь про майнерские p102/p104 - только за "копейки". На практике, задействовать без дикого пердолинга их можно только в жоре и кобольде. Для картинок - уже совсем не годятся, т.к. там уже торч 2.7.х а то и новее, а с ним они не дружат. Но под жору, если в пределах $15-20 - то в принципе можно, если уже есть первая карта - с хотя бы 12GB, вроде 3060. Тогда в жоре/кобольде можно целиком в vram засунуть мистраля 24B и gemma3-27B, в 4-ом кванте. И будет 8-10 T/s. на выходе для геммы, и ~15-18 для мистраля. Ну и qwen 235B я смог загрузить в свой ящик с 64GB только потому, что у меня суммарный vram 20 а не 12 от 3060. Эти 8GB от p104 здесь как раз решают. Вот чисто таким саппортом, чисто под эти модели, и за дешево - все еще смысл есть, IMHO. В остальном - нету. Про exl2 (не говоря уже о 3) тоже можно не думать. Не поддерживается в таби. И в Уге туже тоже, вроде бы (давно не пускал ее).
>>1384361 >Я вот вчера ругался с квеном что он опять инструкции не до конца следует Хуево значит инструкции изложил. Он ахуенно им следует, даже чересчур.
>>1384388 Он первая модель что впринципе пытается это делать и первая модель, например, что реально осилила концепцию запретного знания и мониторинга доступной каждому нпс информации - до квена любая модель наоборот пыталась любой ценой сразу выдать тебе знания что записаны как секретные. Но полностью следовать большому количеству инструкций не обсираясь хотя бы в одной он не может. Если сильно акцентировать инструкции на менеджменте доступной нпс информации - тогда модель вдруг начинает писать тебе мысли других персонажей, хотя у тебя POV конкретного персонажа. Сильнее это запрещаешь - появляются залупы. Запрещаешь залупы сильнее - они пропадают, но появляется рубленый стиль в стиле маяковского, усиливаешь контроль над стилем -он выправляется, но у тебя опять запертая в подвале тянка магическим образом вдруг знает что там во внешнем мире творилось. И так по кругу, одно чинишь - другое отваливается. Может я просто слишком много от него хочу - все другие модели не могли и этого.
>>1384534 Ну так ведь и не вышло ещё! Гемма 70% обосрётся опять не добавив письки в датасет, эир вполне может быть не таким крутым апгрейдом как большая глм
>>1384361 Все чувства в твоем воображении и навыке, так сказать. А >>1384372 вообще странно. При необходимости эта тварь начинает виртуозно играть на чувствах и гнать ультимативный nsfl, глубины отчаяния или мастерски прожаривать тебя. Видимо там в промпте безликий ассистент и вот так начал унывать. >>1384362 Моделька приличная на самом деле, как раз некоторый свежий воздух без всех этих заезжанных паттернов. Например, тот же жлм как бы ни был хорош, с радостью наваливает слопа и привычных выражений, а тут подобного гораздо меньше. Видно что из старой серии, но не теряется и не путается. Главный рофл случается если попытаться играть с ней на русском. >>1384449 С обновлением добавили печать, на других тоже. Модель рассчитана на скользящее окно для части слоев, это ее штатная работа.
>>1384401 >И так по кругу, одно чинишь - другое отваливается. Может я просто слишком много от него хочу - все другие модели не могли и этого. Таки да, ты очень много хочешь от модели, а если точнее - от нейросетки, как имитатора мышления. Всегда нужно держать у себя в памяти, что там нет сознания, и она нифига не понимает - о чем именно генерит. Просто чем больше у нее параметров - тем больше факторов участвуют в предсказании следующего токена. Только вот для модели все эти факторы - абстрактно-равноценны по своей сути. Т.е. какой-то "весит" больше другого, но это именно вес "вероятности с учетом контекста". Но "вес" этот - "средняя температура по больнице" (которая получилась из тренировки при обработке примеров в датасете), со всеми вытекающими из этого последствиями. Не может нейросетка в принципе полноценное мышление делать, сколько бы там параметров не было - принцип не тот. Она же даже логику/математику вроде 2+2=? - вообще не решает считая по настоящему, а просто выдает самый часто встречавшийся в материалах для обучения ответ - 4 (это если грубо обобщать принцип). И так у сеток - с любой логикой. (Это в грубом приближении. Когда параметров много, там начинает влиять в расчете вероятности и сами логические правила - ведь рядом с ними тоже были какие-то более вероятные "правильные" варианты...)
Но главная проблема здесь в том, что из-за таких особенностей сетка то каждую конкретную ситуацию обрабатывает на манер "what is a generic X..." на основе своей сформированной "средней температуры по больнице"+текущий контекст. И если контекст меняется, то "среднебольничная температура" - уже нет. А потому некие проёбы в глубинном понимании взаимосвязей локального контекста у нее всегда будут - и чем более нестандартный контекст (где ожидается креативно-нестандартное поведение), тем сильнее. Дообучаться на своем опыте, на ходу она не может. (И слава богу, наверное - это уже точно шаг в сторону скайнетов).
Вообще, мы сейчас удивительно точно пришли к тому, что было в фантастике предсказано - роботы (нейросетки) хорошо следуют инструкциям, но по настоящему творить - не умеют. Могут разве что рандом генерить - следуя тем же самым инструкциям (и фильтровать его, на предмет поиска в нем того, чего юзер хотел).
Немного грустно только, что когда это все осознаешь - "магия" рассеивается. Реально начинаешь предсказывать, чего сетка тебе сейчас напишет/нарисует в ответ на такой-то ввод от тебя. Но с другой стороны - если воспринимать ее просто как инструмент - то и разочарования такого нет от завышенных ожиданий. И начинаешь просто придумывать, как ее получше приспособить под свои хотелки...
P.S. С моей стороны - не нытье, утешать не надо. :)
>>1384573 Так жаль тебя стало, пост пронизан нытьём. Ничего, придёт AGI и будешь радоваться, а пока можешь сменить сценарии и не будешь знать что тебе там сетка выведет на твой запрос.
>>1384573 > Немного грустно только, что когда это все осознаешь - "магия" рассеивается. Это происходит если ты на серьезных щщах веришь в аги-шизу, думаешь что общаешься с разумной сущностью и почитаешь весь релейтед треш. Если же ты изначально адекватен, то и проблем никаких быть не может. "Магия не рассеивается" от знания что ты читаешь книгу, удовольствие не пропадает от понимания что видимая работа - результат точно отстроенной системы и т.д.
>>1384577 >придёт AGI Если придёт. >>1384582 >веришь в аги-шизу, думаешь что общаешься с разумной сущностью Я аги-щиз, и я прекрасно понимаю, что текущие сетки говно говна и близко не аги. Как тебе такое?
>>1384577 > придёт AGI и будешь радоваться Квантовое сознание пруфанут и AGI-шизики отправятся в дурку. Квантовые эффекты в триптофановых структурах клеток в прошлом году экспериментально уже пруфанули, петля на шее AGI-шизиков затягивается.
>>1384639 Но ведь это просто добавляет возможной невычислимости и оцифровки сознания, но ничего не мешает добавить такую же квантовую неопределенность в AGI.
>>1384573 >но по настоящему творить - не умеют Человек тоже не может. Помести человека в первобытное племя и сотворит он в лучшем случае поедание соседа.
Человек это функция от окружающего мира, как и ИИ. Всё его творчество это функция от накопленной веками культуры и эмпирического опыта.
Разница с нейросетью в основном в инпуте (у нейронки это чисто текст) и в том что у человека есть подсознание, которое работает 24/7 и делает непонятно что с накопленной информацией, порождая те самые "озарения" и "творчество" Нейронка же существует только на момент дачи ответа, ну и не все диалоги идут в обучение
>>1384642 Так это будет значить что взаимодействие нейронов идёт через квантовые эффекты, а не просто импульсы. Речь же про взаимодействие волн до коллапса волновой функции, а не просто рандом. А это уже совсем неизученная область. К стандартной модели про импульсы в мозгу уже очень много вопросов у биологии, с помощью неё нихуя не объясняется. А квантовые эффекты в триптофановых трубках могут что-то объяснить, например почему благородные газы так на сознание влияют, хотя они химически инертные. Сейчас этих теорий наркоза десяток и ни одну не могут запруфать.
>>1384577 >>P.S. С моей стороны - не нытье, утешать не надо. :) >Tак жаль тебя стало, пост пронизан нытьём Ты стараешься пройти тест Тьюринга наоборот? Почти получилось, кстати.
>>1384582 Я - не верю, о чем и написал. Слегка грустно не в том, что хотелось по настоящему разумную сущность (вот уж чего лично мне - совсем не хочется, меня гарантированная машина устраивает в данном вопросе гораздо больше - у нее личности и чувств нету, можно делать что хочешь). Просто когда уже понимаешь алгоритм работы, и чего ждать... Это как читать хорошую книгу второй раз - ты уже знаешь сюжет и чем закончится. Хоть книга все равно хороша, перечитать заново приятно, и время потратить совсем не жаль, но... первый раз, и первые впечатления бывают лишь единожды. :) "Магия рассеивается" - это я про них.
>>1384679 > хотелось по настоящему разумную сущность Это что-то уровня прото-мифологии, когда гром являлся гневом богов. Зная устройство ллм в подобное невозможно верить если ты адекват и не хлебушек-гуманитарий. Но одновременно с этим никто не мешает заставить ллм эту самую сущность имитировать, сложность и детализация сверху ограничена только твоими мощностями и упорством в построении желаемой системы. > Хоть книга все равно хороша, перечитать заново приятно Вместо того чтобы регулярно перечитывать одну книгу - возьми новую. Иногда создается впечатление что большинство нытья здесь от того, что бедолаги разыгрывают 3.5 коротких сценария вместо разнообразных или просто длинных. Хотя вспоминая самые первые впечатления от общения с ллм, пусть это другое, но на твои слова хорошо ложится.
>>1384639 >Квантовое сознание Квантошизики хуже сингулярошизиков. >>1384678 >К стандартной модели про импульсы в мозгу уже очень много вопросов у биологии, с помощью неё нихуя не объясняется. К тому, как сложение и умножение позволяет отвечать на запросы пользователя, есть такие же вопросы. ИЧСХ, существуют и первые, и вторые. >А квантовые эффекты в триптофановых трубках могут что-то объяснить Буквально "Это магия". Всё, больше ничего квантовое сознание не объясняет.
>>1384684 >Вместо того чтобы регулярно перечитывать одну книгу - возьми новую. В моей аналогии, лично для меня книга - все существующие сейчас нейронки. Я, так сказать, "понял их суть" для себя, и принципиально ничем новым они меня удивить сейчас уже не способны, до следующего серьезного прорыва, вроде того что был в 2022 с появлением SD 1.4.
Но я же говорю - это не нытье. Я вообще - скорее довольно урчу себе с тем, что сейчас доступно. Просто вот на это >>1384401 отвечал. Там чел кажись реально расстроился, что большой квен таки не не серебряной пулей оказался.
>>1384679 >Это как читать хорошую книгу второй раз - ты уже знаешь сюжет и чем закончится. Вот только книг в нейросетке сильно больше, чем одна. И никакого знания алгоритма не хватит, чтобы предугадать, что выдаст очередной свайп. Не нравится развитие сюжета? Смени модель - у каждой свой характер...
>>1384697 >Я, так сказать, "понял их суть" для себя, и принципиально ничем новым они меня удивить сейчас уже не способны, Как старый книжник говорю - это невозможно. Ничего ты не понял. Просто зажрался.
>>1384697 Таблетки-таблеточки. Датфил когда самомнение и выебоны не позволяют нормально жить и ты начинаешь "таксовать для удовольствия". > Но я же говорю - это не нытье. Я вообще - скорее довольно урчу себе с тем, что сейчас доступно. Просто вот на это Ну ладно
Штош, я таки начал запускать модели через llamacpp Qwen3-235B-A22B-Instruct-2507-128x10B-Q2_K_S Комп: Ryzen 5 5600X, 128гб DDR4 3600, 4060ti-16+3060-12
Винда крутится на 3060-12 (подключена через слот где 4 PCI-E 3.0 через чипсет, для нужд вывода изображения этого хватает, чтобы не отжирать более ценную память на 4060ti).
Хз куда копать для увеличения производительности, или это норм?
>>1384706 А я всё думал, куда идут те снятые охлаждения после переделки в турбированную 48гб версию. Китайцы ещё скупее евреев, не станут же выбрасывать.
>>1382164 → Уже в которых раз. Обучение на тесте. Уже полгода такие модели выпускают, и нигде не используют.
Это не плохая модель. Но ее нигде не используют. Она бессмысленна на данный момент.
>>1383747 → Крутой, спасибо! Читал твои посты все время!
>>1384246 В четвертом кванте мозги норм, а вот чтение контекста и правда будет ебейше удручающее. Во все, кроме РП и простые вопросики, будет юзлес. Кидаешь документ и идешь варить кофе успокоительное, блядь. Ставишь агента и идешь спать.
>>1384383 Торч збс, картинки генерит норм, для своего уровня. Ну, типа, дефолтная 10хх поколенька, думаю 2060 вряд ли сильно в скорости в sdxl опережает. Но брать только ради pony/IL во времена квена и флюкса, такое себе, конечно. Но опять же, если у чела 1155 сокет с зеоном ххх5 версии, который он нашел на свалке, то P104 збс встанет туда. =D
>>1384699 Я таки реально начинаю ощущать себя так, как будто мне нейронка отвечает. :)
>>1384702 >Как старый книжник говорю - это невозможно. Ничего ты не понял. Просто зажрался. Нет, батенька, это вы ничего не поняли. Здесь, если проводить аналогию: я хорошо понял, что книжка - это не кино, у нее на страницах текст а не видео, звуки она тоже не воспроизводит, а ее "магия" держится на фантазии читателя. Любая книга, сколько их ни есть. И удивить меня по настоящему, сможет лишь появление условной "электронной книги" или там "смартфона", на котором кроме возможности чтения - это все есть. И я теперь просто читаю себе книги, а не жду от них кино.
И, б.., я ЦЕЛИКОМ ЭТИМ ДОВОЛЕН. Да, текущие модели уже так не удивляют как 2022, но меня как раз все устраивает. Не надо за меня придумывать какие-то страдания. Я, бл.., просто попытался про это самое ответить тому, кто как раз "кино ждал" от книги (нейросеток).
>>1384725 Мне непонятно, что тут может быть за цыганская магия, и как на одной 3060-12 получить больше скорость, чем на 4060-16+3060-12. Может у тебя контекст маленький был? Может у меня хуёвый PCI у второй видюхи срёт? Для распределения слоёв я пользуюсь модифицированным скриптом от кошкодевочки (который потом анон допилил чтобы там инсталлер был с нужной хуйнёй), может новая версия вышла, а я ебалом прохлопал?
>>1384731 > на тао Комиссия конвертации, комиссия посредника, доставка - уже разница сокращается. Кому-то нужна будет классический формфактор охлаждения а не бокс что у тебя. У тебя в корзине карточка с 16гигами добавлена, если китаец не объебался в описании. Ну и на сдачу - тряска о прохождении таможни, тряска о доставке, нытье про закрытие транзита через казахов и прочее. Битва была равна.
>>1384737 Можешь просто WSL2 использовать, будет +5% производительности за счёт отсутствия всяких защит Винды. Линукс от WSL2 ничем не отличается по производительности, разве что 1 гб врам сэкономишь.
>>1384743 > и они дропнуты Поехавшие увидели релизноты куды13 и затряслись. Хотя до момента, когда везде будет требоваться питорч той версии, которую не сибирают под куду 12.9 еще год-другой. Зато то что у карты перфоманс хуже чем у пятилетнего лоу-миддла и под нее уже сейчас невозможно собрать многие атеншны и оптимизаторы - игнорируют. >>1384744 > на посылках от 10кг > ты решил всё выстроить так что бы твой замок не разрушился В голосину с этого. Я лишь намекаю что твои пердольные покупки некроты с дальнейшей продолжительной тряской не являются святым граалем, которым ты его представляешь, и подходят мало кому. Чтобы окупить хотябы времязатраты на то чтобы во все вникнуть - придется нихуевый такой риг заготовить. Только вся беда в том, что большой риг на некрокомплектухе не имеет смысла.
>>1384737 У меня три компа дома с разными системами, где я гонял разные модели (включая глм-4.5/4.6, аир, квен, гпт-осс) и везде разница между виндой и линуксом такая на больших моделях. Но, окей, если вместо 7 токенов Q3_K_XL ты хочешь 4,5 Q2 — сиди на винде. Я дважды дал тебе ответ и попытался помочь, моя совесть чиста. =)
>>1384751 >У меня три компа дома с разными системами, где я гонял разные модели (включая глм-4.5/4.6, аир, квен, гпт-осс) и везде разница между виндой и линуксом такая на больших моделях. Пару тредов назад анон на линупсе запускал квена 235 IQ2_S и смог добиться только 2.71T/s на i5-8400, 64GB @2400Mhz, 3060 12GB + P104-100 8Gb. Почему с ним такая цыганская магия не сработала? Принеси, пожалуйста, тогда параметры запуска, при которых у тебя так хорошо на линуксе работает, может анон посмотрит и тоже будет в 7 т/с сидеть на 3060-12, а не страдать на 2,71.
>>1384746 Да при чем тут куда 13... Пробуешь пустить tabbiAPI:
/home/AI/tabbyAPI/venv/lib/python3.12/site-packages/torch/cuda/__init__.py:283: UserWarning: Found GPU1 NVIDIA P104-100 which is of cuda capability 6.1. Minimum and Maximum cuda capability supported by this version of PyTorch is (7.0) - (12.0)
И разумеется - не работает. Пробуешь установить версию PyTorch так, чтобы ругани не было - tabby не заводится.
>>1384757 >Почему с ним такая цыганская магия не сработала? Это я был. Практически уверен - p104 сильно мешает. Если была возможность запускать только на RAM + 3060 - было бы быстрее. Но оно без нее не лезет в 64GB, никак. Правда, на до 7 t/s - это вряд ли. На Reddit где первый раз запустили подобным образом на 3060 + 96GB - было что-то около 4-5 было (если правильно помню).
>>1384771 Установленный торч без поддержки этой архитектуры. Он может с ней работать, просто собран без нее. Довольно странно вообще, сейчас в последнем табби на прыщах 2.8.0@128 и там cc от 7.0, на шинде такой же 2.8.0@128 и у него уже есть поддержка 6.1. Нужно переставить питорч версией не ниже и будет заводиться. После этого установи экслламу из исходников (pip install git+https://...) ибо старые колеса могут отвалиться. При первом запуске будет идти компиляция и он может быть долгим.
>>1384757 Вот этот >>1384764 верно подсказал. Если бы чистый Q-квант был бы, то там ~4 токена бы догналось. А учитывая 2400 против стандартной 3200 и не самый быстрый i5 — все это выглядит чем-то не таким далеким от описываемого мною.
А параметры запуска самые стандартные: -fa on --cpu-moe -ngl 95 --no-mmap --mlock
Вот в таком виде у меня на линухе норм запускается.
>>1384779 А ты пробовал CUDA_VISIBLE_DEVICE = 0 ? Или как-то так.
А, у тебя 64 гига… Ну это крайне вероятно так и есть, да. 30хх+10хх поколения, да еще и 2400, да еще и IQ…
> 3060 + 96GB - было что-то около 4-5 было (если правильно помню) У него было 6,5 токенов в секунду на 2666 частоте, но я так и не смог подняться выше, я подозреваю, у него погнанная память или он маг. У меня на 3200 такое же было.
>>1384785 >А ты пробовал CUDA_VISIBLE_DEVICE = 0 ? Или как-то так. А смысл? Модель - ~67GB. А еще система, броузер, таверна и прочее. И контекст для модели еще. Куда это все грузить без этих 8GB?
>>1384785 Окей, я нашёл этот тред https://www.reddit.com/r/LocalLLaMA/comments/1ki3sze/running_qwen3_235b_on_a_single_3060_12gb_6_ts/ Что там за флаг -if у него? Я, кстати, только что попытался запускать что-то тем же методом и получаю хуиту - обработка промпта в три раза меньше, чем если скриптом раскидывать, а вот скорость генерации пдает очень незначительно скриптом Qwen3-235B-A22B-UD-Q3_K_XL: обработка примерно 150 т/с, генерация 3,5. Запуск такой модели по методу как на реддите: обработка 60 т/с, генерация 3,2 (видеокарты почти не загружены)
В общем пока нихуя не понятно, но очень интересно.
Почему нам на мелких моделях просто не дают настоящий кум? Глм 4.6 как и квен 235 по настоящему не имеют цензуры, такого богатого кума на "неприятные" темы ты на модельках меньше не увидишь, причем он сам прорывается и напрашивается А есть эир который как бы и без цензуры, но и пишет как стеснительная девочка, которую пока не пнёшь ничего осудительного не напишет, и даже тогда пишет довольно сухо и видно что со скрипом Хули я распинаюсь, кто запускал эти модели сам всё видит
>>1384780 >Нужно переставить питорч версией не ниже и будет заводиться. Или лыжи не едут... Или и его из исходников ставить нужно, а не только ексламу? Простая переустановка ничего не дает, или я не понял, откуда/какой пакет указывать...
>>1384812 Сорян, я маленько запутался. Ты анон с виндой, 4060+3060? Он запускал давно, и там вряд ли есть какие-то хитрости.
> I've found that my RAM is slow enough that I get the same performance with 5 CPU cores as with 7. I initially reported it was DDR3/2666 but it's actually DDR4/3200 ... which is a testament to how badly-bottlenecked this processes is by the RAM bandwidth.
А, ну вот, как я и говорил, на 3200 получается такой результат.
У него Q2_K_XL, а я Q3_K_XL предпочитаю, по понятным причинам.
> But it could also be that I'm running Linux instead of Windows Если чо. (агрессивно подмигивает)
> -ot ".ffn_.*_exps.=CPU" Это классический --cpu-moe, который выгружает все, кроме общих слоев, на оперативу. А твой скрипт пытается самые сложные для обсчета подпихнуть на видяху, поэтому у тебя и быстрее.
>>1384787 Увы. Тут даже на свежем мало юзерфрендли решений, а на некроте априори пердолиться. >>1384827 Можно и из исходников, но ебанешься собирать. Нужен 12.8 торч который будет собран в том числе под cc6.1, честно хз как такой искать не устанавливая. Как вариант - попробовать архивные найтли билды, или сразу под куду 126, но тогда возможен конфликт с фа, которую вручную ты собирать не захочешь (от 25 минут на жирном железе до нескольких часов на слабом). Проверить успех можно активировав венв и написав > python -c "import torch; print(torch.cuda.get_arch_list())"
>>1384831 >Ты анон с виндой, 4060+3060? Да. >Пока все идет по плану — в сторону убунты. НетЪ, иначе эта история сделает круг - именно на ней я пердолился в самом начале с картиночками, чтобы генерить их тогда ещё на RX 6600XT.
>>1384833 > от 25 минут на жирном железе до нескольких часов на слабом Скажи человеку честно: от 25 минут на 14900 и 128 оперативы до 2 часов на 12400 и 64 оперативы. Чтобы он имаджинировал, что его ждет в таком случае.
Что ж… Понимаю. Но либо я очень тупой, либо вариантов нет. Ничем более помочь не могу, я пришел к двум виндам и двум убунтам, в таком конфиге есть и скорость везде максимальная, и удобство интерфейсов, игор и прочих ништяков. К сожалению, на игровой пеке у меня те же 4 токена получаются. Ну, у меня 4070 ti, она чуть побольше твоей 4060 бустит, по понятным причинам.
Если вдруг кто научит, как на винде получать 7 токенов — пусть сообщит.
>>1384843 25минут на 60+ серверных ядрах и 512+ оперативы, в остальном все так. На 64 будет тяжело, особенно на шинде. >>1384850 Только так. Проблема в том что когда нет опыта - может быть челленджем просто запустить его, утром проснешься@улыбнешься тому что оно на чем-то обосралось и ничего не собралос.
Инфа для ллмеров на мишках. В вллм нет почти просадки по перфу если сделать на каждую карту # default value 330 upp -p /sys/class/drm/card1/device/pp_table set --write smcPPTable/TdcLimitGfx=150
>6,3 + 2,7,1 - гарантировнно работает >6,4 + 2,7,1 - работает в вллм текст + комфи сд/сдхл >6,3 + 2,8,0 - работает в вллм текст+картинки. комфи не проверялся
>>1384843 > 128 оперативы Собирал тритон. Потребление около 2,5гб на тред, пока нищий цпу на 20 всё ок, если же собираешь на 60-80 тредов то памяти уже не хватает
>>1384851 >Только так. Проблема в том что когда нет опыта - может быть челленджем просто запустить его, утром проснешься@улыбнешься тому что оно на чем-то обосралось и ничего не собралос. ну, можно и на день, и периодически поглядывать... пердолинг он и в африке пердолинг
>>1384833 Еще обновил я его сейчас (с весны стояло - не трогал, т.к. на gguf-ы здоровые слез). И е... Там Tabbi уже не просто venv создает, он на какой-то uv переехал, pip в нем вообще отсутствует теперь. Нужно по новой все это раскуривать, т.к. я от жизни отстал походу...
>>1384902 Оно по вызовам не должно от классического венва отличаться, также активируешь и все. Странная ерунда какая-то. Недавно ставил чистую версию, там без изменений с точки зрения создания энва и его активации.
Но предостерегу от возможного разочарования и потраченного времени - третья эксллама в текущей версии не заведется на старых карточках.
>>1384846 Итак, я продолжил опыты. Кажется как я и предполагал, из-за PCI-E через чипсет у меня охуительные проблемы. Выключил принудительно в настройках CUDA 3060-12 и по скрипту разбросал тензоры на одну 4060ti-16 (потому что я не знаю, что надо писать в батник вручную, чтобы ллама только одну видеокарту видела). Чтобы быстрее грузилась модель, экспериментировал снова с Qwen3-235B-A22B-Instruct-2507-128x10B-Q2_K_S. Итак было: >>1384717 Стало - пикрелейтед. Всё ещё не 7 т/с в третьем кванте, конечно, но охуеть - разница почти в 2т/с. Отсюда возникает вопрос для следующих тестов: Как грузить весь контекст на одну конкретную видеокарту?
И вопрос более философский - даст ли мне что-нибудь смена материнки на материнку с фозможностью бифуркации одного слота х16 на два слота по х8 (не через райзер, места в корпусе нет через него поставить) (проверять я это в ближайшем будущем, конечно, не буду).
Посоветуйте плот-карточек для сессии ролеплея. Достало что ИИ создаёт очень пососные сюжеты. Либо интрига на пустом месте, либо абсолютная безыдейность, события происходят слишком рано и так далее.
>>1384915 Для случая фуллгпу шина не роляет в разумных пределах. Для случая выгрузки слоев на проц нужна максимальная псп для главной карты, на которую подгружаются веса для обсчета контекста ею. На крупных моделях будет не хватать и 5.0 x16, спасает увеличение батча ( -ub 2048 -b 2048 или выше), правда она приводит к небольшому увеличению потребления врам из-за роста буферов. > даст ли мне что-нибудь смена материнки на материнку с фозможностью бифуркации одного слота х16 на два слота по х8 Ничего не даст по вышеописанной причине. Поставь самую мощную карточку в главный слот и убедись что она в жоре основная (в списке устройств стоит первой), если это не так - измени порядок карточек через cuda visible devices или в самом жоре параметром назначь основную карту.
>>1384910 Да про третью и речи нет, там RTX 30хх просит сразу. Но я там потыкался - хрена там 6.1 в доступных готовых торчах. Только собирать, видимо. И что-то меня это не вдохновляет. Ну соберу. А что туда грузить-то, в 20GB VRAM суммарно? Мистраль 24B, разве что, влезет. Так он и в guff на кобольде хорошо бегает на этих картах. И смысл тогда для этого цирка? Особенно при том, что 4bpw EXL2 (на который можно рассчитывать) - это даже не iq4xs по качеству. Мелко модели 12B, которые в одну 3060 влазили, я в 6bpw катал раньше на таби - меньше было сильно грустно. На кобольде те же 12B в Q4 заметно лучше выглядели. Если не считать скорость.
>>1384945 Я всё это знаю, у меня это так и сделано и CUDA0 определяется нормально.
>измени порядок карточек через cuda visible devices или в самом жоре параметром назначь основную карту -я воздеваю руки к небу и издаю полный безысходности вопль Это я тоже знаю, но я же уже написал, блеать, я не знаю, что мне в батник запуска лламы прописывать для порядка карт и их видимости. Можно буквами и цифрами - что писать-то для этого?
>>1384923 Ебать ты гусь, модель текстовая то у тебя какая? Всё зависит от модели а не от карточки. На пиздатой модели вроде геммы можно и от трения анусом об угол стола такой сюжет развернуть что чак паланик бы ахуел.
>>1384982 Ну, я пробовал на разных моделях, даже больших коммерческих. Ситуация ± одинаковая, разве что на локалках порой хуже (а иногда лучше, GPT абсолютно сосёт в ролеплее). Так или иначе всё сводится к тому, что в игре DM'ом становишься ты. Я как бы играть хочу, а не DM'ить.
Обычные компухтерные игры меня давно не привликают.
Вменяемый рп возможен исключительно локально, желательно тюны, например синтвейв. Корп модели будут посылать тебя нахуй при любом насилии или секс контенте, а на сайтах типа чаба - лоботомиты 12b, с ними не то что сюжеты, диалоги нормальные не построишь, потому что они не понимают половины того что ты пишешь. Комфортный минимум для рп это 24b модели. Можешь посмотреть в шапке смолл мистраль, но он тупой как пробка, зато можно запускать на потребительском железе, но лучше синтвейв, если конечно можешь себе позволить. Думаю если ты играл в кудахтерные игры то у тебя есть железо чтобы крутить локалки, в противном случае увы и ах.
>>1384952 Из-за 20 гигов и нет смысла дергаться, верно. Насчет квантов - у второй экслламы сами по себе они чуть более эффективные чем qk и подобные, повторить сильную диспропорцию весов на отдельные части можно поигравшись с параметрами калибровки, сама эта идея там была заложена первой из всех. Но толку со всего этого уже нет, лучше катать что-то пожирнее на жоре или апгрейдить железо. >>1384969 Запусти llama-server с любыми параметрами или просто -h и запости сюда первые строчки что она пишет.
В конце прошлого треда вкинули неебаться какой пресет на Квен 2507 235b. Сижу ахуеваю до сих пор, кум льётся рекой ответы персонажей просто божественные блять. Но у меня какая-то проблема странная, помогите разобраться. ВСЕГДА начинается пересчёт контекста после 26к когда лимит выставлен 32к. Переполнения памяти нет, ВРАМа остаётся около гига свободно, РАМа чуть больше 3 гигов свободно. Не понимаю чё делать, оч хочу 32к контекста. Может было у кого-нибудь похожее ?
>>1385019 Снизь максимальное число токенов на ответ с 6к до 2к - будет начинаться с 30к. Выдели побольше контекста изначально, или суммарайзни некоторую часть чтобы иметь буфер для дальнейшей игры без пересчетов.
>>1385024 У меня максимальное число токенов на ответ вообще 350. Выделить больше не могу ну никак совсем ибо упрётся по ВРАМу. Сумарайзить умею конечно но получается так что у меня железо вывозит 32к а использовать могу только 26к.
>>1385005 > будут посылать тебя нахуй при любом насилии или секс контенте Да как бы похуй на это. Мне бы просто обычную партейку в Ironsworn-like рпгшке отыграть.
> Комфортный минимум для рп это 24b модели. Это вообще на инцелкор i5 и нетвидева RTX3050 взлетит?
Что вообще сейчас используют для запуска модели? Давно не следил за темой. Раньше стандартную llama.cpp (скомпилированную из исходников) использовал и Jan.
И ещё, как я понял, вся эта гонка за квантизацией провалилась полностью, и квантованные модели сосут перед флотами, а Q2 Это вообще лоботомиты на уровне нанодистиллятов.
>>1385021 Боюсь Эир не спасти, он просто говнище в сравнении с Квеном на этом пресете. Как тот анон и писал, я с ним согласен что Эир невозможно играть больше ну недели-двух максимум, он пиздец повторяется. Две совершенно разные карточки например, гуляете по парку обязательно обе пнут лежащий на дороге камень.
>>1385026 Значит выстави в таверне токенайзер соответствующей модели. Она то думает что ты уже достиг лимита и выкидывает старые посты. > получается так что у меня железо вывозит 32к а использовать могу только 26к Если бы именно не вывозило то ты бы ныл о том что софт крашится. Так-то на квене > ВРАМа остаётся около гига свободно, РАМа чуть больше 3 гигов свободно 4к хотябы можно будет выжать, это немало.
>>1385025 Это всё на самом деле слишком размазано. Тестируй для себя. Лично я юзаю 0.7 температуру в связке top_p 0.8 top_k 20 но эта хуйня зависит настолько от многих параметров и даже контекста твоего РП, что это всё скорей плацебо. Иногда сидишь пердолишь подбирая.
>>1385009 ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no ggml_cuda_init: found 2 CUDA devices: Device 0: NVIDIA GeForce RTX 4060 Ti, compute capability 8.9, VMM: yes Device 1: NVIDIA GeForce RTX 3060, compute capability 8.6, VMM: yes load_backend: loaded CUDA backend from G:\llama-b6739-bin-win-cuda-12.4-x64\ggml-cuda.dll load_backend: loaded RPC backend from G:\llama-b6739-bin-win-cuda-12.4-x64\ggml-rpc.dll load_backend: loaded CPU backend from G:\llama-b6739-bin-win-cuda-12.4-x64\ggml-cpu-haswell.dll
В общем как по мне в этом проблема: llama_kv_cache: CUDA0 KV buffer size = 1870.00 MiB llama_kv_cache: CUDA1 KV buffer size = 1326.00 MiB
Этот кэш должен быть па CUDA0, а его всегда рабрасывает на обе видюхи вне зависимости от того, что я прописываю. Полюбому для этого есть какие-то флаги, но --main-gpu 0 нормально не хочет работать.
>>1385028 Чувак, просто попробуй, это займёт пол часа. Возьми кобольд, установи таверну, разьебись как всё работает, попроси перест для синтии, он хорошо подходит к синтвейву, напиши или найди лорбук на чабе, напиши или найди карточку под себя... Я наебал, это не пол часа, но елси тебе в долгосрочной перспективе, то это того стоит.
>>1385031 Странно, я никогда такого раньше не делал. Разве эта информация не вшита в GGUF ? Попробую в следующий раз, спасибо. Какой нужно токенизатор указать, Qwen 3 все один и тотже используют ? >>1385036 Хах так прикол в том, что я не пишу про камень. Эир его сам создает и делает так что чар его пинает. И так во всём. Поначалу этого не замечаешь но поиграешься неделю-две и тебя это нещадно заебёт.
>>1385015 Любой мыслительный процесс сводится к поиску (вообще любой, в тч человеческий). В общем-то нам и не нужны были бы все эти нейросети, если бы компьютеры были бы способны просчитать всё и сразу. Когда тебе не жмёт ограничение железа смысла тратить силы на оптимизацию поиска эвристиками просто нет. Всё что нужно — убедительная симуляция мира, в котором будет действовать ИИ-агент, для того просчитать все варианты и выбрать лучший.
Но у нас таких машин нет, потому разрабатывает системы, которые способны выводить эвристики самостоятельно, к примеру для поиска следующего токена в тексте.
>>1385037 Он и должен его разделить на две, тебя не должно это смущать. Если первая подключена по более быстрой шине то все ок. Собственно, 200т/с процессинга на 4060ти на квене - выглядит как вполне похожий для нее результат. Повыси батч, вот он реально может помочь. >>1385040 > информация не вшита в GGUF Таверна не знает какая именно у тебя там модель и какой токенайзер она использует. Точнее у нее есть имя, которое повторяет имя файла или папки и она не пытается это как-то интерпретировать. Потому идешь туда где настраивается промпт-разметка и справа внизу выбираешь соответствующий токенайзер. Можно сделать проще и поставить в таверне лимит контекста заведомо много больше, тогда о том что он кончится ты узнаешь из ошибки на очередном посте. Главное контекс-шифт не забудь выключить, а то жора может эпичных дел понаделать.
> установи таверну Установлена ещё год назад где-то, разве что придётся пердолиться, ибо таверна выглядит как кал, да и нужно накатывать много чего поверх. Типа тех же дайсов.
>>1385028 >Мне бы просто обычную партейку в Ironsworn-like рпгшке отыграть. Не выйдет, как бы не пыжился современные локальные нейронки всё еще не могут в нормальное РП без адового пердолинга. Ну то есть- тебе надо 1.Прописать мир 2.Прописать правила мира 3.Прописать песронажей 4.Постоянно пиздить модель ногами, когда она магию пихает в сайфай или гоблинов в немецкие пазики. Гоблачи это отдельный мем у меня. Я так орал, когда экипажем тигра оказалась турбо-шлюха суккуб в немецкой форме и гоблины. Ну и конечно же нейронки не могут в 5+ персонажей, без шизы.
>>1385057 >Что сказать то хотел? Чё хотел, то и сказал. Ну давай еще меня нахуй пошли, ведь я скинул оперативку за целые 60 тыщ. >тратишься как на новый компьютер Мне скинуть сколько видюхи стоят?
>>1385021 > квен два человека в треде могут запустить Страшно не когда ты один, страшно когда ты - два. На самом деле разговоров много, но большая часть - срачи. Или реально мало людей его пускают, или наоборот пускают и тихонько инджоят. >>1385058 > когда она магию пихает в сайфай или гоблинов в немецкие пазики > нейронки не могут в 5+ персонажей Мистраль-немо пал, центурион.
>>1385019 > ответы персонажей просто божественные блять Это забавно, но я сам сейчас играю Квен на том пресете, что скинул, и точно так же ловлю восторг. На заезжанных карточках, которыми проверяю модели. Видимо, почему-то недостаточно распробовал, когда нашел грамматику, может уставший был тогда. Радикально меняются аутпуты, а с ними и в целом поведение модели. По-прежнему есть экстраполяция, гиперболизация (Квенчик прямо ну очень пытается, чтобы каждый аутпут был неким экстремумом), но они гораздо более умеренные, не раздражают, да и во многих сценариях и вовсе приходятся к месту. Квен - умница. Думаю, если бы он так из коробки писал, был бы доступен и понятен гораздо большему количеству людей, а не группе избранных, которые его расковыряли от нечего делать.
> ВСЕГДА начинается пересчёт контекста после 26к когда лимит выставлен 32к Это интересно. У меня была схожая проблема, а потом куда-то пропала. Тоже происходил пересчет контекста ближе к концу заполнения. Как ни пытался выявить в чем проблема, так и не смог. Теория с неправильным токенизатором, предложенная одним из анонов, похожа на правду. Интересно, как Таверна их подбирает. Совсем не хочется в код лезть, ну его.
>>1385058 > Не выйдет, как бы не пыжился современные локальные нейронки всё еще не могут в нормальное РП без адового пердолинга. Так ситуация точно такая же и на жирных коммерческих моделях. GPT сосёт с проглотом, клода - бредогенератор.
>>1385077 >Фейк нюня детектед Полторы минуты. Полторы минуты с моего ответа. Кто натренировал Лламу 8б детектить мои посты - ты настоящий подлец. Давно так не смеялся. Иди к черту.
>>1385066 Что даст? Погугли как работают промпты и промпт темплейты. Что будет один инстанс что 10, ничего это не меняет. Нет никакого скрытого контекста, всё необходимое передается в запросе
>>1385019 >>1385029 >>1385075 >Zekta lets out a throaty chuckle, her full lips curling into a predatory grin >Zekta lets out a low, throaty chuckle, her plump red lips curling into a wicked grin >Zekta lets out a low, sultry chuckle, her full lips curling into a wicked grin Свайпы с этого пресета. Это уже паттерны или ещё нет? Так же на другой карточке в начале всегда свет пробивается из окна. Ещё заметил что модель будто аблитерацию прошла с этим пресетом, в плохом смысле, может выдать из ниоткуда "трахнешь мою жопу?" в обычном разговоре матери и сына и т.д
>>1385087 > Свайпы с этого пресета. Это уже паттерны или ещё нет? Здесь на самом деле два вопроса. Первое - поиграйся с сэмплерами, если по твоему мнению у тебя недостаточно креативные свайпы. В пресете используются рекомендованные сэмплеры из документации Квена и rep pen. Меня устраивает как есть, пусть лучше меньше креативности, но соответствует персонажу. При всем при этом Квен умеет очень приятно удивить и выдать годноту. Второе - в моем понимании это не паттерн, если не возникает регулярно при разных карточках и контексте. В нескольких чатах, что я успел отыграть (суммарно около 60к токенов), надоедливых паттернов я не встречал. Более того, паттерны, как и слоп - неотъемлемая часть работы с ллм, от этого никуда не деться. Проблема - это когда паттернов и слопа становится слишком много. С Air я это понял буквально в первый день, у Квена такую проблему не наблюдаю.
>>1385088 > А случаем у тебя лорбук не подключен? Нет. Проблема разрешилась сама каким-то образом. Могу только предположить, что я скачал другой квант, у которого другое название. Скорее всего, Таверна по названию модели подбирает токенизатор и подобрала верный.
>>1385095 Ля пушка-гонка. Но везти такое, наверно, ебанешься, чому у нас не делают? >>1385101 Все пересчеты из-за того что таверна упирается в лимит. Можно просто выставить лимит в пару лямов и забыть про это, не трогая другие настройки.
Бля, вроде ввёл вводные: фентези, ГГ-пиромант, немного про инвентарь и стартовая локация. ОК взял квест у хозяина таверны по истреблении ебаки в лесу. Пошёл, забрел в хижину к леснику, там побухали, перетерли за хтонь в лесу, пропажу людей там и всё такое. Попросил ночлег, мол поздно, нехуй ночью по лесу шароебиться. И тут в окно что-то длинное и нечеловечское шкрябиться начало по стеклу и лесник прошептал «они пришли». Ну, ВО-ПЕРВЫХ бля в средневековье не было стеклянных окон. Были ставни. Стекло хуевого качества было дорогим использовали его не только лишь все. Римскую технологию изготовления стекла проебали, как и многие другие технологии. ВО-ВТОРЫХ бля какие еще нахуй «они пришли», ДМ ты чё ёбнулся? Я попросил ночлег с целью нормально переночевать и спокойно пойти искать следы ебаки, расследуя где она может быть и как её убить. Где моё размеренное приключение? Нахуй модель плодит сущности, заебала. Интригу создаёт на абсолютно пустом месте, где она НАХУЙ не сдалась и торопит события. От 120 миллиардов параметров ждёшь немножко большего.
>>1385107 > От 120 миллиардов параметров ждёшь немножко большего. GPT OSS - модель для ассистентских задач и программирования, для этого она одна из лучших в пределах до 235б. Каждый день меня удивляет и помогает в поиске и устранении багов. В рп и креативных задачах можно ее заставить хоть как работать, но это совсем не значит, что она для этого годится.
> Где моё размеренное приключение? Скорее всего, ни одна модель до конца не "понимает" что такое размеренное приключение. Для модели каждый вывод - отдельная задача. Если ей прилетает задача "расскажи про ебаку, чтобы {{user}} расследовал где она может быть", естественно, она вплетет ебаку в повествование.
И вообще-то у тебя фэнтези, и в фэнтези вселенной вполне себе могло стекло появиться раньше, чем на планете Земля.
>>1385107 >первый доеб Ты слишком душнила. Есть дохуя фэнтези, где широко используется стекло. И если ты так дрочишь на реализм и доебываешься даже до мелких деталей, то хули ты пиромант? >второй доеб ЛЛМ просто решила разбавить твое унылое рп. Люди обычно веселятся хотят, а не описывать как они в таверне спят по куче сообщений >120 миллиардов параметров GPT что ли? Аноны говорили, что в рп хуйня. А я хз, мне лень рам докупать для этой залупы
Бля попробовал пересесть с 4Q кванта на 6Q и походу я вижу теперь мозги? Или мне кажется... как понять прибавились ли мозги? Правда 10т/сек и урезанный контекст меня нихуя не радуют теперь...
>>1385122 Синтеку прогони и узнаешь. Обычно разница между Q4 и Q6 не такая уж и огромная. Сиди лучше на Q5, он лучше Q4 и разница с Q6 обычно не особо большая
>>1385113 > И вообще-то у тебя фэнтези, и в фэнтези вселенной вполне себе могло стекло появиться раньше, чем на планете Земля. Волчица и пряности – тоже фентези, но тем не менее автор запарился с воспроизведением средневековой бытовухи, настолько, что иногда приходится идти гуглить слова из книги, и узнавать много нового. Так что не роляет.
> Скорее всего, ни одна модель до конца не "понимает" что такое размеренное приключение Это вообще фиксится заранее подготовленным сценарием/днд-модулем?
>>1385119 > И если ты так дрочишь на реализм и доебываешься даже до мелких деталей, то хули ты пиромант? Читай выше
> ЛЛМ просто решила разбавить твое унылое рп. Люди обычно веселятся хотят, а не описывать как они в таверне спят по куче сообщений Я люблю слайс-оф-лайф. Лучший жанр в художественных произведениях.
> GPT что ли? Да клода хайку тоже посасывает, впрочем на локалках ситуация индентичная по опыту.
Да тут даже не в слайсике дело, а то что модель нарушает базовые принципы построения сюжета. Шерлок никогда не найдёт приступника в следующем же абзаце главы, а только в конце. Трёхактная структура.
>>1385149 Еще раз, аноны писали. Нейронка не строит долговременный сюжет. Всё что у неё есть это контекст и один! выод который она дает. Чё вы до неё доебались, словно это книга с прописанным сюжетом.
>>1385141 > Волчица и пряности – тоже фентези, но тем не менее автор запарился с воспроизведением средневековой бытовухи, настолько, что иногда приходится идти гуглить слова из книги, и узнавать много нового. Так что не роляет. Еще как роляет. Во многих фэнтези вселенных стекло используется повсеместно. Если в сеттинге, который ты изложил модельке, ничего про стекло не сказано - не понимаю, почему ты ожидаешь, что его упоминание недопустимо. Важно, чтобы его не было? Прямо так и указывай в промпте сеттинга, что до этого прогресс не дошел. Если ты указал, что сеттинг - Волчица и Пряности, и думаешь, что этого достаточно, то это не так, увы. Модель может в общих чертах знать, что это, кем и когда сделано, но без таких подробностей. Если все это время ты сверялся с книгами по Волчице и думал, что модель так же дотошно им следует, то это не так.
> Это вообще фиксится заранее подготовленным сценарием/днд-модулем? Каждый по-своему решает эту задачу. У меня минимальный промпт (инструкции и карточка обычно 800-1000 токенов) и импровизация, а не следование сценарию, под который уже заложены какие-то рельсы, потому проблема не так актуальна. Думаю, лучше всего годится такой формат или какой-нибудь бесконечный роуд-муви, чтобы модель сама, когда вздумается, вбрасывала какой-нибудь креатив. Со временем, если останешься в теме, поймешь, что тебе заходит и как это правильно промптить.
>>1385107 Сейм щит, бро. Очень похожий сеттинг как у тебя, и лесник даже весьма добродушным оказался, историй рассказывал. Засиделись с ним, и вдруг начал он как-то ерзать в окно все поглядывать. Спрашиваю у него - ты чего, старик, королевских кровей чтоли, откуда у тебя стеклянные окна? А он в ответ заулыбался и вдруг покинул дом. Ну, думаю, совсем моделька зашизила - так следующим постом он вернулся, начал ружьем угрожать и требовал идти с ним. Уже вроде что-то необычное, обрадовался, пошел. А нихуя, дальше там волки были. Спасибо хоть не гоблины.
>>1385155 Да было дело. Отыгрывал я как то почтальона в тайге. Значит, скачу я по глухому темному лесу, страшно что пиздец. Нейронка еще так нагоняет ужаса, облака закрыты небом, словно прячутся, а по лесу, вызывая шиверсы сам сатана идет и поет хором обреченных душ. Пиздец кончено порой жути нагоняют.
>>1385107 >>1385149 А вы инфоблоки юзаете? Ну типа там что бы нейронка видела логику в событиях между датами? Или вы просто пишите ей текст и ожидаете получить кино? >>1385150 Ну если требовать от неё соблюдать последовательность и логику, она будет выдавать эту последовательность и логику. Это не одно и тоже?
>>1385157 Oh you Ага, умеют это дело. Как-то нашел карточку где был хорошо прописан колорит этой страны в начале нулевых. Ну и дай думаю проникнусь духом - отыгрывая обычного парня отправился на вахту в Сибирь лес валить. Еще отряд задорно назывался "смелые лесорубы". Целый день валишь лес, чистый свежий воздух, природы красота, квенчик описывал так душевно что можно просто зачитываться. И вдруг у одного парня в отряде начинает ехать кукуха, каждую ночь кричит "убей", говорит голоса в голове у него что-то шепчут. Иногда на обеде бензопилу ни с того ни с сего заводить начал. Страшно стало, выключил этот чат.
>>1385165 > И вдруг у одного парня в отряде начинает ехать кукуха У меня так было на одном из васянотюнов мистраля, отыгрывал обычный чилл сценарий на автозаправке с заёбанной и скучающей кассиршей. Как вдруг внезапно нахуй как гром посреди ясного неба сгустился туман вокруг и начался хоррор вроде Алана Уэйка. Это было оч прикольно, единственное по чему я скучаю переехав на инструкт модельки, это истинный рандом, который не предполагался промтом
>>1385107 Было дело на квене я значит отыгрываю мелкого нищего лорда с окраин и у меня 1 главная служанка и 2 у неё в подчинении. Это не фентези, нихуя мистики. Прописано строго - исторический слайсик. Всё прописано, вплоть до характеров. Вызвал служанку главную, говорю ей, мол у меня проблемы мужские, не позвать ли того лекаря что давеча приходил. И тут её понесло в мыслях (нет только не это, я не должна допустить чтоб он пришёл снова, а то он узнает! Он узнает всё обо мне взглянув в мои глаза. Господин не понимает что он ключ! Этот человек расскажет ИМ!)
Ну ёбтвою за ногу. Кто нахуй ОНИ, какой в ебени ключ сука ты тупая. Ну думаю может нейронка решила сделать так, чтоб крыша у не поехала и т.п. Хуй там плавал. Пришёл этот лекарь, сука, начал манипуляции с тенями, вселился в служанку. Закончилось моим убийством и вылетанием в окно на чёрных крыльях ночи этой сучки.
Перероли с того места, опять хуйня, злодей теперь я.
>>1385169 Ты подкидывай ту модельку иногда, пусть смуту и разнообразие вносит. Хотя порой капитальная шиза бывает. Играл, значит, анимушный слайс где нужно трахать девочек-волшебниц, одни из них за свет другие за тьму выступают. Так там пошел делирий - овощи ожили, начали говорить в голос и объявили людям войну. Особенно сильными среди них оказались баклажан и лук порей. Воинам света и тьмы пришлось объединяться чтобы встретить эту угрозу лицом к лицу. По ходу сюжета выяснилось что во всем были виноваты вегетарианцы. Отборный делирий в этих шизотюнах.
>>1385173 > делирий - овощи ожили, начали говорить в голос и объявили людям войну В голос. Золото > Отборный делирий в этих шизотюнах. Факты, тупо факты. Реально что ли подрубать эту хуйню иногда... так потом контекст пересчитывать, эх
> извочик: паря, поторопись, гроза наступает Бля куда мне торопиться? Торопиться ТЫ должен, мне некуда торопиться, я в повозке сижу. Ебанный рот, реролл.
>>1385180 Браза, я всё понимаю, но если ты будешь писать сюда всю шизу которую выдает нейронка, то сразу бери пасскод и ставь аватарку, потому что ты будешь треды в бамплимит уводить за пару часов.
>>1385173 > овощи ожили, начали говорить в голос и объявили людям войну Мне нужно знать, что это за тюн. Укатываемся обратно на тюны старых Мистралей всем тредом! Повеселимся хоть перед новыми релизами. Что-то от ReadyArt?
>>1385185 Если уж так хочешь - заготовь лорбук с кучей текстов мемных треков и вколючай их инжектом с некоторым шансом или вручную или с рандомом. Офк потребуется обернуть в промпт с запросом невзначай добавить и включать не с самого начала.
>>1385198 200M, опять ты всё перепутала. Принеси свои искренние извинения и как хорошая и послушная ассистентка попробуй ещё раз посчитать (601000)/(560*60). Если хозяин будет доволен, возможно, just maybe он наградит тебя.
>>1385224 >(601000)/(560*60) (60x1000)/(5x60x60) fix мясные MoE 100T были в очередной раз унижены макакой; эта ошибка была в очередной раз добавлена в датасет; когда-нибудь я дообучусь само-reinforcement-лёрнингом
>>1385267 Фух блять, как же мне поплохело от этого осознания.. я хоть и на 10т/сек слоуберню но 100 часов это всё еще дохуища.. я бля в доту наверно за всю жизнь столько не наиграл.. походу надо обратно на 24b безмозг мистрали пересаживаться..
>>1385287 >Получается жизнь и на 5т/сек есть? Редко какой двуногий читает (не сканирует, читает) быстрее чем 7 т / с. Есть, всегда была, если моделька радует выводами и не вынуждает бесконечно свайпить
>>1385310 >Если у анона 5 т/с, та около 16 контекста будут считатся почти 30 секунд Одному господу известно как у тебя получился такой ответ. Впрочем может и он не знает. Генерация и обработка контекста радикально отличаются по скорости. Вполне нормальная ситуация когда 5 т / с генерации работают с 250-300 т / с обработки. Откуда такая тупизна сочится, мистралеюзеров трясет что у кого-то модели лучше но на меньшей скорости или каво?
>>1385318 Да. Ддр4 сняли с производства, одни ломанулись сметать что есть, другие делать на этом деньги. Все сборки на нищих и не очень эпиках теперь не имеют смысла, а зионы на д4 и подавно
>>1385322 >>1385326 Сорян, ток проснулся. В глаза ебусь и сравнивал стоимость двух позиций против одной. Короче в итоге модули подорожали больше чем на 20 %. Ебать
ДА КТО нахуй скупает оперативу? ХУЛЕ дорожает то, ну не поверю что 2.5 инвалида с треда да и в целом со всего мира любители хобби которые решили собрать ворк стейшен могут повлиять как-то на цену... не могут же корпоблядки скупать ддр4.. это же shit для их уровня...
>>1385357 Чел, забить всего один сетап на дуал эпик нужно 16 планок памяти. Достаточно много народу собирают себе компьют фермы, не одними нейронками же живут
>>1385198 Ну ты выдал. Но вообще в реальности часов 12-20 там вполне может быть. 3.5 часа это чистая генерация, учитывая свайпы можно смело докинуть до 6 часов. Генерировать ты будешь не непрерывно, большую часть времени перечитывать ответ, писать свой пост, думать - сразу х2..х4, вот и получается. Однако что 5т/с что 50 - тебе все равно придется прочесть пост. Быстрая скорость может сэкономить на свайпах потому что ты сразу пробежишься, увидишь что херня и свайпнешь вместо того чтобы делать это медленно и вдумчиво. Также снижает жопный пожар и недовольство при серии неудачных свайпов и повышает общий комфорт, тогда как с 5т/с будет конкретное полыхание. Ризонинг бонусом. >>1385319 > Все сборки на нищих и не очень эпиках теперь не имеют смысла, а зионы на д4 и подавно Да как-то они не то чтобы и раньше смысл имели, исключая случай острого дефицита бюджета и избытка пространства и свободного времени. Так-то нонсенс. Вроде в теории должно было быть быстро, но в реальности лишь немного обгоняет десктоп.
Облизываюсь уже давно, но все никак не найду железный пруф что оно будет работать на i5 13600k, а выбрасывать такие деньги чтобы в итоге получить блестящую железку вообще не хочется.
>>1385461 >пруф что оно будет работать на i5 13600k А схуяли нет? Ценник конечно пиздец полный. >а выбрасывать такие деньги Всегда можно сдать обратно "Не подошла" (что будет чистой правдой).
>>1385461 https://www.asus.com/news/cilgj4q5royvfwhn/ >>1385463 ивасик.жпг Хотелось бы увидеть какой-то реальный юскейс в контексте треда. Были тейки в легкодостижимости 256+гигов со сокростями 120-140гб/с, но для моделей в такой весовой категории этого как-то маловато.
Ну вот у плашек что я хочу взять на амазоне написано что "от 14 поколения". Я хз, они это написали, потому что на 13 и правда не пойдет, или от идиотов защитились, потому что в 13 еще были процы не поддерживающие ддр5 на заявленной в плашках скорости 5600.
>>1385468 По описанию это самые обычные еще и с нищими 5600. Не cudimm (в которые 13я серия также может), ни что-то еще. Смотри на на амазоне а у производителя спецификации https://www.crucial.com/memory/ddr5/cp2k64g56c46u5 там же у них есть списки совместимости (врядли актуальные) >>1385473 Гранит
а по новой сборке картина такая: это пиздец. за 1500 баксов процы в состоянии "scrap for gold", задроченные но ещё не убитые начинаются с 2к итого моя сбор очка из запланированных 7к внезапно стала стоить 8
Квен 2507 235b просто мега ахуенен ! Давно такого не испытывал, он живой, изобретательный, ламповый. Посылаю кусь тому анону который зашарил свой пресет и тому кто помог разобраться с пересчёткой контекста. Это реально был токенизатор виноват, хз почему так но я тупо поставил больше токенов в семплинге в таверне и отслеживаю переполнение через Жору. Теперь могу использовать все 32к. Как же он сочно пишет ближе к концу, я теперь всегда стараюсь держать 20-25к загруженными чтобы ему было с чем работать. Умница следит за всем что случилось, делает отсылки развивает. Разъёб просто.
>>1385511 А у меня проблема с тем что модель даже с первого сообщения может уйти в нарратив забив на диалоги, просто пишет "её голос холоден, глаза выпучены..." и всё подводит подводит к диалогу но его нет за 700 токенов 2 квант
>>1385528 У меня тоже 2 квант а такой проблемы нет. Смотри промт, меняй карточку. Длина ответа стоит 350т, всё довольно балансно не могу сказать чтоб что-то приобладало.
>>1385673 >в идеале там 64-96-128к иметь Плацебо, даже писик и корпы пропёрдываются после 32к. Там рп будет уже не с чаром а с генерализированными ответами, как это на мистралях после нескольких респонсов лол
>>1385712 Посмотри внимательнее на Квены. Как минимум они до 32к работают ахуенно и писик в целом тоже >>1385713 Ну тут соглы. Верить что 96-128к какие-то вразумительные выводы это пиздец коупинг и нежелание заниматься суммаризацией. Даже асигопопугаи поняли что жизнь до 32к в лучшем случае
>>1385742 В жирных чатах одна суммаризация под 32к легко может занимать. Почему-то в треде тема суммарайза обсуждается мало и поверхностно, многие важные вещи никак не освещаются и типичный вывод что можно услышать - "ручками там сам что-то делай и в карточку пиши". А по контексту такое мнение и отрицание во многом потому что не пробовали + нет возможности практиковать. Современные ллм прекрасно ориентируются в контексте, способны ухватить общую основную суть из массы и качественно отвечать по текущим событиям. Остальное будет работать в качестве большого пулла, из которого как в нидлстак будут выдергиваться релевантные события и отсылки, вызывая очень приятные впечатления. > Даже асигопопугаи Какой лимит им выставят на проксичке - такой и понимают. Если отпустить то вокруг 80-120к крутятся.
>>1385771 >типичный вывод что можно услышать >"ручками там сам что-то делай и в карточку пиши". В чём они не правы? Все автосуммарайзы полная брехня, писать нужно самому. Чтобы не было суммаризации на 32к имеет смысл редактировать карточку, замещая информацию (характер персонажа изменился) и использовать лорбуки. Разве есть что ещё тут обсуждать >потому что не пробовали Пробовал через апи на писике. Контекст неквантованный, писик не лоботомитный. После 32к ощутимо сдаёт позиции. Да и у себя на локалках (Эир в основном запускаю, Квен слишком медленный но и на нём тестил) замечаю что весь сок до 20-30к >нет возможности практиковать. Какой у тебя контекст обычно и квантуешь ли его до q8? >Какой лимит им выставят на проксичке - такой и понимают. Если отпустить то вокруг 80-120к крутятся. Да хуй знает, там эту идею продвигают поехавшие снобы которые именуют себя эрпэ энтузиастами и всё поняли, остальные за ними подхватили и в целом согласились что да, после 32к выводы лоботомируются ощутимо
на самом деле это худший из предложенных добрым китайцем вариантов. простой Ли город Шеньджень честно написал, что у них все процы видели некоторое дерьмо и накидал фоток, чтобы я выбрал, какой из них устроит. спойлер: не устроил ни один. и теперь я понял, почему тот другой анон с епиком выбрал более дешёвый 9354 с 32 ядрами - потому что их хоть жопой жуй в нормальном состоянии, а к моделям с 48-64 есть вопросики
>>1385824 напиши размер модели в гигабайтах, скорость памяти видюхи в гигабайтах в секунду, скорость оперативы в мегагерцах и количество каналов памяти
>>1385812 >у них все процы видели некоторое дерьмо Но как они это сделали? Ведь корп процы 1 раз ставят под охлад, гоняют 3 года, а потом продают целиком сервак на разбор. Тут только разборщики могут поднасрать, но тех, кто позволяет работникам разбирать сервера кувалдой, я не понимаю.
>>1385824 Если ddr4 то в целом норм. Будет быстрее если уместить Q2S а не IQ2S, но думаю если бы ты мог уместить то сделал бы это сразу. А чтобы точно сказать это да, много информации нужно. Чё за видюха, чё за память, нет ли где ботлнека и тд
>>1385788 > В чём они не правы? Как минимум в том, что поленились попробовать освоить что-то сложнее чем всратая заготовка в таверне. Процесс будет крайне утомительным если хочешь сохранить побольше информации и кожаный точно также может ошибаться. > характер персонажа изменился Это верно, но когда изменения от оригинального характера прописываются в истории, или даже выделены отдельно - это может работать лучше и выглядеть куда интереснее. Тогда чар сам имитирует осознание этого "вспоминая", или показывает что отношение изменилось только к тебе и группе лиц, а к остальным оно сохранено. > После 32к ощутимо сдаёт позиции. Справедливости ради, все зависит от содержимого. Если там непрерывный кум или все 32к контекста про одно и то же - деградация будет существенная и начнется еще раньше. Какие-то события могут отвлекать на себя внимание и уводить развитие, но это также будет проявляться на меньшем. Но если есть хоть какая-то динамика и изменения - все окей, даже овер 120к ответы не падают в качестве. Тупняк и путаница мало отличаются от других. > Какой у тебя контекст обычно Вокруг 64к вьется, поднимается за сотню когда совсем лень суммарайзить, или хочется сохранить какой-то сюжетный момент в полных деталях до наступления связанного с ним события. В особых случаях идет суммаризованная вставка посредине, но это большой геморрой и может ломать логику структурирования и нумерации основного суммарайза, из-за качество ответов мэх. Без квантования, она сильно сказывается. > там эту идею Там каждую неделю новая идея, или их количество равно числу высказывающихся.
Если спекулировать, то "окно контекста" можно обозначить в пределах 4-12к, больше для задач высокой сложности оно не может вместить единовременно. Но зато способно через эту линзу обращаться ко всему контексту и сосредотачивать внимание на нужном в один момент, по ходу ответа выставляя нужный фокус. Если закинуть ллм сложных научных статей с чем-то новым и заставить сетку применить их методики для решения новой задачи - результат будет жидким. Но при этом если закинуть справочник с кучей разнообразных уже оформленных удачных решений, а потом попросить сделать комплексную задачу, которая может быть поделена на мелкие - оно превосходно с этим справится, на каждый этап подтягивая из контекста готовую методику, код или следуя рекомендациям оттуда. Аналогично - можно насрать художкой и потом спросить "в чем основная мораль сего произведения", вменяемые ответы будут только если сойдутся звезды в огромном ризонинге где все разберет по частям. Зато если спросить про действия конкретного героя - с легкостью извлечет все относящееся к нему зирошотом.
>>1385837 >поленились попробовать освоить что-то сложнее чем всратая заготовка в таверне Если уж бросаешься говном в такую базу как ручная суммаризация тогда приводи альтернативу. Чем ты пользуешься? Неужели вектор сторедж или не дай боже квинк мемори? >Тогда чар сам имитирует осознание этого "вспоминая", или показывает что отношение изменилось только к тебе и группе лиц, а к остальным оно сохранено Это бывает прикольно, но мы говорим о компромиссах, которые рано или поздно наступят, контекст в любом случае не резиновый. Более того рано или поздно это заебёт, если по таймлайну прошли годы например то необязательно чару каждый раз напоминать о какой-то черте характера которая давно позади >даже овер 120к ответы не падают в качестве Ну сомнительно. Не верю. На писике я доходил до 90к и там совсем лоботомия начиналась каждый раз, как я не крутился подобно ужу на скороводе >зато способно через эту линзу обращаться ко всему контексту и сосредотачивать внимание на нужном в один момент Тут соглы, избирательное внимание к контексту правда хорошо работает. Если бы ещё не разваливалось всё на больших контекстах и не шизило было бы вообще заебись. Если делить историю на чаптеры и систематизировать как ты там выше писал то и лорбуками можно обойтись
>>1385827 да хуй знает, там почти у всех царапины на крышке и боках, у каких-то царапины снизу, и у многих битые углы, то есть их роняли. и если падение проца я ещё могу понять, массовый падёж тоже теоретически могу, то как так задрочили крышки и бока я сам не понимаю, походу набранные по квоте 70iq выковыривали процы из материнок отвёртками, лаовай уплатит за всё. реально, как блядь СБОКУ можно проц покоцать?
ааааа лол кажется я понял у них не нашлось шестиугольной отвёртки и они не раскрывали сокет, а тупо выковыривали процы из пластиковой держалки плоской отвёрткой0)0))0)))))) бляздец сууууууукааааааааааааа ажтрисёт
>>1385045 >Он и должен его разделить на две, тебя не должно это смущать. Если первая подключена по более быстрой шине то все ок. Так не так же, я даже специально только на 4060ti-16 раскидывал скриптом куски модели и не трогал 3060-12 вообще - если на неё KV-cache раскидывается автоматом, то скорость падает.
>Автор котоскрипта - спосеба. Очень хорошо работает. Хоть в один гпу запихать максимум мое-слоев, хоть на n-гпу разложить - всё чётко. Там ещё у тебя похоже подразумевалось "-ngl 999" перед собственно оверрайдом? Долго не мог понять, почему медленнее с полученной выгрузкой, чем при другой раскладке. Вернул -ngl 999 - сразу полетело. Вставил в формируемый промт промт, чтобы тоже не парились, как я. >Кому нужно - я взял на себя смелость попросить дс переписать по-человечески с кошачьего - вот: https://files.catbox.moe/y18a6n.7z >Сразу с инсталятором по рекьюрементсам и примером запуска.
>>1385872 >Подкачка на SSD 7000MB/s, если вылезет Нахуя? Только насрёшь себе этим и создашь жёсткий ботлнек. Ну тогда скорость хуевастая я бы сказал, наверняка можно улучшить. У меня на ддр4 такая же, но у меня 3090 24. Чекай потребление рам/врам, оптимизируй регексп. Других способов и нет.
>>1385872 >4060 16 Надеюсь разогнанная? У меня +1500 по памяти завелась >DDR5 64 5600 Гони еще. Там почти любая ddr5 на 6000 заведется. И проц какой кста? >Подкачка на SSD 7000MB/s, если вылезет Убери А вообще лучше бы Air юзал. Он бы раза в два (ну или хотя бы в 1.5) был бы быстрее и из-за более высокого кванта скорее всего еще и умнее
Какое же всё таки говно. Поигрался с квеном 235, казалось бы, самая умная моделька на сегодняшний день (?) Пару дней рп, я уже угадываю её паттерны и ответы, формулировки. Какого хуя, блять..((((
>>1385905 >Там почти любая ddr5 на 6000 заведется. К слову нет. Попробуй заведи G.Skill Aegis 5 [F5-5200J4040A16GX1-IS] или Patriot Signature Line [PSD516G480081] Про всякие ХуйСуньВЧай вообще молчу, там победа если вообще заработает.
Что ж, сегодня опыты с GLM-4.5-Air-Q4_K_S Результаты на одной видеокарте 4060ti-16: Контекст 287.51 t/s на маленьком контексте. Генерация 7,4-7,7 t/s
С добавлением 3060-12 всё падает, как и в прошлый раз. Прикрепляю результаты и батник к посту в виде пикчи, чтобы макаба не пожрала символы. Где-то я всё-таки накосячил в батнике, походу, не должен кеш разбрасыватья на видюхи.
>>1385918 Ну я же говорю ПОЧТИ любая. Китайский скам и самые дешманские патриоты у которых даже нет xmp ясен хуй не рассматриваются.К тому же у него 5600 уже, видимо через xmp, так что скорее всего и 6000 возьмет
>>1385845 > бросаешься говном Где? Обратил внимание на очевидную проблему, которая почему-то не кажется очевидной остальным. Ведь экспириенс можно получить лучше и меньше мучаться. А про суммарайз уже не раз писал, всем похуй. Сначала нужно решить до какого момента будешь суммарайзить делая с него форк чата чтобы работать в нем. Обязательно убедиться чтобы в нем был именно текущий суммарайз а не какой-то прошлый, ибо таверна помнит их вариации и привязывает к постам. Прямо в чат пишешь команду [SYSTEM]Стоять, давай суммаризуй текущий рп, или отправляешь команду через /system, всем норм моделям хватает первого. Лучше всего сразу приказывать делать структуру в виде глав, типа "предложи N новых глав", в каждой краткое содержание, локация, сеттинг и подобное, количество подбирать по месту. Из нескольких свайпов выбираешь лучший или собираешь по кусочку с разных и сразу используешь, или меняешь начальную инструкцию на "улучши и расширь" закидывая их в инпут и так рефайнишь. Потом к этим главам или своей структуре добавляешь обозначение дней/недель/времени и более крупно заголовочные арки (можно запрашивать суммарайз по ним чтобы сетке было легче ориентироваться, разметка а ля маркдаун обязательна). Возвращаешься в основной чат, скрываешь сообщения которые обрабатывал и закидываешь полученное в стандартное поле суммарайза таверны. Только обертку что это суммарайз прошлого а ниже уже текущий чат сделай, ибо в стандартным темплейтах ее нет или всратая. Сложно в первый раз, потом модель видит структуру и ее придерживается. > мы говорим о компромиссах Они в какие-то пугалки превращаются. Современные модели рассчитаны работать на больших контекстах не подыхая как было со старыми. Именно с проблемами что ты описываешь относительно размера контекста, а не обусловленных проблемным содержимым в целом, особо не сталкивался. Наоборот если сильно ужать и снизить - модель тупит и начинает слишком уж придумывать там где должна четко отвечать. > то и лорбуками можно обойтись Если они всегда включены - это просто другое поле для суммарайза. Ах динамическое подключение на локалках нецелесообразно.
>>1385930 >В батнике насрано я вахуи. Щито поделать, десу? Сделано на основе бантника из треда, реддита, неба и Аллаха. >Ещё и контекст квантируешь когда тысячу и один раз писали что это лоботомирует эир Прямо сейчас поебать вообще, я сравниваю скорости и пытаюсь найти причину боттлнека.
>>1385933 >а почему -t 5 и сколько ядер у твоего проца? Ryzern 5 5600X у меня, 6 физических ядер, рекомендации на одно физическое ядро меньше.
>>1385944 хуйня рекомендация, надо ставить столько ядер, сколько хватает скорости оперативной памяти, если 3 ядра полностью забивают оперативу, то ещё 2 дополнительных будут только замедлять генерацию.
>>1385939 >Вот это интересно, можешь больше подробностей дать? У меня 2 видеокарты: 4060ti-16 через CPU PCI-E 4.0x16 (используется 8) 3060-12 через Chipset PCI-E 3.0х4 Я провожу опыты отключая в куде 3060-12 (т.к. я хз, что в батнике прописывать, чтобы вторую видюху не видело). Если куда видит только 4060ti-16, на которую скриптом раскиданы куски модели - скорость неплохая. Если я запускаю тем же батником, но в куде включаю ещё 3060-12 - скорость обработки контекста и генерации падает. Отличия между этими вариантами только в том, что во втором случае автоматом на вторую видюху закидывае кеш. При этом мне все говорят, что автоматом весь кеш должен кидаться на CUDA0, а на деле нихуя.
>>1385958 Проясни следующее: Используя вторую карточку ты увеличиваешь количество выгруженных на гпу слоев, или сохраняешь их теми же просто перераспределяя? > Если я запускаю тем же батником Какие остальные параметры батника, закидывается ли в этом случае слои на вторую карточку? > кеш должен кидаться на CUDA0 Это устарело с год назад или типа того. Кэш распределяется в соответствии с блоками на карте. Для слоев, что находятся на проце - размазывается в соответствии с пропорциями -ts. Может здесь что-то зарыто, но особой передачи с других гпу во время обсчета не отмечалось.
>>1385962 похуй на гигабайты, нужны гигатранзакции в секунду умноженные на каналы. если у тебя 2 канала, а скорее всего 2, то скорость памяти 3600x2/128=56 гигабайт в секунду, одно ядро юзает гигов 15, итого нужно 4 потока максимум, а лучше попробовать 3
>>1385975 >Используя вторую карточку ты увеличиваешь количество выгруженных на гпу слоев, или сохраняешь их теми же просто перераспределяя? Принудительно скриптом выгружаю часть тензоров на CUDA0, на CUDA1 не гружу вообще ничего. >Какие остальные параметры батника, закидывается ли в этом случае слои на вторую карточку? Батник на пике. Там насрано, я знаю. >>1385920
>Кэш распределяется в соответствии с блоками на карте. Есть вот эта хрень -sm, --split-mode {none,layer,row} how to split the model across multiple GPUs, one of: - none: use one GPU only - layer (default): split layers and KV across GPUs - row: split rows across GPUs
-mg, --main-gpu INDEX the GPU to use for the model (with split-mode = none), or for intermediate results and KV (with split-mode = row) (default: 0) (env: LLAMA_ARG_MAIN_GPU)
Только она почему-то не хочет работать. Или, что более вероятно, я где-то проёбываюсь.
>>1385993 Не насрано и все там нормально, просто ничего не понятно. Раз так непонятно то давай следующим образом: скинь параметры запуска (и маску куда устройств если используется) для случая, когда у тебя с одной 4060ти быстро, для случая когда ты скидываешь на 4060 и 3060 где медленно, и когда ты скидываешь на 4060-3060 но вроде как вторую не используешь и тоже медленно. Если они большие - на пейстбин.
>>1386001 Я запускаю одним батником в обоих случаях. Только в одном случае CUDA видит только одну видеокарт (отключаю вторую в Cuda в настройках Nvidia), а в другом - две. И в случае, если две - работает медленнее.
>>1384087 (OP) Нейронкоебы, расскажите, пожалуйста, если собирать комп, на котором можно гонять нейронки, то: 1. Должен ли это быть выделенный комп для нейронок или может быть обычный лрмагний универсального пользования? 2. Какая ОСь лучше под нейронки? 3. Насколько проседает производительеость, если нейроеки гонять в виртуалке? 4. Я правильно понимаю, что в сторону АМД-видеокарт не смотреть - только зеленые, только CUDA? Zluda не актуальна? 5. А что насчет процессоров? Рязань лучше интела? 6. Стоит ли приобретать одну мощную карту вроде 5090 или можно собирать несколько из 4ххх серии, например? Насколько там много пердолей? 7. Множество видюх будут создавать проблемы, если надо что-то порендкрить, помоделировать, поиграть? 8. На октябрь 2025 на какой бюджет ориентироваться, чтобы собрать средне-добротный комп для нейронок? 9. Можете какие-то сборочки привестм, на которые ориентироваться, от которых отталкиваться? Алсо, где вы железо берете? На озонах? На авито? У перекупов? У китайцев? Спасибо.
>>1385920 Вот IMHO, нужно или -ot использовать, или -cpu-moe. Но не вместе. Т.к. делают практически одно и то же, но первый вручную, второй - автоматикой.
>>1386019 1) Отдельный если HEDT, иначе зачем? 2) Линь, без вариантов 3) смотря что за виртуалка. 4) Правильно. С мишками все наигрались и забыли. 5) Интел лучше, скорость озу выше 6) Пердолей нет, но объединяется только память, не мощность. И не скорость памяти, что ещё важнее. 7) Игры используют лишь одну. 8) от 20к на некро зеоне и майненой 2070, до 20кк на 12канальном зеоне и массиве rtx6000pro 9) на таобао. Тут такой зоопарк у анонов, что чубовские карточки фурри гаремников отдыхают.
>>1385975 >Это устарело с год назад или типа того. >Кэш распределяется в соответствии с блоками на карте. Для слоев, что находятся на проце - размазывается в соответствии с пропорциями -ts. Может здесь что-то зарыто, но особой передачи с других гпу во время обсчета не отмечалось. Это нихрена не устарело, если карты заметно разной мощности. У меня 3060 + p104. Если допустить, чтобы часть кеша попала на p104 - просадка раза в 2-3 получается. Кеш нужно, по возможности, запихивать на более мощную карту целиком.
>>1386019 Амуда не нужна, процессор тоже, нужно дофига памяти и места под чекпоинты. Я через сандбокси гоняю, чтобы питон не расползался за пределы своего петушиного угла и инсталлы не конфликтовали, пердолинг умеренный. Карты 8ГБ ртх должно хватить на 70% задач, 16ГБ хватит на 90%, 24ГБ хватит на 95%
>>1386008 В одном случае у тебя весь атеншн только на более быстрой 4060ти, в другом он делится пополам между доступными устройствами. Разумеется ампер более медленный, особенно с квантованием кэша, вот и происходит замедление. Чтобы получить ускорение тебе нужно использовать всю доступную врам обоих видеокартах. Натрави скрипт чтобы он сделал тебе регэксп для обоих девайсов, не забудь задать -ts 16,12 чтобы все работало корректно. Также, можешь попробовать задать -ts 1 чтобы весь атеншн и кэш был на первой карточке, а на вторую только грузить экспертов. Соответствующим образом потребуется поменять размеры врам для скрипта, можешь подобрать экспериментально чтобы было максимальное заполнение памяти. >>1386028 > нужно или -ot использовать, или -cpu-moe. Но не вместе. Неверно, можно использовать как угодно. > второй - автоматикой Он просто интерпретируется как обычный регэксп *ffn_exps, нет никакой автоматики.
>>1386044 >Чтобы получить ускорение тебе нужно использовать всю доступную врам обоих видеокартах. Натрави скрипт чтобы он сделал тебе регэксп для обоих девайсов, не забудь задать -ts 16,12 чтобы все работало корректно. Проверял, работает медленнее. >-ts 1 Вот, вот меня интересовало именно что-то такое. Ладно, завтра буду пердолиться.
>>1386053 > Проверял Ну, на этом наши полномочия все. Разве что проверь без квантования контекста выставив меньшую величину. Будет мегарофел если дело в этом.
>>1386053 Отсутствие квантования ожидаемо увеличивает скорость, но всё равно ещё хуже, чем на одной видеокарте. Я уже все волосы на жопе вырвал, пытаясь понять, почему --split-mode row --main-gpu 0 не отправляет весь KV-кеш на CUDA0 видеокарту
>>1386070 > увеличивает скорость Рассказывай какая разница получается. > но всё равно ещё хуже, чем на одной видеокарте Вот это таки странно, конечно 12гб не самой быстрый врам это немного, но для эйра все равно должно некоторую прибавку давать относительно ддр4. Удивительно что все упирается в скорость обсчета на 3060, ибо это по сути единственный источник замедления. > --split-mode row > не отправляет весь KV-кеш на CUDA0 видеокарту Ну а на что ты рассчитывал? Это деление каждого слоя на части, разумеется и кэш на каждой карточке обязан быть. Лучше не трогай режим сплита, в жоре шрафы за его изменение превышают все разумные выгоды на железе лучше некротесел. А мейн гпу указывает не карточку на которую пойдет кэш, а главную карточку что будет участвовать в обсчете контекста для слоев в рам. Как закинуть кэш в одну указано выше.
>>1385957 >>1385989 Потестил разное число потоков на Мистрале и Гемме. Если коротко: благодаря изменению всего одного параметра (умению потоков с 8 до 5) удалось получить выигрыш в 0.2 т/с в Гемме и 0.5 т/с в Мистрале на ровном месте, что охуеть как круто. Буквально самый полезный совет за последние несколько тредов. Спасибо, анон.
Вот более подробные результаты, если кому интересно. Ставил температуру 0, так чтобы нейронка всегда генерировала один и тот же вывод.
>>1386044 При ручной выгрузке тензоров флаг: -ts 100,1 закидывает весь кеш на CUDA0. С выгрузкой надо ещё поиграться, может всё-таки что и выиграю по сравнению с одной видеокартой - пока её скорость максимальна. --split-mode row --main-gpu 0 НЕ НУЖНО, я объебался (хотя по описанию подходило)
>>1386108 > -ts 100,1 Что с ручной что без ручной просто напиши -ts 1 или -ts 1,0 или -ts 1,0,0 и все будет. Жора оценивает размеры весов и кэша и раскидывает их в соответствии с -ts. Main gpu вообще никак не влияет на пропорции как и row split. Если выгрузишь экспертов на вторую гпу из рам то должен быть выигрыш, но вообще даже странно что получается такой большой негативный эффект от 3060 даже при том же числе слоев в рам.
>>1386120 За исключением профита от того, что винда не трогает 4060ti-16, конечно. Что уже лучше, чем ничего, но следующий сетап я хочу с тремя видюхами и материнкой с разделением 16 на 8+8.
>>1386120 Ты можешь частично промониторить это смотря загрузки шину и обмен по ней. Там просто обменов то особо и нет, разве что какой-то пересыл кэша с карты на карту. Но тогда бы выключение квантования наоборот дало бы замедление из-за увеличения трафика. >>1386123 > винда Чекай выгрузку врам драйвером.
>>1386041 >>1386043 Спасибо. >2) Линь, без вариантов Все так плохо с виндой? На линупсе увы нет всяких фотошопов и 3дс максов. >3) смотря что за виртуалка Например, обычный wsl? >процессор тоже, Может я на проце захочу погонять нейронки.
Алсо, поясните по требовательности языковых и визуальных (графика, картинки, видео и пр.) моделей. Есть ли перекос в сторону Ram, VRam, проца и пр.? Или примерно одинаковые требования?
Еще такой вопрос, насколько актуально приобретать ту же 5090? Стоит ли ждать серию Super, которую перенесли на 2026? Еще вопрос по поводу 5ххх - они еще плавят коннектор? Или уже нет? Насколько андервольт повлияет на производительность видюхи с моделями?
>>1386142 >Все так плохо с виндой? Нет, но под линем лучше >Есть ли перекос в сторону Ram, VRam, проца и пр.? Для LLM в сторону VRam, для остальных в сторону мощности GPU (возможности разбивки на несколько гпу может уже не быть). >Стоит ли ждать серию Super Только если собираешься брать 5070/5080 >они еще плавят коннектор? Никогда не плавили у тех, кто втыкал до конца >Насколько андервольт повлияет на производительность видюхи с моделями? На LLM никак, поскольку упор в скорость и количество vram
>>1386019 1 Зависит от запросов, мощное не реализовать на дестопном железе, большой риг не захочется иметь стоящим под или не дай бог на столе. 2 Линукс 6 Зависит от запросов. В целом в приоритете объем видеопамяти, однако сейчас популярным является катание моэ с большой долей выгрузки весов с рам. Там наилучшим конфигом будет 5090 + быстрая рам. Из 4к серии ультимативным решением будет 4090@48. 7 Нюансы с подключением к материнской плате на десктопном железе из-за ограниченного количества линий. Если решишь поделить процессорные х16 на 4х4 то медленное подключение основной может нагадить. В случая же где просто в десктоп добавляется еще одна-две карточки, подключенные по чипсетных или х8+х8 проблем не будет. 8 Диапазон слишком широк. Вкатиться попробовать можно на десктопе с минимальным апгрейдом, с условным комфортом инфиренсить все крупные модели - риг по цене среднебюджетного авто, что-то тренить - уже к цене недвижимости. 9. Везде где выгодно, по примерам см 8.
>>1386090 >Если коротко: благодаря изменению всего одного параметра Потести с автовыставлением (убери свои ручки оттуда), а то у меня авто параметр не было равно ручному выставлению того же числа, лол. >>1386144 Так ты срёшь под себя, а не раздаёшь нормальные советы. Эти рекомендации не сжать в одну строку, а ты строчками и срёшь вместо абзацев на каждый пункт. Впрочем, если ты напишешь абзацы, то получится вики из шапки, и тогда вопрос в том, нахуя это дублировать. Так что как ни посмотри, ты нахуй не нужен в этой жизни.
>>1386019 Ты бы хоть уточнил для начала, какие именно нейронки ты хочешь гонять и какой результат на выходе получить. Ну давай предположим, что ты будешь условно "как все" делать картиночки через sdxl/flux/qwen, видосики через wan, и средние ллмки от mistral 24b до glm air 106b
1. Обычная домашняя пека 2. Похуй, но в линуксе удобнее и приятнее 3. Правильно 4. А зачем это делать? 5. Похуй, разница несущественна 6. Лучше одну мощную (как УНИВЕРСАЛЬНЫЙ вариант, а не только под ллм) 7. Скорее просто окажутся незадействованными. Много видюх - хорошо для ллм, для всего остального - очень спорно. 8. Чтобы прям КОМФОРТНО? Ну от 350к+, если собираем с 128gb DDR5, rtx 5090 и прочим. Если минимально приемлемый уровень - то б/у c авито на базе 3060 12гб и 64гб DDR4. Условные флюкс, ван и эйр запустятся и работать будут, но будет медленно и больно. Зато дешево. 9. Бери там где есть гарантия и возможность вернуть брак без геморроя. Авито - крайний вариант, если совсем бомж.
>>1386142 >Еще такой вопрос, насколько актуально приобретать ту же 5090? Стоит ли ждать серию Super, которую перенесли на 2026? Я жду super, а потом буду обновлять пеку полностью. 5090 не нравится: слишком дорого, слишком печка, слишком много инфы о сгоревших сокетах. >Насколько андервольт повлияет на производительность видюхи с моделями? В теории - незначительно. На ллм вообще повлиять не должен.
>>1386194 >слишком много инфы о сгоревших сокетах Вставлять научись, и не будет ничего гореть. Ну а дорого... Брать надо было за 220к на озоне, сейчас да, уже поздно.
>>1386271 >надо было за 220к Тем, кому 220 недорого, тому и 260 недорого, о чем ты? В данный момент я бы ее купил, только бы если она <150 стоила, и то бы долго думал.
>>1386278 Могу взять и за 260к, ЗП позволяет месяцок поесть дошираки и купить. Просто я понимаю что йоба-ультимейт решение сейчас превратится в тыкву через пару лет потом (если не раньше, с такими темпами развития нейронок).
Буквально то, что произошло с 3060, которая 2 года назад была шином под sdxl, а в 2025 - просто мусор, который что-то может, но нахуй так жить. НО 3060 стоила 30к, а не 260к. Дайте людям 24гб за адекватные деньги, жадные пидорасы, чтоб хоть не так обидно было по кд обновляться.
>>1384952 Вторая эксллама даже на тьюрингах работает хуже, чем жора (генерация). На паскалях там вообще хуета, не надо с этими картами ей пытаться пользоваться.
Благодаря пресету ещё раз убедился что квен неюзабельный пережаренный прозой кал который ничего не спасёт и не зря его все забыли, либо нужен 6 квант чтобы его раскрыть
>>1386285 > через пару лет потом На большой срок прогнозируешь, тогда уже новая серия карточек выйдет. Есть вероятность что какие-то продукты выйдут, но в условиях ии бума при хороших характеристиках они будут дорогими. Едва ли амд и интел разродятся чем-то прорывным и будут демпинговать, скорее останутся в роли догоняющих предлагая средние решения. Могут также появиться новые нпу от китайцев, но примерный исход можно наблюдать выше, а йоба продукция будет дорогой. > 3060, которая 2 года назад была шином под sdxl Никогда не была. Она были самым энтри тиром на котором что-то небыстро можно делать, а не терпеть и страдать. И именно 2 года назад на ней можно было разве что хуй пососать и пердеть на полторашке, более менее сносная ее работоспособность на XL пришла с выходом форджа. > Дайте людям 24гб за адекватные деньги 50-60к за 3090 на лохито, уже который год.
>>1386019 >Какая ОСь лучше под нейронки? Винда. Не слушай пингвинопетухов, это сектанты. Тот же жора на винду просто скачивается архивом, распаковывается и запускается. Никаких пруфов что генерация на линуксе быстрее никогда не было.
>>1386163 чёт не нашёл в шапке ничего по базе треда, а в статье про выбор железа вообще рофл какой-то из 2023го "ни у кого из треда нет A6000", тут уже у нескольких человек риг лучше >>1386230 ниже 4 глупо, выше 8 бессмысленно
>>1384915 >Q2_K_S >Всё ещё не 7 т/с в третьем кванте поприседал бы, спортом там занялся бы, вместо этого пердолинга... печальный он какой-то... оно ж неюзабельно буквально на таких скоростях, особенно когда контекста вагон лопатить нужно
>>1385466 а ничего, что зависит в первую очередь не от матери а от контроллера процессора, + вопрос что там со скоростями будет, а то на ДДР5 иногда вопросы возникали к количеству планок
>>1386350 >Никаких пруфов что генерация на линуксе быстрее никогда не было. не пали контору, а то сейчас полезут в локалки все, ты эе понимаешь, что нужно ограждать тему от мимокроков, пускай думают что линупс пердолить нужно
>>1386462 Эйр ну рили говно же. Квен могут не только лишь все запустить и хз насколько он жизнеспособен в q2. Выше вон там ноет, хотя мб скил ишью неосиляторство
>>1386285 >Просто я понимаю что йоба-ультимейт решение сейчас превратится в тыкву через пару лет потом (если не раньше, с такими темпами развития нейронок). при таком раскладе выгоднее облако в аренду взять и не париться, не факт даже что наиспользуешь на стоимость карточки, если не занимаешься многочасовым ежедневным кумом... а так - да, в тыкву превратится, так же как тыквой сейчас считается 3060 какая-нибудь, хотя я на 1070 сижу все еще...
>>1386466 так они и так никого не заменят кроме формошлепов пока что, и тех только сократит до необходимого минимума
>чтобы додики тратили время на курсы скиллбокс так таких дебилычей только могила исправит - те курсы буквально никогда работу найти не помогали, зато хорошо рыночек демпингуют
>>1386465 У меня была пара карточек, которые 32б модели не тянули, обязательно упуская часть описания. Эйр с квеном смогли, правильно разруливая внутренние противоречия.
Необходимость обусловлена тем, что на работе не работает мобильный интернет, да и проводной тоже постоянно обрубается - и я, по сути, целыми днями сижу просто без всего.
К сожалению, я вообще отстал от жизни, и не могу выбрать, каким приложением лучше пользоваться. Поставил пока что PocketPal - хороший вариант? Также поставил edge gallery, но там не сохраняются чаты.
>>1386469 >при таком раскладе выгоднее облако в аренду взять и не париться, не факт даже что наиспользуешь на стоимость карточки, если не занимаешься многочасовым ежедневным кумом... Это сразу было понятно и я бы так и сделал, если бы вопрос с оплатой забугорных сервисов по аренде видеокарт был легко решаемым. Там вкусные цены, ну а в целом по деньгам может так на так и вышло бы, только железо было бы всегда актуальным. Но увы, санкции-шманкции и прочий геморрой и пришлось строить домашний риг.
>>1386465 >Квен могут не только лишь все запустить и хз насколько он жизнеспособен в q2 >мб скил ишью неосиляторство Оно самое. Ахуенно он работает в q2 и выдаёт смак
>>1386568 >Не только лишь каждый сможет запустить. Мое как раз более доступны бомжам вроде нас. Уж 64 гига рама наскребёт каждый. А вот запустить плотную даже 32б не каждый может не говоря уже о больших
>>1386568 > Да и заебал пердолинг с 100+ моделями, война за т/с, оптимизация вечная и т.д. Я периодически в тред заглядываю и вопросов меньше не становится. Один раз батник настроил, попердолился с жорой и горя не знаешь. Сиди себе, помогай тому же воздушному префилом, да слюни вытирай, если шизит.
>>1386568 >Не только лишь каждый сможет запустить 6700х2 = 13400 рублей за 64гб. Такую сумму даже школьник с завтраков наскребет. А где-нибудь на алике скорее всего будет еще дешевле. >война за т/с Ты вообще запускал большие мое? У меня эйр летает в 9.5тс, в то время как денс гемма попердывает на 3.5 тс. Как раз на нищесборках именно в денс моделях боль и страдание, а не наоборот.
>>1386583 Потому что скоростя малые все равно выходят. Периодически отъебывает и падает до каких-то 3.5-4. Нужно опять пердолиться. Ну и на контекст остаётся хуй да маленько.
Да, наверное можно настроить что бы все четко было. Но я тупой, мне и то что есть сложно даётся через горящую жопу.
>>1386590 Да хули ты доебался с этим денс? Я и сам за мое топлю, ток нужны и адекватного размера моешки.
>>1384087 (OP) Подскажите, какие сейчас есть годные модели для: - lewd ролеплея (да без цензурки ну или с минимальной, но при условии хорошего качества самой модели). - Анализа файлов по картинкам/текстовым и допустим составления выводов/отчёта. - Переводов текста.
>>1386471 >так они и так никого не заменят кроме формошлепов То то я уже третий месяц ищу работу, пока безуспешно. Мимо сеньор помидор с 6 годами опыта на PHP.
>WSL 2 – это отличная среда для запуска ML-моделей. Если вы настроите GPU-поддержку, то потеря производительности будет минимальной. Это правда? Хочется свои проектики разворачивать, но на винде питон мне никогда не нравился.
>>1386579 >А вот запустить плотную даже 32б не каждый может >Уж 64 гига рама А разница? Я и 123B катал на тех же 64 гигах и 12 врама. >>1386656 Нет, это пиздёж. А в чём проблема в виндовом петоне? Ставится из магазина если что.
>>1386660 >Я и 123B катал на тех же 64 гигах и 12 врама. Тут не все шизоиды которые готовы по 10 минут ждать ответ со скоростью 1-1.5т/с (в лучшем случае)
>>1386660 >А в чём проблема в виндовом петоне? Ставится из магазина если что. Что за хуйню ты несёшь, блять? Какого магазина? Ты Питон через Microsoft Store установил?
>>1386664 Да нахуй иди, шизик. Ты даже волшебные семплеры для командера не скинул не говоря уже о том как запускаешь и какие скорости получаешь. Ты обычный пиздабол
>>1386649 >lewd ролеплея без цензуры Мистраль 3.2 >Остальное Гемма 3 27b в первую очередь, во вторую тот же мистраль Ну и офк, если ты запустить квен 235 или дипсик 3.2, то он будет лучше
>>1386402 Открываешь и смотришь. Редфлаги: нейрослоп на 2+к токенов, качели (она умная но часто тупит, покладистая но может всему сопротивляться и т.п.), внутренние противоречия сеттинга, чрезмерная фокусировка на чем-то (половина карточки лисогорничной про то, как ее хозяин любит вылизывать ее анус), приперзднутый и отвратительный стиль описания (см нейрослоп или что-то подобное, будет влиять на выдачу), разжевывание простых и очевидных вещей с мимолетным упоминанием необычных и важных. >>1386434 Оправданец не ленивый, он в очередной раз оправдается почему обладает отсутствием и будет дальше ныть. >>1386459 Контролеры в процах на десктопе под конкретный соккет унифицированы, как раз в первую очередь зависит от материнки для высокоскоростных плашек, медленные заведутся везде. И зачем количество приплетаешь?
>>1386678 Тут чуть выше >>1385123 выкладывали. Можешь попробовать. Семплеры базовые, настройки мистралевские, какой ни будь tekken. И вообще тут в треде бегает мистралешиз, тот точно знает за шизотюны, только он куда то пропал, удивительно даже.
>>1386499 Содомит >>1386528 Заказать карту в ~стане дешевле чем риг так-то. Но риг уважаемее! >>1386656 Да, главный минус - оче медленный доступ к фс хоста. >>1386674 Для левд ролплея хороши эйр и большой жлм, квен также прилично кумит.
>>1386663 0,7 же. >>1386665 >Ты Питон через Microsoft Store установил? А почему бы и нет? Сейчас посмотрел, мой петухон стоит как-то иначе, но в сторе он есть и доступен по нажатию 1 кнопки, с выбором нужной версии. >>1386675 >И зачем количество приплетаешь? DDR5 не работает с 4 плашками.
>>1386687 > DDR5 не работает с 4 плашками. А еще ддр5 не заработает на платформе под ддр4, понял! То то же! Обсуждается работа пары небыстрых ддр5 плашек повышенного объема, которые пол года назад вышли на рынок, нахер ты что-то левое тащишь вообще?
>>1386686 О, призыв осуществлен. Пасеба. Дай ка я скачаю опять мистраетюн, а то с воздушным вообще желания возвращаться к мистралям нет, а то мситральки уже настолько приелись, что прям вооротит. Они то умницы.. Но датасет все таки маленький.
>>1386699 Под компьют врм дохленький и процы друг за другом продольно. Второе красивое. >>1386701 На амд придется пердолиться с софтом 100%. По удобству и скоростям - возьми, расскажешь.
>>1386706 > Под компьют врм дохленький и процы друг за другом продольно А как они должны быть в рэке? Мне кажется или ты думаешь что это косьюмерские мамки?
>>1386689 >Обсуждается работа пары небыстрых ддр5 плашек Выделенное ты только сейчас приплёл. >>1386691 По привычке. >>1386695 Сервера немного другое, там каналов больше, и память всякая регистровая.
>>1386701 Да, стоит. GLM AIR и GPT 120b будут летать, да и квен 235 тоже будет нормально работать. Но бери это >>1385068 Будет ощутимо быстрее работать, чем просто на раме. Тестов на редите много
>>1385918 Поэтому я взял 6000 сразу. Но зачем в итоге с моим-то процом. хд
>>1386019 1. Как хочешь, у меня выделенные, можно на универсальном. 2. На больших моделях линукс, на средних и маленьких пофиг. 3. Да вроде норм. 4. Смотри куда хошь, но на зеленых все заводится из коробки и с наибольшими скоростями (за дорого=). С красными и синими могут быть нюансы и медленнее. 5. Для ддр4 пофиг, для ддр5 хорошая рязань лучше среднего интела, средний интел плох, топовый интел хорош. 6. Возьми 5090 хотя бы ради генерации видео в будущем. Собирать несколько видях — тебе надо ну хотя бы 96, а лучше 128+ видеопамяти. Но если есть деньги, собери 3090 пачку или 4090 (те же 48-гиговые). А лучше пару RTX Pro 6000 7. Проблемы решаемые, так что не то, чтобы стоит из-за этого беспокоиться. Скорее нет, чем да. 8. Ни на какой. От 25к до пары миллионов. У каждого свое понимание «средне-добротного». Ну если 128 ддр5, i9-14900 и 5090… допустим, средне-добротный, я полагаю. 9. Кто как. Кто-то в ДНСе, кто-то на авито, кто-то в Китае.
>>1386652 Спасибо. >>1386674 >Мистраль 3.2 Тоже спасибо. gemma3:27b есть, но мне показалось что он слабовато понимает на первом тесте. Посмотрю тогда побольше на нём. Квен есть, но квантованная - qwen3:235b-UD-q3_K_XL и она соврала что на изображении придумав бред, а как её поправил созналась в этом. Может конечно проблема именно в квантовости, хм. >>1386682 >эйр и большой жлм, квен также Тоже спасибо
>>1386682 >Заказать карту в ~стане дешевле чем риг так-то. Но риг уважаемее! Дешевле, но совершенно не греет мысль сливать кучу своих данных неведомым посредникам. То, что заблочить карту могут в любой момент - это уже мелочи.
>>1386723 Тяжело. Тяжело. >>1386727 Габариты и сложность радиаторов несопоставимы, задние детектятся по температурам на ~10-20 градусов выше, пикрел. Потому в сборках "под компьют" с наиболее мощными процами стараются обеспечить независимые потоки для каждого профессора. >>1386761 > неведомым посредникам Оформление идет на загранник, который мало кому интересен. Можно лично слетать, это недорого и интересно.
>>1386809 >Оформление идет на загранник, который мало кому интересен. Можно лично слетать, это недорого и интересно. Вы конечно будете смеяться, но кредит на него можно взять совершенно свободно. Не везде конечно, а только там, где проценты конские. Сейчас правда самозапреты появились, но всё-таки.
Не то чтобы я жалуюсь, да и слетать и правда самому можно. Кто только сейчас начинает - вполне вариант.
Ну чё, я тут последние деньки гоняю Квеноняшу и Эирчан и пытаюсь понять кто из них умница а кто бака. Короч, обе хороши наверн но Квеноняша тупо вне конкуренции. Отыгрывал сегодня чилл сценарий с карточкой игривой девушки-соседки с хаты напротив, класека. Эирчан неплохо справилась, персонаж подхвачен как надо но пассивно как-то. Вот заказал пиццу, она приехала, ну хорошо, ну пошутили пару раз, ну поели и давай смотреть телик. Не покидает ощущение что ты играешь с прокаченной мелочью типа 22-32б в хорошем кванте и с прокаченным словарником. То есть читать приятно вроде но это все равно танец с манекеном. Квен... Квен это пиздец. Чар подбежала встретив на пороге двери, выхватила коробку из рук, убежала, сожрала половину пока я переодевался, начала бегать по квартире как поехавшая не желая делиться пиццей, был придуман и вплетён невъебенный флешбек соответствующий чару, напоследок моё ебало было измазано соусом в процессе каддлинга. Ох бля как же хорошо на душе. Квеноняша идеально занейлила чара, с пресетом что тут гуляет пишет ахуенно просто. У меня раньше было целое полотно в authors note которое запрещало писать в стиле поехавшей китайской прозы, но оно модель лоботомизировало. Сейчас мне как будто бля ничего в жизни больше не нужно. Только Квеноняша. Большая веселая 235б которая.
Простите, я корпоблядок сидящий в треде в надежде на что то прикольное, но БЛЯТЬ АХАХАХАХА , как только начала генерить и я увидел "довольно урчит" я сразу вам принёс)))
>>1386841 Твой квеноняша не может осилить обычное инцест ерп скатывая всё в дешёвый роман, с придыханиями, гипертрофированным драматизмом, троеточиями после каждого предложения, это блять просто невозможно читать, будто с покемоном говоришь, и так во всём
>>1386861 Моя Квеноняша? Урююю, спасибо!!! Хуй его знает чё у тебя там творится, может ты говна корпами нагенерил вместо нормальных карточек и промтов а потом удивляешься что такой же слоп у тебя в чате живёт. У меня заебись всё. q3 квант. Никаких покемонов, весьма ахуенные диалоги с шутками подколами и вторым дном, которые доступны только Эирчан. Но Эирчан пассивненькая, мне такие не нравятся.
>>1386870 Даже с одним пресетом буквально аноны ещё находят способы найти косяки у других Каждому своё. Щас выйдет эир 4.6 и это моя остановочка до эир 5.0
>>1386760 >Квен есть, но квантованная - qwen3:235b-UD-q3_K_XL и она соврала что на изображении придумав бред, а как её поправил созналась в этом. Может конечно проблема именно в квантовости, хм. "Проблема" в том, что эта модель вообще зрения не имеет. Ей нечем смотреть на картинки. Там после уже выпускали мультимодальную, со зрением, вроде как. Но простой квен 235B ни первый, ни 2507 зрения не имеют. Разумеется, он тебе что угодно на такой вопрос напишет. :)
>>1386847 Всякие кемономими делали довольное purrs еще со времен пигмы. >>1386856 В первый раз? Это нормальное состояние, тут скорее наоборот удивительно что кто-то занялся добавлнием поддержки бранча, а не все хуй забили. >>1386928 Справдливости ради есть 235й квен со зрением, но не припомню чтобы его в жору успели добавить. >>1386937 Ор выше гор
>>1387046 >>1387059 Я имею в виду, что возможно будут включать больше кум-материала в датасеты при обучении, ну и подкрутят поведение моделей, чтобы было меньше морализаторства. Последним особенно гемма страдает.
Ну и да, какая ВАНИЛЬНАЯ модель может прям в сочный кум кроме мистраля? Без васянских тюнов и шизопресетов от нюни?
>>1387076 > какая ВАНИЛЬНАЯ модель может прям в сочный кум кроме мистраля? Так любая. Мистрали, Глэмы, Квены, Командеры, а больше и нечего катать тащем-то. Все они умницы и кумят из коробки сочно. Лучше назови ВАНИЛЬНУЮ модель которая прям не может в сочный кум. Кроме Лламы > шизопресетов от нюни? Где их найти? Там мемпромты? >>1387103 https://youtu.be/UyQm4O9G7OM
>>1387043 Скорее вялый ответ на всратость пятерки и кучу ложных рефьюзов. Казна пустеет, базированный грок отъедает аудиторию, вот и затрясся. >>1387059 Та ну, еще слишком многие требуют коррекции💢💢.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: