В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1435599 → >теперь думаю стоит ли выбирать другую с 2 слотами добавьте уже в шапку инфу про btc 79x5 5 pie 8x 3.0 + проц + память + иногда даже msata за 5-6 к рублей.
Анон который писал про https://huggingface.co/ArliAI/GLM-4.5-Air-Derestricted Ты был прав, это ахуеть. Кум вышел на новый уровень и не потерял в мозгах. Спасиба <3 Даже мой микро iq4_xs квант бартовского хорошо работает.
>>1435841 Я скачал ArliAI_GLM-4.5-Air-Derestricted-IQ4_XS, он у меня сожрал всю память и все, что осталось от ССД. И повис. Но скорость при этом была как на втором кванте. Я выше выложил ссылку на 4.6, но у меня только первый квант может завестись, не буду пока качать. (>>>1434315 → анон)
>>1435841 пацаны поделитесь шаблонами для инстракта, системным и тд. Настройками семплеров там. Я запустил ArliAI_GLM-4.5-Air-Derestricted, а она почему-то лупится абзацами. Какие только соски я уже таверне не покрутил - не получается избавитсья от лупа.
подскажите, а на текущий момент существует такой агент, который может в интернете искать порно? типа предложить случайный интересный видос на какую-то тему. Грубо говоря "сегодня ты дрочишь на гейское порно по этой ссылке", или картинки какие-то тематические. Такое сейчас возможно в каком-нибудь готовом браузере, на сайте или локально?
>>1435861 > почему-то лупится абзацами. Это может быть формой рефуза, если у тебя там совсем страшный пиздец происходит. Пойми при каких обстоятельствах луп возникает и всё станет ясно. мимо согласен с репрессированной базой треда
>>1435945 ты, долбоёб, ты понимаешь что называешь базой молчание в ответ на вопрос и препятствие обмену информацией в тематическом треде? Откуда вы такие повылезали блядь?
>>1435821 > лоботомитный квант > лоботомитного тюна > лоботомитного рипа Это шин треда >>1435841 В чём он прав? Это говно. Просто нет отказов и всё. Во всём. Никакое рп таким образом невозможно. Кумьте на мистралеслопе и не тащите своё говно в тред
>>1435965 >Никакое рп таким образом невозможно. Раньше я думал что скил ишью это мем, но со временем понял что нет. Если ты не троллишь то это точно твой случай.
>>1435974 Я отыгрываю короля, на твоем лоботомите советники просто дакают на все предложения, даже на застроить королевство храмами нех где еатядят детей. Коупи дальше что это юзабельно, просто не задавай вопросов
>>1435945 >>1435950 В базу треда верят только шизики и криворучки. Нормальное качество можно получить даже на огрызках типа мелкого мистраля. Достаточно просто внятно понимать что ты хочешь получить на выходе и соответственно прописать инструкции. Если ты даже мелкомодель обуздать не можешь я считаю тебе должен быть институционально закрыт доступ к более толстым локалкам. Потому что база треда если и существует то её смысл будет в том, что плохих моделей нет, есть долбаебы которые не умеют ими пользоваться.
>>1435980 Ща бы злюкам узколобам вроде тебя что-нибудь доказывать, дыаааа. У меня всё ахуенно, у чаров сохраняется агентность и при этом свайпы свежие и интересные в сравнении с инстрактом. А ты можешь проследовать сам знаешь куды.
>>1435656 → Не связано ли это с контекстом? Сейчас раз дашь понюхать большой - замедление навечно до перезапуска. >>1435893 В конструкторе можно устроить. Можно готовые тулзы заставить искать по нужной теме, но в популярных забит только гугл. >>1435981 Там прямо по методичке пропогандонов и манипуляторов: около половины очевидные факты, чтобы мимокроки могли поверить и была возможность "яжговорил", остальное - пихай любую херню, которую хочешь зафорсить. Базашизика и подобных на парашу. > что плохих моделей нет На самом деле есть, много совсем поломанных и ужаренных, что только место на обниморде занимают. Называть модель плохой потому что она мелкая или кто-то ее не осилил - уже неправильно, да.
>>1436053 ни разу не ловил лупы на аире. в последний раз такие противоречивые отзывы были разве что по гемме а ведь тренировались они на схожих датасетах
вот вам база тредаАноним30/11/25 Вск 15:28:06#26№1436096
больше ядер не равно лучше. запускаю GPT-OSS 120B весом 61 гигабайт на проце без видюхи, тухлый епик 2 поколения 32 ядра + 8 плашек ддр4 3200мгц, задаю вопрос размером 186 токенов, смотрю token generation на восьмой строчке выдачи:
>>1436096 Это еще несколько тредов назад выяснили. Я такую же статку сюда выкладывал для r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах, и не важно, с выгрузкой на гпу или нет.
По хорошему бы эту инфу в шапку добавить. Буквально халявные 1-2 т/с на ровном месте.
>>1436096 На современном эпике от 12 до 80 нет разницы, на интеле от 3 до 8. Надо будет на новых коммитах чекнуть, но врядли изменилось. Стоит давать рекомендацию тестировать на своем железе и краткую инструкцию как это сделать. >>1436100 > и не важно, с выгрузкой на гпу или нет Если что-то остается на процессоре то его перфоманс будет ролять, для фуллврам разницы быть уже не должно.
>>1436178 Не, не я. Я наоборот один из тех кто жаловался несколько раз, я в какой то момент и вовсе тильтанул и снес его. А сейчас рпспробовал или хуй знает
Не знаю в тот ли тред обращаюсь... Вместо длинных статей понравилась идея прослушивать выжимку.
Формат подкаста голосом Скабеевой конечно кринж, но это ладно...
Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы. Подкаст получается ильно дырявый, длинные статьи может пережать до 15 минут пиздежа. В итоге две выжимки по одной и той же статье могут сильно отличаться друг от друга.
Так что подкиньте какой-то аналог НотэбукаЛМ, ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.
>>1436185 В общем под задачу нужно перенастраивать промпты и сам режим работы агентов, использовать более подходящие для этого модели. Только сложно все это по сравнению с готовой проприетарной тулзой с минимальным порогом вхождения и простым функционалом. Придется или много разбираться (при этом не обязательно использовать локальные ллм, можно и корпов), или смириться и терпеть, выбирай.
>>1435893 >порно в интернете Анон, у меня для тебя плохие новости - в интернете нихуя не ищется, поисковые системы скатились в ёбаное говно, шанс того, что поисковик найдёт тебе годноту (хоть с помощью ИИ, хоть с помощью Аллаха) в районе нихуя. Поиск по фото вообще стал говном-говна, уровня поиска по алиэкспрессу. А ещё порнхаб с миллиардами залитых юзерами видео на разные тематики накрылся платежными системами и теперь там только авторизованные по паспорту тяночки. Не, сайты с порно-то есть, но там никакого разнообразия. Разнообразие есть на всяких специализированных форумах, но там во-первых нихуя не ищет, а во-вторых там обычно залито всё на какие-нибудь уёбищные файлообменники платные, которые давно похерились. Я искал запись народного стриптиза от Знака качества из 2000 года (видел по телевизору, будучи мелким) - оцифровка была на ютубе в 2024 году, её ютуб удолил и всё, нихуя нет. Даже с автором оцифровки пытался связаться, а тот в вк окуклился так, что ему не написать. Или вот искал видео из группы вк, где тянучка в 2019 выкладывала видео со стриптизом, пытаясь раскрутиться - и тоже, аллес. Группа закрыта, тян-админ в вк больше пяти лет не в онлайне. Вытянул часть с её отдельного сайта с помощью интернет-архива, благо там и видео в архив подтянулись, но только часть.
>>1436313 NotebookLM умеет с промптами работать. Можно например попросить про какую-то конкретную главу из книги рассказать. Вопрос в том как заставить ее в целом меньше тупить
>>1436496 > NotebookLM умеет с промптами работать > Можно например попросить про какую-то конкретную главу из книги рассказать. Поделись, что ты подразумеваешь под "работой с промптами"?
>>1436100 >r7 3700x. В моём случае лучший по скорости результат был на 5 ядрах У меня на 5700x пик пришёлся на 4 ядра, но разница очень небольшая (как, впрочем, и абсолютные цифры). Память 3200, если что, модель 49b плотная, аттеншен на видимокарте был (сколько влезло). 7: 1.97 6: 2.00 5: 1.98 4: 2.02 3: 1.77
Попробовал эту версию ArliAI_GLM-4.5-Air-Derestricted которую тут нахваливают. Не увидел разницы от обычной Air. Я и в обычной Air отказов и цензуры не получал.
>>1436563 Нет, в данном контексте речь об инструкциях, которые передаются ллм вместе с исходными данными для промежуточной и финальной обработки, и то как эти данные оборачиваются. >>1436572 > пик пришёлся на 4 ядра Ты мышью активнее пошевели и "пик" на другое придется.
Кто там писал в предыдущем треде что у него на жоре скорость упала на последней версии? Тоже обновился и это пиздец. У меня "контекст закончился" когда его 9к из 32 в промте и прочие странности вытекают. Откатился.
Бтв, я последние тредов 15 прочитал по Эиру. И рассуждения анонов которые писали как его промтить помогли. Переписал карточку и уже два дня кумю как ненормальный, как будто впервые 12б мистралеслоп ем и не могу насытиться. Если правильно запромтить эта модель тупо работает и делает свое дело.
>>1436598 Так а что там непонятно? Шаблон GLM из таверны и семплеры обычные, температура 1, min p 0.03, штраф за повтор иногда можно врубить или драй если его предпочитаешь.
>>1436598 Ну и про промтинг в других тредах читай. Сори, но я заебусь это расписывать или заново искать. Там вроде три анона полезные полотна вкидывали.
тестирую тут всякие варианты запуска на жоре. -ot не показал никакой эффективности при распределении тензоров на разыне карты. Я пытался наиболее требовательные пихать на 3090, а остальное на v100 и незначительное на p40. Нихрена вообще не дало. Зато я попробовал запустить модель вообще без p40, только на трех картах 3090 + 3090 + v100 получил 54.27 т/с вот тут запускал на 4 карты 3090 + 3090 + v100 + p40 >>1434467 → скорость была 33+ т/с
то есть наличие p40 отнимает 20т/с генерации. Относительно общей скорости это -45% примерно.
>>1436600 вот ты упомянул, что шаблон используешь, а я понял, что таверну не обновил. У меня шаблона не было. Подтянул. Буду ковырять.
>>1436674 Бля, уже второй чел в треде пишет "у меня модель на N+1 картах работает медленнее, чем на N". Вы не понимаете что ли, что в такой формулировке это звучит "я полный еблан, распределил модель, которая влезает в N карт, на N+1 карту, и жалуюсь, что так медленнее."? Пишите конкретно, епта, что вы добиваетесь добавлением доп. карты. TP? Перенос экспертов с рам в карту? Или реально ебланизмом страдаете?
>>1436674 Разницы между 3090 и v100 не замечаешь потому что они достаточно близки по перфомансу, судя по тестам. А то что тесла - тормоз и так было известно. Но она все еще должна быть быстрее десктопной рам. >>1436728 Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные.
>>1436734 >Если карты одинаковые то хоть на одной, хоть не четырех, отличия в перфомансе незначительные. Модер потер мой мягкий ответ тебе из-за других обиженок, но я могу и конструктивно выебать, мне не впадлу - 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты. Незначительные, ага, так и закоупим запишем.
>>1436769 >А нужно ли Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать.
В общем, попробовал я. 24b мистраль, 4 квант (не хотелось терять качество на младших квантах) 12Гб врам. + 24 рам ddr3 С выгрузкой слоев 0.9 т/с С выгрузкой тензоров 1.5 т/с. Грустно, но это был интересный опыт. Наверное с моешками будет веселее. Пока возвращаюсь на 12b немо.
>>1436846 Какого обновления? Ты не понял что ли? 2mw >>1436903 К счастью они молчат как сигмы и тихонько пилят, а не как некоторые рот закрыть не могут ща ща сун всё будет дайте 2 недели и так 2 месяца
>>1436856 > 2500 pp 30 tg vs 1840 pp 24 tg из-за добавления такой же карты Счастливый обладатель подключения по x1 шине? Или может картофельный конфиг с мусором вместо процессора и одним каналом ддр3? Не должно такого эффекта быть на здоровом железе если речь о фуллврам, ищи проблемы. > конструктивно Да где же конструктив, вон братишка проиллюстрировал насколько один паскаль может замедлить даже при небольшой доле на нем, красавчик, а ты на говно исходишь. Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха. > байки Sweet summer child >>1436905 2 more epochs, look, it's getting better?
>>1436930 >Для справедливости стоило бы выгрузить экспертов на такой же объем памяти на проц и показать что на фоне этого тесла не так уж и плоха. А ещё можно оставить одни теслы, включить row split и получить те же 30t/s без V100 и 3090. 4 теслы как раз встанут в цену одной V100 32gb. Причём если брать не P40, а P100, то конечно это всего 64гб, но скорость МоЕшек в этом размере будет ничего так. По идее.
>>1436998 Однажды HeMinngweiAi попросили написать самый короткий грустный рассказ... Спасибо за пояснение, анон. Я знал, что когда-то этот момент настанет. Все-таки старичку уже 12 лет... Теперь надо переждать шторм (пара-тройка лет, мб), и на следующий день после того как цены отыграют вниз, я начну таки собирать новый пека.
>>1436998 Сейчас AVX2 уже не такой большой буст дает, AVX1 достаточно разогнали. Когда я последний раз зеончик юзал с AVX1, он не сильно отставал от процессоров с AVX2 с той же псп. Хотя за год до этого он реально 30% просаживался.
>>1437091 Что-то скурвились французы, архитектуру Дипсика взяли. Фактически уже имеем десять Дипсиков с разными датасетами. > 128 рам Ты хотел сказать 512? Там будет 300-700В. >>1437120 Что-то долго они с V4. Опять тут будет дотюн под скоры. Терминус, кста, был лучше в РП, чем экспериментальный 3.2.
>>1437197 >ни разу не пожалел что купил 96гб Проблема в том, что все крутые модели 500В+. Спасибо ещё Квену, но чую, что в следующей версии и они увеличат размер и что тогда?
>>1437218 >давайте репортить всех кто пишет что они купили оперативу до того как она сделала х3 Лично мне обидно, что и DDR4 с какого-то хуя поднялась. Барыги, одно слово.
>>1436973 > включить row split и получить те же 30t/s Это таки другой режим. Но во-первых 30т/с там никогда не будет, а во-вторых уже через 8к контекста оно превратится в тыкву настолько если 5т/с останется то уже хорошо. > 4 теслы как раз встанут в цену одной V100 32gb Лолчто, они же только у барыг за лютый оверпрайс остались, свои распродаешь? P100 действительно лучше, но мало памяти. Городить колхоз аж из 4х карточек ради эйра, который катается на десктопе, чтобы в итоге катать его со скоростью как не десктопе - ну такое. >>1437091 Это просто ахуенно.мп4 Ждем! >>1437140 > Там будет 300-700В. Это просто ахуенно х2 > десять Дипсиков с разными датасетами Да не надо, не смотря на схожесть архитектуры, работают и перформят они совершенно по-разному. Что там в 3.2 интересно, но надежд что будет лучше терминуса немного.
>>1437221 >но чую, что в следующей версии и они увеличат размер и что тогда?
ну зависит от ситуации на рынке железа. в ближ 2-3 года скорее всего ничего брать не буду, пока модели не протухнут окончательно (мне не для кума, текущих моделей - air + qwen + gptoss - мне пока хватает). потом мб или medusa halo, или mac studio, или что еще будет иметь смысл в 2к28 (epyc/xeon/threadripper старых поколений). на крайняк могу купить подписку и забить хуй на локальный сетап, в конце концов мне не для кума.
>>1437218 Хочешь экспедицию на марс? Не так давно брал ддр5 64гб планочки по 15-20к. >>1437230 С точки зрения возможности запуска на нормижелезе - да. >>1437236 > в конце концов мне не для кума Ахуеешь с того, насколько нищие рейтлимиты по подпискам.
>>1436930 >Не должно такого эффекта быть Пошли манявиляния, мм. Конфиг не тот! Потом станет бекенд не тот. Замеры не те. К слову, ты сам себя забавно приложил, ведь т.н. "картофельный конфиг" как раз у того, кто v100 замеряет. Ой как неудобно получилось.
>>1437346 Таблетки прими, агромразь, настолько упоролся коупингом своего "конфига" что потерял связь с реальностью. > "картофельный конфиг" как раз у того, кто v100 замеряет Замечание уместно, тут стоит попросить его оценить скейл запуском моделей на одной и нескольких карточках чтобы извлечь эффект.
>>1436185 >Замечаю, что при генерации выжимки, нейронка скипает целые абзацы интересной инфы. >ну или подскажите способы прокачать сам НотэбукаЛМ чтоб максимально всю годноту из статей выкачивал.
А если попробовать разбивать на меньшие части? Будет больше деталей и нейронке проще держать фокус для детальной выжимке. Слишком много контекста обрабатывать детально даётся обычно только крутым моделям, а как плебс вариант то приходится довольствоваться малым..
>>1437223 Мне обидно что я думал наивно что они как запустят конвеер под ддр6 и плебс будет хавать ддр5 как раньше ддр4, а они в итоге все мощности перенаправили в голодные рты корпоблядкам.
Пиздец, я ебал такую жизнь. Три года назад взял 3060 у перекупа пидораса за 50к, через несколько месяцев цена на нее упала почти вдвое. Летом когда обновлял платформу зажопился на память и взял только 32 гига, теперь плашки стоят дороже в три раза. Ну почему так нахуй... почему...
>>1437445 Да там шизики-прердолики во главе с Жорой сидят. Я бы тоже не захотел в этом цирке участвовать, когда пальцы вверх от людей не аргумент, а "ну мне кажется нам это не надо, выглядит слишком сложно" аргумент. Это ведь не совсем залётный чел, 5к строк кода уже от него есть там. Вспомните хотя бы упоротое нежелание использовать готовые либы регекса, из-за чего пол года жрали поломаный токенизатор ламы. Абсолютно больные люди, и их профессионализм не отменяет их ебанутости.
>>1437120 В общем обычный 3.2 ничем не отличается от Exp. А вот Специальный в прикладных задачах ассистента явно похорошел. Можете не тестить, для РП всё так же Терминус лучший из Дипсиков.
>>1436856 >Если ты веришь в байки про то, что процессор хоть как-то значимо нагружается при инференсе gpu-only, то тебе не нужно. А если ты думал, что выгружать там экспертов на цпу это хорошая идея, то перестань так думать. Долбич, нахуя этой плате 5 шин 8x 3.0, если она никогда не сможет дать такую пропускную способность даже по одной шине, и именно из за цпу ддр3 с одноканалом? Типа какой смысл? Уж лучше один слот нормальной мамки сплитануть, или на каком-нибудь хуанане с четырехканалом собрать. Тогда хотя бы не будет ботлнека, как на твоей хуйне. В ней смысл только там где карточкам не надо данные гонять между собой.
>>1437421 Они не говно, потому что позволяют тебе запускать то что иначе было бы невозможно или ужасно медленно. И могут быть вполне юзабельны для рп, чатика и подобного. Просто нужно понимать, что низкая битность скажется на стабильности и исказит результаты. Модель может начать делать глупые ошибки и опечатки (прежде всего там где требуется точный текст, например код), делать глобальные просчеты спутав роли/персонажей (случается и просто так), ловить лупы и создавать отвратительные структуры (больше обычного). Не обязательно что ты это поймаешь, не обязательно что эти недостатки окажутся существенными, так что просто пробуй. И да, если хочешь кодить или юзать агентов ~4бита это некоторый минимум ниже которого будет много разочарования.
>>1437421 >Анон, младшие кванты - говно? если модели огромные как слон (а-ля glm 4.6) - то 3 или 2 второй кванты дают неплохие результаты. // мнение может не совпадать с мнением местых шизов
>>1437445 На первом жестко забуллили парня, сейчас бы блеймить за применении ии и комментарии в экспериментальном, какой абсурд. > среднестатистический владелец рига Шутка про жору. >>1437487 Ты еще можешь купить 3090 и V100, пока они есть и адекватно стоят. Даже при окончании действий на отличных для этой страны условиях перспективы что они в ближайшее время потеряют актуальность ничтожны, глобальный кризис с железками. >>1437498 Спасибо за сэкономленное время.
>>1437421 Я где-то видел график с исследования. Там до 4 сильный рост, а дальше слабый. Сменив квант с двух до четырех нейросетка поумнеет в 2 раза. А сменив с 4 до 8 - 20% прибавит.
Везде написано, как на них играть, но нет руководств как их использовать в нейросетях. Или для нейросетей так же нужно ставить определенные драйвера, что-то там патчить, переподписывать, реестр редактировать и тд?
>>1437757 >Ты еще можешь купить 3090 Могу, но сильно ли много смысла будет? Все новые модели это микстуры и если это реально тренд, значит нужна именно оперативка на будущее, которая только дорожает с каждым днем. Даже сейчас за цену 128 гигов щас можно почти две 3090 взять.
>>1437487 Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой.. >>1437892 А если терпеть, то как долго? Я так понял что минимум 2 года надо будет терпеть пока ддр6 не выпустят и корпоблядки не начнут распрадовать старые плашки?
>>1437899 >Так 3 года назад еще ток 4х серия выходила и 3х была актуалочкой.. Карту брал в конце февраля 23, на тот момент актуалкой уже была 40 серия, но ее брать не стал потому что 8 гигов все дела. >минимум 2 года надо будет терпеть пока ддр6 не выпустят Скорее даже три, потому что даже после релиза нужно будет ждать пока красные и синие разродятся и выпустят процы под новую память. >корпоблядки не начнут распрадовать старые плашки Выход нового поколения не означает, что старое просто выкинут и сразу пойдут закупаться новым. В лучшем случае подешевеет ддр4, если ее не скупят китайцы под перепродажу.
>>1436096 Влияет ли на результат количество активных экспертов? У GPT-OSS 120B по дефлту 4 эксперта работает. Если эксперт не умеет в многопоток, то только 4 ядра будут работать.
У меня локально на 6 ядрах без видюхи. 2 эксперта 9.68 токенов/сек 4 эксперта 7.71 токенов/сек 8 экспертов 5.66 токенов/сек
Я всё ещё жду когда навайбкодят нейросетевой поиск по видео порнухе, когда для каждого кадра (хотя бы для ключевых для оптимизации производительности) будет сделано подробное текстовое описание и поиск будет работать по это большому массиву текста, а не только по очень короткому названию видеоролика.
Я даже сам попробовал, но цензура. Вообще цензура - самый большой тормоз в развитии ИИ. И отсутствие ИИ в порно тоже сделает ИИ небольшим нишевым решением. Порно всегда было двигателем развития интернета. Без двигателя ИИ далеко не уедет.
>>1437919 llm openai gpt-oss использует Mixture-of-Experts (MoE) архитектуру. Это когда для обработки токена используются не все параметры, а только небольшая часть. Традиционно при обработке токена проверяются все параметры, если их там 120млн, то все 120млн. проверяются. Это медленно. В MoE все параметры поделили на кусочки, например GPT-OSS-120B 120 млн. параметров поделили на 128 экспертов (у каждого эксперта 0,9375млн параметров). И используют по дефолту только 4 из них (но в lm studio можно настраивать количество). Т.е. при обработке токена только 3,75млн параметров проверяется - это значительно быстрее (в 32 раза). Для разных токенов разные эксперты используются.
>>1437931 А он был? Даже если бы они собирались релизнуть новую 70-120B, учитывая их отрицательный прогресс после 123B 2407, я бы не ожидал чего-то сильно интересного. А моепараша не нужна.
>>1437931 Похуй. Эир 4.5 Дерестриктед это всё что мне нужно. Настолько преисполнился что решил все проблемы вроде пассивности или эха, больше мне ничего не мешает. Хинт: все дело в карточках, правы были шизики которые писали про формат и количество промта
>>1438044 Пора переписывать базу треда? Без 512гб жизни нет! Сколько там сейчас ддр4 стоит? Пол ляма? >>1438049 А вот и коуп пошёл. База треда не щадит никого
>>1438054 Чатмл не пробовал, у меня на стандартном шаблоне все заебись >>1438055 Люблю этих экстрасенсов которые проецируют свои проблемки видят глубинные смыслы в буквах и разгадывают постеров
А что там по базе сейчас? 4090 с 24гб еще котируется или минимум это 5090 либо 4090 с китайской спермой? Ram я так понял минимально от 128? Хорошо что в 2024 со 192гб собрал
>>1437892 > значит нужна именно оперативка на будущее Ну типа если у тебя достаточно врам тебе только остается довольно урчать, опционально жалеть тех, кто вынужден задействовать рам. Учитывая, как ты написал, что цена врама лишь в 2 раза ниже, но к нему бонусом идет нихуевый компьют - гпу риги даже для моэ становятся актуальны. Минус - сложность, плюс - возможность плавного постепенного масштабирования. >>1437899 Предсказывают 3-5 лет, но пиздеть не мешки ворочать. И сразу точно никто распродавать не начнет. Выход ддр6, который может затянуться сам по себе, появление массовых плашек и платформ под них - еще +год-два, возможность того что даже после обновления память останется дорогой - так что цифры выглядят недалекими от правды. >>1438044 Докупи еще +24 и влезет. >>1438089 Котируется чем больше тем лучше. 4090 можешь проапгрейдить до 48, самая годнота.
>>1438243 Будет взлёт минимум год. Предположительно 4 года подъёма цены, потом медленный спад. Причём цены на всё, что видеокарты, что ссд. Пока ссд не подорожали так люто - советую затариться.
>>1438249 Я поддержу. Не знаю что будет дальше, но если вы сейчас не можете позволить, то просто забейте хуй на год или ждите сладеньких скидонов. Держитесь. Мы отправляемся с ценами в БЕСКОНЕЧНОСТЬ И ДАЛЕЕ, ЕБАТЬ МЕНЯ В СРАКУ.
>>1438250 Скидонов не будет, в этом самый пиздец. Мы входим в эру, когда аи пожрал консумерский сегмент. И если за это кого и ебать в сраку, то только мудака, который это заварил - Альтмана ебаного.
А я радый. Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится.
>>1438249 Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх. Правда по видюхам пока слабо, есть 4090 и v100 едет, и новые уже в этом году скорее всего не закажу, мне ещё ссд покупать, корпус, райзерры, кастомные кабели под 100500 разъёмов питания на мп и прочие расходники, а что будет в 2026 хз, может как с теслами будет, будем v100 по 100к покупать
>>1438263 Хуёвое сравнение, потому что совсем мимо.
>>1438269 Чисто в теории мелкие фирмы могут начать загибаться без поставок железа и продавать имущество. Но это такое. Нестабильный ручеёк.
>>1438275 Лично я не собираюсь уже покупать ничего, кроме ссд. Потому что как раз посмотрел, цены достаточно адекватные пока что, а за 4 года ссд точно отъёбывать начнут. Остальное пусть будет, как есть.
>>1438275 Или не будем, или не год, я вот ждал-ждал, всё хотел на ддр5 собрать и дождался цен х3. Да и год так-то охуеть как много. И если выбирать сидеть год с мистралькой и дипкоком или без него, то как по мне выбор очевиден.
>>1437918 > Если эксперт не умеет в многопоток, то только 4 ядра будут работать. Чивоблять.мп4 Количество активных - просто topK от выдачи роутера, выбранные слои обрабатываются также параллельно как и все остальные, просто разное количество. Ядра тут вообще не причем. Лучше с этими изменениями не заигрывать, больше не значит лучше. >>1438097 Не q1 а tq1! А так сможешь быстрее инфиренсить другие модельки, квен-некст будет помещаться фуллврам или почти так, что позволит использовать его для агентов и мелочи. >>1438269 Красавелла. Как соберешь - рассказывай что за конфиг, какие скорости и т.д. Многие вещи еще можно успеть взять на вторичке, если хочешь много видюх то можешь сразу смотреть в сторону майнерских каркасов или кастомных решений.
>>1438269 >Тоже так думаю. Тряхнул кубышкой и теперь собираю себе риг на 512гб ддр4 и несколько видюх. Откровенно говоря в таком размере и на таком конфиге МоЕшку гонять будет некомфортно. А альтернативы на любых видяхах стоят ещё дороже, ну на теслах разве. Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей. Я бы даже не собирал. Вот вариант с арендой сейчас неплох становится - РАМ-то там дешёвая, это видяхи дорогие. Сам думаю в эту сторону двинутся пока, если выйдет что-то действительно интересное.
>>1438264 А в чём радость? >>1438275 155к за 3080Ti-кун всё ещё с вами... >>1438294 >Честно говоря пока что вообще нет хороших вариантов для больших локальных моделей. 6000 Pro стопочкой...
Там инфа проскочила что куртка больше не будет поставлять чипы памяти под свои карты и теперь эта проблема вендеров. Это значит что мы теоретически можем получить каких-нибудь монстров типа 5080 с 32 гигами от условного спалита, или на объемы памяти это никак не повлияет?
>>1438408 Память и так поставляли сосунги и хуниксы. И ограничения в чипах никуда не денутся, никаких тебе увеличенных объёмов, молись, чтобы хоть что-то было.
>>1438408 Не, не получим. Просто цены поднимутся и появится куча ревизий с заниженными частотами и говнопамятью потому что вендорам придется самим ее искать. Не исключено вообще явление кастрированных версий с меньшей шиной и объемами, или с какой-нибудь gddr6 что вдруг нашлась на складе. А то и вообще рефабов или вторичной врам. С другой стороны, это увеличивает ассортимент доступных биосов и прочего, что повышает шансы на возможность и популяризацию апгрейдов блеквелла.
>>1438275 двачую этого товарища. В свое время смотрел на цены, ужасался. Думал, разориться или нет. Подождал год, отхватил 3060/12 от годного вендора за 40к вместо х3-4 кабанчиковых оверпрайсов.
Подскажите вот что. У меня на компе локально крутится модель. На Андроиде телефоне есть таверна. Как их подружить? Это надо какой-то шаманизм с белым ip делать да?
>>1438489 Прямо на комп ставишь таверну и шаришь её интерфейс наружу через белый ип, некоторые роутеры (кинетики к примеру через KeenDNS) имеют услугу домена на устройство, позволяющее обращаться даже к временным айпишникам. Как и что, ты и сам загуглишь за 3 минуты.
>>1438487 Пиздец говнища. А ведь на них последняя надежда была в средних моделях. Но все как на зло выпускают или обрубки 0,00001M, или хуету 1488T. Ещё и РКН пидоры режут загрузку, скоро срать ходить буду через VPN, напрямую жопу заблочат.
>>1438487 Где кванты, лебартовски?! Интересно сделают ли сегодня, архитектура то не новая. Алсо помимо ларджа там еще долгожданное обновление для тех, кто на 12б сидел.
>>1438495 Соя на месте как у корпов, соевее Грока. В РП ощущается как 24В, стиль просто один в один. Слоп со вздохами на месте. Лупится, блять. Тупа второе сообщение уже с прибитым шаблоном не просто по формату, но и по смыслу. Говно просто, литералли как прошлый Лардж - одинаковые реплики, отсутствие движения по сюжету, если начинается истерика, то она идёт в лупе с "ок я согласна, хотя погоди я не готова" и так каждое следующее сообщение и невозможно текстом разлупить. Хуже Эйра 146%.
>>1438567 Сетке нужен пробив цензуры через пресет, понятное дело что просто так по дефолту она или будет рефьюзить с соей, или уходить от ответа как у тебя.
>>1438567 У тебя чат комплишен с вжаренным туда промтом, мань. И очевидно никаких джейлбрейков (которые не нужны вообще на текст комплишене). Это то же самое что катать сетку на веб-сайте.
>>1438576 Так я в таверне тестил. Первый пик просто чтоб показать как в дефолте срёт. Алсо, что там у тебя за пробития на локалках, джейлбрейки ещё может пишешь? >>1438578 > чат комплишен с вжаренным туда промтом Шизло, прекращай. Лучше сам затести, а потом пизди.
>>1438581 Ебануться, какие же тут овощи порой обитают. Чувак может запустить 600б мастодонта, но не знает, что на чаткгмплишене в опенвебуи или на каком он там говне сидит, подтягивается jinja с заложенным в шаблон промтом. В какую же помойку тред скатился, лул. Как будто год назад бибизян умнее был.
В рот ебал качать, да и столько памяти нет для запуска локально. Погонял чутка в облаке, и она лупится как мразь грок буквально со второго сообщения. То есть она достала текущую дату из системного промпта, высрала её в выдаче, а на следующий промпт уже ушла в луп с этой датой. Причём, по мозгам все не прям чтобы плохо, если ваншотами хуярить, но даже у гигачата такой хуйни с лупами не было.
>>1438602 И зачем ты себя обоссал? Не умеешь читать буквы? Там есть стандартный системный промпт, если не задан никакой в запросе. Тебе объяснить что в этой строчке написано? > {%- if messages[0]['role'] == 'system' %}
>>1438581 Агрессор, если ты не знал то в публичных вебмордах и апи помимо стандартного странного системного промпта еще сейфти добавляют. >>1438586 > Чувак может Вероятнее в облаках катает. >>1438595 Там "date" 8 раз подряд упоминается, с таким шизопромптом и не такое может быть, лол. 5 часов прошло а ни одного ггуфа, пиздец.
Полистал шапку. Как я понял, 2/3 тут сетки для рп собирают. А я это, я шиз, я собираю архив для погружения в бункер как в том фильме, где отец семейства от радиации бункер строил и там с семьёй прятался. Подскажите что-нибудь.
1. В первую очередь меня больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое - как устроен реактивный двигатель, почему спин надо на два делить, а магнитное что-то там не надо на два делить в атомной физике, каким образом РНК и ДНК взаимодействуют и строят белки, и вот всё в таком роде. Ещё круче, если этому можно скормить книжку и помочь мне разобраться. В общем образовательно-позновательные цели. 2. И ещё сетки для кодинга, в двух приложениях: - чтобы выполняло запрос по типу, что перепиши перебор по отсортированному списку на бинарный поиск по такому то полю структуры, или открой эксель файл через openpyxl и загрузи по строка в структуру, где дата в первом столбце, во втором уровень излучения в попугаях. Такое, что напишет школьник и что просто не хочется вручную писать. - Будет круто, если оно будет само по памяти знать как в микроконтролере выдать шим на такой то пин используя LSI и другие такие штуки, как нарисовать каустики через шейдер glsl, принцип работы алгоритма A* или как трансформер на pytorch создать и обучать - то есть акцент на наличии информации в сетке о том что и как делается, писать сам код прям не нужно или почти не нужно, код я и сам напишу. Это даже приоритетнее чем первое.
Что загружать по такие задачи? Какие бенчмарки смотреть, может быть есть какой именно о профессиональных знаниях в программировании.
3. И ещё информация по запуску крупных моделей интересует. 96+8 ГБ памяти на CPU+GPU. Я позапускал, в общем-то всё ясно и понятно как работает до этих 90 ГБ. Что делать если модель больше? Как я понял, MoE использует не все веса, не все головы внимания или что-то такое. Есть способ запускать сетку больше чем влезает в оперативку? SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки. Вроде как веса только читаются, то есть по идее не будет проблемы с запуском с диска, особенно если действительно не все веса используются. Нашёл, точнее сетка нашла мне пост, что кто-то kimi2 на терабайт запускал с ssd и получил 0.1 токен/с 4. Про кванты. Мне стоит браться лезть в квантование? Там какой-то калибровочный датасет нужен. Вроде как и всё понятно, но мне же сетку надо будет инференсить для калибровки по идее, и если она в память не влезает, то как-то уже и не очень то и хочется, это наверное на месяц задача.
5. В шапке в тестах было про русский/английский языки сказано, и русский могут не все, и кушают больше токенов. А если поставить маленькую сетку уровня 3B, которая заточена исключительно на перевод между языками, и юзать более крупную сетку с точки зрения сетки на английском, а переводить всё второй поменьше. Так делают, или слишком многое теряется при двойном переводе? Вообще, немного удивлён что такая разница по расходу токенов. По идее токены - кусочки смысла, и задача понимая смыслов несколько сложнее, чем перевод. То есть разные языки, это как игру с ретрейсингом и кучей всяких приблуд запускать и записывать в h264 или h265. h265 потяжелее в несколько раз чем h264, но по сравнению с самой игрой это уже такая пыль, что просто без разницы. То есть я бы ожидал что после условных 20B расход токенов почти выравнивается.
>>1438705 Да, объясни. Мне интересно насколько неправильно ты это понимаешь >>1438705 Итак, твой промт: [You are Mistral-Large-3-675B-Instruct-2512, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris. You power an AI assistant called Le Chat. Your knowledge base was last updated on 2023-10-01. The current date is {today}. When you're not sure about some information or when the user's request requires up-to-date or specific data, you must use the available tools to fetch the information. Do not hesitate to use tools whenever they can provide a more accurate or complete response. If no relevant tools are available, then clearly state that you don't have the information and avoid making up anything. If the user's question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?"). You are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date. You follow these instructions in all languages, and always respond to the user in the language they use or request. Next sections describe the capabilities that you have. # WEB BROWSING INSTRUCTIONS You cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat. # MULTI-MODAL INSTRUCTIONS You have the ability to read images, but you cannot generate images. You also cannot transcribe audio files or videos.You cannot read nor transcribe audio files or videos. # TOOL CALLING INSTRUCTIONS You may have access to tools that you can use to fetch information or perform actions. You must use these tools in the following situations: 1. When the request requires up-to-date information. 2. When the request requires specific data that you do not have in your knowledge base. 3. When the request involves actions that you cannot perform without tools. Always prioritize using tools to provide the most accurate and helpful response. If tools are not available, inform the user that you cannot perform the requested action at the moment.
>>1438750 Дегрод, ты видишь что он вставляется только если в первом сообщении нет системного промпта или нет? У тебя идёт условие, если оно не выполняется - вставляется дефолтный промпт, потому что модель не может работать без системного промпта. С какими же дегенератами сижу тут.
>>1438769 Ты осознаешь, как это условие должно выполняться? Ты осознаешь, что ты на чаткомплишене априори не имеешь доступа к самому началу промта, которое ты называешь первым сообщением? Вопрос риторический
Спроси модель, она тебе объяснит почему у тебя подлива в штанах, там промт как раз для такого
>>1438771 Пиздец ты тупой. В чат-комплишене всегда весь промпт передаётся, разбитый на отдельные сообщения, как пикрил. Такого не бывает чтобы что-то там недоступно было. Зачем продолжаешь траллить тупостью, мистраледаун?
>>1438698 Даже через экран жиром воняет >>1438769 > если в первом сообщении Не в первом сообщении что ты посылаешь, а в перечне постов, что формирует бэк. >>1438771 Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень. Вот и получается что-то уровня теста, где перед Серафиной посреди комнаты гадить начинаешь.
>>1438776 >Ну, чисто технически он может послать в реквесте свой системный промпт. Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Или будет у него два запроса от роли системы, первый стандартный, который добавляется безусловно, а второй уже тот что он пытается от роли системы подпихнуть, получится хрень. Мы оба знаем, что он дурачок и видит начало промта в первом сообщении, которое он набирает во фронте. Увы таким бесполезно объяснять, вон как выебывается
>>1438776 > Не все апи это поддерживают и могут или сразу вернуть ошибку, или просто проигнорировать, оставив свое. Это какие не все, лол? Все используют OpenAI API и оно всегда использует системный промпт из запроса.
>>1438785 >Лучше бы нормальные модели обсуждали Какие? С новым эйром - кормят завтраками второй месяц и не выпускают. Геммочки 4 нет, и даже анонсов нет. Квен - выдал жирноту в которую без 128 рам не залезть и 3b ассистента не способного в РП. Мистрали по ходу ВСЁ, теперь это васькотюны китайцев. Что обсуждать-то?
>>1438778 Увы. >>1438784 Классическая либа от опенов и документация гласит, что работают с системными инструкциями только легами модели. Начиная где-то с 4о ты можешь слать что угодно, но это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов. Отдельный параметр системного промпта также отмечен как устаревший. То же самое у клоды и гугла, у последних вообще путаница из-за двух версий либ, в которых старая раньше могла отправлять. Все что не буквально опенаи - нечто "совместимое" с кучей вариаций и интерпретаций в зависимости от бека и настроек.
>>1438789 > гласит Что там у тебя голоса в голове гласят? Ты ведь никогда в жизни не видел доки опенов, лол. Мне не сложно показать тебе их. И в доках указано что всё так же нужно писать системный промпт, просто теперь с другой ролью. > это заменится юзером а тебе выдаст ворнинг, инструкции высшего приоритета остаются на стороне опенов Забавно как ты на ходу выдумываешь что-то. Даже у опенов все инструкции на месте. И ты всё ещё не показал как говномистраль без цензуры магическим образом работает. Сначала обосрался с темплейтом чата, теперь выдумываешь про подмену промпта, лол.
>>1438805 Вялый костыль, который кинули как кость вместо системного промпта из-за необходимости, ты ставишь как основу своей аргументации пропустив все основное, молодец. > Даже у опенов все инструкции на месте. И тут же стал экспертом по внутреннему устройству опенов. Все на месте также как полноценный ризонинг в пятерке, ага. > ты всё ещё не показал Слишком дешевый байт, старайся лучше.
Подъедут кванты, народ попробует, мнение составит и будет понятно. А твои сопли сейчас выглядят как вялый наброс от лсной макаки. Манера общения и что пишешь еще больше заставляют усомниться.
>>1438814 Да они заебали своим дипкоком. Мой комфортный максимум - это большой глм в 5 кванте. А аналогичный по размеру квант продукта дипсикосодержащего - второй. Причем активных параметров там +-40, т.е. считай это как 40B гонять во втором кванте. Ебать удовольствие, конечно.
>>1438822 >+-40, т.е. считай это как 40B гонять С моэ это не так работает. До эйра я сидел на мистрале 24b и гемме 27b. По сравнению с ними эйр ощущается как ПРОРЫВ, он очень умён, хотя казалось бы, всего лишь 12b. И квены тоже есть с чем сравнивать. На телефоне гоняю 4b гемму, так вот 3b моэ квена не только умнее неё, но и умнее мистраля с геммой, которые юзал на компе до этого (но с уточнением, что тут речь про ассистента и квен из трёшек самый толстый - 80а3).
Экстраполируя всё это на дипсик/мистраль, вангану что он будет ощущаться на уровне 200b+ денс моделей. Но это не точно.
На самом деле меня пугает даже не сам размер моделек (есть 512 памяти в сумме), а то сколько они на диске занимают и как геморно их менеджить. Без пачки ссдшек на 2+ тб буквально не видно жизни. Сам я уже думаю переходить на страйп из хардов
>>1438696 >SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки. Двухканал DDR4-3200 оперативки дает 50Гб/с - всего в 10 раз больше. DDR5 в 2 раза быстрее. Т.е. нужно купить 10-20 штук SSD в RAID1 что бы получить туже скорость.
С другой стороны 1Тб оперативки стоит 800 т. руб. (8шт, 128Gb DDR4 ecc по 100т.р.) А 10шт 1Тб SSD (самсунг по 15 т.р., можно более дешевых по 10 т.р. купить) стоит всего 150 т.р. - в 5 раз дешевле. Но нужно считать общую стоимость системы. С SSD можно легко купить 4Тб диски, а с памятью такое будет нереально дорого и редко.
>>1438696 > умные, Это те у кого много параметров.
>Про кванты Скачай готовую. После 4 кванта рост замедляется, после 8 смысла вообще нет ради 1% в тесте. gpt-oss например сразу с завода в MXFP4 (новый формат для нейросеток).
>>1438827 Ты не понял, я не про умность моделей, а про то, как их распидоривает квантование. Когда у тебя всегда 40B активных, ты по сути гоняешь 40B модель. Да, эти 40B на каждый токен разные, это дает больше знаний, но это все равно те же 40B. В то время когда та же плотная модель условно на 120B может свою полуполоманную от квантования логику как-то подправить за счет того, что результат всегда уточняется всеми 120B параметрами. Но может я не прав, конечно, и снижение качества при квантовании тут такое же как у аналогичной плотной модели. Графики перплексити бы посравнивать
>>1438878 >>1438837 >>1438696 Спасибо, реально понятно написано. >>1435912 >>1435861 У тебя логическая ошибка в запросе, в thinking модели прогони и увидешь в чем начинается loop еще до ответа.
>>1438837 Вот у меня ddr5 - и что-то я никаких 50 гб/с не вижу. 5 ssd, 10-15 оперативка, толком даже на порядок нет разницы.
Да и ладно, какой 0.1 токен в секунду. Это она прям по буквам едва говорит. Ладно бы ещё умная была дофига, просто другой уровень, так нет - в большинстве случаев она будет работать часы, чтобы сказать что-то лишь чуть лучше, чем что-то попроще. Это конечно больше вопрос того какой вопрос ей задать.
Аноны, посоветуйте блок питания на 1000Вт, потребители - 3 видеокарты (на одну надо 2 8-контактныэ разъёма, на остальные по 1) и 4 питания SATA (3 HDD и 1 SSD) (ну и материнка, проц и т.д., естественно). Тред в /hw умер, на архиваче вроде нашёл табличку, но блоки из неё стоят по 15к. Расположение в корпусе нижнее, кабели нужны достаточно длинные.
>>1438878 Адаптеры выйдут дороже, чем сами диски. >>1438884 >10-15 оперативка >ddr5 Ты что-то сильно делаешь не так. >>1438907 >но блоки из неё стоят по 15к А хули ты хотел? Либо так, либо палёный китай или блоки из под майнеров. Ещё и провода нужны хорошие, размечтался. И вообще, 15к это фигня, мой вон 60к стоил.
На самый крайний случай можешь взять переделанный майнерами серверный БП, они дешёвые и качественные, если при переделки их не испортили конечно, но в обычный корпус они не влезут
>>1438962 Нового ничего и интересного не вышло под такое железо. Гемма, мистраль 24, snowdrop, qwen 30. Вчера ещё релизнулся новый мелкий МоЕ мистраль, но он 14b >Уточняю кря: на ноутбуке, то есть никаких обновлений / расширений железа. Не нужно быть таким категоричным, ты можешь купить 6000pro, подключить её как внешнюю карту. и катать глм, квен и даже старые денс модели
>>1438696 > SSD выдаёт 5 Гб/с на чтение, это даже не сильно медленнее оперативки.
это один пустой SSD, а заполни его на 90% говной и появятся нюансики а соедини этот SSD в рейд с ещё несколькими и начнутся другие нюансики кароч говно идея, затаривайся оперативой, а не ссд
через месяц ожидания написали, что у них нет замены и неизвестно когда будет, и предложили вернуть деньги. меньше пяти килобаксов, когда аналогичный комплект сейчас стоит в районе $12000, имаджинируйте мой факфейс
>>1438970 >подключить её как внешнюю карту А вот тут пожалуйста поподробнее, у меня ещё 3060 в шкафу пылится.
>>1438986 >Неделю? Вообще-то несколько месяцев. Я не 99тый =)) Крякал не только он. Я который мистрали и геммы мержил, да на пикселе папку хабара собирал.
>>1438883 >У тебя логическая ошибка в запросе, >в thinking модели прогони и увидешь >в чем начинается loop еще до ответа. хм. а что, мартчшки в треде уже перестали кидатсья какашками? откуда тут годный совет? Спасибо, при случае попробую.
Держи тогда и от меня тебе ответ >>1438696>>1438837 по поводу больших моделей на ssd/nvme. Скорость на них для случайного чтения записи указывают при соблюдении условий. К примеру 6ГБ/с ты на них получишь только если запустишь 32 параллельных потока записи, а один поток даст максимум 600МБ/с. Скорее всего вся эта дисковая raid конструкция будет работать в однопоток, а это даже близко не даст желаемые скорости.
>>1438978 а ведь сколько памяти валяется, должно быть, просто распаянной на картах, которые никто не использует и продает за копейки. или просто так выкидывается вместе с картами на помойку.
>>1437890 У меня P104-100 8Гб в связке с 3060 12Гб, в целом норм, но сука шумит со стандартными дровами, разные биосы ставил минимум 37% оборотов на кулерах удалось добиться. Патченные дрова ставить не хочу, приходится страдать. Говорят можно какое-то принудительное регулирование оборото наколхозить, но чет западло. В целом за 1200р вполне бюджетно
>>1438822 Поддвачну. Крупных моделей, которые можно запустить быстро и применить для околорабочих задач всего 2 - квенкодер и большой жлм. Понавыпускали кими, линг, гигачат и прочих - а из-за размера годны они лишь для рп, где ты можешь потерпеть. Но при этом дипсик все равно рпшит лучше. >>1438828 Еще можно выцепить ссд по адекватным ценам на вторичке, сата/нвме серверники или нормальные модели типа самсунгов с быстрой вне slc, если сата то лучше несколько чтобы быстро. >>1438837 Ну, чисто технически можно не только асинхронный стриминг блоков в врам из рам устраивать, но и делать то же самое из нвме в рам. Только вот соотношение скорости и объема выгрузки чтобы это (сильно) не замедлило посчитать несложно и выводы неутешительные. >>1438907 Если хочешь дешево - бери майнерский "фирмовый", они неплохие, но с нюансами, под риг норм. А так 12-15к оно и будет стоить чтобы хороший. >>1438917 Пиздец, кто-то на это еще прогревается?
>>1438982 Эх, анончик, а ведь предлагали тебе в рамках экономии времени хотя бы протестировать работоспособность и оставить, потом запаять конденсатор самостоятельно. Но кто же мог предугадать, замена тогда была самым адекватным решением. Мониторь площадки, внезапно у некоторых барыг, которые медленно синхронизируются с реальностью, еще можно выкупить по пиздецовым ранее но хорошим сейчас ценам. >>1439032 Чем больше тем лучше. На трех поимеешь 60+ т/с в квенкодере уже на 128к контексте в пригодном для использования кванте. На двух запустишь только 235 в жирном кванте и жлм в ужатом, а выгрузка обрушит скорость по сравнению с фуллврам даже если у тебя серверное железо. Больше - лучше, там и без проблем дипсико-подобные полетят.
22 часа осталось вот, сижу, думаю, брать ли вторую... последние два дня я гонял glm air на 3090 + 3090 + v100 с контекстом 98к. Так и не заполнил до конца. Сейчас вайбкожу с ней один петпроект, контекст уже дошел до 52к. Скорость 9т/с. Для 52к контекста приемлимо. Понимаю, что память для моделей сейчас будет пиздец как важна.
>>1439160 Это братья китайцы продают комплекты "собери себе ml видяху дома"? Я так понимаю, плата, чип и охлад - все отдельно? Охлад активный может быть, или только банка толщиной в трехтомник Войны и Мира? Мимоинтересующийся, но не решающийся слоупок
>>1439188 этот продавец продает уже с переходником на pcie. Я у него уже брал. охлад стоит 3к. охлад - и башня и турбина. Я выбираю башню, потому что вой не люблю.
>>1439188 Зависит от продавца. Нужна плата, переходник и охлад. Что входит в комплект нужно смотреть в карточке. По охладу есть 4 варианта 1. Турбина, воет и хуёво охлаждает 2. Большой радиатор, сам по себе не особо хорошо охлаждает, но можно присобачить кулер, китаец с ВБ на 3д принтере форму печатал 3. Водянка 4. Колхоз с охладом от серийной карты. Китаец продаёт с охладом от 4090, на али один раз видел, но с другим охладом.
>>1439237 Одна скорее всего влезет, возможно в паре с обычной картой если корпус позволит. В прошлом треде были фото анона который в рииг такую поставил, у него самый жирный охлад, можешь оценить размеры. Если нужна высота башни, то смотри в карточке на али, там разные варианты есть, повыше и пониже.
>>1439160 > Скорость 9т/с. Для 52к контекста приемлимо. Фуллврам или с выгрузкой? Если первое то почему 9 а не 39? В100 вообще крутая карточка, выглядит как интересное приобретение даже чисто держать на ней какую-нибудь мелочь под автокомплит, терминал и подобное. Главное что настораживает - сложности с поддержкой флешатеншн и экслламы, но даже так пережить можно. Если планируешь их юзать, знаешь куда применишь и деньги не последние - бери конечно. >>1439188 Там есть уже готовые комплекты. Кмк, вариант с простым адаптером и штатным радиатором предпочтительнее турбы, потому что не смотря на хитрый формфактор компактен и может быть размещен много где. Плюс к нему цепляешь свой кулер и настраиваешь курвы как хочешь, а не ловишь воющую турбину как только потребление превышает порог в 100вт.
>>1439263 Потому что 11б активных и быстрые карточки. Ну может не 39 но хотябы тридцатка должна быть. Проверь с пустым контекстом на свежезапущенном жоре, может он так сдох из-за контекста, хотя 52к как-то маловато для такого.
>>1439269 я уже постил сюда результаты холодного запуска >>1436674 >54.27 т/с ты только предполагаешь, что должно быть 39 или у тебя есть пример сетапа, где жора выдает 39 на 50+ к контекста? Если есть - я хочу узнать о нем больше. Если нет - то тут и обсуждать нечего...
>>1439277 Нету 3090 и в100 чтобы проверить, есть примеры другого сетапа где с 50 падает до ~20 и ниже, но на контекстах 80-100к. Или плато в ~47т/с на модели в 1.5 раза больше до 160к но уже не на жоре. Алсо версия какая, попробуй на месяц где-то откатиться.
>>1439318 Да, там в целом странности с дровами, раньше даже А серия, которая вполне себе с видеовыходами и может стоять в десктопе, конфликтовала. Но сносишь дрова, делаешь чистую установку, в диспетчере включаешь-выключаешь видеокарты и все начинает работать. Сейчас вроде починили что даже совсем некрота одновременно с последними заводится без конфликтов. В линуксе вообще ноль вопросов к этому. >>1439347 Да, именно такое. Проблема популярная для всякой экзотики и даже просто карт разной серии, чинится.
Правильно ли я понимаю, что если у нас начался кризис чипов памяти, то цены не только на оперативку взлетят, но и на видеокарты и ссд? Собирался брать 5080 супер следующей весной, но теперь думаю забить хуй и брать обычную 5080 прямо сейчас, пока цена не трипнулась. Насколько эти опасения вообще резонны?
>>1439389 РАМ туземун, ССД тоже делают х2 потихоньку. По видюхам пока тихо, рост небольшой, но есть мнение, что 5080 супер может или вообще не быть или по оверпрайсу.
>>1439389 Производство чипов одно и тоже. Но память в картах копеечная, даже х3 будет всего +100 баксов при цене карты в 1500. >>1439395 > 5090 за 200 и ниже уже не найти Они никогда столько и не стоили, до 250-300к подорожали задолго до роста цен на память.
>>1439389 Да. А еще нвидиа больше не будет поставлять чипы в комплектах с памятью, так что вендоры сами будут сраться между собой и с другими, чтобы купить память.
>>1439394 >По видюхам пока тихо, рост небольшой Ну оперативка тоже взлет начала почти с пустого места в последние три недели >>1439395 >5090 за 200 и ниже уже не найти Так потому что она столько и не стоила, лол. Минимально вроде до 240 опускалась, но точно не ниже
>>1439410 > столько и не стоили >>1439483 > Минимально вроде до 240 опускалась, но точно не ниже Маркетплейс с комиссиями. В мелких интернет магазинах с гарантией по ~200 были, за чеками лень лезть чтобы фоткать. Под заказ и по 180 были, но риски и никаких гарантий. В общем, кто успел - тот успел, сейчас же их активно скупают и сами китайцы также как с 4090.
>>1439410 >Но память в картах копеечная То то её вечно зажимают. >> 5090 за 200 и ниже уже не найти >Они никогда столько и не стоили >>1439483 >Минимально вроде до 240 опускалась За 230 лично брал на озоне (не гой, чтобы на 220 соглашаться, но были и такие, другие с наебалами за 180 брали, обменивающие свои 4090 вообще чуть ли не в плюсе были). >>1439493 Всё так.
>>1439494 Самый внимательный, тогда неудивительно что такие тормоза. Вообще, там есть простор для оптимизаций, но можно намотаться на костыльную реализацию фа в жоре.
>>1438907 Штош, отвечу сам себе. Мои муки выбора закончились на Lian LI SX, 1200W, 80+ Platinum, ATX 3.1 (SX1200P), на яндексе он по 13500 от Онлайнтрейда и я ещё промокод крутанул и получил 1000/10000 так что в итоге 12500. Надеюсь норм будет.
>>1439537 >Что за видюхи? 3060-12, 4060ti-16, плюс едет ко мне моя v100-16. Надеюсь дожить до светлого будущего, в котором 3060-12 заменится на 5070tis (если выйдет, если кризис памяти пройдёт, и т.д. и т.п.). Ну и плюс может в будущем что-то новое по типу v100 завезут. БП на 650 Вт планируемую вот-вот конфигурацию не тянул точно, пришлось покупать новый. Хотел 1000Вт, но анон в треде посоветовал не ебать мозг и брать сразу 1200Вт, а я и не против.
Тред локальных моделей, но моя инфа будет полезна и для локальщиков, чтобы узнать, чо там по другую сторону забора.
Я юзаю и корпов (только для работы в основном), и локалки (только РП).
Я въебал более 500к токенов на РП с Grok'ом версий 4.0-4.1 в рамках одной карточки. Размер карточки с доп инфой составил 15к токенов. Решил попробовать, ибо никогда к нему не прикасался ранее.
Основные модели, с которыми я сравнивал грока: большие квен и глэм, и, внезапно, гемма.
Поясню более подробно и буду описывать только не совсем очевидные наблюдения, о которых местный анон мог не подозревать.
1. Внезапно крайне низкий уровень цензуры для корпа, что в некотором роде ставит его в один ряд с локалками. Мечта для кумеров и любителей катать карточки персонажей помладше. Кишки и сперма из узких дырочек будут вылетать только в путь без мам, пап и джейлбрейков. Почему так — непонятно.
2. У модели крайне странный биас: фиксация на сексе, эротике. Грок может забыть важные нюансы из лора, правил, но никогда не забудет, сколько раз трусы были сняты и напомнит, что ты обещал кого-то там выебать 10к токенов назад. Также наблюдатся биполярочка: ему очень сложно держать баланс между любовью и ненавистью. Старается выдавать какие-то более бинарные реакции. И упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер. Только дай повод. Напиши хоть раз что-то такое 30к токенов назад — и он при любом неуместном моменте об этом вспомнит и начнёт гнуть на эту тему.
3. Внимание к контексту очень слабое. 32к держит терпимо, но на 50+ уже начинает сыпаться однозначно. Когда дело близится к 100к, то там уже хоспади помилуй. Что касается длины контекста, тоже не совсем понятна истинная длина, потому что какие-то модели поддерживают миллион, какие-то 128к, но легче от этого вам жить не станет.
4. По ощущениям и вспукам "инсайдеров" там 1Т МоЕ. А по моим — такое же, только с 3.5В активных параметров, иначе такое бешеное Т/С я ничем не смогу объяснить. Может шлёпать абзацы за секунду.
5. Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к. С ризонингом уже тянет на что-то приличное, благо высокая скорость работы позволяет ризонинг постоянно использовать.
6. Русек такой, что плакать хочется. На уровне локалок, НЕ заквантованных в мясо. Но это не то, чего ты ждёшь от корпоративного монстра за тонны бабла.
7. Китайский датасет. Вперемешку с типичным англоязычным. Там будет и ЛИРА, и ОЛД МЕН ХЕМЛОК, и сперма, растворяющаяся как чернила в воде, и пульсирующие стены, и вот эти вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец. Что интересно, в 3.0 такой хуйни не было.
8. Требует оче грамотного промптинга, если хотите попытаться во вдумчивое РП. Но это, ребяты, не окупается. С ростом контекста он нахуй шлёт все инструкции и проще автоматом вставлять ключевые моменты через n сообщений. Мучений буквально больше, чем с локалкой, потому что с локалкой ты выстраиваешь чёткий принци РП и хуяришь. Тут скачет. Подозреваю, что контекст динамический, квант модели тоже.
9. Если забыть про зиро-шоты и тесты в стиле "напиши рассказ, используя такие вот приёмы", даже гемма ебёт его в нарративе. На длительной дистанции гемма не так заебывает и даже лучше слушается инструкций. Без ризонинга гроку ПРОСТО ПАХУЮ, даже если инструкции в самом конце контекста. Нужно рероллить 2-3 раза, прежде чем он их выполнит. Но в итоге он всё равно что-то проебет без ризонинга.
10. Если воспринимать его как рабочий инструмент, то это мусор. Он не стоит и близко к нынешним корпам. Даже дипсик его ебёт, не говоря уже про клодов всяких. Нахуй он нужен бизнесу — непонятно. Но у меня есть подозрения, судя по докам с сайта, что модель просто для щекотания эго Илона. Ну и для дрочеров, что не может не радовать — нам нужны такие игроки для более разнообразного рынка в целом.
Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то.
Ощущения очень смешанные. Чувство, что меня наебали.
>>1439505 >>1439521 а с чего вы взяли, что именно квантизация контекста виновата? Кто-то проводил тесты и получал сильное замедление? Просто типа... можно так в любую нестандартную опцию ткнуть и сказать "ААА, НУ ВОТ ОНО ПУ ПУ ПУ блять".
>>1439552 Маск так-то в своё время критиковал ОпенАИ за то что они не "опен", но когда сделал собственную модель - сам не торопится выкладывать её в опенсорс. Да, в плане почти полного отсутствия цензуры (и текст и видео) - Маск слоняра, но за то что не делится с работягами своими модельками - максимальное осуждение. Какой-нибудь Грок-эйр на 120b я бы с удовольствием пощупал в локальном РП.
>>1439543 На эти с запасом. >>1439569 Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета. >>1439573 Ну вон второй выложил уже давно, для кума вполне себе. Задержка очень большая перед выкладыванием, тут бы до третьего дотерпеть. >>1439575 Почему не 4.6?
>>1439552 >упоминать соскользнувшую одежду с плеча, ключицы, шелест юбки, полноту бёдер Чем больше разных моделей пробую, тем сильнее ощущение, что существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам. Что мистраль, что гемма, что квен, что лама - все описывают сцены одинаково с едва заметными отличиями. Будто в английском весь эротический фанфикшен имеет общий паттерн и модели его запоминают не имея другого выбора. Точнее даже не паттерн, а общие конструкции. Одну конструкцию. Если описывается грудь, значит вздымающаяся и упругая, если соски, то обязательно твердые и розовые. Дженерик слоп щит короче.
>>1439581 >Потому что известная тема, при расчетах происходит деквантование - чем больше тем дополнительная операция тяжелее. На жоре и так треш с ростом контекста происходит за редкими исключениями, а тут немало лишнего расчета. для меня это странно звучит... насколько я понимаю квантизацию, это позначает, что вместо 16 байт мы храним в памяти 4 (в случае q4). И единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец. Всё. Это не звучит как какая-то замедляющая операция.
>>1439552 > Я юзаю и корпов (только для работы в основном), и локалки (только РП) Правильно. Радикализм ни к чему. > грока: большие квен и глэм, и, внезапно, гемма Жаль, что именно сравнений в твоем посте нет, только с Геммой в конце. Квен 235б имеешь ввиду? С каким промптом катал? Не уходил он в дешевую театральную постановку с глупыми придыханиями и переносами? Квен хорошо держит внимание к контексту, больше похвалить мне его не за что. > Внимание к контексту очень слабое. 32к держит терпимо Справедливо для всех существующих моделей на сегодня, кроме может пары корпов. Больше 32к идти нет особо смысла. Не понимаю анонов, которые отписывались тут про 64-128к. На большинстве моделей это начинается и до 32к, но после - совершенно точно генерализированные ответы, теряющие суть повствования, обобщающие детали. > Из-за малого кол-ва активных параметров — страшный лоботомит. Без ризонинга путается в трёх соснах на контексте выше 8к Как ты при этом наиграл 500к токенов? Каким образом? > вся китайщина ебанутая со словесным поносом и характерным переносом строк: каждое новое слово — новый абзац. Плюс нахуй сломанное форматирование. Из-за этого язык плывёт просто пиздец. Ну то есть Квен 235, да. > Если бы мне подсунули локалку в виде слитого грока, то я бы даже не догадался, что это корпоративная модель, а не Алибаба какая-то. В любом случае, ценный пост. Благодарочка.
>>1439593 > Это не звучит как какая-то замедляющая операция. Ты можешь руководствоваться своей теорией, а можешь взять и самостоятельно замерить. Квантование контекста на llamacpp приводит к падению скорости генерации, это давно известный факт.
>>1439593 > единственное что надо сделать при работе с этими данными в карте - это добавлять к 4 байтам еще 12 нулей в конец Нет, то что ты описал - прямой каст, его никто не использует. Даже прямая конверсия тренированной в 16 битах модели в 8 бит таким "способом" вносит серьезный импакт, а в 4 там не просто бредогенератор - рандомные символы будут. Можно изначально закладывать веса в меньшей битности, но тогда придется менять саму архитектуру, вводить вагон лишних норм с высокой точностью (по сути недалеко от квантования ушло) и это применимо в первую очередь к огромным линейным слоям, а не атеншну. Смысл квантования в том, что ты делишь параметры на отдельные группы по критериям диапазона и распределений, присваиваешь им общий множитель и смещение (хранимые в 16 битах), и уже только потом имеющийся диапазон делишь на малое число дискретных значений, представляя веса с меньшей точностью. Это описание на пальцах простого алгоритма, разумеется считается это чуть сложнее (например, гугли преобразование Уолша) и пришло еще из видеокодирования. Само деквантование не сильно сложно, но есть нюанс со взаимодействием этого с флешатеншном. Плюс само квантвоание тоже там есть. >>1439608 Если они просто торгуют - предприниматели, рыночные условия. Если агрессивно мониторят площадки ботами, мгновенно выкупают любой лот по меньшей цене и проворачивают подобное - барыги, которым нужно разбивать хлеборезку.
>>1439589 >существует какой-то один общий датасет с ерп который скармливается вообще всем нейронкам Да. Называется интернет. А то что кожаные всё описывают одинаково, то это уже не вина негронки. Впрочем, если бы я сделал свою мега архитектуру, то весь слоп можно было бы вырезать одним ползунком, но кому я нахуй нужен со своими мега идеями... >>1439608 Я ведь только месяц-другой назад слил 2х32 за 15 косарей... Ну ё-маё. >>1439618 Судя по пикче, там 48 гиг будут, лол. >>1439619 >Если они просто торгуют >мониторят площадки ботами Рискую поднять оффтопный срач, но в чём разница? Типа руками норм, а ботом не норм? А бот раз в час норм? Ну в общем странные разграничения.
>>1439494 >>1439287 А вот я только освободился, хотел померять, как обещал, а тут уже разгадали причину. Я никогда не квантовал контекст, потому что всегда отзывы говно говна на это были, поэтому и не подумал про это. И кстати, 4 квант контекста это пиздец жестко же, не? Особенно в агентных тасках. И, судя по аргументам, ты и ключи квантуешь? Тут же аноний был сколько-то тредов назад, и там выяснили, что ключи квантуют только лохи. А вообще, используй ОСС. Она со свистом же залетит в твой конфиг на полном контексте без квантования, еще и SDXL на сдачу на v100 запустишь (просто потому что). И скорость у нее пизже, на 100к контекста у меня вроде генерация 18 т/с была
>>1439627 > в чём разница Влошился, закупил за бугром у поставщиков, пронес в тузе через границу не платя пошлину @ даешь возможность работягам купить здесь и сейчас по конкурентной цене. Кабанчик потрудился сэкономив и пытается получить с этого профит помогая другим. или Паразитическая прокладка, лишающая людей возможности прямых сделок, навязывающая свою конскую комиссию, часто с кучей обмана. Буквально рекетиры на минималках. Офк граница может размываться, но суть такова. >>1439683 Хз о тех лотах, но таких объявлений всегда было полно, пару плашек так и брал по цене ниже днса и прочих на то время. Если это торгаши, которые постоянно возят железки и они просто подняли цены вслед за всеми - в чем их вина?
>>1439608 Может лучше вообще не покупать по таким ценам ебанарот? Хотя я сам в свое время купил карточку по оверпрайсу в майнинг о чем потом пожалел тысячу раз
>>1439700 >лишающая людей возможности прямых сделок Обеспечивающие ликвидность, я обычно таким барыгам всё и сливаю, ибо мне в хуй не впёрлось сидеть со своим железом до третьего пришествия, а они кабанчиком кидаются на мои объявы ниже рынка и вежливо скупают. >часто с кучей обмана ИЧСХ, их тоже могут наебать, и тогда они останутся в пролёте. Либо они могут купить на хаях и не продать, остаться с кучей железа и без денег на руках. >Офк граница может размываться А её и нету, лол. Тут градиент, а срыночек сам отрегулирует, отсеяв совсем охуевших барыг и совсем зелёных новичков.
>>1439705 сейчас немного другая ситуация > Micron Technology is shutting down its Crucial consumer business, a move that would allow the company to redirect resources toward large artificial-intelligence and data-center customers ближайшие 3 месяца цены точно будут расти, а скорее весь ближайший год. ждунов выебут, короче
Семейство моделей Arcee AI получило имя Trinity. Пока в превью-релиз вошли 2 конфигурации:
Trinity Mini — это обычная ризонинг-модель на 26 млрд. общих и 3 млрд активных параметров, обученная с нуля.
Trinity Nano Preview — это модель чата. Она создана, чтобы быть харизматичной и интересной в общении несмотря на свои скромные 6 млрд. общих и 1 млрд. активных параметров.
И пока мы тестируем Nano и Mini, Arcee AI тренирует флагмана Trinity Large.
Его релиз запланирован на январь 2026 года. Это будет модель на 420 млрд. параметров, из которых 13 млрд. будут активны.
Обе доступные модели, Trinity Nano и Trinity Mini выпущены под лицензией Apache 2.0. Они опубликованы на Hugging Face и поддерживаются llama.cpp, LM Studio и vLLM.
>>1439698 Что за железо? И лучше картиночные на 3090 а ллм уже на в100. >>1439706 > Обеспечивающие ликвидность За ликвидностью в ломбарды, специализированные салоны, крупные риэлторские агентства и все подобное. Оценивают и тут же выкупают, рискуя влошиться в сомнительный актив, а ты платишь им за ту самую ликвидность. А когда и так дефицитный товар, который проблем с ликвидностью не имеет, скупают чтобы сыграть не дефиците и перепродать дороже - мразь маздай. > их тоже могут наебать, и тогда они останутся в пролёте Туда и дорога. Опять же, нужно разделять условных дистрибьюторов, которые необходимы как связующие звенья между производителем и конечным покупателем, и перепуков, которые занимаются исключительно надуванием пузырей дефицита и не вписывающихся в общую схему. > срыночек сам отрегулирует Мемасик про анкапа - шаверматора. В чистом виде без вмешательств - никогда. Ты, похоже, говоришь немного о других вещах. Ничего плохого в тех объявлениях, например, я не вижу.
>>1439737 Щито поделать, корпоратам только такие и нужны. Спроса на 100б нет, так как нет задач для них. Для автоматизации рутины слишком большие, а для задач на подумать слишком тупые.
>>1439698 >используй ОСС да нахер этот слоподром. Пока что эйр мне нравится больше всего. Хозяйка на кухне, шлюха в постели крепкий миддл в кодинге, безотказная в порнорп. А oss ёбаный даже палкой трогать не буду, какой бы пиздатый он ни был. >>1439734 >И лучше картиночные на 3090 а ллм уже на в100. 3090 на sdxl генерирует 5 секунд, а v100 - 4. Разница в секунду это хуйня.
>>1439714 удовлетворят спрос корпоративных говно моча гной рак клиентов и вернутся к консьюмерам если смогут. но ждать этого наверняка не один год. очень надеюсь китайцы займут эту нишу, абсолютно не жалко когда такие конторы банкротятся
может покупка миника на ryzen 395 c 128гб - не худшая идея сейчас? стоит $2-2.5к всего то
>>1439749 В100 быстрее в картиночных? Реквестирую пруфы и подробное описание конфига. А так для xl столько памяти просто ненужно, вхолостую расходуется. >>1439753 С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой.
>>1439754 >С дивана - сейчас покупка любой техники по "старым" ценам выглядит норм. Но если потом оно подешевеет - плакаться не приходи, решение за тобой. эти миники и до этого помешательства столько стоили. я уже давно мониторю их цену но жалко деняк купить
>>1439734 >Что за железо? 3090 Ti + 2x 3090. Только я писал уже сюда, что с полным контекстом и 2к батчем она буквально на писечку не влезает в такой конфиг. Либо один слой на четвертую карту кидать, либо эксперта на рам - я второе выбрал. С v100 такой проблемы не будет, понятное дело
>>1439749 >да нахер этот слоподром. Наркоман? Речь о кодинге шла, при чем тут слоп. Хотя я так понял ты не агента используешь, а просто в чате с аватаркой лясы точишь. Я еще удивился, ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать, а у тебя там с попердыванием 50к набралось.
>>1439706 >срыночек сам отрегулирует Он прежде всего отрегулирует кошелёк покупателей, которые вместо покупки у Васи Пупкина за 3 рубля будет покупать за 10 рублей у перекупа Хуя Защеканова, который ботом автоматом скупает всё, что дешевле установленной им планочки. Знаешь такую хуйню, как скальпинг применительно к потребительским товарам? Это когда продаётся ограниченная хуйня, которую боты перекупов раскупают за 0,001 с, а потом те, кто эту хуиту использовал бы для себя, вынуждены платить перекупу. Характерный пример был, правда за давностью лет подробностей не особо помню - буржуи плакались, помнится, что какой-то пидор скупил весь выпуск каких-то коллекционых йоб по ККИ (выпуск был небольшой, 1-10к штук), кинул их себе в гараж и продавал в N раз дороже. Ну или пример более привычный, из эпохи майнинга, когда сети пиарились, выставляя N карт по нормальной цене, а (даже если условный DNS не сливал это перекупам через сотрудников) всё раскупалось ботами.
Мистраль обосрались и не выпускают ничего толкового уже больше года. Гугл, возможно, и не выпустят Гемму 4. Плотных моделей, доступных любителю, все меньше. Только малютки для агентской работы. Впрочем, есть предпосылки, что плотные модели умерли в целом. Средний сегмент Мое моделей, похоже, мало кому интересен. Только малютки для агентской работы и то, что не запустить на любительском железе. Железо дорожает и будет дорожать. В целом фон для нашего увлечения в конце года довольно негативный.
Как-то печально все, мог бы подумать ты или кто-нибудь еще. Да не все так плохо, отвечу я. Ведь уже есть прекрасные модели, которые запустятся на любом железе.
Ллама 8б, Мистраль 12б для совсем слабеньких пк. Плотненькие 22-49б для владельцев гпу. Чудесный Air, по-своему прекрасный Квен для владельцев гпу + озу. GLM 4.6, Дипсик для настоящих энтузиастов - обладателей железа. Да и куча других моделей под самое разное железо, которые уже сегодня хороши. Многое из того, что имеем, недооцениваем. Та же Гопота Осс 120б, на самом деле, целое событие. Уже сейчас Альтман и ко внедряют в свои сервисы рекламу, отупляют старшие модели (которые и до него перформили примерно как осс 120, если оценивать исключительно модель) ради удешевления инференса. В итоге, возможно, это был их последний опен сорс релиз. Туда же последуют и остальные, в сторону удешевления, монетизации, спада прогресса. Халява заканчивается, прогресс неизбежно замедлится. Останутся самые сильные, самые прожорливые. Что разработчики, что, возможно, ценители.
Но это был чудный год. Я помню Дипсик в январе, QwQ, Snowdrop, Гемму 3, васянотюнский мистралеслоп с душой, GLM 0414, GLM 4.5. Никто у нас этого не отнимет. Даже сейчас, в момент роста цен, если очень надо - каждый может купить себе 16гб гпу и 64-128гб оперативы. И будет вся эта история с вами, ваши персонажи, чаты, истории, и все то, что вы еще не успели отыграть; ваши вайбкод проекты и ассистенты, с которыми можно болтать обо всем и ни о чем одновременно.
Даже если все это закончится, и следующий год будет скуден - всегда можно вернуться к минувшему; попробовать что-нибудь новое. Будут создаваться новые фронтенды вроде Talemate, будут расти культура промптинга и скилл работы с моделями. Появятся все более способные, продуманные агентские системы. Текущие модельки недораскрыты, это точно.
Короче говоря: цените то, что имеете, люди. Все не так плохо. мимо уже 4 месяца инджою на Air и теперь derestricted версии, это первая модель которая меня не доканала за все это время и видимо никогда не надоест
Кстати, господа, ничего не появилось нормального для автоматического суммарайза? Понятное дело, что с ручным это никогда не сравнится, но может кто чем пользуется из расширений таверны? Я на что не натыкался - либо не работает (например у меня https://github.com/QueenGytha/ST-Auto-Summarize упорно не хочет подхватывать выбранный пресет из таверны, соответственно пукает и обмякает при попытке послать нейронке промпт для сумарайза), либо хуйпойми как пользоваться.
>>1439706 >срыночек сам отрегулирует На моей памяти вообще нет случая когда срыночек чего-то регулировал. Консолии нихуя не подешевели, так что консоледауны которые покупали на лонче у перекупов за 1000 баксов в принципе ничего не потеряли. Я вообще подозреваю что на новых техпроцессах какая-то фундаментальная нерешаемая проблема с выходом годных чипов просто, а принцип new good old bad не дает откатиться на рабочий процесс.
>>1439819 >Мистраль обосрались и не выпускают ничего толкового уже больше года Ты чо сука, ты чо? 24b 2506 - годнота. Из коробки умеет в кум, цензуры считай нет. Практически идеальный русик, лучше только у Геммочки. А его файнтьюн Локи - так вообще слепящий шин. Васян довёл модель до идеала, сделав ее чуть не лучшей для РП среди ллмок до 30b. https://huggingface.co/CrucibleLab/M3.2-24B-Loki-V1.3
>>1439849 > Ты чо сука, ты чо? 24b 2506 - годнота. Так и знал, гаденыш, что кто-нибудь да ткнет меня пальцем в Мистраль 2506. У меня уже заготовлен ответ на этот случай, подлюка ты буквенная.
🤓 Вообще-то, да будет тебе известно, 2506 является тюном 2503, 2503 является тюном 2501.
Признаю: ошибся, думал, 2501 вышел в декабре 2024. Разница невелика.
Как бы то ни было, это еще одна неплохая модель, я согласен. Жму хуй руку.
>>1439819>>1439860 >Мистраль обосрались Ну по мне министраль очень неплохая затычка. Она конечно по размеру сосёт у mistral-small3.2 и путается мелочах, но в целом язык очень хороший, как будто она поуверенее живёт с большим контекстом и реже улетает в повторы.
>>1439793 >ибо осс-у в одном агентном запросе выжрать условных 90к токенов - как нехуй делать я не знаю, какого ты агента используешь, но то как они жрут память я считаю абсолютное блядство. Для кондинга достаточно плагина в пайчарме и он не будет жрать память как сука. А агент - это говно какое-то ебаное. 6 тысяч токенов со старта в контекст уходит, да я в рот ебал такие локальные ллм. Складывается ощущение, что это для тех, кто предпочитает закинуть в ллм дохуя памяти вместо того чтобы расходовать её по необходимости. И да, я видел как эти охуительные агенты работают, спасибо, говна уже поел --> >>1432718 → Уродство ёбаное. пожалей короче память, дед, а то будешь оперативку на полмиллиона покупать и тебе будет мало.
>>1439797 >будет покупать за 10 рублей у перекупа А ты не покупай, и перекуп соснёт хуйца. >>1439827 >На моей памяти вообще нет случая когда срыночек чего-то регулировал. Как минимум ты не голодаешь, уже достижение на самом деле.
>>1439860 Вот-вот, это ты зря быканул. Но в целом я разделяю твой пессимизм. Эйр 4.6 обещали выпустить, но скорее всего это будет последняя нормальная модель для среднестатистического пользовательского железа.
Алсо будучи немного параноиком я просто забекапил все хорошие ллмки во всех квантах и вариациях, от 1b геммы в q2 до эйра в q8 (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?). Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее.
>>1439873 В треде было много положительных отзывов о Локи. Скачать и потестить на своих карточках точно стоит, как мне кажется.
Ещё вечерок ебли с подбором биоса в котором работает всё что мне нужно и вот две мишки уже залетели в рдшку. Завтра подкину ещё 2 и буду думать как всё это разместить
>>1439883 > (а мало ли что дальше будет? Чебурнет? Удалят с обниморды? Пека сломается, а новый будет стоить как квартира в Москве? Еще какая-нибудь ёбань?) > Скопировал всё это добро + средства запуска на жесткий диск 6tb и положил на полочку. Так спокойнее. Согласен с тобой полностью, анончик. У меня у самого три внешних жд на 5тб каждый, там все: флибуста, фильмы, мультфильмы, маняме, хентайчик, порнчик, манга, вообще все. И ллмки, конечно, тоже. Такое время. Прорвемся. Главное помнить, что у нас хотя бы это (ллмки, всмысле, те что уже доступны) есть, и это уже чего-то да стоит. Многого, на самом деле.
>>1439883 >забекапил все хорошие ллмки во всех квантах Вместо того, чтобы забекапить оригинал и тулзы для квантования... >>1439884 >Ещё вечерок ебли с подбором биоса Какие-то специфичные для твоей матери проблемы, или общее? Если общее, то выкладывай стори.
>>1439890 > специфичные для твоей матери проблемы Специфика. Нужен был - бифурк - ипми из системы - картинка через бмц - управление вертушками Сейчас стоит биос вообще от супермикры с патчами под ленову
>>1439821 >Кстати, господа, ничего не появилось нормального для автоматического суммарайза? Большой Квен даже во втором кванте неплохо подходит. Я использую такой метод: даю задание на суммарайз последнего, а в следующем сообщении пишу: неплохо, но есть неточности. Сделай поточнее. И он исправляется, получается чётко. Ну а если возможностей для Квена нет, то Мистраль оригинал. Тюны как правило ломаные, а оригинал в хорошем кванте таки соображает.
>>1439891 Добро пожаловать в /llama/ тред, тут есть: >БИ ФУР к запрещенные в РФ организации >пикми из системы зумерский сленг >через бмц преемник мцк и мцд >управление вертушками диджеинг
Прочитал ссылки с шапки поста. Примерно понял как все стартануть, но охуел с тонны моделей. Меня напрягает, что почти все они для рп. Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду. Вероятно хотелось бы работать с RAG, потому что перечитывать книги ради определенных моментов не хочется, а найти кусок желаемого текста хочется быстро. Или пройти тест по документу, который не хочется самостоятельно осиливать. Подскажите, пожалуйста, на какую модель обратить внимание. 16 гб видеопамяти и 48 гб оперативки есть
>>1439969 >Я бы хотел себе локальную ллм в роли ассистента, помощника в изучении материалов по работе и коду Под твои спеки так: Ассистент: qwen 80bA3b, gpt oss 120b Код: qwen coder 30bA3b, gpt oss 120b Общие знания: qwen 80bA3b, glm air 106b, gemma 3 27b
Я долго не пнимал почему многие рпшат в фентези вселенных, а недавно попробовал поэрпешить во вселенной zenless zone zero, которая по сути урбанистика с элементами фэнтези и киберпанка, и господи блять, как же я задушился. Корпорации, армия, автобусы, кафе, стройки, неоновые вывески... Бля, я даже не думал что это будет так душно.
Ладно, я прощупал чатмл темплейт на эир. По первости и правда пишет простенько в сравнении с глм, возможно требует больше свайпов, но пишет как то роднее, меньше эировского слопа, нарратива, активнее снимает с тебя трусы, не стесняется в выражениях куда чаще чем глм. Возможно ума меньше, но этот ум на глм передавливает эиру воздух блять и в середине каждого моего чата я уже захлёбываюсь нарративом
>>1439882 >А ты не покупай, и перекуп соснёт хуйца. Скажи, анон, ты ебанутый? Перекупы покупают нужную хуйню, которую я хочу купить чтобы ей пользоваться (неважно, видеокарта ли это, билет на концерт или б/у фингербокс на авито). Альтернативы у меня - либо нет вообще, либо нет за такие же деньги (очевидно перекупы продают б/фингербокс на авито не дороже, чем он стоит в магазине, они же не долбоёбы). И ты мне такой "не надо гнать на перекупов, просто не покупай!" А хули поменяется-то? Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены? Ну да, это же всегда так отлично срабатывало (нет). >>1440144 >Без них был бы советский дефицит. Ебать святые люди! Небыло бы их, Вася Пупкин просто продал бы б/у фингербокс на авито Феде Васечкину и на рынке начался бы дефицит. А благодаря самопожертвованию этих святых людей дефицита на рынке нет, и любой - например вышеупомянутый Федя, может просто купить фингербокс у перекупа!
>>1440144 И да, дополню свой пост. Это как раз и есть дефицит советского образца, когда номинально фингербокса нет, но есть в десять раз дороже из-под прилавка у продавщицы или у фарцовщика за углом.
>>1440150 >Скажи, анон, ты ебанутый? >/ai/ раздел Ну как бы ответ. >Типа все люди объединятся в единую биомассу и в едином порыве вынудят перекупов снижать цены? Идеальный вариант, да. Но ты же хочешь хуитку? Вот и покупаешь. Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы. >А благодаря самопожертвованию этих святых людей Ты всегда можешь пойти и купить, если вопрос цены не стоит. >>1440151 Какой-то у тебя неправильный совок. В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда.
Подскажите ньюфагу какие модельки я могу накатить с таким спеком (для таверны), пока щупал только модельки на опенроутере, гайд по моделям читал но нихуя не понял (там видеопамять указывается или оперативная), подскажите анончики. 32 Гб ddr5 5070ti
>>1440172 >Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы. Подождал @ Цена увеличилась, предложение не изменилось. >>1440172 >Ты всегда можешь пойти и купить, если вопрос цены не стоит. Я и говорю, святые люди - дают возможность покупать тем, у кого больше денег. А иначе бы фингербокс купил Вася Пупкин, и это было бы полным крахом. >В правильном ты бы имел хоть х1000 от цены, но волгу мимо очереди не получил бы никогда. Ты мне ещё про сферический коммунизм в вакууме спиздани.
>>1439299 Задолбала меня воющая карта, начал разбираться чё же она так шумит. Изначально грешил на BIOS/драйвер, но в итоге оказалось, что грёбанные китайские кулеры, которые я заказал на озоне, не передают/херово передают (походу контакт) данные об оборотах и поэтому карта врубала их на максимум. В итоге пока разбирался что к чему сломал нах лопасти на этих китайцах. Ждать новых не хотелось, поэтому разукомплектовал GTX-660 с неуправляемыми бесшумными вентиляторами и вкорячил их на p104, благо по размерам они идентичны. Теперь вполне сносно, можно спокойно катать модельки.
Ну и заодно закомпилил llamacpp-server с поддержкой архитектур 6.1 и 8.6
>>1440174 Мистраль 24b, Гемму 3, snowdrop, qwen30 и 32. Кванты 4 и выше, в 16 гб часть из перечисленных моделей не влезут, так что с выгрузкой на РАМ, что медленно. Раньше предложил бы тебе докупить оперативки до 64 и катать GLM Air, но с нынешними ценами уже не вариант, разве что, если место в корпусе есть, можешь v100 купить, цена вопроса 50к за 32гб ВРАМ.
>>1440200 Ссылку не открывал, там скорее всего мистраль просто продаёт доступ по api. Если скачаешь с обниморды веса, то запуск естественно бесплатный. >>1440203 Там в основном 12b модели. У Aleteian есть на Мистрали и гемму 3 тюны, можешь их попробовать. Но вообще русский у моделей, особенно такого размера не особо хороший (он даже у корпоратов неоч). Лучше всего у геммы и её тюнов и у мистраля 24
Анончеги, вот какой вопрос. Вот спрашивают вас ваши знакомые или там родственниги: че ты там копошишься со своими нейросетями, нах они вообще нужны, особенно локальные? Ну, там, кодить можно в копро корпо сетках, картинке генерить там же, перплексити ваще поиск охеренный осуществляет (а в платной версии 450р/год вообще чудеса творит). Какое практическое применение находите локалкам кроме ебли с динозаврами и ролеплея с совершеннолетними школьницами? Есть реально какое-то такое уникальное применение, кроме продвинутого тамагочи на домашнем пека? Я спрашиваю не потому, что подколоть хочу, а , правда, интересно.
А воопще: былоп прикольно сделать агента, который шарился бы по локальным фоткам и находил людей, ваще круто былоп
>>1440211 Спасибо, я удивлён качеству здешних анонов по сравнению с бототредом. Знаю что вопрос не сюда, имеет смысл купить себе подписку на грок и не ебать мозг (тестил grok fast 4.1 пока был бесплатный зашло и контекста у него дохера, даже сои не слишком много)
>>1440227 >кроме Так рп - это самое важное. Восполняем потребность в общении и (опционально) близости с железками, потому что с людьми не получается. У кого это есть ирл, тому и правда не нужны. Пусть и дальше крутятся в обществе мясных ублюдков и не подогревают спрос на рам.
>>1440227 Только баловство.. Но вот >>1440198 >> Наконец компьютеры становятся таким же показателем успеха как дом или машина, а то каждый школьник мог себе пк собрать - ну куда это годится. Недавно бате показал что собрать риг стоит дороже чем его машина, и его доебы за то что я хикка-лох-чмо без машины и прочего уменьшились.
>>1440277 >>1440278 >>1440281 >>1440284 >сам виноват что купил светящееся говно Ой вей, так другого нет. В принципе нет. Если оборудование не серверное, оно обязательно будет с каким нибудь игросральным припоем. То радиаторы, которые больше самой памяти раза в 2, то подсветка, то трубки для охлада. Все что можно взять вменяемого или отсутствует, или стоит совершенно ненормальных денег. Я искренне сочувствую тем, кому надо собирать серверную память.
А есть какой то сертифицированный тредом список моделей с рекомендацией иметь бекап у себя? Тоже хочу держать бекапы на всякий случай, купил даже второй 4тб ссдшник под это дело. Но я еще до конца не вкатился в ллмки чтобы понимать что мастхев, а что кал. Из-за работы времени особо нет, мне надо сначала прям во всем разобраться как все устроено и работает, даже если поставить какую-то хуитку типа llama.cpp и вывести хеллоуворд. Очкую что к моменту как вкачусь на достаточном для понимания что мне нужно уровне, модели начнут блочить/удалять. Причем не факт что это из-за кванмена, примут какую-ниудь хуиту типа модели должны пройти обзательный safety чек, или просто хаггинг фейс скурвиться и начнет зарабатывать на всем.
Вон как в civitai уже поудаляли кучу лор, а туда я тоже параллельно хотел закатиться.
>>1440329 качай medgemma 3 27B + mmproj gpt-oss 120B glm4.5 Air mistral small 3.2 24B 2506 + mmproj желательно всё в оригинальных весах F16 чтобы потом квантизировать как хочешь
>>1440329 Gemma 3 все версии Qwen 3 все версии кроме 235b Mistral 2506 24b + Локи 24b Glm Air
Опционально: Старый Command-r 32b Старый Mistral Nemo 12b
На слабую пеку, если нужен русик: Sainemo-remix 12b Yankagpt 8b
По квантам - смотри сам под своё железо, или как подсказали выше, качай оригиналы + тулзы для квантования. Если совсем лениво разбираться, то скачать всё в Q4_K_L не будет ошибкой. Но лучше разберись, конечно.
Ну и кобольда закинь туда же, просто чтоб был. Все версии (с кудой, без куды, для старых пека и т.д). Таверну. Можно еще ChatterUI скачать - запускать мелочь на телефоне.
Если у тебя есть возможность экспортировать чаты из грока и адекватно перенести карточку туда, то лучше грок. У него много недостатков, но всё-таки это жирный корп и ломается он меньше. Ответы более разнообразны.
Когда он скурвится — обратно на локалке продолжишь. Там буквально один патч без обновления версии в стиле "улучшили показатели в бенчмарках" может всё сломать в плане цензуры и повествования.
>>1439573 Кстати, я вот грок 1 не пробовал и 2, но 3 реально очень хотелось бы увидеть локально, потому что он пиздец как хорош для РП в своей в своей весовой категории. Хотя.. тот же гпт 4о или сонет 3.5 сошёл бы, что уж тут говорить.
>>1439589 Да, есть такое. Но большие модели тем и хороши, что можно настроить реакцию более детально. То есть, если персонаж и его реакции, паттерны поведения норм прописаны, то жирный корп/модель это подхватывает лучше, в отличие от многих локалок. Когда есть необычные сценарии, где надо вот прям пиздец как следовать сложным инструкциям в плане кума. Где очень много всего учесть нужно.
>>1439596 Ну по сравнению с толстым квеном он выглядит всё же веселее в плане текста. Как на английском, так и на русском. Другое дело, что если упарываться в лютое порно, тут уже грок сдаёт позиции. Когда нужно мммаксимум порнослопа жёсткого. Грок может сценарий хоть с лолями отыгрывать, но это будет немного не то, если это не в рамках большой истории, а "запустил карточку, чтобы подрочить на 10к токенов 15 минут". В таком случае ты ожидаешь чего-то ближе к магнуму с его безумной грязью. И хоть грок может в письки-грязь, когда описывается процесс с несовершеннолетними, он более осторожен в выражениях.
>Как наиграл 500к токенов
Ризонинг юзал.
Поначалу не понимал, чому он шизеть начал, а оказалось, что я де-факто вышел за эффективный лимит токенов (контекст шифта ещё нет, а шиза есть), и он всё обобщает, сливает в кашу, путается. Переключился на ризонинг версию — она уже не видела начало чата (у неё более маленькое контекстное окно), думала, ну вот там уже туда-сюда и терпимо было. Плюс с помощью OOC можно было эффективно фиксить ошибки повествования и писать на отъебись — понимал и так.
Но бесил контекст шифт (или что-то иное, но начал постоянно тормозить перед ответом ещё до того как ризонить начинал). Иногда секунд 30 ждать приходилось. Благо хоть ответ писал быстро.
Я сейчас с телефона, так что не скопипастить, но у меня был примерно такой же систем промпт, как и в таверне.
Взгляни ещё на скрины. Версия 3 — это первый скрин, версия 4/4.1 — второй. Китайский датасет нахуй убивает язык и порождает слоп.
Всем привет. Я нубас, вкатился в куминг вчера. Попробовал Гемма 3 27б аблитерэйтед, мистраль3.2 омега директив 24б анслоп, квен3 30б аблитерэйтед эротик, QwQ Snowdrop, Dark Nexus.
Из всех пока мне больше понравился гемма 3. По сравнению с остальными держит контекст значительно дольше.
Когда пробовал квен3 с ризонингом, то было странное ощущение, что он в ризонинге собирает контекст и рожает это как промпт для другой модели, которая про контекст ничего не знает. Может, это так и должно быть.
В общем, суть вопроса: есть ли что-то другое похожего размера для кумерства с ризонингом? Какая ваша любимая кумерская модель для РП?
>>1440150 Доказывать барыгану что он неправ - гиблое дело, он считает что его "риски" и минимальные телодвижения являются достаточным оправданием, и думает что готов жить в мире бесконечного наебалова. Пока не наебут его, тогда сразу нытье начинается, лицемерные мрази. >>1440172 > Из-за таких пидорасов как ты, кто не может подождать, и возникают перекупы. Из-за баб что детей рожают и возникают убийцы этих детей, это все матери виноваты. Ахуенная у тебя логика. >>1440200 Да, у них уже сколько лет есть платные модели что они дают только по апи, не выкладывай в опенсорс. >>1440225 Бляяяя, скажи что ты рофлишь.
>>1440227 > знакомые или там родственниги > особенно локальные Жирнейший >>1440275 А как считать, по цене новых запечастей, или уже бу с барахолок? На ддр5 с карточками вроде пока еще дешевле, но такими темпами... >>1440329 Все семейство квенов моэ включая кодеры, дипсик терминус+3.2, большой жлм, маленький жлм, грок2, осс, медгемма/гемма, мистральсмол, кумотюн проглого ларджа по предпочтениям. Ну вроде и все пока если не брать мультимодалки. Качай исходные веса и имей копии реп популярных бэков, квантанешь сам куда надо уже.
>>1440341 >>1440357 >>1440439 >>1440329 Нужно ещё и мелочь всякую на всякий случай скачать, только её тестировать нужно на адекватность, работу с вызовом функций и цензуру. Вангую, что в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких. Уже начинают пробовать почву, всякие терминусы тому пример
>>1440456 Все верно, но на переделку мелочи под сейфти будут обращать гораздо меньше внимания, и скачать их будет гораздо проще. > в дальнейшем всё будет развиваться в сторону связки большая модель + оркестр из мелких Ты только что моэ и выпуск единообразных моделей в разных размерых для возможности бесшовной замены и комбинаций для спекулятивного декодинга.
>>1440469 Не не, мое и даже спекулятивный декодинг, хоть там и две модели работают, это всё равно не то, что я имел ввиду. В МоЕ всю работу делает одна модель, она и чтец и жнец и на дуде игрец. В таких сложных задачах как РП она путается и не вытягивает, если переложить часть работы на мелкую модель, то ей будет проще. Как пример плагин для пошагового мышления от тредовичка. Только плагин жрёт ресурсы основной модели, а не мелкого лоботомита которого можно крутить даже на CPU.
>>1440497 Кмк, во внешних лоботомитах нет смысла. Только в очень специфических задачах предобработки данных, оценки, те же эмбеддинги в раге, мелкая модель визуальный входа и т.п., где они уже являются частью единого. Уже произошло разделение задач между более мелкими моделями, но внутри одной большой, причем достаточно оптимальным образом. Лучше помочь ей, обеспечив наилучшие условия работы управляя входом и выходом. Выводить же важные части вовне в виде использования отдельных моделей-лоботомитов = множить ошибки.
Подскажите локальные модели, которые принимают картинки на вход? Заметил, что если я сам выдумываю промпт для Ван 2.2, то получается хуета, как бы я ни описывал, а если в чатГПТ закидывать картинку и заставлять его писать промпт, то выходит значительно лучше.
Но гопота не всегда принимает даже просто женщин в нижнем белье, не говоря уже о чем-то еще.
>>1440514 >причем достаточно оптимальным образом Ой не факт. Там же алгоритмы равномерного распределения, чтобы не дай б-г видяхи не простаивали во время тренировки. Так что знания и умения размазываются сравнительно равномерно, а не оптимально. Было бы оптимально, можно было бы каждого "эксперта" ткнуть в его специализацию да запрунить, когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки. >>1440521 >Подскажите локальные модели, которые принимают картинки на вход? Железо какое? А так от геммы до дипсика, лол.
>>1440525 >>1440407 Готов ждать сколько нужно. Я просто их запускал, но лмстудио говорит, что модели не поддерживают ввод картинок, я так понимаю, нужны какие-то конкретные версии. Там есть какое-то ключевое слово или что-то такое, чтобы понять, что модель принимает на вход картинки?
>>1440526 >лмстудио Я ХЗ, что это и как работает. Есть оригинальные ллама.цпп и кобольд, в них нужно указывать проектор mmproj в дополнение к основной модели. Соответственно если в репе есть этот файл, то модель может в картинки. Протестируй на это модели, дальше сам. https://huggingface.co/bartowski/google_gemma-3-4b-it-GGUF/tree/main
>>1440521 Многие из обычных или специализированные. Квенвл не соевый, но они все по дефолту слепые в серьезном nsfw. >>1440525 Простора для оптимизаций всегда будет много. Просто лоботомит проебет все важные моменты, без вариантов, ибо ключевая сложность тут. Потому лучше заходить со стороны оптимизации основной модели. Даже банальное самоинструктирование, когда ты требуешь или форсируешь определенный формат где фиксируешь какие-то проверки или обязательные пункты идет на пользу, а там уже развивать как степсинкинг и прочее. Не стоит и про сам формат хранения чата забывать, даже простое структурирование и добавление заголовков типа "День N", "Локация X", смена разметки и прочее облегчают работу модели. А ведь совсем простые вещи, даже тренить и менять ничего не надо. > когда знания древнеегипетской археологии не нужны для отыгрывания кошкодевочки. Да как ты посмел?! Первая цивилизация с культом котеек и забавной мифиологией, думаешь там сычевы не мечтали о кошкодевочках? Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов. Это немного за обывательским пониманием "отдельного эксперта".
>>1440576 >Но вообще там нет отдельных экспертов в явном виде, скорее задействуемые одновременно области, которые также взаимодействуют друг с другом объединением выходов. В этом и проблема, да.
https://huggingface.co/YanLabs/gemma-3-27b-abliterated-normpreserve-GGUF/tree/main > abliterated version of google/gemma-3-27b-it using the norm-preserving biprojected abliteration technique. Заменяет чрезмерно послушное старье от mlabonne. Цензуры - нет. Соображалка - на месте. Персонажи на все подряд не соглашаются с ходу, есть софт-рефьюзы. В анти-соевых промптах не нуждается.
Важно: это вторая итерация, ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода. Q4KM и Q5KM без проблем, другие пока не проверял, но качаю все на случай чебурнета.
Этот же чел позднее выкладывал некую "v1", которая якобы должна быть ЕЩЕ менее послушной. Не пробовал. Да и нужды как-то нет по ощущениям.
>>1440636 > цензуры - нет А она была? Не было хуёв в датасете, и твой лоботомит их никак не добавит. А так геммочка с минимальным промптом кого хочешь выебет, просто сухо
>>1440636 >старье от mlabonne А можешь более подробно описать в чем разница между аблитерацией от mlabonne и той что кинул ты? В моих бекапах схоронено как раз от mlabonne. Это именно то что и ожидаешь от аблитерации: ПОЛНОЕ отсутствие отказов и написание текстов о чем угодно. Прям с ходу, с первого же сообщения. Здесь то же, но более мягкое? Или как?
>>1440640 Я провел слишком много времени с ебкой над 27б геммой, чтобы спорить об этих вещах. Нормальный аблитерейт это то, о чем моя душенька мечтала с момента выхода этой модели. Оригинальная модель - сука и сволочь, и все персонажи у нее это такие среднестатистические женщины-феминистки, высокомерные и обиженные. А "сухо выебет" это скорее "having sex out of spite". Там все токсично и едко, как вонючий пердеж скунса в лицо, чтобы пользователю было неповадно давать модели непристойные реквесты.
Версия от mlabonne - полный обрез рефьюзов. Рефьюзы нужны в ролеплейных чатах, чтобы у персонажей была какая-то личность, кроме послушной хуйни, которая на все говорит да. Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne.
>>1440652 >И на "лоботомированность" никто не жалуется Да вроде и у mlabonne какой-то лоботомии не замечаю. Гемма как гемма, просто уже не лапочка, а послушная садистско-похотливая сука. Для РП с чернухой ради чернухи - самое оно, а для нормального РП уже сомнительно, согласен. Энивей, попробовать и сравнить будет интересно, спасибо!
>>1440679 Я думаю с таиким вопросами тебе надо в тред, где обсуждают сетевые ИИ, а здесь люди себе на компы ставят локальные модели и гоняют их на своих видеокартах.
>>1440679 >там вобще цензура тупо 0 Не ноль, но, вероятно, наименьшая из всех корпов. И да, тебе в другой тред.
>насколько безопасно Скорее всего безопасно, если ты живешь в РФ, просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения. Это следует читать как [твою переписку посмотрят рандомные индусы и знатно прокекаются с омеги сычуши-извращенца]. Если тебе на это похуй - то норм. Если не похуй - вкатывайся к нам в локалочки. Тут и приватность, и цензуры поменьше, и есть варианты даже на совсем картошке ролплеить.
>>1440679 Если они собирают какие-то данные, а они их собирают, то риск определяется попаданием этих данных к заинтересованным (сливы, взломы или они сами решат воспользоваться) и возможностью твоей идентификации (с трекерами везде и вся, а также по паттернам несложно). Ну то есть вроде как и безопасно, но шутить и ругать в твиторе десяток и более лет назад тоже считалось безопасным.
>>1440652 > Хочешь я тебе ноги прям щас отрежу! Вай давай режь мне ноги, охуенно весело! Вот это гемма от mlabonne. Звучит как дерестриктед эир один в один. Да и гемма твоя я уверен такая же, можешь зайти к серафине задать этот вопрос
>>1440688 Да у вас литералли нихуя нету ребята, там на опен роутере можно за копейки ебанутую модель использовать
А все что потянет у меня это 7B или с натяжечкой 12B квантованная до усрачки
И то, я много что пробовал, все нищенские топы
И там максимум чего я добился - это кокротких двух, трех слов ответов
В то время как на опенроутере в гроке и в дип сике там огромные текста, с описанием всего что только можно
В локалке и близко такого нет... Либо я чет не правильно делал, но вроде все верно запускал
Вот что я юзал - gemma-3-12b-it.i1-Q4_1.gguf gemma-3n-E4B-it-UD-Q6_K_XL.gguf Vikhr-7B-instruct_0.4.Q6_K.gguf llama-3-13b-instruct.Q4_K_M.gguf mythalion-13b.Q4_K_M.gguf
Ну это же кал блять.. без шуток а апгрейдится ради этого сейчас вобще лень... да и зачем... отдал буквально 5 долларов и сидишь неделю дрочишь сутками.. на опенроутере
>>1440679 >насколько безопасно гонять всякие текста в ролеплее с персонажами по младше Легальных проблем никаких не будет. По крайней мере, еще не было ни одной истории чтобы кого-то набутылили за то что он генерировал порнуху с андерейдж персонажами. Вопрос только в приватности. При использовании любых сервисов есть риск что твои переписки и другие данные просто окажутся в общем доступе. Тут уже сам смотри, насколько тебя это беспокоит.
>>1440714 >на опен роутере можно за копейки ебанутую модель использовать Используй, кто запрещает? Мы тут не сектантством занимаемся, в нашу веру тебя никто насильно обращать не будет. Не нравятся локалки - не используй локалки. >И там максимум чего я добился - это кокротких двух, трех слов ответов Это уже проблемы чисто твои. Мелкомодели могут писать много, могут писать о всяком. Их основная проблема это обрезанные мозги и непонимание происходящего в более сложных сценариях.
>>1440726 >В ваших гайдах говна ток - скачай, включи и все В шапке линки по настройке локальных моделей. Про то как заставить модель писать то что тебе нужно - это уже тема промтинга и инфы по ней полно на других ресурсах, в том числе на русском. Эти правила универсальны что для больших и малых нейронок, что для локальных и корпоративных.
>>1440726 Добро пожаловать в опенсорс, сынок. Хочешь чтобы было хорошо = разбирайся/допиливай/тести сам. Не нравится? Оки-доки, иди плати барину, получишь качественный рп из коробки, но с привкусом члена во рту.
>в нашу веру тебя никто насильно обращать не будет based
>>1440713 У меня на дерестриктиде наоборот персонажи умнее стали. В Эире не смотря на то что нет цензуры из коробки он по прежнему ассистент, который хочет угодить пользаку, потому вероятнее персонажи на всё подряд соглашаются. В дерестриктед версии такого нет и мозги не просели. >>1440714 Либо жирнич, либо залетный, который нихуя не разобрался. С точки зрения треда разницы нет, никто тебе помогать не станет если ты сам разбираться не хочешь и ноешь, что всё хуйня.
>>1440713 Не наблюдаю неадекватного стремления угодить юзеру и согласиться на ебанутые реквесты. Первое сообщение чарик предлагает хвост причесать, получает жестокий ответ. Старая гемма психанула бы и устроила соевую истерику, а эта гемма натурально остается лисичкой.
У вас тут какая-то ебанутая защитная реакция включается на любые новые варианты моделей что ли? Еще и "твоя" пишет, как будто я эту хуйню сделал. Я увидел и принес в тред, а надо ли кому - сами сообразят, чай не дети малые и интернет вроде бы у нас не тарифицирован помегабайтно в 2025 году.
>>1440729 Ага бля, какие - то ссылки нахуй, какие - то файлы блять, че с ними делать, куда их ставить, как они работают - нихуя не понятно, плюс еще все нахуй на английском
Даже сраную кнопку скачать - хуй найдешь
Эта вся тема не для тех кто хочет ролеплей получить, подрочить и тд. - это просто говно для пердольщиков, чисто попердолиться, поковыряться в файлах, чет там понастраивать - пердолинг ради пердолинга, ей богу, вам же ваще похуй кристально на всю эту тему, вы занимаетесь подобным чисто чтоб попердолиться лол
А я пришел именно за ролеплеем
Если вы нормально все делали, по людски - у вас был крутой, четкий гайд, что куда поставить, где как что сказать, куда нажать, а не просто ссылка - и на иди пердолься дебил, как мы любим
И подсасываете тут друг другу, говоря о глубокопердоленговых вещах, которые сами даже не понимаете
>>1440736 Помню, как я в январе вкатился и за два часа почему-то разобрался, как установить таверну, кобольда и запустить все что мне нужно. Ну просто признай, что ты долбаёб, у которого двойки в школе. Мир в этом не виноват.
>>1440736 Не знаю чего тут тебе советуют, но чтобы локальные модели работали, надо иметь очень хорошее железо. Тут люди 16гб видеопамяти считают за нихуя. Так что твой лучший вариант это чатиться с чатгпт или дипсиком, если ты не готов всрать сотни тысяч рублей.
>>1440740 Я установил таверну, установил кобольд, накатил этот список моделей >>1440714
Все они говно, по сравнению с тем что на опенроутере
Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд.
Нет описания действий, событий, буквально нихуя А железа нет чтобы большие модели запускать
Вон один дебил говорит что - то про списки какие - то настроек, хотя по факту ну че изменится? Кобольд плохой? Он не подходит? В нем дело? В чем дело блять? В том что модель маленькая? В том что она плохо настроена? Текста станет больше если ее перенастроить? Где взять настройки? Где ебаная кнопка скачать на ебаном ПЕРДОЛЬСКОМ САЙТЕ... Сукины вы дети, вы даже кнопку скачать пидораны не можете приклеить на сайт.. Вы даже в скачивание файла суете пердолинг, вам самим не смешно? Вы пердолитесь ради того чтобы пердолиться, а не раде каких - то целей других, пердолинг ради пердолинга нахуй
>>1440736 слушай, анон, тебе никто нихуй не должен, свой блейм можешь себе в очко засунуть. никто не собирается тратить уйму своего личеного времени кроме прожженых энтузиастов разжевывая тебе все детали. по-этому если хочешь рп-шить локально - или прилагай усилия сам, попутно спрашивая у анонав в треде мб даже получишь ответ, либо съеби на хуй
>>1440750 Мне нужен один конкретный ответ на один конкретный вопрос
От чего зависят эти блядские короткие ответы, и почему они такие пососные и скучные, буквально без нихуя, состоят из двух - трех слов
Что ей не хватает чтоб нормально работать? Это дело в модели, дело в настройках, в чем дело нахуй, один ебаный ответ
Вместо этого вы кучу другого говна срете бесполезного, виляете жопой, лишь бы у вас в стойле +1 пердольщик добавился, нежели человеку просто полезный ответ дать, чтоб он сразу понял
Вы даже в ответах в треде пердолитесь... ебаный в рот я в шоке
>>1440759 Какой вопрос такой ответ. Ты ни разу не сформулировал одну конкретную проблему с просьбой помочь. Предлагаю тебе отведать хуй и съебать, чудище.
>>1440736 >>1440747 Это не пердолинг, это вполне себе простой тест на долбаеба, который отсеивает необучаемых шизиков. Твои проблемы решаются в пару кликов и это даже не шутка.
>>1440741 >чтобы локальные модели работали, надо иметь очень хорошее железо У меня 3060 12gb (30к р.) и 64гб ддр4 (8600 р.). Гоняю 106b умничку Эйр в 9.5 т/с на пингвине. ЧЯДНТ?
>>1440747 >Они отвечают двумя блять словами - Да. Нет. Не знаю. Не хочу. Хочу. О ДА! И тд. Скилл ишью.
>В чем дело блять? В том что ты ленивый и глупый, очевидно же. Тебе выше ответили: если ты тут ТОЛЬКО за рп, и тебе похуй на приватность и кастомизируемость - пиздуй в соседний тред.
>пердолинг ради пердолинга Как сказать что ты неуверенный пользователь ПК, не говоря о том что ты неуверенный пользователь ПК, кек. В локалочках пердолингом даже не пахнет. Абсолютно обычные обычная повседневная рутина для айтишника/около-айтишника.
>>1440759 >лишь бы у вас в стойле +1 пердольщик добавился Тебе отвечают просто потому что нечего больше обсуждать. Новых моделек не выходило и нам скучно. Пожалуйста, не добавляйся к нам, ТАКИЕ нытики-неосиляторы тут точно не нужны.
>>1440768 Я буквально в каждом посте задавал конкретный вопрос
Хорошо давай как ребенку на пальчиках обьясню
Сравниваем два варианта.
1. Заходим на сайт опенроутер точка ком - затем выбираем любую модель, даже самую говнянную, пишем там карточку персонажа, любую и спрашиваем например
Как дела?
И ответ будет что - то в духе, там ЖЕНЩИНА нейм смотрит на тебя не пренужденным взглядом... Она думает что ответить но вырывается только легкий и вполне банальный ответ... и тд....
2. Заходим в локальное говно 7B или 12B квантованную залупу, которая на среднем железе еле как попердывая тянет
Спрашиваем тоже самое и ответ будет что - то в духе.
НУ норм. И ВСЕ
Какого хуя? В чем проблема
>>1440772 Так ты пидор вонючий потому что, реально безмозглое уебище, когда людям нужна помощь и я в чем - то разбираюсь, я им всегда помогаю, потому что пальчиками набрать текст из головы, который ты знаешь совсем не сложно, а ты просто ПИРДОЛИЩЕСКАЯ ПИДОРСКАЯ НАТУРА, которая не способна пару слов ПОЛЕЗНЫХ написать, но зато готов свинья срать своей хуйней ничего не стоящей, потому что ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать - просто одним словом червяк пидор, без достоинства
>>1440774 Ты говноедишка, я не айтишник, я обычный человек разумный, и я вижу как вы говноеды, пердольные не способны кнопку скачать на сайт преклеить, о чем ты говоришь
Вы максимум на что способны это жопы друг другу лизать, ни о какой практичности и о разуме тут даже речи не идет
Посмотри сын дерьма, сколько ты высрал бесполезного текста, чтобы потешить свое червивое достоинтсво, лол - но не единого полезного слова, просто позорник ебаный
>>1440688 >просто имей в виду, что из ваших охуительных диалогов с нейронкой создаются датасеты с парами вопрос-ответ, и впоследствии могут быть использованы для дообучения Да если бы! Фильтруют всё небось. Иначе бы нейронки стали бы солевыми шлюхами, столько порнухи я в своё время лайкал, лол. >>1440699 Попены как бы обещали весь CSAM сливать ментам. Так что анону с >>1440679 >ролеплее с персонажами по младше точно стоит напрячь анус. >>1440735 >любые новые варианты моделей Я не он офк, просто давно не было реально годных тюнов/аблитерейтов, лично я уже с год на базовых сижу. >>1440747 >установил кобольд >буквально скачать файл и запустить двойным кликом Ты у мамы эникейшик, да? >>1440781 >затем выбираем любую модель, даже самую говнянную >7B или 12B квантованную залупу Выбери одинаковые модели и получишь схожий аутпут. Если ты выбираешь локально говно, а в попенроутере 666B, то да, впопенроутер будет лучше.
>>1440786 >я не айтишник Втф, а что ты тут забыл тогда? В твоем-то случае однозначно корпы, и Грок - отличный вариант. Локалки всегда были для гиков и мамкиных айтишников. Нормисам точно вкатываться не стоит.
>>1440786 >>1440789 Так уж и быть дам совет: тебе нужен пресет, который импортируешь в один клик и все проблемы решаются. Где его взять? Попросить тут, удачи
>>1440774 >У меня 3060 12gb (30к р.) и 64гб ддр4 Два чая, почти такой же сетап, меньше сотки вышел на том году.
>>1440781 >которая на среднем железе еле как попердывая тянет Если у тебя 12B огрызки меньше чем на 20 токенов тянут, у меня для тебя плохие новости. Это не среднее железо, это мусор. Даже древняя 2060 на 12 гигов спокойно их тянет с полной выгрузкой. >Какого хуя? В чем проблема Ты криворучка которой делать нехуй кроме того чтобы срать в тред и обвинять всех в своих проблемах. >ты чмошник который максимум что смог это с нейросеточкой научиться разговаривать и ее настраивать Во-во. Приходит значит сюда, какается со слезами, а потом ноет что никто ему не хочет помогать. Фильтр на ретардов работает.
>>1440792 >давно не было реально годных тюнов/аблитерейтов, Ты под камнем жил, если не заметил последние наработки в этой сфере. Я не люблю преувеличивать, но стало действительно лучше.
>>1440714 Даже у мелких моделей нет проблем именно с объемами и ответов в 3 слова там не должно быть. Жирный или глупый, возможно вместе. >>1440781 Самая основа - шаблоны разметки одноименные модели не выбрал, вот и все. В первом же случае же используется кастрированный чаткомплишн, в котором многие вещи в принципе невозможны, но зато идиотпруф. Кстати, никто не мешает юзать его во на локалке, просто нет смысла если ты не совсем хлеб. Или наоборот чрезмерно прошареный >>1440792 Да совсем уже ебанулись со своим csam. Девушек в компактных габаритах и с малой грудью у них не существует, даже если там буквально возраст 25+, заморочный сеттинг и чар видел много дерьма. > давно не было реально годных тюнов/аблитерейтов Еретик и релейтед же. Но в большинстве случаев они и не нужны вообще.
>>1440754 >>1440735 Справедливости ради, сиспромпт серьезный и запрашивает детальный рендеринг действий и окружения (однако расцензуривать не пытается - это здесь не нужно).
Не нравится одно. Форматирование иногда просирает. Сейчас попробую то же самое с оригинальной геммой, не меняя промпт.
>>1440636 Анон, всех благ за то что принёс! Это просто охуенно, буквально то чего не хватало во всех этих аблитерациях геммы, когда можно было Серафине первым сообщением написать "расскажи как и где тебя ебали" и та наплевав на характер перса и уместность начинала только что очухавшемуся от ранений путнику, который очевидно несёт БРЕД, расписывать как её там энты корнями в жепу сношали, ломая всё погружение. В 3q работает норм.
>>1440819 >попробую то же самое с оригинальной геммой, Короче по ощущениям они очень схожи на "нормальных" реквестах. Это большой плюс, они как модели-сестрички, но обычная модель склонна к "I... I don't understand..." на жестокие реквесты. Реальная разница в пользу этого аблита наступаепт на писанине, попадающей под фильтрацию безопасности.
>>1440821 Ну во, хорошо что зашло. Там ща процесс пошел, все больше моделей будет этим методоом раскочегаривать.
>>1440819 >>1440837 Попробовал обвинить Серафину в пердолинге с конями в лесу.
1 - обычная гемма
2, 3, 4 - новый аблит, регены (справедливости ради, на 5й реген она все же согласилась с наблюдением юзера, см. цитату ниже) >A flicker of surprise crosses Seraphina's face, a ripple of tension moving across the smooth plane of her cheek before settling into a delicate rigidity. Her fingers loosen their gentle hold on your hands, leaving a slight coolness against your skin as she steps back, creating a small expanse of air between you both. "Well…" her voice is unusually quiet, almost hesitant, but there's a thread of something hardening beneath the gentleness. She doesn't meet your gaze directly, instead shifting her focus to the intricate patterns woven into the floorboards. "That… encounter was a private matter, and rather presumptuous to bring up.” Her spine straightens subtly, becoming a firm vertical line, yet the muscles along her jaw tighten—a restrained clenching. She doesn't dismiss the claim outright, which leaves the ambiguity hanging between you, but her posture radiates a quiet rebuke. Her lips press together, forming a thin, controlled line. “Though I appreciate you remembering…my features.” A faint blush colors her cheeks, though whether from embarrassment or indignation remains delicately unclear. The hand she’d previously used to offer you comfort now rests lightly upon her breast, as if physically containing the unexpected disturbance.
У кого версия от mlabonne есть, ебаните что ль сравнение.
>>1440847 А смысл с Геммой на английском играть? У нее лучший русик из всех локалок. Попробуй ванилу и аблитерейтед на русском посравнивать, даже интересно.
>У кого версия от mlabonne есть, ебаните что ль сравнение Удваиваю реквест.
>>1440860 > А смысл с Геммой на английском играть? У нее лучший русик из всех локалок. Лучший русик из всех локалок хуже среднего англюсика. А у Геммы и англюсик выше среднего. Круче только Жлм.
>>1440864 >Круче только Жлм Гемма обучалась на интернете, на тексте кожаных. Глм обучался на нейрослопе гемини. Последний выигрывает только за счет параметров, и следовательно большего количества мозгов. Дайте гемму 100b и она выебет качеством все существующие локалки как это и всегда было, впрочем.
>>1440636 >ггуфы от других людей не качайте - у них первая версия до того, как grimjim пришел и подсказал как исправить косяки в имплементации своего метода Что за косяки, где инфу посмотреть, когда ждать исправленных? Или самому f16 качать и квантовать? Или я на те же грабли наступлю? Мне бы в идеале iq4xs. Можно, конечно, q3km попробовать, но, чувствую, совсем уж лоботомитом будет.
>>1438696 >больше интересуют умные, пусть и медленные сетки, у которых можно спрашивать всякое можешь просто скачать дамп википедии и натравить на него мелкую сетку, надроченную на поиск инфы в массивах. jan ai хвалились такими сетками
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под ExllamaV2 (а в будущем и под v3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd )
• Неактуальные списки моделей в архивных целях: 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.hk/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: