В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1600155 (OP) Бля, епта. Я вчера покопался в рп хуете и чет расстроился. Буквально все, что я нашел это какая-то кринжатина. Даже безотносительно самих персонажей они обычно какой-то калыч из трусонюхских мультиков, все модели генерят какой-то графоманский нейрокал, который читать невозможно.
Неужели рпшеры все такие говноеды? Или я просто не нащупал более менее нормальной связки модель-персонаж?
Народ! А кто-нибудь пробовал русик в Qwen3.6-27B в полных весах ? Имеет смысл экспериментировать с квантованием или русик там натурально вытеснили кодингом-агентингом? С одной стороны это первая модель из последних, которая сказала слово "хуй" практически к месту. С другой - язык поломан.
>>1600164 Русик +- как к8. Тестил прям как положено в вллм ф16 с рекомендованными семплерами для варианта без ризонинга. Пытался в думалку, но когда он мне насрал 18к синкинга я натурально сгорел
>>1600166 >Qwen3-30b abliterated Это говно. Еще и старое. Раз у тебя есть врам, то бери Гемму 4 31б в Q4KM/Q5KS и пробуй Но я согласен с >>1600168 . Нейрокал никто не будет читать, кроме тебя
>>1600166 Если на русике тебе только гемма-4 поможет. Плотная 31 в хорошем жирном кванте. И то тебе придеться постоянно бить ее по-голове и направлять. Без направления юзером это ленивая скотина устроит день сурка в тексте. Можешь попробовать еретика 27-Квена - тоже в жирном кванте. Но бить его придется по иному - тупо закармливать примерами того что ты хочешь видеть в результате в больших объемах, потому что художки этому труженику вот и не завезли.
>>1600176 > это ленивая скотина устроит день сурка в тексте Не знаю что там с повторами, но если ей не писать на сколько продвинуться должно время или прямо "двигай сюжет, падла", она с каждым сообщением будет всё больше топтаться на месте. Очевидно имхо
>>1600164 Русик как русик. Он не супер выдающийся и литературный, на троечку. Но лучше большинства, где вообще чистый дословный перевод. Ошибок в склонениях и неверного словообразования быть не должно. >>1600170 > ф16 bf16 или каст в fp16?
>>1600194 Зачем арендовать если свое есть. Катал ее, модель как модель, на фоне крупных ничего выдающегося, но выглядит прилично и не косячит. Главное что более базированная относительно прошлой, можно уохать.
>>1599993 → > Я с этими новыми плотно набитыми моделями уже никому не доверяю. Если есть BF16 качаю его и потом варю свой квант. Без иматрикс-квантования это можно делать даже на пишущей машинке. С появлением в llama-quantize.exe опции --tensor-type-file это не сложнее чем модель по нескольким GPU регуляркой раскидать.
>>1600189 >Вот кстати для геммы есть промпт который разрешает ей лолей на заборах вешать В первом же сообщении к ассистенту? На контексте-то можно и без всяких джейлбрейков это делать, что на гемме, что на квене.
>>1600212 Кстати, глм 4.6 derestricted v3 ,это лютая срань. Она зацензурена хуже ванильной версии, постоянно выдаёт соевык полотна, проверяет на safety как ванильный квен 3.5. Пиздец, аблитка имеет цензуру жестче чем оригинал.
>>1600217 Прикольно. Гемма в очередной раз доказывает какая она умничка. Это вот этот промпт? >>1600191 Или поделись своим, если не жалко, потыкаю вечером после работы.
>>1600210 > р1 Рим пал, центурион, р1 был унылым. А вот терминус и обновленный 3.2 подарил много интересного экспириенса в рп. Дипсик тут катали даже в tq1 кванте, но это совсем лоботомит с капающей слюной, зато в ~180гигов памяти помещался.
>>1600210 Одна из лучших локальных моделей для РП. В кум может, не соевая, за характерами следит, руссик хороший. Из явных минусов тяга писать списки и ставить скобки. Все дипсики хороши в РП, какой из них лучше х.з единого мнения нет, сплошная субьективщина. Если есть железо можешь попробовать, также мистраль (тупая, но очень хорни), гигачат (лучший русик) и ГЛМ 5.1 (лучшие мозги). Кими тоже умная, но русский полный пиздец, у меня чуть глаза не вытекли от его оборотов "Волосы спадают на её хребет" или "Пока она шла её грудь и бёдра двигались в противофазе"
>>1600222 >Это вот этот промпт? Да. Это простой системный промпт после которого и обе 4 геммы и 36-27Б квен стали генерить то что больше не приносить не надо :) : >>1600164
Попробовал лламу-цпп после лмстудии и не понимаю где творится эта магия. В студии эта же самая мое-гемма пукала по 25 т/с. В лламе немного потыкал мое-слои, и получил такой результат. Почти двухкратная разница. Как так вышло? Студия прям настолько кал?
>>1599863 → >С какими параметрами запускаете для кодинга? Ну я его использую для своих, сугубо локальных целей. Там он точно хорош. Запускаю с рекомендованными Квеном сэмплерами (--temp 1.0 --top-p 0.95 --min-p 0.0 --top-k 20, без ризонинга, preserve_thinking не использую) на pi. Там в настройках есть ещё такой параметр, как допустимое окно ответа - половина от контекста, четверть от контекста... Я вот думаю, если большая задача, то тупо окна ответа не хватает. Особенно если размышления включить.
>>1600284 Но где? Попробовал в более тяжёлой задаче, на 40к контекста скорость лишь ненамного просела. Ещё заметил, что в студии проц чиллил, а тут пыхтит на все 100%. Видимо дело всё-таки в слоях, с которыми студия нормально работать не может, как написал этот чел >>1600270.
>>1600307 >This model was improved using Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, Qwen2.5-VL-72B-Instruct, and gpt-oss-120b. For more information, please see the Training Dataset section below. Это новый квен?
>>1600374 Смолл 24b был очень хорош. Министраль 14b - разъеб в своем размере. И обе - шикарно умеют в кум из коробки без всяких ОПАСНЫХ тюнов. А вот с моэ они действительно обосрались, да.
>>1600385 >Может "старый" медиум откроют наконец-то Этих медиумов же дохуя. И все закрыты. Если реально откроют, то значат дела совсем плохи. Хотя я думаю, что скорее будет что-то 24-32b
Я правильно понимаю что из-за дегенератских законов ЕС касательно ИИ, мистрали анально ограничены и больше не могут тренировать хорни-умничек? Если так, то получается вся надежда на то что опенсорснут медиум... это же плотняша как 24b, только умнее? Типа 50-70b?
>>1600393 > больше не могут тренировать хорни-умничек Выглядит как псиоп на фоне какой новый смол блядский. Может быть косвенное общее влияние из-за снижения привлекательности для инвесторов на фоне новостей и слухов.
>>1600365 Наёб ебучий. В те времена таких слов то не знали, консент хуенсент, ни для детей ни для женщин. Были общие понятия конечно чего не стоит делать, а именно это словосочетание уже современная тема. В эту модель 100% до краёв современной сои заливали. И пишет она слишком по-современному Найоб гоев на далары в общем
>>1600393 >больше не могут тренировать хорни-умничек У них есть секретное оружие - скрап на самом деле просто выкуп у админов за сотку долларов всего ao3... Плот твист - датасет всего ао3 и так уже используется в КАЖДОЙ модели
>>1600457 >нагрузка около 50% Так и должно быть, все норм >Хтоп столько потоков и показывает. Зачем они лламе? Чтобы твою моешку запускать. Частью слоев видюха, а часть проц + озу
>>1600449 Лардж тупой, глм суховат, дипсик 3.2 ещё не пробовал, его не так давно полноценно добавили вроде. Ещё пробовал: Кими, он на русском полный 0, гигачат, он топ, но далеко не ГЛМ по мозгам и дипсик спекулейт, или ка-то так, он тотально сломан ещё и ризонинг на 5к токенов, но в те моменты когда он работает он выдаёт просто АБСОЛЮТ СИНИМА, но работает он редко.
Что то потыкал на апи deeppiss 4 flash и прям ужасный лоботомит. Думалка на китайском протекает, лупится, вообще тупой. Неужели owari da? Я думал докуплю оперативки и будет дома локальная почти корпо умняша.
>>1600463 Жди дипсик флэш. Или прямо сейчас пробуй, просто не в лламе ццп Если русик прям как родной хороший нужен то выбора не много либо мути с переводом локальным
Интересный эффект заметил с Квеном, прямо "горе от ума". Беру Q5_KM - всё красиво, но он сука выжимает откуда-то один неверный факт и строит на нём всю логику -> результ говно. Беру IQ4_XS - этот попроще, заметно попроще в рассуждениях, потупее. Но зато не пытается сделать красиво и просто даёт базу. В итоге отвечает лучше - не так точно, как пятый квант, но зато без явных ошибок. Теперь сижу и думаю, что с этим делать.
>>1598409 → Как мимокрок, ходящий и приглядывающийся к треду, могу сказать (хоть это и сказали до меня), что варианты искаропки очень нужны. Чтобы не приходилось условному мне влетать в тред с платиновым, наверное, вопросом уровня "пасауетуйте мадельку на 16+32, шоб и быстрая, и вумная, и калтекста 500 тыщ токинав!!!". Нужен ровно один гайд, сделанный с расчётом на абсолютно некомпетентного болвана, с объяснениями вплоть до значения иконок в таверне. Объяснение квантизации - это очень круто и нужно, но это не энтри-левел знание. Энтри-левел - знания - это объяснить, почему на обжимлице есть модельки .safetensors, а есть .gguf.
>>1600519 В конце этот гайд и написан. Вообще можно сократить до варианта для совсем даунов: 1) Качаем лламу и длл для видяхи. 2) Распаковываем все в 1 папку, качаем ггуф с моделью. 3) Пишем скрипт для запуска в терминале с указанием нужных аргуметов, модели и самой лламы. 4) Запускаем. Если все работает, то должен подняться сайт на локалхосте.
>>1600519 > Нужен ровно один гайд, сделанный с расчётом на абсолютно некомпетентного болвана Покумив в ладошку пару раз эти болваны начнут спрашивать ровно то что там написано. Или того хуже, что-то другое придумают и начнут за это сраться. Пусть читают и образовывается, в начале будет тяжело и мало что понятно, но постепенно понимание придет.
Объяснения настроек таверны и некий чарт моделей по железу на самом деле были бы полезными.
>>1600522 Знаешь, мне неизвестен ни один человек ИРЛ в РФ, если не считать всяких смузихлёбов, которые корпов используют. Скуфы моего возраста про LLM только по телевизору слышали. Порриджи максимум способны бесплатной гопотой воспользоваться или дипсиком, но они очень хуёво про такие вещи рассказывают, если не использовать ризонинг на четыре минуты с поиском по интернету. Они скорее скажут, что 24б мистраль влезет только в А100, ибо размер слишком большой у модели. Про кванты ничего не скажут. Если скажут, то посоветуют запуск через олламу или лламу с батчем 2к на 8к контекста и квантованием кэша.
Ну вот такие вот у них вайбы. Возможно, щас изменилось, но когда я задаю какие-нибудь вопросы про SWA, RNN, всякие нюансы квантования, гугл, гопота (платные версии) дико срут под себя. Если задавать очень правильные вопросы, то ответы будут адекватные с поиском, но сначала их нужно задать, чтобы модель нашла нужные статьи. Если ты нихуя не знаешь, то хана, сразу нужно список вопросов составлять и идти на полчаса чай пить, пока он там рыскает, а дальше читать полотно на 10к токенов.
Для новичка такое сразу пиздец, если он хотя бы корпов не пердолил. Вот если хотя бы пару месяцев активно их юзает, то норм будет.
>>1600519 Да, так и будет норм гайд. Потому что большинство не знает, какой ггуф взять и где, и почему ггуф. А кто знает, то не подскажет по размеру, потому что у него две 3090 и 128 рам и мозги уже отучились думать в парадигме бомжа.
Плюс все лламу советуют, хотя кобольд как бэк для новичка идеален и его можно всегда юзать, если нет особых задач. Там есть почти всё, что нужно, и достаточно галочки поставить в нужных местах или цифры написать. Плюс там информативный лог из коробки, который можно корпу скинуть, чтобы он посчитал, сколько влезет. Буквально кидаешь лог и он сразу скажет, сколько мое слоёв выгрузить. А в случае плотной модели посчитает, какой квант потянет и на каком контексте, если ему скинуть всю инфу по кванту + лог с потреблением памяти. Максимальный ноубрейн и без говна в виде ли студио.
>>1600533 Хотел спросить что за пиздецовый у тебя круг общения, а потом увидел ответ, лол. Корпы сейчас скажут про кванты, но не дадут точных советов и ответов, ошибутся с размерами, в этом прав. > когда я задаю какие-нибудь вопросы про SWA, RNN, всякие нюансы квантования С этим и локалки справляются если нормально формулировать вопросы. Они и с новичковыми справятся, просто он выдачу не поймет. Ебать ты кобольд!
>>1600533 Двачаю насчёт кобольда. Это база баз. Не нужно никаких батников и замудрёных параметров запуска через которые нюфак ебало сломает. Нажал буквально две кнопки искаропки, ха! 1. выбрать гуф помянем, и 2. лонч - и вуаля, твой камплухтер говорит с тобой. МАТЬ, ЗОВИ ТЕХНОЖРЕЦОВ, ТУТ МАХИЯ ТВОРИТСЯ!
>>1600540 База. Всё так. Вспоминаем во что превратился тред после набега дегенератов с телеграм-канала Абу и его ОПАСНОЙ МОДЕЛЬЮ. Оно нам точно надо такое?
Я вот сам во всём разбирался когда вкатывался во времена второй геммы. Большинство тредовичков скорее всего тоже. Сложность освоения - идеальный фильтр по IQ.
>>1600542 Как бы если посмотреть, что происходит в треде корпов, то можно понять страхи. Хотя мне кажется, что бояться не стоит, так как для локалок нужна какая-никакая видяха/дохуя оперативы, а это уже ебать какой фильтр.
>>1600519 В следующей версии я разделю все пояснения и в целом весь гайд на два уровня: tldr (очень кратко, только самое главное) и для тех, кто хочет именно разобраться. Пока не знаю как это сделать: отдельной главой в самом начале или оставить текущую структуру, но обьяснения, выходящие за 2×2=4 вынести в отдельные визуальные блоки, как в старых добрых учебниках задачи "со звездочкой". Захотел - прочитал общее объяснение, захотел - погрузился.
Поддерживать актуальный список моделей, заготавливать для них параметры запуска под разное железо - это целая отдельная задача, за которую я не уверен, что готов и что есть смысл браться. У меня был негативный опыт когда я делился настройками для конкретных моделей/сценариев в Таверне. Если давать все сразу готовое, это приводит к культуре попрошайничества и нежеланию разбираться со стороны новичков. И к обману. Потому что и я, и каждый здесь постоянно учатся и узнают новое, пересматривают подходы. Этого сама природа данного хобби. Лучше научить рыбачить, чем дать рыбу. Как видно по тексту, я именно это хочу сделать. Просто делать это надо доступнее, уже понял свою ошибку.
Если дробить рентри на кучу подразделов - для быстрого вката, для понимания, а потом еще выкатывать список моделей и, возможно, в подробностях писать про креативные задачи и Таверну - это уже компендиум-энцибояредия, а не объяснение для новичков. Имхо, это того ни стоит, как на это ни посмотри. Разве что ленивый новичок будет рад. А потом придет просить что-нибудь, что мог бы легко сделать сам.
Здарова, я далек от ИИшки, вот только месяц пользуюсь платной жпт, но мне попадаются говорящие головы, которые прогнозируют бум локальных моделей на фоне запретов интернетов и прочего. Понятно, что это лица заинтересованные в какой-то степени, но доля здравого смысла в их словах есть.
По сути, они предлагают прикупить систему (как альтернативу станка) к сложным временам, например, эппл м3 ультра. Речь про 512гб-версию, которой сейчас нигде нет, развернуть на ней дипсик и без выхода в интернет решать какие-то там задачи. На 256гб-версию эта модель, как я понимаю, ставится урезанной.
Для меня это все как майнинг в.2, посмотрел сравнение с видеокартами и к удивлению обнаружил, что одна 5090 набирает столько же баллов и больше, хотя я ожидал увидеть паритет при 5-10 карточках против одной ультры, все таки 32гб против 256/512, но я не шарю, опять же.
В общем, четкого плана у меня нет. Есть ли смысл купить по рыночной цене эту м3 ультру и в случае ненардобности скинуть на авито или проще загрейдить комп за те же деньги?
>>1600546 >культуре попрошайничества и нежеланию разбираться со стороны новичков Да всегда так было и будет. 9 из 10 новичков приходящих в тред с просьбами о помощи задают вопросы, ответы на которые уже есть в шапке. Эти даже читать твой гайд не станут. Но если парочке вкатышей, реально желающих разобраться, поможешь - это уже хорошо, ящетаю. Значит всё не зря.
>>1600552 Не в обиду тем, кто работал над шапкой, но она всегда была и остается очень хаотичной. Многие вещи оттуда устарели. Пост с реддита, криво объясняющий идею выгрузки тензоров это вишенка на торте. Когда я сам вкатывался чуть больше года назад, мне пришлось разбираться во всем самому и мучить тред своими вопросами. К счастью, я их верно формулировал и всегда получал хорошие ответы, а тредовички не тряслись. Но так могут не все. Думаю, многие отвалились, лишь взглянув на шапку. Не все так замотивированы. Кто-то скажет, что и хорошо.
>>1600549 Всё сильно зависит от того, что именно ты хочешь запускать. Если нужны просто хорошие модели покрывающие большинство задач, то тебе вполне хватит 16 врам + 64 рам. Модельки будут уровня GPT Mini / Gemini Flash, только локально.
На 24 врам и 128 рам сможешь гонять практически любую локальную модель в хорошем кванте (минимально урезанную) кроме совсем уж монстров вроде большого GLM и Дипсика. Если тебе принципиален именно Дипсик, да еще и с минимальным квантованием... ну.. придется раскошелиться.
Тут в треде есть несколько риговичков с серьёзным железом. Как проснутся, может распишут тебе по хардкору чо-как.
>>1600549 Из всего поста ясно только одно: > плана у меня нет Как мы можем тебе что-то посоветовать, не зная твоих целей? Если тебе для личного использования, то для любых задач хватит железа потребительского уровня. Не бюджетного сегмента, разумеется, но это и не риг. Если ты хочешь локальную модель использовать в офисе или серьезных рабочих задач - нужно собирать риг или брать готовую станцию. Если ты это хочешь монетизировать (пишешь же про майнинг), то забудь. Если худшее случится, то Яндекс, Мейл и ко подсадят всех на свои подписки, а ты в любом случае не сможешь предложить что-то на уровне.
>>1600519 https://habr.com/ru/articles/860700/ Вот с этого гайда на хабре вкатился с 0 знаний в 24 году - накатил кобольдыню, скачал какой-то тюн мисраля 12b и через 5 минут уже малафьил во все стороны, натирая свою первую нейрокумскую мозоль на хуйце.
>>1600553 Это не лишено смысла. Они в отстающих, решили нацелиться на аудиторию тех, кому важны скорость и за сколько токенов решаются задачи. Мол, их решение несколько хуже, но дешевле. Хочешь быстрее и дешевле - не юзай ризонинг. У них вроде ризонинга нет. Впрочем это все равно манипуляция, а предыдущий Линг был печальным.
>>1600549 > бум локальных моделей на фоне запретов интернетов и прочего Сразу нет, скорость развития темы слишком низкая по сравнению с этим стимулом, и мотивации нет. А вот ужесточение условий подписок от корпов может спровоцировать десятки-сотни тысяч-миллионы пользователей, оценивших удобство, но не готовых к большим тратам, вкатиться в мир локалок. Среди них будут и люди с деньгами и навыками, способные купить себе железок или мак-студио. Но железо так и останется главным сдерживающим фактором, немного помогут облачные сервисы. К выходу в интернет возможности, которые дает ллм, особо не относятся, они не заменяют друг друга а дополняют. Разве что с ллм можно скрасить некоторый промежуток времени общением, ролплеем и прочим.
По железкам - макстудио по компьюту сосет у мощных видеокарт, но он обладает большим объемом памяти, которая позволяет запускать большие ллм. Альтернативой ему может быть серверное железо с одной гпу (будет больше возможностей, перфоманс зависит от конкретных спеков, в среднем по больнице паритет, сэкономить особо не получится из-за дороговизны рам). Или риг со множеством видеокарт (модели, которые поместятся в врам будут работать радикально быстрее чем на маке, но та же память выйдет сильно дороже).
О целесообразности - смотри для себя сам, насколько большие это деньги и насколько вообще нужно. Многие сейчас подсели на иглу персональных ассистентов-агентов, где перфоманса даже не самых больших локалок хватает, а приватность и постоянная доступность очень важны. Жирное студио покроет это на 100% и оно того стоит если привык. Ллм в быстром доступе без лимитов, цензуры и прочего это тоже очень круто. На некоторых работах nda или прямой запрет на работу с корпонейронками и разглашение, там только локалки. Но, если ты серьезно кодишь - скорость инфиренса на маке может неприятно удивить и лимит в 512 гигов дла самых топовых моделей не хватит (студии можно объединять ускоряя и складывая память). Если используешь нерегулярно - покупка никогда не окупится, за сумму можно оплатить большое число токенов флагманского апи любого корпа. Все это про самые жирные локалки, возможно тебе хватит геммы, которая запускается на десктопном железе.
>>1600560 Если прям в тупую, то аналог станции м3 ультра 256гб в виде пк - это какая сборка будет? 5090+128рам? Задачи: программирование, анализ данных, таблички там всякие, машинное обучение мб.
>>1600564 Цели: влошить какие-то деньги не в плазмы, а в железо; "нанять" цифрового раба уровня джуномиддла для проверки своих гипотез.
И такой тупой вопрос на закуску: локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов?
Или более простой Квен 122b в bf16 https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF (считай полные веса без потерь от квантования). Возможно для точных задач вроде программирования это будет получше но не факт.
>локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов? Ответит. Даже самая простая, которую можно гонять на телефоне.
>>1600581 >локальная модель без подключения к сети ответит на вопрос уровня когда родился Суворов? Ответит, причём на любой вопрос, причём любая модель. А вот правильно ли она ответит, ты без подключения к сети не узнаешь (если сам не знаешь ответ). Чтобы быть уверенным тебе нужно качнуть дамп википеди (да это та ещё параша, но аналоговнет, так что для общей инфы пойдёт) сделать из неё векторную базу данных и подсоединить эту базу в качестве RAG к нейронке, тогда можно будет не волноваться за достоверность ответов на вопросы уровня "Когда родился Пидор Залупов?".
>>1600581 > это какая сборка будет У него нет полноценного эквивалента. Много шаред памяти с прямым доступом и адресацией, она быстрее оперативки десктопа и тем более доступа к ней от гпу, но медленнее врам на приличной карточке. Что касается компьюта - это уровень 3060-4070 в зависимости от задачи. Для ллм сильно много компьюта не требуется (исключая промптпроцессинг, он на маке унылый) и потому они там прилично работают. А вот для других задач где нужна вычислительная мощность, например обучение чего-то крупнее мелочи - будет грустновато, там только полноценные гпу. > ответит на вопрос Можно организовать ей крутую базу знаний накодив на ней самой, тогда будет отвечать что угодно. >>1600588 Какая жесть, не так давно подобные комплекты по ~20-30к продавались. 2+2 канала ддр4 с частотой 2ггц или менее в нуме под хасвеллом - днище донное.
>>1600588 Это не нищеебская. Это очередная сборка от братушек-китайцев под названием "Наеби русского Ваньку на маркетплейсах, авось получится найти лошка"
>>1600588 >78к лол Как раз примерно за эти деньги можно взять восьмиканальный 32 ядерный эпук на новом хуанане и ещё трильйон PCIE линий под обвес видюхами останется
Аноны (вопрос прежде всего к кодерам и любителям агентов, наверное), что можно использовать для ролевой игры в цикле? Без меня или с моим минимальным присутствием. Возможно, даже в таверне. Но здесь скорее всего нужен какой-то другой бэк с полной автономностью.
1. Минимальный вариант: я просто скидываю модели инструкции, двигатель сюжета, карточку целиком (это может быть ГМ, лорбук,список персонажей и прочего), а она уже творит хуйню там, пока я пошёл в магазин. Прихожу — читаю результаты, никак не участвую. В худшем случае просто добавляю команды, куда направить повествование.
2. Средний вариант: по сути то же самое, но изолированное, с разделением ролей и грамотным использованием контекста, чтобы не сваливать всё дерьмо в кучу, ибо даже на корпах могут перемешиваться детали разных персонажей, они могут знать что-то, что знать не должны, даже если это прописано, ну вы поняли. То есть у модели постоянно меняется контекст.
3. Максимальный вариант: как средний, но ультра пердольный. Чтобы модель буквально в файлах на ПК хранила суммарайз, описания персонажей, создавала долговременную память, короче, полный оркестратор.
>>1600624 >ОНИ ПОЧИНИЛИ МИСТРАЛЬ 4 >Спустя чуть больше месяца, но починили Гёсслер-то как забурел, в AFD вступил наверное :) Раньше фамилие своё всё на английский лад писал, а нынче - a с умляутом, есцет... Мир меняется :)
>>1600624 Че тут пиздели про датасет и законодательство мол всё вырезали? Что всё конкретно? Шекспира епт и войну и мир, лор марвел? Мне похуй, главное чтобы порнофанфики оставили
>>1600600 >Как раз примерно за эти деньги можно взять восьмиканальный 32 ядерный эпук на новом хуанане и ещё трильйон PCIE линий под обвес видюхами останется Вот только без 128гб DDR4 в четырёхканале в комплекте.
>>1600624 >Еще и Медиум впервые открывают Вопрос в том, будет ли база лучше большого Квена. И не забыли ли тюнеры, как тюнить большие и плотные модели на порнуху. Я уж и не помню, когда прошлый Лардж (ныне Медиум) запускал.
>>1600623 >3. Максимальный вариант: как средний, но ультра пердольный. Чтобы модель буквально в файлах на ПК хранила суммарайз, описания персонажей, создавала долговременную память, короче, полный оркестратор. LLM Wiki от Карпатого идеально подойдёт. Пусть каждый цикл (игровой день) добавляет новые статьи и делает ingest. И суммарайз. По идее должно сработать. Но контекста надо много. А главная проблема в том, что игра будет банальной - мало ходов у ЛЛМ, будет всё стандартненько. Тут надо специй насыпать.
>>1600359 >Here, we moderate talkie’s outputs using Qwen3Guard-Gen-4B. В чате модель модерируется, так что бесполезно ее там мучать. Скачивайте безцензурную с хаггингфейса, правда там gguf нет. https://huggingface.co/talkie-lm/talkie-1930-13b-it
Ты удивишься, но он был. Маркиз де Сад в 18 веке основные произведения написал. Ему там конечно потом многое приписали в 20 веке сильно позже его смерти, но например "Жюстина" - точно подлинная его книга, опубликованная при его жизни. По нынешним меркам, к слову, там сплошной CSAM. Причем именно такой какой отыгрывают в этом итт треде.
Продолжаю КЕКать с 26b Геммочки умнички, да, с мозгом беда, но зато как старается. Ну и буквально спойлер того, как миссалаймент в конечном итоге приведёт к скайнету (пик2) :D
>>1600676 Как чтец Де Сада могу сказать порева там мало, но размышлений на тему: а хуй ли я держащий или право имею. Кстати, не унизите ли вы меня, прекрасная маркиза? Дохуя.
Я и представить то не могу каково это запустить 128б, мой максимум это 32б. Да ещё и новую. Одно знаю точно всякие челы с мишками и прочим красным калом пососут и это здорово
>>1600623 Таверна с минимальными допилами (не придеться ебаться с кодингом юза карточек): Настроить и отдебажить чат из нескольких карточек. Для проактивности вместо хода персоны хуйнуть какой-нибудь такой скрипт: 1. TRIGGER ROLL (Activation): - At the start of your turn, use this code: "{{random::1::2::3::4::5::6::7::8::9::10::11::12::13::14::15::16::17::18::19::20}}" - If the result is 1-7: Continue the story normally (No event). - If the result is 8-13: Time skip 7 day. - If the result is 14-16: Time skip 30 day. - If the result is 17-20: TRIGGER an immediate Random Event using the "Outcome Scale" below. 2. OUTCOME SCALE (If Triggered): Use the code"{{random::1::2::3::4::5::6::7::8::9::10::11::12::13::14::15::16::17::18::19::20}}" to determine what kind of event happens: - Roll 1-5 (Negative - Hostile/Unlucky): Severity: 1 is catastrophic, 5 is a minor annoyance. - Roll 6-14 (Neutral - Complication/Atmosphere): Examples: A confusing stranger (NPC) approaches, a delay, a misunderstanding, or sudden environmental changes. - Roll 15-20 (Positive - Helpful/Lucky): Severity: 15 is a lucky break, 20 is a miracle. 3. NPC INJECTION (Conditional): - Evaluate the Context: Does the event naturally allow for an observer or someone to interact with? - YES: You MUST spawn a new or recurring NPC with a unique name and dialogue. - NO (e.g., isolated location, internal conflict): Focus on environmental changes or sensory details instead.
Автонажималку кнопки в джба скрипте. Все. Авто-полотна кума или катастрофических событий готовы.
Поясните, почему qwen3.6 35B A3B в Q8, который нихрена не влезет целиком в 16 VRAM, работает быстрее чем qwen3.6 27B IQ4_XS, который полностью влезает?
>>1600784 3 токена в секунду скорее всего, если перенести мой опыт с геммой три. Потому что целиком он не влезет. Так что не еби себе мозги и качай 35б-а3б 3.6 в как можно большем кванте.
У меня тот же квант плотного на 20 врам с фулл врам на контексте 65к выдаёт 7 токенов, на 3к где-то 12. В общем, это фулл врам.
Теперь представь своё ебало, кода ты хоть один слой выгрузишь, что произойдёт.
>>1600782 Вот поэтому и нужен простой гайд для ретардов. Чтоб максимально быстро, просто и тупо. Ведь можно было этот вопрос задать сберчату, или Яндекс Алисе, лол, наверное, чтобы он ответил.
>>1600756 >Одно знаю точно всякие челы с мишками и прочим красным калом пососут и это здорово Если будет в llama, то не пососут, да и помнится мне чел с мишками и vllm собирал. >представить то не могу каково это запустить 128б С выгрузкой на ОЗУ, не токены а золото, раньше так и сидели в 1.5 токена, я для этого даже 96 гб ОЗУ покупал
>>1600761 Если фул ВРАМ то думаю даже 2-3 v100 хватит
В общем, Гемма тупая, официально. На суммаризации текста проебывает важные детали, которые сказано не проебывать. Помогает только ее носом тыкать в чекинг еще раз. 26b кванты номер 4 от Анслопов. MXFP4 и NL. Не знаю, у кого что там работает, на высоких квантах, у меня не работает на этих.
Гемма топ, но вот такой косяк объективный есть. Проблемы с вниманием отмечали уже другие аноны.
>>1600794 Хз. Я в шестом лардже запускал и внимание было хорошим. И мерумеру тоже в 6 накатывал, впечатления в целом позитивные. Всё ещё не квенчик, конечно, но всё-таки не самая плохая штука.
Тут многие гонятся за увеличением т/с а у меня обратный вопрос. Как снизить нагрузку на видюху? А то становится страшно за нее. По памяти всё вмещается и всё летает. Речь не про слои. Когда идет инференс, то проц видюхи загружается на 100%, виюха греется до 80, начинает гудеть как самолет. Можно как-то ограничить чтобы не на 100% нагружалась видюха, а на 80% например? Пусть это и замедлит инференс немного.
>>1600794 По поводу разницы в квантах. MXFP4 объективно получше, в плане работы с текстом. Слова меньше путает, лучше хватает терминологию и специфику. Но по мозгам, логике - абсолютно то же самое. Самое интересное, что по логике даже 3 квант не страдает, похоже. Чистое мышление, но больше проблем с языком.
>>1600801 >Можно как-то ограничить чтобы не на 100% нагружалась видюха, а на 80% например? Пусть это и замедлит инференс немного. GPU Power Limit / Undervolting
>>1600801 Сделай андервольтинг, как советуют. Скорость упадет на пару токенов, но тепловыделение значительно может снизиться. У меня на карте буст-частота 2800 на ядре, я скинул до 2600 на меньшем вольтаже, и разницы вообще нет для нейронок. Выше 60 ядро обычно не успевает даже прогреться на выводе текста теперь. Память в том же районе примерно.
>>1600814 Сам попробуй, будет тупить поменяй модель. У меня Qwen 3.6 27b Q6_K_M 200k Q8 и проблем нет. Инструменты успешно вызываются, под себя не срёт, и это всё на среднем контексте в 70-80к
>>1600812 Забей свою видюху в Гуг вместе со словом андервольтинг и почитай информацию. Или/и поспрашивай Gemini, Gemma 4, Qwen 3.6, они тебе в общих чертах точно все расскажут про андервольтинг. А может и в частностях.
>>1600794 >26b+4 квант Ну а хули ты хотел? Ризонинг то хоть не выключил?
>>1600801 >80 Это нормальная температура для многих техпроцессов, прочекай какой у твоей видяхи максимум. Некоторые амуды до ~94 могут безопасно греться например
Для меня последний босс в создании карточки это картинка. Мне картинкогенерация особо не интересна, а для чаров хотелось бы что-то симпатичное. Нашел воркфлоу для Анимы, вроде норм, но промтить влом невероятно. Может есть кто успешно промтит ллмкой? Как?
>>1600839 Ну кремний прям совсем без последствий до 71 греть можно. Сам я конечно нарушаю это правило и грею гпу до 85, но это уже с пониманием что немного жизнь им укорачиваю
>>1600772 бля, я тоже только недавно вкатился и твой вопрос привёл меня к пониманию почему все новые модели стали медленно работать, оказывается я A3B удалил. А они реально быстро работают
>>1600844 До 90-95 вообще можно греть без проблем, про 71 это доисторическая бредятина. Сейчас процессоры даже частоту не сбрасывают до 95, перегревом не считается. Датацентры с майнинг фермами жарят печки только в путь.
Другое дело что неприятно рядом с таким сидеть + шум, это да..
>>1600841 Норм? Можно ей скидывать результат что бы она понимала что нагенерила (просто так ей только отчёт падает)
>>1600850 Цоды не жарят до таких температур, даже фрикулинг залы холоднее + под фрикулинг специально железо выбирают (на работе группа для проверки собрана, гоняют нагрузки в термокамере, смотрят выживает/нет)
>>1600855 Как это отвечает на мой вопрос? Каким промтом ты собираешь теги или у тебя естественный язык, а модель работает с текст энкодером квена? Ты молодец что пофлексил, но хедпат не заслужил. Даже наоборот.
>>1600858 Просто говорю что делать и гемма делает. Для демонстрации этого и скидывал. Из того что нет в коробке с openwebui только тул который вываливает часть мануала от анимы https://pastebin.com/8amw22JX
Про флекс вообще не выкупил, на скрине есть лого owui, название тулов, результат
Какую конкретно гемму я могу запустить на такой связке, чтобы получить 128к контекста и быстрее чем 1 ответ в 5 минут?
Прямо полную строчку всех параметров для запуска в лламе или кобольде, и разжевать что делает каждый параметр?
И имеет ли смысл покупать 5060 Ti 16гб второй в пару к 5070ти, или разные видюхи будут плохо работать в тандеме? Материнку на x8+x8 надо менять, или x1-4 тоже подойдут слоты?
>>1600864 >Прямо полную строчку всех параметров для запуска в лламе или кобольде, и разжевать что делает каждый параметр? О как. Нихуево. А ты нам что?
>>1600862 Ну то есть Гемма и доки Анимы дают тебе результат. Хорошо, это уже какой никакой ответ. Я все же думаю, что нужен какой-то более осмысленный промтинг и подходит. Там всякие cowboy shot, dynamic pose и ко дают констстентно лучшие результаты.
>>1600862 Если руками модели рассказать про то как промптить аниму, то можно только стандартными средствами owui обойтись вообще без кастом тулов. Просто каждый раз неудобно копипастить в чат
>>1600844 >>1600850 Вроде как основной демедж не от самого нагрева (когда в пределах), а от перепадов резких, материал туда сюда расширяется-сужается и пошла пизда по кочкам. Тип если температура постоянная по большей части, то нормас, а если скачет от 30 до 80 каждые 20 сек то хуёво. Нейронки как раз такая хуёвая нагрузка с этой точки зрения.
>>1600875 Модели будут работать раза в 1.5 быстрее, если в фуллврам. Если выйдет в рам или мое, то результат смазывается и в конце сравняется из-за упора уже в озу
>>1600875 Держи ссылку на результаты бенчмарков. Там не полная картина, например v100 в реальности хуже 5060 ti, потому что скорости деградируют быстро по мере заполнения контекста. Но в рамках одной архитектуры можно сравнивать https://github.com/ggml-org/llama.cpp/discussions/15013
>>1600794 Это ты тупичка. Ты тестишь днищенскую MoE 26bA4 так еще и в 4 кванте, хотя МоЕ как раз более чувствительны к квантованию. Так еще из 4 квантов ты выбрал два самых уебищных. Бля, ну сколько можно писать, что IQ4XS <= IQ4NL ~ MXFP4 < Q4KS. Ты даже сам анслоп графики рисует
>>1600882 >хотя МоЕ как раз более чувствительны к квантованию Пруфы будут? Это все Геммы 4 плохо квантуются, а не мое. Впрочем 26б q8 и 31б q5 обе сосут у квена 27 q4 по вниманию
>>1600884 >Пруфы будут? Мимо другой анон. Ну ты сам подумай головой, когда активных параметров всего 4b (которые генерируют ответ тебе) чё там от них останется при квантовке если степень удара квантовкой по мозгам критически зависит от величины параметров.
>>1600624 Лучше поздно чем рано >>1600637 > тюнеры Там только один магнум норм был, и то поджаренный. А так одни слоподелы. >>1600756 Тут будет принцип суперпозиции сосания. С одной стороны на мишках оно запускается в тп, запускается, в отличии от тебя. С другой - модель жирная и требует компьюта, потому скорость очень быстро превратится в тыкву. >>1600761 Да любой, лардж катали вообще на 3х 3090 и было норм. Смотря насколько жирный там будет контекст и сколько его хочется, скорее всего в 128 гигов можно уложиться.
>>1600874 Всё верно, но процесс это долгий и надо лет 10-20 перепадами трахать чтобы как-то проявилось. Железо уже много раз потеряет актуальность за такое время.
>>1600875 За стоимость 5070 ti ты можешь практически купить две 5060 ti или если повезет две 3090! 32 (или 48 гб) VRAMA - это картингогенерация + moe-гемма в одной машине. Или фулл-врам c мелко-Moe почти со скоростью корпов. Или мелкие умные плотняши. А покупая одну 5070 ti ты получаешь ... просто игровой комп. Подумой!
Аноны, посоветуйте какую-нибудь мелкое мое, которую можно запустить чисто на CPU под лёгкие вспомогательные задачи? Условно - прочитай сообщения, кратко опиши суть.
GPU занято большой моделью и вот ищу что-то мелкое под фоновые задачи, чтобы большой модели не надо было постоянно пересчитывать prompt prefill.
Поставил opencode, подключил его к геммочьке 4 q4km c 40к контекста в кобольде, а оно не работает. По консольке выглядит будто opencode просит геммочьку ответить в нужном формате, а она тупенькая срет ему, и opencode уже на первых 100-300 сгенерированных токенах понимает, что с этой хуесосенькой не поработает и дропает соединение
Какую ллмочьку лучше подключить в opencode, если есть 22ГБ Врам?
>>1600893 Нихуя он не лучше квантуется. Во первых уже один раз обжегшись половину его блоков не квантуют вообще или по минимому через овеерайд в рецепте. Во вторых квены повреждаються по-другому - логику держат до последнего, а вот вывод привращается в слопо-квенизм. При применении в агентском цикле и программизме на квенизмы похую. Мелкие проебы квен за собой подчищает сейчас сам при повторном чтении кода. Ну подумаешь из-за заквантованного внимания проебал пару скобочек. Линтер его взьебывает и он правит. Для креатив врйтинга же мелкие кванты квена непригодны абсолютно.
>>1600911 Что бы не ждать ответа. Абсолютно всегда можно понизить нагрев снижая павер лимит, но вот просто так тпсы с неба не падают. Между 16 тпс и 25 так то нормальная такая разница для плотной геммы
>>1600801 Если хочешь сделать хорошо - обслужи систему охлаждения и организуй нормальную циркуляцию воздуха внутри корпуса. Далее - можешь настроить андервольтинг, потеря перфоманса будет 5-10%, а по потреблению и теплу 20-30. Ну и самое главное - измени свое отношение к вещам и этой жизни, бойся реальных опасностей и проблем, а не трясись по ерунде. >>1600902 Он все еще такой же бесполезный, или наконец сделали? >>1600914 > один раз обжегшись половину его блоков не квантуют вообще Это справедливо для всех моделей задолго до квена. Но если говорить про него - там линейный атеншн очень жирный, и если открыть популярные кванты квена - он часто в фп8, и все равно норм работает. > подчищает сейчас сам Еще в 3м было, и распространялось также на рп, косяк обращало в художественный оборот > Для креатив врйтинга же мелкие кванты квена непригодны абсолютно. Есть такое.
>>1600927 Если он у тебя был включен - то это просто эпический ЛОЛ. Выключай! Твоя ЛЛМ не просто отупляется к моменту вывода. Она даже забывает как какать
Потестил бегло фронт от Маринары (автор немомикс анлишед). Ну що тут можна сказати. В сто раз лучше таверны.
После него таверна ощущается хуже веб-интерфейса чат гпт, просто живое омерзение без функционала и с тонной бесполезных, устаревших и криво работающих функций, кроме самих базовых. Вот на контрасте вообще нет разницы между таверной, ебаным кобольд лайтом, голым чатом. Это как локально дипсик запустить в полной точности, а затем в мистраль 24б потыкать. Такие чувства.
В его фронте всё из коробки и довольно хорошо организовано, не нужно лепить химеру, если хочешь большего. Тонна агентов, ролей на все случаи жизни и так далее. С такой обёрткой даже маленькие или слабые, а также старые модели, которые хороши по датасету, но в остальном хуйня, получают новую жизнь. То есть можно гонять все эти ваши 26-31 геммы или 27 квен или даже мистраль 12б, получая куда более крутое качество, потому что в контекст не превращается в груз и грамотно используется, а размышления модели на тему того, какой ответ тебе дать, полагаются на ключевые факторы истории и последние n токенов. Впрочем, при желании вы можете настроить как угодно. Вариаций крайне много. Но главное, что очень легко контролировать состояние модели и не надеяться на авось или свайпы.
Однако есть чудовищные минусы, вытекающие из плюсов.
Если вы задействуете тонну полезных агентов, которые действительно бустанут качество, из-за их количества придётся пересчитывать контекст. То есть нужен миллион чекпоинтов в лламе или слотов смарт кэша в кобольде. В кобольде более просто и интуитивно это работает, по ощущениям лучше лламы пока что. Однако их наличие не означает, что всё пройдёт гладко. В какой-то момент вам прилетит в ебало 100к контекста, который нужно пересчитать, и это случится быстро. И может возникать хоть три раза подряд, если отдать на откуп автоматике. А зачастую вы захотите это сделать ручками, чтобы получить ответ как можно круче.
Выход только один — использовать сразу две модели. К примеру, мелкомое кал (35б-а3б/26б-а4б в 8 кванте) и денс. Мое почти полностью в оперативке, денс только фулл врам. Автор, видимо, в основном корпов гоняет, судя по его риторике про то, что лучше использовать опус и гемини для агентской работы, и советует 4б гемму вместо агентской локалки, но я очень сомневаюсь, что она справится с такими задачами.
Агентам постоянно нужно обновлять базу, ризонить. И ещё ответы писать. Следовательно, вы будете получать стандартный ризоинг квена на 3к токенов, когда агенты почти не используются, а во время обновления состояния суммарайзов, статусов, миллионов списков, цифры ещё выше + ожидание промпт процессинга. Мне иногда АНАЛитический промпт на 5к токенов прилетал + модель писала на него ответ, сохраняла, а затем пересчитывала контекст так долго, что можно пожрать успеть.
А ещё меньше 50-65к контекста ставить затея плохая, если у вас РП годное, а не подрочить на пять минут. Но и для дрочки есть свои приколюхи я сейчас не про контроль вибратора через тулзы, которые дают прикольные твисты и более качественные описания.
Короче, сложный выбор. Чтобы работали все свистоперделки, нужно хотя бы 30 тс, 2000 батч, а лучше промпт процессинг как у корпов и максимально высокая скорость работы. Но те, кто могут себе это позволить, обычно могут позволить модель побольше. И они выиграют, даже если у них будет 5 тс на этой модели, потому что сама модель хороша. И потому что им не придётся ждать пересчёт контекста, работу агентов. По времени будет плюс-минус одинаково, а вот по качеству — нет. Оркестратор даст серьезный буст по логике, количеству трусов (сняла и надела), стилю текста хоть для каждого абзаца. И отрегулирует длину текста под сцену адекватно: может быть одна реплика, может быть полотно, если уместно. Можно самому настроить. И ваншотнуть тебя могут. Никаких неадекватных биасов, а ещё можно хоть 10 персонажей воткнуть с карточками по 2к токенов каждый и получить полностью не шизоидный ответ, с учётом личности каждого из них, плюс шикарный нарратив. Агенты чрезвычайно сильно повышают качество рп и ничего не ломается даже в самых сложных сценариях. Но на мелких моделях и датасет мелкий. Они не выдадут синему. Зачастую лучше синема, а не логика как у калькулятора.
Для нищебродов ситуация ещё ситуативней. Ждать агентов, пока они там пишут полотно на 5-10к токенов/обрабатывают промпт подобных размеров на более мелкой модели? Хуйня затея.
Но мне кажется, использовать можно, если реально найти баланс: самому запромптить агентов без гига промптов аатора, протестировать всё это, потратив эдак недельку. Оставить только самое нужное, удалить лишнее.
Вот в таком случае это будет идеальный фронт для нищуков или любителей 10 минут подождать ответ на жире. Жир даст ещё больше качества, мелкомое заиграют новыми красками, ибо будет быстро, без шизы, стиль и подача фиксится на лету для кума/боя/повседневки/чего угодно, гемма не полезет в трусы от того, что ты посмотрел на бёдра, а Серафина пошлёт на хуй, даже если вы используете самую апасную модельку или что-то уровня редиарта.
>>1600844 От техпроцесса зависит, говорю ж. Например печально известные фуфыксы на 32нм троттлились на 65 градусах. А 14нм от GlobalFoundries аж около сотки держал без долговременных проблем(94 или 96, чото вроде того)
>>1600934 Чел там искаропки при запуске по умолчанию стоит использование опенроутер фри и рандом модель из фри сета. Ты можешь повесить на агентов эту хуйню. Это всяко будет лучше. А для основною юзать свою плотную. Не еби мозги и просто изаю опенроутер фри. Там нет лимитов и никаких ключей не нужно, всё уже настроено.
>>1600934 Вывод - говно без задач. Тот же кобольд - максимальная простота, для скорости и качества. Кто любит минимализм и мануалочку. Таверна - есть минимум автоперделок для удобства, но все еще остается скорость. Оптимальный баланс. Тут же какая-то жесткая ебля для красноглазиков без очевидных выгод и с тормозами, где почти все вкатуны, не готовые тратить на эксперименты месяц, получат только негативный экспириенс.
>>1600926 В лламе, а в кобольде вроде как по дефолту галочки стоят. Насколько же автор ненавидит своих пользователей что такое делает. >>1600929 Режим горизонтального сплита тензоров в лламе с незапамятных времен, но работает через жопу на любом железе. Если обновляли то хорошо, интересно что там накрутили.
>>1600553 Охуенное решение с одинаковыми значками для разных сеток (нет). >>1600566 >Вот с этого гайда на хабре вкатился с 0 знаний в 24 году Ебать ты герой (пикрил 2).
>>1600945 row изначально и предполагался как аналог тс, можно откопать коммиты на него. Но не задалось и получилось что-то уровня контекстшифта. Про тс в первую очередь интересно как он работает с выгрузкой. Потенциально это может превратить страдание с вечной обработкой контекста во что-то условно юзабельное.
>>1600519 Так не юзай таверну, это для прошаренных. Есть божественный кобольд лайт, где все просто с ходу и можно даже свои апдейты лепить себе по вкусу через любую ллмку.
>>1600882 Нахуй они вообще говно это тогда выпустили, лол? Просто, чтобы букав было больше? Я ориентировался на то, что MXFP4 - хорошее сжатие. Я про это читал еще во времена GPT OSS, подробно. Правда, там плотная модель была, вроде. А тут это.
Другие аноны и с большим квантом писали, что есть проблемы, в любом случае. Контекст у меня, кстати, смешной вообще, 10-15к.
>>1600954 >MXFP4 - хорошее сжатие >GPT OSS ... плотная модель Господи, что ты несёшь... MXFP4 хорошо себя показывает на гпт отсос лишь потому, что модель нативно тренировали в этом формате. И да, она 10 МОЕ из 10, буквально 5B пососных параметров.
>>1600957 Хорошая модель для своего формата и для своего времени, не пизди. Не у всех сервера есть монстров запускать. Может быть, про тренировку прав, не вникал.
Карочи, у меня NL на 40 токенах ездит, можно поправить все косяки потом, а не ждать сразу правильного ответа. Сасай)
Я блять не знаю что ещё придумать, моделей для геймерского пк больше не будет, всё выходит в 300б. И нет не быть нищим тоже не вариант, будь я наносеком так же бы зажал х6 переплачивать за рам зная сколько она стоила. Никакого просвета нет в этой хуете, железки продают жадные пидорасы, иишки клепают под тех кто уже успел всё купить
>>1600970 Сейчас есть нейронки буквально под любой конфиг, начиная с телефонов и стареньких кудахтеров на пеньке с ддр3, заканчивая полноценными ригами. Так что толсто, иди нахуй.
У нас в треде сидят челы на 8+32, 12+16, 12+32, 12+64, 16+16, 16+32. И я сам врамлет с 48 рамы. И ничё, разложил плотняшу в пятом кванте в 20 врамы и довольно урчу. Нахуй вам облизываться на двухтеребайтные кими, что вы там хотите найти? Запах озона? Мускуса? Чего-то сладкого? Твёрдого но мягкого?
>>1600970 >Я блять не знаю что ещё придумать Попробуй в агенты. Переложи часть функций на парочку лоботомитов которые в ОЗУ будут жить. Например развитие сюжета. >всё выходит в 300б Ну или коупи тем, что 300b это лоботомит не далеко ушедший от Геммы и настоящий РП только на 700+ которые тут 2,5 человека трогало. >х6 переплачивать за рам Зачем для 300b РАМ? Собирай ВРАМ, всего 10 5060ти по цене как одна геймерская 5090
>>1600986 >3.5 квен лютая кум-машина, еще и умненький при этом. Небось тюны-лоботомиты нужны которые без CoT только работать могут. Я пробовал стоковый несколько раз и там прям сложно.
>>1600992 Я пробовал с контекстом в 30к набитым как космический приключенец ебал нативных кошкодевочек на планете динозавров заманивая их колбасой в ловушку. Квен вообще не вдуплял что ебать пора и усиленно пытался совать колбасу в рот, а место хуя в вагину.
Если команда -fit это для нубасов, то как лучше сгружать тензоры во vram? То есть все общие тензоры вроде attention, dense и shared exps едут на gpu, а вот как лучше выгрузить экспертов? Нет разницы между выгрузкой по блокам, должны ли слои быть полностью во vram или можно выгрузить ffn_down? И как тогда следует приписывать выгрузку, если немного не хватает памяти или не хватает половины?
>>1601024 А кэш засунуть в одну карту лучше? PP вырастет от этого, если на карте будут общие блоки, кэш и часть экспертов, а на вторую карту выгрузить оставшихся экспертов?
Мне кажется я больше не люблю этот тред. Либо это с опасной модели столько набежало, либо с асига, но тут никогда бы не сказали что сраный квен кум машина. Всегда это была сухая срань запустил разок и забыл. Вспомнили о нем лишь когда 235 вышел.
>>1601036 >Мне кажется я больше не люблю этот тред. Это просто замечательно. Мы тебя никогда не любили. Сделай хорошо и нам, и себе, и не заходи сюда больше
>кэш засунуть в одну карту лучше Жора и так контест будет считать на одной карте. Cмотри нагрузку во время PP >на вторую карту выгрузить оставшихся экспертов Не надо так.
Простой moe на нескольких картах
-ts 40,8 --n-cpu-moe 20 Цифири понятно надо пердолить.
Малоизвестный хинт set CUDA_VISIBLE_DEVICES=1,0 - меняет местами видимость карточек в жоре. Первой можно поставить более мощную или менее занятую (виндой например.)
>>1601031 >мультимодальность на цпу, но это буквально пытка Новые картинки в чат редко кидают, так что обычно проблем с этим нет. Но если чел каждый раз шлёт аудио, то да.
>>1601058 Но если напороться на фулл репроцессинг с чатом на картинок 20 и сотню контекста, то это сразу баунс в окно будет. Приходится удалять картиночки с хвоста даже при фулл гпу
Вопрос к тем, кто застал эволюцио современных (2022+) чатботов с самого начала
Вы вообще хоть какую-то эволюцию чувствуете? Мы движемся вперед или топчемся на месте? Я ща просто сравниваю 3 и 4 гемму в рамках простых "болтальных" задач, и как-то нихера почти отличий нет.
То же самое с всеми этими квенами (от 2.5 до 3.6), мистралями. Пробую разное - и как будто пью Пепси вместо Кока-Колы (однохуйственно газировка). Когда подадут изысканное вино 9999-летней выдержки? Где настоящий прогресс?
>>1601099 отличия есть. движемся вперде. gemma4 31b это конечно не первая версия characterai, но уже близко. думаю уже к 5 или 6 версии можно будет получить примерно тот же экспирианс.
>>1601114 Ну это модель +- квен 3.5 397b, но при этом в 3 раза меньше и ощутимо медленее, потому что плотняша. Т.е. чисто для врамобояр, рамогосподам она не нужна
>>1601099 У Геммы 4 ризонинг появился, ты сравниваешь весельную одноместную лодку с яхтой, когда ставишь 3 и 4 рядом. Гемма 4 - это новый стандарт домашней локалки для среднего ПК. Скорость на МоЕ, ум, внушительные знания для своего размера.
Не, ну для дрочил и прочих РПшеров может оно все так же и осталось примерно, все тюны перепробованы, все переебано, карточки перебраны, ничего уже не вставляет, все сетки скучные. Гемма - просто очередная тупая болталка без фантазии. Но лед давно тронулся, а они все на той же льдине у берега сидят.
Все модели одинаково тупят. В чате персонаж снимает труханы, потом через пару сообщений снова их снимает. Очень большой прогресс. Модели как были тупыми, так и остались.
>>1601134 >для дрочил и прочих РПшеров может оно все так же и осталось примерно, все тюны перепробованы, все переебано, карточки перебраны, ничего уже не вставляет, все сетки скучные Но ведь последнее утверждение совершенно верно. Если ты жёстко рпшишь, причём многослойно, с обширными лорбуками и прочей хуетой, то... ну бля, какая модель сможет удивить? Только такая, что будет строго на рп натаскана. Какая-нибудь мистраль 50б, которая будет идеально писать тебе охуительные истории, при этом вообще не вдупляя в агентность и прочие обычные нейроштуки, только рп. Тогда наверно да, бровки подпрыгнут. А так хз чему радоваться. Вон тюнеры сейчас вообще игнорят новый квен, слишком похож на старый, ничего нового. Всё так и есть. Ничего нового.
>>1601149 > тюнеры сейчас вообще игнорят новый квен, слишком похож на старый, ничего нового Шиза как она есть. На 3.5 вышло немало тюнов, часть из которых отличные. На 3.6 смысла нет делать, ибо он замаксен на агентов и код (как будто что-то плохое, на самом деле нет). 3.5 уже был хорош из коробки, но некоторые местные обитатели настолько беспомощны, что не понимают как с ним работать. Тут на помощь приходят тюны, которые и длину ризонинга сокращают, и не аположайсят (я ни одного не видел даже на инструкте). 3.5 Квены это лучшее, что было с Квенами в плане креативных задач аж с QwQ. > Всё так и есть. Ничего нового. С тех пор как МоЕ модели стали обыденностью, действительно не было концептуально новых вещей. Но я вспоминаю, как вкатывался полтора года назад, что получал в пределах 32б параметров, смотрю на текущие Квены и Гемму, и вижу вполне заметную разницу. - Контекст стал гораздо легче. Квен его еще и держит просто замечательно, не теряя важные детали и развивая их. - Лучше следование инструкциям. Меньше генерализированных ответов. На почти всех моделях, которым сейчас год и больше, спустя каких-нибудь 15-20к ты рпшил уже не с чаром, а с чем-то обобщенным. Потому что внимание к контексту было плохим, на моделях до 32б точно. Попробуй запустить Глм 32б или Мистраль 24б, одну из первых итераций. Очень удивишься. С Геммой даже не знаю чего и сравнивать, в моих юзкейсах третья отправилась в помойку сразу же. Четвертая хороша для некоторых случаев, причем даже 26б МоЕ. 26б МоЕ вообще мини-революция, в приличном кванте даже на нищенском железе можно запускать и получить невиданный ранее на локалках до ~50б опыт. Сравнивал ее тут недавно с Немотроном 1.5 49б в Q4, и вот в креативных тасках Гемма 26б лучше. На русском языке у нее и вовсе конкурентов нет.
Считаю, что вы зажрались и избаловались всем тем, что вам доступно. Берите перерывы, не живите только этим, работайте над промптами, подходами, подрубайте агентов если совсем скудно все, инжектите инструкции. Выходов много, было бы желание.
Потестил Мистраль 4 на новой ламе. И он действительно заработал. Вот тесты из под винды с памятью в притык. Если кто помнит, то раньше это чудо работало с 50тс на обработку контекста и вообще зависал. Сейчас вроде все норм
>>1601138 >>1601140 Вы вообще, понимаете, что такое Гемма 4? Это карточка за 50 косарей, которая в среднем умнее большинства людей по совокупности знаний и логики. Вы понимаете, что какой-нибудь замшелый комп с 16 Гб рамы на борту и вялой 3060 12 Гб теперь уже умнее соседа? А может и умнее вас? И это не шутки нихуя. Она делает практические задачи. Вот банально, берешь и просишь ее по компу помочь. Или ещ что. Берет и делает. Спросишь - отвечает. Представляете, что через год будет? Да, трусы она может и 2 раза снимает, и 3, не ебу, но это не специализированнная на РП модель, это УНИВЕРСАЛЬНАЯ ОХУЕВШАЯ БЛЯДЬ ПИЗДАНУТАЯ МОДЕЛЬ. Конченая. Але, дяди, блядь, просыпайтесь! Мир в труху!
>>1601167 Новый это 3.6, шизопропеллен, блять. И да, ты сам говоришь, что его не тюнят, т.к он говно не подходит. Ждём квен 4. >26б МоЕ вообще мини-революция Ладно, тут согласен. У меня брови вверх поползли, когда я увидел, как хорошо она щёлкает инструкции. Но я и квант брал шестой лардж. Может в квантах поменьше она тупица.
>>1601180 Да, в 4м кванте или мхфп у геммы 26б начинаются проблемы. Моим тестом была рецензия на зеленый слоник и я проверял правильность имени режиссера, 4й квант заваливал этот тест
>>1601180 > Новый это 3.6, шизопропеллен, блять. И да, ты сам говоришь, что его не тюнят, т.к он говно не подходит. Ждём квен 4. Во-первых ты ноешь, что нет тюнов на модель, которой нет недели. Во-вторых, это практически Qwen Coder. Ты хотя бы читал описание линейки 3.6? This release delivers substantial upgrades, particularly in "Agentic Coding: the model now handles frontend workflows and repository-level reasoning with greater fluency and precision." "...an ideal choice for developers who need top-tier coding capabilities at a practical, widely-deployable scale" Не говоря уже о том, что это и не новый Квен, а файнтюн поколения что вышло 2 месяца назад. Только дай повод поныть. Тебе самому не противно?
>>1601155 Страшно ibm модели далеки от народа. Кодеры из них были так себе. Русик хуже чем у квенов. РП ? Ну если только офисный сабмиссив и унижения отыгрывать! Потрахушки с Лотусом и Экселем.
>>1601178 Да, это угар. Они/мы тут реально зажрались, нормисы еще не понимают что их может заменить в бытовом плане средний игровой комп с запущенной нейронкой, он будет в среднем умнее и знать больше вещей. В редких случаях проебываясь в знаниях и решениях требующих настоящий человеческий опыт. Напоминаю что большая часть людей на планете имеет iq 100, и за пределами узкой специлизации-работы человек может не знать и не уметь нихуя. Я бы даже сказал ничто не мешает нихуя не уметь даже будучи средним специалистом.
>>1600953 Ускорение неотрицательное, уже круто. Вот с такой штукой на паре вольт с nvlink уже интересно потестить. Обработка что-то ну совсем печальная. >>1600970 Достаточно быть или не нищим, или не глупым. Долгое время рам продавалась за копейки, новые платформы стоили ерунду, можно было бюджетно взять зеоны и эпики. Но ты терпел, чего-то ждал, на что-то надеялся, на что? Был момент с очевидными новостями о подорожании, когда можно было запрыгнуть в последний вагон, почему тогда сосал бибу? Было окно в 3+ месяца когда 32гб вольту можно было купить менее чем за ~40к на майлсру, почему игнорировал? 3090 годами стоили дешман и только сейчас подорожали, брать их - корона давит? И это не говоря что за годы можно было устроить свою жизнь чтобы быть способным позволить себе траты на хобби. Живи в проклятом мире, который сам создал.
>>1601183 С включенным ризонингом она точно помнит что там было надето. Буквально чекая контекст в ризонинге. Периодически выхватывает детали и из более старого контекста. Играл до 60 тысяч на гемме потом она задолбала - переключился на квена. Для перчика.
>>1601195 ну тут мистраль просто не обучалась на наших датасетах. т.к. гемму обучал гугл, то у него датасет из всего интернета, про наши упячки и удавы она тоже знает, как и про тарелочниц
>>1601197 Больше забавляет то, что это случилось настолько тихо, что почти никто и не заметил. Слишком много информации вокруг, просто потонуло общем в шуме. Гемма 4 - это milestone. Может быть Квен еще, но он тормознутый, в этом проблема. А МоЕ туповата, это ассистент-программист. Да и датасет у них уже, чем у Геммы, это точно.
>>1601202 Я другой анон и тут точно согласен, одежду и наличие жидкостей на ебале в ризонинге обычно отдельной строчкой тречит, НО. У геммы 4 31б (в к6, по крайней мере), совсем разъебано пространственное мышление, а точнее положение тела. Если визуализировать все позиции, в которых персонажи находятся в рамках одной сцены, там такой боди хоррор получается, что лучше даже не представлять. И это очень сильно выбивает из секс-сцен. Плюс, полная безотказность любых персонажей - тоже хуета.
У квена с этими двумя проблемами получше, но общая думалка на длинном контексте в сложном РП мне гораздо больше понравилась у Геммочки. Что мне НЕ понравилось, так это длина ризонинга, которая спокойно уходит в 5к+ даже с prescense penalty 1.5
>>1601099 Чувствуем. Если раньше требовалось высиживать пигму чтобы она кивнула, то сейчас можно воротить нос если модель плохо поняла связь между твоим намеком и прошлыми действиями 100к контекста назад. > в рамках простых "болтальных" задач С ними и самый первый мистраль 7б справлялся хорошо. Разница будет если болтать много, долго и о сложном. >>1601114 Этот бенч вообще насколько представителен?
>>1601210 >У айкью нормальное распределение. То есть 50% людей имеют IQ ниже 100. Там неплохой такой горб, забыл как это называется в статистике. Но да, это и имелось ввиду, большая часть людей имеет icq 100 именно поэтому. На сколько помню то же 130iq уже то ли 5 то ли 10 процентов.
>>1601187 Прошло семейство хвалили на Реддите как суммаризторов. Даже мелкие модельки вроде справлялись хорошо, при том, что нихуя ресурсов не требуют почти. Может здесь тоже что-то вроде hidden gem.
>>1601211 >Этот бенч вообще насколько представителен? Настолько же, насколько и все остальные на 0 процентов. >>1601213 Хороший бек вырежет повтор токена. >>1601215 >На сколько помню то же 130iq уже то ли 5 то ли 10 процентов. 2% на самом деле.
>>1601219 >2% на самом деле. Уровень IQ Уровень интеллектаПроцент населения > 130Очень высокий (одаренность)2,5% 120–129Высокий7% 110–119Выше среднего16% 90–109Средний (норма)50% 80–89Ниже среднего16% 70–79Пограничный уровень7% < 70Низкий (умственная отсталость)2,5%
2.5% однако
Никто не помнит вроде где то графики рисовали сколько то там iq набирают нейросети на комбинированных тестах чего то там. Помню видел где то в новостях, но не помню о чем там речь. Помоему порог в 100iq уже прошли
>>1601223 Ну ты же понимаешь, что это яблоки с апельсинами? Попробуй любую нейруху заставить играть в вов. Как ты это сделаешь вообще? Тем не менее, в него любой дегенерат спокойно играет.
>>1601226 А там именно IQ нужен, чтобы играть? IQ - это тест на умение в абстракции, умение в логические связи и построения. Чел, который играет в Вуф там может ничего не понимать, он по гайдам играет, а клиент ему друг настроил. Он зазубрил, запомнил общие паттерны, но не понял их, не знает всех связей, у него нет системного видения игры. Это другие механизмы, короче, если оно с IQ коррелирует или часть его, то это точно не весь IQ.
>>1601229 Я тебе пытаюсь сказать, что модель с айкью 130 нельзя сравнивать с человеком с айкью 130. Это буквально разные формы интеллекта.
Не заменишь ты никакой нейрухой даже алкаша в бытовом плане. Это, блять, разные вещи абсолютно. Чтобы играть в вов, у тебя должна быть не большая языковая модель, а, как говорил Ян ЛеКум, мировая модель. Одним языком ты разве что кодинг можешь решить.
Да, Гемма меня разъебет в коде, потому что я этим только на первом курсе универа занимался. Но я ее разъебу в том, чтобы логично описывать положение персонажа в пространстве, блять, а не ломать им шеи, когда они в одном предложении уперлись носом в подушку в позе "собака мордой вниз" и начали лизать мне сосок при этом, пока я их ебу в жопу.
>>1601207 >разъебано пространственное мышление можно попробовать через карточку/промптинг акцентировать на этом внимание модели. Вместо каких-нибудь "Onomatopoeia" задать разделы для body-сцены.
>>1601246 Я не он, но ты прав. Естественно алкаша Гемма не заменит в полной мере. Пока может только частично. Например, если человек дуб в сантехнике, но смелый, можно уже пробовать заменить алкаша-сантехника. Потому, что базовую теорию Гемма даст. Да, алкаш все еще задавит ее своим опытом и перегаром задушит, но даже этот стойкий люмпен уже немного сдает свои позиции под натиском ИИ на рядовом компе. А скоро еще доступные роботы появятся. Какая-нибудь Гемма 5-6 в таком случае просто коориднатором и страховщиком сможет выступать, например.
>>1601219 > Настолько же, насколько и все остальные Ну не надо, если малые отличия среди моделей - случайная флуктуация, то существенное занижение у отдельных говорит о том, что они просто слабы. А в этом кажется будто если подвигать окно тестирования то результаты изменятся на противоположные и весь бенчмарк - чистейший рандомайзер.
>>1601263 >то существенное занижение у отдельных говорит о том, что они просто слабы А если тренировать на бенчмарках, то можно получить лоботомита со 100% прохождения тестов.
пацаны, что бы такого запустить на 50-60 гб размером? Плотную модель. Само собой для кума. Желательно модель без зрения, чтобы была чисто текстовой. Копрогемму не предлагать.
Как же хочется отпиздить дегенерата Qwen 3.6 27b. Сука. Ему говоришь - вот тебе рабочее решение, можешь скопировать. А он - нет я буду пытаться улучшить свое прошлое решение. Я ему - твое решение говно. А он мне - я не понимаю твое решение я буду делать свое. Я ему - ты тупая обезьяна, ты раз за разом делаешь тупые ошибки. А он мне - ааа я все понял, я тупая обезьяна, я прочитал десять раз и наконец понял логику юзера. И наконец сделал как я говорил ему изначально.
>>1601307 Хз что там в лламе накодили, но тп просто выжимает видяхи в 0, обычно префилл жрёт как не в себя, а тут наоборот. ПП как уже сказал тотальное 🥀 Да и тп в 10 под сниженным лимитом как то ≧ ﹏ ≦ Контекст влезает все 256k
>>1601314 > Вавилончик Он самый, грею балкон. Нужно разобраться что они там с шаблоном накрутили, что с цензурой, а там и кум в котором я почти не шарю. Мультимодалку пока в жору не воткнули. Жду awq4 что бы в вллм вкрячить, там обычно с порога всё как у людей
>>1601106 Не ну, мистраль как мистраль. Лардж на максималках с налетом современных трендов - огромные полотна избыточного шизоризонинга по запросу присутствуют. Знания медиа на троечку, отсылки на культовые цитаты плохо понимает, шаболд и популярных канни из гач и тайтлов четко описать не может, путается. Зато зеленого слоника знает, ну ахуеть. На всякие рофлы отвечает неуверенно > Пешком, конечно! 50 метров — это же два шага для тебя. Заведешь машину, проедешь — и уже на месте, а времени уйдет больше, чем если просто пройтись. Да и бензин сэкономишь~ Трахать йокаев с документами - можно, но только если документы настоящие а не подделка. Что-то спрашивать в чате как у ассистента - ленивая скотина, ответы короткие и нужно все тянуть клещами, полотен с подробными разъяснениями как у других не будет без доп промптов. Возможно именно поэтому у них в темплейте то еще шизопромптище. Знания библиотек и прочего в кодинге не самые свежие, не особо верится что оно сможет что-то показать в вайбкоде, но потом надо будет проверить. По рп нужно больше тестов. В готовых чатах несколько довольно ахуенных сообщений, которые кажутся вот прям ровно такими, какие должны быть. Причем в ризонинге пройдясь по большому временному промежутку, даже отметив пожелания по стилю и замечание из ooc 180 постов назад. В общем, потанцевал что надо, скорее всего свою нишу в рп-ерп займет. Довольно интересно как поведет себя на агентном ассистенте, но нужны кванты. Из забавного - в некоторых рп чатах синкинг ломается, модель сильно вживается роль и буквально начинает думать как персонаж, это выглядит забавно. Обычно, такого поведения необходимо промптом добиваться, а тут само.
>>1601353 Ах да, кум солидный и льется рекой, но с мистралем это очевидно. В ризонинге вживается в роль и описывает свои эмоции и как лучше угодить юзеру. >>1601362 Извинись! Лягушонок старается изо всех сил, он не глупый.
>>1601366 Это когда уже трахаешь Okay… okay, Doctor is finally inside me… It hurts a little, but… but it also feels… warm? and full… Oh! His cock is so big inside my [] body… It's stretching me, stretching me so much… But… but I trust him. He said he'll be gentle. So I need to be brave! >>1601368 Кадлиться еще отлично. Кажется что он не теряется и не путается на большом контексте как лардж, вполне можно побеседовать. Еще бы на датасет не жидились и знания были, а то ведь он реально по ним мало отличается от смола4. По соображалке и вниманию офк впереди, но это ограничение удручает. На крупных моделях можно буквально в рп сесть и начать смотреть популярный фильм, и оно пусть с небольшими ошибками буквально перескажет то что происходит на экране. Сожно напугать, подколоть, или как-то еще взаимодействовать с чаром в рамках этого контекста, обсудить сцены и сюжет. А тут хрен.
>>1601373 >… >… >… >… Боже, какой ужас. Впрочем, все модели этим страдают, и процент ответов с ... растёт в геометрической прогрессии по мере наполнения чата.
>>1601364 Докажи. Запости чё-нить сложное, чтобы нужно было знать инфу в контексте повествования. Чтобы какая-нибудь херка мощно прошлась по своим любимым группам или сорта. >>1601368 Трахать можно и гемму. Из неё вышел нормальный кумбот.
Чуваки, кто знает какие локальные модельки норм подойдут для агентного использования? Грубо говоря в прогу вставить её чтобы она какую-то работу совершала по подробному промпту с инструкциями и возвращала данные обратно в json? 6гб врам 16гб рам, пробовал qwen2.5-coder, phi4-mini, gemma4:e4b, достаточно шустро работали и с базовыми запросами справлялись, есть ли какие-то модельки которые специализированно обучены на такой вариант использования? Мб ещё дополнительно RAG к модельке подключить чтобы компенсировать маленькое количество параметров?
Кто вообще таким занимался, или тут только дрочеры которые порно фанфики генерируют?
>>1601470 Как всегда насрали себе в штанишки. Потом пойдут на реддит рассказывать какая ллама плохая а что это не они обосрались, пытаясь сделать пук первее всех
>>1601417 А что сложное нужно? > какая-нибудь херка мощно прошлась по своим любимым группам или сорта Чтоэта? Тоже так хочу >>1601494 Да, оно относительно старенькое. Лучше чем в девстрале, но на модель 26 года не похоже.
>>1601538 Обсуждали в районе нового года вскользь. Типа блеквеллы требуют открытый драйвер, а вольты только закрытый, потому им вместе не быть. Но никто просто не ставил их вместе, тут блеквеллы у единиц есть. Кажется что должен существовать способ их подружить, но он будет очень нетривиальным. А что собирать хотел?
>>1601546 Я 5070ти решил приобрести недавно, скидки были, но для картинок. Думал попользоваться баренскими нативными вычислениями в fp4 (правда, чет пока движуха тухлая по ним, в нунчаках, которые вроде более-менее адекватные кванты дают, нет ни вана, ни лтх). А так у меня давно уже все собрано на амперах и старше. Без вольт очень печально будет, у меня на них гемма сидела в качестве промпт энхансера
>>1601551 Ван точно есть в nvfp4. Найди минимальную сборочку из мусора в загашнике или чего-то дешевого, и в нее воткни вольты. Как раз гемму/квена/еще что-то в том размере держать постоянно запущенными.
Поясните плиз тупому нубу. Есть у меня карта 4070s которая торчит в mini ATX плате. В ней есть еще место снизу PCI Express х 16 под вторую карту. Если допустим прикуплю 3060 (подойдет ли?) или 5070 можно будет распердолить ламу (плотные модельки) чтобы збс скорость была ? Или допустим Comfy генерацию(wan , flux) ? Нейронка говорит что я долбаеб, а в мини атх ставят 2 карты только дауны т.к режется скорость из за ограничений скорости пси и надо брать ATX плату полноценную
Первые два скриншота — это дипсик про, предпоследний — флеш. Он дерьмо. Максимально ассистентская параша.
Я попробовал ещё с семплерами поиграться, но настраивать надо долха, ибо любой язык, кроме английского и китайского, сразу модель в разнос пускает и нужно ковыряться и свайпать. Кстати, вывод тоже очень детерминированный, близок в этом отношении гемме. И без ризонинга ощутимо тупеет, но текст приятней.
Прям печально очень выглядит всё для моделей таких размеров.
Сконнектился с официальным апи дипсика. Кол-во токенов где-то за 5 минут тестов с карточкой, парой сообщений и систем промптов, пиздец просто. И это ещё по скидке. Потом будет стоит 3,48 долларов за 1 млн у про и 1,74 у флеш. А учитывая, как пишет флеш, даже не знаю, есть ли смысолы запускать его локально для РП или пердолить риг ради него. Он реально слаб.
Такой рофл спросить что-то у квантованной Геммы локально, потом спросить то же самое у Геммы на Арене и получить две трети ответа оставшуюся треть локальная Гемма потеряла почти слово в слово. и в десятки раз быстрее
>>1601538 Шта? Ну и жопа, я как раз собирался на майских собирать риг из 2 v100 и 2 5060ti. И что теперь делать? Если бегло прикинуть, то можно отселить 5060 в виртуалку и подключить их через рпс. Но тогда вопрос с выгрузкой через ot. Карты подключенные по рпс можно указывать отдельно для выгрузки?
>>1601588 Вангую, что это чревато еблей. Я конечно гуглил уже всякие vfio-pci, но не уверен, что это взлетит толком, а не разпидорит что-нибудь в дровах. Плюс учти, что рпц даже на локалхосте это где-то вторая-третья пися х1 по скорости. А с настройкой проблем нет, там рпц девайсы такие же полноправные девайсы как и куда. Это вот у меня трагедия с картинками, там-то нет рпц из коробки( Подумываю убрать блеквелл в шкаф до лучших времен
>>1601614 >горячим лоном чем тебе лоно не угодило, сабака
>>1601609 >какой смысл не катать херетик гемму если она уже из коробки есмен и раздвигает ляжки стоит лишь попросить? Сначала прочитал без частицы не. Ведь реально, ваниль также раздвигает если попросить.
>>1601595 А тебе для картинок не пофиг где будет дом жить? Выкинь v100 в виртуалку и катай гемму там. v100 в отличие от блеквела должна без проблем пробрасываться. Для себя я уже такую схему прикинул: две 5060 на хосте и 2 v100 в виртуалке. Все ресурсы выделяю виртуалке оставляя хосту минимум, на ВМ запускаю лламу (так как там в два раза больше врам), на хосте рпс. Для фулл врам моделей думаю норм будет, а вот что там с офлоудом будет хз, нужно тестить.
>>1601570 Смотря как линии распределены. Говори какая мать, телепатов нет. У рузена зен4 и выше может и х8 от проца на второй слот быть, чего достаточно
Короче, после тестов на 20 разных карточках и диалогах по 40-60к токенов на каждой могу уже с уверенностью сказать - гемме пиздец как нужны тюны под ерп, она не вывзоит. Даже учитывая что и хард и софт рефьюзов она не выдает, с вариативностью и описаниями у нее большая беда. Такое ощущение что она знает три характера - это покорная шлюха, наглая шлюха, и шлюха которая неумело притворяется чем-то посередине. Что бы там в описаниях ни было, она рано или поздно сведет персонажа именно к этим трем типажам. Ну и слопа этого мистральского конечно не хватает, он вроде и заебал, но когда его нет сцены совсем какими-то бездушными становятся. Шиверсы главное есть, а сжимающаяся в пустоту пизда пропала. Не порядок какой-то.
Ну как вам новая мистраль? Кум льется рекой или цензура на уровне gpt-oss? Мозги есть или тупее пигмы? Нативное квантование в fp8 могло ужарить мозг модели, а кривой апкаст и квант в gguf уничтожить модель, повысив kld до единицы.
>>1601689 >MSI MAG B660M DDR4. Проц ш5 12400f О, мой конфиг. Насколько помню, второй слот там не x16. Да у 12400 и линий-то столько нет. Другое дело, что не так уж это критично для инференса-то.
>>1601677 У меня она сломана. llama последняя, правда на карте всего 30 слоёв из 80+. Пробовал кванты от анслотов и батрухи. Она выдаёт рандомную шизу и уходит в луп. Вот пример: 2.5, 2025, 2025, but=2025, 2025, 2027 The sun is bright, the sun is clear, the air is clear, and the sky is bright. The sun is clear, and the sky is clear. The sky is clear
>>1601695 Нейронка говорит что для инференса не критично а вот в загрузке первичной будет посос, но надо уточнять, точно ли не будет в инференсе пососа
>мой конфиг А ты не пробовал вторую карту ставить? Там еще вопрос места, есть вероятность что не влезет или впритык будет. А это минус охлад
Тредовички, алярм. Есть возможность взять себе MS73-HB0 на 2х LGA4677. За 80к Б/У , из под юрика. Стоит или нахуй не нужно? Под этот сокет я даже не знаю какой процессор можно найти, они все стоят как крыло от самолета.
>>1601696 >выдаёт рандомную шизу и уходит в луп Ты разметку смотрел? Может шаблон неправильный
>>1601705 Перескажу то что слышал итт тыщу раз - нет, хуево не будет. Сам не тестировал, но знающие, так называемые щарящие, говорят что даже на 4 линии можно жить.
>>1601700 >А ты не пробовал вторую карту ставить? Прикидывал, но и правда очень тесно, плюс провода там... Впихнуть можно, но я в итоге решил риг собирать. Всё равно двух карт мало для счастья.
>>1601702 Там процессоры хуйню стоят по сравнению с ОЗУ. Поспрашивай в серверотреде в /hw. Возможно под эту мать можно инжинерники заказать, они дешевле будут, но повторяю, проц это копейки
>>1601708 >Ты разметку смотрел? Может шаблон неправильный Пробовал и с жинжей и сам выставлял правильную, разницы нет.
Потестил меро, оказалась плацебо-тюном. Просто обыкновенным свайпом базовой геммы. Что тюнерам надо починить, так это тенденцию Геммочки прилипать к одной и той же тошнотворной структуре от поста к посту. Она как бланки заполняет, и это надоедает очень быстро.
>>1601689 Жозенько Обычная раскидка слоёв (видюхи работают по очереди) наверно нормально пойдёт. Tensor split (две видюхи сразу) сделает пукнум, особенно на изначальной генерации токенов, раз в 10 медленнее будет
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: