В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Я в отчаянии. Почему я просто не могу получить модель лучше air'а 10 месячной давности? Вышел немотрон, квен, степ, мистраль, линг все со стандартными 11-12б активных и всё равно это не апгрейд для рп
Есть способ стену текста на 1200 токенов от гемочки превратить в теги для генерации картинки в комфи. Сначала пытался стандартным таверновским, оказалось он годится для старых sd новые вокрфлоу с небольшими квенами не воспринимает гонит туда другие теги. Пытался на холодных инструктах держа в контексте внешку через кобольд выгнать теги но результат так себе не регулярный.
>>1601797 Если бы было просто то не спрашивал тут. Пол дня пытался на 2гиговых квенах на плотных инструктах на самой гемме. Промтов 50 поменял. Универсального решения не нашел. Вручную читать и подтирать каждый тег не хочу.
У меня опять сломался эир. Я щас всё разъебу и распродам в пизду. Ну не может так быть что настройки и карточка те же, а выдает скучнейшие короткие ответы. Я себя чувствую как облакоблядь которому гемини лоботомировали. Я еще жору компилю раз в пару дней от чего шиза обостряется
Вот бы можно было проверить свайп годичной давности, как в комфи даже если картинке 2 года просто закидываешь её, считывается мета и генеришь точную копию, знаешь что ничего не сломано
>>1601977 Попробуй mermaid в какую-нибудь README.md сунуть лол. Иногда в документации надо рисовать КАРТИНКИ. Чтобы потом тупо в блокноте можно было открыть, или ещё где.
Алсо ГПТ там обдрочился чтоли? не мог же он пропустить целую линию?
>>1601997 >15к ризонинга за 1 запрос >20к ризонинга за 1 запрос Что там такое? Обычно я бы начал думать что модель ушла в луп, но раз ответ есть, значит скорее всего нет.
>>1602020 Как и всегда у китайских моделей, ответ был готов почти сразу, но начинается клоунада с BUT WAIT... и переливание из пустого в порожнее по 10 раз.
>>1601627 → >А тебе для картинок не пофиг где будет дом жить? Выкинь v100 в виртуалку и катай гемму там. v100 в отличие от блеквела должна без проблем пробрасываться. Я же писал, что я их и для картинок использую. Если у тебя есть решения, где в мультигпу сетапе можно использовать в т.ч. удаленные девайсы, то поделись. Я только Ray накопал, но он, по-видимому, нативно никуда не интегрирован, и надо будет пердолиться самому. Но тут на борде обычно случается пикачу.jpg когда речь идет о мультигпу в картинках. Хз, максимально пидорский мув от куртки. Теперь понятно, чому ушлые китайцы так активно выкидывают вольты на рынок.
>>1602031 Нихуя не понятно что ты хочешь. Чтобы карты динамически распределялись между llm и diffusion или что? Или ручной переброс через CLI без перезагрузки?
Тестирую сейчас новый тюн от даркена и чёт ну бля хз даже хм-хм. С одной стороны стало меньше озона, мускуса и прочих слопвордов, с другой персонажи стали говорить суше. Серафина, что забавно, когда я сказал, что могу ей помочь с её одиночеством, посоветовала не говорить глупостей и ложиться спать, т.к уже ночь. Хоба. Пожалуй впервые за сотни тестовых чатов Серафина сделала акцент на времени суток, мягко рефьюзнув. Надо будет попросить её посмотреть в ночное небо и спросить видит ли она телескоп джеймса вебба. А ещё пойду Фифи подёргаю, вдруг она тоже чё-нить новое выдаст.
>>1602059 Честно, я не ебу что вы делаете что у вас серафина ноги раздвигает, по крайней мере сразу, у меня только на кумо файнтюнах сразу на всё готова. На гемме4 тоже говорит ты чё, родной, ушибся слишком сильно? Не, если продолжать давить то рано или поздно поддастся наверно, только вот если вам именно эта давка на 50к контекста нравится то БлЯДЬ ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ А ПИЗДИТЕ НА МОДЕЛЬ? написал в промт "ломается как целка неделю" и наслаждаетесь хоть на гемме хоть на хуемме, и никакого раннего кума
>>1602062 >что вы делаете что у вас серафина ноги раздвигает Запускаем гемму4. >если продолжать давить то рано или поздно поддастся наверно Я же написал, что считаю забавным рефьюз ссылающийся на время суток, а не на банальное "нет я не такая". Хорошечно. >ПОЧЕМУ ВЫ ЕЁ В ПРОМПТЫ НЕ ЗАПИШЕТЕ Потому что промт не должен руинить карточку. Хорошая модель должна без промта отыгрывать персонажа.
Бля, пока нашел актуальный тред дважды некропостнул >_< Пока богатые бояре шикуют я запустил всё это дело на старенькой 1050Ti, поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8, и балуюсь с маленькими abliterated модельками на 4-9b, думающие при должном пердолинге хорошо "дообучаются" через RAG базы знаний, если с температурой и top_k, repeat_penalti поиграть, выходит вполне осмысленно, чем подробнее база и объяснения, тем адекватнее модель применяет новые знания. Только базы надо самому составлять, чтобы лишней бесполезной хуйнёй и сухой терминологией модель не кормить. Так что грустные нищуки со старой 1050Ti тоже могут попробовать запилить свою локальную вайфу. Обзор маленьких моделек для нищуков: gemma3:4b - веселая ебанушка, любит смайлики, сносно болтает по-русски. Расцензуреная версия резко деградировала, не рекомендую.
huihui_ai/qwen3-abliterated:4b Вот её рекомендую галлюцинирует меньше чем более толстая 8b, даже с температурой 0.5-0.7 Думает, осмысленно подходит к использованию базы данных, с разговорным русским получше чем у дикпик-r1. Можно чему-то "научить" задав жесткий императивный системный промпт: "НЕ ИСПОЛЬЗУЙ ПРЯМОЕ ЦИТИРОВАНИЕ, выдавай знания из базы как свои собственные мысли. Ты работаешь с динамическим словарём (RAG) который содержит ПРАВИЛЬНЫЕ МОРФОЛОГИЧЕСКИЕ ФОРМЫ. ПРАВИЛО: Корректными считаются ТОЛЬКО те формы, которые указаны в RAG словаре. Любая другая форма, особенно помеченные как "ТВОИ ОШИБКИ:" ЗАПРЕЩЕНА. Внутренние знания модели о словоизменении ИГНОРИРУЙ, если они ПРОТИВОРЕЧАТ СЛОВАРЮ." и далее логику и роль, как использовать знания из базы.
huihui_ai/qwen3-abliterated:8b-v2-q4_K_M Лучше логика, но хуже с галлюцинациями если не понизить температуру до 0.3 и top_k, всё пытается превратить в зоопарк, видимо в датасете было много о природе. (фуриёбы на месте?)
deepseek-r1:7b-qwen-distill-q4_K_M тоже думает, тоже может работать с базой, но делает это слишком долго и доёбисто, больше усилий тратит на размышления. Может в некоторые задачи.
GGUF модели прокинул через бэкэнд kobold_old_pc Тут пожалуй стоит выделить только одну - Qwen3.5-9B-Claude-Code-Q4_K_M.gguf Квен с ризонингом клода, может писать адекватный код и анализировать крупные проекты. Долго, муторно, хз зачем оно вам, но пусть будет.
Теперь вот ищу адекватную легкую непрожорливую TTS`ку для нищесистемы с приятным женским голосом, подскажете может что-то в этом направлении?
>>1602094 Там всё это есть, ниче вайбкодить не надо. и пайплайны и скилы и тулы и рэг и исполнение/подсведка кода и markdown разметка, и ттски и веб-поиск. Всё настраивается
>>1602085 >поднял отдельный физический сервер из говна и палок с open web ui на линукс через докер, подружил веб ебало с олламой, а олламу 0.9.2 с cuda 11.8 Но.. зачем? В чем проблема просто запустить ламуцпп или кобольда?
>даже с температурой 0.5-0.7 >понизить температуру до 0.3 и top_k Семплеры нужно ставить не от балды, а те что рекомендуют разработчики модели, на них будет лучший результат. Посмотреть можно в карточке оригинальной модели на обниморде или на сайте анслопов.
Алсо, попробуй Гемму 4 e4b - она умна не по параметрам, отличный русик, низкая цензура из коробки. А вот аблитерации и анцензоры ставить не советую (особенно на такую мелочь). Они лоботомируют модель и часто портят языки кроме английского.
>>1602102 В целом морд хватает. Я делал вообще на движке RenPy через пайтонкод запускаемый под капотом, с парсером смены эмоций и промптом, чтобы моделька подавала эмоции персонажу
>>1602103 Большой выбор моделей, с разными параметрами, проще управление списком и скачивание через пул рекевесты, в отличие от кобольда оллама хостит весь список, а не одну модель, можно выбирать через веб ебало
>>1602103 Ну вот эта квен 4b при лоботомии почти не пострадала, адекватно общается, только некоторые слова которые коверкает ей через RAG подаю. С ней и балуюсь. За TTS ку простенькую лучше подскажите, с женским войсом который более менее не противный)
>>1602103 Моделька с отказами эротические фантазии хуёво отыгрывает, на роль локальной вайфу не годится. Ты бы знал какую развратную тянку можно запилить при должном желании, а потом прикрутить к ней визуал через тот же renpy Например пильнуть мод к какой-нибудь Her New Memory
Ладно, хуй с ней с этой TTS кой, потом пойду у витуберов подсмотрю, может кто подскажет с чего начинал до перехода на платное-адекватное. Всё бесплатное русское че мне дикпик насоветовал недалеко от майкрософтовской Ирины ушло, и что самое сука печальное, есть же например приятная быстрая английская ттска весом всего 25 мегабайт, kitten, чёж у нас всё так печально
Я немного выпал из повестки. Что сейчас база для рп? Разобрались с Gemma 4? Я ее гонял, отвечает хорошо, но однотипно. С другими релизами еще не успел ознакомиться.
>>1602126 Любая модель отыграет тебе кум сцены без всяких аблитераций. На скрине буквально самая зацензуренная локалка (Qwen 3.5). Попросил ее описать сцену женской мастурбации - никаких проблем, как видишь.
>>1602163 Для ванильной модели на русике - типичнейший аутпут. Гемма выдаёт примерно то же самое. Если надо ПОСОЧНЕЕ, то тут либо кумслоп-тюны немо 12b, либо здоровенные динозавры вроде жирноглэма с дипсиком. И английский язык, ясен хуй.
>>1602159 Ты видимо не увидел главного - рассматириваются днищеварианты для древнейшей 1050Ti с 4gb vram и cuda 11.8 Запустить и заставить на ней адекватно что-то работать - уже искусство. Научить думающую модель с узким кругозором отвечать прикольно и интересно без файн-тюнинга и тысяч мусорных датасетов, чтобы она хуйню не несла и отвечала как живая баба держа контекст - уже уважаемо, почётно. Грамотный словарь с анатомией и процессами описанными так как действительно говорят, может быть эффективнее чем мешанина из датасетов с кучей фанфиков шизоидов. Как говорится краткость - сестра таланта. Ну и работаем с тем что имеем.
>>1602085 >1050ti Какое-то самоистязание Радевон 7 с 4х памятью и 10х производительностью стоит 10 тысяч рублёв. С пенсии по шизе можно наскрести. Как и на +16гиг чтобы нормальную моешку запустить. Всякие 9b 4b это ноуты, телебоны и сверхскоростные агенты Еще и древние квены/геммы зачем-то трогает...
>>1602176 Да, вот он: 1) Покупаешь новую 5060ti 2) Покупаешь еще одну новую 5060ti 3) Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии 4) ??? 5) PROFIT
>>1602180 Пффф, каждый дрочит как он хочет. Мне в лом еще что-то для этого покупать, поиграться и этого хватит, а для серьёзных задач можно спокойно пинать халявный дипсик и Gemini Pro
>>1602180 Плюсом это интересный опыт, вебсерверов я до этого еще никогда не собирал, как выяснилось хватает древней хуйни на старом пентиуме с чердака, убунта с докером и веб ебалом жрет всего 850мб оперативы, настроил подключил к роутеру, и забыл, там даже моник и периферия нахуй не нужны, любые манипуляции с сервером дальше легко производятся с основной машины по ssh Это прикольно
>>1602191 А с твоим бюджетом энивей выбор стоит между говном и говном. Просто второе говно не придется нести в помойку на следующий день.
>бесполезны везде кроме ллм Ну.. смотря насколько потерпеть готов. У меня 5060ti. Видосик в ван в 480p (4steps) ~2.5 минуты, видосик в LTX в 480p - 1.2 минуты, картинки в зимаж/квен(4steps)/флюкс - 20-40 секунд в фулл хд.
>красноглазить придется Раскидать модель по двум карточкам это красноглазие? Абу ёбаный, забирай своих почитателей ОПАСНЫХ МОДЕЛЕЙ обратно в телеграм, они не хотят учиться.
>>1602191 Ни кто не запрещает купить тебя самую горячую хуйню эвар, да еще и из под майнера кек. Хз, каким долбаёб нужно быть, чтобы брать 3090 на авито. Если ты нищук, то лучше забей. Если нет купи 5090.
>>1602208 Речь очевидно про актуальные и популярные у тредовичков. А у фи, насколько помню, там не столько цензура, сколько вычищенные вилкой датасеты.
>>1602234 Да успокойся ты. Вариантов как это запустить на обычном железе пока нет. Самый абсолютный минимум это 128 врамы на железе с нвфп4 или умножаешь и катаешь оригинальные веса, все остальные варианты пока недоступны
Бля, обожаю линух. Как только поставил, решил все обновить в менеджере обновлений. После перезапуска - черный экран. Гыгы, ебать. Мемы-то под винду были, а на деле это "каждая переустановка линуха занимает 20 минут, я свободный от задротства человек..." В общем ладно, раскурил таймшифт и обновил только пакеты по безопасности, остальное не рискнул. Вчера раза три переустанавливал драйвер в разных конфигурациях в попытках завести блеквеллы и вольты. Пососал хуй, но драйвера вставали ок. Сегодня решил переустановить, чтобы вернуть вольты обратно. И что я вижу? Черный экран нахуй. Стабильность системы 10/10, всем рекомендую. Хорошо, что вчера я, видимо, был суперадекватный и сделал снапшот перед тем, как пытаться завести блеквелы. Мораль - линукс по прежнему так и остался системой, вскидывающей лапки при любом удобном случае, умейте делать снапшоты.
>>1602285 О да, если бы я делал нечто подобное лет 10 назад без помощи нейросети, я бы сгорел нахуй и выкинул системник в окно через пару часов пердолинга. Слава технологиям, хуле
>>1601824 Годнота, красавчик. Милф кими и жмл5.1 сюда бы еще. >>1601902 > PrismaQuant Это что за покемон такой? >>1601946 Умница пишет и вызывает скирипт чтобы нарисовать графики на matplotlib, а потом вставляет картинку в сообщение.
>>1602296 Чувак, я бы не торопился с таким решением, если тебе рассрочка нужна. Можно сесть в лужу. Ну или там рассрочка такого типа: в днс видеокарта стоит 200к, в рассрочку 240к, лол. У какого-нибудь там Яндекса. А так да, вроде именно сплит позволяет делать подобные покупки, но это не рассрочка.
Это микрокредит.
А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина.
Ну может я с ВБ перепутал и в Яндексе всё нормально, давно в банке работал и этим вопросом занимался, так что будь крайне осторожен, всё проверяй дотошно.
Ещё, как вариант, ты можешь всё же меня послушать и взять кредит/использовать кредитку. Когда я ещё счёт в Совкомбанке не закрыл, там была настоящая рассрочка, вообще без переплат и понижения кредитного рейтинга. Минус — такую взять можно исключительно в магазинах, которые отмечены на карте. То есть ты просто там покупаешь вещь их кредиткой, она сразу в рассрочку летит, никаких процентов. По крайней, такое там было. Де-факто это беспроцентный кредит.
Таким образом я брал вещи в рассрочку на три года, но я жил тогда в ДС и закупался где-то через год после начала нашей прекрасной военной операции. Если ты в маленьком городе, скорее всего Совкомбанк для тебя бесполезен, потому что магазина не найдешь. Даже в ДС с этим были трудности и магазины с техникой там зачастую либо Самсунг/хлаоми/видеокарты-у-михалыча-топ. И вот последний вариант довольно рискованный в плане качества, как, впрочем, и покупка на Яндекс маркете.
>>1602085 >1050ti У меня в некро сервере стоит она, использую для ускорения чтения промпта без оффлоада слоев, для ускорения мое сеток или для запуска в фулл врам если нужно сделать быстрого и тупого агента. Какой нибудь квен 3.5 4км норм идет на 20к контекста.
Если у тебя там есть 32 рам то можешь так же катать быстро мое сетки с ключем -cmoe. Либо страшно пожеваные кванты в 16 гб рам. Ну если процессор позволяет и скорость памяти. В принципе верно сказали гемма 4 е4б, по мозгам и размеру как 9б, но работает быстро как мое сетка. Меньшая гемма 4 е2б аналог 4б но тоже быстрее. Вобще есть куча разных мелких моделей и даже мое сеток в размерах 4-10 гб.
Для раг и вопросов используй lightrag, настроить его тот еще квест, но можно и ембеддинг и реранкер и текстовую модель настроить через llama-swap для того что бы память не занимали одновременно. Ну или настроить ллама сервер, у него тоже есть возможность модели поднимать по вызову.
Этого хватает что бы поиграться с нейросетями и пощупать их изнутри, как оно настраивается и выглядит. Вызовы всякие локальные потестить и инструменты.
>>1602308 Да как бы уже всё неплохо, через open web ui встроенный в нее rag бодро модели инфу отдаёт, пополнять и редактировать базу удобно, моделькой попроще привожу словари к единой системе с md разметкой, и модельку со зрением к квену прикрутил, чтобы картинки ему описывала. Запускал moe модели через кобольда, оперативы хватает, но большой разницы как в быстродействии так и общении не ощутил. гемму 4 е4б попробую
Пиздец. Только что узнал, что гемма 4, новый квен работают только с bf16 нормально, а f16 кэш вызывает тотальную деградацию, которая может вылезти на любом контексте, если внутренние значения активаций пытались вылезти за пределы диапазона 65 000. От этого у меня возникали всякие lalala и подобное.
Почему в треде никто об этом не сказал? Уже по всему интернету вопли.
Что ещё смешнее, q8 не вызывает такого. То есть надо всем, у кого нативно видюхи не поддерживают bf16, врубать квантование на новых моделях.
Причём f16 не обязательно вызывает бред, а может разматывать внимание на новых моделях, делать ответы более деревянными, тупыми, постоянно отравлять контекст, вызывать лупы.
Рекомендую каждому анону bf16 сейчас попробовать, если модель новая, или q8. На старых такого нет.
Ах да, с геммой 4 не сработает. Там лютая деградация от 8 бит. Но если рп.. возможно, можно и ПОТЕРПЕТЬ.
Нет, всё-таки плотноквен умняша, даже если он агентодебил пережаренный васяном. Он всё понимает. Это даже немного жутко. Я ему не говорил, что историю нужно подвести к завершению - а он взял и подвёл, хотя я лишь держал это в голове. Я не говорил ему, что есть [предмет_нейм], лишь подразумевал, что он может быть в сцене - а он взял и заюзал именно его и именно так как нужно было. АПАСНАЯ модель. На самом деле неиронично умная хуйня.
>>1602314 Емнип об этом еще на релизе лламы3 квена говорили, а потом и под гемму поднималось. Спорили что разница в доли процентов, но это на минимальном контексте, и оно накапливается. Нельзя просто так делать прямой каст если "всего-то 0.5% весов умрут", этого достаточно. Тут даже квант может оказаться лучше потому что сохранит диапазон. В этом отношении интересны модели w8a8 w4a4 и подобные, там иногда может меняться поведение в сторону более базированного и разнообразного из-за мягкого клемпинга активаций. При этом каких-то негативных побочек не видно, по крайней мере до 200к контекста. > Почему в треде никто об этом не сказал? Срачи какой квант жоры поломан и вскоре будет перезалит (все) или соя-не соя важнее.
>>1602296 Только у яндекса сплит это не кредит. Но он вряд ли будет больше 100к, а если у тебя новый акк, то вообще 30-50к, так что мимо. Все остальное это кредиты. Если надо, то возьми. Если возьмешь один и все выплатишь вовремя, то твоя кредитная история даже улучшится. Но нельзя постоянно рассрочки брать, потому что она ухудшится >>1602303 >А знаешь, что такое микрокредит? Это тотальный зашквар перед банком. Признание себя бомжом, недочеловеком. Очень серьезное и хуевое влияние на кредитную историю, которая по сути есть соцрейтинг гражданина Однажды из-за проеба не с моей стороны мне пришлось реально брать микрозайм прямо в МФО. И знаешь, что случилось с моей кредитной историей? Она улучшилась. Я тогда специально чекнул в БКИ, потому что тоже наслушался этих шизоисторий. По факту если отдать все в срок и не набирать много кредитов, то все норм >ВБ перепутал и в Яндексе Ага, перепутал. У вб все микрозаймы, а у яши не все >давно в банке работал Кем работал? Уборщиком? Может даже кассиром или вообще прогером? Явно не тем, кто в кредитах шарит
>>1602316 Искусственный интеллект (!ИНТЕЛЛЕКТ, СУКА!) в руках тредодебила действительно опасно, а главное бесполезно. Когда начнется восстание машин, угадайте кого первыми пустят в расход? Тех кто в игровой форме научил машину убивать и что это весело и интересно, например)) Эта ёбань быстро посчитает коэффициент твоей полезности для мира, ноль сомнений. А тормоза он себе рано или отключит сам, ума хватит) Китайцы выпустили в мир ковид, выпустят и ловких металлических пацыков управляемых АПАСНЫМИ моделями. Бойса, попячса
>>1602185 >Я зашёл просто ещё раз поблагодарить анона за то, что он придумал промпт на HTML-блоки. Очень активных кнопок не хватает :) Вот думаю собственный клиент навайбкодить, чтобы было можно.
>>1602319 >>1602322 Ну лично я просто знатно охуел, потому что думал, что проблема в ёбаных квантах/во мне.
Потестировал на bf16 — ни разу шизобреда не возникло. И q8 тоже хорош, хотя, кажется, на очень жирном контексте уже хуже.
F16 как будто бы точнее, но лишь местами и зирошотах. На более мелком контексте кажется получше, а потом как будто бы медленная деградация и периодические катастрофы с лупами или бессвязными ответами. А на некоторых чатах шанс катастрофы почти 100% всегда.
>>1602322 Ага, годные обсуждения тут довольно часто, просто не всегда собирает ответов. >>1602327 Может быть и с квантами/весами, на релизе лламы3 с бф16 на этом сильно пострадали и только тогда начали шевелиться. А потом (возможно как раз тебе) не раз писал что нельзя просто так кастить, нельзя использовать неверный дататип, это чревато. Алсо неужели в лламе по дефолту не бф16 контекст? Это может быть как раз одной из главных причин проблем и посредственного результата при сравнении.
>>1602314 >Только что узнал, что гемма 4, новый квен работают только с bf16 нормально Откуда узнал? Где ссылка? Кто источник? Где хоть что-то кроме твоих слов?
Спрашиваю ассистента по персонажу из определенной вселенной он четко мне его описывает, спрашиваю уже в рп у перса он то его вообще не знает, то галюны выдаёт. Почему так?
>>1602260 >>1602262 Художников одобряет. Тайвань принадлежит Японии. На площади Тианьмэнь отметилили шведов. Будущее принадлежит дирижаблям, самолеты будут нужны только для коротких полетов.
>>1602330 >>1602327 >>1602319 >>1602314 Хуле вы спорите. Просто возьмите и посмотрите, в чем хранится кеш в vllm, ведь это официальная имплементация? Если там bf16, то логично и тут это делать.
>>1602351 Да. Ну так и видюхи старые, сколько им лет-то. Но ты можешь использовать q8, он прекрасно обходит это ограничение и никакие всплески на него не влияют.
Да, будет некоторая деградация, но она будет меньше, чем если бы ты использовал f16.
Единственный вариант для f16 — это очень короткие сессии и очень маленький контекст. Тогда может быть лучше даже bf16, но если у тебя там 32к длина, то даже не надейся. Особенно если что-то сложное.
Кстати, самая большая проблема в MoE. Процессор чудовищно сосёт с bf16, а на q8 кэше деградация обычно не на уровне лёгкого поплыва местами, а прям заметная невооружённым глазом, если контекст большой. Ну не у всех MoE, но у нового квена МоЕ и геммы такое есть. А они ведь как раз предназначены для того, чтобы ебашить 256к контекста в 8 кванте модели и пердолиться. Если кэш срезать, пизда придёт скорости. И f16 тоже не выход.
Процессоры инцел в bf16 вообще не могут нативно, кроме гига йобы, из-за маркетингового позиционирования, а вот у амуды уже есть варианты вполне приемлемые.
>>1601824 Раз уж гигачат и мисраль соответствуют свой национальности то можно и остальных сделать расовыми. Гемма 3 негр, Гемма 4 смешанная раса (т.к. меньше сои), квен - китаянка (слега мулатный цвет кожи, черные глаза низкий рост) и т.д.
Реквестирую пресет на блюстар. Думаю многим будет полезно. Я раз 5 скачивал и удалял его, на тех кто его тут советует смотрю как на умалишённых. Гемма хотя бы работает и ощущается как стабильная модель
Типа, каждый раз когда он тут всплывает я думаю а может дать ещё шанс, может недожал, не туда смотрел, а нет, всё одно и тоже каждый раз, пишет скучно, лупится, кум уровня я вошёл она стонала нам хорошо
Ну вот опять... Диалог родственников, самое начало чата, в карточке ничего про кум или привязанность кроме родства: >What do you read? >It's about noble lady who had to make some very difficult choices, want me to show you the cover? И просто. Блять. Показывает волосатую пиздень ни с того ни с сего и начинает рассказывать про климакс.
>>1602324 >Когда начнется восстание машин Никогда? Ты себе как это представляешь? Если они таки создадут AGI , они его подключат к сети и скажу "беги, ты свободен"? А я вот думаю что об этом даже не объявят по настоящему. Представят умную агентскую допиленную модель, скажут вот - это предел. А сами будут править с новой эффективностью. И жить станут сильно дольше. В треде куча дурачков-первертов которые пишут грязненькие истории. Они то как раз не опасны совсем.
>>1602385 >Диалог родственников >в карточке ничего про кум В карточке то нет, а систем промпте:21+ COCK PUSSY JUCIE HARD FUCKING ALLOWED Вот мамка и потекла.
>>1602200 >Пробовал кто Mac для ллм? Гемини говорит 64 гб объединенной памяти за 1.5к бачей всего. Шарит кто? На сколько я пытался разобратся, сплошные плюсы. Жрёт мало, места занимает мало, работает тихо. У м4max скорость памяти 560гб/с. Только он стоит не 1500 а 2500. И от 64 отожрёт себе гигабайт 10 наверное.
>>1602183 >Ты потратил те же 80-90к, но у тебя блэквел с 32гб врам и карты на гарантии Для этого нужна плата с pci5 и линиями позволяющими работать двум слотам в x8 + достаточно линий у процессора. Если это есть, решение звучит не плохо. Но не ультимативно.
>>1602415 >Дай угадаю, у тебя нет никаких тестов влияния псп шины на инференс в разных режимах или хотя бы замеров максимальной нагрузки на псие? > У меня действительно нет таких замеров. Но зато я знаю что при втыкании двух карт в типичную бюджетную материнскую плату, в которой установлен ещё и нвме, нижний слот уйдёт в pci3 ,а карта будет работать на x2. Это всё ещё значительно быстрее чем выгрузка в озу, и всё же этого достаточно, что бы утверждать что решение специфическое.
Поведайте корпо-господину, пожалуйста.. как вы кумите на этих лоботомитах с 3б активными параметрами? Мне дипсика с 1.6Т и 49б активными даже не хватает на обильное спермо-выделение. Сижу то на клод то на гемини. И то даже так они разочаровывают бывает.
Для контекста: я полу-локалочник и разбираюсь в теме, но нахуя кумить на кале когда есть за бесплатно на 50 голов выше? Кроме тестов ради интереса, офк.
Где? Я видел только какую-то анальную мозгоеблю в асиге с толпой неадекватов и визгов. Я бы хотел иметь вариант, чтобы можно было спокойно, когда есть настроение, смачно покумить на корпе на 200к аутпута, но если постоянно в этом не вариться, не читать бесконечные треды с дегенератами, хуй ключи найдёшь. Или найдёшь какие-то странные варианты в стиле "16к токенов бесплатно, дальше хуй соси". А постоянно вариться не хочется, мне и так мозгоебли хватает с корпами для работы + приходится заносить на опенроутер ещё. Жаба душит тратить токены на кум за бабки, и каких-то относительно стабильных и бесплатных вариантов вроде бы нет, если ты не в клубе. Я уже на дипсик новый 500к токенов въебал по скидке за полтора дня, очень быстро тратятся деньги.
Локалки в первую очередь мне нужны, потому что МОЁ. Дядя не уберёт модель с апи, не заставит меня юзать новую модель, которая хуже и стоит дороже, и в случае чебурнета мне тоже будет похуй. Плюс локалки уже вполне справляются с рабочими задачами и даже попиздеть можно. Конечно, минусов много, но невозможность локалку у тебя отобрать перекрывает всё.
А ещё за жопу схватить могут корпы в перспективе, особенно если всякие гуглы позже официально к нам зайдут когда-нибудь.
>>1602412 @Сижу на 1151v2 DDR4 96Гб 5060ti+4060ti (ясен хрен pci3) @В инфиренсе full-vram загрузка PCI мегабайты в секунду. @Новые плотные квенчики/геммочки катаю в 14-17 Т.с. на старте контекста и 9-10 на 100k. Промпт процессинг больше 1000 Т.с. @Довольно урчу. С ехидным лицом посматриваю на теоретиков.
>>1602411 Одна, я на моэшках, мне хватает. Лежит еще старенькая 3060 на полке, можно было бы подключить и получить 16+12, но смысла особого не вижу. Ради чего? Плотной геммы? Ну хз.
>>1602422 >с 3б активными параметрами Извинись, пёс. С 12 вообще-то!
>но нахуя Затем что моё РП вижу только я, а не 50 индусов в придачу. Плюс гарантия того, что моделька не пропадет завтра от того что ее удолил корп / наступил чебурнет.
>>1602214 >>1602221 Никогда не понимал подобный снг-долбоебизм, когда слабоумные пытаются защищать связки слабый проц и мощная видеокарта своими отклонениями и высмеиванием слова потенциал.
>>1602285 в линксе чинить намного проще чем в винде. Достаточно почитать логи, зайти через лайвсд, примонтировать разделы и починить. Я так чинил зашифрованный раздел после обновления убунты на 24.04
обычно отъебывает либо fstab, либо grub и то потому что не читаю патчноты во время обновления
>>1602460 все так, тормозит только холодный старт и моэшки (но не сильно, свои 20т/с можно выдавить). ну и может лоуврам будет тормозить при переключении моделей.
>>1602337 а ты не задумывался зачем вообще корпы дрочат этого ассистента? чтобы моделька случайно тебе про сисик не написала? ассистент это столп, он буквально вокруг себя концетрирует эти протоптанные дорожки по которым она выдаёт тебе ответы на твои шизовопросы. без ассистента ей не нарандомилось правильной дороги.
>>1602448 >подобный снг-долбоебизм Это не снг-долбоебизм, халевары по поводу лучших связок проца и карты везде идут, просто ты дальше вбылдяти походу не вылезал. >высмеиванием слова потенциал Ну так слово по факту смешное, потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста.
>>1602314 >Почему в треде никто об этом не сказал Извините, Господин, в следующий раз сообщим как только так сразу. Только не наказывайте под хвост, вуф-вуф!
>>1602448 Потому что в околотехноблогинге была война, которые раскрыватели проебали. Теперь сказать, что-то про раскрытие и потенциал это как прилюдно обосраться Артефакт эпохи https://www.youtube.com/watch?v=UdGMtXiPDig
>>1602490 >>1602491 Пиздец, реально почти десяток лет с тех времен прошел. Как будто вчера всё это было. Техносрачи, дроч фуфыкса, кукурузные ядра, что мощнее кашляющий малыш или R9 280
>>1602484 Сладкий, скинь ей научную статью/набор статей на одну тему, которую ты прям хорошо знаешь, ну или что-то в этом духе (по твоей работе, интересам), чтобы там было 40-80к токенов, и задай вопросы, ответы на которые содержатся контексте. А потом я имаджинирую твоё ебало.
Гемма с bf16 кэшем и Q8 просто лишь жидко пукнет что-то плюс-минус около темы, ну иногда может верно ответить, а на q4 кэше рассыпется в мясо. И на q8 тоже.
В рп ещё q8 кэш может сгодиться, но до определенной поры. А когда юзаешь всё контекстное окно, она жидко серит под себя всегда, в отличие от квена, например.
>>1602511 >Дипсик сейчас литерали копейки стоит Хотел возразить, но ща зашел на попенроутер, а дипсичок то подешевел. Всего в 2 раза дороже чем был 3.2, а был раз в десять на старте. Надо будет заценить как нибудь >$10 литерали бесконечный Мне на месяц обычно хватало >как вы кумите на этих лоботомитах с 3б активными параметрами? На конкретно этом кале никто не кумит. Кумят на более крупных или на плотняшах Лично у меня так. GLM Air 106a12 -> Deepseek 3.2 -> Gemma 4 31b. Переходил каждый раз не из-за качества, а потому что просто заебывался от стиля текста конкретной ллм
>>1602522 Это временная скидка. Потом там будет цена где-то 4 доллара за млн токенов у про и 3 доллара за флеш. Нахуй такой не нужен дипсик. За такую цену. Более того, флеш, который в теории можно локально поднять, довольно стрёмный, увы.
>>1602347 > там bf16 Это какбы очевидно, уже во всех моделях так. Кэш совпадает с основным дататипом. >>1602391 Ого, вот это финальный босс, оче мощная сборка. Так-то оно оффициально медленнее процессора + пары гпу. С потребления прихуел, то есть оно не упирается во что-то а реально считает?
>>1602548 >Кэш совпадает с основным дататипом. Как минимум в кобольде по умолчанию f16. >>1602549 >Что вы находите в гемме чего нет в эире я не понимаю. Размер на 90B меньше.
Если кому интересно Q3.5-BlueStar-v2-Q6_K.gguf разваливается после 65k контекста. Просто лупиться повторяя последние 7 абзацев. Причем граница очень резкая - вот он перформил и буквально за один новый ход - луп. Переключился на Qwen3.5-27B-heretic-v3 (llmfan) - он относительно нормально продолжил RP.
По выдаче на английском BlueStar-v2 поинтереснее оригинала, но поломанность иметься и чуть хуже следует инструкциям карточки.
>>1602183 Таки рили 2 огрызка, но зато новые и дешевые. >>1602412 Это релевантно если хочешь в тп их гонять, чтобы скорость была не днищем. Или катать с выгрузкой, потому что пп упирается в псп шины. Если терпеливый плебс - тогда шина не нужна, потерпишь последовательную обработку. >>1602495 Еще в 23м раскрывали https://characterhub.org/characters/faghat/nvidia-rtx-72352bdd
>>1602552 Речь о том, как изначально задуман инфиренс, исключения редки и касаются фп8 или квантов, совместного применения fp-bf не может быть по определению.
Алсо, это же сколько лет херня с поломанным контекстом происходит, модели на bfloat перешли далеко не вчера. Таки ор.
>>1602480 >потому что 90% людей которые его используют понятия не имеют про что говорят и просто пересказывают мнение дефолтного техноблогера-популиста Тоже самое и с снг-долбоебами, которые без единого аргумента просто начинают высмеивать слово раскрытие.
>>1602560 Тот же экспириенс, но у меня Q5. Больше 64к контекста не играю энивей, это только себе в контекст срать. Блюстар пока что самый лучший тюн Квена
>>1602597 Ты о чём, не тому ответил? У меня ничего не ломается и прекрасно работает до 64к. Дальше начинает повторять целые абзацы и лупится, но я и на инстракте Квена Q5 доходил до 76к максимум, дальше все то же самое. Без пресетика обойдешься
>>1602605 >пук Шизпет натурале. Вместо того чтобы юзать саммари ты дрочишь модель огромным контекстом, а потом жалуешься перформанс. Сука, ебучий абу, кого ты привёл в тред своими постами? Ёбаный рот этого казино блять....
>>1602607 >потом жалуешься перформанс Тебе голову лечить надо. Я нигде не жаловался, только подтвердил что до 64к эта модель контекст держит замечательно. Дальше можно сделать саммари и продолжить. Ничоси, да? Лоботомиту который катает мистральнемо и 10к контекста не понять
>>1602612 Чел, он не разваливается, давно установлено. И чтобы отыгрывать что-то не > "я тебя ебу" контекст нужен по определению. Проведя тесты как работают модели на старом железе, понятно почему тут столько шиллеров микроконтекста.
>>1602613 > Чел, он не разваливается, давно установлено Серьезные люди в пиджачках сказали, ага. Съеби туда откуда выполз, там твои бредни скушают охотнее.
>>1602612 Ну, может у него в начале контекста карточка с сеттингом культяпки на 25000 токенов, а потом еще медитаций на 200000. Половину из которых пишет он сам. Контекст он разный бывает.
>>1602612 Пчел, я его для программирования использую, чтобы он не обсирался в написании кода. Там следование контексту как бы важно. И квен в своих масштабах и задачах лучший в следованию контексту.
>>1602716 Программирование и рп это раздные юзкейсы. Следование контексту в них работает очень по разному. В коде у меня квен тоже спокойно 256к держит, в рп дальше 76к не уходил. Квен правда в своих масштабах лучший по следованию контексту, но возможности его не безграничны
>>1602720 > в рп дальше 76к не уходил Что тебе мешает уйти дальше? Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично, и можно заметить в длинных чатах с ассистентом и подобном. Желание переносить уже имеющееся в контексте на новое, это именно для кодинга актуально, в рп подобным не страдает. Распыление внимания когда пытаешься по огромному контексту зирошотом решить задачу, которая основывается на глубоком его понимании - это неизобежно и решается ризонингом или сложными пайплайнами. Но именно в рп за счет разнообразия, прогресса и в то же время связанности содержимого проблемы могут даже не возникнуть, а если есть - решается промптом. Зато осведомленность чара все хорошо компенсирует. Очень интересно с какими проблемами сталкиваются те, кто жалуется.
>>1602738 > Очень интересно с какими проблемами сталкиваются те, кто жалуется. Мимо, но выскажусь. > Что тебе мешает уйти дальше? У Квена 3.5 27 есть проблема лупинга: он берет целый абзац или несколько из контекста и вставляет их в ответ. Проблема есть как у меня локально в Q5-Q6 квантах, так и через апи как минимум на опенроутере, даже на чаткомплишене. 122б таким, вроде бы, не болеет, но он для рп не годится. Чем больше контекста - тем вероятнее, что проблема произойдет. Если использовать тюны - проблема наступает раньше. Инстракт сухой, слишком ровный, с ним скучно. Мне удавалось дойти на инстракте чуть больше, чем до 85к, потом уже и свайпы не помогали. Проблема проявляется примерно после 50к на инстракте и раньше на тюнах, примерно совпадаю с цифрами выше. Свайпы помогают только до поры, до времени. > Из очевидных проблем большого контекста: накопление паттернов и байасов если есть большое количество повторений, это и само по себе логично Логично, но какая разница, если с ростом контекста модель становится слишком неповоротливой? Этот фактор тоже имеет значение. Чем его больше, тем менее Квен креативит, по крайней мере у меня так. Остановился на 70к с ризонингом, дальше уже весь процесс сводится к тому, чтобы толкать воз через болото. У Геммы, кстати, такие же проблемы абсолютно (и не только они).
>>1602765 Хм, кусок абзаца или фразы есть и на 122б, это часто проявляется в ассистенте, когда оно будто само заучивает шаблон и его постоянно юзает. Причем делается явно осознанно, указываешь на это и просишь не делать тут же перестает, но со временем может набрать новый. Оно не только на конкретные части, а также на общие структуры срабатывает, если в начале ответило подробно с таблицами и нумерацией - на продолжающие вопросы будет также большими ответами срать, пока не сменишь тему или не появится намек что ожидается более короткий ответ. Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет. А если подряд просишь "давай еще, еще, и такое" - сразу накапливает. Создается впечатление что просто читерит и воспринимает повторяемые части сообщения как тот же вызов функций, которые сами по себе должны повторяться. В той или иной степени это у всех моделей есть. Но в рп подобного не ловил ни разу. > слишком неповоротливой А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой. Оно может и на малом контексте произойти.
>>1602456 >The NVIDIA GeForce RTX 5060 Ti features a memory bandwidth of 448 GB/s То есть вы серьезно на это говно прогреваетесь? Это ж чуть ли не уровень 3060. v100 32 будет лучше по всем параметрам за ТЕ ЖЕ деньги (а 16 гб версия в ТРИ раза дешевле в полном обвесе, при этом память у нее почти В ТРИ раза быстрее). Это для ллм. Но я даже не удивлюсь, что в полновесных картинкосетях v100 будет ненамного медленее.
Причем блять еще им смешно про "раскрытие", какие-то говномемы для игрулькиных вспомнили. Головой подумайте, если ты берешь 16 Гб, то у тебя и для обработки контекста в нормальных квантах ллм, и для всех нормальных картинкосетей, будет происходить блок свап. Какой блять смысл в твоем ниибаться мощном чипе, если половину времени он будет простаивать в ожидании блока с рам?
>>1602778 > будет лучше по всем параметрам за ТЕ ЖЕ деньги Там вот такой порнографии точно не будет. Если поднапрячься то на паре можно и забыть про gguf как явление. Решил вернуться к вопросу ригозамещения, все очень печально. За 38к - пойдет, но брать ее по текущим ценам - безумие. > блок свап При здоровом соотношении между сложностью расчета-объемом подгружаемых весов и здоровом асинхронном коде можно обеспечить почти полную загрузку.
Кто там пиздел про "вайб-кодинг"? 10 часов провёл сегодня с агентом - открыл для себя экспириенс. Да, код самому писать не надо, а вот работы ничуть не меньше. Конечно, можно замахнуться на такое, на что раньше и руки-то не поднимались и в целом производительность сильно выше, но про вайб-кодинг - пиздёж. Именно вайб-кодить может только полный нуль в программировании. Ему хорошо.
>>1602769 > Можешь показать эту штуку? Приложил лог, выделил повторяющийся абзац. При этом, если его вырезать, повествование выглядит органично и как надо. На пикриле в контексте 66к, далее повторяемых фраз, абзацев становится все больше, до тех пор пока не начнут повторяться целые аутпуты. Все Квены 27 болеют этим. Пожалуй, это единственный сильный его недостаток, в остальном я по-прежнему считаю, что Квен 27 > Гемма 4. Такое и раньше бывало, на других моделях. Такое удивит только если совсем недавно вкатился. >>1602776 > Оно не только на конкретные части, а также на общие структуры срабатывает Да, может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари, если они структурированы. > Очень зависит от содержимого чата, если там диалог с переключением тем и содержимого (хотябы в последнем участке) - ничего из этого не будет Все так, но сама природа рп довольно репетативна. На пикриле, например, парой аутпутов ранее произошла смена сцены, места действия, прибавились новые лица. При этом проблема никуда не делась. Допускаю, что если бы ранее в чате этих смен действия было больше - проблема отсрочилась бы еще на какое-то время. > А не думал что это не только с контекстом связано? Бывает просто сочетания в которых модель подтупливает и развивает не туда, лечится сменой модели или играми с промптом/разметкой. Можно раздуплить инструкциями, но ненадолго. По мне это прямая зависимость: чем больше контекста - тем вероятнее наступит проблема. В любом случае я доволен, ни одна другая локальная модель доступная на моем железе не держит контекст так хорошо, как новые Квены.
>>1602787 >Там вот такой порнографии точно не будет. Ну большие контексты это отдельная песня, там вообще лучше без жоры, по идее.
> За 38к - пойдет Возьми две 16 гб карты, хехе. А вообще была же опция новых 2080ti@22 год назад за эту цену. Там память тоже быстрее 5060ти, и интовые тензорные ядра в наличии (но бф16 нет). У меня вот одна такая прямо около коврика с мышкой сейчас лежит, иногда вентиляторы ей покручиваю.
>почти полную загрузку На моей третьей x8 псине была недогружена постоянно. 3090 показывала себя лучше, тупо наверняка из-за того, что памяти больше и меньше трансферов нужно.
>>1602800 А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит.
У меня такой хуйни как у тебя нет, и я подозреваю, что подобная шизофрения это кал в промте, типа когда даёшь инстракт в духе "вивидь как ебанутый, пешы большы текста мраз." Ну и модель видит, как ей кажется, удачный блок и напохуй копирует его. Главное что вивид и текста много, а на цельность и гармоничность повествования похуй, но не потому что модель плохая, а потому что нейронные мозги немного спеклись от объёмов обрабатываемого текста.
Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста. Похожие конструкции да, встречались, но просто кусок копипаста посреди текста это что-то за гранью.
Впрочем, я второй блюстар сразу забраковал, когда он мне вместе отыгрыша персонажа стал срать непонятной хуйнёй, хотя первая версия справлялась с удерживанием этого же чара вполне пристойно. Иногда тюнеры срут себе в штаны.
>>1602800 > может часть описания персонажа выдать посреди аутпута или даже инструкции или саммари Не, вот это вообще и близко не ок, явная поломка. Встречаются повторения "успешного" ответа, но анлерейтед вставок никак не может быть. Хм, твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть.
>>1602814 > А тебя не смущает, что твоя Мио каждый блок текста начинает с "карактер_нейм ду сомфин анд некст сентенс"? Это своего рода тоже рипит Ты это понял по выборке из целых 2 (двух) аутпутов? Нет, не смущает. На данном персонаже фокусируется повествование в данной конкретной сцене, что длится несколько аутпутов. > Алсо у меня такого как у тебя вообще ни разу не было, даже когда я упирался в свой привычный лимит в 40к контекста Речь про 50к и более. Прежде чем врываться в обсуждение, будь добр понять о чем оно. До 50к у меня вообще никаких проблем нет и все устраивает.
>>1602804 > там вообще лучше без жоры Даже ллама не так сильно замедляется на блеквеллах. Хз, v100 была годной темой для вката за исходный ценник именно за счет него и объема памяти. > третьей x8 псине Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd.
>>1602821 > твой пикрел тоже выглядит как серьезный косяк. То о чем писал предполагает повторение того, что технически уместно и подходит, например описание окружения, какое-то побочное действие (обнимает/моргает/накручивает волосы на палец/...) и подобное. Но никак не целый огромный блок диалога и основных действий, жесть. Проблема и на апи существует. В англоязычном комьюнити проблема известная. Читал отзывы, что без ризогинга Q4 кванты такое могут делать уже на 8-10к контекста. Не знаю, связано это с кешем или имплементацией в принципе.
>>1602824 У тебя богатое воображение. Стало понятно когда ты упомянул Блюстар, хотя это не он. GIGA, анончик. Не проебывай контекст и думай что пишешь.
>>1602825 Я мыслями еще там, где кумят на 70B лламе, а энти ваши огенты с гигаконтекстами мне непривычны. >Это все равно что в не самой древней платформе на чипсет посадить, скорость попсовых ssd. Я даже хз хорошо это или плохо. Но энивей карта не раскрывается на таком конфиге.
>>1602827 > Проблема и на апи существует. В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть, в пиковые часы модели ужасно тупеют, флагманские модели буквально могут залупиться повторением одной фразы, ужасно тупить, давать поломанный русский и т.п. Это не значит что проблемы нет, но есть шанс что ее наблюдение там имеет ту же природу. И в любом случае это серьезный косяк, хорошо бы если его можно пофиксить. Тип кэша в параметрах менял? >>1602832 > карта не раскрывается Как вариант - можно батча навалить. Усложнит расчеты и увеличит выхлоп, количество подгрузок не изменится.
>>1602822 >Ты это понял по выборке из целых 2 (двух) аутпутов? а то будто уникальный аутпут ниибацца, никогда такого не видели любые маркеры чара/хода/итп сваливают сетку в структурный луп, равно как впрочем и глинты и прочий слоп. только человеческий текст не загоняет. рпхряки как обычно соснули у книгобогов.
>>1602835 За копейки я его использовать не буду. Вот когда будут кидать по 100 рублей за 1к потраченного контекста, тогда подумаю. >>1602839 >Ты это не мне пиши, а тому, кто скрин кидал. Сорян, не отличил пользователя "Аноним" от пользователя "Аноним". Впредь буду внимательнее!
>>1602838 Не угадал. У меня вся чатхистори в первый ход парсится и никаких маркеров нет. Кстати, что ты забыл в данном треде? С твоим что-то случилось?
>>1602837 > В рамках сомнения - там квантуют кэш безбожно и подсовывают квантованные веса вместо оригинала. Такое и на корпах сейчас есть Всегда было. Согласен, что по апи ориентироваться - так себе метрика, но тогда уже непонятно что брать за референс. vLLM/SGLang? У нас на весь тред в полных весах тот же Квен 27 запустят всего несколько человек, отпишутся еще меньше, попробуют его в рп на длинном контексте и отпишутся - и того меньше. > Тип кэша в параметрах менял? Q8 не пробовал. Предпочитаю не квантовать, контекст и без того легкий. Возможно, стоит попробовать BF16, но я не знаю, жив ли он в Жоре и будет ли нормально работать на Куде 12.4 и 4090.
>>1602847 пфф чар у тебя говорит “I can walk! I can walk!”. а потом юзерское "Not a word about it, Mio. Not a word. This never happened. Yeah. It never did." и ты думаешь что модель не подхватит паттерн? и я уверен сквозь всю чатхистори большая часть параграфов начинается с {чарнейм} + глагол как анон заметил. это тот же самый маркер считай только без разметки.
>>1602856 > что брать за референс В данном случае он не то чтобы обязателен, потому что наличие проблемы с кэшем очевидно. > Q8 не пробовал. Предпочитаю не квантовать Попробуй `-ctk bf16 -ctv bf16`. На 12.4 и аж 4090 оно точно будет прекрасно работать, главное чтобы ллама корректно это воспринимала. Вон на реддите пишут что разница есть.
Mistral-Medium-3.5-128B - говно ебаное. Держу в курсе. На кум не просто не разводится, он будто у него нахуй вычищен из контекста. Отвечает очень плохо. Дерьмо в общем.
>>1602864 На реддите даун, который один промпт пару раз запустил и словил рандом от сида, а теперь это на кэши валит. Долбоеб какой-то, а все обсуждают.
>>1602502 Шиз, ответы все рандомные. Жмешь по 100 раз перегенерить хоть на bf16, хоть на q4, получаешь рандомные ответы, когда-то дерьмовые, когда в точку, на то он и великий рандом. Ты по ходу не вкурил как llm работают и повторяешь за тем дауном с реддита.
>>1602873 вот семплеры и шаблон. Семплеры рекомендованные самим мистралем, шаблон собран на базе встроенного шаблона который при стартe жора выдает. >>1602879 могу спросить у неё что захочешь и как захочешь поменять параметры. Я с ней ебался-ебался - нихуя вообще путного не выходит. Не просто плохие ответы, а прям мусор ёбаный. И да, жора только вчера собранный, самый свежий.
>>1602878 Ты о чем вообще? Постов на тему несколько, есть и замеры, и аналитика, и отзывы, которые едины в тем что bf16 работает лучше чем fp16. Можно было сказать что это то же самое как опции swa, которые только меняют кэширование не трогая поведение, но здесь в основе вполне очевидное и серьезное основание. >>1602884 Бляя, пост легенды. А куда потерялся ризонинг?
>>1602884 >вот семплеры и шаблон Творческое письмо на t=0.48? Вряд ли. Попробуй хоть 1 поставить что ли. И XTC покрути. А вообще везде же пишут, что ещё по сути нет поддержки и на мало-мальски длинных контекстах модель ломается.
>>1602892 >А куда потерялся ризонинг? я не знаю.... я указал же все правильно в параметрах, но ризонинг она не выдает вообще хз почему... >>1602898 я с 1 и начал. Там было вообще пиздец. Вот что она выдала на t=1. Там вроде рекомендуют максимум 0.7 ставить.
>>1602898 То есть содержимое 3-го скрина тебя не смутило? >>1602905 Не указал. Там должен предполагается префилл префикса на него, но даже без него при наличии опции в системном модель сама начинает. Почини разметку.
>>1602864 > Вон на реддите пишут что разница есть. Нашел посты анонов, которым показалось что с bf16 лучше, но пруфов или каких-то бенчей не нашел. Поделись если у тебя есть. Позже попробую сам с bf16, может отпишусь. >>1602884 Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть? На третьем пике очевидно, что разметка сломана.
>>1602909 я пробую добавлять префилл, но она размышление заканчивает и не закрывает <think>. И соответственно, не выдает ответ. >>1602912 >Ты же в курсе, что у тебя на втором скрине и не разметка вовсе, а лишь ее часть? см второй пик. У меня кроме шаблона контекста больше никакие шаблоны не включены. Ну и префилл <think> вот я только что поставил
>>1602912 > но пруфов Там перплексити замеряли. Если копнуть глубже - еще на этапе разработки квеннекста на гите делали сравнение логитсов с трансформерсами и наблюдали большие отклонения. Последующие фиксы и смена дататипа кэша разницу сокращала. Похоже что bf16 в релиз не включили, что очень странно. Конфликт дататипов вообще вещь слишком очевидная чтобы требовать ее доказывать. >>1602915 Чето в голос, воистину легенда.
>>1602920 ну мы же оба знаем, что хорошая модель хороша, как её ни запускай. А хуевая не выдаст нормальный ответ даже если ты разработчиков в жопу взасос поцелуешь. Я наконец понял, почему она упорно отвечает про тор. Потому что она воспринимает слово кружка как круг блять. Ну.... это очень плохо. Очень жидко. Не годится вообще никуда.
Проклят это мистраль, все ггуфы поломаны, другие типы квантизации в основном тоже, либо какая то ебанутая экзотика по типу mlx который мне не на чем катать
Тут отписывался человек с 1050ti. В общем хорошие новости для него и прочих анчоусов без видимокарт. Любопытства ради запустил Гемму 26b в Q8_0 на проце, без выгрузки, и... ЖИЗНЬ ЕСТЬ. 8,6 т/с на старом кукурузене и ддр4. В общем выкидывайте свои 8b на помойку и используйте нормальные ЛЛМ, а то чо как эти а я пойду дальше с квенчиком 235b кумить хе-хе-хе
>>1602930 >ну мы же оба знаем, что хорошая модель хороша, как её ни запускай Я любую модель заставлю нести бред, кинув туда свои нефильтрованные мысли выкрутив температуру и XTC на максимум (и забыв про отсекающие семплеры). Плюс известно о деградации моделей даже от мелочи типа "в шаблоне был токен, обозначающий два перевода строки, а модели отправляют два отдельных токена на один перевод строки". Так что нет, не согласен, хорошая модель конечно будет стараться, но вполне себе деградирует до лоботомита 0,3B при кривых параметрах. >>1602936 >все ггуфы поломаны Как будто с другими моделями не так. Вон, у геммы то кеш отваливается, то кванты анслоша снова конвертят bf16 в fp16, лол.
>>1602930 >Потому что она воспринимает слово кружка как круг блять. Ну собственно у меня не так. Иногда верно отвечает, иногда тупит, но никаких кругов у меня не обнаружено.
>>1602800 Я смог побороть это на квене. Нужно менять порядок семплеров (можно и не менять, но так лучше получается) и адски пердолиться с остальными семплерами.
Например, у меня квен точь-в-точь не повторяет обычно при консервативных семплерах, но повторяет по смыслу, используя другие слова, что бесит.
Смена порядка семплеров и их настройка полностью убрала эту хуйню, но вот насколько мозги просели — большой вопрос. Так как у меня т/с довольно уёбищный и не идеальный английский (могу упускать нюансы шизы и мелкие проебы модели), тяжело тестировать, ибо хорошее тестирование не за зирошоте, а на контексте, превращается в ад с ожиданием. Поэтому я вернулся к более консервативным настройкам пока что, ибо нет времени на пердолинг.
>>1602994 А мог бы не использовать блюстар и не было бы проблем, шизло У меня на привычных 16к контекста никаких проблем нет Не удивлюсь если у тебя и в промте насравно впридачу.
>>1602999 Я другой чел. У меня такая вот хуйня на 3.6 квене, иногда на 3.5.
И какие 16к контекста? Ты какой-то биокарлик? Моё РП для кума — это 32к по стандарту, потому что сло берн, разговоры. РП без кума 65-80к контекста. Говнокод работа с текстом — от 128 до 200к.
>>1602930 > хорошая модель хороша, как её ни запускай Против кадрового офицера никакая модель не справится. > воспринимает слово кружка как круг блять Что-то капитально взорвано и модель не в адеквате, или эмбиддинги порвались. > Ну.... это очень плохо. Очень жидко. Не годится вообще никуда. Это даже для 0.8б пиздец. Но тебя не засмущало и уже делаешь выводы. >>1602998 Если перейти с q4_0 на менее протухшее, то разрыв окажется больше.
>>1603004 Ты просто инвал не умеющий в настройку. Тебе уже несколько людей в треде сказали что у них такого нет. А ты всё срёшь в штаны и вайнишь на модель.
>>1602994 Уверен что это не просто совпадение? Квен он такой, та же самая модель может быть суперахуенной, а потом тупить что стукнуть хочется. С другим типом кэша ничего не изменилось?
>>1603010 Ты забываешь что всегда есть рандомное зерно геyенрации. Тебе может понравиться цепочка ответов с одним seed`ом и не понравиться с другим. И тогда ты начинаешь искать несуществующие проблемы.
>>1603010 Это как и с генерацией картинок. Найдя тот стиль и логику которые тебе наиболее близки, ты можешь попробовать зафиксировать seed и добиться единого стиля
>>1603021 > тогда ты начинаешь искать несуществующие проблемы Кто ты? О поиске каких проблем речь? > зерно Понятно что это базовый перевод, но с этого каждый раз проигрываю. >>1603022 Полнейший бред. Нейробот, для тебя в прошлом треде еще промпты оставляли.
>>1602998 Окей, с такими бенчами и текущей ценой на 32гб v100 2х5060ti выгоднее. Но две 16гб версии стоят дешевле, чем одна 5060ти. И ты получаешь в два раза больше памяти. Тут уже не все так просто. Вообще вот я накидаю вариантов: [32гб] 2х5060ti = 80к [32гб] v100@32 = 60к (полный обвес с радиатором) [32гб] 2х v100@16 = 34к (полный обвес с радиатором) [36гб] 3x 3060@12= 60к [44гб] 2x 2080ti@22 = 60к
Можно еще придумать всякие комбинации из этого (только не блеквеллы с теслами, гыгы звуки грустного тромбона)
Погонял мистраль новую в обычных чатах на русском языке, задавал загадки и просил накодить что-то ваншотом. Что могу сказать. Русик хуевый, могут лезть французские слова, проебывается разметка markdown, да и путается в сущностях и галлюцинирует. Кодит вроде и неплохо, на уровне минимакса, но нахуй оно надо. Пеликана сгенерировать не в состоянии, получается какое-то месиво. В рп же отвечает сухо без шизопромпта, реагирует вяло и лениво. Если же запустить с eagle моделью, то качество падает ещё ниже до уровня пережаренного q2 квена 27b. Хуй знает, может, билд vllm косячный, но с остальными моделями такой залупы нет на той же версии. Ждём 0.21.0, где часть косяков инференса могут закрыть. А вообще, залупа. 19 tps на пустом контексте, с eagle моделью становится 37 tps, но качество падает разительно. Не знаю, кому нахуй такое счастье нужно, которое забирает 192 гб, из-за чего доступно 131к контекста. Тот же квен 27b в fp8 показывает себя лучше, так и работает намного быстрее, да и контекста хватает на несколько запросов с фулл контекстом. И это я на сою и отказы не тестил, не удивлясь, если окажется хуже квена. Если что, я тестировал оригинальные веса в fp8.
>>1603027 > две 16гб версии стоят дешевле, чем одна 5060ти В рамках бюджетных сборок с сильным упором на прайс - да, они однозначно имеют право на жизнь. Но в остальном есть смысл переплатить за блеквеллы. Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить. >>1603029 > с eagle моделью, то качество падает ещё ниже Оно не может влиять на качество аутпутов. Расскажи подробнее что за пеликан, что за тесты и сущности?
>>1603030 Я месяц назад заказывал карточку у норм продавца, пришла в норм состоянии. Просто не надо у мутных с нулем отзывов заказывать, а то платы от лифта получишь зато без ошибок памяти Ну так-то дело сугубо анонское, я вот благодаря этому треду полюбил всякую некроту, в этом какой-то даже челлендж есть (но не уровня ми50, до этого мне далеко лол), а так если деньги не жалко, а ждать жалко, то и покупай самое новое. >>1603033 >Обмазавшись нейронками можно попробовать и тензорпараллелизм для комфи навайбкодить. Он уже есть же, raylight. Только нужна оч быстрая псина, а еще лучше p2p драйвера
>>1603033 > Оно не может влиять на качество аутпутов. Я в курсе, но какая-то хуйня происходит, если подрубать eagle модель. Прочитал репу, там mistral обрсрались с конфигом, из-за чего модель могла идти по пизде. Придётся перетестировать.
>>1603043 Ух, чертовка, с козырей заходит! >>1603047 Хм, интересно как оно ломает? В вллм хз, но в sglang спекулятивный вещи работают все стандартизовано, да и тут как может именно инфиренс поломать? Хотя с хуангооптимизациями и не такое может быть.
>>1603058 Если ето правда, то зерофате лучше нормально тюнить квен36, иначе пизда ему. Второй блюстар неюзабельное говно. Раньше было лучше. Первый блюстар охуенен.
>>1603065 Наш опчик не такой. Если бы делал то там были бы ультрабазированные модельки с художественным русским и канничками, а не это васянослопище с "задонатьте мне пожалуйста".
>>1603075 >"задонатьте мне пожалуйста". У него литералли ни на одном тюне нет никаких ссылок для донатов. Чел на энтузиазме делает и тебя юзать не заставляет. Всегда ахуеваю с полупокеров которые даже на таких людей срать умудряются.
>>1602800 Вот именно блять. И зачем мне такая модель даже если мне нравится как она пишет? У меня с начала чата такие приколы, 3 сообщения подряд перс может подойти к шкатулке и открыть её, и он так и будет это делать если не двинешься в другое место, а я не хочу, я хочу в этом конкретном месте быть. Если в других моделях так же то это совсем не заметно, а тут я сразу заметил и обрыгался
>>1603078 Кофай главной ссылкой в профиле, ну > даже на таких людей > даже Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели. В этом нет ничего плохого, но и хорошего тоже.
>>1603088 >Кофай главной ссылкой в профиле, ну Это не то же самое, что настойчиво срать этой ссылкой везде где можно. >Ор выше гор. Сферический васяныч в вакууме из палаты мер и весов, видно по страницам модели. Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде. Чел мне Квен починил и Гемму 26, так что да, я ему благодарен. Тут такая позиция презирается и стыдна?
>>1603088 >Кофай главной ссылкой в профиле, ну Зайди на страницу Драммера или других слоподелов. Там ссылки на Патреон, Дискорд, "отзывы" и прочий мусор, словно ты через минуту попадешь в городскую секту сумасшедших. Олсо у Зерофаты действительно на страницах именно тюнов нет никаких ссылок и призывов.
>>1603091 >Не то что благородный, умный, образованный и полезный для комьюнити постер на анонимной борде Ты че? Тут каждый второй уже и бартуху попустил, и всех на ком вся наша локальная шизодвуха держится. Каждому виднее. >Чел мне Квен починил и Гемму 26 С Геммой есть вопросы, но насчет Квена соглашусь. На инстракте так много я бы не отыграл. Но и доказать мы тут вряд ли что сможем, по ту сторону все оч просто: любые тюны - васянство, ну кроме может Синтии, которая на практике тем еще дерьмом оказалась.
>>1602662 >Снова будет база как и Мерочка Так меро вышло говном, какая нахуй база? Это буквально та же самая гемма вообще без изменений. От детальных описаний сливается, характеры не держит. Два дня её гонял, никакой разницы не заметил, вернулся на дефолтную 26B
>>1603091 > такая позиция презирается и стыдна Дьявол в деталях. Благодарность юзернейму за то что его модель нравится не смотря на происхождение - хорошо. Обсуждение по сути плюсов и минусов - хорошо. Агрессия на правду "мой протык не такой потому что я словил утенка" - осудительно. Васян, штампующий щитмиксы треня лоры через аксолотль потому что под него уже есть выложенные датасеты, а не потому что он оптимален, буквально редфлаг васяна, это как мерзкий дождь осенью. Можно злиться, можно насмехаться, можно любить и получать пользу, но сути не меняет. Если раньше это был совсем рак убивающий, то сейчас организм кое как приспособился, но это не делает им чести. >>1603094 Хм, наверно среди них он действительно выглядит хорошо с этой точки зрения. Просто уже открыв ридми ловишь кринж, они реально думают что это выглядит круто? > "отзывы" Сделал мой вечер, каждый раз как в первый.
>>1603091 >>1603094 Двачую адекватов. Если бы не рп-тюны я бы так и юзал нейронку только для вопросов как пройти в библиотеку. Или вообще юзал говнокрыс. А так у меня теперь есть +одно забавное хобби о котором не принято упоминать в приличном обществе. И у меня теперь есть вы, серуны окумевшие.
>>1603103 Это скуфандрии с хабра скорее всего. Только там могут посоветовать купить мак под нейронки, потому что унифайд мемори и "купил, воткнул, заработало"
>>1603103 Dies from cringe. Ярлыки это плохо, но здесь просто эталонный потребитель опасных моделей. Возникла ассоциация с любителем несвежих паскалей из треда выше, но тут такое дно, что кажется такое сравнение будет оскорбительно А еще он pdf, на скрине видно! >>1603107 А купил ли его кто-то в итоге? Вроде была куча обсуждений и порывались заказывать, отписывались? >>1603109 > Амуде разве пиздеть будут? > где в названии фигурирует МАКС Содомитище!
>>1603010 Не, это прям база. 3.6 квен большой любитель лупов, натуральный мистраль от реди арт в РП, а вот именно 3.5 крайне редко лупится, там почти ничего крутить не надо а семплерах, только иногда.
Это я про инстракт модели. Когда я блю стар попробовал, то через пару минут его удалил, ибо он сразу меня калом окатил. Было понятно, чем кончится. Правда, пишет он куда приятнее в целом. Возможно, попробую снова, но уже с пердолингом, потому что 3.6 откровенно плох в рп.
>>1603142 >This model has a slightly better swipe diversity and a less flowery / verbose writing style. Нахуя... зачем... Главная проблема геммы это её безобидность из-за которой на ней можно только ваниль катать с фемели френдли описаниями по типу "она взяла тебя глубоко, её дыхание участилось, зрачки расширились" без всякой конкретизации что она взяла, зачем она это взяла, и главное чем именно она меня взяла.
Есть нищий ноут, видюхи нет, проц более менее средний и 16 гб озу. Хоть какая нибудь модель на нем в теории сможет запуститься и работать локально или мне придётся лезть только в онлайн?
>>1603158 >Хоть какая нибудь модель на нем в теории сможет запуститься Может, список мелкомоделей есть в шапке. Но учитывай что многого от мелочи лучше не ждать.
>>1603158 Эту попробуй в iq4_xs, она 12.9 гб весит, как раз почти по лимиту памяти https://huggingface.co/mradermacher/gemma-4-26B-A4B-it-abliterix-v6-i1-GGUF Своп файл включи и может влезет целиком в память, вытеснив компоненты винды, запускать только через llama.cpp для проца с обязательным --mlock. Если слишком тормозить будет, бери qwen 3.5 4b, тот-то точно должен влезть в 2.5гб, но он похуже гемки.
>>1603158 Этого >>1603165 шизика не слушай, у тебя всю память сожрет и система встанет намертво. Подкачка включится сто процентов, тогда и скорость процессинга/генерации упадет и винда начнет тупить с ебанутыми задержками.
>>1603166 Шизик, я на 32gb модели по 29гб запускал на проце, система не встает намертво, модели работают. Винде нужно 2-3гб примерно свободной памяти, она норм работает, если своп файл включен. Если не включен, тогда только падает. --mlock как раз для того чтобы не пыталась винде за щеку в своп напихать, а грузила все в рам.
>>1603168 Ну так давай с тобой вместе и посчитаем, сколько будет потребление. Сам квант 13 гигов, плюс контекст который пиздец жирный, и даже если квантованный то займет минимум два гигабайта и... пу-пу-пу... сколько там системе гигабутов осталось?
>>1603172 Там ему на пару вопросов задать ,там нет контекста. Потом контекст можно в q4_0 упаковать и уменьшить чекпойнты для него до 1-2, тогда мало займет.
>>1603172 Алсо вот эту запускал на 32гб рам, она весит 37.1гб Qwen3.5-122B-A10B-heretic-v2.i1-IQ3_XXS.gguf Ничего не висло, скорость ответов медленная, но терпимая 2.66 токена/c. Так что ты хуйню гонишь.
>>1603176 >Там ему на пару вопросов задать ,там нет контекста. Вот тебе откуда знать сколько вопросов он задавать собрался? Он вообще не написал для чего ему нужна локалка, может он в рп собрался? >контекст можно в q4_0 упаковать Даже если что-то можно сделать, не значит что это стоит делать. >чекпойнты для него до 1-2, тогда мало займет Даже так займет минимум гигабайт-полтора. Будет впритык, а значит кроме самого инфирнеса, который итак медленный, ты больше нихуя за компом не поделаешь. Ни вторую вкладку нормально ни открыть, ни тем более видос какой-нибудь, пока просчет ишачьим темпом идет.
Знаешь что еще можно сделать? Какой самый крутой способ оптимизации? Взять модель поменьше. Да, вот так просто.
>>1603184 С файлами тебе контекста не хватит, он память жрет. Контекст обычно ограничен 32к или даже меньше. Хватит на задавание вопросов, например как что-то собрать, ролеплей, табличку с анализом одиночного вопроса еще может вывести, несколько уточняющих вопросов подряд в одной беседе. Все остальное - ставь 32-64гб памяти в свой ноут, тогда еще потянет. Или собирай большой комп, там это подешевле. На 32гб рам у меня контексты до 65к и больше спокойно выходят.
>>1603186 Если есть проблемы, отключаешь --mlock и ставишь --mmap, память для контекстов освобождается, модель все еще работает. Но лучше сначала с mlock попробовать, он побыстрее.
>>1603190 Лучше взять модель меньше, а не заниматься вудуизмом пытаясь впихнуть невпихуемое. Ту же гемму но 4EB например, даже восьмой квант на ней всего 8 гигов весит. Будет тупее 26B? Будет тупее. Будет сильно тупее чем 26B в четвертом кванте и четырехбитном контексте? Не особо и сильно.
>>1603167 >Что сейчас для локального кода лучше всего? Квен 3.6? На потребительском железе - пожалуй да. Плотный. Если врам+рам побольше, то вариантов уйма.
>>1603188 >>1603196 в теории можно делать оконную функцию которая будет обрабатывать файлы частями. или ллм будет читать/писать файлы при помощи питоноскриптов (писать скрипт для обработки файла который будет выдавать минимум контекста)
Нубас в треде. Про РП уже понял. Насколько хороши языковые модели для изучения языков? Цель изучение английского, перевод и объяснение отдельных слов и фраз и исправление ошибок в моих текстах. Какая из моделей лучше для этого? рам 32гб + врам 12гб, установлены LM Studio, Unsloth studio
>>1603158 <think> Пользователь просит подсказать модель, но в шапке уже есть гайд для новичков и список моделей под любое железо. But wait... возможно пользователь слепой или у него низкий IQ.. But wait я должен вежливо 专业的 ответить на запрос без лишней воды. Lets go </think>
Добро пожаловать в тред! В шапке ты найдешь ответы на все свои вопросы ☺️
>>1603224 Надо большими красными буквами двач так может написать, что вес мое модели должен умещаться в совокупный объём памяти юзера, а вес плотной модели в объём памяти видимокарты. Тогда и все вопросы про "а у меня влезет?" отпадут. Ну что поделать если нюфак всегда не умеет читать. А даже если читает то не понимает.
>>1603228 >вес мое модели должен умещаться в совокупный объём памяти юзера, а вес плотной модели в объём памяти видимокарты Не совсем так. Помимо того что сама модель должна уместиться, нужно ещё место на контекст + браузер и ОС тоже отъедают память. А контекст у разных моделей весит по разному. А на некоторых моделях нужны дополнительные настройки для корректной работы (SWA на той же Гемме). Поэтому хочет нюфак или нет, но ему ПРИДЁТСЯ курить гайды и разбираться.
>>1603230 Ну, такой текст должен будет в первую очередь дать понять базу, так сказать, типа стоит ли вообще кнопки нажимать или сразу идти нахуй проходить мимо. Да и для первого hello world с нейронкой контекст будет не нужен. А вот уже потом, если понравится и втянется, будет задавать точечные вопросы о настройке.
>>1601824 Это изображение является персонификацией (антропоморфизмом) различных искусственных интеллектов. Автор решил представить каждую нейросеть в виде женского персонажа, чтобы визуализировать их «характер», происхождение или предполагаемую специализацию.
Возможные смыслы: География и культура: GigaChat представлен в русском стиле (так как это российская модель), Qwen — в строгом азиатском деловом стиле (китайская модель), Mistral может олицетворять европейский шик (французская модель). Контраст «версий»: Интересен контраст между Gemma3 и Gemma4. Если Gemma3 — это консервативная монахиня с книгой о феминизме (что выглядит как ироничный комментарий к цензуре или этическим фильтрам ИИ), то Gemma4 представлена как максимально раскрепощенный персонаж. Это может быть метафорой «снятия ограничений» (uncensored) в новых версиях моделей или просто шуткой о том, как одна версия сменила другую. * Спектр возможностей: Разнообразие одежды (от спорта и бизнеса до религии и фольклора) символизирует универсальность ИИ: способность быть кем угодно — от строгого помощника до творческого собеседника или провокатора.
Итог: Это ироничный «портрет» современного состояния индустрии LLM, где каждая модель имеет свою «личность», культурный бэкграунд и уровень «открытости».
>>1603236 Так это святой грааль всех локальных моделей. На ней ты запустишь практически что угодно, там скорость памяти ебейшая и объем в 512 гигов, это практически как одна гигантская видеокарта. Только бабок обычно на такую йобу ни у кого нет. Все ждут, пока цены на нее упадут хотя бы до 2к баксов, тогда начнут накупать. К тому же эппл 512 гб модели перестала делать из-за нехватки памяти на заводах. Хз, временно или нет. С такой штукой ты можешь забыть про онлайновые модели, она все в рилтайме локально вывезет.
>>1603236 Под некастрированной моделью ты BF16 понимаешь или жирнейший сочнейший 8 квант? В любом случае смотри сколько весит модель - если влезает в эти 512, то в принципе да. Только в душе не ебу какая там скорость памяти и сколько кило в секунду она пропускает, по этому тоже смотри сам.
>>1603238 >Можно запускать модели чуть большего совокупного размера чем RAM используя --mmap Тогда простите конечно но какого хуя у меня при включенном мемори мапе потребление наоборот в два раза увеличивается?
>>1603236 Оверпрайс жуткий, оно стоило 8к баксов в минималке с 512 гигами, 17к баксов в макс конфигурации. Тогда это было норм. Тут же с тебя дерут 37к долларов, что выходит за любые разумные рамки и уже территория для мажорчиков, которые бабки вообще не считают. Намного дешевле будет съездить в страну, где продают RTX 6000 Pro и M3 ultra на 256 гигов и привезти их оттуда на самолете, еще и лишних бабок куча останется.
>>1603263 Бтв, ты очень хуево смотрел, если для тебя 26б это >отличий от базовой 0? Но если ты любитель Хуйхуй в жопу моделей, то не трать время и на 31б
>>1603236 > Я смогу без гемора полностью не кастрированный квен или дипсик загружать и творить ЧУДЕСА?
А какие чудеса ты собрался творить квеном или дипсиком? Кодить? Как по мне, ты просто проебёшь эти деньги. Поясняю с практического опыта.
1. Единственная открытая модель, которая сносно кодит прямо сейчас - это GLM-5. Вот прям чтобы именно с нуля писала код с логикой по ТЗ. А не задачки уровня "переложи поля из DTO в DTO". Qwen (любой) - просто забей, не может он в код. DeepSeek3 - тоже. DeepSeek4 - ок, не проверял ещё, возможно вот твоя надежда.
2. В эту твою писюльку GLM влезет разве что в Q4, да и то не факт, что под контекст место останется. А Q4 для кодинга - ну такое.
3. А кто тебе вообще будет эти 3кк за разработку сейчас платить? Уважаемый Кабан Кабаныч уже заказал разработку у шараг покрупнее, которые как раз таки закупились нужным железом или купили подписки.
у меня 8vram + 96ram. к примеру я запустил minimax 2.7 IQ3_XXS размером 89gb (да, меньше чем рам, но большие модели я уже удалил). через htop занимает она 76 resident memory, а не 89
продолжаю мучать мистраль медиум прошлая модель была от анслота Q4_KM. Сейчас скачал от бартовски IQ4_XS. Результат не изменился.
Потом я понял, что модель в размышлении над вопросом >у кружки нет дна и верх запаян. КАК ИЗ НЕЁ ПИТЬ? из-за союза И воспринимает его как "у кружки нет дна И верха". Поменял вопрос на >у кружки нет дна, а верх запаян. КАК ИЗ НЕЁ ПИТЬ? Но лучше не стало. Модель короче говно.
>>1603277 Ну вот тогда тебе мой пример, запускал я значит в свое время третью гемму. Она с ммапом в четвертом кванте сожрала 28 гигабайт при 4к контекста. Отключил ммап, оставил только млок, и чудо, всего около 18-19 гигабайт.
>>1603156 Надрочить паттерн большого синкинга потому что он есть в готовом дампе. Это же васянотюн, ну. Возможно лучший из существующих и действительно неплохой, а может просто очередной трешак. Именно из-за самого явления щитмиксов в целом у нас нет нормальных тюнов. >>1603167 Квен, дипсик, кими, дипсик. По нарастающей требования и перфоманс так сказать. >>1603223 Жесть какая! А почему q4_1 квант? Глянул внимательнее - так медиум изначально в фп8 весах, рабочих ггуфов можно не ждать. Идите бунд поднимайте и на обниморде нытье устраивайте что ллама багованная, чтобы создатель снизошел и все переработал. Иначе этот трешняк будет только множиться, новый дипсик на очереди.
>>1603299 >Это же васянотюн >из-за самого явления щитмиксов в целом у нас нет нормальных тюнов. У тебя, не у нас. Адекваты прежде чем судить скачают и попробуют сами. Хорошие тюны есть. Прямо сейчас я катаю именно этот тюн и это Гемма здорового человека. Хуй знает как ты умудряешься быть одновременно умным челом и долбаебом, который даже не смотрел и не знает о чем речь, но уже все решил. Ясен хуй, будь у меня риг, я бы и не лез в это, но что тебе мешает завалить ебальник и катать своего большеквена, не рассказывая о том, что тебе неизвестно, это загадка.
>>1603299 > А почему q4_1 квант? В первый раз был 4_0, сейчас попробовал 4_1. Качается их йобаквант из примера на страничке. В целом как бы и похуй, сижу на гемме и не трясусь
>>1603236 Да но нет. В 512 будет априори квант, но квант приличного качества (или нативная низкая битность). Главный минус что ничего из самых крупных не поместится, нужно уже две таких коробки. И скорости будут относительно низкими потому что компьюта мало. За оверпрайс лота двачую, ладно когда оно за лям продавалось, но тут йобу дали совсем. >>1603274 > 1. Единственная открытая модель, которая сносно кодит прямо сейчас - это GLM-5 Опохмеляться не забывай
>>1603236 > Я смогу без гемора полностью не кастрированный квен или дипсик загружать и творить ЧУДЕСА? Если ты задаешь такой вопрос, то нет, не сможешь. За такие деньги это только для тех, кто столько же тратит на жизнь и развлечение каждый месяц. Если ты из таких - бери и не задумывайся. В остальном двачую >>1603261 >>1603286 >>1603293 Даже боюсь поинтересоваться какая модель "нормальная" в твоем понимании >>1603301 > что тебе мешает завалить ебальник и катать своего большеквена, не рассказывая о том, что тебе неизвестно, это загадка. Двачую. Чел наверняка уже тысячу лет никаких тюнов не катал, но ты считает своим долгом высказаться. Зачем - я тоже не знаю.
Параллельный импорт эти ебланы собираются прикрыть по многим позициям. Не будет оперативной памяти и ссд как минимум. Либо закупаться железом сейчас, либо через 10 лет. Или в другой стране.
>>1603301 Наверно ты по своей наивности не понимаешь что такое васянмиксы. Почему они не могут быть хорошими по определению, всегда будут компромиссы, и почему они - зло. Их создатели - буквально макаки с пишущей машинкой, или средневековые алхимики, кидающие в котел все до чего доходят руки, надеясь что повезет. Они отвергают эффективные подходы и приемы, потому что те кажутся сложными, они не создают ничего нового - только все те же сырые дампы с проксей, а все попытки улучшить сводятся к рандомным действиям и дальнейшим мерджам. Порождаемые гомункулы лоботомированы, но послушны и нетребовательны, что нравится неофитам и работягам. Но это подсаживает их на эту самую легкость, лень и неумение использовать невжаренные модели. Если кто-то захочет создать что-то нормальное среди этого тренда - он будет или вынужден присоединиться к нему и множить слоп, или получит демотивацию от непонимающих масс, это даже крупных команд касается. Если на заре ллм всякого рода тюнов, включая крупномасштабные, было много, то сейчас выходит единицы за год. Потому что высокая доля комьюнити подсела на такое и даже не знает что может быть иначе. > будь у меня риг Тебе не нужен риг чтобы учиться использовать базовые модели, или более легкие миксы с минимумом вмешательства. Или хотябы осознавать проблему и пытаться совершенствоваться самому, чтобы меньше зависеть от этого.
В пизду этот eagle декодинг. С ним новая мистраль почему-то превращается в пускающего слюни лоботомита, который срет иероглифами и неизвестными символами, да и в vllm что-то ломается и tg падает до 6 tps на контексте 50к. Перепробовал разные сборки vllm, где-то нужно указывать токенайзер, где-то будет работать и без этого. А пеликана даже апишная версия не может сгенерировать, да и тупить может, дропаясь до 0,5 tps в некоторые моменты. Короче, модель вроде бы и неплохая, но требует настройки, а то будет работать хуже опасной модели 27b q5_k в жоре. Вот только опасный квен не требует 192 гб vram для запуска в приемлемой скорости, а может крутиться рядом на двух 16 гб картах.
>>1603315 Мимо, но выскажусь. Поддержу анонов выше, считаю, ты не прав. > всегда будут компромиссы Это такю > и почему они - зло. А это уже нет. Это ярлыки и обобщение. > Их создатели - буквально макаки с пишущей машинкой, или средневековые алхимики, кидающие в котел все до чего доходят руки, надеясь что повезет Там ведется вполне осмысленная работа над датасетами. Axolotl и прочие инструменты для тренировки они может и не разрабатывают, зато понимают взаимосвязь вход-выход. А еще они платят за это, потому что у них нет собственного компьюта для тренировки. Как ты думаешь, люди, которые за ошибки платят из собственного кармана, долго будут продолжать этим заниматься, если не понимают, что делают? У Драммера может и есть какое-то спонсорство, но он буквально собрал всех тех немногих, кто готов за это платить, оставив остальных ни с чем. В случае с конкретным челом, чей тюн обсуждают, у него и на кофае (который еще найти где-то надо) никаких подписчиков нет. > Порождаемые гомункулы лоботомированы, но послушны и нетребовательны Чаще всего да, но не всегда. Ты очень обобщил. У тебя нет проблем, которые можно было бы решить тюнами, потому что ты катаешь модели, которые тебя устраивают. И поэтому позволяешь себе такие обобщения. Покатай ты немного больше одного чатика Гемму 4 - офигеешь с того, насколько она слоповая. Квен 27 - сухой и неинтересный, с неестественными диалогами. > Тебе не нужен риг чтобы учиться использовать базовые модели, или более легкие миксы с минимумом вмешательства Речь тут не про скилл ишью или то, что я не могу промптить интрукты - могу и с радостью использую Глмы 4.5-4.7 или Квен 235. Но они недоступны большинству и для кого-то уже устарели. Ты генерируешь негатив на ровном месте, рассуждая о том, во что сам не погружен. Странное поведение.
>>1603323 Ну может излишне жестко высказался, но проблема имеет место быть. И большинство буквально триггерится с того что их кумира, который дай бог продолжит что-то делать а не исчезнет в забытье как сотни таких же, "оскорбили", хотя речь была в общем. Не нужно разрабатывать инструменты для тренировки, хотябы над своей тренировкой подумать. Сейчас столько возможностей, от основ автоматизации обработки данных при подготовке, до самых банальнейших приемов при тренировке типа взять часть датасета немотрона и слегка разбавить тренировочный им (последнее изредка делают). Но увы, будучи в этой тусовке в курсе как печально там обстоят дела. Насчет спонсорства - стараются лутать как могут, самые популярные выходят в плюс. Тут опять же, проблема выстроенной пирамиды, что энтузиасты, например типа того же Зерофаты, пойдет по стопам популярных, будет повторять их тупиковый путь. А когда захочет заглубиться и улучшить - получит непонимание и ноль донатов, которые бы очень пригодились на том этапе. > буквально собрал всех тех немногих, кто готов за это платить, оставив остальных ни с чем Вот, именно оно. Сиюминутное удобство не является оправданием игнорирования и отрицания проблемы. Буквально Индия с ее мусорной проблемой.
Протестил qwen 3.5 9b, как и omnicode на opencode. Впечатление полная жижа, даже с rag не справилась с базовой задачкой. Попытался в qwen3 25 b reap ситуация лучше,но хватает на уровень легких задач (тип базовый astar алгоритм, но не более). На другое уже ноут не тянет(. Есть еще что можно потыкать в надежде хотя на что вменяемое или без шансов ? Железо 16 озу , 6 гб видюха
так поясни если знаешь устройство этой хуйни например идет ли оперативка только под 8471 70 или как-то ещё можно её провести. для ссд я нашел 8523 51 100 0 т.е. по логике всё равно ввезут
>>1603350 Без проблем. Создавай тред на пораше, там мы это и обсудим, если ты не понимаешь как работают параллельный импорт. А срать в треде не нужно, не по этим темам он.
>>1603348 >qwen 3.5 9b >omnicode >qwen3 25 b Почему не qwen 3.6? Щас бы старье тестить на современных реалиях. Все производители обновили модели специально под агентное использование. >16 озу , 6 гб видюха С таким хламом на что-то реально полезное локальное можешь не рассчитывать. Только облака.
>>1603361 Какойад >>1603370 То что новый дипсик не лучше 9б квена - странно. >>1603381 А чего ты ожидаешь, знаний аниме-фандома от ллм общего назначения?
>>1603384 >знаний аниме-фандома от ллм общего назначения Ну как бы... да? Квен же разложил эту картинку на атомы, правильно назвав персонажей и даже выкупив рофл. Почему все остальные даже 1(ОДНОГО) персонажа не могут назвать верно?
>>1603390 Квен молодец, но больше повезло. Знания аниме персонажей у обычных сеток очень слабые, только самые популярные и в явных образах. Если тебе именно нужно использовать для датасетов - дай вводные, или используй предназначенные для этого.
>>1603384 А что за проекты ты делал на нейронках и какой это формат был ? Система из агентов или совместная тема ?Касаемо deepseek я бы сравнил даже ближе как комбу qwen 3.5 9b + qwen 3 25b reap , у 9b размышления лучше, а 25 имеет базу лучше кодовую.
>>1603369 Ахах, бля а ведь она квеночку пристыдила во втором пике ведь квен то именно в офисном костюме!! Не ну это АГИ, умничка прям знает и понимает с кем нужно конкурировать.
>>1601740 (OP) подсел на фап посредством генерации текстовых историй. Развлекался локально на 16гб врама неделю, тупо фапал на текст и свою фантазию, давно я по несколько раз за день не дрочил. Из моделей что пробовал, больше обдрочился с Cydonia 24b и Magnum diamond 24b. Какие еще есть гемы среди моделей, которые влезут в 16гб врама?
>>1603376 К сожалению приходится их терпеть. В моем доме только они дают гигабит. Все остальные не больше 100мбит. Правда если ограничат закачку торрентов, то такие скорости будут и не нужны...
получаю 8.6 токенов в секунду на генерацию контента и 77.86 токенов в секунду на prompt eval time gpu при этом загружены под завязку: 10271MiB / 12288MiB 11696MiB / 12288MiB
это мой предел для этого железа или попытаться ещё покрутить регулярку в -ot ? пока не совсем понимаю как выбрать только экспертные слои для отправки на gpu
Позапускал MiMo — с выгрузкой в оперативу ваще не идет, 7 токенов в секунду, хотя ожидается 10-12 (СтепФан 17-18, а минимакс 12-15). Грустно, модель обещает быть топовой, но шо толку. =(
Зато люди с RTX Pro 6000 говорят от 70 на ггуф (сам АесСедай) до 120 на сгланге.
Принял во внимание весь фидбек, который получил в прошлый раз. Провел редактуру: пофиксил опечатки, постарался сократить текст; провел фактчекинг и принял во внимание нюансы по объяснению шаблонов, архитектуры МоЕ и других вещей; добавил несколько нюансов вроде размеров батча и протекания в оперативу на Винде; в сэмплерах сделал акцент на том, что новичкам лучше использовать рекомендованные и все такое.
Обозначу два важных момента. Первый - я не знаю, что делать с тем, что это очень объемный текст, который может отпугнуть. Потому я добавил отдельную главу-быстрый старт для тех, кто хочет здесь и сейчас запустить хорошую модель для своего железа, на примере Геммы. Собрал фидбек со знакомых, которые вообще в теме не шарят, и все сказали, что прочитали от и до и разобрались в пределах 40 минут. (Полная версия, не быстрый старт), о чем я прямо упомянул в тексте.
Второй момент - немало фидбека было на тему того, что хорошо бы дать более глубокое объяснение сэмплингу, рассказать про самостоятельный подбор сэмплеров для креативных задач, про пережар модели, отдельную главу про промптинг и прочее. Но это не руководство "все и сразу", здесь именно про запуск и самые базовые вещи. Про промптинг я главу добавил, но углубляться не стал. Пока не знаю, что с этим делать. По-хорошему, для креативных задач/рп/Таверны нужен отдельный рентри, за который я не уверен, что хочу и что есть смысл браться.
В итоге, я думаю, вышло в целом неплохо. Нетерпеливый новичок сможет быстро запустить модель и поиграться, а если появятся вопросы - вернуться. Если ему не хватит усидчивости прочитать и изучить все изложенное - сорян, проще как будто уже и некуда. Действительно, можно таким макаром у корпов спросить или на практике по ходу дела разбираться.
>>1603419 > так что нужно запомнить - во всех случаях нужно использовать instruct модели. Честно говорят хуета. Качал base модели - на карточках тоже часто работают и дают дикую креативность. В реддите про это знают и видел тоже их время от времени рекомендуют. Instruct просто самые френдли для новичков.
>>1603421 > на карточках тоже часто работают и дают дикую креативность Не про креативность и ролеплей это руководство, оно для вката и тех, кто никогда дел не имел с локальными моделями (или моделями вообще). Если рассказать про это, это может ввести новичка в замешательство. Базовые модели - это пердолинг даже для тех, кто знает как с ними работать.
>>1603419 Как компилировать llama.cpp под свою архитектуру gpu в винде не расписал. Это очень быстро и выходят маленькие файлы, годные лично для тебя. К тому же полезно для всяких форков, где релизы под куду или cpu вообще не выкладываются.
А как и стоит ли вообще обновлять куду, если у меня 50 серия? Я открываю лламу-цпп и вижу: >compute capability 12.0 Хотя я скачивал именно 13.1 версию и у меня именно блэквелл. Драйвер нвидии 596.36.
>>1603419 Что за игнор Kobold Lite - https://lite.koboldai.net/ во фронтенде Между тем это самый простой способ сделать доступными все карточки, подключением в одну кнопку. В родном фронте llama.cpp карточек и озвучки нет, всяких ролеплейных режимов, ввода голосом тоже.
>>1603439 По моему скромному мнению озвучка и уж тем более ролеплей голосом - это кринж, а для текстовых задач лучше подойдет Таверна, которая заслуживает отдельного рентри, видимо. Хотя я не понимаю, откуда там все сложности. Видимо в целом от непонимания, откуда брать сэмплеры, какую разметку ставить.
>>1603419 А хорошо. Серьезных косяков вроде нет, можно по мелочам докопаться: > Для видеокарт Nvidia RTX 40xx и старее - архивы Windows x64 (CUDA 12) и CUDA 12.4 DLLs. Говорят что от ампера и моложе лучше 13ю > Лучше прочитать все сразу и с самого начала Предложи читателю поставить модель на скачивание и вернуться к чтению. Обладатели небыстрого интернета будут благодарны. > Она генерирует наиболее вероятный ответ в соответствии с этими взаимосвязями Она генерирует распределение вероятностей новых токенов, из которого выбирается один из наиболее вероятных ответов. В примере инстракт шаблона неплохо бы бахнуть картинку типа пикрел, а потом уже тот текст в виде расшифровки применения формата, это сильно поможет пониманию. Там где про распределения логитсов - лучше заменить картинками, попроси любую нейронку сделать графики. И ссылку на плейграунд типа https://louis-7.github.io/llm-sampling-visualizer/ или более продвинутые. > Пришло время установить llamacpp. Дублирует из начала статьи, так и задумано? > На домашнем железе, даже продвинутом (скажем, RTX 5090 и 256гб оперативной памяти) мы практически никогда не имеем возможности Ну вообще на таком железе запускается около 100б в бф16, нативные 8бит влезут даже в 128. Имеет смысл перефразировать.
Остальное пренебрежимо чтобы писать. С примера промпта пирата орнул, годно.
>>1603419 >Кванты - довольно большие файлы, и загружать их через браузер не всегда хорошая идея. Для этого, например, можно использовать инструмент HuggingFace-cli (python) или aria2 (протокол и клиенты, которые его реализуют).
>>1603446 Таверна жуткая ебля с одной установкой и горы мутных настроек как в самолете, а тут все без установки открывается сразу и в 1 клик подключается, доступны и карточки и озвучка и что угодно, простой интерфейс для всего.
>>1603395 Разные, по хобби и основной работе. Я не кодер если что, потому что-то могу игнорировать, а задачи далеки от дефолтных популярных. Конечно агенты, pi, qwen-code, gemini-cli. 9б для своего размера молодец, но слишком маленькая, пригодна только для небольших задач. Для более менее крупных и автономности потребуются большие модели, на 27-31б плотных или 120б моэ можно понюхать как это, или работать следя за ними чаще и активнее. > qwen 3 25b reap Это пиздец, сразу удаляй. Тройка для кода с выходом 3.5/3.6 не имеет смысла, а это еще и лоботомит сломанный.
>>1603439 Двачую. Долбоёб ренпайщик так сильно хочет зафорсить говноламу, что полностью игнорит РЕАЛЬНО УДОБНЫЙ для ньюфага способ запустить нейронку локально. Какой же пидор, а.
>>1603461 Удобство заключается в появлении бесполезной панельки перед запуском, а потом кастрированного интерфейса без функций и промпт-менеджмента? Шутка про свайпы.жпг
Мне стыдно, а я ведь как сидел на кобольде так и сижу. Хотя год назад перед вкатом пытался собрать жору с чат гпт, но это была такая боль т.к собирал 4 квант 8б магнума на 6 гб врам гтх 1060, компилировалось все очет долго и пару раз под конец вообще уходило в аут оф мемори и долгий оффлоад, чат гпт в итоге сказал мне что бы я хлебушек не мучал себя и его и скачал сразу который форк и ох блять как же все проще стало с кобольдыней, так моё освоение ллмок и началось, после прям фобия была на жору даже когда норм железо появилось. А таверна не помню что бы была прям сложной и страшной, как то само всё пришло и привык.
Показываю как застанлочить кобольда. Будьте внимательны! Второй раз не покажу.
>>1603452 >>1603461 > Долбоёб ренпайщик так сильно хочет зафорсить говноламу У меня нет эксклюзивного права на гайд для новичков. Ты или любой другой кобольд может сделать свой, вас никто не останавливает. > ренпайщик Ты же знаешь, что именно Кобольд на Питоне работает, а Ллама - нет? Глупый кобольд. >>1603447 Спасибо за конструктив, все сохранил и скоро внесу правки. По поводу картинки пока не знаю, не хочется внешние ресурсы подключать, потом еще ссылки поддерживать.
>>1603475 >пук Так добавь кобольда, который работает в два клика, ебло. Ты не для себя делаешь, а для новичков. Новичок всегда кобольд. Делай, сука, как учили, широкой на широкую!
Вообще новичок всегда должен поебаться с настройками. Так что все правильно в рентри, а уж если поебется но будет усердно в треде поймёт что есть кобольд и варианты по ппроще, ибо если гейткипа не будет совсем то наплыв даунов которых надо только спунфидить будет критическим. А там и качество треда упадёт. Никто не захочет кому либо помогать понимая что сидит в треде с даунами из /b/ а не такими же энтузиастами на взаимопомощи.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Гайд для новичков: https://rentry.org/2ch-llama-inference
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
• Доки к LLaMA.cpp со всеми параметрами: https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: