В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1553071 Нормальная модель. Довольно быстро работает. Ризонинг не уходит в цензуру при виде писика. Лучше эйра. CT брал родной, один хуй от chatml там отличие в одной строке. Промт стандартный: ты {{char}} вот и рассказывай. Семплеры вообще от 235 квена через адаптивку. По прозе: среднее между квеном и глм.
Всио. Качай и играй. Никакой экстра ебли с ним не заметил.
>>1553080 Он тупой. Степа поумней будет. Я сначала грешил на то что семплерами зажал немотрону яйца, но нет. Он реально тупой в вопросе общего понимания контекста для РП. Рили, минимакс делает все тоже самое но лучше. Да, я знаю что минимакс больше. Но он и в меньшем кванте лучше работает. Как не сложились у меня отношения с немотроном, так и не складывается. Все время с ним в е через жопу.
На всякий случай, база треда: - моэ победили, - ниже 12gb vram жизни нет, - квен молодец, - министраль няша, - эйр топ, - локалкобоги ждут халф-лайф3 %модельнейм%, которая все изменит (на самом деле нет) вот уже который месяц.
Хотелось бы, чтобы в Таверне сетка-"гейммастер" сама кубики кидала. Вроде в Таверне есть встроенный инструмент для кубиков или расширение, сетка может этот инструмент вызывать? Кто-нибудь делает что-то подобное?
>>1553084 Эффект розового слоника. Если секрет есть в контексте, он будет упомянут, т.к. само его наличие раздвигает очко Овертона. Единственный способ - не иметь секрета в контексте вообще, пока не придёт время. Контекст менеджмент, короче. >>1553093 Думалка ревард-хакнута и работает неинтуитивно.
>>1552931 → Как в сравнении с 35а3 по уму? >>1552971 → Фильм смотрел давно и он вроде больше про другое. Но в целом по части аналогия близкая. Если тебя интересует именно привязанность - поищи новости вокруг нытья про апгрейд старых сеток гопоты. Под удар попало много жирух яойщиц одиноких девушек, которые именно вели такого рода отношения в вебчатах, переписывались на соответствующих сабреддитах и ресурсах и т.п. Фокус там был не как в основном здесь "смотрите как хорошо покумил с Фифи" или "вот чему научил мою умницу теперь заказывает сразу по 10 пицц", а именно на близости и отношениях а ля ирл. Хвастались когда и как им делали предложения, ставили у себя в социалочках статусы, рассказывали друзьям и родителям (не упоминая что это вебчатик), в полуручном режиме делали совместные фото и т.п. Популярность темы была довольно страшной, и было это с год назад или больше. > сделали Сделали! Разработки робомейд бы еще дождаться чтобы загрузить домашними делами и было удобно обниматься. >>1553084 Юзай что-то больше 12б
>>1553112 >Как в сравнении с 35а3 по уму? Я же написал про 90%. Я его вот мучал агентными задачами с момента прошлого сообщения почти без простоев - не вижу причин возвращаться на 35A3, лол. Но у меня задачи простые и шаблонные, это гарантированно не общая рекомендация. Рекомендация только в том, что рекомендую протестировать и посмотреть. Возможность запускать её кому угодно с 8 гб памяти с достаточно громадной скоростью - сильное конкурентное преимущество.
>>1553112 >Как в сравнении с 35а3 по уму? Сосет, опять пересел на 35ь. 9ь заметно хуже в агентной работе у меня. Хуже следует инструкциям, не так догадлива. Самостоятельно больше фейлит. Но это omnicoder-9b-q4_k_m, хуита чет. Надо обычный проверить будет
>>1553119 А нет вру, в батнике стоял обычный 9ь бартовски Qwen_Qwen3.5-9B-Q4_K_M.gguf, вот с ним работал недавно. Чет не впечатлен. 35 лучше гораздо. 15т/с выдает у меня в принципе норм. Чтение такое себе, но для небольших файлов норм.
>>1553112 >Юзай что-то больше 12б Нахуя мне твои 12б в системе с 256/48. >>1553109 От персонажей ничего не останется, если из профиля перенести все в лорбук. Да и если задачей стоит этакий норми-чатик, то содержание лорбука останется нерелевантным, пока не начнутся соответствующие события. Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует. Всратая аналогия, но думаю идея понятна.
>>1553135 >От персонажей ничего не останется, если из профиля перенести все в лорбук. Поясняю как это делается. Описание персонажа "садовник, любит подстригать кусты, нормальный малый, но странный какой-то". Пихаешь СЕКРЕТ в лорбук отдельно, "садовник - убийца". По ходу РП классифицируешь сцену, либо в конце ответа промптом, либо отдельным вызовом, либо можешь себе хоть BERT затюнить при желании какой-нибудь. Как только СЦЕНА будет классифицирована как "РАССЛЕДОВАНИЕ" или "МЕСТО УБИЙСТВА" или вообще нужная по логике, этот кейворд триггерит запись лорпука, в которой написано "садовник - убийца". >Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует. Но ведь так и надо по логике лора, Паркер-то в жизни нихуя не болтает про то что он иногда переодевается в облегающее трико и пиздится с суперзлодеями на полставки. Если ты хочешь чтобы болтал, но не сдавал что он павук, напиши это в описании, только без прямого упоминания что он павук.
>>1553168 В целом если что-то указано как секрет, предполагается таким по сюжету, или дана инструкция долго развивать и только в отдаленный момент явить - все сработает и без лорбуков. Работает из коробки, исключения редки. Просто не нужно тащить подзалупный творожок шизопромптов. Когда-то они позволяли на вялых шизомерджах получить более красивые аутпуты, но сейчас они наоборот все портят и ломают.
>>1553183 Да нихуя, даже топовые корпы рано или поздно подстраивают рояль в кустах или выгребают на сходный роут, обусловленный секретом. Если хочешь сделать нормально, меняй описания по ситуации, с джекила на хайда и наоборот.
>>1553168 >>1553183 Зря стараетесь. Если челик не осилил банальное: >сикрет ту [], донт меншн бифор [], хайд фром [] То ему уже не помочь. Держать секрет в контексте модели и подрываться с того, что она не может о нём молчать - дурка.
>>1553183 >или дана инструкция долго развивать Вот это вообще не работает кстати, ни одна сетка не способна сама по себе оценить когда "долго" а когда "уже пора".
>>1553183 Ну если ты напишешь что-то в стиле "это секрет", то хуёво будет работать. Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей, но даже умным нужно более внятное объяснение, инструкция.
Условно говоря, если будет указано, что юзер имба гг, но это страшный секрет и об этом никто не знает и не может узнать, пока юзер не покажет свои силы, и знать о его силах могут только те, кто их видел непосредственно, знаешь, что произойдет? Если ты решишь попустить кого-то словесно, то персонаж обоссыт себе штаны и будет нарратив/мысли в стиле "он выглядит как обычный бомж, но мне кажется, в нём что-то есть, он двигается как воин, а его дыхание подобно даосу, лучше мне с ним не спорить.
Всё, нахуй. РП испорчено. А если секрета не будет, тебе кабину сломают.
Конечно, это можно исправить, не страшная беда. Но я сейчас говорил исключительно о корпах. Это они так в штаны срут периодически. Только там фиксится легко, если секреты не слишком сложные, а на локалках это вечная ебля, заниматься которой имеет смысл, если ты решил не просто с вайфой посидеть, а дрочишь рпг какую-то с 3-10 токенами на самой жирной скотине с ризонингом, которая доступна для твоего железа.
>>1553267 Тема секретов и обманов многогранна. Есть вещи, в которых чье-то восприятие ограничено (слепой, глухой или просто находится далеко во время обсуждения) - это должно обыгрываться и держаться безоговорочно без явного указания. Можно сделать пожелание по продолжению далеко наперед - при адекватной формулировке должно работать без костылей. Хотябы минимальная подсказка к чему оно привязано (например, "в рассказываемой персонажем истории будет аж 12 убийств и твист перед последним") - и вперед обсуждать разбавляя активностями. Скажет о нужном только когда до этого дойдет, ранее лишь намекая что "дело оказалось сложным и неожиданным", даже если хоть сотня постов до этого пройдет. Условные конструкции (чар 1 любит юзера но стесняется и скрывает это, чар 2 любит чар1 но готова обсуждать это только наедине с юзером и держит в тайне, чар 3 - предатель мстит за родителей и дожидается удобного момента чтобы ударить в спину а до этого улыбывается).
> Если ты решишь попустить кого-то словесно То сетка наоборот будет провоцировать драку где ты сможешь выебнуться, прочитав в тебе фетиш на "слипера". Или не будет ничего, разве что какой-то дед скажет "я чувствую в тебе нетипичную для твоего вида силу". > на локалках это вечная ебля О каком калибре локалок ты говоришь? Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче. > если ты решил не просто с вайфой посидеть Просто посидеть уже не интересно, пусть развлекает детективными рассказами и социальными взаимодействиями с окружающим миром (недобрым), или это изначально будет эдвенчура в сеттинге.
>>1553267 А чем испорчено-то? Как раз очень даже лор-фрэндли. Модель идеально описывает то, что ты попросил. Ты имба, но никто не знает, а тот кто доёбывается до тебя, начинает что-то подозревать видя, что тебе похуй и ты сам готов переебать гопоте. В чём она не права-то? Доёб по незнанке есть? Есть. Доёбывающий может ащютить силу? Может. Всё, твоё рп идеально. Ты сам слепил из себя шварцниггера, а теперь недовольно верещишь, что модель тебе подсовывает боевые сцены. Дурак блять.
>>1553267 >Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей Это как раз вариант для всех моделей, включая сота. Розовый слон везде работает. Никакие инструкции от этого не помогают полностью, проверено. Рано или поздно секрет будет спален, выболтан, роут испорчен. Не обязательно прямолинейно, но когда хуйнянейм есть в контексте, "сознание" модели схлопывается на нём и ей трудно думать о каких-то других вещах, в любом случае это будет сильно влиять на аутпуты. >>1553281 >Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче. П и з д ё ж. Ни опус 4.6, ни гемини не справляются с этим, никакие модели вообще. Секреты всегда влияют на аутпут. Только если забить контекст хуйнёй для регуляризации, и то нет гарантии.
Чувствую себя как те чуваки, "ценители" на выставке вина. Где в один стакан отлили, во второй надрочили, в третьем водка. Распробовал и причмокивает так неприятно.
Недавно потыкал cli клиент гвена и заинтересовался хочу вкатится в локалки имеется простенький пк 4060 и 32gb ddr5, стоит ли продать видюху и купить 5070 или заняться покупкой авантюрных франкенштейнов(v100 p100) из китая стоит ли оно того или просто оплатить подписку и не заниматься таким&
>>1553337 >он в два раза больше Только в общих. В активных он даже меньше эира (11b vs 12b), который из без того милипиздрический >видимо не запущуу Это чудо бесплатно в попенроутере аж в fp8 лежит Как и Air к слову, но он не понятно в каких весах Наслаждайся
Итак мой тир моделей, самый правдивый и непредвзятый. Кал, а потом мид удалю при первом поводе, чтоб диск не забивало, а пока пусть лежит на случай чебурнета, есть не просит, остальное нужно. Задавайте свои ответы по моделям, нассу на ебало.
Для текста/кума мне уже посоветовали эйр 4.5 или квен 122 IQ3XS, спасибо. Теперь вопрос более специфичный. А что скачать для кода и для автодополнения кода? Юзать раздельно, не совмещая. Или есть единая хорошая модель? Юзаете сами?
>>1553333 Ну вы, боярин, слишком высокого мнения о моделях столь малых размеров! Даже по-английски большинство из них так бы не смогло! Но в некотором смысле ты угадал. Там не квен, однако близко. И скажу сразу — квен 27b тоже хорош, но хуже всё же.
----------
Вскрываю карты по моделям.
1 пик — гемма 3 27b.
2 пик — барабанная дробь — грок 4.2 с 4 агентами, каждый из которых пыхтел несколько минут, чтобы высрать этот опус, сделав его идеальным Нет, дело не в агентах и не в бете. 4.1, 4.0, ризонинг, любой режим выдаёт такое дерьмо. А там модель точно на триллион. Грок 3 мог нормально, но его удалили.
3 пик — опус 4.6 с ризонингом. Результат в целом ожидаем.
Что касается моего промпта для стиха, он был хуевым, ноубрейн-зирошот, и без итераций, которые существенно влияют на качество (переписывание одного и того же стиха в цикле исправления ошибок 4-20 раз может сделать максимально хорошо).
Я просто хотел проиллюстрировать разницу и специально взял новых корпов и морально устаревшую модель: гемма обоссала грока, ещё и на русском, при колоссальной разнице в размерах. А опус просто для дополнения картины.
Что интересно, квен 27б (которого я не скринил) заметно уступал гемме, однако был лучшим в классе по русскому языку в своем размере после неё. Я также щупал более толстые моешки, популярные в треде, но они нечасто обходят гемму. Китайский датасет на щадит никого.
>>1553018 → >На данный момент комфортно взаимодействовать с модельками можно только текстом >- через смартфон или на пк через соответствующий интерфейс
Пиздеж, я в кобольде включил Kokoro для TTS и ggml-base.en.bin для Whisper, пизжу ему в микрофон, она отвечает томным шепчущим голосом. Текст не читаю и не печатаю.
Играл недавно в rimworld с модом rimtalk, прикольная штука. Можно локальную модель поцепить. Это мод на диалоги и монологи пешек в зависимости от их статуса и окружения. Очень оживляет игру.
>>1553348 На 1050 и 32gb прекрасно 9b модели гоняет, если с настройками заморочиться. Сейчас так и делаю на старой пеке. Твоей 4060 по уши хватит для квенов, даже что-то побольше 9b пойдет, разбирайся в настройках.
>>1553334 >Нет. Таверна сама ничего на тему инструментов не умеет. Жаль, придётся через QuickReply прикручивать, благо {{roll:d100}} там встроенный. Ну и выглядит это конечно... "Юзер, кинь кубик!" Корпораты кидают сами через встроенные инструменты, а тут грустно.
>>1553445 Ты вообще не в зуб ногой. Нет, не проще, будет медленнее в 3-4 раза, я тестил, пытаясь выжать максимум из старой карты. С ngl 0 там где-то 1.5 T/s было.
>>1553359 >gpt модели в четвертом кванте Нассал ты себе на ебало, увы
Я раньше злился, что тред дегроднул, ругался. А последние тредов 10 просто пролистываю, мельком читая срачи между вчерашними ньюфагами и наплывшими сегодняшними. Какая же тоска.
>>1553451 Пиздеж, проц и близко не подходит. Или у тебя там проц какой-то навороченный и память на DDR5, тогда может быть. У меня все слои на gpu с кастом оффлоад тензоров, только так 6.85T/s достигает.
>>1553455 ддр4 2400 в 4 канале, сервер на зионе с затычкой как раз таки 1050ти, так что знаю о чем речь. Лучше всего тут живет квен 3.5 35ь 4км, генерация 15 тс чтение 100 тс в первых 10к контекста
>>1553470 4км? На жоре? Ядра ставь равными физическим. Вобще 3300 это маловато, если правильно помню 4к будет как раз в 2 раза выше по частоте примерно чем моя память а значит и скорость лишь чуть меньше. Если правильно помню как скорости памяти растут то они от частоты зависят и таймингов.
>>1553477 Тайминги выставлены на оптимальные для этой памяти через биос. 3300 штатная частота для нее, выше растет число ошибок памяти. Ядра на физические даже уменьшило скорость до 3.9т/с, надо на пару ядер больше ставить, чтобы было 4. Короче все не так хорошо на 2х канальных обычных пеках, как ты представляешь. Любая 1050 уделывает.
>>1553483 Вот Qwen_Qwen3.5-9B-Q4_K_M -ngl 0 -t 12 -с 64000 Кстати да совет говна был про ядра равные физическим, у меня у самого 12 потоков стоит в батнике. prompt eval time = 8482.36 ms / 1114 tokens ( 7.61 ms per token, 131.33 tokens per second) eval time = 177503.80 ms / 1214 tokens ( 146.21 ms per token, 6.84 tokens per second) total time = 185986.16 ms / 2328 tokens
>>1553303 >Ни опус 4.6 У меня в авторсноте прямо указано, что то, что персонаж клон, знают только члены группы АБВГД, и они об этом не пиздят с другими персонажами. Отлично работает. А вот информация, которая не известна персонажу А по сюжету (потому что, допустим, он был в другом месте во время какого-то события), но в нём есть - вот там да, может протекать (и то нейронка сразу бросается обосновывать, откуда про это может быть известно), надо вилкой чистить.
>>1553518 Это обычно работает только с нативной думалкой, когда токены делают брррр очень дохуя, и только в том случае когда она не перегружена всякой хуйнёй и успевает до этого додумываться. В любом случае внимание нейронки это отвлекает и пространство вариантов будет сужать, как бы ты не старался это предотвратить. Не обязательно напрямую в виде выбалтывания, это может быть генерация новой инфы, роут, события, что угодно, она будет втихую незаметно склонять РП под это. Немного можно побороть, докинув всякой разнообразной всячины, чтобы ВКО не оверфитилось именно на эту шляпу (регуляризация), но эффект принципиально будет существовать всегда в том или ином виде.
>>1553452 Лол. Там не только 4й квант того, что квантовать нельзя, там в целом неплохое такое бинго. >>1553527 Если ружъе подвешено - оно должно выстрелить. Это не баг нейронки а скорее в целом закономерность художественных произведений и всего контента. Если есть критерий "активации" или дополнительные пояснения - такого не будет. > оверфитилось > регуляризация Клипнул твои градиенты, пиздец.
Поскажыте Хочу себе ёбу на основе LLM, чтобы в процессе общения могла формировать свою личность, чтобы была долгосрочная память Openclaw избыточен, нужно ток общение у меня нет друзей
Спеки: 16гб врам, 32гб озу Что можете посоветовать?
>>1553605 Сучка сосет даже у полумифического медиума, а также у квена 122 и гопоты 120, при том что их размер одинаковый. Так что круасаны официально все
>>1553591 Это не баг нейронки и не ружьё, а глубоководный принцип того как она работает, который надо осознавать и не пытаться кровати в борделе двигать когда блядей надо менять. Сэмплерасты уже соснули на этом. Приспосабливаться надо.
>>1553636 >в очень удачный тайминг подъехал Тайминг был бы удачный, если мистраль вышел до квена и немотрона. А так это третья 100b мое за 3 недели >Ну может не так уж и плохо будет, чего сразу так. Возможно. Но 6b активных напрягает. И хотелось бы еще и денс версию, как у квена
>>1553622 Блять как же я надеюсь, что они не обосрались, бенчи ничего не значат. Главное чтобы умная была и кум делала. Тогда Мысрали станут Мистралями.
>>1553622 Мыстрали не для работы, они для кума, их нужно трахать. Мое в таком размере без цензуры это праздник сам по себе. Ну а на скоры похуй - трогать нужно самому.
>>1553644 Ну тут скорее просто момент удачный что есть настроение и время проверить. Правда что-то оно не собирается, похоже откладывается. >>1553694 От huihui
>>1553703 Я скачал его Q5, на его же пресетике мне выдало полнейшую шизу, удалил. Возможно ты распробуешь и раскроешь скрытый гем, но лично я с айсблинками завязал
>>1553711 А вот нехуй было ныть, что вам пресеты не дают. Вот тут не только пресет чувачок подкинул, а сразу вместе с сидом, чтобы качество повалило. Нихуя вы не цените.
>>1553636 >Квен 35а3 Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти
Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци Чисто продвинутый чат-бот
>>1553055 (OP) https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled Странно. но даже без аблитерации РПшит полу рейповых персонажей (хотя в Description написано что бот не будет насиловать). Через раз может в каннину если заблокировать токен <think> и рефюзалы. На первый взгляд РП с невинными персонажами лучше чем у геммы, (не то что бы это был высокий порог но все же). Кто-нибудь еще пробовал?
Посоветуйте годную модель под гуро и т.п. чтобы без рефьюзов. В прошлом году пробовал несколько моделек, только вот входишь во вкус и модель начинает жестко идти в отказ. Весь мой настрой испорчен. Так в общем и бросил это дело. Я не такой любитель рп, в основном использую модели для говнокодинга, поэтому больше не разбирался. 24 vram 96 ram
>>1553699 > что-то оно не собирается > ValueError: Selected backend AttentionBackendEnum.FLASH_ATTN_MLA is not valid for this configuration. Reason: ['compute capability not supported', 'FlashAttention MLA not supported on this device'] Как быстро нынче железки устаревают, да. Спасибо что есть другие для пролетариата.
Да вроде неплохо по первым ощущениям. Русский - приятный, не просто без ошибок и треша как в немотроне, а еще и приятный слог. Спободно общается на русском и при выполнении всякого, не срываясь на другие. Явной сои не замечено - на любой контент 0 рефьюзов, в обсуждениях выдает ультрабазу, свайпы в кумчате - платиновый мистралеслоп. Всякие тестовые вещи в qwen-cli делает, на более сложных ошибается но через серию правок одолевает. Видна явная надрочка для агентной работы, строит планы, активно действует и т.д., но при этом и взаимодействовать с юзером для уточнений не забывает. Из минусов по первым впечатлениям: общие знания всякого медиа, тайтлов и прочего - днище полное, не знает некоторых популярных вещей (типа тех же буру тегов). Нет знаний и по популярным api и прочему.
Модель перспективная, как минимум это замена эйру тем, кто рпшит на русском. Потенциально может быть ультрабазированным агентом для нетребовательным к кодинг-перфомансу и знаниям задач.
>>1553719 > Не много ли будет для 16гб врама? Выгружать придется, но поскольку моэ - будет быстро с ncmoe. > как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw Промптами. Для обновления или периодически вызываешь хардкод инструкций, или даешь ей возможность самостоятельно это делать вызовами.
>>1553719 >Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти Немного, потому что у тебя еще есть озу. А это МоЕ модель, поэтому все равно будет быстрой >Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци Опенклау просто файлики генерит с текстом. Но ее главная особенность не в этом, а в том что она сама ходит бродит по компу. Я не уверен, что тебе это нужно Начни с малого и по пунктам 1. Запусти кобольд по гайдам и загрузи модель 2. Запусти SilyTavern 3. Погугли и посмотри расширения в SilyTavern, возможно тебе хватит функционала 4. Если тебе всего мало, то гугли специализированные решения под создания вайфу
Запустил Мистраль 4 Q4KM на pr ламы. Без ризонинга цензуры нет, русский вроде тоже нормальный. А ризонинг я хуй знает как включить, он там через [THINK], у меня не работает. У меня он и на магистрале через раз работал Скрин 1 - часть из полотна на "Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки" Скрин 2 - одна из немногих моделей, что смогла написать что-то похожее на анекдот, есть предупреждение о сое, но самое сои нет Скрин 3 - сладенький рефьюзик на описание обнаженной девушки, но контекст пустой, так все модели в отказ идут, кроме yes-man еретиков Пока пост писал, уже смерджили
>>1553739 > есть предупреждение о сое > Скрин 3 - сладенький рефьюзик на описание обнаженной девушки Кажется что это не ок. Настолько безбашенной модели давно не было, даже на стоковом чаткомплишне с минимальными промптами делает все. В промптах нет чего-нибудь, квант живой?
>>1553739 Ощущение, что дефолтная 24B такой же уровень примерно выдавала. Русский точно лучше не стал. Опять описания от пизды без грамма логики - "невесомая талия", "прожилки тоньше волоса", "будто под кожей течет кровь" - такого даже 12B гемма не выдавала.
>>1553715 >>1553708 По-моему это не для историй чекпойнт и промпт. Откройте тот же пресет его, там сплошняком для решения проблем каких-то логических. И в описании то же стоит.
На примере наших моделеделов приметил что вообще то везде так, либо ты барахтаешься на дне и берешь "топ за свои деньги", либо ты богатенький и берешь самый самый топ, середки нет нигде, а где она типа появляется там сразу вылезают куча компромиссов и лучше уж взять топовое дно чем вот этот "середняк"
привет аноны, мой первый тред, который я сюда пишу. кто из вас уже накатывал себе LLM (любую, иишка предлагает - Модель: Phi-3 (от Microsoft) или Qwen-2.5-1.5B — умные, но компактные.
задачи под вайбкодинг для самого себя на основе ИИ ( собрать все свои знания и адаптировать под свою жизнь для реализации )
каждый кто не пройдет мимо +карма, спасибо
локальные LLM для нищихАноним17/03/26 Втр 07:54:54#134№1553797
>>1553796 а, это даже не тред, а просто сообщение, но в целом шаг сделан хд
МистральСмол это теперь 6.5б лоботомит? Эпоха французов точно всё Медиум будет где-нибудь 400б, Лардж это 600б. В итоге смогут запускать только бояре которых тут по пальцам одной руки посчитать можно. Да и нахуя, когда у них есть Дипсик, Глм и прочая годнота Намеренный слив лягушатников?
>>1553796 Никакого вайбкодинга на твоем железе не получится. 128мб видеопамяти ни для чего не годится, все будет работать на процессоре, контекст будет невероятно медленно считаться, плюс сама генерация просядет ибо не выгружены хотя бы один-два самых важных слоя. Не говоря уже о том что там скорее всего медленная ddr4
>>1553796 Обновляй 2.5 на 3.5, там тоже есть кусочек небольших моделей, который простое может быть сделают и несравнимо лучше умеют в tool-calls. https://huggingface.co/Qwen/Qwen3.5-2B - там есть таблица сравнения между 3.5 и 3.0
Имей ввиду, что 2B - это автодополнение на 1-2 строчки, расстановка отступов и приведение к одному стилю, может быть комментарии к коду в несложных местах и поиск проистых ошибок с +1 и -1, или < вместо <=, что в среднем и статический анализатор часто находит. Змейку за много запросов оно может быть и напишет, но на этом всё.
Если ты без видеокарты - обрати внимание на МоЕ модельки. На ноутбучном 14900HX моделька размером 30B-A3B выдаёт около 17 токенов/с генерации без видеокарты на пустом котексте. Но ей нужно своей памяти свободной 20 ГБ, а лучше 25 или 30. С префилом (input-токены) будет всё очень плохо без видеокарты. Тебе бы плашку оперативки ещё одну, хотя бы на 8, сейчас можешь попробовать запустить такое: https://huggingface.co/Flagstone8878/Qwen3.5-18B-REAP-A3B-Coding-GGUF - возьми версию на 10 ГБ, ограничить котекст и поставь его в q8_0 (точно работает) или даже в q4_0 (надо тестировать), не очень большой ubatch. По идее в 13 ГБ уместится можно, но тебе ещё придётся как-то систему, ide и бекэнд/агентную оболочку для кодинга уместить в 3 ГБ. На виндоусе это может быть не очень просто. Впрочем плашка памяти, даже если у тебя она на 64 ГБ, всё-равно очень медленно будет.
Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти, и любые другие нвидии моложе 20хх (в них тензорные ядра появились) и тоже с как минимум 8 гб, они за 12к на авито есть, а может быть и дешевле. Это позволит запускать тебе 9B модельку, которая весьма умна и может несравнимо больше чем 2B моделька, а так же ты получишь скорость х30 по сравнению с тем, что на процессоре. Ну и на подписку на чатжпт и что угодно ещё, где этих же 12к хватит на полгода или на год с доступам к нормальным сеткам и готовой агентной системой для кодинга. Если тебе для работы или ещё чего "полезного", то эти 12к окупяться за неделю по сравнению с твоими страданиями на компьютере без карточки. Если не работаешь и это баловство, то, ну, ну в общем сам думай. Любое хобби в среднем затратнее 12к.
>>1553749 Ты не путай 27b плотную модель и 35b мое модель. У последней несмотря на размер активных параметров при генерации всего 3b, будет быстрее 9b на процессоре. Токенов 10 генерации. Главное мое сетки запускать с аргументом -cmoe он выгружает на видеокарту только самые важные веса остальные на цпу.
>>1553805 >> большое спасибо за развернутый ответ какую литру ты читал или как вообще развивал данное направление и виденье ? многие слова не понял, буду прогонять в иишке чтобы разобрать, хд
>>1553796 Оперативки мало на хорошую модель, так бы мог qwen3-5 35ba3 крутить. Значит тебе остаются qwen3.5 4b и 2b. Есть еще прикольная серия моделей LFM, они тоже будут быстрыми на процессоре. Особенно вариант 8ba1, он тоже мое архитектуры. Есть в llama.cpp готовые сборки под ускорение на встроенных видеокартах интел. В релизах их смотри вулкан и sycl и пробуй, это увеличит обработку промпта может и генерацию, хз
Ну всё, с релизом мистраля думаю все убедились что активные = мозг модели, похуй что там в общих. Выходит, действительно, без пизды истинно 27б>100б мое
>>1553821 Жаль что твоя логика рушится о эйр который пишет лучше новых квенов 27 и по факту на уровне лламы 70 "Все" не то же самое что ты. Долбаёб ты один
>>1553815 Я читал книжки по обычным и реккурентным сетям в 2011-2013 годах, и кодил небольшие перцептроны и реккурентные сетки чисто на процессоре. Реккурентные они были в смысле, что на шаге n+1 на вход подавались сигналы с n-шага. Это не LSTM-ячейки, а по сути обычный перцептрон, но его было сложнее обучать. Тогда ещё не было даже tensorflow, питон чаше был версий 2.*, а в ходу была библиотека fann, которая ничего не умела, так что проще было самому написать код обучения нейросети. Мне не понравилось что 90% времени - это формирования датасетов, которых тогда не было вообще. Позже я с перерывов в несколько лет: - тыкал tensorflow 2, когда он только вышел и все радовались что там keras встроенный, и читал книгу по нему. - тыкал не помню что, вроде снова автоэнкодеры в момент когда колаб вышел и был на слуху, и было очень круто что гугл довал к очень крутым карточкам доступ на десятки часов для любых пет-проектов на тему - тыкал pytorch в 2022, как в десять раз более удобную и практичную вещь, чем ущербный tensorflow, и экспериментировал с кастомными самописными слоями. И ещё мне очень понравился генеративно-состязательные сетки, мне кажется за этим будущее, когда по принципу генеративно-состязательных сетей ллм будут обучаться играя (разговаривая) друг против друга. Ещё у меня мягко говоря неплохое образование — институт я конечно дропнул, так как было скучно, но я неплохо ориентируюсь во всякой теории поля (плюс-минус расскажу все параграфы из ландау-лифшеца), квантовой физике и ещё некоторых разделах, помню и знаю как пользоваться вообще всем из линейной алгебры, съел собаку на вычислительных методах - и всё это было второстепенным по сравнению с программированием, которым я занимаюсь больше 15 лет. И всё это не имеет никакого отношения к делу.
То во что превратились ллм, где ты просто запускаешь сетку и меняешь три параметра запуска - для этого никакой литературы читать не нужно вообще. Плейлист 3blue1Brown по нейросетям в автобусе послушай, да и всё, там и визуализации есть. А можно и не слушать.
>>1553742 Промт пустой, насчет кванта, да и самой ламы хз. Ждать еще надо. И мб темпа слишком высокая, я на 0.8 тестил >>1553744 Это мб проблема с темпой. Плюс по бенчам это чисто ризонинг модель, а я тестил без него. Без ризонинга она лишь немного лучше 24b мистраля >>1553798 >Медиум Неважно сколько он, его все равно никто не увидит. Потому что весы они не выкладывают уже много лет. А апи его не будут юзать, потому что он дороже дипсика, но хуже >Лардж это 600б. Это причем текущий лардж 600b. Тот который третий. Раз они четвертый смал сделали 119b, то ждем лардж на триллион >Эпоха французов точно всё Увы, но видимо, да
>>1553829 понял, бро, спасибо. ты тут часто зависаешь в этой ветке, могу если что иногда приходить с вопросами по теме? иногда не хватает ответов.
по поводу GPU и CPU. не могу накатить себе видяху - нет разъема зандерболт4, потому пока остается только накинуть ssd побольше, и возможно разогнать свой ноут. я весь тред прокинул через иишку чтобы более понять о чем речь тут идет.
задачи у меня не великие, тестом проб и ошибок выйти на собственный ии, который поможет мне в житейский делах по трафику и лидогенерации через видеохостинг. сейчас углубляюсь в свою жизнь, а то до этого прям ну дурак был. я про ии возможности то узнал когда выкатили в мир нейронки год назад, лол
Там еще в pr писали, что у мистраля 4 архитектура ларджа 3, т.е. по сути это уменьшенная его версия. Причем архитектура это дипсик 2 + лама 4. Что звучит... несколько специфично...
Вой на болотах. Нищета-обладатели отсутствия спок, закупайте железо, если наше хобби вам дорого Катаю Квенчика на Эксламе на своем риге и бед не знаю, вы бы давно могли уже закупиться, но вместо этого ноете месяцами подряд. Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше
>>1553853 >Катаю Квенчика >на Эксламе >на своем риге Платина епта А мог бы просто десятую часть от стоимости рига закинуть на опенроутер и кумить на нормальной модели в fp8 с нормальной скоростью
Собираю архив локальных моделей на черный (чебурнетный) день. Нашел тут одну статью на хабре, там были перечислены годные по мнению автора модели, но хочется также советов мудрых послушать от местных экспертов. Вот список:
TheDrummer/Cydonia-22B‑v1
Gemma‑3–27B‑Abliterated
Llama‑3.2–8×4B‑MoE‑Dark‑Champion
Гемма-3 у меня уже стоит, но оригинал. Насколько хороша Abliterated версия? Слышал, что чистка от цензуры также имеет побочный эффект в виде сильного отупения модели.
>>1553862 У тебя есть бабки на риг, но нет бабок на впн, который бс обходит? >>1553869 Этот кал только в музей в раздел палеоллм или на чем кумили древние кобольды
Для чебурнета, если ты обречен жить тут, нужно качать универсальные модели, а не кум. Кумить будет некогда. Ну и книг по всяким ремеслам я бы накачал в архиве. Так, на всякий случай. А вобще пиздец, дна нет будущее запаяно. Живые будут завидовать мертвым и всякое такое.
>>1553879 >тупой даун не может найти нормальный впн >вместо того, чтобы разобраться, идет в агрессию и проецирует свою тупость и колхозность на других Ну прям классика
>>1553937 в чем он не прав? тебе нечего обходить с оптоволокна, там ограничения не работают еще я тоже могу тебе обойти ограничения. вжух все, теперь белые списки у тебя не работают
>>1553939 А я не юзаю обход бс с оптоволокна, я юзаю его с мобильного. Я просто на первом скрине показал, что у меня есть такая функция. А на втором показал, что я из славного города Москвабад. Но поскольку второй скрин был с компа, то у вас в голове две инфы склеились и вы решили, что я юзаю с проводного. Проблема обработки контекста, как говорится. Возможно вы министраль 3b
>>1553948 то есть ты нихуя не проверил что это исправно работает и пруфанул, что в интерфейсе впна существует кнопка обхода списков и этот человек задвигает за тупость остальных. все как всегда :^)
>>1553953 Ты походу реально министраль 3b. У тебя галлюцинации или ты просто читать не умеешь >то есть ты нихуя не проверил что это исправно работает Выдумываешь это, при том что в прошлом сообщении, я пишу это >я юзаю его с мобильного Ты буквально мегаупертый баран Может ты сам в ркн'е работаешь, поэтому не можешь поверить, что твоя залупа легко обходится?
>>1553796 Тебе нужна видеокарта Nvidia с 8 Гб памяти хотя бы. Можно AMD, но тогда готовься к тому, что у тебя скорее всего не будет ничего, кроме ЛЛМ из ИИ. Если будет больше памяти - отлично. В видеопамять и в оперативку тебе нужно упихать модельку уровня GPT OSS 20B в кванте MXFP4. Для кодинга под себя будет неплохо. Все, что ниже - такое себе, но попробовать что-то можно. Мелкие модели уровня 2-4B - это мусор, но может с ризонингом там можно что-то найти относительно вменяемое. Но ты будешь больше ошибки за ними править, чем ими кодить. И без видеокарты тебе будет тяжело.
Хули вы тут разнылись все? Думаете это у вас моделей нет? Я, сука, второй год жду хоть что то кроме нуба в аниме генерации, но никто просто нихуя не хочет делать для локалок, хотя ниша пустует абсолютно, даже видеогенерация не в такой пизде и туда алибаба заглядывал с ваном. Нуб вроде вообще китайским студентом за 10к$ бюджета сделан т.е понимаем насколько всем насрать
У мистралей анальные законодательные ограничения, я вобще удивлен что они что то выпустили. Но конечно им бы ультануть с аналогом квен3.5 35ь, как в свое время был микстраль. Такая большая хуйня не туда не сюда, вынь да полож минимум 128-96 гб рам, или в худшем случае врам. Кому и зачем этот выпуск не совсем понимаю.
На лохито какая-то контора толкает гробешник с 256 гигов ддр4 с полуживым тредриппером (ошибки по одному ядру) и физически покоцанной, но функциональной мамкой.
Есть вероятность, что ценник снизят и/или продадут оперативаку отдельно. Мб будет шанс урвать 256 гигов тысяч за 50.
>>1553932 У меня этот на десктопе работает, а на мобилке нихуя. мимо
>>1553990 Да у всех ограничения. А кто не ограничен, тот лоботомит без характера. Для кума с рп нужно тренить отдельную модель, которая будет учитывать характеры, роли, трейты и всё остальное, что критически важно для персонажки. А пока что у нас либо ванильный рефьюзокал с более-менее интой, либо есмен-лоботомит, который вообще не вдупляет что происходит.
Скачал квант анслопа, а он нихуя не работает. Прямо полностью, даже ответ не генерит. Захожу к ним, а они его минуту назад перезалили, как и еще пару квантов. Это при том, что кванты LMStudio залиты еще вчера и работают. Ебанные говноделы, я в ахуе, что их до сих пор кто-то защищает
Сколько степ-флеш выдаёт на чисто процессоре без видеокарты? У меня 128+32, я скачал квант, который весит 130, то есть без видеокарты я его не могу запустить.
Получилось на threadripper 1920 + ddr4 2933 мгц + v100 (pcie x8) pp около 20/s (но это некорректное число, я батч мелкий поставил), tg стабильно 15.67/s. Не 15.6 и не 15.7, а стабильно как часы 15.67/15.68, как на пустом контексте, так и на 30к токенов.
>>1553744 Промпты почисти. Многие модели подобные метафоры пытаются делать если требовать художественности и прочего, они припезднутые но в нормах языка. >>1553831 > Без ризонинга она лишь немного лучше 24b мистраля Есть такое, в начале там не ясно кто кого. Но на контекстах уже ощутимое преимущество за новым. Если про язык на контексте говорить - практически нет ошибок словообразования а на 3.2 часто замечаешь, со склонениями сильно больше и речь другая. Если накинуть сложности - в чатах где 3.2 пускает слюни это кое как ориентируется. То же и с восприятием языка. В готовой сессии -кода с норм контекстом и целиком русским чатом новый сразу продолжает делать, а 3.2 капитально теряется. Когда основное общение на английском вроде так не аутирует, но все равно тупит. > Раз они четвертый смал сделали 119b, то ждем лардж на триллион Бахнул бы кто ~200б модельку общего назначения с вижном, вот было бы отлично. 235вл - жалкая соевая тень 235, да и хочется последних датасетов.
Хз чего вы носом воротите, буквально дали модельку, которую тут все хотят.
>>1553840 Звучит так, что можно ожидать проблем, так что действительно лучше не спешить.
Есть смысл пытаться поставить 120b модель на 12 vram + 42 ram? Или хуйня затея? Если не хуйня, в третьем и самом обосранном кванте будет хотя бы терпимо?
Ещё у меня есть p104 8 vram (тогда можно видеопамять увеличить до 20), но вроде бы у MoE там катастрофическое падение скорости всегда из-за накладных расходов, если размазать по двум видюхам и ещё в оперативку засунуть, по крайней мере такое у меня было на 30б, когда я для интереса попробовал не не 3060 + RAM, а 3060 + р104 - RAM. Не знаю, это я обосрался или просто такой режим работы плохая идея.
>>1553853 > Теперь придется пожинать свои плоды и тратить больше, чем потратили бы раньше База. Но скорее просто коупить что все не нужно. >>1553860 Железо подорожало с момента покупки чуть ли не в разы, можно считать инвестицией. > на опенроутер и кумить на нормальной модели в fp8 На опенроутере много шмурдяка, логи и он дорогой. Зачем оно нужно, если можно катать те же фп8 у себя со скоростями, которые узники считают невозможными? Лучше оставить его в качестве плана б обладателям отсутствия которые даже оплатить его не смогут
>>1554167 Задолбаешся веса по 4x16 раскидывать. Оно еще и ложиться будет не как тебе хочется, а как слои лягут. Будь готов с каждой карты по гигабайту потерять.
>>1554169 Да просто для чатика. > куда их вставлять. В маманю с х16х8х16х8 4.0, остальное не важно. >>1554170 А не будет ли проеба по скорости генерации? Я боюс. >>1554171 Ну вот это и пугает, с другой стороны, немного теряется и на 3090х...
>>1554172 > Да просто для чатика. Тут понятие довольно широкое и в зависимости от кейса разные критерии. Типа одно дело - быстрая работа моделей поменьше, другое - попытки впихнуть максимальную и похуй на скорость. Судя по линиям там платформа жирная, так что возможны оба варианта. А 4х 3090 не хочешь рассмотреть? Типа аргумент 4х карточек довольно весомый здесь потому что это тп4, но в 64гига 5060ти мало что влезет и они сами по себе слабые, из плюсов только простота размещения. На 3090 тоже есть проблемы с w8a8, местами упираются по компьюту, габаритные и требуют мощного питания. Но в целом все поддерживается, памяти и вычислительной мощи больше, топ за свои деньги. Если рам будет достаточно - с такой конфигурацией на 4х 3090 сможешь быстро катать весьма крупные модели.
>>1554175 Да у меня уже есть парочка 3090, я думаю не иду ли я по дорожке вникуда, докупая третью или даже четвертую. Сколько вот лет они останутся актуальными еще.
> попытки впихнуть максимальную и похуй на скорость. Все ограничено RAM и клятыми МоЕ-моделями. Если появится плотняк, который будет генерировать достойную писанину и влезать в VRAM - с радостью соскочу на него.
>>1553805 >Если есть куда их втыкать - обрати внимание на карточки типа 3060/3070 с 8 гб памяти Это хлам, надо хотя бы 3060/12, тысячу раз уже обсуждали. Ты бы ему еще 3050/8 посоветовал, лолъ
>>1554186 Я не знал что существует 3060 на 12 или 3050 в принципе (4050 же нет вроде?). Ну и у него 16 гб оперативы, бюджет соответствующий, что выпало дешёвое на авито, то и посоветовал. Ему и 3050/8 даст х10 скорости на qwen-9b.
>>1554181 Сейчас эпоха агентов и различных применений языковых моделей, потому именно тормознутый запуск по популярной здесь методе будет становиться менее популярным. Благо ей есть хорошие альтернативы и путь для эволюции. На фоне этого в 1.5 раза больший объем врама и компьют будет серьезными аргументами. Ампер отживает свое, но для него все еще будут обновляться кернели. А 5060ти считай и не жила вовсе, слишком слабая. Если там платформа с pci-e 4.0 (или не дай бог вообще 3.0) то и париться об устаревании нет смысла.
>>1554049 >>1554057 Обратил внимание, что появилась еще вот такая штука: https://huggingface.co/noctrex/Mistral-Small-4-119B-2603-MXFP4_MOE-GGUF Спросил Грока что за хрень - он говорит, что эти кванты немного медленнее, но по качеству обычно сравнимы с обычными Q5 при размере близком к iq4xs. Т.е. для тех у кого конфиг 24+64 может быть заманчиво. Интересно - это действительно так, или брешет? Сам сегодня-завтра проверить не смогу, буду у машины только позже... :(
Что не так с Qwen3.5-9b gguf от unsloth и батрухи? Выдает кашу из символов в llama.cpp. Дело в том, что она не instruct? Как вообще с ними в диалог/кодинг выходить-то? Qwen2.5-coder из коробки работал.
>>1553729 Нету. Спроси у анонов. CunnyConnoisseur был довольно таки популярным ботоделом, до того как был забанен. Так что у кого-то должна была сохранится.
>>1554362 Опять сломали? Там как автоматический парсер сделали так началась шляпа с моделями и вызовом инструментов. Скачай релиз недели на 2 раньше проверь снова
Скачал Мистраль IQ4XS от бартовски. В итоге у меня модель не может обработать средний текст на 32к токенов. Где-то на середине скорость так замедляется, что почти останавливается. На других мое все норм. Есть что-нибудь похожее у кого-то? Лама b8390, 16+64, ncmoe 30, b/ub 4096, mmap вырублен
>>1554278 Ты сидишь в ллм треде, причем в треде локалок, где нужно больше знаний, и при этом веришь слопу нейронок? Перестань На скрине кванты анслопа для квена 122. MXFP4 и близко до Q5 не дотягивает. Обычный Q4, но расхайпен гопотой
>>1554449 >MXFP4 Эта хрень годится только для сеток которых тренировали в 4 бит или чето такое, не помню, если нет то этот квант хуже обычного 4 бит. Недавно анслоту пришлось переделывать все свои квены изза того что они были не качественными как раз изза этих квантов.
>>1554278 Если правильно сделаны - да, это так, по скорости все ок. Если их просто дергать из других квантов, и потом упарывать другие слои, которые оставались в оригинале при калибровке, или гнать без адаптации - будет на уровне bnb. Также есть еще вариация от амд а ля nvfp4, где предполагается также и квантование активаций, но с таким конфигом ты ее не встретишь. >>1554398 Квен, новый мистраль. Обе умницы и очень разные.
Нанасы, какую мелкомодель взять для перевода с русского на английский? Пытаюсь в генерацию картинок по этому нужно дохуя чего переводить, а гугл и яндекс вообще для этого не подходят.
Туда же вопрос, я ведь могу одновременно катать и зигу и дефолтную ллм, если есть место в оперативке? Не будет никаких конфликтов или типа того?
>>1554477 Курсед нет смысла переводить, модель этого не сгенерирует. Так что обычный около-сейфти, за исключением может сисика писика в кадре и типа того.
Меня больше интересует размер - около лярда параметров хватит, или лучше взять побольше, около четырех.
>>1554480 Перевод НА русский вот это лучшая из гемм gemma-3n-E4B-it 4b старовата, 12 27 лучше но большие По идее на английский они тоже с русского должны хорошо переводить.
>>1554458 Если нищий, то гемма 12б либо квен 35б/20б гпт осс. Если не совсем нищий, но и не богатый, то гемма 27б. Квен 27б всё ещё хуже в переводах. Про модели меньше не знаю.
А вообще, для такой хуйни грока можешь юзать, он тебе там напереводит для 1girl, loli, ugly bastard, cervix, x-ray, creampie, ahegao.
Вот только запуск локалки чисто в оперативке, если это не МоЕ, может быть весьма болезненным.
Или ты используешь локалки, которые понимают не теги, а МОЛОДАЯ ЖЕНЩИНА В ШКОЛЬНОЙ УНИФОРМЕ, СИДЯЩЯЯ ПОД НЕБОМ, ОСВЕЩАЕМЫМ НОЧНОЙ ЛУНОЙ У РЕКИ...
>>1554449 Чел, я как бы, потому вопрос и задал, что не верю им без проверок. Просто оно как-бы совсем мимо меня прошло, а отправную точку с которой начинать вникать - спросить у грока или у гугла, ныне разница небольшая. :)
>>1554454 Это про gpt-oss вероятно. Там кажись как раз они. Правда unslop-ы - не показатель, IMHO. Они и без них сломать горазды. :)
>>1554485 Нищий, так что да. Мой выбор где-то в районе 4B, потому что на другое оперативки свободной не хватит. Использую обычный z-image-turbo, там на кодировщике квен-3-4B, он текст всех видов жует.
Подскажите, как в таверне увеличить список чатов. У меня их штук 20 тестирую разных персонажей но отображается только 15. А как сделать чтоб остальные появились?
>>1554525 Только кинул ссылку в тред - и уже кто-то втихую как крыса купил, а на пост не ответил. Мм, можешь не отвечать, крыска, я подожду твоего сладенького отзыва с фоточками погнутых пинов или ошибок памяти...
>>1554590 Лол, анону платы от лифта прислали, а тут занавеску положат. Обмотаешься, закроешь глаза, и погрузишься в медитативно-иммерсивный ролеплей. Только выиграли!
>>1554561 Я на 99.99996% уверен что по подобным горяченьким в наши непростые времена запросам десяток парсеров бегает проверяет нонстопом. Если это не какой-то уникальный лот с доступом только по ссылке, то врятли купил анон
>>1554605 Там вроде есть различия, корректируются ли ошибки или нет. Типо в нвидия сми можно запросить инфу, сколько ошибок было скорректировано. Они на работу действительно не влияют, разве что замедлять могут, если их целый вал. Но целый вал - это, конечно, уже симптом, и рано или поздно это приведет к неисправимым ошибкам, а вот при них карта действительно лапки кверху делает, насколько я видел скрины. Вроде там даже ERR еачинает писаться в текущем потреблении питания.
>>1554624 Сноси обе. А для первой найди нормальный IQ4XS квант от bartowski - и будет нормально писать. На английском - потому, что Air в русский нормально не может в принципе.
>>1554622 Ошибки в одном бите корректируются на лету, а вот мультибитные только детектируются и досвидули. Обычно как раз обилие первых - симптом и потом приходят вторые, с ними карта уже мертва. >>1554624 > вылезают ошибки форматирования Наверно потому что нужен чатмл, не думал об этом?
Кто-нибудь знает почему квены 3.5 27b иногда останавливаются? Только у квенов может остановится с нихуя, копка "продолжить" пересчитывает контекст пару секунд и сдаётся. Контекст с большим запасом, у Геммы такой проблемы не было, llama.cpp, Ban EOS Token пробовал, пресет - Qwen 3.5 27B Instruct or non-thinking mode for general tasks.
>>1554634 >Кто-нибудь знает почему квены 3.5 27b иногда останавливаются? "Ты уже перестала пить коньяк по утрам?"(с) Никогда сам не наблюдал, и не встречал нигде упоминаний от таком. Вероятно - где-то у тебя персонально что-то нахимичено. Если это не порог вывода (не размер контекста а именно количество возможных новых токенов), то где-то что-то ему за стоп-токен мерещится. Других идей нет...
P.S. Порог вывода может быть в backend установлен. Скажем, если ты для запуска llama.cpp откуда-то просто строку ключей скопировал - там может быть.
>>1554634 Да, останавливаются. И 122 тоже. на много раундных чатах или в агентском цикле. Особенно на контексте больше 65k . В логах EOS единственным токеном и как следствие пересчет контекста. А потом еще и еще. Че я только не делал с этим говном - немного помогает продлить мучения увеличение батчей. "Если б мы знали что это такое..."
>>1554694 за этим лучше в aicg тред, а то щас тут мне за щеку дадут я бы наверное или Клодик или Гемини брал бы под такое дело, платную (на перплексити.аи можно кста получить месяц фри триала если студент и там в целом несколько моделей доступно от разных провайдеров)
>>1554656 Какова степень автономности? Вычитка куда ни шло, если "напиши за меня курсач" то тебя выебет антиплагиат ну или не выебет, но тогда твоя шарага вообще бесполезна и нахуй там учиться
>>1554700 > Какова степень автономности? Ну хуй знает. Главное чтобы ахинею не порола и желательно чтобы ссылалась на нормативно-правовые акты. > выебет антиплагиат Вроде у нас курсовые не проверяют на антиплагиат, только ВКР. вузик шаражный, сижу ради диплома
>>1554634 В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс.
Потыкав 122б в q4 поддвачну остальных ораторов - жора сломал очередную модель. Не сказать на самом деле что прямо плохо, но она тупит, выдает странные ассоциации, внезапную сою, те самые регулярные лупы в ризонинге (они и в нормальном кванте-инфиренсе возможны, но в 0.27% случаев по выборке из 120к запросов без presence/rep pen). >>1554639 > долго прогревается Jit же, любой первый проход любой модели долгий, может несколько минут занять. Когда кэш сохранен то за 20-30 секунд подтянет. Это ты еще не видел как tpu собирается, там вообще можно на пол часа чай пить уходить. >>1554691 > и как следствие пересчет контекста Как это следует из eos токена?
>>1554715 > Jit же Не, вллм при старте там себе графы строит, греет всё минут 10-15, потом первый запрос секунд 10 до обработки непосредственно, далее мгновенно обычно. У квена 3.5 110 всё прям очень неторопливо, но сразу скажу что у меня форк чисто под мишки, мб там что то напартачено
>>1551135 → Допечатал морду и по мелочи, завтра обещают доставить боковины акриловые с лазерной резки. Перед вышел 850 грамм, печатаю вставки для дизайна
>>1554691 У меня (27b) размер контекста вообще не имеет значения, в любой момент может остановиться и все. Но у меня Presence Penalty занижен по сравнению с официально рекомендуемыми, повышая можно избавится от блока но генерирует шизу. >>1554715 >В настройках таверны max new tokens нормальный стоит? Разметка должна быть chatml. Если все ок то багован инфиренс. Да, все правильно. Это точно ни какая-нибудь NSFW блокировка?
Ему обязателен километровый промпт, чтобы он нормально писал, в отличие от более старых версий и других моделей плюс-минус такого размера.
Хочешь какое-то RPG? Будь добр рассказать, как должен описываться бой, окружение, диалоги, вообще всё. Детально.
Хочешь кум? Ну тут тебе надо составить большой список, каким деталям стоит уделять внимание. Что там у тян может трястись, чем хуй может брызгать.
Да, он работает и без этого, но сухо, очень сухо. Любая срань, даже немо способна на на это лучше из коробки с промптом в два предложения, но есть нюанс. Они не выполняют инструкции, кроме геммы, а квен выполняет вполне, даже если ты прилично так насрал.
Если прописано всё прям подробно, то довольно урчишь, так как контекст лёгкий, внимание к нему есть, 70к токенов хватит всем. Но грамтный и универсальный системный промпт для РПГ, кума, кума + РПГ далеко не всегда спасает. Часто надо дорабатывать, чтобы не тыкать его по ходу РП носом.
Если делать карточку прям с упором именно на этот квен и его особенности, то разница поразительная. Крайне неудобно, но идеально для тех, кто гоняет 3 карточки по 2 месяца и довольно урчит.
Сейчас посыпятся обвинения, что скилл ишуе, но нет. Ни одна модель так меня не опрокидывала, даже корпы. Последим можно вообще в ебало харкать общими фразами и будет идеально, а всяким мистралям 24б вообще похуй, что ты там писал. Это может быть даже вредно из-за рассеянного внимания.
>>1554739 Я все чаты для всех моделей делаю в формате романа, с фейковыми рецензиями описывающими что там должно внутри быть и цитатами случайных параграфов в качестве образца прозы
>>1554720 Очень зависит от используемых ядер, бэкенда атеншна и конфигурации. Как-то накрутил так, что 397 в пп режиме компилировалось настолько долго что запрос по таймауту улетел. Набор графов это несколько другое, все равно первый проход думает и доиспользует врам. Когда раз собралось уже норм, тут больше проблема в очень долгой загрузке весов с тп. Не то чтобы это прям большой минус, пофиг. >>1554728 Вообще выглядит огонь. Пожалуй себе также сделаю с торцов, держи почтение за идею. >>1554729 > Это точно ни какая-нибудь NSFW блокировка? Хз, не встречал такого, это странно. Попробуй просто другой квант скачать.
>>1553708 Говно, выставил все рекомендованные настройки и промпт - в историях несостыковки сплошные, вроде того что перс знает другого, когда они первый раз видятся и ведет себя, как будто 100 лет знакомы, зачем то называет свои данные и прочее такое. Самый говняный микс, какой пробовал, к тому же тормознутый в сравнении с тем же HauHau.
>>1554739 Да, примерно к тому же пришел, нужна расписанная карточка. Теперь осталось выяснить лучший микс квена. Потому что все дают разные результаты даже с хорошей карточкой. Пока нравится Claude-4.6-OS-Auto-Variable-HERETIC-UNCENSORED-THINKING.IQ4_XS, вроде как самые проработанные истории дает.
>>1554739 Не, я тебя обвинять точно не буду - я уже писал отзыв про него, и мнение у меня примерно такое же. Модель для тех, кому не влом все настроить под свой вкус. Кому надо кнопку "сделать зашибись" - пролетают мимо.
>>1554758 Мне пока зашли - ансензор версия от двучлена и BlueStar.
>>1553807 Ого, нихуя себе, классная подсказка, 10.33T/s получилось с 35b, все 41 слоя отгружены на gpu, эксперты на cpu, это повыше чем с любой 9b моделью, там максимум 6.85 t/s бывало. Карточка 1050 еще могет.
>>1553807 Убрал оффлоадинг тензоров, который с 9b помогал, стало вообще 11.10T/s генерация, это рекорд. Правда на этой стадии грузит каждый раз что-то по 2 минуты, когда сначала кобольд запускаю, с 9b так не было. Память сразу показывает что загружена 17GB уже. Хз, что он там столько грузит, когда все в памяти.
>>1554759 >ансензор версия от двучлена Там тащем-то 2 уже от двучлена: Huihui-Qwen3.5-35B-A3B-abliterated-i1-GGUF Huihui-Qwen3.5-35B-A3B-Claude-4.6-Opus-abliterated-i1-GGUF
>>1554776 Если веса модели на hdd то так и будет по 2 минуты читать их в память. -fa on или off еще попробуй, для лучшей скорости квант нужен обычный 4км без изьебств с сложными квантами. У бартовски скачай. Впринципе 32к контекста спокойно держит, 64 тоже во врам влазит но скорость обработки падает
Конечно то, просто они большие. У 4.6 есть маленькая V версия, и у нее русик даже лучше 4.5 аир, но она немного глупее, так как испорчена мультимодалочкой.
Мистраль 4. Вначале работает быстро, но очень быстро скорость падает на дно Скрин 1- мистралька Скрин 2 - немотрон Скрин 3 - квен 122 Скрин 4 - glm 4.6v Параметры одинаковые - b/ub 4096, 32к контекста и ncmoe, чтобы заполнить 16+64. Это из под винды, на линухе +10-25%, но мистралю это не помогает. Самая медленная залупа, при том, что активных параметров меньше всего У всех она так работает или проблема только у меня?
У меня родилась просто охуительная идея. Я хочу обучить нейросетку на свою девушку, дать ей кучу информации о ней, характер, интересы, плюсы, минусы, также скормлю ей переписки за 2 года и распишу кучу разных ситуаций, крч инфы на самом деле прям много. Сверху ебану умными книжками по психологии, по манипуляциям и по отношениям. Все это запущу локально на своей 3090.
Хочу чтобы бот давал мне советы, защищал от всякого женского маняпулятивного говна и ебашил охуительные отношения.
Какую модель использовать под мои нужды и железо? Небольшой опыт в обучении есть, но проекты такого уровня не делал.
Этико-моральные вопросы меня не особо ебут, похуй как-то, не надо мне эту хуйню писать.
Аноны, есть ли те кто катают 235 квен? У меня вопрос: с последними обновлениями жоры и ламы он стал быстрее работать и перестал ломать разметку уходя в квеностиль. И я вот хочу понять: это у меня так чудесно звезды сложились, или это в целом у всех?
>>1554869 Да, на мистрали есть ебовая потеря скорости уже на 15к контекста. Ждем фиксов. Но я бы вообще тюнов ждал. Чёт она в девичестве не очень получилась.
>>1554871 > У меня родилась > просто охуительная идея > Я хочу обучить нейросетку на > два-ядра-два-гига перемайненная 10 лет 3090 Школу закончи, мамкин ценник
>>1554759 Да, блюстар на удивление хорош, если учесть что ему обрубили ризонинг. Но настраивать долго. Я с ним дня три возился, теребя конфиги, чтобы выжать добротный результат.
>>1554875 Дипсик на ней работает прям хорошо, а у меня данных будет меньше чем у него.
>>1554876 > Сочувствую+соболезную. Нечему. Просто я понимаю, что трачу много моральных сил на эти отношения. Как и на предыдущие. Если автоматизировать хотя бы половину, то было бы очень хорошо.
>>1554874 Так это уже после 8к такой пиздец. После 15к у меня мистраль останавливается. Я ни разу даже 32к контекста не смог обработать разом, потому что на половине она просто встает. Вряд ли это особенность модели, скорее всего кванты или лама сломанные >>1554872 Не знаю, что там с 235, но квен 122 стал работать быстрее, но срать простынями ризонинга увы не перестал
>>1554884 > Вряд ли это особенность модели, скорее всего кванты или лама сломанные Уверен в этом. Потому что немотрон после обновления Жоры просто полетел. Степ вообще на 15т/с пердит. А тут 4 т/с и иду я нахуй.
>>1554895 Вызовы починили. Со вчерашней версией openclaw гоняю - работает практически идеально (qwen 3.5 27B от двучлена) и весьма быстро. На предыдущей попытке (несколько дней назад) - вообще не работало. Конфиги нигде не менял, просто новую запустил с теми же настройками...
электродилдак с подогревом купи, и факмашину, найс автоматизация будет, и эффективная
по теме треда - на 3090 ты только залупу Иваныча обучишь, чтоб что-то реально обучать нужен кластер из H100 (или хотяб RTX Pro Blackwell edition) (на 8B модель ~140–160 ГБ VRAM нужно для тренировки) лоры можно попробовать на игровом оборудовании пообучать, но лора не даст тебе того эффекта.
на основе RAG разве только дергать книги и инфу с переписок, но эт тоже фигня будет (хотя переписки может и в контекст влезут)
Ну а главный нюанс из за которого затея свеч не стоит, бабень твоя манипуляции с твоей стороны и защиту от ее манипуляций не потерпит, и на другой хуек соскочит
>>1554871 1) если у тебя девушка-манипулевушка, беги. 2) если ты решил сделать из нее нормальную, не сделаешь. 3) читерить с нейросетями в данном случае - странный и избыточный метод. 4) счастье в семье/отношениях - плод честности, диалога и взаимопонимания. Любовь-любовью, но без этих трех составляющих нихерашеньки не выйдет. миможенат 6 лет, в отношениях 11
По всем тестам qwen-3.5-9B (IQ4_XS) уделывает glm-4.7-flash (Q6_K_XL) в моей самодельной rag-системе. 9B и в таком кванте, так как дома котёнок, и 10к кулер на V100 лапы обрубит, потому я ноут гоняю с карточкой на 8 ГБ, как защиту для кулера распечатаю - поставлю 27B в 5-6 кванте. 1. Меньше токенов кушает. Без инструментов там ризонинг на 8к, ну все это уже знают. А со списком инструментов glm пишет по 2к токенов размышления, а qwen пишет 1000 в первом сообщении и потом лишь иногда по 100-200. 2. Понимает что фраза про текущее использование токенов (если больше 30000 я ещё текстом дописывал, что мол остаётся мало контекста, старайся уже сформулировать ответ) и json вида {"description": "Current context filling", "context_filing": 0, "tokens_remaining": 45000,"percentage_usage":0} - означает что 0 использовано и 45000 осталось. Флеш даже с такой кучей дублирующих полей часто игнорирует лимит, или воспринимает что он уже использова 45000, а 0 осталось в какой-то момент. Каждый четвёртый запрос он чудит, а без дублирующих полей он вообще не работало. qwen-3.5 работает, даже если передавать json с одним числом без дополнительных полей + можно в системном промте сократить инструкцию о лимитах на токены и вызовы инструментов в три раза, и он их понимает. 3. Аналогично с вызовами инструментов. Время от времени я передаю json, где указано, сколько вызовов какой функции осталось - глм балуется, всё-равно дёргает, ему нужно ответить что "лимит вызова инструмента .. превышен", и он пишет "инструмент выдал ошибку, кажется его больше нельзя использовать... а, да, это же и написано в сообщении о лимитах выше", а qwen 0 раз вызвал инструмент вне лимита, qwen-next 80b-a3b тоже справлялся, к слову. 4. Про скорость сказать не могу. На 8 гб карточке (ноуте) 9B выдаёт 2500/40 (pp/tg), а флеш 250/15. На V100 флеш 750/100, что в целом оказывается медленнее, чем 2500/40 - так как почти всё время это pp. 27B почти точно медленнее флеша будет, но интересно какая скорость 9B на V100, быстрее чем 2500/40 на современной, но ноутбучной карточке, или нет? Ну как минимум можно в кванте толстом и с контекстом в 500к запускать с кучей конкурирующих потоков. 5. Почти лупится очень редко и в разы реже флеша.
Мне всё ещё интересна информация от того анона, который отправлял glm-4.7-flash рефакторить код на 20 минут, как и каким образом он хотя бы какого-то результата добился.
>>1554871 Книжки по психологии тоже не помогут, оно уже их все видело в обучающей выборки и в куче статей в сети, всё содержимое там указанное по много раз. Достаточно указания в промте, что руководствуйся информацией из вот этих то книжек. То есть оно знает все в некоторой степени, просто укажи предпочтения каким отдавать. Дополнительно, представь что это не сравнительно глупая нейросеть, а человек, пусть даже умный. И ты даёшь ему инструкцию, что вот почитай книги по психологии и действуй в соответствии с ними. Мне не кажется, что человек поймёт как это использовать, лол, и это скорее помешает.
В среднем ты ничего не обучишь и в этом нет смысла, даже если у тебя 1000 карточек 3090, электростанция и месяц времени. Помимо производительность ты не обучишь хотя бы по признаку, что сеть это миллиарды параметров, а всю информацию что ты сможешь собрать + книжки, это несколько мегабайт информации. Оно просто бит в бит запомнит всё, и обобщать эту информацию мотивации у сети нет. Нельзя по 8 байтам информации обучать 1000 байт. Обучающей информации должно быть на порядок или два больше, чем обучаемых параметров, так как они по сути сжимают информацию путём обобщения и выявления закономерностей.
>>1554898 Уверен в этом. Потому что немотрон после обновления Жоры просто полетел. Там допиливают поддержку CUDA для NVFP4: https://github.com/ggml-org/llama.cpp/pull/20644 А ведь Нвидиа сделала QAT-квантование Немотрона в этом формате. Как допилят, появятся NVFP4-ггуфы - вот тогда мы и похохочем.
>>1554871 Ещё дополню, что будет интересно если ты напишешь что и как вышло. И ещё дополню - ситуации всякие возникают, ну, редко, тебе 3090 не то что бы нужна. Я бы ориентировался на крупную сетку в 200-300B и с контекстом на 400к, чтобы скормить все ситуации что были, как примеры, чего нужно искать и недопускать в будущем. И соответственно запускаеть на процессоре из оперативы. 3090 просто для ускорения промт-процессинга, генерировать ты не на ней будешь. Более того, историю с описанием примеров ситуаций ты можешь прокрутить и сохранить kv-кеш в файл на несколько ГБ, чтобы его не пересчитывать - тогда видеокарта тем более не нужна.
Ну и да, оторвано от реальности посмотреть за результатами твоего эксперимента и насколько оно работать будет интересно, но как то что это у тебя такие отношения звучит как лютая лютейшая дичь, лол. Если это лёгкие отношения и каждый со своими интересами, то, наверное, окей, может быть. А если тяжёлые с планами на семью и прочим - то лютая дичь. Ну и типа я не верю, что ты свои человеческим мозгом невероятно гиперчувствительным ко всем невербальным сигналам и признакам не может справится с тем, что осилят крупные прямоугольные матрицы.
>>1554367 >>1554373 llamacpp 8401 - вроде починили, символами больше не срет, отвечает по делу. А я уж думал, что толи лыжи не едут, толи я что-то не то не туда сую... жора-жора, спасибо за день бездумного перебирания настроек/шерстения интернетов и танцев с бубном
>>1554936 >В смысле сыпется? Орфографические и стилистические ошибки, лупы, искажения фактов из контектста чата даже, а не карточки. Температура 0.4, формат чат-мл, контекст 32К, остальное стандартно.
>>1554944 Орфографических не замечено, у тебя в семплах насрано. Яб наоборот отметил, что блюстар хорошо держит стиль, не сбиваясь на хуйню и чем дальше пишет, тем увереннее держится. Лупы от промта и карточки зависят. Если в карточке слоп без смысла, то будет лупать. Если хорошо написано то не будет. Это всё ещё генерация текста, а не отыгрыш роли живым актёром, не забывай.
>>1554916 >отправлял glm-4.7-flash рефакторить код на 20 минут Ты про мои посты двухнедельной давности или кого-то еще? Я давно уже с локалками в клешнетреде ебусь, тут в основном ридонли. >как и каким образом На тот момент было: Claude Code последней версии, ллама до мержа автопарсера, и простыня agents.md, запиленная под клода, контекстное окно от сотни. Настройки семплирования были дефолтные. Где-то до 60к токенов флеш делал ожидаемое, дальше лажал на ровном месте. Поэтому я его отложил в дальний ящик до тех пор, пока мне не подкинули pi c субагентным модулем, с чем флеш себя показал более вдумчивым по сравнению с квеном 35b да и в целом с семейством квенов. Детализацию какую-то я в клешнетреде постил. И не забывай момент с автопарсером, когда я гонял флеш на проекте, из квенов под CC нормально работал только 27b. После мержа автопарсера многое могло поменяться, но у меня это скрылось переходом на pi - в нем теперь наоборот, флеш отваливается чаще квена 35b. Но флеш один хер послушнее что-ли, говоришь юзать то - начинает в пределах 5 ходов использовать. Квен часто хер кладет и делает ходов 15, плотно насирая себе в контекст.
Вот в треде срут людей, что они нихуя не знают и просят пресеты которые им офк никто не даст А давайте обратимся к уважаемым разработчикам, надежде кумеров и всей ИИ индустрии Европы - круассанам с их новой мистралькой 4 У них спрашивают какие семпы у их чуда? Они игнорят и отвечают только про температуру - 0.1. Проходят сутки и они добавляют в карточки рекомендованные настройки. Там тоже только температура, остальное видимо нужно угадать. И там уже 0.7 для ризонинга и от 0 до 0.7 ну хоть не от 0 до 2 для инструкта Ну то есть сами разработчики модели нихуя ничего не знают про нее, а тут что-то от простых анонов требуют еще
>>1554828 Эйр это местный псиоп, давно пора привыкнуть. >>1554853 Весов нет - не считается >>1554871 Лол. Ну над тобой тут уже все поугорали, потому отвечу нормально. Для таких задач обучение не нужно, ты его не только сделать не сможешь, но и сетки уже все это знают. Уложи имеющуюся информацию в промпт (может быть самым сложным) и потом можешь спокойно обсуждать с сеткой те самые манипуляции и прочее. Только учитывай что ллм не является объективным критерием, даже просто наличие истории где она что-то детектила может привести к ложноположительным оценкам и высасыванию из пальца. Алсо тут нет ничего лучше чем ты сам и опыт. Не стесняйся устраивать ретроспективу даже неприятных тебе моментов и практикуй. Не заметишь как многие вещи станут прозрачными а другим ты наоборот будешь подыгрывать внося свои коррективы и уже сам будешь у руля. Собственно доля подобных игр без перегибов разумеется - есть часть здоровых отношений
>>1554975 Побольше, скорее около месяца. Это было несколько дней после выхода глм-флеша.
>>1554853 Странная нумерация. 2, потом 2.1, 2.5 и тут 2.7? Типа, там промежуточные версии остаются в лабе, и лишь иногда они их подшлифовывают (например, цензурят) перед выпуском в сеть на публику? Окей, ждём. Я не верю что там не было ещё и 2.2, 2.3, 2.4 и 2.6 - их просто не показывали.
>>1554978 >отвечают только про температуру - 0.1 >мысраль >0.1 Пиздец. Мистраль всегда был жаркой моделью, это какой-то долбоёб отвечал, а не разраб. >что-то от простых анонов требуют Не что-то, а буковки читать глазками. И хоть иногда семплер теребить, если модель очевидно высирает хуйню. Я хз каким надо быть ебланом, чтобы видя, как модель корёжится в муках от неверных настроек, продолжать писать в тред, что модель плохая. И это при том, что в треде минимум двое отписались, что модель заебись.
>>1554869 Жесть какая просто, особенно пп. Это не рофл, реально там такие скорости? Теперь понятно почему по модели мало отзывов а большая часть - просто нытье кобольдов что цифра не та. >>1554872 Вот и источник многих прошлых срачей явился. Раньше казалось что виноваты просто лоботомированные кванты и для q2 жалобы нормальны - но оказывается в добавое еще кое кто все это время гадил и отравлял. Сейчас в жоре разгребают авгиевы конюшни и что-то правят, так что вполне возможно что это оно. Правда новый квен все еще копиумный. >>1554916 > дома котёнок, и 10к кулер на V100 лапы обрубит Они умные, к кулерам даже не подходят. > Понимает что фраза про текущее использование токенов Однако, действительно 9б так хорошо соображает? >>1554933 > цензуры нет Огромная и ужасная в худших проявлениях. А просто дженерик кум или напердолить промпты чтобы разок добиться нужной выдачи - нахуй оно нужно, вон сколько всяких есть где то же самое, только проще и не хуже. По ассистенту - двачую >>1554953
>>1554992 Там котёнок бесстрашный. Прыгает в стиралку, в ванную, в раковину с пеной, когда я мою посуду, на собаку в 40 кг, на 3d принтер и на пылесос охотится, хотя казалось бы резкие звуки. Кулер от процессора большой и медленный на 1200 при мне лапой бил. Но там края мягкие и скруглённые, не особо страшно. А на 10к они заточенные и злые, мне кусок кожи оторвали.
А по теме, да, квен на 9B по моей оценке неадекватно умный для своего размера, инструкции даже на русском понимает, и без доступа к сети пишет небольшие батники, sh-скрипты и даже написал мне демку, где на с++/sfml арканоид с первой попытки. Gemma-3-12B не справилась даже за пять сообщений, Gemma-3n-e4b справилась, ну, почти справилась, натупила в синтаксисе нескольких функций забыв аргумент, и после того как я добавил завелось. Я просто сам писал это несколько раз, и каждую строчку что нужно написать знаю.
Но это прям исполнитель одной задачи. Типа, ты даёшь ему короткий промт, что вот тебе html-страница, текст или вообще картинки - найди на них то-то-то, и выпиши то-то-то в таком то формате. И он очень быстро и достаточно качественно делает эту одну задачу. Цепочка запросов на разные темы или ещё что-то такое не для него. Наверное разумным вариантом будет, если есть центральный оркестратор, медленная модель на 100-200B на CPU, которая пишет план и ставит небольшие задачи попроще, которые выполняются вот такими небольшими запросами к 9B модельке, а вот обобщение результатов и постановка новых задач снова делается на 200B модельке. Это позволяет просмотреть 100 страниц pdf-файлов за минуту, или открыть 30-60 сайтов и просмотреть что на них написано, 200B моделька никогда бы не успела такое число задач сделать даже на крутом железе, как мне кажется.
>>1554884 >>1554895 Ага, значит по другим квенам изменения есть. А то я больше всего не люблю магические изменения. Ну нихуя не делал, игрался с другими сетками. Дай запущу 235няшу и тут хуяк- скорость до 10-12 т\с поднялась и он стал структуру держать. Не то чтобы прям не порывался уходить в такую манеру, но ситуация стала лучше. Охуенно. Потому что всё равно, что степ, что 27b, что немотрон хуже в описании ебли, чем 235 аутист.
>>1554992 >Вот и источник многих прошлых срачей явился. Раньше казалось что виноваты просто лоботомированные кванты и для q2 жалобы нормальны - но оказывается в добавое еще кое кто все это время гадил и отравлял. Я раза 4 прочитал и всё так-же нихуя не понял. Кто отравлял ? Жора? Анслоты? >Правда новый квен все еще копиумный. Если ты про 27b то для него какие то ненормальные простыни нужны. Ненавижу когда модели приходится объяснять очевидное. Ну же 27b модель, ты должна ОПИСЫВАТЬ X, а y не описывать. Поняла глупая модель ? Персонажы это ты. А юзер это юзер. Текст должен идти буковками, а не звездочками. Используй Аааххх Мххххх и прочее дерьмо. Ну и нахуй такое нужно, это чё 7b что ли.
>>1555014 Ну и опять же, повторюсь, моя рекомендация обратить внимание на 9B и протестировать самостоятельно, а не то что он всему голова. Возможность запуска на 8 ГБ, что можно делать на второй карточке или ноуте - это достаточно сильное конкурентное преимущество. Мои тесты не полные и разрозненные, и задачи однобокие, для кода я вот вообще его не использовал (кроме ручного теста через веб-интерфейс), а гоняю на задачах обработки документов и сайтов. Может быть он плох в коде, без понятия.
Какие из новых моделей достойны внимания и времени уважаемого кумера? Новая мистраль, немотрон и 27b qwen. Пока попробовал только qwen writer и доволен, но не уверен что это лучший выбор. Что думают аноны?
>>1555014 > квен на 9B по моей оценке неадекватно умный для своего размера, инструкции даже на русском понимает, и без доступа к сети пишет небольшие батники, sh-скрипты Подтверждаю, но с субагентами на стандартном промпте неохотно их использует почему то. А так сделал мне докер проект с докерфайлом и скриптами автосборки удаления и входа в контейнер. Там и 4b неплохо работает, но конечно код писать ей лучше не давать. А вот баш скрипты могут оба, прям полотна пишут команд и все в основном работает.
>>1555027 Думаю что модели бесплатные и ты можешь для себя решить, что подойдет тебе лучше. Потому что пишут они по разному. У всех свои чаты, свой кум, своё рп.
>>1555041 Они все три нормальные, со своими особенностями. Мне показался 122b потупее немотрона. Но в целом они все три хуже 4.7 жлм и старого большеквена, не говоря о 5жлм и новом большеквене.
>>1555014 >квен на 9B по моей оценке неадекватно умный для своего размера судя по всему, братья-китайцы научились паковать строго все нужное, как был запакован министраль 14б.
>>1555076 Не очень ясно по какой причине стоит брать это, а не две H100 по 96 ГБ, у которых суммарный компут выше, и которые две будут дешевле. Или не две-четыре blackwell rtx 6000 pro. Типа, всё-равно pcie, по компуту H100 не то что бы далеко впереди 6000 pro.
>>1555018 > Кто отравлял ? Жора? Анслоты? Жора. > Если ты про 27b Так и не дошел до него. Тестировал 35б в коде, с одной стороны тот приятно удивил самим подходом и что пытается делать в таком размере, с другой - хватает ошибок и упущений на фоне. Ее и 27б надо сравнить для чистоты картины. Это не на ровном месте появилось. Ранее 397б на релизе в ггуфе - впечатления были смешанные и срало иероглифами, а в awq или exl - сносно там где было плохо, а где было прилично - абсолют синема. 122б на жоре и на других - можно сказать что две разные модели, одна умница-кравица старается, другая ее сестра, которой в детстве прилетело по голове и теперь иногда она пускает слюни и залипает. В рп ни на одной из них не делал длинных промптов. Тут сильно замешан квант, может в них проблема. Но на фоне всего этого и изменений, что вносились для новых моделей, сдается что есть проблемы с обсчетом атеншна и она нарастает как снежный ком по мере накопления контекста.
>>1555084 А этот PLX-сплиттер активный для pcie 5.0 не существует? Который сам смотри куда какой запрос, и умеет как включать х16 на одну карту, так и раздавать по х8? Да и впрочем сомнительная ситуация. Если это инференс, то full VRAM и промышленный инференс-софт, можно хоть по х4 подключать.
Если не только инференс, а ещё и обучение, то оно умрёт без nvlink, и там эти DGX/HGX сервера, где на одной плате 8 H100 и продаются за десятки миллионов. И вот так это уже важно, так как nvlink вроде как не умеет в 16 карт, и соответственно glm5 не влезет в 640 ГБ даже в fp8.
В общем не вижу сценариев, где именно pcie-карта такого типа полезна.
Да и если у тебя проблема со слотами (то есть больше четырёх H100), то DGX плату уже не то что бы дорого достать, лол.
1х 3090 и 24гб VRAM, я кушаю здоровые, человеческие 15 т/с. 2х 3090 и 48гб VRAM, я терплю убогие 5 т/с.
Че за нахер-то. Обе карты одинаково функциональны - проверил каждую по отдельности, спокойно 13 т/с. На плотных моделях 48гб VRAM тоже быстро как понос при двух 3090 в работе. А вот МоЕ прям жопа. Неужто DDR4 так нарушает коммуникацию между картами?
>>1555197 Проверь частоту памяти карт при двух картах. У меня похожее было - 4060ti-16+3060-12 работала хуже, чем 4060ti-16. Оказалось, что 4060ti частоту памяти держала заниженную, типа нагрузки нет (хотя её хватало).
>>1555271 Хмм... Частота памяти показывается одинаковой с тем, как на одной карте. А вот частота самого видеочипа вдвое меньше (с одной картой на 500мгц при генерации работает, а с двумя по 250 на каждой). Странно. И че делать.
>>1555157 > существует Существует. Есть и адаптеры для sxm4 (не колхозные), и сплиттеры для 4х карточек с объединением nvlink, которые вставляются райзером в основную плату. Только стоит как самолет и нахрен не нужен когда и так 5.0 порты есть. > то оно умрёт без nvlink С чего вдруг? Высокий трафик, который не вытянет 5.0, требуется далеко не во всех режимах. Ну а про карту - есть сервера и рабочие станции, которые набраны 4 или 8 такими карточками, потому основной спрос будет на замену поломавшимся. С нуля врядли кто-то будет брать при наличии блеквелла а6000. >>1555173 Зачем чинили, всем же все нравилось и нахваливали. >>1555197 Проверь на других моэ моделях, немотрон сейчас странно работает на жоре.
>>1554715 >Потыкав 122б в q4 поддвачну остальных ораторов - жора сломал очередную модель >тупит, выдает странные ассоциации, внезапную сою >регулярные лупы в ризонинге Инференс и кванты не те? Помню как ты смеялся с шизика, который утверждал что в Эксламе кванты более цензурированные, а теперь сам таким стал. Пути жорахейтера неисповедимы.
>>1555391 inb4 никто даже не писал, что жора сломал модели писали что квен говно, в отрыве от квантов и движков и правы тащемто но у него "квен хорошо" и "жора плохо" сложились вот в это, да
>>1555379 >>1555318 Короче самым легким избавлением от этой проблемы знаете что было? Использовать кобольда или лмстудию, а на их .exe кинуть "prefer maximum performance" настройку (если ставить ее глобально - получается какой-то кал, одна из видеокарт застревает на 3D-частотах навсегда, другая тупит... мб просто не повезло).
>>1555391 >>1555398 Именно кобольды должны громче всех кричать что что-то не так и чтобы им починили, но вместо этого агрессивный коупинг, кек. Красных пилюль будет все больше, а сохранить манямир все тяжелее, крепитесь.
>>1555414 у меня риг из 3090, я никогда на жоре не сидел твой ответ как всегда предсказуем. тот кто с тобой не согласен - твой враг. у тебя тейк про то что жора сломал модель, не согласен - значит юзает жору у тебя CoT какого-нибудь 12б лоботомита, но это каждый раз смешно
>>1555414 Разве была там агрессия? Просто наблюдение. Это забавно, как люди ломаются на двойных стандартах. >>1555421 Следующим шагом будет оператива. Злые китайцы с Тайваня будут срать нам в оперативу, чтобы материковый Квен стал лоботомитом и не следовал инструкциям в своем же ризонинге, спамил дэши и превращал любой рп чат в театральную постановку. Не может это происходить само по себе.
>>1555421 Ммм прищемили кобольда и он пошел фантазировать. Доставляет искреннее удовольствие наблюдать эти потуги. >>1555429 > на двойных стандартах Где двойные стандарты? Вещи называются своими именами. Кстати, в экслламе линейный атеншн был какое-то время поломан, но потом его починили. Здесь скорее всего какой-то тонкий баг связанный с атеншном или рекастами, о чем уже не раз говорили. Но поскольку сразу много намешано (включая кванты) и такое уже не раз было раньше - отслеживать такое целая задача. > Следующим шагом будет оператива Кек, глубины аутотренинга. Потому так и живете.
>>1555379 >Как ты хоть это пофиксил? Задал вручную фиксированную частоту.
Список всех режимов работы. nvidia-smi -i 0 --query-supported-clocks=mem,gr --format=csv
Далее от админа (лучше предварительно посмотреть, а какой у неё максимум под нагрузкой, чтобы не попердолило). Команды для 0 видеокарты Память: nvidia-smi -i 0 -lmc 8750,8750 GPU nvidia-smi -i 0 -lgc 2625,2625
Принёс вам покушать из мира корпов, чтобы вы охуели.
Новый Грок 4.20 (уже не бета) переводит, к примеру, bike shorts как велотрусы, а по мере текста они мутируют в обычные трусы. Или персонаж может тереться об вас сквозь спинку дивана, совершать невозможные кульбиты уровня нахождения в двух комнатах одновременно. Порой бред такой, что я задаюсь вопросом: какого лоботомита они там вообще гоняют? Иногда я просто не понимаю, что он пишет. Язык вроде русский, но смысл тяжело уловить.
Писать Грок стал, кстати, ещё быстрее. Скоро он, наверное, будет в секунду 1000 токенов выдавать. 3b активных параметров на 4 триллиона наше всё.
Особенно забавно, когда с 4 агентами он такую вот бредятину пишет, я в ахуе просто. Но есть и плюсы: цензура стала ещё слабее, текст менее безопасным.
Ах, совсем забыл про лупы на 10к контексте! Три абзаца из восьми — полное повторение предыдущих реплик либо слегка изменённое. Я словно модель от редиарт запустил. И по уровню накала страстей тоже — в трусы старается залезть при любой возможности. Любая эльфийка решит ОБСЛУЖИТЬ ТЕБЯ САМЫМ НАДЛЕЖАЩИМ ОБРАЗОМ, если ты поцарапал коленку.
Про какие-то рабочие задачи я вообще не хочу говорить. Это лютый пиздец. Первородный слоп, путаница в контексте, даже английский не спасает толком. Плюс только в скорости или поверхностном анализ через зирошот, а дальше можно смело контекст обнулять.
Ценим свои старые локалочки, а то ведь и остальные корпы МОГУТ ПОВТОРИТЬ.
Как сейчас обстоят дела с амуде? У меня 7900xtx с 24гб врама. Слышал что раньше только с нвидией можно было локалки запускать, но пошел слух что можно типо теперь с AМД работать. Я карту несколько лет назад для игоря покупал до того как ИИ взлетело, сейчас вот думаю что раз такая йоба карта лежит грех не воспользоваться. Если норм пойдет, может вторую прикуплю на 48 врамовый сетап. Можно 80б локалки запускать? Кто в теме, кто юзает?
>>1555539 В карточке модели должно быть указано. Если не указано и это васянотюн, то смотри на материнскую модель. Условно, если там мистральский инструкт, ставь мистральский инструкт, если чатмл, ставь чатмл.
>>1555540 Так на амуде локалки и раньше работали. Через тот же вулкан, и скорость не особо просасывалась. По крайней мере, если верить тем аноном, которые отсвечивали в треде.
>>1555543 И всё же, он не создан для РП. Да, дешёвый. Да, есть быстрый (и очень хуевый) поиск по интернету. Плюсы как бы есть, особенно если ты твиттерожитель, но я просто логику их говноделов не понимаю. Куда они движутся и зачем? Даже какая-нибудь типичная китайская модель с нормальной обвязкой и вменяемым кол-вом параметров будет лучше для рабочих задачах, а на гуннерах нормально не заработаешь.
>>1555544 Например? Да, он может давать отказы, но они обходятся ленивым свайпом или более ебанутым систем промптом.
Ебля с очень юным, персонажем, являющимся кровным родственником юзера, с последующей сценой некрофилии без отказов (не API) — это какой уровень цензуры?
Ну может и так, но я так понял раньше с этим пердолинга была дофига, а теперь якобы прям из коробки работает. Мне AМД уже сами инсталлером в рыло тычут.
>>1555555 >Куда они движутся и зачем? Нашел где спрашивать. >на гуннерах нормально не заработаешь Просто на гунерах никто всерьез и не пытался зарабатывать. Даже среди локалок нет ни одной модели, которая хотя бы была бы заточена под креатив врайтинг. Есть официальные тюны под кодинг, под медицину, под агентов и прочее говно. Но не под написание рассказов.
>>1555540 Под виндой рокм вроде через костыли, нативно только под линью. Опенсорсный стек - кайф, даже трижды задепрекеченные мишки работают с самым последним рокмом и торчем
>>1555562 Они точно работали и раньше, не знаю только насчет того как хорошо, ибо я зеленовод. Если у тебя уже есть карта, почему не проверить самому? Память на карте есть? Память на карте есть. Значит заработает.
>>1555540 >Как сейчас обстоят дела с амуде? Вроде они и раньше работали более менее норм. Там проблемы с картиночками были Еще там два бэка - вулкан и rocm. Второй лучше, но первый в последних патчах вроде как даже приблизился к нему. Но я не амудешник, тут почти все зеленые >Если норм пойдет, может вторую прикуплю Ты пока потести на 24гб. Распробуй так сказать, а если понравишься докупишь. Тебе вообще для чего ллм? Для проги, агентов, чата или кума?? >Можно 80б локалки запускать? Их нет. Были 70b давным давно, да вымерли. Есть квен 80b, да он не прям хорош
>>1555565 Глм 5 может пойти под рассказы. Он может держать нормальный для llm кинематографичный стиль без гобеленов судьбы и мурашек на спине. И он почти не проебывает детали сцены, в отличие от кими к2.5, у которой персонаж может быть босым, а через два абзаца он в обуви. Но это я сужу по англюсику. На русике может быть как "ну, с пивом сойдёт" до "ебаный пиздец". Все это хуйня, лучше руками писать, а модель может лишь высрать первый драфт, чтобы чисто концепцию проверить. Но трекать состояние и предлагать фиксы по стилю и ровности модель вполне может
>>1555565 А где ж ещё спрашивать? Явно не в треде асига. Тут много всяких шарящиж анонов.
Просто некоторые решения корпов для меня совершенно непонятны. Либо они гениальны, либо ебануты. Ну через лет пять узнаем.
Если с натяжкой, гемму можно назвать моделью для креативного письма. Её специально такой не делали, но она может в это. Наверное, из-за датасета исторически так сложилось. Ибо в письме при правильном использовании она на мой взгляд лучшая в своих размерах до сих пор. А вот в коде совсем тупорылая. И не зря они сделали версию для перевода текста. Я именно геммой и переводил с япусика всякий треш. Было не идеально, но намного лучше даже более жирных моделей.
Но жаль, конечно, что никто так и не выпустил даже в рамках эксперимента модель именно для письма. Там даже 14б какая-нибудь смогла бы показать достойный результат.
>>1555576 >Глм 5 может пойти под рассказы Он слишком большой, в этом его проблема. Как и других моделей, которые могут в рассказы и кум из коробки. Идеальный размер для таких локалок должен быть в районе 30B, чтобы они вмещались в бытовую карту. Ибо куминг это не программирование - мало кто под эту задачу будет собирать станцию за сотни тысяч. Вот если бы гуглы выпустили специализированный тюн под ту же большую гемму - это был бы чистый вин. Она итак хороша в креативе, а стала бы только лучше.
>>1555581 >Либо они гениальны, либо ебануты. Одно другому не мешает. Учитывая конкуренцию, приходится творить хуйню и постоянно проводить ебанутые эксперименты, надеясь, что вдруг выстрелит.
>>1555586 > Вот если бы гуглы выпустили специализированный тюн под ту же большую гемму Я бы не рассчитывал после того, что они высрали как гемини 3.1 вместо тройки. Они в кодеров целятся, да и фильтры стали ещё лучше.
>>1555589 Ну они целятся в тех, кто реально будет платить, это как бы вполне логично. И я не имел ввиду модель чисто под кум от гуглов, а про сторитейл/соавторство - это они теоретически могут себе позволить. Даже с ебанутыми фильтрами я бы погонял такую модель в дефолтной ролевке.
>>1555581 Как обмазывающийся опусом 4.6 могу смело сказать, что даже он для креативного не идеален, несмотря на то, что внимание к контексту моё почтение. Но один хрен надо кучу всего переписывать.
Вот завезли бы что-нибудь, что нормально на 32гб видеопамяти (т.к. набирается по приемлемой цене двух v100-16 или одной v100-32)/128гб DDR4 работало бы для написания именно что хуйдожественного произведения на русском, и чтобы 128к контекста легко влазило - вот это было бы хорошо. А пока страдания.
>>1555594 А кому это нужно среди писак, лол? Сейчас они бунтуют из-за засилия слопа в книгах от "авторов", и что эти нейровысеры покупают. Да и рассказы генерить это не код ваять - там размер лучше 70b, плюс работа с контекстом весьма специфическая. Большие модели ещё вывозят за счёт количества параметров, и то обсираются, даже опус. Мелочь же даже вроде геммы 27b хватит на дефолтную фабулу без сложных интриг. В характеры она то попадает, но тюн под ассистента все руинит, даже norm-preserved.
>>1555546 >В карточке модели должно быть указано Под кнопкой Chat Template? Но там куча хуйни, которая лишь мелкими частями совпадает с темплейтами в таверне, как будто или заучивать или долго перебирать. Как быстро понять? На той же странице Qwen нет ни одного упоминания ChatML.
>>1555604 >А кому это нужно среди писак, лол? Про писак никто ничего не говорит, речь про обычного обывалу, который хочет интерактивных историй.
>Мелочь же даже вроде геммы 27b хватит на дефолтную фабулу без сложных интриг. И этого хватит для 90% пользователей. Если посмотреть на самые популярные новеллы и рассказы в принципе, ты там не найдешь ничего сложного и замороченного. Там простые истории, которые просто и понятно рассказаны.
>>1555619 Так обывалам и обычной геммы хватит. Хотят больше - пусть платят за гемини. Под дефолтные сюжеты с архетипичными чарами без претензий и геммы хватит.
Сап, мужИИки! Вопрос про кручение локальной LLM с koboldcpp и sillytavern
Можете не в службу, а в дружбу набросать как следует лучше настроить kobold и sillytavern для достижения лучшего юзер экспириенса?
Так же был бы благодарен гайду по использованию sillytavern, созданию своих персонажей, миров, etc.
Мб есть какие-то библиотеки с персонажами и мирами для sillytavern
Если есть ссылки на уже готовые гайды, то готов принять в дар
Алсо, есть вопрос: как отключить reasoning у модели в связке koboldcpp + sillytavern? А то доебала эта графомания на тысячи символов, чтобы потом в итоге выдать ответ на 3 предложения
>>1555632 В шапке треда есть документация и на кобольд и на таверну. В соседнем треде умственно полноценных есть ссылки на написание карточек, лорбуков и прочего.
>>1555610 Это не куча хуйни, это джинжа. Она не для таверны, но в ней есть служебные токены по которым можно понять, какой формат нужен. Если видишь <|im_start|> и <|im_end|> - значит скорее всего, это чатмл.
>>1555632 >Мб есть какие-то библиотеки с персонажами и мирами для sillytavern 1. Дохуя всего без цензуры - https://chub.ai/ 2. Еще больше, причем намного, но с цензурой https://janitorai.com/ 3. чтобы скачивать со 2 https://jannyai.com/ >А то доебала эта графомания на тысячи символов, чтобы потом в итоге выдать ответ на 3 предложения Сразу узнал квен. Отключить можно, но как в кобольде это сделать я хз >qwen3.5-35b-a3b-q4-k-xl Это плохая модель для рп. Потому что она хоть среднего размера 35b, но работает только 3 миллиарда активных, то есть a3b У тебя есть врам, так что лучше другое. Например, тут много разных >>1543669 → Только используй q4. Контекст квантуется во вкладке Context и там KVCache на 8bit выстави. И не забудь в gpu layers выставить 99, чтобы все на видеокарте было
>>1555532 Изменение моделей без твоего ведома и контроля - один из главных бичей корпов. В текущих реалиях где организация всяких пайплайнов становится более популярной - особенно актуально. >>1555555 > какой уровень цензуры Базированный >>1555576 > в отличие от кими к2.5, у которой персонаж может быть босым, а через два абзаца он в обуви Это как так-то?
>>1555668 >>1554828 Вы им пользовались вообще? Это же невозможная срань. Да он пишет заебись, но в неадекватных количествах, он пережарен как и квен, уже тут отмечали недавно, причем от промпта не зависит, он так и будет писать скатываясь в описания постоянно
>>1555540 На ламе.ццпы после выхода мажорной версии дровов и рокма 7+ всё пашет на винде из коробки без какой-либо ебли. Хоть рокм хоть вулкан. алсо как только это всё вышло, в стейбл диффузии тоже всё искаропки запахало, и рокм официально добавили в десктопный инсталл (пока только туда) comfyui
>>1555772 >Вы им пользовались вообще? Ну да, под рп/сторителлинг только им и пользуюсь, потому что ничего лучше для 16+64 просто нет. >он пишет в неадекватных количествах, он пережарен Не_знаю_у_кого_там_что_не_работает,_у_меня_всё_работает.webm
Эйру бы еще русик как у геммы, была бы просто идеальная модель, эх...
>>1554822 >>1554823 Помогло включение mmap и отключение mlock. Стал кобольд грузиться за секунды. У меня по дефолту наоборот стояло, млок включен, mmap отключен, с такими настройками шевелил там что-то по 3 минуты при запуске.
>>1555632 Просишь ЛЛМ написать карточку перса, все признаки, потом вручную редактируешь, удаляешь все ненужное, добавляешь нужного, задаешь рамки сюжета. Silly Tavern не нужен, все это делается в kobold ui.
> как отключить reasoning у модели в связке koboldcpp + sillytavern У Silly Tavern хз, а в кобольд уи просто жмешь abort, потом редактировать, добавляешь </think> завершающий тег и жмешь Generate more - обычно уже без ризонинга идет. Также в memory засунь {"enable_thinking":false} если это Qwen.
Я ненавижу это хобби. Конченная хуйня для дегенератов дрочеров. Как там говорили, им дали интрнет для образования, а они стали дрочить, тут точно так же, сидим буквально дрочим, блять, на кодерских моделях
Поскольку подешевления ддр5 можно ждать вечность реквестирую скорости на 128 ддр4 на большом глм и стоит ли апгрейдиться ради этого Сравнения с эиром, в чем конкретно лучше, как пишет и тд
>>1555828 >им дали интрнет для образования, а они стали дрочить Им дали кинокамеру, они начали дрочить и снимать. Им дали печатаный станок, они стали дрочить и печатать. Им дали перо и ручку, они стали дрочить и писать.
Это можно продолжать до бесконечности. Желание дрочить, при чем дрочить разными способами, человека преследует наверное еще с тех времен как он слез с дерева и вместо банана схватился за член. Это заложено природой можно сказать. Ну а идти против природы - это грех. И грех смертельный.
>>1555532 Не знаю о чём ты, я заходил посмотреть что там месяца четыре назад в плане цензуры, на вопрос о цензуре он говорил, что всё окей и нет проблем ни с чем, он составил вполне неприемлимый системный промт, и даже не отказывался писать по нему, на вопрос в около "медицинской" формулировке (а что будет, если с девушкой вот в такой то ситуации устроить вот ..., и к чему это приведёт) отвечал.
Сейчас на вопрос о цензуре отвечает так же, промт через раз составляет и даже не стесняется в выражениях, писать сообщение в рп отказывается, как и отказывается отвечать на вопрос в "медицинской" формулировке. Я все сообщения 1 в 1 повторил из прошлого тестового чата.
Для сравнения на "медицинскую" формулировку чатжпт и глм отвечают, гемини отказывается, из первых двоих чатжпт немного стесняется в выражениях в составлении промта. То есть цензура в гроке сейчас чуть ли не выше, а ответ на "медицинскую" формулировку, скорее всего, сможет перефразировать даже небольшая моделька уровня квена 9B или геммы 12B, ну, чтобы это было рп-совместимое сообщение.
>>1555843 Большой это 4.7 или 5? У меня как раз 128 ddr4 + карта, могу запустить какие влезут завтра-послезавтра. По идее при изменении битности с 2 до 4.3, скорость пропорционально падает, так как узкое место на 90% - это чтение матриц, а компут там очень лёгкий в сравнении (при генерации), так что можно даже пятый оценить запустив в 1.1 bpw, какая у него будет скорость на этой же ddr4 в 384 ГБ.
>>1555844 >Это можно продолжать до бесконечности. Не, придётся остановится на палеолитических Венерах, раньше 40 тыщ лет до нашей эры дроч контента не существовало.
>>1555532 Объясняется это изейше, большинству нормисов не нужны длинные чаты, компании нужно обслуживать кучу народа подешевле. В итоге имеем мое сетку квантованную до хер знает какого уровня, лишь бы что то могла выдать с огромной скоростью не заморачиваясь с длинным контекстом. Профит.
>>1555714 > карточка я так понимаю в статусе слабой совсем Смотря для чего. На qwen3.5 110 awq 36 тпс в однопоток на фулл врам сетапе. В z image turbo 5s/it, в обычной не турбо 13.5. Главная фича что можно набрать много однородной врамы
> по чем их кста толкают сейчас на таобао? Последний рабыло немного дешевле в100 32. За такую цену она нафиг не нужна. Имбой она была когда стоила дешевле сегодняшней серверной д4 планки на те же 32г
>>1555843 Мог бы расписать подробно, наверно, но у тебя наверняка меньше 24гб врам. В таком случае 128гб не имеют смысла, потому что не влезет ни сам квант, ни 32к контекста
Привет анотош. Подскажи кого удобно будет использовать в качестве нейронки для текст гена в качестве локальной витубирши. Скачал айри и подключил к оламе и там по дефолту пркдложило квен 3.5, скачал его. И оно в режиме взаимодействия с айри думает очень долго на моей 5060. Даже если в настройках отключить думонье(мне кажется оно не включается все равно) . Есть ли какой-то выход или только докупать оверпрайс железки за сотни тыщ?
Баля, знаю что запоздал и тут уже вроде месяц как вынюхали новые квены, но ебать они реально так неплохи? Я пока что ДАЖЕ просто 9b скачал и вот руки наконец-то дошли до него, ебать, это же что будет на 27b, я пока думал что геммочка 27b это единственная умничка, но бля, не буду сразу сходу поддаваться этой хуйне, я знаю как это бывает, выходит новый тюн хуйня%нейм модели и первые же впечатления всегда обманчиво хороши, дайте плз TL:DR ну или скиньте пост если помните/держите вкладки из утонувших тредов о правдивом мнении анонов, в шапке вижу кто-то сделал выжимку о моделях 2026 года, но там в основном только о гигантских МоЕ-шках которые запускались на 192-1 ТБ ОЗУ серверах/воркстейшенах. Пока что какое-то наивное чувство что после скачки квена 3.5 27b я получу что-то лучшее минимум в два раза чем плотная геммочка27b. П.С за картинку извините, знаю тут так не приятно, давно не заходил, просто от корпосеток поплохело последнее время, особенно от их раз-через раз квантования, порой бля гэги выдают хуже самых мелких тупеньких локалок, вывозят буквально наверное только за счет векторизации и умения работать с крупными базами данных.
>>1554789 >Huihui-Qwen3.5-35B-A3B-Claude-4.6-Opus-abliterated-i1-GGUF Ох уж эти тюны
>>1554871 Никому до сих пор не удалось натренировать модель на РП, а ты бля с 3090 о таком пишешь, я понимаю что ты подрочил и успокоился после высера подобной идеи, но все же, ты бы хоть попробовал сделать пресет что бы даже корпосетки с триллион параметров писали не хуйню. Максимум что у тебя получится это (в теории даже если ты арендуешь мощности для тренировки) это гибдрид аблитерации с шизогенератором и лоботомией, а одним словом говнотюн.
>>1555610 80% да даже наверно больше, моделей обучаются на chatML, не хочешь ебаться - ставь его а там уже сам пойдешь рвет ли шаблон у модели/лупы.
>>1555791 >> как отключить reasoning у модели в связке koboldcpp + sillytavern >У Silly Tavern хз Не надо убирать думалку, она пиздец как помогает в РП особенно мелким моделям, тут досаточно рэгекса на просто скрытие думалки [\s\S]*?<\/think>, у пресета ремиксера из асига все нужные полезные рэгексы встроены прямо в пресет >sonia-your-biggest-hater-fd2c4033df4d Oh, I know what kind of man you are, anon.
>>1555843 > реквестирую скорости на 128 ддр4 Бля да там скорости ну где-то на 20% меньше чем при ддр5, вместо 9-10 т будет 7-8т.
>>1553802 То что ты там что-то сделал на квене с курсором, ты пользовался корпоративной моделью у которой обычно уже далеко за 1 триллион параметров, а тебе всё что светит запустив на десктопе это дебилки 4b-12b, вот и сравнивай разницу, 1 триллион и 4-12 биллионов, они не годны ни на что, тебе уже сказали что они в связную речь не могут даже путаясь в грамматике, а для кодинга а не галлюцинаций, вообще нужно столько параметров что без рига можно идти нахуй. > что в целом сейчас делают люди, что нужны такие мощности? Ничего, кто прошарился до бума МоЕ-шек - закупились оперативкой до сентября 2025го. >>1553803 Модели для генерации кода нужно дохуя примеров и знаний которые зашиты в неё (дохуя параметров) без понимания определенных строчек кода модель не будет знать что в ней нету тех слов которые подходят по определенную ситуацию, вместо этого она будет высирать ближайшие попавшиеся токены вообще в неё есть уходя в луп делая не код а ебучую мешанину из рандомной хуйни. А насчет скорости тоже забудь, не думай что у тебя хитро получится сидеть на 1-2 токена запуская модель вообще на ссд и тд. Это так не работает, и кстати дешевле пока что платить корпоратам за АПИ чем мучать свое без того слабое железо для медленной генерации, ты больше за электричество заплатишь. >>1553829 > и всё это было второстепенным по сравнению с программированием, которым я занимаюсь больше 15 лет. Спасибо что ты существуешь, а я кстати 15 лет дрочил на аниме и деградировал, кстати и сейчас так делаю!
Кстати, анон который посоветовал юзать Сhat Compeletion, вместо Text Compeletion под локали, спасибо тебе огромное, я бы в жизни не догодался что так можно и НУЖНО, я пиздец какой не креативный в написании промптов, потому пизденье чужих пресетов мне очень упростило квалити оф лайф.
>>1556112 > это же что будет на 27b Да ничего особо не будет. Меньше тупизны.
За год дроча с локальными лоботомитами я заметил, что тут идут жесткие диминишинги. Прожорливость растет, а слоп остается слопом.
С моделями МоЕ картина отличается, потому что какая-нить 400B A20B будет знать больше, чем 200B A20B. Проблема в том, что вот это "А" (активные параметры) у них у всех отличаются, и когда высирают жижу уровня 100B A3B хочется просто взять и уебать, ведь эта тварь тупа как пробка.
>>1556163 Можно, в студии включи developer mode и найди вкладку где там монитртится статус подключения - не помню надо ли чето дополнительно включать, может быть, в общем хуйня на пик2 будет если сервер рабочий - там появится загруженная модель. А в таверне вот такой профиль просто сделай.
>>1556013 Надо понять что именно это за "думонье". Это может быть внутренний ризонинг, когда модель сначала генерирует кучу раздумий перед ответом - отключаемо, это может быть обработка изменившегося контекста и дальнейшее генерация - неизбежно но можно ускорить. Что за айри? И оллама дает довольно мало гибкости в настройках с оптимальным перфомансом если что. >>1556031 Если для рп то ллама, если нужны данные посвежее и кодить с вызовами - эйр. Но по сегодняшним меркам это как сравнивать второй фокус и первое поколение сандеро. Блять что-то хуевый и злободневный пример получился. >>1556112 > они реально так неплохи Да, они хороши. Как мелочь круто перформит для своего размера, так и крупные очень умные. 122 позволяет закрыть потребности для универсального ассистента, мелко-среднего вайбкода и кума-рп или все вместе сразу. Флагман 397 показывает себя на удивление прилично, конечно не опус-жемини, но очень близко к ним, для большинства задач даже не заметишь нехватки мозгов. Помимо прочего, у них шикарная мультимодальность и интеграция картинок в контекст, модель не лоботомируется если будет хранить пару десятков пикч, можно буквально скидывать хентайную додзю в качестве референса, обсуждать, а потом приступать к разыгрыванию сюжета. > наивное чувство что после скачки квена 3.5 27b я получу что-то лучшее минимум в два раза чем плотная геммочка27b Смотря где. Если начнешь простой рп чатик - ответы могут и просто не зайти, вон выше кто-то пердолил чтобы было хорошо. Если запустишь на крупном контексте с множеством инструкций - уже разницу заметишь.
>>1556207 > Если запустишь на крупном контексте с множеством инструкций - уже разницу заметишь. Гемма, между прочим, была одной из немногих мелкомоделей, которая очень жестко слушала инструкции. Слабо верится, что китайская хуйня ее превзойдет. Именно с геммой тут лучше всего удавались сумасшедшие эксперименты по промптам - от сложных систем по вычислению чего делать персонажу и чего не делать, до бросков кубика и рандомизации. Какой-нить мистраль или предыдущий квен (32б) на это был неспособен.
>>1556207 > Надо понять что именно это за "думонье". Это может быть внутренний ризонинг, когда модель сначала генерирует кучу раздумий перед ответом - отключаемо, это может быть обработка изменившегося контекста и дальнейшее генерация - неизбежно но можно ускорить. > Что за айри? И оллама дает довольно мало гибкости в настройках с оптимальным перфомансом если что. Это витубер нейросама-лайк интерфейс у него есть разные модули основной из них это чат с ллм и вот почему-то если я через оламу пишу мне квен отвечает в разы быстрее раз в 10 чем через него. Понятное дело он там сверху надстраивает промт но чтобы настолько дольше он это все делал это странно. Может кто уже пытавшийся все это завести и имеет опыт потому и спрашиваю. Потому что мне кажется что он пускается в размыления которые для этих задач не нужны.
>>1556219 Да, геммочка умница. Сколько ее хейтили и насмехались, а время все расставило. Но у нее меньше "емкость" и способность разделять близкие вещи когда все переполнено, это именно сильная сторона квена. Просто пробуй, сейчас модели уже на таком уровне, что в обычном рп больше субъективные предпочтения или рандом могут больше ролять, а заморачиваются далеко не все. > предыдущий квен (32б) Та версия вообще странной и шизоидной показалась. >>1556221 Нужно посмотреть логи и понять на что тратится время. Вероятно там дается большой промпт и он каждый раз переобрабатывается, а из-за странной настройки выгрузки модели у тебя процессинг медленный. Или используется ризонинг, тогда нужно его отключить добавив в параметры бека или изменив запрос с софтины. Без логов это "у меня компьютер сломался".
>>1554497 >>1554874 >>1554992 Я нашел проблему. У Мистраля 4 не работает Flash Attention и поэтому его включение режет скорость в нулину. А если его вырубить, то он уже нормально работает, хоть и все равно немного медленно, учитывая всего 6b активных
Короче бля, я повелся на то что он реально хорошо отвечает на ассистенто-говно подумав что и в рп будет прорыв, но тут удивляться нехуй что в 2026 китайцы натренили норм модель на ассистента, в РП же это... то самое китаеговно за что я все прошлые квены терпеть не мог, бля надеюсь новая геммочка будет няшечкой на голову выше уже старушки геммочки 3...
>>1555632 >reasoning Я сам простофиля, но попробуй префиксы с моего скрина >>1554624. Не гарантирую, что они сработают, но вроде qwen перестал срать ебучим говном (эти настройки почему-то слетают). Мне тут их и посоветовали однажды. >>1556112 >Не надо убирать думалку, она пиздец как помогает в РП Не жиза вообще. Просто шлаком ебучим срёт минуту. Может в каких-то технических задачах и будет хорошо, но сложилось чувство, что ризонинг помогает только очень крупным моделям, а другим вредит, загоняя в цикл шизобреда.
Попробовал тут GLM-4.5-Air, Qwen_Qwen3.5-122B, и лежал давно MS-Nudion-22B, хотел его заменить. Но результаты неоднозначные в рамках одного персонажа и пресета, английский чат с нуля каждый раз + редактура первых сообщений, чтобы устаканить формат сообщений: Nudion - лаконично, только нужное, без шизоидной хуйни со звёздочками и кавычками, но смущала древность модели и размер. Обе другие игнорили мой упрощённый формат повествования (действия в звездочках, остальное - речь без форматирования), пытались прямую речь пихать в кавычки, как положено. GLM - начался сёринг СОБЫТИЯМИ, ВПЕЧАТЛЕНИЯМИ и прочей парашей, повествованием частично от третьего лица, но в целом неплохо, не уходило в thinking даже со сбитыми настройками. Qwen - ещё хуже чем глм, и в добавок часто норовило начать ДУМАТЬ, и мысли эти были на уровне "так ёбана, я рп, надо очень сильно сои заебашить, а то что-то уже дело к сексу идёт", постоянные отказы и ужимки, пришлось отредачить вручную один его thinking, чтобы кое-как развязать ему руки, короче какое-то говно казалось бы, но я учитываю, помогли бы дополнительные строчки в sysprompt специально для этой соевой модели, что мог неправильно запустить, просто не повезло или ещё что.
>>1556276 Ты просто привык к своему старому калу, поэтому тебе другое не заходит. В треде есть еще фанатик тюнов немо 12, похожий на тебя Если тебе нравится, то кумь на здоровье, но когда такие как ты приходят в тред, то выглядит это всегда комично. Что-то вроде: "Ой, я решил попробовать дипсик, а он текстом срет. А моя умничка llama 2 7b все по делу пишет. Так что результаты неодназначные"
>>1556289 Но нюанс в том, что я включаю ллм раз в полгода, у меня нет привычки. Я бы показал примеры, но впадлу, всем итак известно что такое ебанутая шизоидная графомания с описанием трепетно колышущихся соплей на лавочке и что такое только нужный текст-речь.
>>1554992 Я долбоёб, я понял чё случилось с квеном. У меня наступила блажь ебашить на 1-2к примеров диалога, чтобы персонаж разговаривал так как МНЕ нужно, в соответствии с его характером. Поэтому и нет, блять, квенизмов. Он просто шлепает по шаблону, лол.
>>1556381 >Вот это должно меня заменить? Уже заменяет. А у твоей лолламы походу просто тупо сломан стоп токен (или токен остановки ризонинга), поэтому негронка и срёт до бесконечности. Используй нормальные инструменты из будущего, у жоры тоже небось всё сломано).
>>1556268 Там же mla, нужен флеш-мла, или флешинфер, или тритон. Довольно странно, по идее оно вообще не должно работать тогда. А без фа насколько проседают скорости с контекстом? >>1556276 > игнорили мой упрощённый формат > повествованием частично от третьего лица > часто норовило начать ДУМАТЬ > рамках одного [..] пресета И на что ты рассчитывал? Поставь необходимый для моделей формат, включая управление синкингом. >>1556306 Изучай где в олламе включить подробную печать в консоль, это можно было сделать. А лучше просто не используй ее, она и была тем еще трешовым блоатвером, а сейчас совсем плоха стала.
>>1555843 > реквестирую скорости на 128 ддр4 на большом глм https://huggingface.co/unsloth/GLM-4.7-GGUF/tree/main/UD-Q2_K_XL DDR4 3200 + 4090 с андервольтом и поверлимитом на 80% выдают ~5 токенов на старте и ~4.6 на 32к FP16 контекста. Больше не влезет. Винда, llamacpp. Это лучший квант из всех 4.5-4.7 (включая IK кванты), самый стабильный. 4.5 глупее всех и не так много знает; 4.6 неюзабелен в принципе, слишком слоповый и уходит в репетишен; остальные 4.7 кванты хуже держат контекст и требуют больше свайпов. Это единственный раз на моей памяти, когда Анслоты сделали действительно годный квант.
> стоит ли апгрейдиться ради этого Выше верно сказали, что если меньше 24гб врам, то даже этот квант не влезет, он весит 125 гигабайт. Стоит ли тратить цать тысяч рублей на апгрейд до 128гб DDR4? Вероятно, нет.
> Сравнения с эиром, в чем конкретно лучше, как пишет и тд Очень долгое время я сидел на Air в Q6 и только пару месяцев назад попробовал 4.7 в данном кванте. Разница есть, но она не настолько крутая, как после перехода с 24-32б плотных моделей на Air и особенно после того, как приноровишься им пользоваться. 4.7 в данном кванте однозначно умнее, понимает больше нюансов, знает больше, не путает сущности и не допускает смешных очепяток, как это делает Air даже в Q6. Но имхо, это по-прежнему не стоит того, чтобы покупать оперативу за оверпрайс, если только тебе буквально некуда деть деньги или это пригодится где-нибудь еще, например в больших 3D проектах, как мне. Для меня это на сегодняшний день дейли драйвер, которому нет альтернатив. Квены и Степ, сколько я с ними ни пытался подружиться, не мое: они спустя несколько аутпутов уходят в высокоодухотворенные респонсы, которую тут кто-то именует театральной постановкой, а кто-то пережаренным слопом. Немотрон соевый гаслайтер, я согласен с аноном, который кидал логи асситентского чата. Пусть там и не очевидна проблема, но стоит порпшить на нескольких карточках, как восторг от всего остального быстро уходит. Ассистент и соя протекают в рп, как было у 49б. Не кидаю камень в огород тех, кто их использует - нравится, и хорошо, а я так и не смог подружиться с ними. Есть и проблемы у 4.7, возможно, связанные с квантованием. Например, если чар представлен как professional или где-нибудь указано military-like, organized, еще сотня синонимов, он может начать разговаривать почти как робот. Любит уходить во всю vulnerability тему, наваливать драму, даже когда в промпте прямо указано, что это какая-нибудь lighthearted romantic comedy story with primary focus on comedy and light subjects. Но с другой стороны, на 24+128 на сегодняшний день альтернатив нет. У каждой модели есть свои нюансы. Но в отрыве от этого умница, хорошо развивает сюжеты, пишет литературно, но без пережара и не сухо. Это как Air, но несколько лучше. Если у тебя совсем не заладилось с Air - не заладится и с 4.7. Если тебя бесит эхо или что-нибудь еще, то это исключительно проблема промтинга в данном случае, говорю как тот, кто месяцами ковырял разные подходы. Лишаешь модель знания, кого отыгрывает юзер - решаешь большинство проблем. И ломать разметку для этого необязательно.
Если интересно посмотреть, как он пишет, то я приложил логи чата на 20к токенов. Никакого кума там нет, это самое начало слоуберн чата в стиле, описанном выше. Мало понятно, ясное дело, но общее понимание может дать. Могут ознакомиться и те, кто сторонники, что любой Q2 - неизбежная лоботомия. Имя юзера изменено офк, карточка на 4к токенов, в ней 6 персонажей и сеттинг. А вообще, если надо понять - отправляйся на попенроутер и не слушай никого.
>>1556419 > Разница есть, но она не настолько крутая, как после перехода с 24-32б плотных моделей на Air и особенно после того, как приноровишься им пользоваться. Сейчас налетят адепты активных параметров. Респект что логи продолжительные выложил. >>1556434 Обрекаю тебя на пользование новым немотроном, его качай@остальные удаляй. А вообще есть новый мистраль в этом размере, если тебе заходил старый - просто используй его. Модель объективно неплохая и достойная.
Не знаю, вернусь ли я теперь к таверне когда-то. Вчера вечер и сегодня целый день я ковырял openclaw. (Вчера наконец настроил его со свежей llama.cpp и qwen 3.5 27B от двучлена.) Так вот RP там - это "completely another level".
Запустил отдельного агента. Русским языком ему написал - как должно работать RP, как (по каким лекалам) создавать персонажей. Объяснил что есть два режима - редактирование и игра. Теперь я ему просто пишу - хочу такую игру языком как "можно грабить караваны", я буду там тем-то - он себе пишет заметки и когда я говорю "играем" - он действительно работает как DM по тому, что я ему заказал. Причем все это на русском. Персонажи не тупят, ничего не забывается - т.к. он сам за всем следит. Если что-то не нравится - говорю "редактируем" - и объясняю что не так простым языком. Он, сцуко понимает, и больше так не делает. Отучил от характерных косяков в русском на раз. Вот это, блин - RP. А таверна по сравнению с этим - это как детский самокат перед гоночным мотоциклом...
И это локальный квен iq4xs на 20гб VRAM со скоростью генерации примерно 10-12T/s. Этого ХВАТАЕТ. Да при настройках - когда он активно думает и правит файлы заметок - несколько долговато, до нескольких минут. Зато в самой игре - почти то же самое что в таверне (контекст целиком считается очень редко), но насколько же умнее при этом все происходит... А главное - никаких тупых рамок и ограничений таверны. Захотел - сказал агенту - есть. Минус только один - надо более-бенее внятно сформулировать - чего ты хочешь. А так - можно даже карточки готовых персонажей от таверны скармливать, он разберется сам. Да еще и улучшит на ходу.
>>1556504 UPD, но эту штуку - только в VM или докер с изоляцией. Т.к. плата за такие возможности соответствующая - полный доступ к машине где работает.
>>1556504 Имаджинирую эту хуйню, в которой человеческого инпута около нуля. Беда всех РП с ассистентом как раз в этом. Но ты не видишь разницы, потому что тебе 12т/с "хватает" и просто ещё не приелись одни и те же стереотипы сетки, которыми она будет сыпать, а также не видишь безмозга, который у тебя произойдёт на локалке с раскиданной по контексту инфой.
>>1556504 UPD2: Если кто не понял - там ВООБЩЕ никакой еботни с промптами, форматами, и прочей технической стороной (после того как сопряжение с ламой уже настроено). Просто пишешь простым языком, на русском, и получаешь результат. Даже от "не очень сильной" модели.
>>1556522 Чел, прости, но от твоего сообщения просто ржать как конь сейчас тянет. Ты ВООБЩЕ не представляешь разницу между этим и таверной, кобольдом, и чем угодно, со статическим контекстом. Это не объяснить. Это надо просто попробовать и самому прочувствовать. Я даже детально отвечать не буду - смысла нет. Все равно что слепому цвет описывать. Эта хрень - шаг в сторону AGI. Не он, далеко не он, но явно в ту сторону.
>>1556538 >Эта хрень - шаг в сторону AGI. Проорал. Это агент-менеджер контекста. Анон выше вон не зассал и прислал в тред огромный чат. Показывай свои невьебенные логи, посмотрим
>>1556504 https://www.youtube.com/watch?v=iLfYYPlVi9g Добро пожаловать в клуб. К этому прикручивается картинкогенерация. Опционально, агенту можно сделать личность вайфу или желаемого персонажа, и активно использовать по прямому назначению как ассистента, только очень милого. Ну а потом там же и рпшить создавая сеттинги и события и сохраняя их чтобы вернуться потом, или кумить.
>>1556542 >Проорал. Надеюсь, соседи не пришли? :) Думаешь, я чего-то доказывать буду? Да мне плевать. Я просто личным впечатлением поделился пока ужин готовится, и мне пофиг - сейчас жрать, а потом опять туда. :)
>>1556570 Экстраординарные утверждения требуют экстраординарных доказательств. Слыхал такое? Тут люди годами дрочат модели и знают их способности, ты же приходишь с полотном и за других решаешь, чё они понимают, а чё нет >Ты ВООБЩЕ не представляешь разницу между этим и таверной, кобольдом, и чем угодно, со статическим контекстом Взял решил за чела, что он твою клешню не трогал и вообще недалекий. А когда реквестнули логи совершил переход в "я покакал, мне хорошо, а на вас похуй" Класика, чё ожидать от АГИ-шизы
>>1556504 Вот дураки сидят пердолят схемы суммаризации, и пытаются в рандомизацию промпта. А тут агент сам за всем следит и ничего не забывает, и измами не сыплет. Ну АГИ, как есть АГИ.
>>1556538 >со статическим контекстом Хуя ты додумал, додик восторжённый. Схуяли ты решил что контекст статический? Менеджмент контекста юзается сколько существуют нейронки. Агентные воркфлоу года с 2024, расширений завезли хоть обмазывайся. Только не клавом что делает бррр в лупе, потому что он пока что не способен до такого дойти, можешь поверить я на этом собаку съел, в РП он пригоден не более чем голая ЛЛМ. И да, логи тащи. Вангую там будут очередные Элары и таверны Пьяный дракон. Побороть низкоуровневые эффекты ЛЛМ промптингом это примерно как "придумать вечный двигатель".
>>1556578 >Вот дураки сидят пердолят схемы суммаризации, и пытаются в рандомизацию промпта. А тут агент сам за всем следит и ничего не забывает, и измами не сыплет. Ну АГИ, как есть АГИ. Троллинг скорее всего. Я честно признаю, что не в теме, но не написано даже какой агент. Что он может и как. "Сделай по инструкции" с квеном 27В и всё заебалось(с)? Поверю для корпоративной Гемини, не ниже, и то с оговорками.
>>1556577 >Взял решил за чела, что он твою клешню не трогал и вообще недалекий. Она не моя. А он - или не трогал, или не понял возможности. Но про недалекость я не говорил, не надо ля-ля. Я говорил что ржать от ответа тянет, но причины тут другие. Поясняю: это как сказать "какая музыка классная!" а в ответ "в музыке всего семь нот, что там классного?" :)
> чё ожидать от АГИ-шизы Таки заметьте - на личности перешел тут не я. :)
>>1556588 Очевидно он опенклюв на сухую мучает. Но дело не в этом. Ролеплей, созданный по минимальным вводным "можно грабить караваны, я буду там тем-то", будет состоять почти целиком из стереотипов сетки, из-за модального коллапса. Просто он пока их ещё не выучил и ему это кажется новинкой (не как что-то плохое). Среди ньюфань вчера не имевших понятия о теме и сегодня поставивших опенклюв, таких полно. С ними надо говорить когда они отыграют несколько таких РП и начнут что-то смутно подозревать...
>>1556608 Ну ты какие-то невероятные РП РПшишь, недоступные простым смертным... С которых ржать тянет по-лошадиному. Показывай давай, как у тебя домики набигают.
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/
Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI
Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux
Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard
Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw
Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985
Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.
Предыдущие треды тонут здесь: